• 學術動態

    您所在的位置: 首頁 / 學術動態

    非自回歸多模態翻譯

    主講人:趙洲

    時間:2020年11月08日  18:30-21:35

    地點:信息學院會議室(C309)、騰訊會議:333 345 708、B站:CCF-NLP賬號

    主講人簡介:趙洲,浙江大學計算機學院的副教授,博導。2015年博士畢業于香港科技大學。從事自然語言理解和多媒體計算研究。在NIPS、ICLR、ICML、ACL等會議和TKDE、TIP等國際期刊和會議發表50余篇論文,其中以第一作者發表15篇。獲得耶魯大學發布的跨領域多表復雜Text2SQL競賽(Spider)第二名、美國斯坦福大學舉辦的機器閱讀理解競賽(SQuAD)單模型組第二名成績和多模型組第三名成績(2017年)、CCF-NLPCC多輪對話生成任務冠軍(2018年)。主持國家自然基金面上項目、青年項目和基金重點項目課題;以及浙江省自然基金杰出青年基金項目。

    內容摘要:多模態翻譯任務是指在不同模態的數據(包括文本、語音、圖像或視頻等)之間進行互相轉化的任務,例如:語音合成、語音識別和唇語識別等,它們旨在通過機器學習或深度學習的方法理解源模態信息并生成目標模態數據。當前,多模態翻譯具有以下挑戰:1、不同模態數據之間通常具有語意(信息量)差異,例如:在語音合成中,語音比文本包含更多的韻律和情感信息,而在唇語識別中,文本比視頻包含更明確和清晰的語音信息,這使得多模態翻譯模型具有預測和填補缺失的信息的能力;2、不同模態數據之間通常具有長度差異,例如:語音和視頻的序列通常會比文本長得多,因此多模態翻譯模型需要解決數據之間長度不匹配問題,并找到其中的映射關系。針對以上挑戰,最近的工作提出了一些較為有效的解決思路:基于編碼器-解碼器的序列生成自回歸模型、基于時長預測模型和脈沖神經網絡的非自回歸架構均可以較好地預測和填補缺失的信息,并解決長度不匹配問題。本報告將首先介紹當今主流的多模態翻譯任務,然后介紹幾個具有啟發意義的多模態翻譯工作,最后對未來可能的研究方向進行思考與展望。

    拉菲彩票