神經(jīng)網(wǎng)絡翻譯(NMT)因數(shù)據(jù)饑餓而被詬病 – NMT引擎不僅需要大量數(shù)據(jù),還需要干凈,高質(zhì)量的數(shù)據(jù)。對于所謂的低資源語言來說,這是一個問題,因為很少有培訓數(shù)據(jù)來源。
對于社交媒體巨頭Facebook來說,這個問題不是一個抽象的問題。該社交網(wǎng)絡在2017年突破了20億用戶標記,該平臺每天執(zhí)行45億次翻譯。
這些數(shù)十億翻譯中的一部分用于低資源語言,例如越南語翻譯,土耳其語翻譯和菲律賓語翻譯,這是菲律賓的主要方言,菲律賓是全球社交媒體之都,擁有超過4700萬Facebook用戶。
所以Facebook正在為此問題投入一些現(xiàn)金。 Facebook研究為學術界開辟了一項研究補助金,以解決資源匱乏的NMT問題。
“在沒有大量平行語料庫的情況下,最大的挑戰(zhàn)之一是實現(xiàn)出色的翻譯準確度,”Facebook的公告宣讀。 “對于使用具有大量參數(shù)的模型的神經(jīng)機器翻譯(NMT)尤其如此。”
因此,F(xiàn)acebook研究將資助多達四項研究提案,從2018年6月開始,為期一年,贈款金額從20,000美元到40,000美元不等,可以選擇在評估后進一步提供資金。 Facebook研究開始提交截至2018年4月18日的補助金。成功的獲獎翻譯公司將在2018年5月前獲得通知。
研究提案需要專門解決低資源NMT問題。正如Facebook所說,主題包括但不限于:
低資源語言對的無監(jiān)督NMT
可比較的語料庫挖掘,再次用于低資源配對,以及
低資源NMT的單語資源
或者上述任何一種的組合。
Facebook研究要求申請人提交擬議項目的摘要以及季度里程碑的時間表,預算草案描述,當然還有參與者的簡歷。
Facebook研究也將在2018年9月召開研討會,這是在2018年11月六個月之前的幾個月,屆時將評估研究進展,“確定第二輪融資的機會”。