機器翻譯(Machine translation,MT)已經成為語言和翻譯界一個非常重要的話題。越來越多的公司已經開始應用機器翻譯,因為它可以使他們的翻譯項目受益。但機器翻譯到底是什么,存在哪些不同的類型?這些是我將在下一篇文章中更仔細研究的要點。
根據定義,機器翻譯是一種計算語言學和語言工程的形式,它使用軟件將文本或語音從一種語言翻譯到另一種語言?;旧?,在機器翻譯過程中,一個源語言單詞被目標語言中的一個單詞所代替。但不要把機器翻譯與計算機輔助翻譯(CAT)混淆,后者是指人工翻譯人員使用計算機軟件輔助翻譯過程;CAT工具不會自動翻譯內容。
有幾種機器翻譯引擎可以對內容進行不同的分析和處理。最常見的是基于規(guī)則的機器翻譯和統(tǒng)計機器翻譯。
基于規(guī)則的機器翻譯(RBMT)
基于規(guī)則的引擎使用無數的語法和語言規(guī)則來分析內容和分解文本。在使用這些規(guī)則時,源語言的語法結構被轉換成目標語言。雙語詞典也用于語言對,可以添加自定義術語列表來微調引擎。通過在特定主題或行業(yè)中添加特定術語,可以在特定主題上創(chuàng)建更可靠的翻譯結果。基于規(guī)則的引擎不需要雙語語料庫(也稱為大型結構化文本集)來創(chuàng)建翻譯系統(tǒng)。
基于規(guī)則的引擎由于翻譯所基于的語法規(guī)則和詞典的數量,產生了相當可預測的,但也非常一致的輸出。由于設置了規(guī)則,每個錯誤都可以用目標規(guī)則來糾正。因此,通過添加更多的規(guī)則和更多的詞典或術語,可以改進翻譯。
統(tǒng)計機器翻譯(SMT)
與RBMT不同,統(tǒng)計機器翻譯不基于語言規(guī)則分析文本。相反,這個引擎“學習”如何翻譯文本。因此,它分析語言對中的大量數據,然后使用其統(tǒng)計翻譯模型來創(chuàng)建源內容的翻譯。該模型是通過分析雙語語料庫建立起來的,需要適當的雙語內容量。使用SMT,還可以通過提供與所討論主題相關的更多數據來關注特定主題或行業(yè)。
機器翻譯與神經網絡
機器翻譯正在發(fā)展。自2013年以來,谷歌和微軟等互聯(lián)網巨頭一直在探索使用神經網絡的可能性。神經網絡是最早應用于語音和圖像識別技術的統(tǒng)計學習模型。在機器翻譯中使用它們使引擎能夠通過模式和結構訓練自己如何使用類似于人腦工作方式的過程翻譯文本。這個過程被稱為“深度學習”,它基于通過實施大數據分析而確立的原則。
雖然神經機器翻譯(NMT)是一種新的翻譯方法,但它被認為是一個巨大的突破,并且已經在機器翻譯研究者中非常流行,因為很明顯,它在大多數情況下提高了翻譯,提供的輸出看起來更流暢,更人性化。
他們說,NMT可以創(chuàng)造更流暢的翻譯,并且可以減少多達25%的后期編輯工作。對于一些語言專業(yè)人士來說,毫無疑問,神經機器翻譯比基于規(guī)則或統(tǒng)計的機器翻譯表現得更好。NMT系統(tǒng)能夠理解和看到單詞的相似性,考慮整個句子,學習語言之間的復雜關系(來源:神經翻譯是一個突破的三個原因)。
由于每個引擎處理和生成數據的方式不同,因此為項目選擇的引擎取決于目標語言和給定源文件的參考資料的可用性。一般來說,機器翻譯最適合重復性和簡單性的內容,在這些內容中,相同的詞被重用,同義詞被最小化。毫無疑問,機器翻譯的優(yōu)勢在于:它提高了生產率,縮短了上市時間,提高了術語的一致性。