機器翻譯(Machine translation,MT)已經(jīng)成為語言和翻譯界一個非常重要的話題。越來越多的公司已經(jīng)開始應(yīng)用機器翻譯,因為它可以使他們的翻譯項目受益。但機器翻譯到底是什么,存在哪些不同的類型?這些是我將在下一篇文章中更仔細研究的要點。
根據(jù)定義,機器翻譯是一種計算語言學(xué)和語言工程的形式,它使用軟件將文本或語音從一種語言翻譯到另一種語言?;旧希跈C器翻譯過程中,一個源語言單詞被目標語言中的一個單詞所代替。但不要把機器翻譯與計算機輔助翻譯(CAT)混淆,后者是指人工翻譯人員使用計算機軟件輔助翻譯過程;CAT工具不會自動翻譯內(nèi)容。
有幾種機器翻譯引擎可以對內(nèi)容進行不同的分析和處理。最常見的是基于規(guī)則的機器翻譯和統(tǒng)計機器翻譯。
基于規(guī)則的機器翻譯(RBMT)
基于規(guī)則的引擎使用無數(shù)的語法和語言規(guī)則來分析內(nèi)容和分解文本。在使用這些規(guī)則時,源語言的語法結(jié)構(gòu)被轉(zhuǎn)換成目標語言。雙語詞典也用于語言對,可以添加自定義術(shù)語列表來微調(diào)引擎。通過在特定主題或行業(yè)中添加特定術(shù)語,可以在特定主題上創(chuàng)建更可靠的翻譯結(jié)果?;谝?guī)則的引擎不需要雙語語料庫(也稱為大型結(jié)構(gòu)化文本集)來創(chuàng)建翻譯系統(tǒng)。
基于規(guī)則的引擎由于翻譯所基于的語法規(guī)則和詞典的數(shù)量,產(chǎn)生了相當(dāng)可預(yù)測的,但也非常一致的輸出。由于設(shè)置了規(guī)則,每個錯誤都可以用目標規(guī)則來糾正。因此,通過添加更多的規(guī)則和更多的詞典或術(shù)語,可以改進翻譯。
統(tǒng)計機器翻譯(SMT)
與RBMT不同,統(tǒng)計機器翻譯不基于語言規(guī)則分析文本。相反,這個引擎“學(xué)習(xí)”如何翻譯文本。因此,它分析語言對中的大量數(shù)據(jù),然后使用其統(tǒng)計翻譯模型來創(chuàng)建源內(nèi)容的翻譯。該模型是通過分析雙語語料庫建立起來的,需要適當(dāng)?shù)碾p語內(nèi)容量。使用SMT,還可以通過提供與所討論主題相關(guān)的更多數(shù)據(jù)來關(guān)注特定主題或行業(yè)。
機器翻譯與神經(jīng)網(wǎng)絡(luò)
機器翻譯正在發(fā)展。自2013年以來,谷歌和微軟等互聯(lián)網(wǎng)巨頭一直在探索使用神經(jīng)網(wǎng)絡(luò)的可能性。神經(jīng)網(wǎng)絡(luò)是最早應(yīng)用于語音和圖像識別技術(shù)的統(tǒng)計學(xué)習(xí)模型。在機器翻譯中使用它們使引擎能夠通過模式和結(jié)構(gòu)訓(xùn)練自己如何使用類似于人腦工作方式的過程翻譯文本。這個過程被稱為“深度學(xué)習(xí)”,它基于通過實施大數(shù)據(jù)分析而確立的原則。
雖然神經(jīng)機器翻譯(NMT)是一種新的翻譯方法,但它被認為是一個巨大的突破,并且已經(jīng)在機器翻譯研究者中非常流行,因為很明顯,它在大多數(shù)情況下提高了翻譯,提供的輸出看起來更流暢,更人性化。
他們說,NMT可以創(chuàng)造更流暢的翻譯,并且可以減少多達25%的后期編輯工作。對于一些語言專業(yè)人士來說,毫無疑問,神經(jīng)機器翻譯比基于規(guī)則或統(tǒng)計的機器翻譯表現(xiàn)得更好。NMT系統(tǒng)能夠理解和看到單詞的相似性,考慮整個句子,學(xué)習(xí)語言之間的復(fù)雜關(guān)系(來源:神經(jīng)翻譯是一個突破的三個原因)。
由于每個引擎處理和生成數(shù)據(jù)的方式不同,因此為項目選擇的引擎取決于目標語言和給定源文件的參考資料的可用性。一般來說,機器翻譯最適合重復(fù)性和簡單性的內(nèi)容,在這些內(nèi)容中,相同的詞被重用,同義詞被最小化。毫無疑問,機器翻譯的優(yōu)勢在于:它提高了生產(chǎn)率,縮短了上市時間,提高了術(shù)語的一致性。