機(jī)器翻譯(Machine translation,MT)已經(jīng)成為語(yǔ)言和翻譯界一個(gè)非常重要的話題。越來(lái)越多的公司已經(jīng)開始應(yīng)用機(jī)器翻譯,因?yàn)樗梢允顾麄兊?a >翻譯項(xiàng)目受益。但機(jī)器翻譯到底是什么,存在哪些不同的類型?這些是我將在下一篇文章中更仔細(xì)研究的要點(diǎn)。
根據(jù)定義,機(jī)器翻譯是一種計(jì)算語(yǔ)言學(xué)和語(yǔ)言工程的形式,它使用軟件將文本或語(yǔ)音從一種語(yǔ)言翻譯到另一種語(yǔ)言?;旧希跈C(jī)器翻譯過程中,一個(gè)源語(yǔ)言單詞被目標(biāo)語(yǔ)言中的一個(gè)單詞所代替。但不要把機(jī)器翻譯與計(jì)算機(jī)輔助翻譯(CAT)混淆,后者是指人工翻譯人員使用計(jì)算機(jī)軟件輔助翻譯過程;CAT工具不會(huì)自動(dòng)翻譯內(nèi)容。
有幾種機(jī)器翻譯引擎可以對(duì)內(nèi)容進(jìn)行不同的分析和處理。最常見的是基于規(guī)則的機(jī)器翻譯和統(tǒng)計(jì)機(jī)器翻譯。
基于規(guī)則的機(jī)器翻譯(RBMT)
基于規(guī)則的引擎使用無(wú)數(shù)的語(yǔ)法和語(yǔ)言規(guī)則來(lái)分析內(nèi)容和分解文本。在使用這些規(guī)則時(shí),源語(yǔ)言的語(yǔ)法結(jié)構(gòu)被轉(zhuǎn)換成目標(biāo)語(yǔ)言。雙語(yǔ)詞典也用于語(yǔ)言對(duì),可以添加自定義術(shù)語(yǔ)列表來(lái)微調(diào)引擎。通過在特定主題或行業(yè)中添加特定術(shù)語(yǔ),可以在特定主題上創(chuàng)建更可靠的翻譯結(jié)果?;谝?guī)則的引擎不需要雙語(yǔ)語(yǔ)料庫(kù)(也稱為大型結(jié)構(gòu)化文本集)來(lái)創(chuàng)建翻譯系統(tǒng)。
基于規(guī)則的引擎由于翻譯所基于的語(yǔ)法規(guī)則和詞典的數(shù)量,產(chǎn)生了相當(dāng)可預(yù)測(cè)的,但也非常一致的輸出。由于設(shè)置了規(guī)則,每個(gè)錯(cuò)誤都可以用目標(biāo)規(guī)則來(lái)糾正。因此,通過添加更多的規(guī)則和更多的詞典或術(shù)語(yǔ),可以改進(jìn)翻譯。
統(tǒng)計(jì)機(jī)器翻譯(SMT)
與RBMT不同,統(tǒng)計(jì)機(jī)器翻譯不基于語(yǔ)言規(guī)則分析文本。相反,這個(gè)引擎“學(xué)習(xí)”如何翻譯文本。因此,它分析語(yǔ)言對(duì)中的大量數(shù)據(jù),然后使用其統(tǒng)計(jì)翻譯模型來(lái)創(chuàng)建源內(nèi)容的翻譯。該模型是通過分析雙語(yǔ)語(yǔ)料庫(kù)建立起來(lái)的,需要適當(dāng)?shù)碾p語(yǔ)內(nèi)容量。使用SMT,還可以通過提供與所討論主題相關(guān)的更多數(shù)據(jù)來(lái)關(guān)注特定主題或行業(yè)。
機(jī)器翻譯與神經(jīng)網(wǎng)絡(luò)
機(jī)器翻譯正在發(fā)展。自2013年以來(lái),谷歌和微軟等互聯(lián)網(wǎng)巨頭一直在探索使用神經(jīng)網(wǎng)絡(luò)的可能性。神經(jīng)網(wǎng)絡(luò)是最早應(yīng)用于語(yǔ)音和圖像識(shí)別技術(shù)的統(tǒng)計(jì)學(xué)習(xí)模型。在機(jī)器翻譯中使用它們使引擎能夠通過模式和結(jié)構(gòu)訓(xùn)練自己如何使用類似于人腦工作方式的過程翻譯文本。這個(gè)過程被稱為“深度學(xué)習(xí)”,它基于通過實(shí)施大數(shù)據(jù)分析而確立的原則。
雖然神經(jīng)機(jī)器翻譯(NMT)是一種新的翻譯方法,但它被認(rèn)為是一個(gè)巨大的突破,并且已經(jīng)在機(jī)器翻譯研究者中非常流行,因?yàn)楹苊黠@,它在大多數(shù)情況下提高了翻譯,提供的輸出看起來(lái)更流暢,更人性化。
他們說(shuō),NMT可以創(chuàng)造更流暢的翻譯,并且可以減少多達(dá)25%的后期編輯工作。對(duì)于一些語(yǔ)言專業(yè)人士來(lái)說(shuō),毫無(wú)疑問,神經(jīng)機(jī)器翻譯比基于規(guī)則或統(tǒng)計(jì)的機(jī)器翻譯表現(xiàn)得更好。NMT系統(tǒng)能夠理解和看到單詞的相似性,考慮整個(gè)句子,學(xué)習(xí)語(yǔ)言之間的復(fù)雜關(guān)系(來(lái)源:神經(jīng)翻譯是一個(gè)突破的三個(gè)原因)。
由于每個(gè)引擎處理和生成數(shù)據(jù)的方式不同,因此為項(xiàng)目選擇的引擎取決于目標(biāo)語(yǔ)言和給定源文件的參考資料的可用性。一般來(lái)說(shuō),機(jī)器翻譯最適合重復(fù)性和簡(jiǎn)單性的內(nèi)容,在這些內(nèi)容中,相同的詞被重用,同義詞被最小化。毫無(wú)疑問,機(jī)器翻譯的優(yōu)勢(shì)在于:它提高了生產(chǎn)率,縮短了上市時(shí)間,提高了術(shù)語(yǔ)的一致性。