根據(jù)定義,機(jī)器翻譯是一種計(jì)算語(yǔ)言學(xué)和語(yǔ)言工程的形式,它使用軟件將文本或語(yǔ)音從一種語(yǔ)言翻譯到另一種語(yǔ)言?;旧?,在機(jī)器翻譯過(guò)程中,一個(gè)源語(yǔ)言單詞被目標(biāo)語(yǔ)言中的一個(gè)單詞所代替。但不要把機(jī)器翻譯與計(jì)算機(jī)輔助翻譯(CAT)混淆,后者是指人工翻譯人員使用計(jì)算機(jī)軟件輔助翻譯過(guò)程;CAT工具不會(huì)自動(dòng)翻譯內(nèi)容。
有幾種機(jī)器翻譯引擎可以對(duì)內(nèi)容進(jìn)行不同的分析和處理。最常見的是基于規(guī)則的機(jī)器翻譯和統(tǒng)計(jì)機(jī)器翻譯。
基于規(guī)則的機(jī)器翻譯(RBMT)
基于規(guī)則的引擎使用無(wú)數(shù)的語(yǔ)法和語(yǔ)言規(guī)則來(lái)分析內(nèi)容和分解文本。在使用這些規(guī)則時(shí),源語(yǔ)言的語(yǔ)法結(jié)構(gòu)被轉(zhuǎn)換成目標(biāo)語(yǔ)言。雙語(yǔ)詞典也用于語(yǔ)言對(duì),可以添加自定義術(shù)語(yǔ)列表來(lái)微調(diào)引擎。通過(guò)在特定主題或行業(yè)中添加特定術(shù)語(yǔ),可以在特定主題上創(chuàng)建更可靠的翻譯結(jié)果?;谝?guī)則的引擎不需要雙語(yǔ)語(yǔ)料庫(kù)(也稱為大型結(jié)構(gòu)化文本集)來(lái)創(chuàng)建翻譯系統(tǒng)。
基于規(guī)則的引擎由于翻譯所基于的語(yǔ)法規(guī)則和詞典的數(shù)量,產(chǎn)生了相當(dāng)可預(yù)測(cè)的,但也非常一致的輸出。由于設(shè)置了規(guī)則,每個(gè)錯(cuò)誤都可以用目標(biāo)規(guī)則來(lái)糾正。因此,通過(guò)添加更多的規(guī)則和更多的詞典或術(shù)語(yǔ),可以改進(jìn)翻譯。
統(tǒng)計(jì)機(jī)器翻譯(SMT)
與RBMT不同,統(tǒng)計(jì)機(jī)器翻譯不基于語(yǔ)言規(guī)則分析文本。相反,這個(gè)引擎“學(xué)習(xí)”如何翻譯文本。因此,它分析語(yǔ)言對(duì)中的大量數(shù)據(jù),然后使用其統(tǒng)計(jì)翻譯模型來(lái)創(chuàng)建源內(nèi)容的翻譯。該模型是通過(guò)分析雙語(yǔ)語(yǔ)料庫(kù)建立起來(lái)的,需要適當(dāng)?shù)碾p語(yǔ)內(nèi)容量。使用SMT,還可以通過(guò)提供與所討論主題相關(guān)的更多數(shù)據(jù)來(lái)關(guān)注特定主題或行業(yè)。
機(jī)器翻譯與神經(jīng)網(wǎng)絡(luò)
機(jī)器翻譯正在發(fā)展。自2013年以來(lái),谷歌和微軟等互聯(lián)網(wǎng)巨頭一直在探索使用神經(jīng)網(wǎng)絡(luò)的可能性。神經(jīng)網(wǎng)絡(luò)是最早應(yīng)用于語(yǔ)音和圖像識(shí)別技術(shù)的統(tǒng)計(jì)學(xué)習(xí)模型。在機(jī)器翻譯中使用它們使引擎能夠通過(guò)模式和結(jié)構(gòu)訓(xùn)練自己如何使用類似于人腦工作方式的過(guò)程翻譯文本。這個(gè)過(guò)程被稱為“深度學(xué)習(xí)”,它基于通過(guò)實(shí)施大數(shù)據(jù)分析而確立的原則。
雖然神經(jīng)機(jī)器翻譯(NMT)是一種新的翻譯方法,但它被認(rèn)為是一個(gè)巨大的突破,并且已經(jīng)在機(jī)器翻譯研究者中非常流行,因?yàn)楹苊黠@,它在大多數(shù)情況下提高了翻譯,提供的輸出看起來(lái)更流暢,更人性化。
他們說(shuō),NMT可以創(chuàng)造更流暢的翻譯,并且可以減少多達(dá)25%的后期編輯工作。對(duì)于一些語(yǔ)言專業(yè)人士來(lái)說(shuō),毫無(wú)疑問(wèn),神經(jīng)機(jī)器翻譯比基于規(guī)則或統(tǒng)計(jì)的機(jī)器翻譯表現(xiàn)得更好。NMT系統(tǒng)能夠理解和看到單詞的相似性,考慮整個(gè)句子,學(xué)習(xí)語(yǔ)言之間的復(fù)雜關(guān)系(來(lái)源:神經(jīng)翻譯是一個(gè)突破的三個(gè)原因)。
由于每個(gè)引擎處理和生成數(shù)據(jù)的方式不同,因此為項(xiàng)目選擇的引擎取決于目標(biāo)語(yǔ)言和給定源文件的參考資料的可用性。一般來(lái)說(shuō),機(jī)器翻譯最適合重復(fù)性和簡(jiǎn)單性的內(nèi)容,在這些內(nèi)容中,相同的詞被重用,同義詞被最小化。毫無(wú)疑問(wèn),機(jī)器翻譯的優(yōu)勢(shì)在于:它提高了生產(chǎn)率,縮短了上市時(shí)間,提高了術(shù)語(yǔ)的一致性。
]]>毫無(wú)疑問(wèn),技術(shù)和機(jī)器為人們的生活方式帶來(lái)了質(zhì)量。但機(jī)器和技術(shù)給我們的生活帶來(lái)了哪些改進(jìn)?嗯,實(shí)際上相當(dāng)多。最簡(jiǎn)單的例子就是汽車,可以讓你在一小時(shí)內(nèi)到達(dá)50英里……運(yùn)行相同的距離會(huì)花費(fèi)你更長(zhǎng)的時(shí)間,更不用說(shuō)所付出的努力以及你會(huì)出汗的事實(shí)桶。而且,再舉一個(gè)例子,手術(shù)刀與激光手術(shù)的精確度無(wú)法匹敵。
技術(shù)在無(wú)數(shù)領(lǐng)域擊敗了人類。但是,人類將永遠(yuǎn)統(tǒng)治哪些領(lǐng)域?是否有任何領(lǐng)域的機(jī)器永遠(yuǎn)無(wú)法擊敗由肉和骨頭制成的功能齊全的智人?
嗯,除了人類首先制造所有這些巧妙的機(jī)器這一事實(shí)外,還有一些領(lǐng)域我們是不可替代的。讓你的電腦寫一首詩(shī)或嘗試你的筆記本在歌曲創(chuàng)作方面的才能;結(jié)果不會(huì)太討人喜歡。機(jī)器很好……但它們并不是那么好。
語(yǔ)言只有人類才能完全理解和翻譯。谷歌,雅虎和必應(yīng)已經(jīng)成功地將自動(dòng)化翻譯帶到了令人印象深刻的水平,但機(jī)器翻譯永遠(yuǎn)無(wú)法與翻譯公司的人工翻譯競(jìng)爭(zhēng)。語(yǔ)言中包含的不同風(fēng)格,語(yǔ)境,文化和細(xì)微差別只是機(jī)器無(wú)法理解的一些基本細(xì)節(jié)。
嘗試使用在線翻譯器將外語(yǔ)電子郵件翻譯成您的母語(yǔ),您可能會(huì)得到消息的要點(diǎn);但是,你會(huì)注意到翻譯聽起來(lái)不太合適。
現(xiàn)在,想象一個(gè)更復(fù)雜的文本,如小說(shuō),它使用更大的形容詞和名詞庫(kù),混合隱喻和口語(yǔ),同時(shí)使用同義詞左,右和中心。嘗試使用撰寫文本的原始語(yǔ)言,將Flaubert或您選擇的作者的幾個(gè)段落輸入Google Translate。讓機(jī)器將其翻譯成英語(yǔ)(或您熟悉的語(yǔ)言),您很快就會(huì)發(fā)現(xiàn)文本可能沒(méi)什么意義。
語(yǔ)言是一種了不起的溝通工具。這也是創(chuàng)建一個(gè)真正的地球村的最后障礙之一,除非地球上60億人口中的所有人都同意說(shuō)一種共同語(yǔ)言,否則情況將繼續(xù)如此。這就是為什么翻譯在當(dāng)今全天候數(shù)字化,全球化的世界中是如此重要的工具。
跨語(yǔ)言有很多怪癖,有助于突出人們?cè)诜g時(shí)總是擁有高端機(jī)器的原因。很多單詞在語(yǔ)言之間根本不能很好地翻譯。
例如,écoeurant是一個(gè)法語(yǔ)單詞,意思是惡心,但這個(gè)詞主要用于太甜或太豐富的食物,并不一定會(huì)讓人嘔吐。英語(yǔ)沒(méi)有任何單詞意味著相同的東西,因此需要更明確的翻譯,需要人類的語(yǔ)言靈活性。
然后是來(lái)自德國(guó)的Torschlusspanik,這個(gè)詞用于描述隨著年齡的增長(zhǎng)而減少機(jī)會(huì)的恐懼,并且最常用于參與反對(duì)生物鐘的女性以便結(jié)婚和生育孩子。
然后是相當(dāng)令人印象深刻的Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz,這是一個(gè)由不同德語(yǔ)單詞組成的復(fù)合物,指定了關(guān)于牛肉控制的法律(Rindfleisch =牛肉,Ettikettierung =標(biāo)簽,überwachung=控制/監(jiān)控,Aufgabenübertragung=委托,Gesetz =法律)。當(dāng)然,這個(gè)詞真的不再使用了(甚至德國(guó)人也不喜歡使用longwordcombinations),但它仍然是一個(gè)很好的例子,根本不會(huì)很容易地翻譯成英語(yǔ)。
翻譯人員經(jīng)常被選為最難翻譯的詞之一是Ilunga,來(lái)自剛果民主共和國(guó)(DRC)東南角的Tshiluba語(yǔ)言。這個(gè)詞用來(lái)描述一個(gè)準(zhǔn)備在第一次發(fā)生任何虐待時(shí)準(zhǔn)備好的人,第二次容忍它,但如果第三次發(fā)生,既不會(huì)原諒也不能容忍它。如果專業(yè)翻譯人員難以將這一概念傳達(dá)給其他語(yǔ)言,您可以想象一臺(tái)機(jī)器將無(wú)法呈現(xiàn)該詞的含義。
語(yǔ)言之間的差異并不止于難以翻譯的古怪詞匯。例如,印歐語(yǔ)系和閃米特語(yǔ)(大多數(shù)歐洲語(yǔ)言加上來(lái)自中東,非洲和亞洲的一些其他語(yǔ)言)都使用“文章”。法語(yǔ)有l(wèi)e,la,les或un,u
]]>