根據(jù)定義,機器翻譯是一種計算語言學和語言工程的形式,它使用軟件將文本或語音從一種語言翻譯到另一種語言?;旧?,在機器翻譯過程中,一個源語言單詞被目標語言中的一個單詞所代替。但不要把機器翻譯與計算機輔助翻譯(CAT)混淆,后者是指人工翻譯人員使用計算機軟件輔助翻譯過程;CAT工具不會自動翻譯內(nèi)容。
有幾種機器翻譯引擎可以對內(nèi)容進行不同的分析和處理。最常見的是基于規(guī)則的機器翻譯和統(tǒng)計機器翻譯。
基于規(guī)則的機器翻譯(RBMT)
基于規(guī)則的引擎使用無數(shù)的語法和語言規(guī)則來分析內(nèi)容和分解文本。在使用這些規(guī)則時,源語言的語法結構被轉(zhuǎn)換成目標語言。雙語詞典也用于語言對,可以添加自定義術語列表來微調(diào)引擎。通過在特定主題或行業(yè)中添加特定術語,可以在特定主題上創(chuàng)建更可靠的翻譯結果?;谝?guī)則的引擎不需要雙語語料庫(也稱為大型結構化文本集)來創(chuàng)建翻譯系統(tǒng)。
基于規(guī)則的引擎由于翻譯所基于的語法規(guī)則和詞典的數(shù)量,產(chǎn)生了相當可預測的,但也非常一致的輸出。由于設置了規(guī)則,每個錯誤都可以用目標規(guī)則來糾正。因此,通過添加更多的規(guī)則和更多的詞典或術語,可以改進翻譯。
統(tǒng)計機器翻譯(SMT)
與RBMT不同,統(tǒng)計機器翻譯不基于語言規(guī)則分析文本。相反,這個引擎“學習”如何翻譯文本。因此,它分析語言對中的大量數(shù)據(jù),然后使用其統(tǒng)計翻譯模型來創(chuàng)建源內(nèi)容的翻譯。該模型是通過分析雙語語料庫建立起來的,需要適當?shù)碾p語內(nèi)容量。使用SMT,還可以通過提供與所討論主題相關的更多數(shù)據(jù)來關注特定主題或行業(yè)。
機器翻譯與神經(jīng)網(wǎng)絡
機器翻譯正在發(fā)展。自2013年以來,谷歌和微軟等互聯(lián)網(wǎng)巨頭一直在探索使用神經(jīng)網(wǎng)絡的可能性。神經(jīng)網(wǎng)絡是最早應用于語音和圖像識別技術的統(tǒng)計學習模型。在機器翻譯中使用它們使引擎能夠通過模式和結構訓練自己如何使用類似于人腦工作方式的過程翻譯文本。這個過程被稱為“深度學習”,它基于通過實施大數(shù)據(jù)分析而確立的原則。
雖然神經(jīng)機器翻譯(NMT)是一種新的翻譯方法,但它被認為是一個巨大的突破,并且已經(jīng)在機器翻譯研究者中非常流行,因為很明顯,它在大多數(shù)情況下提高了翻譯,提供的輸出看起來更流暢,更人性化。
他們說,NMT可以創(chuàng)造更流暢的翻譯,并且可以減少多達25%的后期編輯工作。對于一些語言專業(yè)人士來說,毫無疑問,神經(jīng)機器翻譯比基于規(guī)則或統(tǒng)計的機器翻譯表現(xiàn)得更好。NMT系統(tǒng)能夠理解和看到單詞的相似性,考慮整個句子,學習語言之間的復雜關系(來源:神經(jīng)翻譯是一個突破的三個原因)。
由于每個引擎處理和生成數(shù)據(jù)的方式不同,因此為項目選擇的引擎取決于目標語言和給定源文件的參考資料的可用性。一般來說,機器翻譯最適合重復性和簡單性的內(nèi)容,在這些內(nèi)容中,相同的詞被重用,同義詞被最小化。毫無疑問,機器翻譯的優(yōu)勢在于:它提高了生產(chǎn)率,縮短了上市時間,提高了術語的一致性。
]]>毫無疑問,技術和機器為人們的生活方式帶來了質(zhì)量。但機器和技術給我們的生活帶來了哪些改進?嗯,實際上相當多。最簡單的例子就是汽車,可以讓你在一小時內(nèi)到達50英里……運行相同的距離會花費你更長的時間,更不用說所付出的努力以及你會出汗的事實桶。而且,再舉一個例子,手術刀與激光手術的精確度無法匹敵。
技術在無數(shù)領域擊敗了人類。但是,人類將永遠統(tǒng)治哪些領域?是否有任何領域的機器永遠無法擊敗由肉和骨頭制成的功能齊全的智人?
嗯,除了人類首先制造所有這些巧妙的機器這一事實外,還有一些領域我們是不可替代的。讓你的電腦寫一首詩或嘗試你的筆記本在歌曲創(chuàng)作方面的才能;結果不會太討人喜歡。機器很好……但它們并不是那么好。
語言只有人類才能完全理解和翻譯。谷歌,雅虎和必應已經(jīng)成功地將自動化翻譯帶到了令人印象深刻的水平,但機器翻譯永遠無法與翻譯公司的人工翻譯競爭。語言中包含的不同風格,語境,文化和細微差別只是機器無法理解的一些基本細節(jié)。
嘗試使用在線翻譯器將外語電子郵件翻譯成您的母語,您可能會得到消息的要點;但是,你會注意到翻譯聽起來不太合適。
現(xiàn)在,想象一個更復雜的文本,如小說,它使用更大的形容詞和名詞庫,混合隱喻和口語,同時使用同義詞左,右和中心。嘗試使用撰寫文本的原始語言,將Flaubert或您選擇的作者的幾個段落輸入Google Translate。讓機器將其翻譯成英語(或您熟悉的語言),您很快就會發(fā)現(xiàn)文本可能沒什么意義。
語言是一種了不起的溝通工具。這也是創(chuàng)建一個真正的地球村的最后障礙之一,除非地球上60億人口中的所有人都同意說一種共同語言,否則情況將繼續(xù)如此。這就是為什么翻譯在當今全天候數(shù)字化,全球化的世界中是如此重要的工具。
跨語言有很多怪癖,有助于突出人們在翻譯時總是擁有高端機器的原因。很多單詞在語言之間根本不能很好地翻譯。
例如,écoeurant是一個法語單詞,意思是惡心,但這個詞主要用于太甜或太豐富的食物,并不一定會讓人嘔吐。英語沒有任何單詞意味著相同的東西,因此需要更明確的翻譯,需要人類的語言靈活性。
然后是來自德國的Torschlusspanik,這個詞用于描述隨著年齡的增長而減少機會的恐懼,并且最常用于參與反對生物鐘的女性以便結婚和生育孩子。
然后是相當令人印象深刻的Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz,這是一個由不同德語單詞組成的復合物,指定了關于牛肉控制的法律(Rindfleisch =牛肉,Ettikettierung =標簽,überwachung=控制/監(jiān)控,Aufgabenübertragung=委托,Gesetz =法律)。當然,這個詞真的不再使用了(甚至德國人也不喜歡使用longwordcombinations),但它仍然是一個很好的例子,根本不會很容易地翻譯成英語。
翻譯人員經(jīng)常被選為最難翻譯的詞之一是Ilunga,來自剛果民主共和國(DRC)東南角的Tshiluba語言。這個詞用來描述一個準備在第一次發(fā)生任何虐待時準備好的人,第二次容忍它,但如果第三次發(fā)生,既不會原諒也不能容忍它。如果專業(yè)翻譯人員難以將這一概念傳達給其他語言,您可以想象一臺機器將無法呈現(xiàn)該詞的含義。
語言之間的差異并不止于難以翻譯的古怪詞匯。例如,印歐語系和閃米特語(大多數(shù)歐洲語言加上來自中東,非洲和亞洲的一些其他語言)都使用“文章”。法語有l(wèi)e,la,les或un,u
]]>