
近日,蘋果公司與南加州大學(USC)合作發(fā)表了一篇文章,探討其采用的機器學習方法,旨在為iOS18操作系統用戶提供更多翻譯中的性別選項。
在iOS18中,用戶可以在原生翻譯應用中選擇翻譯詞匯的替代性別建議。這一功能解決了世界上229種已知語言中有84種使用基于性別的系統所帶來的挑戰(zhàn)。
令人驚訝的是,英語也屬于基于性別的類別,因為它分配了陽性或陰性的單數代詞。相比之下,所有羅曼語系語言(包括超過5億西班牙語使用者以及許多其他流行語言,如俄語)都需要性別一致,這要求翻譯系統解決語言中的性別分配問題。
新文章通過觀察將句子“秘書對老板很生氣”翻譯成西班牙語的所有可能情況來說明了這一點。簡單的翻譯對于較長的文本來說遠遠不夠,因為較長的文本可能從一開始就確定了性別(“他”、“她”等),并且不會再次提及。因此,翻譯必須記住文本中參與者的分配性別。
這對于處理離散片段翻譯的基于標記的方法來說可能具有挑戰(zhàn)性,因為它們可能會丟失性別上下文。此外,提供替代性別翻譯的系統不能隨意進行,而必須確保所有語言部分都與修改后的性別名詞保持一致。
蘋果和USC的方法有效地將單標記翻譯轉換為用戶控制的矩陣。這為在蘋果翻譯或提供翻譯服務的類似門戶中,將用戶選擇納入未來模型迭代提供了可能性。
蘋果和USC開發(fā)的模型在GATE和MT-GenEval測試集上進行了評估。GATE包含最多具有3個性別模糊實體的源句子,而MT-GenEval包含無法推斷性別的材料,有助于理解何時不提供替代性別選項。
為了訓練系統,研究人員依靠了一種創(chuàng)新的自動數據增強算法,這與上述人工注釋的測試集不同。為蘋果策劃做出貢獻的數據集包括Europarl、WikiTitles和WikiMatrix。語料庫被分為Tag G(包含12,000個句子),涵蓋所有具有性別模糊注釋的實體的關鍵詞短語,以及G-Trans(包含50,000個句子),其中包含性別模糊實體和性別對齊。
作者利用了2019年以前的方法來為模型提供生成性別對齊的能力,使用交叉熵損失和額外的對齊損失進行訓練。對于數據增強程序,他們避免了傳統的基于規(guī)則的方法,而傾向于以數據為中心的方法,在G-Tag數據集上對預訓練的BERT語言模型進行微調。
在檢測到性別模糊實體的情況下,蘋果和USC探索了兩種方法:微調預訓練的語言模型和使用大型語言模型(LLM)。對于第一種方法,他們在從G-Trans數據集中提取的雙語文本上微調了一個預訓練的翻譯模型。對于LLM方法,他們設計了一種策略,該策略利用LLM作為編輯器,重寫提供的翻譯以提供性別分配。
將這兩種方法的結果連接起來后,該模型隨后被微調以將源標記分類為對齊或未對齊。該項目使用的實體模糊檢測器是通過微調Facebook的xlm-roberta-large模型開發(fā)的,使用了五種語言對的組合Tag G。
在上述兩種方法的第一種中,M2M 1.2B模型與來自G-Trans數據集的雙語文本一起在Fairseq上進行了訓練,并使用Wiktionary提供了性別變化。對于LLM方法,作者使用了GPT-3.5-turbo。對于性別結構對齊,他們再次使用了xlm-roberta-large,這次是從G-Trans中提取的性別對齊。
評估替代方案的指標包括結構(精確度和召回率)和對齊精確度。后者衡量輸出性別結構與已知正確源身份匹配的百分比,并使用MT-GenEval方法論的δ-BLEU方法。
文章總結了研究結果,強調雖然原始模型無法生成替代方案,并顯示出對陽性形式生成的顯著偏見,但這種偏見在監(jiān)督基線中大大減少。使用增強數據訓練的模型進一步減少了這種偏見,并在替代指標、對齊精確度和δ-BLEU方面取得了最佳性能。
作者總結指出,模型的成功應放在自然語言處理(NLP)在翻譯方法中合理化性別分配的更廣泛背景下考慮,并指出這仍然是一個未解決的問題。雖然研究人員承認所取得的結果并未完全實現實體級別和/或性別消歧的性別中立翻譯目標,但他們相信這項工作是未來探索機器翻譯最具挑戰(zhàn)性領域之一的“有力工具”。