本地化用戶體驗:印地語音譯與拼寫變體

June 11, 2024 分類:公司新聞 作者:admin

印地語,采用天城體書寫,與英語并列為印度的兩大官方語言。它不僅是印地語帶的通用語言,還廣泛流行于印度各地。2011年的人口普查數(shù)據(jù)顯示,有高達3.4億人將印地語視為母語。這種語言的廣泛使用導(dǎo)致了拼寫上的多樣化,一些社區(qū)為貼合自身發(fā)音和用語習(xí)慣,對標準現(xiàn)代印地語進行了簡化或變通。

當前,盡管印度政府已制定了標準現(xiàn)代印地語的拼寫規(guī)范,但全球各地的印地語使用者在實際書寫中仍會采用多種廣受認可的拼寫形式。

隨著印度科技使用的急速增長,印地語用戶傾向于采用更為高效的方式進行非正式書面交流。我們注意到,印地語手機用戶在輸入和編寫信息時,希望能夠同時運用天城體文字和拉丁字母書寫形式的印地語單詞,而界面也能根據(jù)需求同步展示這兩種書寫形式。

盡管存在官方的拉丁字母書寫印地語系統(tǒng),但在非正式場合下,印地語使用者在羅馬化方面展現(xiàn)出更大的靈活性,這主要源于這種羅馬化是基于語音的,且印度各地存在多樣化的地區(qū)發(fā)音。

例如,在處理鍵盤等文本預(yù)測模型的自然語言處理(NLP)工具時,必須充分考慮這些拼寫上的變體。為了提供更貼合用戶需求的體驗,這些工具需要更加真實地反映用戶的交流方式。因此,我們迫切需要一套能夠更精準地代表印地語使用者可能用于音譯天城體詞形的拼寫數(shù)據(jù)。

為此,牛津語言(Oxford
Languages)研發(fā)了一項創(chuàng)新的音譯數(shù)據(jù)功能,該功能能夠全面呈現(xiàn)印地語單詞所有潛在的拉丁拼寫形式。例如,??????這個詞就可以被音譯為“kyonki”、“kyunki”或“kyuunki”。我們期望在數(shù)據(jù)解決方案中,能夠以非層級結(jié)構(gòu)的方式展示這些拼寫變體,從而優(yōu)化印地語鍵盤輸入和科技寫作體驗。我們希望能呈現(xiàn)的變體涵蓋多個方面,包括anusvara與半字母的拼寫、呼格復(fù)數(shù)形式、nuqta的使用、完整/r/與半/r/:的差異,以及舊式、規(guī)范與現(xiàn)代拼寫之間的對比。

我們針對印地語等具有豐富變體的語言開發(fā)這些詞匯數(shù)據(jù)特征,旨在將其應(yīng)用于書面自然語言處理和生成式人工智能應(yīng)用中,以提升印地語母語使用者的整體體驗。

在技術(shù)為受眾打造更本土化解決方案的過程中,必須深入考量語言中的諸多細微差別。因此,在數(shù)據(jù)研發(fā)階段,語言專家的參與顯得至關(guān)重要。

  • 微信或QQ掃一掃
繼續(xù)閱讀