MIT科學家開發機器翻譯新算法,旨在破譯消失的古代語言
語言不僅是文化的有機組成部分,也是文化的載體。在很大程度上,世界文明的多樣性體現在世界語言的多樣性上。在 21 世紀,語言學家顯然不滿意對傳統和已知語言的研究。相反,許多科學家已經開始利用計算機技術探索已經消失的古老語言,這幾乎是對這個謎的答案。
最近,ComputerScienceandArtificialIntelligenceLaboratory 計算機科學和人工智能實驗室(CSAIL) 的研究人員開發了一種計算機算法,旨在幫助語言學家破譯歷史上消失的語言。
谷歌無法翻譯的古老語言
今天,世界上大約有 7100 種語言。然而,古代的大多數語言已經不再使用,幾乎已經滅絕。幾十種已經滅絕的語言也被認為是 "未破譯的" 語言,也就是說,我們對它們的語法(語法)、詞匯(詞匯)或句法(句法)還不太了解,我們也無法理解它們的文本的含義。
對這些 "未破譯" 的語言的研究不僅僅是出于學術上的好奇心?;蛘咭驗槿绻覀儾欢Z言,我們就會錯過一套關于說這些語言的人的知識系統。不幸的是,大多數已經滅絕的語言都沒有多少記錄,所以科學家無法用谷歌翻譯或人工智能算法等機器翻譯工具來解密這些語言。
傳統的研究方法是找出目標語言的 "相關" 語言來進行比較研究,例如同一語言家族或現有的具有高度相似性的語言。然而,有些語言沒有深入研究的 "相關" 語言,而且往往缺乏傳統的分隔字符,如空格和標點符號(想象一下用該語言編寫的文本解密會有多禿)。
然而,CSAIL 研究人員發明的新系統可以自動解碼消失的語言,而不必深入理解它們與其他語言的關系。他們還表明,該系統本身可以確定語言之間的關系,并可以用來證實最近的一項學術研究,該研究表明,伊比利亞語實際上與巴斯克語無關。
語言破譯:文本向矢量的轉換
這項由麻省理工學院(MIT) 教授雷吉納·巴茲萊(ReginaBarzilay) 領導的研究基于歷史語言學(歷史語言學)的幾個原則。其中一個原則是,一種特定的語言很少直接增加或刪除整個音節,但可能會出現一些類似的發音替代。例如,母語中發音為 "p" 的單詞在其后代的進化過程中可能變成 "b",但由于明顯的發音差異,變得 "k" 的可能性較小。
barzilay 的新算法將這些原則和其他語言約束結合起來,將語言發音嵌入到多維向量空間中,對應向量之間的距離反映了不同發音的差異。這種設計使他們能夠捕捉與語言變化相關的特征,并將其表達為計算約束。
因此,它可以評估兩種語言之間的相似性。事實上,當測試已知的語言時,它甚至可以準確地確定該語言屬于哪種語言家族。例如,英語和德語屬于日耳曼語系。
此外,該算法生成的模型可以對古語言中的單詞進行細分,并將它們逐一映射到“相關”語言中的相應單詞。該團隊的最終目標是使該系統能夠破譯語言學家幾十年來一直無法理解的古代語言,只使用幾千個單詞。
事實上,這并不是麻省理工學院第一次利用計算機技術破譯遺失語言的研究。
早在 2010 年,巴茲萊和其他合作者就開發了新的計算機算法,在幾個小時內破解了古猶太語言烏加里語。
除了幫助破譯“神秘”的八種左右的古代語言,這項工作還可以擴大自動翻譯系統可以處理的語言數量。例如,目前 googletranslate 支持 103 種語言,該系統中使用的技術可以幫助它為數千種語言建立詞典。
去年,barzilay 等人。還發表了一篇論文,其中使用改進的計算機算法來破譯線性 B。他們說:“我們的翻譯腳本能夠將線性文本 B 的同源詞轉換成相應的希臘語,準確率為 67.3%。據我們所知,這項實驗是第一次嘗試自動解釋線性文本 B
在未來的工作中,研究小組希望超越將已知語言中的文本與相關單詞關聯起來的范圍,這種方法被稱為“基于同源性的方法”破譯?!?。
巴茲萊說:“例如,我們可以確定文本中涉及的所有人或地方,然后我們可以根據已知的歷史證據進一步調查?!?。這些實體識別方法以其高精度被廣泛應用于各種文本處理應用中