麻省理工学院使用人工智能翻译古老的“死”语言
在开发一种帮助破译语言的系统时,麻省理工学院的研究人员研究了与希伯来语有关的Ugaritic语言,该语言此前已经由语言学家进行了分析和破译。
麻省理工学院CSAIL开发的系统旨在帮助语言学家解读已被遗忘的语言。
最近的研究表明,已经不存在的大多数语言都不再使用。数十种这些死语也被认为是丢失或“解密”的,也就是说,我们对它们的语法,词汇或语法了解不足,无法真正理解其文字。
语言的丧失不仅仅是一种学术上的好奇心;没有他们,我们会错过与讲他们的人有关的一整套知识。不幸的是,它们中的大多数记录极少,科学家无法使用Google Translate之类的机器翻译算法来解密它们。有些语言没有经过比较研究的“相对”语言可比,并且通常缺少诸如空格和标点符号之类的传统拼写字母。(为说明起见,想像一下用这种语言写出的破译外语的尝试。)
但是,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员最近在该领域取得了重大进展:一种新系统已被证明能够自动解码一种丢失的语言,而无需对它与其他语言的关系有深入的了解。 。他们还表明,他们的系统本身可以确定语言之间的关系,并用它来证实最近的学术研究,这表明伊比利亚语言实际上与巴斯克语无关。
该团队的最终目标是使该系统能够仅使用几千个单词就可以解密数十年来一直躲藏在语言学家手中的语言。
该系统由麻省理工学院教授里贾纳·巴兹莱(Regina Barzilay)牵头,它依赖于以历史语言学为基础的几项原则,例如,语言通常仅以某些可预测的方式发展。例如,虽然一种给定的语言很少添加或删除整个声音,但是某些声音替换很可能会发生。母语中带有“ p”的单词可能会在其后代中变为“ b”,但是由于明显的发音差距,变为“ k”的可能性较小。
通过合并这些和其他语言限制,Barzilay和MIT博士生罗嘉明开发了一种解密算法,该算法可以处理可能的转换的巨大空间以及输入中引导信号的稀缺性。该算法学习将语言声音嵌入多维空间,在该多维空间中,发音的差异反映在相应矢量之间的距离中。这种设计使他们能够捕获语言改变的相关模式,并将其表达为计算约束。生成的模型可以将古代语言中的单词进行细分,并将其映射到相关语言中的对应单词。
该项目建立在Barzilay和Luo去年写的一篇论文的基础上,该论文解密了Ugaritic和Linear B的死语言,后者以前需要数十年的时间才能被人类解码。但是,与该项目的主要区别在于,该团队知道这些语言分别与希伯来语和希腊语的早期形式有关。
在新系统中,算法之间可以推断语言之间的关系。这个问题是解密中最大的挑战之一。对于线性B,花了数十年的时间才发现正确的已知后代。对于伊比利亚人,学者们仍无法就相关语言达成共识:一些人主张巴斯克语,而另一些人则反驳了这一假设,并声称伊比利亚语与任何已知语言都没有关系。
所提出的算法可以评估两种语言之间的接近度。实际上,当对已知语言进行测试时,它甚至可以准确地识别语言族。该团队将他们的算法应用于考虑了巴斯克(Basque)的伊比利亚人,以及不太可能来自罗曼史,日耳曼语,突厥语和乌拉尔语系的候选人。尽管巴斯克语和拉丁语比其他语言更接近伊比利亚语,但它们仍然相差太大,因此不能被认为是相关的。
在将来的工作中,该小组希望将工作扩展到将文本与已知语言的相关单词相关联的行为之外,这种方法称为“基于同源的解密”。这种范例假设存在这样一种已知的语言,但是伊比利亚人的例子表明情况并非总是如此。该小组的新方法将涉及识别单词的语义,即使他们不知道如何阅读它们也是如此。
“例如,我们可以识别文档中所有有关人或地点的参考,然后可以根据已知的历史证据对其进行进一步调查,” Barzilay说。“这些“实体识别”方法如今已广泛用于各种文本处理应用程序中,并且具有很高的准确性,但是关键的研究问题是,在没有任何古代语言培训数据的情况下,这项任务是否可行?
该项目得到了情报高级研究项目活动(IARPA)的部分支持。