想象一下,为了逃避国内的迫害,在艰难的旅程中幸存下来,来到一个新的国家寻求庇护,却在边境被拒绝,因为没有人会说你的语言。这是来自中美洲偏远地区的数百名移民的现实,他们不会说西班牙语或葡萄牙语等共同语言。
说传统语言的土著寻求庇护者缺乏翻译,这意味着许多人必须在墨西哥等待数月甚至数年才能申请庇护,在已经不堪重负的移民系统中造成了长期积压。
南加州大学维特比工程学院计算机科学博士生凯蒂·费尔克纳(KatyFelkner)说:“美国移民系统是为处理英语和西班牙语而建立的。”,“但每年有数百人说少数民族语言,特别是说墨西哥和中美洲土著语言的人,他们无法获得为说西班牙语的移民提供的任何资源和法律援助。”
在其他情况下,人们无法解释他们在家乡的生命受到的威胁,这可能是庇护的基础。当移民无法理解或被理解时,在美国国土安全部进行的“可信恐惧访谈”中,无法确定他们的安全受到威胁。
统计数字令人震惊:根据《福德汉姆法律评论》的一项研究,没有律师的寻求庇护移民仅占其案件的13%,而有律师的移民占其案件总数的74%。
费尔克纳在研究副教授乔纳森·梅(Jonathan May)的领导下在南加州大学信息科学研究所(ISI)进行研究,她正在开发一个解决方案:一个墨西哥和中美洲土著语言的机器翻译系统,可供向难民和寻求庇护者提供法律援助的组织使用。
“人们正受到直接的负面影响,因为在法律援助组织中没有翻译他们语言的译员,”Felkner说。“这是一种具体而直接的方式,我们可以将自然语言处理用于社会公益。”
“人们正受到直接的负面影响,因为在法律援助组织中没有翻译他们语言的译员。”。
给寻求庇护者一个公平的机会
据《纽约时报》报道,费尔克纳目前正在开发一种危地马拉语系统,该语言是近年来移民法庭上最常用的25种语言之一。
费尔克纳说:“我们正试图提供一个粗略的翻译系统,让那些没有资源聘请口译员的非营利组织和非政府组织提供一定程度的法律援助,让寻求庇护者有公平的机会通过可信的恐惧面谈。”。
费尔克纳对语言的兴趣始于她在俄克拉荷马大学的本科学位,在那里她获得了计算机科学和文学双学位,重点是拉丁语。在大学第一年,她参与了一个名为“数字拉丁图书馆”的项目,编写Python代码来创建古代文本的数字版本。
“这让我想到了语言技术,”费尔克纳说。“我自学了一些自然语言处理的基础知识,最终专注于机器翻译,因为我认为这是对人类影响最直接的领域之一,也是该领域最困难的问题之一。”
虽然Felkner和May目前专注于开发文本到文本的翻译,但几年后的最终目标是建立一个多语言语音到语音的翻译系统:律师会说英语或西班牙语,该系统会自动翻译成寻求庇护者的土著语,反之亦然。
推动下限
翻译系统使用并行数据进行训练:换句话说,他们通过在句子层面看到翻译对或两种语言的相同文本来学习。但在土著语言中,包括K在内的平行数据很少始伊切始, 尽管大约有一百万人在说。
这是因为并行数据只有在有令人信服的理由翻译成或翻译出该语言时才存在。费尔克纳说,基本上,如果它在商业上可行的话鈥擠例如,isney将电影从英语配音为西班牙语鈥攐r源于宗教动机。
在许多情况下,由于整个拉丁美洲传教士的影响,唯一的平行数据源鈥攖他用两种语言写了同样的文本鈥攊《圣经》并没有给研究人员太多的工作空间。
费尔克纳说:“想象一下,你是一个说英语的人,想学西班牙语,但你唯一能看到的西班牙语是《新约》。“这将相当困难。”
这对于语言翻译系统使用的大量数据的深度学习模型来说是个坏消息,这些模型采用了数量多于质量的方法。
费尔克纳说:“模型必须多次看到一个单词、短语和语法结构,才能看到它可能出现的位置以及它在另一种语言中的对应关系。”。“但是我们没有这个给K始伊切始 以及其他资源极其匮乏的土著语言。”
数字不言而喻。从英语到K始伊切始, Felkner有大约15000句并行数据,8000句西班牙语到K始伊切始. 相比之下,她为一些基线工作训练的西班牙语到英语模型有1300万句训练数据。
“我们试图在基本上没有数据的情况下工作,”费尔克纳说。“几乎所有低资源语言都是如此,在美洲更是如此。”
现有低资源工作中的一种策略是使用密切相关的高资源语言作为起点:例如,要将英语翻译成罗马尼亚语,您将开始用西班牙语培训模型。
但是,由于美洲的土著语言与欧洲和亚洲分开发展,大多数是低资源的,而且大多数是极低资源的。费尔克纳创造了一个术语来描述一种平行数据少于约30000句的语言。
费尔克纳说:“我们确实在努力降低成功训练机器翻译系统所需的数据量。”。
无中生有
但拥有语言学背景的费尔克纳并不气馁。在过去的两年里,她一直致力于使用自然语言处理中的一些技巧为模型创建语言数据。
一种策略是教模型完成抽象的翻译任务,然后将其用于所讨论的特定语言。费尔克纳说:“这和先学开车来学开公共汽车的原理是一样的。”。
为了做到这一点,Felkner采用了一个从英语到西班牙语的模型,然后将其微调为K始伊切始 西班牙语。事实证明,这种被称为转移学习的方法即使在资源极低的情况下也显示出了前景。“那太令人兴奋了,”费尔克纳说。“在这种资源极为匮乏的环境中,从一种不密切相关的语言开始的迁移学习方法和预培训从未真正经过测试,我发现它行之有效。”
她还利用了另一种资源:利用70年代中后期实地语言学家出版的语法书,生成可信的合成数据,可用于帮助模型学习。费尔克纳正在使用语法书编写规则,帮助她从字典中构造语法正确的句子。这方面的技术术语是自举或数据增强鈥攐r通俗地说,“假装,直到你成功。”
费尔克纳说:“我们将其作为预训练数据,从本质上教授模型语法的基本知识。”。“然后,我们可以保存我们的真实数据,例如圣经并行数据,以便在微调期间学习什么是语义上有意义的,或者什么是真正有意义的。”
最后,她正在测试一种涉及解析英语和K中的名词的技术始伊切始 用其他名词替换它们,然后使用一组规则正确地改变句子的语法。
例如,如果训练数据中有一句话:“男孩踢了球”,研究人员可以使用这种方法生成像“女孩踢了球”,“医生踢了球”、“老师踢了球”这样的句子,这些句子都可以成为训练数据。
费尔克纳说:“我们的想法是使用这些合成生成的示例,从本质上构建系统的粗略版本,这样我们就可以充分利用我们现有的少量真实数据,并将其精确调整到我们想要的位置。”。
直接人道主义影响
费尔克纳承认,在极低资源的语言翻译中工作并不容易,有时会令人沮丧。但挑战和改变生活的潜力驱使她成功。
明年,她计划进行一次实地考察,观察法律援助组织在边境的工作情况,以及她的系统在哪里可以融入他们的工作流程。她还正在为该系统开发一个演示网站,她希望在2023年发布,一旦开发完成,她希望有一天该系统可以应用于其他土著语言。
费尔克纳说:“在高资源语言上爬山可以让你的Alexa、Google Home或Siri更好地理解你,但这并不能以同样的方式带来变革。”。“我做这项工作是因为它具有直接的人道主义影响。正如肯尼迪曾经说过的,我们选择去月球不是因为它容易,而是因为它很难。我经常认为值得做的事情很难。”