查看原文
其他

研究动态 | 人工智能助力古代语言翻译——天堑变通途


我们即将迎来由AI赋能的计算语言学新时代。



▲ 2022年6月24日,北京,“邂逅·美索不达米亚——叙利亚古代文物精品展”在国家典籍博物馆举行。青铜时代晚期(公元前1600-前1200年)阿卡德语泥版。


众所周知,“死语言”(Dead languages)的破译难度极大。破译罗塞塔石碑(Rosetta Stone)上的埃及象形文字用了23年,破译玛雅石刻(Mayan Glyphs)用了近两个世纪,破译希腊语的最早形式——线形文字B(Linear B)更是用了足足3,000多年。在谈及AI的颠覆性潜力时,技术乐观主义者(techno-optimist)经常会提到这样的难题,而且即便对于那些已经得到破译的语言来说,挑战也依然存在。阿卡德楔形文字就是一个很好的例子,作为全球最古老的书面语言之一,能够阅读这种灭绝语言的人寥寥无几,导致至今仍然有近百万篇阿卡德语文本尚未得到翻译,但现在,AI工具只需要几秒就可以完成这些文本的翻译工作


今年5月,一个由计算机科学和历史研究人员组成的跨学科小组发表了一篇期刊文章,介绍了他们开发的一种能够对古代象形字符进行即时翻译的AI模型。该小组由谷歌(Google)的软件工程师和阿里尔大学(Ariel University)的亚述学专家领导,使用与谷歌翻译(Google Translate)相同的底层技术和现有楔形文字翻译资料对该模型进行的训练。



照亮漫漫译路的灯塔


在翻译死语言,特别是那些没有后代语言(descendant languages)的语言时,由于没有丰富的文化背景,推敲词义的工作就像一场漫无目的的旅行。阿卡德语就是如此。公元前24世纪至22世纪,阿卡德语通行于阿卡德帝国(Akkadian Empire,位于今伊拉克),既有语言,也有文字,其楔形文字系统使用的是一种由彼此相交的尖锐三角形符号组成的字母。阿卡德人通常用芦苇的楔形末端在泥板上写字(“cuneiform”在拉丁文中就是“楔形”的意思)。由于这种材料结实耐用,即便经过千年风雨的洗礼之后,现在仍然有数十万块载有楔形文字的石板存世,在各所大学和博物馆的大厅中展出,供后人瞻仰。


外界常常误以为翻译就是对外语单词或短语进行一对一的“解码”。但受细微文化差别和语言结构差异的影响,一种语言在另一种语言中往往并没有准确或直白的对应表达。要想做出高质量的翻译,译者必须对两种语言的结构、相关文化以及支撑文化的历史有深刻的了解。要想在翻译时保留原文原有的语气、节奏,甚至幽默感,必须有高超的技巧,而如果我们对源语言的文化背景知之甚少,这项工作就将难如登天。


现存的楔形文字语料浩如烟海,但可以翻译阿卡德语的语言学家却寥寥无几。这意味着有关这个重要早期文明(有时被认为是史上第一个帝国)的知识宝库完全没有得到开发。目前,现存石板的数量和考古学家挖掘出新石板的速度远远超出了语言学家的翻译能力。但在AI技术应用于楔形文字翻译工作后,这种情况或将改变。


该团队写道:“记载着古代美索不达米亚政治、社会、经济和科学历史的楔形文字泥板数以万计。但由于这些资料数量庞大,而能够读懂的专家又很少,因此大多尚未得到翻译,自然也就无法加以利用。”


该团队开发的AI工具可以进行两种翻译工作:一是将楔形文字翻译成英语,二是对楔形文字进行音译(标注出该文字的读音)。根据最佳双语替换评测4(Best Bilingual Evaluation Understudy 4,用于衡量翻译质量)该AI工具在执行上述两种翻译任务时分别能够得到36.52和37.47的高分,均高于团队目标,并且已经达到高质量翻译的标准。最佳双语替换评测4的分值区间为0到100(或0到1),70分是专业人类译员实际可以达到的最高分。


普林斯顿大学(Princeton University)的计算语言学家汤姆·麦考伊说,几十年来,机翻的结果都不够稳定,质量也不高。过去的翻译程序只能根据内置语法规则机械地工作,往往无法理解游离于正规语法之外的成语和有言外之意的表达的丰富内涵。但近期出现的AI 翻译工具(比如这款楔形文字翻译工具)已经可以深入语言的这种“模糊”领域。这预示着我们即将迎来由AI赋能的计算语言学新时代,想想都令人激动不已。


麦考伊说:“新近推出的AI程序引入了统计处理这样一个重要的新工具。统计处理依然是一种数学工具,只是不像大家过去用的数学工具那么死板。统计学的应用让我们在某种程度上克服了传统方案的缺陷。我们现在用的是机器学习和深度学习。机器能够学习所有的习语、成语和特殊表达,而这正是前代AI所不具备的能力。



“永远不能盲目相信机翻结果”


该楔形文字AI翻译工具仍然会犯错,而且和其他AI工具一样,也会出现“幻觉”。举个例子,该工具曾经把“为什么我们(也)要在一个来自利比阿利的人面前进行诉讼?”译成了“他们在内城的内城”。


尽管时有错误,但该工具却仍然可以在文本初步处理方面为我们节省大量的人力和时间。


在谈及使用AI技术进行翻译时,麦考伊说:“AI技术令人赞叹,只是目前仍然不十分可靠。虽然时有亮眼表现,但我们永远不能盲目相信它输出的结果。也就是说,最适合交给AI处理的是那些需要耗费大量劳动,同时人类很难完成的工作。不过在AI输出结果后,只需进行人工审核即可,这就简单多了。”


该模型在翻译短句和公式化文本(例如公文记录)时准确度最高。出乎研究人员意料的是,其还能在译文中重现特定体裁的细微差别。研究人员写道,未来,随着可以用于AI训练的翻译样本越来越多,其准确性将进一步提高。


该模型目前能够用于协助研究人员完成初译,再交由人工对译文进行校对、润色。


“未来,该模型将可以向用户展示其译文所依据的材料列表,这一功能对学术研究而言可能尤为实用。”研究人员写道。



声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:chongchong@lingotek.cn,我们将及时调整处理。谢谢支持!


-END-

本文转载自:公众号
转载编辑:Amelia Pickey


关注我们,获取更多资讯!

往期回顾

行业动态1. 行业动态 | ChatGPT时代翻译技术教育创新论坛成功举行
2. 行业动态 | 中国历史文化对外译介与国际传播专家论坛暨新时代新技术背景下高级翻译人才培养研讨会在延安召开
3. 论坛预告 | 精彩“剧透”,先睹为快!邀您共赴“2023小牛翻译论坛”4. 公益活动 | ChatGPT口笔译技术应用与实战沙龙
行业洞见
  1. 行业观察 | 王海涛:加强翻译技术标准化建设,支撑行业高质量发展
  2. 行业观察 | 宁静老师:长缨在手,敢缚苍龙
  3. 行业法规 | 生成式人工智能服务管理暂行办法
  4. 精彩回顾 | 王华树:基于GPT的翻译技术应用模式创新


行业技术
  1. 技术应用 | 翻译时,如何轻松筛选特定用户修改的译文
  2. 技术应用 | 高质量翻译的秘诀:掌握术语管理的三个阶段
  3. 行业科普 | AI与本地化配音:不只是炒作
  4. 技术科普 | SaaS本地化:挑战、 益处和最佳实践
  5. 行业技术 | LLMs能否替代人工评价作为对话生成质量的评估器?

精品课程
  1. ChatGPT提示工程(Prompt Eng.)实践工作坊
  2. 精品课程 | 2023年暑期翻译技术实战研修班
  3. 精品课程 | GPT+:翻译、技术与语言学习工作坊
  4. 最后1天!实习证明、翻译项目,尽在四周暑期口笔译实习实践竞赛营!
  5. 一天一块钱,承包全年全方位语言服务知识学习!

资源干货
  1. 资源宝库| 语言服务行业50个常用术语概念及解释
  2. 双语干货 | 李强在第十四届夏季达沃斯论坛开幕式上的致辞
  3. 双语干货 中华人民共和国对外关系法
  4. 双语干货 | 谢锋大使向中美媒体发表讲话
  5. 资源宝库|译者用“典”,多多益善——精选31款在线词典

招聘就业1. 招聘快报 | 英文广告投放
2. 招聘快报 | 第三届翻译技术教育研究院校园大使招募3. 向AI提问,这个新职业火了4. 就业信息 | 啥是文档工程师?5. 招聘快报|年薪17万起!国企石化招聘英语翻译
继续滑动看下一个
语言服务行业
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存