行业技术 | 口译质量评估：机器或将取代人类评分员？

语言服务行业

2024-09-09

The following article is from 广外高翻口译教育与研究中心 Author 邱心怡

口译质量评估：

机器或将取代人类评分员？

大家学口译的过程中一定离不开口译评估，我们平时练习时会自我评估、同学互评，在课堂上会受到教师的评价，期末考试、考证、参加比赛时还有评分和各种排名，不知道大家有没有发现，以上提到的这些口译评估有一个共同点，那就是评估主体都是“人”。但当需要评估的样本量很大时，人工评估就是一个耗时耗力还耗财的大工程了。

与人工评估相比，机器自动评分显然要经济的多。今天我们要品的这杯“茶”中，作者就尝试用机器自动评分指标来评估口译，看看机器自动评分究竟靠不靠的住。

在介绍具体的实验设计和研究结果之前，我们先了解关于口译评估的一些基本知识。

背景介绍

首先，人工评分仍是目前的主流，它可以根据评分者类型和评分方法被划分不同种类。评分者类型可以根据评分者的专业程度、语言组合等划分，评分方法也是各式各样（详见Han 2018，2022）。

本研究主要涉及两种评分方法，即量表法和对比法。

其中，量表又可以进一步分为分析性量表和综合性量表。分析性量表认为口译质量是“可分割的”，一般会包括许多子量表，每个子量表针对一个可以衡量口译质量的指标（如信息完整度、目标语表达质量、流利度等），评分者根据该指标完成情况分等级打分。而综合性量表则将口译质量视作一个不可切分的整体，根据不同水平的描述语对整体口译质量进行评分。

与量表法不同，对比法并不直接打分，而是先对比两份口译产出之间质量的高低，再重复这一过程，直到对比完所有待评估样本，最后得出一个质量由高到低的序列。

自动评分最初的设计目的是用来测量机器翻译的质量，大致可分为四类：

1.n元组匹配测量：计算机器译文和参考译文的之间n元组（n-gram，表示连续的n个单词）的重合度，如BLEU和NIST。

2.基于同义词的测量：在同义词和词根的层面上计算机器译文和参考译文的匹配度，如METEOR。

3.基于编辑距离的测量：计算机器译文修改成参考译文最少需要多少步骤，如TER。

4.基于（词/句）向量的测量：借助受过训练的语言模型（如BERT），计算机器译文和参考译文上下文（词/句）向量的余弦相似度。

以上提到的五个机器自动评分指标（BLEU、NIST、METEOR、TER、BERT）是机器翻译和自然语言处理（NLP）领域的代表，也是此研究的研究对象。那么问题来了，这些机器自动评分指标产出的评分结果是否足够可信呢？

为了回答这一问题，本研究对比了人工评分结果和不同机器评分量表得出的自动评分结果，具体研究问题如下：

RQ1：不同机器评分指标得出的自动评分结果之间（或不同类型的评分员利用不同评分方法得出的人工评分结果之间）的相关性如何？

RQ2：从总体上看，机器评分结果和人工评分结果之间相关性如何？

RQ3：不同机器评分指标得出的评分结果与不同类型评分员、不同评分方法得出的评分结果之间的相关性呈现出什么模式？

可以看到，这个实验主要涉及三个变量：机器自动评分指标、评分员类型和人工评分方法。如何在控制好变量的基础上达到实验目的呢？下面就让我们一起看看具体的实验设计吧。

实验设计

样本

四种水平共56份口译录音，中译英和英译中各28份口译录音。收集步骤如下：

1.收集160名处于不同口译学习阶段学生的口译录音，中译英和英译中各160份，英译中主题为企业收购与兼并，每分钟110词或190个音节，中译英主题为中国的消费模式，每分钟210字。

2.录音交由5位专业评分员根据Han（2018）的分析性量表进行评分。

3.利用Rasch将样本分为四个等级：Level 4（最高等级）：n=8, Level 3: n=74, Level 2: n=69, Level 1（最低等级）: n=9。

4.用分层随机抽样得到中译英和英译中各28份录音，录音的口译质量可分为四个等级：Level 4: n=1, Level 3: n=13, Level 2: n=12, Level 1: n=2。

评分者

共67名，根据评分经验和语言背景，评分员可分为四种类型，其中有经验的评分员28名（中国高校全职口译教师），新手评分员23名（母语为中文，第二语言为英语的口译学生），8名中文母语者，第二外语是英文（雅思7.0以上），8名英文母语者，第二外语是中文（汉语水平考试高级水平），最后两个类型的评分员都有临时口译经验。

评分步骤

人工评分：利用前面提到的三种评分方法（分析性量表评分、综合性量表评分、对比评分）具体人员分配如下：

注意：所有评分员在进行评估时都参照的是源语，而非参考译文

机器自动评分：前面在介绍机器自动评分时提到，机器自动评分需要有参考译文作为参照，所以作者邀请4名口译员和培训教师（都有口译硕士学位、兼职口译经验和大学口译教授经验）提供了中译英和英译中各4份参考译文。

接下来就轮到机器自动评分闪亮登场了！作者在文中详细描述了处理口译产出的文本和参考译文用到的各种工具、机器自动评分中参数的设置等等，具体流程太过技术流，这里就不详述了，感兴趣的同学可以查看原文，作者还贴心提供了相关代码：

https://github.com/luxiaolei930/Interpreting-MT-metrics

数据分析

工具：SPSS26

RQ1：不同机器评分指标得出的自动评分结果之间（或不同评分类型评分员利用不同评分方法得出的人工评分结果之间）的相关性如何？——机器自动评分结果内部&人工评分结果内部的相关性检验。

RQ2：从总体上看，机器评分结果和人工评分结果之间相关性如何？—— 机器自动评分结果VS人工评分结果的相关性检验。

RQ3：不同机器评分指标的评分结果与不同评分主体、不同评分方法得出的评分结果之间的相关性呈现出什么模式？—— 不同机器评分指标的评分结果VS不同评分主体的评分结果&不同评分方法得出的评分结果的相关性检验。

接下来就是万众期待的结果揭晓时刻！

RQ1：不同机器评分指标得出的自动评分结果之间（或不同类型评分员利用不同评分方法得出的人工评分结果之间）的相关性如何？

首先是机器评分结果之间的相关性。

结果显示，不同机器评分指标在英译中评分结果上的相关性要高于中译英（中译英的平均相关系数：0.782，英译中的平均相关系数：0.561）

接下来是4种类型的评分员利用3种评分方法得出的人工评分之间的相关性：

结果显示，无论是哪个语向，人工评分结果之间的相关性都很高(英译中的相关系数：0.910，中译英的相关系数：0.908)，且都要高于机器评分结果之间的相关性。

RQ2：从总体上看，机器评分结果和人工评分结果之间相关性如何？

从总体来看（不考虑语向），机器评分和人工评分之间的平均相关系数是0.650，区分语向的话，中译英的相关系数（0.773）要比英译中（0.526）高一些。仔细观察上面的相关系数表格可以发现，标黄的那行（新手译员用比较法得出的评分结果与不同机器评分指标评分结果之间的相关性）数值比其它几行要低得多。作者认为，这也许是因为这些新手译员的母语是中文，评分经验有限，比较第二语言的口译产出对他们来说有一定困难。因此，这一情景下的评分结果可信度会弱一些，也就进一步影响了和机器评分结果的相关性。

RQ3：不同机器评分指标得出的评分结果与不同类型评分员、不同评分方法得出的评分结果之间的相关性呈现出什么模式？

这一问题的本质是探究在本次实验中，哪些因素影响了人工评分与机器评分之间的相关性，可以进一步分为几个小问题：（1）机器评分指标的类型如何影响人工评分和机器评分之间的相关性？（2）评分员类型如何影响人工评分与机器评分之间的相关性？（3）人工评分方法的类型如何影响人工评分与机器评分之间的相关性？

针对问题（1），作者在表 4a、4b的基础上对数据进行了进一步的处理，计算了同一种机器评分结果与不同人工评分情景下之间相关系数的平均值，有了如下发现：从语向上来说，所有机器评分在英译中时与人工评分之间的相关系数都要高于中译英。也就是说，机器在评估英译中时要比评估中译英时更加贴近人工评分。另外，BERT和BLEU与人工评分之间的相关性受语向影响最大（0.413和0.328）。从总体上看，NIST、BLEU和METEOR的评分结果最接近人工评分结果。

针对问题（2），作者计算了每一类型的评分员得到的评分结果与不同机器评分结果之间相关系数的平均值，得到了表6。

可以看出，评分员类型对人工评分结果与机器评分之间的相关性影响很小。但与上一个问题的结果相似，机器评分与不同类型评分员的评分之间的相关性同样在英译中时更加显著。另外，母语为英语的评分员的评分结果与机器评分之间的相关性受语向影响最小。作者认为这可能是因为他们母语不是中文，所以在评估英译中时与机器评分的相关性最低，而英语是母语，所以在评估中译英时与机器评分相关性最高，因此两个语向的差值最小。

针对问题（3），作者计算了每一种人工评分方法与不同机器评分结果之间相关系数的平均值，得到表7。

总体上看，人工评分方法对人工评分与机器评分之间相关性的影响也不大。同样，机器评分与用不同方法得到的人工评分结果之间的相关性在英译中时依然要高于中译英。

结果讨论

首先作者讨论了各种机器评分指标之间的相关性。

前面在分析RQ1时提到，不同机器评分指标之间的相关性在评估英译中时更高。作者认为，这一差别并不只和语向有关，还需综合考虑待评估样本的译员的语言背景。本次实验中的译员都以中文为母语，如果把他们都换成以英文为母语的译员的话，也许中译英时的相关性就要高于英译中了（只是假设）。

从总体来看，不同机器评分指标之间的相关性很高，尤其在评估英译中时，其中BLEU、NIST和METEOR这三个指标之间的相关系数尤其高。这也印证了一些前人的研究结果（Coughlin, 2003; Chung,2020; Han & Lu 2021），同时也说明这些机器评分指标之间的收敛效度高（即它们测量的是相似或相同的概念），对口译质量的理解可能也类似。

另外，通过对机器评分结果之间相关性的观察，作者发现BLEU、NIST和METEOR之间的相关系数最高，TER与其它机器评分指标的相关系数第二高，最低的则是BERT。作者认为这一现象和这些自动测量指标的设计和计算方式息息相关。首先NIST和METEOR可以被看作BLEU的变形，都以待评估文本和参考译文之间的相似度来判断口译质量。TER稍微有一些不同，计算的是待评估文本需要修改的步骤。而BERT则可以说在一定程度上和其它四个测量指标有本质上的不同，其它四个机器评估指标均把文本视为n元组，而有高大上的神经网络模型加持的BERT则是把单词转化为多维空间中的抽象数字（如坐标），从而理解词汇之间的语义关系，并在这个向量空间中比较待评估译文和参考译文的句子之间的相似性，进而评估翻译质量。

接下来是对不同人工评分情景之间相关性的讨论。

在分析RQ1时有提到，不同人工评分情景之间的相关性比较高，同时受语向的影响很小。这一发现印证了Chung在2020年的研究，也意味着这几种人工评分情景的收敛效度同样很高。

下面来到了本研究的重点，也就是机器评分和人工评分之间的相关性。

作者发现，机器评分与人工评分的平均相关系数为0.650，这意味着实验中用到的5个机器评分指标可以被用于口译评估。但需要注意的是，机器与人工评分之间的相关系数在英译中时为0.773，在中译英时则是0.526，所以机器评分更加适合评估母语为中文译员的英译中表现。

在评估英译中时，表现最好的是BLEU（r=0.868），METEOR（0.803）以微弱之差位居第二。这两个相关系数与Chung（2020）的实验结果相近。而在中译英时，这两个相关系数各下降了0.328和0.413。这再次说明了这两个机器评分指标在评估样本以母语为译入语时更加有效。另外，研究发现BLEU、NIST和METEOR与人工评分的相关性都比较高（r>0.650），与Han和Lu（2021）的研究结果相同。不同的是，在Han&Lu（2021）的研究中，METEOR的相关系数最高（r=0.673）。另外，TER在评估英译中时与人工评分的相关系数只有0.319，比这份研究中的数值（r=0.686）要低得多。作者认为，这可能是因为在2021年的研究中，TER词和句单位计算的，而在当前研究中，TER只以句子为单位计算。于是作者计算了2021年研究中以句子为单位时的相关系数，发现和当前研究相近一些（r=0.686）。

启示

从口译评估本质的角度看，既然机器评分与人工评分之间存在显著相关性，那么我们也许可以通过机器评分的规则来探究人类口译评分员在评估口译质量时的认知过程。因为机器评分的计算规则都是透明的、有迹可循的，而人类评分员在评估口译质量时的大部分认知过程仍然是未知的，但可以通过其评分时的行为和评分模式推断。所以，这一高相关性也许意味着，人类在进行口译评分时在一定程度上同样是是以字符串的对应为标准的。所以作者作出了一个有趣的假设：当人类评分员在评估其不熟悉且专业性很强的口译产出时，就会更加频繁地使用以字符串对应为标准的评估模式。

从实践角度看，研究中的五种机器自动评分指标在某些场景下是有应用潜力的（比如选拔考试），尤其是BLEU、NIST和METEOR这三种，但仍然需要特别注意语向对机器评分表现的影响。

虽然这份研究证明了机器评分在一定程度上是可靠的，但秉着科学严谨的原则，作者强调这份研究的结论还需要更多研究来证实或证伪，同时还指出了这份研究的一些不足：

1.样本量较小。

2.只有一种源语材料，限制了研究结果的普适性。还需要用不同长度、主题和类型的文本来进一步实验。

3.只涉及交传，没有涉及同传和视译，这三种口译模式下的口译产出在词汇、句法等方面可能有所不同，机器评分结果也可能受到影响。

4.需要注意语言组合的影响。

5.由于技术限制，研究只考虑了口译质量中的信息层面，机器评分未囊括其它指标，如流利度和目标语质量等。

最后，作者为后续研究提供了两种方向：

1.步步前进：先进行类似的小规模复制性研究，再对这些类似研究进行元分析。

2.大胆尝试：收集大量样本（至少几百份），进行大规模的研究。

专栏手记

对比之前针对机器自动评分可行性的研究，此研究的创新点在于其变量涵盖的范围更为全面，首先是机器自动评分指标的种类更多，评分员的类型也更为多样，还采用了不同的人工评分方法，这些都提升了研究结果的适用性。但研究中也有一些问题未得到充分解释，比如并不是每一种评分方法都有4种类型的评分员的参与，这在一定程度上可能影响研究结果的可信度。另一个关键问题是，文中虽然介绍了源语材料的主题和语速，但并未对材料难度作进一步的详细说明（如信息密度）。研究结果显示，机器评分之间的相关性在中译英时更低，与人工评分的相关性同样也在中译英时更低。作者认为这是由于语向和译员的语言背景导致的，但是否也有可能是由于材料难度的不同导致的呢？这是一个值得关注的问题。

这份研究为口译自动评分的可靠性提供了新的实证数据和启示，随着相关技术的不断发展，相信机器评分的表现会越来越好，也一定会得到更加广泛的应用。结合ChatGPT这些语言模型，机器可能还不仅能打分，还能像教师一样给出评语，帮助我们更好地提升自己的口译水平，我们一起期待那天的到来吧！

选文文献：

Lu X. L. & Han C. (2023). Automatic assessment of spoken-language interpreting based on machine-translation evaluation metrics: A multi-scenario exploratory study. Interpreting, 25(1): 109-143.

参考文献：

Chung, H. Y. (2020). Automatic evaluation of human translation: BLEU vs. METEOR. Lebende Sprachen, 65 (1): 181-205.

Coughlin, D. (2003). Correlating automated and human assessments of machine translation quality. http://www.mt-archive.info/MTS-2003-Coughlin.pdf

Han, C. (2018). Using rating scales to assess interpretation: Practices, problems and prospects. Interpreting, 20 (1): 59-95.

Han, C. (2022). Interpreting testing and assessment: A state-of-the-art review. Language Testing, 39 (1): 30-55.

Han, C. & Lu, X. L. (2021b). Can automated machine translation evaluation metrics be used to assess students’ interpretation in the language learning classroom? Computer Assisted Language Learning, 1-24.

-END-
转载编辑：Amelia

关注我们，获取更多资讯！

往期回顾

行业动态1. 行业动态 | 云译科技亮相2023第十二届中国国防信息化装备与技术博览会
2. 行业动态 | 中国语言服务业一周简报
3. 行业科普 | 英国翻译公司协会 (ATC)4. 行业科普 | AUSIT，FIT，ATC热点新闻摘译

行业洞见

行业技术

精品课程

资源干货

招聘就业1. 招聘快报 | 博硕星睿·翻译技术教育研究院招聘实习生
2. 招聘快报 | 第三届翻译技术教育研究院校园大使招募 3. 招聘快报 | 陕西善云信息技术有限公司招聘语言服务软件产品运维工程师 4. 不知道去哪找优质实习？硬核语言专业线上实习机会来了！5. 实习资讯 | 疫情阻隔优质实习？硬核语言专业线上实习机会来了！

继续滑动看下一个

语言服务行业

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

行业技术 | 口译质量评估：机器或将取代人类评分员？

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

行业技术 | 口译质量评估：机器或将取代人类评分员？

您可能也对以下帖子感兴趣