PTE学术英语考试背后的评分原理?
英语语言能力测试越来越被大学、高等教育机构、政府部门和其他组织所需要,其目的是准确衡量国际学生在学术环境中的沟通技能。为了满足这一需求,我们开发了Pearson学术英语考试(PTE Academic)。该测试能可靠地测量非英语母语,且希望在以英语为主要教学语言的机构学习的考生其阅读、写作、听力和口语能力。
介绍 PTE学术英语考试于2009年在全球推广,此外,Pearson考试中心向全球提供PTE学术英语考试服务。Pearson VUE是管理电子化评测和认证委员会的全球领导者,提供从测试开发到测试交付再到数据管理的一整套服务。 作为教育出版和评估领域的世界级领导者,Pearson将运用其几项自主专利技术来自动评估考生在PTE 学术英语考试上的表现。世界各地的学术机构,企业和政府机构都选择Pearson的自动评分技术来测量学生、员工或申请人的能力。使用口语和写作自动评分技术的Pearson客户包括2008年财富20强企业中的8家;2008年印度BPO公司15强中的11家;美国、德国和荷兰政府;世界体育组织,如FIFA国际足联(世界杯组织者)和亚运会;主要航空公司和航空学校;和一流大学和语言学校。 大范围的现场实地测试项目曾被用来检测PTE学术英语考试各项性能,并评估其有效性的,同时获得优化自动评分引擎所需的数据。该项目历时超过18个月,测试数据来自21个国家中38座城市的1万多名参加PTE学术英语考试现场实地测试的考生。这些考生来自158个不同的国家,讲着126种不同的母语,包括(但不限于)粤语、法语、古吉拉特语、希伯来语、印地语、印度尼西亚语、日语、韩语、普通话、马拉地语、波兰语、西班牙语、乌尔都语、越南语、泰米尔语、泰卢固语、泰语和土耳其语。现场实地测试的数据被用于优化PTE学术英语考试中写作和口语部分的自动评分引擎。
研究表明,在很多方面上,自动评分结果比人工更具分析性和客观性。与易受各种因素影响的人工评分不同,自动评分系统会更公正。这意味着自动评分系统不会被与语言无关的因素而“分散注意力”,例如考生的外表,性格或肢体语言(如口语面试中可能发生的那样)。这种公正性意味着考生可以确信,评分是单独依据他们的语言水平表现来评判,并且认可考试的合作伙伴也可以确信考生的分数是“普适的”—即便考生在北京,布鲁塞尔或百慕大,他们仍然会取得同样的分数。 此外,自动评分允许某一语言样本的个体特征(口语或写作)被独立分析,因此语言中某个方面的不足并不会影响其他方面的评分。而人工评分者常会表现出从语言的一个方面到另一个方面有“判断转移”。例如,有些考生的语法非常差,但因为他们表达得流畅而被评为精通级。相反的是,自动评分可以客观地评估不同的语言技能。 在自动评分技术开发时,Pearson进行了“有效性研究”,用以确保机器所给出的分数与老练的人工评分者给出的分数相当。在有效性研究中,人工评分者和自动评分系统对同一组新的考生回答(机器从未见过的)进行评分。在Pearson的有效性研究中,当人工评分与机器自动评分进行对比时,人们发现它们是相似的。事实上,人工评分和自动评分之间的差异非常小,通常小于两个人工评分者之间的差异。在写作和口语评分中均是如此。 研究表明,PTE学术英语考试的自动评分技术可与那些受过培训的,且只考虑相关语言技能的,细心的人类专家相媲美。这意味着自动化系统在评估考生的语言技能时会“像人”一样“行动”,但又具备机器的精确性、一致性和客观性。
PTE学术英语考试的写作部分使用Intelligent Essay AssessorTM(IEA)进行评分,这是一种自动评分工具,由Pearson最先进的Knowledge Analysis TechnologiesTM(KATTM)引擎提供支持。基于20多年的研究和开发,KAT引擎通过检查整个段落来自动评估文本的含义。与熟练的人工评分者一样精准,KAT引擎运用一种自有的,名为潜在语义分析(Latent Semantic Analysis, LSA)的数学方法来准确地评估写作。使用LSA(一种通过分析大量相关文本来得出单词和段落的语义相似性的方法),KAT引擎“理解”文本的含义与人类所理解的大致相同。 被调整后的IEA可理解和评估任何学科领域的文本,包括用于离题响应的内置检测器,或可能需要提交给人类阅读者的其他情况。由独立研究员和Pearson进行的研究表明,IEA在知识评估和基于知识的推理上的可靠性。IEA的开发已超过十年,它已用于评估数百万篇论文,包括对小学,中学和大学水平的写作评分,以及评估军事领导技能。
考试 IEA(Intelligent Essay Assessor)自动评估考生的写作技能和知识,并且可以受训为各种写作特征打分,人们可以信赖这个评分。它运用事先由人类阅读专家评分并给的回复作为指导,对考生所应答的整体内容进行评估。 PTE学术英语考试中,要求考生写200-300字的论文以及50-70字的总结。当答案被提交进行评分时,系统会评估答案的含义以及写作技术等方面。系统将考试答案与大量事先受训的答案进行比较,计算相似性,并基于内容分配分数,部分依据将答案归类在最具有相似性的受训答案类别中。对写作技术方面进行评分的方法大致相同。系统评估考生答案中的每个写作特征(语法、结构和连贯性等),将其与大量事先受训的答案进行比较,然后根据该特征对答案进行排序。 对于IEA的训练,在现场实地测试中收集了超过5万份写作地答复(包括作文和总结)。这些写作答复在许多单项特征被给予评分,包括内容、形式要求、语法、词汇、一般语言范围、拼写、衍变、结构和连贯性。所有考生在现场实地测试中的答案,首先由两名人工评分者评分,当前两名评分者意见不统一时,还有第三名人工评分者再次打分。这些人工评分者的评分作为训练IEA的资料被输入其中。 由于考生的写作的答案被随机分配给来自澳大利亚、英国和美国的200多名评分者,这台自动评分系统接受了丰富且具有国际视角的评分训练。评分结果去除了主观倾向性。依据以上各个写作单项特征的得分,可以通过对所有写作特征单项的总和,给到每个考生写作表现的总体衡量标准。这个衡量标准由人工评分者和系统生成的分数组成。总分和两组人工评分者评分的相关系数为0.87。人工评分者与系统自动生成评分的相关系数为0.88。PTE学术英语考试写作量表的信赖度为0.89。
PTE学术英语考试的口语部分使用Pearson’s Ordinate Technology自动评分。POT是多年来语音识别、统计建模、语言学和测试理论研究的成果。 该技术使用自主专利权的语音处理系统,专门用于分析和自动评分来自英语母语和非英语母语者的语音。该系统除了识别单词外,还对语音中的相关片段、音节和短语进行定位和评价,然后利用统计建模技术对语音表现进行评估。 要了解POT如何被“教授”进行口语评分,可以参考人类专家评分员如何训练他人在面试期间对语音样本进行评分。 首先,专家评分员列出针对考生在面试演讲,准评分员要听的内容清单。然后,受训评分员观察专家测评大量考生的过程。而每次面试后,专家分享出其给考生打的分数,以及导致该分数的表现特征。经过几十次面试,受训准评分员的打分开始与专家给的分数非常接近。最终,依据专家对某一特定考生给出的分数,受训准评分员的打分也八九不离十了。 实际上,这就是系统如何受训进行打分的过程。 而且,自动评分系统并不仅有一名专家“教授”受训者,有许多专家评分者为每个答案输入分数;也不仅仅有几十个考生的答案,系统是针对数百名考生的数千个反馈答案进行学习训练。此外,机器无需被告知语音的哪些特征是重要的;当自动评分系统被优化为预测人类评分时,相关的特征及其相对的占比就从大数据的统计中被自动提取出来的。 可能没有一个人类聆听者能够习惯超过100种的不同外国口音,但PTE学术英语考试的语音处理器已经接受了超过126种不同口音的训练,并且能够公平公正地处理所有这些口音。如果某考生有很浓重的口音,就很有可能被人工评分者给出一个低分数,在自动评分系统中,这个考生也将得到一个较低的发音分数。但重要的是,糟糕的发音不会影响考生的语法或词汇的得分。 POT技术为Versant™语言评估提供支持,该评估由美国国土安全部、世界各地的航空学校、荷兰的移民局以及美国教育部等组织使用。独立研究表明,POT自动评分系统可以比当今很多最优的人工评分测试更客观,更可靠,包括一对一的口语能力面试。
POT自动评分系统从考生的口语反馈答案中收集数以百计的信息,例如他们的语速、时间和节奏,以及他们的声音的力量、重点、语调和发音的准确性。它还识别考生选用的词汇(即使发音不当),并评估考生答案的内容、相关性和连贯性。 由于系统对每个答案中的数百个语言和声学特征都很敏感,因此如果特意关注某一特定领域,它也能非常精确地预估出老练的人工评分者将如何就这个特定领域给答案打分。 PTE学术英语考试现场实地测试给机器学习提供了源数据,以便为测试的口语部分创建自动评分模型,原理就和写作部分一样。 现场收集了来自1万多名考生的近40万份口语答案,其中包括考生在描述数字或图表时的答案,以及复述讲座或演讲。考生的回答被录下来,来并发送给人工评分者先进行评分。人工评分者对考生回答的一系列单项特征进行打分,这些单项特征包括内容、词汇、语言使用、发音、流利度和语调。然后再由先进的语音处理系统能客观观察考生回答的方方面面,例如语速、节奏和用词等方面,最后把系统打分与人工评分的分数进行比较。接着,再建立评分模型,用于预测受过训练的人工评分者如何评估任一“新”传入的答案。口语测试人工评分与自动评分的总得分之间的相关系数为0.96,证明了PTE学术英语考试中口语测试评分的可靠性。 在参加PTE学术英语考试时,考生必须口头回答各种问题。他们的口头答案被捕获为音频文件,并由专利使用的POT评分系统进行分析。有些试题需要简短的口头回答。在这些情况下,自动评分系统测量考生的单词识别、发音、流利性和语法能力的准确性。其他更复杂的试题,考生要提供更长、更详尽的回答,需要更多句子或段落级别来表达。除了上面列出的单项特征外,自动评分系统还提供了针对答案的内容与词汇的评分。 总结 通过结合大量现场实地测试、深入研究和Pearson的验证,有专利权的自动评分技术,PTE学术英语考试提供最先进精准测试来测量非英语母语者的听说读写能力,同时填补了自然语言处理NLP在语言测评领域的关键空白。
References 关于Knowledge Analysis Technologies(KAT) Engine, Latent Semantic Analysis(LSA), and Intelligent Essay Assessor(IEA) Calfee, R. (2000). To grade or not to grade. IEEE Intelligent Systems 15(5), 35–37 pearsonkt.com/papers/IEEEdebate2000 Landauer, T.K., D. Laham, & P.W. Foltz. (2003). Automatic essay assessment. Assessment in Education: Principles, Policy & Practice, 10(3), 295-308. Landauer, T.K., D. Laham, & P.W. Foltz. (2000). The Intelligent Essay Assessor. IEEE Intelligent Systems 15(5), 27–31. Landauer, T.K., P.W. Foltz, P. & D. Laham. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259–284. pearsonkt.com/papers/IntroLSA1998 Landauer, T.K., & S.T. Dumais. (1997). A solution to Plato’s problem: The Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge. Psychological Review, 104, 211–240. pearsonkt.com/papers/plato/plato.annote Pearson (2008). Reliability and Validity of the KAT Engine. pearsonkt.com/researchVRSum 关于Ordinate technology and Versant tests Bernstein, J., J. De Jong, D. Pisoni, & B. Townshend. (2000). Two experiments on automatic scoring of spoken language proficiency. In P. Delcloque (Ed.), Proceedings in InSTIL2000, pp. 57–61. Dundee, Scotland: University of Abertay. Harcourt (2006). Predicting ICAO levels from Versant™ for English. Author. Kerkhoff, A., P. Poelmans, J. de Jong, & M. Lennig (2005). Verantwoording Toets Gesproken Nederlands. [Account of the Test of Spoken Dutch] Den Bosch: CINOP. Pearson (2004). Versant English Test: Can do Guide; Ordinate® SET–10®. Author. Pearson (2008). Versant Aviation English Test: Test Description and Validation Summary.Author. Pearson (2008). Versant English Test: Test Description and Validation Summary. Pearson (2008). Versant Spanish Test: Test Description and Validation Summary. Validation_Summary.pdf