查看原文
其他

"来"读书第八期 | 二语评价的主要研究问题、关注点及争论

高苗苗、林敦来 外研测评 2022-04-24

本期主笔

高苗苗

高苗苗,北京师范大学外文学院教师,语言学硕士。来读书阅读小组成员。


本期主笔

林敦来

林敦来,北京师范大学外国语言文学学院副教授,硕士生导师。现任外国语言文学学院公外部主任。研究方向为语言测试与评价及大学英语教学。主持国家社会科学基金项目一项,参与教育部基础教育质量检测中心及中国基础教育监测协同创新中心英语学科工作。目前已出版专著三部,参与编写大学英语教材多部。




The Modern Language Journal 于2016年迎来创刊100周年。该刊出版专刊纪念此盛事,其中收录了美国哥伦比亚大学教师学院 James E. Purpura 教授对二语和外语评价的综述文章。在文中,Purpura 试图对二语评价的一些主要研究问题、关注点及争论进行总结。本期“来”读书与读者分享 Purpura 的这篇文章。


本文中James E. Purpura着重从如下三个部分展开论述:

1)阐述了二语评价的定义及概念发展;

2)描述了“构念界定 (Construct Definition) 的四种途径,分别为基于特质的途径、基于任务的途径、交互式途径、社会交互式途径,并阐述了各种途径是如何影响“测什么”这一问题的。

3)探讨了二语评价理论、相关研究及实践的未来发展方向。

 

语言评价是什么

Purpura 认为语言评价从广义上来说就是系统地获取测试与非测试数据的一个过程。获取该数据的目的是为了得到被试者与语言有关的特点的参考数据或评价结论。其中,语言评价中的“评价”不单指一些大规模的测试或教学过程中的章节测验,也包括其他获取关于知识、技能和能力的信息的途径。所有二语评价的目标都是获取被试者在特定条件下的二语能力(L2 Performance),以此来解释能力一致性及用于生成各种记录信息,例如分数、文字描述或印象。对于这些记录信息的解释又会被作为各类决策的依据。


Purpura 归纳了二语评价的3个特性:

1. 评价都基于学科内容或专业知识;

2. 评价是目标导向的。即评价都有其潜在目的,尽管有些情况下测试的目的不太明显;

3. 获取信息的过程所具有的系统性程度不同。在实际教学过程中其系统性所涵盖的范围从控制程度高的测试到控制程度低的测试。


同时,Purpura 认为,从技术角度来说,评价即指依据某些特定目的来获取或收集能力表现数据的程序。但是,关于“评价是什么?”这一问题的讨论必须要说明我们如何使用所收集到的表现能力记录信息。这也引出了关于“解释(interpretation)”这一话题的研究及讨论。


最后,目前关于“二语评价是什么?”这一问题的观点理所当然地认为,“评价”从其最简单的形式来讲,就是一种基于原则的收集信息的过程。所收集到的信息是在特定条件下为实现某种潜在目的而获取的。并且该信息可以以文字形式记录或描述,即可以用于生成评估记录信息而进行分析及解释的一种能力。


目前鲜有学者认为评价只是数据收集、评分及分析,更多人认为评价是用来做决策的依据。

 

“构念界定”的四种途径:

二语能力构念的丰富

“构念界定”可能是“二语评价”领域中极具挑战的核心话题。所有对于被试者语言能力表现一致性及对测试结果的解释都基于二语资源。连同其它内部及外部因素,对于被试表现能力一致性有意义的解释也促进了交际的达成。


不同领域的理论研究者形成了不同的构念界定途径,同时这些途径不仅能作为表现一致性的有效解释的基础,也是评价设计和实施、解释和使用的基础。


当前,大家的关注力都转移到评价理解、实践和研究活动,Purpura 阐述了如下四种“构念界定”的途径及这四种途径下二语教育者和评价专家是如何为了实现各种测试目的而调整测评的。


“构念界定”的四种途径分别为:

(a) 基于特质的途径(Trait-based);

(b) 基于任务的途径(Task-based);

(c) 交互式途径(Interactionist);

(d) 社会交互式途径(Socio-interactional)

 

关于二语能力的界定,关注如下四个方面:

1. 要关注被试者二语能力构成及内在关系;

2. 要关注语境在描述被试者知识、技能、能力特征时所起的作用;

3. 要关注二语测评能力背后潜在的社会认知和情感因素,以及这些因素是如何调节被试者知识、技能、能力和他们对任务反应能力之间的关系;

4. 要关注话题、文本、学科知识以及其所传达的意义在二语能力构念中所起的作用。

关于如上这些问题的论证,由于需要更为充足的解释,需要对评价的构念、实施和应用进行改进,进一步丰富了二语构念。鉴于如上四种途径的主导性,Purpura 从考虑当代理论、研究和实践应该如何做的角度,对这四种途径逐一进行了阐述。

 

基于特质的“构念界定”对能力的解释是什么

基于这一途径来讲,对“能力”的解释是“假设特质可以从语境中归纳或概括,能力就是特定构念的一种功能”。

在二语评价的研究文献中有许多“基于特质的途径”的研究范例。最早是 Lado (1961) 和 Carroll (1961) 提出的“技能和成分”模型。该模型强调个体的各种二语要素(例如,语音、结构、词汇)在展现语言技能的时候可以被单独测试。

在 Oller (1979) 提出的“基于特质的模型”中,Oller 认为二语水平不只是各种要素的集合体,而是与感知和产出过程相结合的一个整体的水平要素。

交际能力模型 (Communicative Competence Model) 也是“基于特质的模型”的例子。交际能力模型是 Canale 和 Swain (1980) 提出,后来由 Canale 进一步研究成型。它认为水平是一种语法资源知识及从社会语言学角度应用这些资源去理解和创作书面及口语文本的能力。

Bachman (1990) 及后来 Bachman 和 Palmer (1996) 又进一步对交际能力模型进行了改进,提出了 CLA 模型 (Communicative Language Ability Model) 。在该模型中,Bachman 和 Palmer 提出这样一个概念:二语能力就是个体的语言应用能力。二语能力也被看作是一种会在未来语言能力中被评测的潜在能力,而不是作为某个特定的 TLU 语境下的二语能力的预测。

 

基于任务的“构念界定”对能力的解释是什么

基于任务的“构念界定”途径,也叫以任务为中心的或基于能力的途径(Clark, 1972, 1978; McNamara, 1996; Norris et al., 1998; Skehan, 1998),它假定能力一致性能够反映被试者能够在一些真实的目标语域环境中完成开放式问题、书面及口语任务的能力。

基于任务的“构念界定”途径起源于 Clark (1972) 和 Jones (1985) 的研究,其目标是能够直接测量二语水平,就是要求被试者模拟现实语境来完成测试任务 (Clark, 1972, p.121)。

Norris (1998) 和 Brown et al. (2002) 提出了基于任务的语言评价 (task-based language assessment (TBLA) ),是一种直接运用评测表现来推测被试者未来表现的测评方法,也是基于任务的“构念界定”途径的一个例子。

Norris 和 Brown 在他们提出的 TBLA 中将任务看做是现实世界中能力的一种预测,Skehan (1972) 却强调在任务表现中任务是语言和二语学习过程的激发点(Triggers)。Skehan 的这一观点强调语言、任务和认知变量之间潜在的相互作用。

 

交互式“构念界定”对能力的解释是什么

“构念界定”的第三个途径,交互式途径,是由 Chapelle (1998) 提出。交互式途径认为需要将表现一致性与特质、语篇特征及它们之间的相互作用联系起来。

交互式途径拓展了二语能力的构念,目前是托福 iBT 考试评价框架的基础模型。

Douglas (2000) 关于专门用途语言评价 (Language for Specific Purposes(LSP) Assessment) 的研究就是“构念界定”交互式途径的一个范例。在 LSP 研究中,Douglas 认为各个领域的语言知识的特点是不同的,他提出了专门用途语言能力构念。其观点认为,鉴于任务依存于专门用途语境中,表现一致性所反映的是二语能力的策略参与。

关于“构念界定”交互式途径的另一个范例可以参考 Purpura (2004, 2014c)的研究成果。Purpura 认为用于交际的基本的语言资源不仅涉及语法形式,还包括当这些语法形式被单独使用或者用于某种语境时与其相关的意义潜势。Purpura 提出了一个二语能力模型,认为表现一致性不能只是归因于在传递和理解与交际话题有关的文字、语义及命题意义的过程中选择使用语法形式,还要归因于交际语境中所包含语用语义潜势(例如,社会语言学、社会文化、心理/情感、修辞等方面的)。

 

社会交互式“构念界定”对能力的解释是什么

“构念界定”的第四个途径是社会交互式途径。McNamara (1997) 认为从社会交互式途径来看,目标语使用域中的能力包括社会活动,即以目标为导向的即时社会活动。

Jacoby 和 McNamara (1999) 的研究成果中就有关于“构念界定”社会交互式途径的范例。Jacoby 和 McNamara (1999) 就“物理学家在毕业研讨会上是如何对预演的论文报告进行评价和提供反馈意见的”这一问题进行了研究。这些论文预演都是为了让汇报人能够适应这种特定团体的工作流程、目标和思维习惯。Jacoby 和 McNamara 认为在这种特定的语境中,一个独立的评价标准相对于评价目标来说是不准确的。

He 和 Young (1998) 对 Kramsch (1986) 关于互动能力(Interactional Competence (IC))的概念做了进一步的研究和改进。He 和 Young 认为表现一致性是所有参与者能力、行为和活动共同构建的结果。这也是“构念界定”社会交互式途径的一个范例。

Lantolf 和 Poehner (2004) 的动态评价(dynamic assessment (DA))研究成果可以说是从另一个不同角度提出的一个“构念界定”社会交互式途径的范例。Lantolf 和 Poehner 的动态评价研究认为,由于评价者在教学过程中为了发展学习潜能而进行的干预,使得表现一致性随着二语的发展被概化。 


有待研究的领域

二语研究者和测评者除了研究构念界定的途径,还致力于探索和改进评价设计、开发、实施、评分及分析的各种方法,并根据当前的研究情况发表相关研究成果;他们将教育测量的各种先进技术和新的研究方法用于评价研究;他们还探索评价使用的公平问题以及更加公正的测量手段。目前关于语言评价的研究很多,Purpura 认为如下几个领域还有待进一步的研究和探索:


1. 单要素和单技能的评价 The assessment of individual elements and skills

※语音测评 Assessing Pronunciation

※语用测评 Assessing Pragmatics

2. 综合技能测评 Assessing Integrated Skills

※综合技能评价 Integrated Skills Assessment

※基于场景的语言评价 Scenario- Based Language Assessments

3. 评价、学习及教学 Assessment, Learning, and Instruction

4. 全球情境下的语言评价 Language Assessment in Global Contexts

5. 欧洲共同语言参考标准 The Common European Framework of Reference (CEFR)

6. 评价结果使用的价值和社会影响 The Values and Social Consequences of Assessment Use

7. 科技与语言评价 Technology and Language Assessment

※技术与语言评价 Technology and Assessment

※口语和写作自动评分技术 Automated Scoring of Speaking and Writing


总的来看,本文 Purpura 试图对二语评价的一些主要研究问题、关注点及争论进行更新。他指出过去的关注点是如何影响当前解决方案的,以及当前解决方案是如何为相关研究创造机会的。同时,他提出了构念界定的四种途径及各种途径是如何影响测评内容的。最后他着眼于未来,提出了一些未来值得进一步研究和探讨的领域。

Purpura 认为本文的局限在于他或许忽视了关于二语测试者的相关研究。本文虽不能面面俱到,但已很好地阐述了目前二语评价者所研究的成果及该领域值得进一步研究的问题。


参考阅读


Bachman, L. F. (2007). What is the construct? The dialectic of abilities and contexts in defining constructs in language assessment. In J. Fox, M. Wesche, D. Bayliss, L. Cheng, C. E. Turner, & C. Doe (Eds.), Language Testing Reconsidered (pp. 41–71). Ottawa: University of Ottawa Press.


Bachman (2007)关于语言测试历史上构念界定的梳理



掌握一手测评讯息

学习最新测评手段

长按关注外研测评


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存