查看原文
其他

武尊民 | 诊断性语言测评为课堂教学决策提供依据

武尊民 外研测评 2022-04-24

摘   要:诊断性语言评测是教师课堂教学的重要部分。课堂多元化评价可提供诊断性测评信息,是教师教学决策的重要依据。恰当使用诊断性测评信息可以帮助教师做出合理的教学决策,保障好的教学效果。已有的由专业人士研发的诊断性测评体系可为一般语言学习者提供服务,也可以为特定目的而设立。教师将诊断性测评与课堂教学融合,分析解释诊断性评测信息并及时反馈可使教师决策增强目的性,同时也有利于学生及时调整学习策略。


关键词:诊断性语言测评;课堂评价;教学决策

作者介绍:武尊民,北京师范大学外国语言文学学院教授、博士生导师,北京师范大学外语测试与评价研究所所长。

诊断性语言测评


1. 诊断性考试与诊断性测评

一般教学诊断从六个方面的学习问题出发,即判断学生课程内容掌握的情况、辨别入门时必备知识是否缺少、探查未能掌握的课程目标、甄别学生所犯错误、识别学生知识结构以及了解学生解决问题能力(Genesee & Upshur, 2001)。具体到外语考试中,诊断性考试是指用于确定语言学习者语言能力的强、弱项的考试,它具有以下几个特点。


第一、命题针对语言的某一特定知识范围或技能。

第二、从展开式作答题(如书面或口语表达)获取更多有用的诊断性信息。

第三、诊断性考试形式多元,可以是标准参照考试,也可以是常模参照考试,或是基于教学的形成性评价。

第四、针对微技能的诊断性考试应在某特定考点上有足够量的题目。

第五、诊断性考试的内容设计应覆盖学生所学内容,或是测试设计者预期所要推断考生应掌握的语言技能。

第六、诊断性考试所依据的语言能力学习理论较为微观,因此考查点常常是具体的微技能或语言知识,通过分立式题型来考查。

第七、诊断性考试的重要价值之一是快速反馈,以使考生直接获益。而借助计算机技术可达到预期效果使得大规模诊断性考试的信息反馈快捷

( Anderson, 2003; Chengetal, 2004; Genesee & Upshur, 2001)。


诊断性测评涉及范围更广,这是因为单凭诊断考试的结果不足以获得真实、全面、有用的诊断信息。学生没能掌握课堂所教内容有时可能是因为其他相关因素,如动机态度、课上不能集中精力、考试时间太长、太无聊或者太难、教师的负面反馈、同伴关系不好等。而获取这些方面的信息的方法常采用其他类型评测方式,如调查量表、访谈等。


诊断性语言测评为课堂教学决策提供依据。教师根据测试结果调整教学计划、创设更多、更有针对性的学习活动、帮助学生选择适当的课程或学习内容。同时学生清楚自己的问题所在,并依此改进自己的学习策略,有针对性地练习或强化学习。


2. 诊断信息来自多元化课堂评价 

诊断性测评的目的是为教与学决策提供依据。一方面,学生可以根据教师的反馈和诊断的反馈及时改进自己的学习方法和策略。另一方面,教师可根据反馈结果,改进教学计划、创设更多的学习活动、帮助学生选择适当的课程等。但是常规纸笔考试分数常常不能够给出学生学习情况的具体信息,因此还需要采用多种评价方式获得诊断性信息,如活动表现、学习档案、学习日志/随笔、课堂观察、自评、同伴评等。多元化的课堂评价,可以帮助教师在学期初诊断学生学习的强项与弱势,教师依据所获得信息制定教学方案。课程进行中的持续诊断可为调整教学决策提供依据。

( McKay, 2006; Brown, 2007, 2012)。


从Rea-Dickins(2001)所示的一个课堂评价的过程模式(如图1)我们可以看出,课堂评价可分为四个阶段,而前三个阶段是互动的。


图一:课堂评价过程与策略


诊断性测评的计划—实施—监测三个阶段间的活动是互相影响的。在实施第二阶段的活动时如果出现意外情况,则需返回到第一阶段调整测评计划。第三阶段监测评价结果时需要核查第一阶段的计划,检查计划落实情况。第四阶段涉及评测结果的正式存档和报告。


教师获得课堂评价信息的另一重要方式是观课。以评价为目的的观课旨在系统、计划周密地记录学生言语的或非言语的表现。这种观察的目的之一就是在不影响学生正常课堂活动的情况下评价学生语言能力,以使得学生的语言使用表现得自然度最大化。以口语为例。在观察口语课堂时,教师可以从多个维度获取信息,如句子层面(如发言、语法、词汇使用等)、语篇层面(对话规则、话轮转换等)、与同伴互动(合作、说话频率)的表现、说话时间等(Brown 2012;Genesee & Upshur, 2001)。更为重要的是关注学生口语表达的交际有效性,即学生是否能够清楚表达所要表达的意思,是否能够恰当使用口语策略完成口头交际任务(Purpura, 2004)。


3. 诊断性测评体系 

诊断性测评体系的目的是获取大量语言学习者能力发展诊断性信息。其研制常常是由教育测量、语言测试、课程和教学诸方面专家合作而成。在恰当的测试构念基础上分析解构语言能力,使测试题目聚焦特定的微技能(如获取具体信息、理解观点)或语言知识点(如词汇、语篇结构),为测试使用者提供所需信息。举例如下。


DIALANG 是在欧洲覆盖了14种语言的在线诊断性语言测试,旨在帮助成年语言学习者了解自己的语言总体水平,了解自己语言技能方面的优势和不足。它以《欧洲语言共同参考框架》为测试构念,以六个语言能力级别为诊断的参考依据。通过检测词汇、听读写技能为语言学习者提出改进提升建议。此外,系统还设有自我评估量表,鼓励学习者进行自主学习。测试题目的呈现较好地展现了计算机技术应用于语言测试的方式(Alderson, 2005, 2007, 2015)。


“中小学学生学业成绩分析、反馈与指导系统”(此项目于2003年启动测评,多个省市参与测试。2015年项目转由教育部中国基础教育质量监测协同创新中心负责运行。)是由教育部基础教育课程教材发展中心创始研发的诊断性评价体系,目的是基于《全日制义务教育普通高级中学英语课程标准(实验稿)》要求,检测四年级、八年级语文、数学和外语课程学习质量以及调查影响学生学习成绩的相关因素,通过分析,给地区、学校和教师提供不同层次的反馈信息,提出具体指导意见以便提升教学质量。  


同时,体系力求探索基于实证数据的教学研究与提高学业质量的模式。项目通过纸笔测验来检测学生学科学业成绩,并通过问卷方式来分析研究与学生学业发展关系密切的相关因素。英语学科的考查对象是已经完成八年级全部学习任务的初中学生。八年级英语学科学业成绩检测的依据是课程标准四级所规定的教学目标。


通过检测学生英语语言技能掌握及综合语言能力运用的表现,分析学生学业发展以及课程教学情况,并结合问卷调查信息进行综合分析。学科组针对教育管理、学校和教师向参测地区进行不同层次的信息反馈。反馈内容既可以是宏观的,涉及课程教学的整体情况,如没有达到课程要求的比例,男女生的差距等。除此之外,项目也对学习动机、学习策略等方面进行了诊断分析。研究发现,师生关系、学生自信心都与学生学业成绩密切相关。


“优诊学(Udig)”是正在从研发走向实际应用的线上高中英语诊断性测评体系,由北京师范大学和外语教学与研究出版社联合研发。诊断性语言测评基本理论和《普通高中英语课程标准》(实验)(2003)是体系研发的依据。通过阶段性测评分析学生英语技能掌握情况,分析信息即时反馈给教师和学生,为计划、调整教学决策提供支持。通过在几所实验学校的试运行,体系已经显示出较好的实践效果。

教学决策


1. 教学决策的定义和分类 

教学决策是指教师对于涉及课堂组织、课上互动、动机、课程进度、任务优选、反馈、纪律规则等教学活动所做的决策(Wallace, 1998)。教学决策可分为三个类型,即计划性决策、互动性决策和评价性决策。计划性决策基于教学大纲或者教材;互动性决策是基于学生的需求,力求最优效果;评价性决策关注的是教学是否有效,学生是否满意和所做的事情是否有重复性(Richards & Lockhart, 1994)。


三种决策相互关联。计划性决策是在教师分析教学形式、仔细考虑了一些问题后形成的,如在研究考试大纲和教材后思考如何实施教学。互动性决策是教学技能的核心,因为互动性决策使教师能够评估学生对教学的反应并据此调整教学,以便获得最佳教学效果。如果教师完全按照备课上课、忽视教与学的动态发展过程则难以应对学生的需求。当教师获得了教学经验,并且对教学有深入了解的时候,他们评价教学的标准,也会随之变化。这反映出他们对于教学的新的理解和信念。此时教师所做的评价决策,则是为他们之后所做的计划性决策提供依据。


2. 教师评价素养与教学决策 

教师的评价素养是指教师知晓测评实践的基本原理、知晓测评方法与技术的运用、熟悉测试质量评判标准。教师在教学过程中恰当使用评价技术可提高教学效率、保护学生自信心和学习积极性。近年来,我国关于外语教师评价素养的研究已在发展,特别是针对中小学英语教师的评价素养研究(廖善平, 2016;林敦来、高淼, 2011;林敦来, 2016)。提高教育者的评价素养方式有很多,如工作坊、书面材料学习、媒体线上互动或讨论等。

诊断性测评与课堂教学的融合


1. 计划诊断性测评 

首先要考虑测试的必要性,即明确目的。在学期初或者在开设新课时,采用诊断性测试可以为教师提供有关教学目标设定、教学方法设计、学生所处水平等信息。诊断性测评的形式是多样的,如纸笔考试、问卷、自评、同伴评等。在计划诊断性测评时也要考虑可行性,如测评工具是否完备,测试环境是否达到要求,是否有相关领导的支持等。


2. 选择与规划诊断性测评 

选择诊断性测评时可考虑自主命题、选用试卷和利用线上平台三种形式。自主命题比较耗时,需要选定内容、确定题型以及编写题目。自主命题对教师的评价技能要求较高,命题质量不高反而会带来有害反拨效应。选用现成试卷较为便捷,但是需要注意的是试卷的内容与所设定的考试目的需相符。试卷的难度要合适,过难或者过易的都不恰当:过难会打击学生的积极性,过易则不能发现学生的学习问题。同样,利用线上平台进行测试的时候,也要明确考试目的和考试内容是否相符,报告是否给了足够的反馈信息。


诊断测评需要收集充分有效的反馈信息。精心设计的试卷测试结果可以提供详尽的诊断性信息。评分标准的设计和使用与测试构念密切相关。以写作或口语考试的评分为例。评分模式可为整体评分、分项评分、专项评分、多点关注评分。


整体评分是指依据单一综合性标准,分档次给分,其优势是关注考生完成任务整体情况,阅卷相对省时,适用于大规模考试。但整体评分对于课堂教学来说有局限性,主要是单一分数难以解释分数意义,不能提供有助于教学决策的诊断性信息:即鼓励某些方面的发展优势(词汇、句法结构、篇章组织)、确定学生使用复杂结构表达意义方面的不足。


分项式评分是指将作文或口试按所考查能力的几个构成部分进行分项评分,如内容、组织结构、词汇、语法、语音语调等。虽然评分相对费时,但可提供具体的诊断性信息,非常适用于日常教学。


专项评分依据教学重点,预定写作/口语表达评分的某个关注点。这种评分方式强化特定项目的关注度,使评分者注意力更加集中,方便教师确定哪些学生需要帮助。及时反馈可使学生直接受益。


多点评分是为了获取与教学相关的信息,根据学校或地区评价需求,确定若干关注点。多点评分为分数评定提供更准确诊断性信息,对教学有正面的反拨作用。


另外,如果选择观课作为测评形式,需要明确以下几点内容:观课的目的、观课结果会导致的决策、与观课目的相关的关注点、关注的对象(如个人、小组、全班)、观课次数、如何记录等。观课需依据以上内容设计课堂观察表,从而获取有效充足的诊断信息。


3. 诊断性测评的结果分析与反馈 

诊断信息可以分为两类。一类是质性信息,如教学日志、观课清单、学生日志等。一类是量化信息,如频率、平均分、试题的难度、区分度等(Bailey, 2008)。质性诊断信息主要来自课堂评价,特别是基于教师对学生的了解。通过观察、访谈、学习日志,教师可以了解学生的学习兴趣、学习困难以及其他一些影响学习成效的相关因素并在教学中加以考虑。


量化测试结果的分析和解释要符合测试构念。以“中小学学生学业成绩分析、反馈与指导系统”的一组八年级听力题目为例。三个题目都是考查学生从听力材料中获取具体信息的能力。数据分析显示,学生能力水平不同,处理信息的认知能力水平也不同。具体分析显示如下:

听力原稿

Man: Hi, Alice, where did you go last weekend? 

Woman: I went to the park on Saturday and on Sunday I went shopping with my     mom.    

Man:  Good. How did you go to the park? 

Woman: At first, I wanted to take the bus, but there were too many people, so…  

Man:  So you walked there? 

Woman: No, I rode my bicycle there.     

Man: How long did it take you? 

Woman: I started at 8:30 and got there at 9:00.     

Man: Are you tired today? 

Woman: A little.

说明:听力材料涉及日常交际话题。说话人谈及周末活动,其中包含有地点、出行方式、时间等具体信息。 录音听两遍。学生答对率见图 2。


图二 听力理解题得分率(某市八年级学生)

试题分析

1. Where did Alice go last Saturday?

[A] She went to a store. 

[B] She went to a park.

[C]She went to school.

考查能力:获取涉及地点的具体信息。学生得分率88.3%。作答所需分析过程:听到信息to the park就可以选择答案。答案是B。

 

数据显示,这个题目对于A水平学生来说完全没有难度,B水平和C水平学生得分率分别也有96.8%和87.5%。D水平学生的答对率接近50%。也就是说D水平学生也还有一半听不懂材料内容,不能正确获取所需信息。


( “中小学学生学业成绩分析、反馈与指导系统”项目的八年级学生英语水平划分采用 Angoff 和 Bookmark 方法,基于实测数据,由学科专家和中学教师共同划定。A水平为优秀、B水平为良好、C水平为合格、D水平为待合格。合格指达到课程标准最低要求。)


2. How did Alice get there?

[A] By bus.

[B] On foot.

[C] By bike.

考查能力:获取出行方式的具体信息。学生得分率60.1%。作答所需分析过程:听到三条相关信息 take the bus, walked there, rode the bicycle。学生需判断哪一条信息能够用来正确回答问题。此外,学生从材料中听到 bicycle,而正确选项的关键词是 bike。学生需要进一步信息转换。答案是C。


数据显示,这个题目对于A水平学生来说几乎没有难度(96.5%),B水平学生得分率达到71.7%。C水平学生和D水平学生的答对率接近,分别是36.2%和30.2%。这说明,答对这个题目所需认知能力要求高,对C、D两个水平的学生都是困难的。


3. How long did it take Alice to go there?

[A] 30 minutes.

[B] 60 minutes.

[C] More than 60 minutes.

考查能力:获取涉及时间的具体信息。学生得分率46.5%。作答所需分析过程:听到信息 I started at 8:30 and got there at 9:00,需做简单信息归纳和推算方可选择答案。答案是A。


数据显示,这个题目对于A水平学生来说是中等难度的,答对率75.5%,占这一水平学生的三分之二。其他三个水平的学生的答对率分别是44.7%、36.9%和34.66%。这说明,答对这个题目所需认知能力要求高,对B、C、D三个水平的学生都是困难的。题目困难的另外一个原因可能是题干 How long does it take…比较难理解。


总结上面分析,我们可以说八年级学生在听英语时,如果没有干扰信息,是能够获取得到所需具体信息的,如第1题。第2题听力材料中有干扰信息,答案选项又不是材料原文,即需要信息转换。A、B两个水平的学生可以较好答题,但是C、D两个水平的学生答题都有困难。第3题的测试数据显示,听力理解考查简单归纳信息和推算可能对八年级学生来说比较难,但是A水平的多数学生可以答对。选拔类考试可用此类题目。


4. 教学决策

诊断测评的信息帮助做出教学决策。对于教师来讲,诊断信息帮助改进教学模式、审视已教内容、有针对性地提供学习资源、组织学生讨论改进措施、调整教学大纲、放慢课程进度、提供学习策略培训等。对于学生来讲,诊断信息为是否进行强化训练,制订改进措施和针对性的学习策略训练,是否需要进行进一步的自测或者同伴测等提供决策依据。


利用诊断性测评时,首先要明确其是否对教学提升有效;应关注在实施诊断测评时对教师评价素养的要求、对教师行动研究能力的要求。教师在使用诊断性评测过程中,不能忽视学生综合语言运用能力的发展这一英语学习的终极目标,并且要利用学校其他的诊断性信息,如期中考试、期末考试、月考等。以优诊学实验学校实践为例(选自课题组文档,2017)。


例一:优诊学实验学校施老师在诊断性测评后意识到英语词汇学习内容应包括:词形转换、短语及固定搭配、日常交际用语、个人家庭相关词汇、健康相关词汇、日常活动相关词汇、学校生活相关词汇等。学生在词汇测试中成绩不佳,因此决定调整教学模式:

a)班级建立 Word Bank。以小组为单位,在墙报上添加相应内容:如对单元词汇按构词法或话题进行归类、根据某一词缀扩充相应词汇、整理符合某一特征的词汇、总结练习题里出现的词汇或好句子或总结课外阅读中提炼出来的词汇和句子等。

b)关注构词法:把单元词汇按构词法归类,典型词缀加以适当扩充;

c)关注词汇的话题:在教材处理中培养学生词汇的话题意识、扩展课外话题阅读、进行专门话题演讲;

d)关注语境。这样一来,词汇教学不再是孤立的单词学习、简单记忆,而是调动学生积极性,结合语境学习词汇知识。


例二:优诊学实验学校的高三吕同学,从高二进入实验班以来,是一个基础一般、作文写不出几个正确句子的学生。英语成绩在100分到110分左右徘徊。进入高三前进行过阅读测验,其水平低于班级整体阅读水平。

经过半年的时间,这位同学在高三第二学期初的阅读测试有进步表现。三个阅读微技能(了解文章大意、理解观点信息、确定句间逻辑关系方面)有大幅度提高,从低于班级平均分,到超过了班级平均分。

任课教师金老师说:“知道我是怎么做的吗?首先在前测后我认真分析了学生阅读中最弱的部分,那就是理解观点信息微技能。然后结合了当时高三的一次月考,我着重分析了每个孩子这个微技能掌握不好的原因。每个孩子都是不一样的。比如吕同学,她的中文基础不错,但英语成绩不佳。当我听完她回忆做题过程时,我发现她对于此类题目的回答没有基于文章的细节事实,也没有基于作者的意图。这个小小的诊断使她立刻明白自己的问题所在。在后来的高三考试中,她就是一个励志的榜样,每次班级前五名,有一次还拿到班级第一,总在135分以上。”


这些事例显示教师能够较好地利用诊断信息做出相应的教学决策,而且这种基于诊断测试结果所做的教学决策可以产生积极效果。

结  语:诊断性语言评测是教师职业能力的重要组成部分。注意获取课堂多元化评价诊断性测评信息,分析解释诊断性评测信息并及时反馈可使教学决策目的性强,同时也有利于学生及时调整学习策略。服务于中小学课程教学的“中小学学生学业成绩分析、反馈与指导系统”为参测学校提供了学生学业成绩发展和相关影响因素分析,支持区域基础教育健康发展。服务于高中英语教学的优诊学项目已经初步显示出为教师决策和学生改进学习的效能。

参考文献

Alderson, C. (2007). The challenge of diagnostic testing: Do We Know what we are measuring?[A]. In J. Fox, M. Wesche, D. Bayliss, L. Cheng, C. E. Turner, & C. Doe (eds.), Language Testing Reconsidered (pp. 21-39). Ottawa: ACTXPRESS. 

Alderson, J. C. (2005). Diagnosing Foreign Language Proficiency—The Interface between Learning and Assessment[M]. London: Continuum. 

Alderson, J. C., Haapakangas, E.-L., Huahta, A., Nieminen, L., & Ullakonoja, R. (2015). The Diagnosis of Reading in a Second or Foreign Language[M]. New York: Routledge Taylor & Francis Group. 

Anderson, L. W. (2003). Classroom Assessment - Enhancing the Quality of Teacher Decision Making [M]. London: Lawrence Erlbaum Associates, Publishers. 

Bailey, A. L. (2008). Assessing the language of young learners[A]. In E. Shohamy & N. H. Hornberger (eds.), Language Testing and Assessment (2nd ed., pp. 379-398) . New York: Springer Science + Business Media LLC. 

Brown, H. D. (2012). Language Assessment: Principles and Classroom Practices (2nd ed.)[M]. Beijing: Tsinghua University Press. 

Brown, H. D. (2007). Teaching by Principles: An Interactive Approach to Language Pedagogy (3rd ed.) [M] . New York: PEARSON Longman. 

Cheng, L., Rogers, T. & Hu, H. (Jul 2004). ESL/EFL instructors' classroom assessment practices: purposes, methods, and procedures[J]. Language Testing , 21(3), 360-389. 

Genesee, F. & Upshur, J. A. (2001). Classroom-based Evaluation in Second Language Education. Beijing: Foreign Language Teaching and Research Press. 

McKay, P. (2006). Assessing Young Language Learners[M]. Cambridge: Cambridge University Press. 

Purpura, J. (2004) Assessing Grammar. Cambridge: Cambridge University Press

Rea-Dickins, P. (2001). Mirror, mirror on the wall: Identifying processes of classroom assessment. Language Testing 18 (4), 429-462.

Richards, J. C. & Lockhart, C. (1994). Reflective Teaching in Second Language Classroom[M]. New York: Cambridge University Press. 

Wallace, M. (1998). Action Research for Language Teachers[M]. Cambridge: Cambridge University Press. 

廖善平 . 国内外外语教师评价素养述评 [J]. 基础外语教育,2016,18 (4): 3-11.

林敦来 . 中国中学英语教师评价素养研究 [M]. 北京:中国人民大学出版社, 2016.

林敦来、高淼 . 教师评估素养:理论与实践 [J]. 外语教学理论与实践, 2011,4 (4) : 29-37.



本文选自“英语学习”教师版

2017年第8期,经授权转载。

长按识别二维码关注 “外研测评”


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存