二语写作测试中的评分量表研究论文ID=33490

二语写作测试中的评分量表研究论文

作者：佚名；更新时间：2019-04-19

　　[摘要]目前国内外对二语写作测试中的评分量表研究较多，但结论各异。为了能够客观合理地给学生作文打分，还需要借助计算机和语料库的最新发展成果，在语言层面保证评分的准确性和客观性，同时由多个评阅人对作文的篇章结构和内容综合打分。

　　[关键词]写作测试信度评分量表计算机语料库

　　英语写作评分中的信度及误差控制是研究较多又很棘手的问题。国内外许多研究证明，作文评分中有很大误差，因此控制评分误差以提高信度的研究引起了研究者的注意。

　　二、研究背景及文献综述

　　写作测试评分中的中心因素是评分员和评分量表，在评分量表中，整体评分法 (holistic scoring) 与分项评分法 (analytic scoring) 是写作测试中最常用的两种评分法。整体评分法是按考官对考生的写作内容和流利性等方面的整体印象，总体给一个等级或分数，分项评分法则把考生的写作能力的各个构成因素分解开来，从不同的维度分别评分，然后根据每个方面的得分和权重算出写作总分。

　　这两种评分方法主要应用于口语与写作等主观性测试，国内外对于两种方法的评分信度进行了相关研究，但选用哪种评分法以达更高的评分信度，在语言测试界见解不一。诸多研究者认为分项法评分信度比整体评分法更高 (Hamp-Lyons, 1991; Weigle, 2002; 李筱菊，2001) 。但另一派研究者持相反观点，认为整体评分法的评分信度、评分人间一致性更高，适应在大规模测试的写作评分中采用(Cooper,1977; Huot,1990; McKendy,1992)。对此论断，其他研究者采用不同方法进行了实证性研究，现将某些代表性研究概述如下。

　　在20世纪后期，限于理论与研究工具的发展，一些研究采用相关分析来计算写作中两种评分方法的评分信度，这样只能检验写作评分中的随机误差，随着教育测量学的发展及新分析技术的应运而生，评分信度的研究更加深入和准确。

　　Swartz等人(1999)运用概化理论，以美国中学251名学生为受试，用ESL Composition Profile 量表进行实验，结果发现整体评分结果的概化系数达到 .94, 而分项评分结果中有几项维度的概化系数都较低。Nakamura(2002)以90名日本大学生为受试，采用FACET分析手段，发现使用分项评分法评分人的表现都合格，分项评分结果的信度明显高于整体评分法。Schoonen (2005) 采用结构方程模型，以89名6年级学生为受试，采用整体和分项两种不同量表评分，发现评分方法对写作分数的概化性和评分人效应有影响，整体评分结果的概化性比分项评分结果显著高。

　　三、国内对英语作文评分研究的现状及存在的问题

　　在国内的各种英语测试中，如何利用量表对学生的英语作文做出比较客观、准确的打分也是国内从事写作教学研究的专家学者们一直在探索的问题。目前的状况是在TEM、CET、PETS等大规模考试中，评阅人只能根据非常笼统、宽泛的评分标准打分，其信度值得商榷。

　　潘玮在回顾了几种流行的写作评分方法后指出，写作的评分方法仍然处于摸索阶段。现在大范围语言测试中写作题的评分标准更多的是走一条半整体半分项的方法，其主观因素太多，因而信度难以保证，考试成绩的参考价值不大。

　　陈立平、李志雪(1999)设计了一张分项积分表，评分内容分为七项：思想内容、结构形式、语言表达、语篇连贯、语法、措辞、技术细节。此表虽然分类细致，能告诉学生在哪些方面还存在问题，但是，过于抽象笼统，阅卷老师只能根据自己的经验打分，其信度无法保证。

　　曾用强(2002)指出，要对学生的作文做出客观的评估，应通过制定科学的评估量表对作文进行质的评估，而不是采用传统的分数模式。他设计的评估量表能对英语作文进行质的评估，还此基础上开发了一套过程化作文评估系统(PWESys 1.00)。这种评分方法虽然不能完全避免人工打分所带来的信度问题，但是至少对学生作文语言层面的判断更加客观合理了。

　　四、对建立客观合理的作文评分方法的建议

　　以上一系列的国内外研究说明，在使用哪种评分量表以取得更高的评分信度上，虽研究颇多，但至今不能达成共识。

　　为使写作测试评分更客观合理，必须充分利用语料库和计算机发展的成果，尤其是对作文语言的评估要尽量避免阅卷人的主观因素所带来的偏差。在此，笔者建议将语言分为三个纬度来衡量：流利度(fluency)、准确度(accuracy)和词汇复杂度(lexical complexity)。“流利度”指作文中“T单位”(包含一个主句和一个从句)的长度，没有错误的“T单位”的长度和短语的长度；“准确度”指作文中从句总数与T单位总数之比；词汇复杂度可以根据作文中使用词汇的“型次比”(type/token)来统计，也可以统计作文中的词汇在常见的1000词、2000词、3000词和不常见词中分别所占的比例。

　　当然，在衡量学生作文的篇章结构和内容方面，还需要人工打分，但是可以通过多个评分员共同打分来避免单人打分所带来的误差。

　　参考文献：

　　[1]McNamara, T F. 1996. Measure Second Language Performance [M]. London; New York： Longman.

　　[2]Sara Cushing Weigle. 2002. Assessing Writing [M]. CUP.

　　[3]李筱菊.《语言测试科学与艺术》[M]. 湖南教育出版社，2001.

　　[4]潘玮.《改进英语写作测试评分方法的研究》[J].Sino-US English Teaching，Vol.1, No.7.2004.

上一篇：大学语文写作现状研究教育论文

下一篇：新课改下中学生写作心理论文