您好, 访客   登录/注册

现代测量效度视角下的大学教学评价

来源:用户上传      作者:

  摘要:高等教育的教学评价是一种广义上的教育和心理测量,有效性与现代测量效度理论相吻合,同时又会牵涉到众多复杂的教学因素,这种二元性容易导致研究中教学论与测量学的脱节。本文尝试通过现代测量效度理论的新视角去重新审视大学教学评价的各个环节,并探讨进一步解决问题的研究途径。考虑到高等教育的复杂性和多样性,我们把测量效度的内涵重塑为评价内容、过程和方法、数据和模型、校标关联、评价后果五个层面,并以此为基础反思教学评价。希望新的视角能有助于构建更加健全和成熟的大学教学评价体系,同时能开辟结合教学论和测量学的教育研究的新范式。
  关键词:教学评价;测量效度;效度理论;高等教育;教育目标
  随着高等教育的普及,高等教育的教学质量及其评价日益受到关注和重视,合理有效的教学评价对教学质量起着举足轻重的影响。但目前仍未有共识该如何界定和衡量教学质量,对其评价也面临着不少的争议和挑战,而且随着教学质量的评价在大学越来越普及,与评价相关的问题和争论也日益增多,因此迄今还没有被普遍认可的教学评价体系可资高校内部的监管、改进和发展使用。高等教育的教学评价牵涉到诸多复杂的因素,包含了教学目标和过程,评价的内容涵盖了教与学,评价的对象覆盖了课堂、课程和整个学科的教学,评价的主体可以是学生、专家和教师,评价的方式、时间和地点都有多种选择,因此构建合理的教学评价体系同时具有迫切性和挑战性。
   针对教学评价的研究目前主要有两种视角:一是从典型的教学论视角出发,研究焦点是评价内容、指标或措施等是否合理,偏重经验主义,特点是富于思辨和理论,却容易忽略测量方法上的可行性或合理性,也缺乏实证检验;另外一种是从传统的测量学视角出发,通过测量和统计建模分析评价方法的信效度和题目参数,特点是分析检验过程实证而且严谨,不过容易忽视评价内容的合理性和整体的有效性。两种视角相对独立,但均未触及教学是教育过程、即通过教育活动以期达到特定教学目标这一本质,因此都不大可能彻底解决教学评价中的问题。教学评价是一种广义上的教育和心理测量,既有教育测试的内核,同时又会牵涉到众多的教育理论和实践元素,正是这种二元性容易导致研究中教学论与测量学的脱节。现代测量效度理论强调测量的有效性是一个整体的概念,而且必须围绕特定的目标从内容、过程、结构、效标和后果等方面构建[1][2],这一思路为教学评价的研究和实践提供了新的视角。本文尝试通过这一视角去重新审视大学教学评价的各个环节,并探讨进一步解决问题的研究途径。
   一、现代测量效度的本质
   测量效度指一项测试是否有效测量了所想要测量的东西,是衡量这项测试最重要的指标。而那个“东西”指某种“概念或属性”,被称为构念(construct)。不过传统和现代测量学对效度的本质有不同的认识。传统测量学强调测量的工具性,效度是测量工具的内部属性并绝对存在。当测试能够测量出所预设对象的特征或属性时,该测量有效;反之则无效。[3][4]因此,教育和心理测量是物理测量在行为和社会领域的自然延伸,并在此基础上形成了构念效度:测量所要测的构念在理论上存在,并且与测量结果具有因果关系。这种因果关系是测量建模和检验模型有效性的理论依据。此后衍生出了内容效度、效标效度等不同的效度概念,分别从内容、效标等角度去验证测试的有效性。[5]不同类型的效度以及相关的验证分析相对独立,而且可能在不同场合起着关键作用。
   现代效度与传统效度有着本质不同,是指证据和理论对测量结果的特定解读和使用的支持程度。[6][7]首先,测量结果的解读和使用源于测量目标或用途。效度不再是测量工具的内部属性,也不是绝对的,而是与如何使用测量结果息息相关。同样的测量结果在某种目标的使用下是有效的,换一种目标或使用可能就是无效的。其次,效度是一个整体单一的概念,不存在不同类型的效度。构念代表着全部测试行为的特征或模式,是全体测试行为的抽象化表征,因此构念效度代表着整体的效度。但构念效度不再强调测试行为和结果之间的理论性和因果性,而是强调两者关联具有合理性并且可被验证。再次,效度验证具有多面性,效度论据可以来自于五个方面(见图1),即测试内容、应答过程、内部结构、外部关联、测试后果。完整的效度验证需要从这五个方面进行。多个方面的效度论据围绕着构念效度,构成了完整的效度整体,任何一个方面的缺陷都会导致无效的测试解读或使用。但不同方面的效度证据并不互相排斥,而是相互作用和影响。比如测试内容的论据可能会涉及到内部结构或外部关联。因此,对同一测试用途进行多个方面的效度验证图1效度验证的五个方面相当于对有效性进行多重检验,从而增加了效度结论的严谨性和合理性。最后,由于牵涉到多方面的效度证据,效度验证也就需要整合不同类型、性质,甚至看起来相互矛盾的证据。论据整合的目的是形成合理的证据链,以期得出具有说服力、前后连贯并经得起考验的效度结论。论据的多样性和证据链的严谨性使得效度验证的过程更富于思辨性或批判性思维。
  ·課程与教学·现代测量效度视角下的大学教学评价
  二、现代测量效度视角下的反思
   教学质量的评价属于过程性的教学评价,过程性评价在理论上与泰勒的教学评价涵义吻合[8],重要性也为众多的教育学者认同[9],其以教育过程(如教学)和资源(如师资和教学环境)为评价对象,评价目标和功能面向教育业内和专业人士,以特定教育目标为前提对教育活动或现象进行评价,强调的是评价对象与评价结果的因果关系,赋予教育质量内在的合法性。教学评价是一种广义上的教育和心理测量,其测量目标内含教育目标,测量构念是面向特定目标的教学过程质量。与构念的本质一样,教学过程质量潜在于可观察的教学活动之下,是后者的高度抽象或概括,因此评价的有效性与现代测量效度理论相吻合。考虑到高等教育的复杂性和多样性,对其教学过程的评价牵涉到众多的教育理论和实践元素,我们对测量效度五个方面的内涵进行适当重塑,并分别命名为评价内容、过程和方法、数据和模型、校标关联、评价后果五个层面。    (一)评价内容
   效度的内容层面关注评价内容是否合理,即评价什么的问题,具体包括内容域如何界定及其理论或实证依据是否充足,评价目标与内容域是否一致,以及实际内容如题目或指标是否足以代表内容域并表达适宜。内容域作为衔接评价目标与评价题目或指标的主要桥梁起着重要作用,其定义需要详细规范和具有可操作性,并建立在充足的理论或实证依据上。界定良好的内容域往往具有结构性、层次性和明确的边界。同时,大规模测评的内容域经常是多维度,甚至多级别的。
   教学评价的内容问题牵涉到教学理论和实践。在效度视角下,第一个问题是很难在现有的教学评价中找到严格界定的内容域,而往往只有一些简单的内容分类或指标,如“教学态度”、“教学方法”、“教学互动”和“教学效果”之类。这些指标既没有详细或具有可操作性的定义,更缺乏理论基础或实证检验。由于缺乏内容范围这座桥梁,评价的实际内容往往与评价目标不相符,比如适用于诊断性或形成性的内容却用于高风险性和终结性的目的。其次,指标或题目内容容易有严重缺陷,比如表达模糊多义或者容易产生歧义,很难让评价者准确判断,或者让非专业评价者去评价需要专业知识的内容,比如让学生判断教师是否遵守教学工作规程或者教学内容是否具有先进性等。最后是内容表征不足,题目或者指标分布不均,内容大多只适用于评价课堂,课堂之外的教学内容比如课程目标、材料和结构、内容价值等较少涉及,对于课程体系的评价更付诸厥如。
   针对以上问题,解决途径包括通过教学理论或实证研究去界定严谨的内容域,组织有丰富教学实践经验的专家根据评价的目标重新设计指标或题目内容等。内容域需要更多覆盖课程整体,并且纳入课程体系,使得课堂、课程和课程体系的评价协调一致,并足以代表整个学科的知识体系。
   (二)过程和方法
   效度的过程和方法层面关注整个评价过程及方法是否合理,即如何评价的问题,包括评价的过程、方式和工具是否合适,评价者选择是否恰当等。在教学评价中评价者扮演着重要的角色,主要可区分位两类评价者——学生和专业人士。这两类评价者会导致完全不同的评价过程与方式,各有各的优缺点,并且在理论上可以互补,但如何互补还没有实际的案例,二者的关系也还缺乏实证的检验。
   学生是教学过程的直接参与者,是最重要的接受者和教育对象,全程参与了所有的教育活动(课堂、课程和课程体系),对教学的过程具有直观的判断和主观感受,最具发言权。而且学生评教的方法较容易进行,人数多且方便多次测试,大学生群体还容易接受新的测试技术、方式或内容。事实上,学生一直是教学的主要评价者。但是学生评教也发现了不少问题,包括反应偏差较大,随机、默认或从众等效应明显,评教的结果重测信度不高,且分数同质性较高、区分度较低,容易出現偏态分布等。[10][11]出现以上问题主要的原因有:(1)评教的结果更多的是作为教师的考核指标,而弱化了对教师的改进教学和对学生的有效学习提供帮助这两方面的作用,使得学生不能在评教活动中感受到对切身利益的影响,缺乏评教动力,容易抱着“应付了事”的态度随意选择。[12](2)每学期的例行评教,使用的是不变的量表,使得学生对量表过于熟悉而产生麻木感,评价时间集中在期末,评价结果容易受到首因效应的干扰,每学期近十门课的评价负担过大,易产生疲乏感,采取被动消极的态度,这些因素都大大增加了反应偏差。(3)评教内容难以判断,学生的评教更多基于自己的学习体验,而较为抽象的评价内容(例如“课程内容是否反映学科前沿”、“是否符合课程大纲要求”等),学生不了解或无法判断,不能够做出客观的评价。[13][14][15](4)学生对教学评价的作用并不了解,或者感觉教学评价形式重于内容,担心评分过低会影响教师的职业,因此打分过于“仁慈”,导致分数虚高而且不具有区分度。
   相比较于学生评教,专家评教能够体现其专业性和客观性,更有公信力和说服力。但是其主要的缺点是人力资源和时间制约,人数少或参与成本高;专家难以全程参与和覆盖全部课程,往往只能根据短暂的课堂听课印象对整个课程评分,有失片面;而且专家在课堂的出现容易对教学产生影响,甚至会产生完全不同的教学效果;对专家的专业性要求高,尤其受到学科方向的限制而选择面小,甚至容易产生一个小圈子内相互评价对方的现象,这些都是专家评教中较为严重的争议。还有,老专家或教师容易对教学评价中的新技术、政策和理念产生抵触情绪,影响评价的执行。另外,目前仍没有令人满意的方法可以使得学生和专家评教互相兼容,形成一体。
   对于以上问题,最合适的解决途径是依赖于研究和实践经验建立完善的学生和专家评分机制,在克服二者缺点的同时使得两者能良性互动。同时,我们还可通过质性研究(学生的有声思维分析、专家的深度或结构化方法等)对应答过程进行效度检验。
   (三)数据和模型
   效度的数据和模型层面关注评价的模型和数据是否经得起实证检验,具体包括模型结构的宏观层面、题目参数层面和题目量尺的微观层面,验证过程建立在测量建模和统计分析之上。在教学评价的情境中,评价模型具有多维和多层次(比如总分与各维度分)的特点,宏观层面指内容维度的关联性和内容结构的层次性,但在实际中宏观结构经常被忽视或缺乏清晰的概念,类似维度概念如内容指标也一般没经过实证数据检验;题目参数比如辨别度决定了题目质量和计分权重。理想情况下评价题目应该质量接近,计分权重均等,但实际中题目的权重往往相差几倍,而权重设置同样很少经过模型数据验证。这两个层面的问题与内容问题具有一体两面的关系,即测量学下的内部结构不合理对应着教学论下的测试内容不合理。评价题目的量尺一般应该选用典型的心理量尺比如李克特或等级评定量尺。但在实际中经常会出现不规则的量尺,比如优、良、中、差分别代表0.95、0.75、0.60、0.30的计分系数,这样的量尺既不符合心理测量的序数或连续尺度,也很难让评价者理解和选择,而且目前还没有发现可以证明其合理性的实证研究。
转载注明来源:https://www.xzbu.com/9/view-14690582.htm