1. 计算机化自适应测验的优点
记录时间:2021-6-8
在传统 纸笔测验 中, 所有被试 不论能力高低都 作答相同的一批题目 , 所以纸笔测验中题目的难度分布较广, 一般覆盖整个能 力范围。题目对高能力被试而言大多比较容 易,对低能力被试来说大多比较难, 不利于对被试能力的准确估计。
计算机化自适应测验(Computerized Adaptive Testing, CAT)的基本思路是让计算机自动模仿聪明主试的做法, 每次都呈现最适合被试作答的题目。因此, 相对于纸笔测验, CAT使用更少的题目就能达到相同的能力估计精度, 大大提高了测验效率。
CAT 还有很多其他优点, 比 如:(1)随着计算机硬件的不断升级, 可以在短时间内完成越来越复杂的计算; (2)与多媒体技术结合可以提供包括音频与视频在内的新颖题目类型(如短 时记忆题和空间记忆题)。如果有语音合成器, 还可进行听力与口语测试; (3)与认知诊断相结合可以测量新的技能类型(如知识状态); (4)与多级项目反应 理论(Polytomous Item Response Theory, PIRT)结合 可以提供基于表现的题目类型(如开放题); (5)与多维 IRT (Multidimensional IRT, MIRT)相结合可以提 供被试在多个分维度上的精细信息; (6)主试如果感兴趣还可以记录被试在每个题目上的反应时, 以作 为评价被试能力的辅助指标(Wang, 2012); (7)当题库得到良好维护时, 测验可以全年提供, 被试可以选择方便的时间参加测验(Cheng, 2008)。上述优点使得国内外很多大规模的选拔性与资格性考试都推出CAT版本的测验,
——陈平,《两种新的计算机化自适应测验在线标定方法》
2. 计算机自适应测验在美国州立K-12 教育测评中的技术探索
记录时间:2021-6-10
( 一) 开发环节
CAT 的主要开发环节有:
(1) 判定被试能力初始值:一般在给被试提供4-5道题后,根据被试的作答情况即可判定
(2) 确定选题策略:不仅要选出与被试能力相匹配的试题,还要考虑测验中各部分内容的平衡和试题曝光度的控制
(3) 判断被试能力:目前主要采用极大似然估计和贝叶斯后验期望估计等参数估计的方法
(4) 设定测验结束条件:一般设置能力值的标准误满足一定的精度或采用固定长度法,两者相比,似乎前者在理论上更合理些。但在实际操作中,州立K-12 教育测评更倾向于后者,因为固定长度法与传统的纸笔测验更具衔接性。
( 二) 题库建设
CAT 的实施过程可能会长达数周,这就会产生一个问题:试题泄露。要想解决这个问题,就必须开发多个功能平行的题库。
另外,针对每个题库包含的试题数量,研究者建议:如果测验采用的是固定长度法( 例如30 道题) ,那么题库中试题数量应该是测验长度的12 倍( 即360 道题为宜) 。如果测验长度是动态变化的,那么题库中试题数量则是测验长度平均值的12 倍。
(三) 试题编制
1. 难度分布
对于州立教育测评中的纸笔测验,试卷中大部分试题都是处于中等难度,它们的正答率应该达到60%-70%,极难和极易的试题一般不会出现在试卷中。
而CAT 则不同,为了满足不同能力水平被试的需要,题库中试题的难度必须涵盖较大的范围。另外,在阅读测验中,两者试题难度的编制也显现出较大的差异,例如,纸笔测验中每篇阅读文章后面往往附着几个难度从易到难的试题,而CAT 中每篇阅读文章后面附着的试题难度具有一致性,以保证该文章要么适应较高水平的被试,要么适应较低水平的被试。
2. 质量控制
CAT 与纸笔测验中试题质量控制环节很多是相同的,关键的差异在于试卷形成的最后一个步骤。纸笔测验中,试卷雏形产生之后,要请一位学科专家对试卷做最后检查,以确保试卷中试题质量符合测验要求。但CAT 中,每个题库包含300 至400 道试题,测验前夕请学科专家重新检查所有试题显然是不现实的,因此CAT 只能通过优化以下选题策略来确保试卷质量:
首先,为题库中每道试题设置尽可能详细的字段信息,以保证选出最合适的试题; 其次,选题策略要具有控制选择相似试题的功能,以确保测验中试题所考查的内容不重合; 再次,考试前夕可以由计算机模拟的方式产生难、中、易三份代表性试卷,由学科专家审阅,以便发现其中的不足。这种方法虽然有效,但却使试卷产生过程变得更为繁杂,无法体现CAT 的优势。因此,CAT 的研究者们倾向于将学科专家在试卷中发现的不足逐步归纳总结,并使其转化为可操作的规则与算法,最终体现在CAT 的选题策略之中。
3. 生命周期
在美国,CAT 都是由专业教育测量公司开发的,题库建设过程中必须执行严格的入库流程和标准,导致平均下来每道题都花费不菲,因此教育测量公司总希望能够延长试题的生命周期。但在实际操作中,伴随试题的不断曝光,以及社会和科技的不断进步,使得题库中的试题需要不断更新方可,但更新的程度却不尽相同,它和具体学科、年级、区域等因素息息相关。
另一个影响试题生命周期的因素则是: 州立教育测评结束后,是否公开试卷? 一般纸笔测验完成后,州立教育机构倾向于公开试卷内容,接受公众的评判。而CAT 要公开所有试卷则意味着近乎题库系统的曝光,这对教育测量公司来说显然是难以承受的压力,折中的办法就是挑选难、中、易三份试卷公开,以满足公众的部分需求。
——陆宏,高佳佳,胡一平,《计算机自适应测验在美国州立K-12教育测评中的实践与探索》
我是Finger,关注心理学、儿童教育,以及人类数字化生存,喜欢写作,旅游,如果你对我的文章感兴趣,欢迎留言与我交流。