【资料】计算机化自适应测试(CAT)的相关研究(不断补充中)

1. 计算机化自适应测验的优点

记录时间:2021-6-8

在传统 纸笔测验 中, 所有被试 不论能力高低都 作答相同的一批题目 , 所以纸笔测验中题目的难度分布较广, 一般覆盖整个能 力范围。题目对高能力被试而言大多比较容 易,对低能力被试来说大多比较难, 不利于对被试能力的准确估计。

计算机化自适应测验(Computerized Adaptive Testing, CAT)的基本思路是让计算机自动模仿聪明主试的做法, 每次都呈现最适合被试作答的题目。因此, 相对于纸笔测验, CAT使用更少的题目就能达到相同的能力估计精度, 大大提高了测验效率。

CAT 还有很多其他优点, 比 如:(1)随着计算机硬件的不断升级, 可以在短时间内完成越来越复杂的计算; (2)与多媒体技术结合可以提供包括音频与视频在内的新颖题目类型(如短 时记忆题和空间记忆题)。如果有语音合成器, 还可进行听力与口语测试; (3)与认知诊断相结合可以测量新的技能类型(如知识状态); (4)与多级项目反应 理论(Polytomous Item Response Theory, PIRT)结合 可以提供基于表现的题目类型(如开放题); (5)与多维 IRT (Multidimensional IRT, MIRT)相结合可以提 供被试在多个分维度上的精细信息; (6)主试如果感兴趣还可以记录被试在每个题目上的反应时, 以作 为评价被试能力的辅助指标(Wang, 2012); (7)当题库得到良好维护时, 测验可以全年提供, 被试可以选择方便的时间参加测验(Cheng, 2008)。上述优点使得国内外很多大规模的选拔性与资格性考试都推出CAT版本的测验,

——陈平,《两种新的计算机化自适应测验在线标定方法》

2. 计算机自适应测验在美国州立K-12 教育测评中的技术探索

记录时间:2021-6-10

( 一) 开发环节

CAT 的主要开发环节有:

(1) 判定被试能力初始值:一般在给被试提供4-5道题后,根据被试的作答情况即可判定

(2) 确定选题策略:不仅要选出与被试能力相匹配的试题,还要考虑测验中各部分内容的平衡和试题曝光度的控制

(3) 判断被试能力:目前主要采用极大似然估计和贝叶斯后验期望估计等参数估计的方法

(4) 设定测验结束条件:一般设置能力值的标准误满足一定的精度或采用固定长度法,两者相比,似乎前者在理论上更合理些。但在实际操作中,州立K-12 教育测评更倾向于后者,因为固定长度法与传统的纸笔测验更具衔接性。

( 二) 题库建设

CAT 的实施过程可能会长达数周,这就会产生一个问题:试题泄露。要想解决这个问题,就必须开发多个功能平行的题库。

另外,针对每个题库包含的试题数量,研究者建议:如果测验采用的是固定长度法( 例如30 道题) ,那么题库中试题数量应该是测验长度的12 倍( 即360 道题为宜) 。如果测验长度是动态变化的,那么题库中试题数量则是测验长度平均值的12 倍。

(三) 试题编制

1. 难度分布

对于州立教育测评中的纸笔测验,试卷中大部分试题都是处于中等难度,它们的正答率应该达到60%-70%,极难和极易的试题一般不会出现在试卷中。

而CAT 则不同,为了满足不同能力水平被试的需要,题库中试题的难度必须涵盖较大的范围。另外,在阅读测验中,两者试题难度的编制也显现出较大的差异,例如,纸笔测验中每篇阅读文章后面往往附着几个难度从易到难的试题,而CAT 中每篇阅读文章后面附着的试题难度具有一致性,以保证该文章要么适应较高水平的被试,要么适应较低水平的被试。

2. 质量控制

CAT 与纸笔测验中试题质量控制环节很多是相同的,关键的差异在于试卷形成的最后一个步骤。纸笔测验中,试卷雏形产生之后,要请一位学科专家对试卷做最后检查,以确保试卷中试题质量符合测验要求。但CAT 中,每个题库包含300 至400 道试题,测验前夕请学科专家重新检查所有试题显然是不现实的,因此CAT 只能通过优化以下选题策略来确保试卷质量:

首先,为题库中每道试题设置尽可能详细的字段信息,以保证选出最合适的试题; 其次,选题策略要具有控制选择相似试题的功能,以确保测验中试题所考查的内容不重合; 再次,考试前夕可以由计算机模拟的方式产生难、中、易三份代表性试卷,由学科专家审阅,以便发现其中的不足。这种方法虽然有效,但却使试卷产生过程变得更为繁杂,无法体现CAT 的优势。因此,CAT 的研究者们倾向于将学科专家在试卷中发现的不足逐步归纳总结,并使其转化为可操作的规则与算法,最终体现在CAT 的选题策略之中。

3. 生命周期

在美国,CAT 都是由专业教育测量公司开发的,题库建设过程中必须执行严格的入库流程和标准,导致平均下来每道题都花费不菲,因此教育测量公司总希望能够延长试题的生命周期。但在实际操作中,伴随试题的不断曝光,以及社会和科技的不断进步,使得题库中的试题需要不断更新方可,但更新的程度却不尽相同,它和具体学科、年级、区域等因素息息相关。

另一个影响试题生命周期的因素则是: 州立教育测评结束后,是否公开试卷? 一般纸笔测验完成后,州立教育机构倾向于公开试卷内容,接受公众的评判。而CAT 要公开所有试卷则意味着近乎题库系统的曝光,这对教育测量公司来说显然是难以承受的压力,折中的办法就是挑选难、中、易三份试卷公开,以满足公众的部分需求。

——陆宏,高佳佳,胡一平,《计算机自适应测验在美国州立K-12教育测评中的实践与探索》


我是Finger,关注心理学、儿童教育,以及人类数字化生存,喜欢写作,旅游,如果你对我的文章感兴趣,欢迎留言与我交流。

最后编辑于
© 著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama 阅读 167,196 评论 4 392
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama 阅读 70,640 评论 2 316
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人 阅读 116,498 评论 0 272
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人 阅读 45,732 评论 0 234
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事 阅读 54,291 评论 3 309
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人 阅读 41,629 评论 1 233
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama 阅读 32,770 评论 2 340
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人 阅读 31,473 评论 0 226
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama 阅读 35,297 评论 1 259
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事 阅读 31,268 评论 2 260
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事 阅读 32,853 评论 1 277
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama 阅读 29,056 评论 3 273
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事 阅读 33,877 评论 3 256
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人 阅读 26,403 评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人 阅读 27,364 评论 0 218
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama 阅读 36,863 评论 2 294
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事 阅读 36,612 评论 2 296

推荐阅读 更多精彩内容