基于联结主义的连续记分IRT模型的项目参数和被试能力估计(3)
作者:佚名; 更新时间:2014-12-05
度,但对于a、b和c的估计误差仍然比较大。于是再用增加训练模式的方法来试图减少测试误差。上述在训练第二组神经网络时,是用“第一矩阵”中的每一列作为模式的输入,该矩阵共有45列,相应于第一组的45个项目。现在将这组项目扩大,即增加到60个,75个,90个和105个,这些项目的参数都是用蒙特卡罗方法产生的。然后,拿第一组25个被试的θ值和它们起反应,用产生的反应矩阵和相应的项目参数作为训练模式,对30个神经网络进行训练,并重复上述步骤4和步骤5,得到在各种不同数量的训练模式条件下的a、b和c的单个模式测试误差的平均数M和标准差SD,如表3所示。从表中数据可以看出,随着训练项目数的增加,对项目参数a、b和c的测试误差都有明显降低,当项目数达到105时,基本上已经可以接受参数估计的结果了。
  附图
  从上面的讨论可以看出,在该计算机模拟实验中,共有两组被试,第一组被试是用于能力测试模式的,第二组被试是用于能力训练模式的;该实验中有三组项目,其中的第二组项目是第一组的一部分,第一组项目用于项目参数训练和能力测试模式的,第三组项目是用于项目参数测试模式的,第二组项目是用于能力训练模式的;该实验中有三个反应矩阵,其中的第一矩阵又被分为左、右两个部分,左部分是由被抽取出来的第二组项目产生的,右部分是由其余项目产生的,第二矩阵的“行”作为能力训练模式,第一矩阵的“行”作为能力测试模式,第一矩阵的“列”作为项目参数训练模式,第三矩阵的“列”作为项目参数测试模式。
    4.5 实际测验中的被试能力和项目参数估计步骤小结
  上述的实验是在计算机模拟的情况下了产生的各组被试能力和项目参数,在实际的测验情况中,可以按照以下步骤来进行测验编制以及被试能力和项目参数估计:
  (1)在已知项目参数的题库中取出若干个项目(类似于上述模拟实验中的第二组项目,这些项目可以是二值记分的,它可以事先通过BILOG等估计得到),再加上自行编制的、未知参数的若干项目(类似于上述模拟实验中第三组项目),混合后组成实际的测验试卷。
  (2)用这一试卷对一组真实的被试(类似于上述模拟实验中的第一组被试)进行测试,得到一组实际的结果。
  (3)用蒙特卡罗方法产生一组被试的能力值(类似于上述模拟实验中的第二组被试),令它和真实试卷中的已知项目参数的那部分项目(类似于上述模拟实验中的第二组项目)起反应,得到反应矩阵(类似于上述模拟实验中的第二矩阵)。
  (4)用这一矩阵和这组蒙特卡罗方法产生的被试能力值组成能力训练模式,对一组神经网络进行训练。
  (5)用真实的测验结果矩阵的每一行作为一个模式的输入部分,输入上述经过训练的神经网络,其输出就是真实被试的能力估计值。
  (6)运用蒙特卡罗方法产生一组项目参数,根据上述的模拟实验,大约要有100个项目的参数,令真实被试的能力估计值和它们起反应,得到一个反应矩阵(类似于上述模拟实验中的第一矩阵右部分)。用这个矩阵中的每一列和相应的蒙特卡罗方法产生的项目参数组成训练模式,对另一组神经网络进行训练,使之具有估计项目参数的功能。
  (7)将这一经过训练的神经网络对真实测验中未知参数的那部分项目(类似于上述模拟实验中的第三组项目)进行参数估计,从而得到这些项目的参数估计值。
  至此,就把实际的被试能力和项目参数估计出来了。对照上述模拟实验的图1,其中的第一矩阵左部分和第三矩阵是由真实测验的数据产生的,第一矩阵的右部分和第二矩阵是用蒙特卡罗方法产生的。
    5 讨论
    5.1 该方法的优点
  (1)提出了一种全新的IRT项目参数和被试能力的估计方法,以往的方法都是建立在统计基础上的,而该方法则是建立在联结主义理论(人工神经网络)基础上的。
  (2)以往的方法多数只能对二值记分的IRT模型进行参数估计,本研究中的方法则可以对连续记分的IRT模型进行参数估计。由于人工神经网络有很强的学习功能,因此从理论上讲,它也可以用于等级记分和二值记分的IRT模型,当然,这有待于进一步的实验研究。
  (3)本研究中用于估计被试能力的样本只有25人,用于估计项目参数的样本只有15个项目,都属于比较小的样本,这说明该方法可以用于小样本的情况,这是以往方法所不能解决的。虽然在对神经网络训练时可能要用到较多的训练模式,但这些模式是可以用蒙特卡罗方法产生的,并不要扩大实际的测验样本。
  (4)在使用一般的统计方法处理小样本的数据时,确实存在着参数估计的可靠性问题,但是本实验的研究表明,在运用与统计方法完全不同的联结主义(人工神经网络)方法处理数据时,就有可能克服这一困难。这是什么原因呢?在对人工神经网络理论进行深入探讨以后[15~17],可以发现神经网络在对IRT参数进行估计时,并不是一开始就直接根据原始数据来估计参数,而是先对一组神经网络进行训练,使它们首先具备了这方面的知识,然后再用训练过的神经网络对IRT参数进行估计,这种参数估计的可靠性如何,并不取决于被估计的样本的大小,而是取决于对这些神经网络进行训练的样本的数量、质量以及神经网络的拓扑结构和算法。在这其中,训练模式是研究者运用蒙特卡罗方法产生的,它本身并不是一个小样本,而是一个比较大的样本;产生这些数据的模型就是IRT模型本身,因此数据本身的质量是有保证的。关于神经网络的拓扑结构,在大多数情况下是要通过预测和调整学习率等参数来确定隐含层的数量和其中每一层的神经元的数量,但由于本研究采用的是级联相关模型,它可以根据反传误差的大小自动地调整网络的拓扑结构和联结权重,因此可以自动地建立优化的网络结构,不再需要考虑学习率等问题;另外在人工神经网络的训练过程中,本研究的程序设计也使得只有误差达到预定的很小的数值时,训练过程才停止,这就保证了被训练过的神经网络是较高质量的。由此可见,联结主义(人工神经网络)模型是采用了和一般统计技术完全不同的思路和方法,它对IRT参数估计的可靠性主要不是取决于被估计样本的大小,而是依赖于经过训练的神经网络的质量,因此我们只要采取一定的措施将神经网络训练好,就有可能对小样本的IRT数据进行可靠的参数估计。
    5.2 需要进一步研究的问题
  (1)首先是在编制测验时,需要一部分已知项目参数的二值记分题目,这对于已经建立题库的学科来说是可以做到的,但对于尚未建立题库的学科,就无法运用这一方法。虽然可以用BILOG等软件对有关的二值记分项目进行参数估计,但如果没有BILOG等软件又该怎么办呢?要解决这个问题,需要构造更加复杂的神经网络模型,笔者目前正在构造“基于知识的级连相关模型”,并试图用它解决这一困难,实验结果将另文阐述。
  (2)该方法要求实际的测验中有一部分作为锚题的项目是已知参数的,那么这一部分锚题至少应该是多少项目呢?它们占整个测验的比例至少要达到多少呢?本实验表明若锚题数量为15,它们在整个测验中所占比例为三分之一,就可获得良好结果,那么少于15个项目行不行?低于三分之一的比例行不行?笔者也正在作进一步的实验。
  (3)本研究中用蒙特卡罗方法产生虚拟的被试能力和项目参数,那么它们的分布应该是什么形式为最好?人工神经网络的理论认为是均匀分布为最好,因此在本研究中采用了均匀分布。但是在对实际数据的分析中,有些数据是由真实的被试和项目产生的,不可能保证他(它)们呈完全的均匀分布,那么这种偏离均匀分布的情况对于估计值的误差有多大影响?另外,是否可以减少虚拟数据数量甚至取消虚拟数据,而完全采用真
核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com