基于因⼦分析的学⽣成绩信息挖掘⼀、研究背景
进⼊21世纪以来,⾼校学⽣的综合素质培养越来越成为关注的热点。如何科学地对学⽣的综合成绩进⾏评价也越来越受到教育⼈⼠的重视。在中国的⽬前,⼤多数⾼校采取的是以学习成绩加权平均的传统评价⽅式,但这⼀⽅法存在很多弊端,⽐如说它掩盖了学⽣的个性,对学⽣的评价不够全⾯,不能够突出学⽣的独特优势和特点。这就⼤⼤降低了评价本⾝激励、调节等作⽤的发挥,使得很多学⽣⼀味地追求总成绩,⽽忽略⾃⼰的特长发展和⾃⾝成长。
2002年12⽉,国家教育部公布了体现全新教育理念的中⼩学评价与考试制度改⾰⽅案,要求评价内容要多远、评价⽅法要多样。就在即将要来临的⾼等教育“⼤⽂⼤理”教育改⾰中,如何正确地评价⼀个学⽣,就显得更为重要。⼀个好的评价体系,应该形成有效的激励机制,全⾯并且有针对性地评价学⽣,使得学⽣能够了解⾃我,发展⾃我优势,扬长避短。进⽽也帮助学校和⽤⼈单位能够了解学⽣情况,更有针对性地选拔⼈才。
针对这种按照综合成绩对学⽣进⾏笼统排队的⽅法所存在的种种诟病,考虑到现代教育改⾰对科学评价⽅式的迫切需求,本⽂将利⽤因⼦分析的⽅法,尝试提出更为科学、全⾯的评价⽅⾯,尽⼒能从学⽣的考试成绩中挖掘出最有价值的信息。⼆、数据说明
本案例的数据来⾃于北京师范⼤学某专业21名学⽣,前两个学年的部分考试成绩。成绩来源于教务处内部数据库,可信度与准确度都较⾼。数据均为百分制的数值型数据,代表每⼀名学⽣在这门课上的所得有效成绩。
本次研究将主要运⽤回归分析的⽅法对数据进⾏研究。具体包括线性(逐步)回归、参数检验、显著性检验等⽅法。三、研究⽅法
其实对于怎样科学、综合评价⼀个学⽣质量和⽔平,⼀直以来都困扰着很多教育⼯作者和评价计量学家。有的学者通过相关分析、回归分析等⼿段来探究学⽣成绩与某些指标之间的关系【1】,有的是以学分绩点为标准来对学⽣成绩进⾏分
析【2】。美国哈佛⼤学的著名⼼理学家加德纳曾经提出了多元智⼒理论,该理论认为⼈类的所有智⼒⼤体分为以下七类:语⾔智⼒、节奏智⼒、数理智⼒、运动智⼒、⾃我认知智⼒和⼈际关系智⼒。本⽂从其中得到想法:是否能利⽤因⼦分析的⽅法,将学⽣各个学科的成绩降维为类似于多元智⼒理论中的分类。
因⼦分析是指研究从变量群中提取共性因⼦的统计技术。最早有英国⼼理学家斯⽪尔曼提出。他发现学⽣的各科成绩之间存在着⼀定的相关性,⼀科成绩好的学⽣,往往其他各科成绩也⽐较好,从⽽猜想是否存在某些潜在的共性因⼦,或称为某些⼀般智⼒条件影响着学⽣的成绩。因此分析可在许多变量中找出隐藏的具有代表性的因⼦,将相同本质的变量归⼊⼀个因⼦,可减少变量的数⽬,达到降维的作⽤,还可检验变量间关系的假设【3】。四、数据检验和预处理(⼀)奇异点的剔除和数据的筛选
由于部分同学没有选修某些课程,加上某些同学由于特殊情况存在缺考现象,对于这些课程进⾏了删除,重新筛选出了部分课程共计15门。最后使⽤的数据是21名同学两学年中共15门课程的成绩。(⼆)前提条件检验
因⼦分析是将多个实测变量转换为少数⼏个不相关的综合指标的多远统计分析⽅法,它要求⾃变量之间要有⼀定的关联,表现出⼀定程度的共线性。因此在进⾏因⼦分析之前要先进⾏检验。检验⽅法主要有以下三种:相关系数矩阵、巴特利球形检验、KMO检验。
⼀般来说,当变量之间的相关系数⼀般都⼤于0.3时⽐较适合做因⼦分析。⽽巴特利球形检验⽤于检验相关阵是否是单位阵,即各变量是否独⽴,检验的零假设是“相关系数矩阵是⼀个单位阵”如果巴特利球形检验统计量的数值较⼤且符合显著性检验时,就认为变量之间相关,适合进⾏因⼦分析,反之则不能拒绝零假设,不适合做因⼦分析。⽽KMO是⽤于⽐较变量间简单相关系数和偏相关系数的指标,当所有变量间的简单相关系数平⽅和远远⼤于偏相关系数平⽅和时,KMO值越接近1,意味着变量间的相关性越强,越适合做因⼦分析。Kaiser给出的常⽤kmo度量标准如下:
表格 1 KMO 度量标准根据以上检验⽅法,利⽤SPSS 检验结果如下(相关性系数矩阵见附录):
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy..728 Bartlett's Test of SphericityApprox. Chi-Square204.842df 105 Sig..000
表格 2条件检验
由检验结果看,相关系数矩阵⼤部分都⼤于0.3;KMO 值为0.728,⽐较适合做因⼦分析;同时巴特利球形检验的P 值为0.000⼩于0.05,拒绝原假设。
综上所述,对于本研究中的数据,基本符合因⼦分析中的前提假设。五、具体计算
学⽣在⼤学期间所修课程众,但是不同课程之间存在某些或多或少的联系,因为⽆论是哪些课程——公共课、专业课、选修课等,决定其成绩⾼低的都是逻辑思维能⼒、记忆能⼒等等,只要能找出这些潜在的、共同的因⼦,那么就可以化繁为简。⽽因⼦分析的基本思想就能体现出这些。⾸先建⽴正交因⼦的模型如下:11111221m m 1
22112222m m 21122pm m p p p p X a F a F a F X a F a F a F X a F a F a F εεε=++++??=++++=++++
…………………………………………… 其中X 表⽰学⽣成绩,F 表⽰成绩背后隐藏的“共同因⼦”,ε表⽰⼀些不可测量的误差因⼦。⽤向量的⽅式进⾏表⽰,则上式可看作是X AF ε=+。
⽽其中a 构成的矩阵A 是被称为因⼦载荷矩阵,ij a 表⽰为第i 门课成绩在第j 个共同因⼦上的载荷。⽽因⼦分析的⽬的就是通过实际数据X 来求解载荷矩阵,据此对公共因⼦进⾏归类和推导。在提取因⼦的时候,可利⽤主成分分析法、最⼩平⽅法、主因⼦解法、极⼤似然法等等,本⽂采⽤⽐较普遍的主成分法。六、结果分析与模型修正(⼀) 结果分析与说明
根据上述⽅法的过程,⾸先得到⽅差贡献率表如下:
表格3 ⽅差贡献率表
从上述结果可以看出,在选取三个公因⼦之后累计⽅差贡献率就已经达到73.414%,第四个特征根相⽐下降⽐较快,因此这⾥选取了三个公共因⼦。⽽下⾯的碎⽯图也能从直观上印证这⼀点:前3个特征值的变化⽐较明显,⽽后⾯12个变化都⽐较缓慢。
图表1 碎⽯图
在确定抽取的公共因⼦有三个之后,可以来看选取的因⼦的解释能⼒,这⼀点通过公因⼦⽅差表来体现,结果如下:CommunalitiesInitial Extraction线性代数 1.000 .750数据库 1.000 .772
普通物理学2 1.000 .754⽑泽东思想 1.000 .870数理⽅法 1.000 .775windows程序设计 1.000 .785matlab基础与应⽤ 1.000 .781计算机基础 1.000 .599⼤学数学1 1.000 .742管理学原理 1.000 .795经济学原理 1.000 .592⼤学数学2 1.000 .764信息管理概论 1.000 .621C语⾔ 1.000 .660普通物理学1 1.000 .752
Extraction Method: Principal ComponentAnalysis.
表格4公因⼦⽅差表
从表格4可以看出,所有课程信息抽取⽐例都超过50%,⼤部分都超过70%,这意味着这三个因⼦已经都能反映出课程成绩⼤部分的信息,解释能⼒已经满⾜要求,并且遗失的信息也不是很多。得到的载荷图如下:Component Matrix aComponent1 2 3
线性代数.861 .035 -.083数据库.837 -.129 -.232普通物理学2 .581 .229 -.604⽑泽东思想.456 .694 .423数理⽅法.829 -.027 .294windows程序设计.870 -.118 .115matlab基础与应⽤.806 -.093 .350计算机基础.535 -.430 .358⼤学数学1 .765 .176 -.355管理学原理.736 -.285 -.414经济学原理.554 .516 -.138⼤学数学2 .854 .107 .152信息管理概论.692 .371 .074C语⾔.733 -.251 .245
普通物理学1 .743 -.425 -.138a. 3 components extracted.表格5载荷图
为了获得意义明确的因⼦含义,在这⾥我们将因⼦载荷矩阵进⾏⽅差最⼤法旋转,得到旋转后的因⼦载荷矩阵如下,通过此法,我们可以更加清楚的来对因⼦进⾏定义。Rotated Component Matrix aComponent1 2 3
线性代数.541 .571 .363数据库.542 .672 .165普通物理学2 -.007 .837 .232⽑泽东思想.145 -.053 .920数理⽅法.732 .244 .425windows程序设计.724 .409 .305matlab基础与应⽤.777 .182 .379
表格
6 旋转后载荷图可以看出数理⽅法、windows 程序设计、Matlab 基础与应⽤、计算机基础、c 语⾔等课程在因⼦1上的载荷⽐较⼤;普通物理学2、⼤学数学1、管理学原理在因⼦2上的载荷⽐较⼤;⽑泽东思想、经济学原理、信息管理概论在因⼦3上的载荷⽐较⼤;还有像线性代数、数据库、普通物理学1等课程在因⼦1、2上的载荷相对都⽐较⼤。
通过和实际课程设置与考察导向来看,特归纳因⼦意义如下: 表格 7 因⼦意义因⼦1主要反映的是算法思与逻辑思维,其中的程序设计课程是显⽽易见的,但是想数理⽅法、线性代数为什么载荷也不低呢?因为这些课程都有较为固定和成熟的解题算法,在考试过程中考查的也是这⼀能⼒。
因⼦2反应的是逻辑与理解能⼒,因为⼤学数学、普通物理等课程的考查更偏重于对概念或定义的真正理解,还有对待⼀个新
题型的逻辑能⼒;⽽管理学原理虽然是偏向⽂科的课程,但根据现实情况,本门课程的⽼师在考察中更关⼼的是学⽣的逻辑理解能⼒(⽐如⼤量的主观案例分析题)并不是考查背诵,所以也有较强的载荷。
因⼦3反应的是记忆与⽂字能⼒,⽑泽东思想、信管概论、经济学原理都是偏向于考查概念定义(名词解释)等等,⽽像⼤学数学2为什么载荷也较⾼呢。作者认为,可能是由于⼤学数学2的⽼师在最后考试的时候所有题⽬均出⾃课本课后题原题,所以存在某些同学由于将所有题⽬都做过并记住,所以考试成绩相对较⾼的情况。同时也得到因⼦得分系数矩阵如下:
表格8 因⼦得分系数矩阵
通过以上矩阵,就可以得出每⼀个因⼦的计算公式,进⽽得到每⼀名学⽣在各个因⼦上的得分情况,以此来判断学⽣的各项素质。(⼆)模型反思
以上模型虽然能⽐较好的对繁杂的课程成绩数据进⾏降维并得到各项素质因⼦的得分,但是可以看到的是,某些课程在因⼦上的分类并不明确,虽然有⼀些现实意义的解释,但这些都属于主观思考,说服⼒较弱。因此可以考虑⼀些更为理想的旋转⽅式。
另外,由于某些成绩加⼊到因⼦分析的模型中后,会造成结果不理想的状态,便进⾏了数据筛选。但这样也导致了⼀定程度上的信息浪费,⽽通过
这些已经筛选后的课程来给学⽣的素质因⼦进⾏打分,可能会引起部分同学的不满。七、理解与反思
当我们⾯临⼤量的、相互联系的数据时,将其降维是我们⾸先容易做得到的,这样的处理不仅会使数据的本质信息得到挖掘,同样还会使研究者对数据的认识更加深⼊、快捷。⽽因⼦分析就是进⾏数据降维的⾸选⽅法。在如今“⼤数据”⽕爆的时代,因⼦分析⽅法的重要地位也越来越凸显。
但从本⽂的建模过程中,作者也发现,因⼦分析并不⼀定会是想象中的那种万能药,有时候进⾏正交旋转后得到的载荷不⼀定界限分明,毕竟现实中存在着各种影响因⼦和不确定因素。因此并不能抱着“⼀招鲜吃遍天”的思想来研究问题,可以尝试⼀下聚类分析等等其⽅式结合的⽅式。【参考⽂献】
[1]. 王显⾦. 《新建本科院校⼤学数学学业成绩的统计分析报告》宁波⼤红鹰学院学报2010[2]. 朱宁,徐表. 《学⽣成绩的学分绩与主成分排序模型》⼤学数学2007[3]. 王民川. 《基于因⼦分析的学⽣成绩综合评价⽅法研究》学习交流2010
因篇幅问题不能全部显示,请点此查看更多更全内容