第四章 基于代码仓库的聚类算法对学习者行为特征的研究
4.1研究的动机和问题
4.1.1 动机
在各个领域之中都有所涉及数据挖掘的技术,其中,教育数据挖掘是通过使用数据挖掘技术对学习者的行为特征属性进行研究分析,挖掘教学过程中的数据集,找到其中有价值的隐藏的信息,建立模型分析结果。聚类算法是数据挖掘技术中的一个重要的方法。在挖掘的任务面临领域的知识不多或者不够完整的时候,采用聚类分析技术,可将无标识的数据自动分为不同的类别,同时可不受到前人的经验知识的干扰和约束,进而获得在数据集中隐藏的有价值的信息。本章主要是对代码仓库中的学习者的提交和修改行为作为学习者的主要行为特征进行聚类,通过聚类结果的分析,挖掘不同相似程度类别的仓库中学习者的提交修改行为的特征,找出体现学习者学习情况的重要因素,从而对学习者的学习情况进行更加精准的评判,为大学计算机专业实践教育者提供有价值的建议,同时也为今后的高校的计算机专业实践教学提供有力的支持。
4.1.2 问题
为了验证本章所提出的方法的效果,我们提出了以下两个研究问题:
RQ1:层次聚类算法,K 均值聚类算法以及近邻聚类算法的在代码仓库中应用效果如何?在此研究问题中,我们主要研究三种聚类算法在代码仓库这类数据集中的效果。
RQ2:对聚类效果最好的聚类结果分析学习者有何行为表现?在此研究问题中,我们主要研究的是同一聚类里的学习者行为表现的相关程度。
第五章 总结与展望
5.1总结
在本文中,对所使用数据集的代码仓库学习者的提交行为和修改行为两个方面进行深入研究和分析。本文是基于代码仓库的学习者行为特征的挖掘,研究目的是通过对代码仓库中学习者行为的教育数据,评价出学习者的学习状态,通过教育数据挖掘中的聚类算法建立描述模型。通过分析聚类结果的合理性评价聚类结果的优越性,选择最佳聚类结果进行分析教育数据的依据,具体研究如下:
首先,进行研究的是代码仓库中的学习者行为特征的统计分析以及对学习者修改提交行为不规范行为的总结。对代码仓库中学习者提交和修改行为的获取与分析得到学习者的学习情况的结果。通过对不规范行为的总结和分析,为数据处理的准备奠定了基础。
其次,进行的是实验数据集的预处理过程,通过对实验数据集的集成和清理,完成对实验数据集的预处理过程。
最后,进行的是对代码仓库的学习者行为的教育数据进行挖掘,通过查阅文献等资料,采用了教育数据挖掘中的层次聚类算法,K 均值聚类算法和近邻聚类算法进行聚类器的建立,对学习者的代码仓库进行聚类。通过对三种聚类算法得到聚类结果图进行分析,得到层次聚类结果为最佳聚类结果,并选择最佳聚类结果作为代码仓库中的学习者行为分析的依据。
本文的实验结果表明:代码仓库中学习者的提交修改行为用于评价学习者学习状态情况是合理的。这为教育工作者给出学习者成绩提供了依据和了解学习者学习情况提供了方向,也可以为教育工作者优化决策和优化教学方法提供根据,以提高教学质量和学习者的学习效率以及学习效果。
参考文献(略)