本文是一篇工程管理论文,本文提出了线上百分位法结合线性回归、异常值剔除的数学模型,并以目前格学教育系统使用的平均排位法作为评价模型,将预测出的录取分数与高校当年实际录取分数进行对比。主要结论如下:1)本文建立的线上百分位数学模型优于传统仅使用分数或排名进行预测的方法。根据一本分数线、二本分数线、全省录取最低控制分数线所对应的累计人数作为参考点,计算线上录取百分位,消除了题目难易、考生排名、当年分数线等因素对预测准确率的影响。2)通过线性回归,根据往年最低录取百分位与平均录取百分位的平均差值,求得来年最低录取百分位,进而转化为最低录取分数,解决因高校某一年招生人数变化带来的录取分数的偶然性,将高校未来的发展趋势纳入了录取分数的预测中。
第 1 章 绪论
1.1 研究背景
高考一直是社会各界热议的焦点问题之一,仅河北一个省份,2017 年就有43.62 万人报名参加高考。然而,就读理想学校的机会并没有随着高考人数的增多而增加,考生高考分数和合理填报志愿成为就读理想学院关键的两大因素。目前,全国多个省份采用的是平行志愿投档录取模式,即一个志愿中包含若干所平行的院校。考生在填报高考志愿时,可在指定的批次同时填报若干个平行院校志愿,录取时,遵照“分数优先,遵循志愿”的原则[2],因此,合理填报志愿对考生至关重要。如何不要一味的求保求稳,而是根据考生的高考成绩和需求,呈梯度的列出一系列想要报考的高校,最后从中选取最优目标,避免高分低录,这为考生填报志愿增加了难度。
虽然考生及家长能认识到合理填报高考志愿的重要性,但目前传统的高考志愿填报方式,仍然是现阶段最常用的方式,即通过考生和家长翻看参考高考志愿填报指南来完成志愿的填报。使用这种传统的志愿填报手法进行填报志愿时费时耗力,学生和家长需要在成百上千的招生院校以及大量的招录信息中提取有用的信息。即使这样,也无法全面地了解所有院校历年的招生录取情况,无法避免因志愿填报不当导致不能被理想院校录取等情况的出现。究其原因,除个别考生志愿填报过高,要求脱离实际或不了解政策之外,一个重要的原因就是,由于受地域、文化等客观条件的限制,考生在志愿填报相关信息的获取和使用上无法享受平等的机会。信息不对称,机会不均等,必然导致高考志愿的填报不尽如人意。
.......................
1.2 研究意义
从理论角度,本文采用的线上百分位可以消除题目难易、考生人数、录取分数线变化对预测产生的影响,回归分析的运用可以将高校的发展趋势纳入录取分数的预测中,历年录取数据中异常值的剔除可以降低严重偏离主体的最低分预测精度的影响。这些方法的运用能够解决高校高考录取分数预测过程中的部分问题,对后续高考录取分数预测的研究有着重要意义。
从现实角度,本文的目的是希望通过在海量数据中挖掘到有效信息,并将各种离散的数据进行整合,发现期间蕴含的规律和信息,在前人研究的基础上,建立预测精度更高的线上百分位回归模型,解决格学系统中录取分数预测精度欠佳的问题。在高校录取分数预测的庞大工程中,为考生提供志愿填报决策参考,使他们能成梯度的选择想要报考的高校,并最终能被理想高校录取。
...........................
第 2 章 相关理论基础
2.1 异常值剔除理论基础
2.1.1 异常值的概念
异常值又称异常数据,是样本中的某个或某些值,显著偏离了样本其余数值。一般可以利用聚类的思想,定义为分布稀疏且离密度高的群体较远的点。通常异常值出现的原因有以下两种:数据随机误差(因数据自身因素产生),种群内在变异的极端是真实、正常的数据,但在实验中也存在一些极端。这些异常值与其他观测值属于同一种群。数据测量误差(因测量过程中的设备因素或人工操控失误等因素产生),其产生是由于观测、记录和计算的误差,或是实验过程中出现的偶然性,是一种不正常的、错误的数据,与其他观测结果不属于同一种群。本文中讨论的异常值主要为第一种数据。
2.1.2 异常值剔除的方法
目前,物理判别和统计判别是人们发现异常值并排除异常值的两种主要方法。物理判别法是基于人们对事物的普遍认识[36],判断是否是由于外部因素的影响、人为产生的判断失误等原因而导致观测数据偏离正常范畴,在实验过程中如果发现观测数据异常,随时判断,随时排除。统计判别法是确定一个置信区间,根据得出的置信百分比进行判别,如果误差在这个区间里,就认为它是在随机误差的范畴,反之误差在置信区间之外,则不把它归结在随机误差的范围之内,将其作为异常值予以剔除。当物理判别的方法难以对异常值进行判断时,一般会使用统计识别方法。
......................
2.2 方差分析理论基础
方差分析(F 检验),又称“变异数分析”,是检验多个样本平均数差别的显著性检验[38]。根据所涉及数据的不同类型,可以将方差分析分为单因素方差分析和多因素方差分析。单因素方差分析是分析研究中的某一个变量,研究一个非实验因素,检验该变量发生变化时,是否会对观测因素影响显著。多因素方差分析是分析研究中的某几个变量,研究两个或两个以上非实验因素,检验其是否对观测因素有影响显著[39]。本文主要采用单因素方差分析对数据进行处理。
2.2.1 单因素方差分析的概念及基本步骤
单因素方差分析是两个样本均值比较的推广,是检验多个均值之间的差异的一种统计方法,用来确定各因素是否对检验结果产生显著性影响。
单因素方差分析分以下三个步骤进行:第一个步骤是识别观察变量和无关变量。第二个步骤是分析观测变量的方差。方差分析表明,非实验因素和随机变量对观测变量的变化均会产生作用。因此,观测变量总体偏差的平方之和通过单因素方差分析分为两个部分:组间离差平方和和组内离差平方和。第三个步骤是对观测变量的总体偏差平方之和以及其每个部分所占百分比进行比较分析,来推断非实验因素对观测变量是否会产生显著影响[40]。
因此,根据以上分析我们很容易得出这样的结论:在观测变量的总体离差平方的总和中,当组间离差平方的总和所占的百分比大时,这可以用非实验因素来解释观测变量的变化,认为其变化是由非实验因素引起的,无关因子对观测变量影响显著;反之,如果组间离差平方总和所占的百分比较小,则说明观测变量的变化与非实验因素相关不大,无法通过无关因子解释。观测变量的变化是由随机变量引起,不同的非实验因素对观测变量没有显著影响。
..............................
第 3 章 研究方案设计 ............................... 17
3.1 设计原则 ..................................... 17
3.2 线上百分位模型 ....................................... 17
第 4 章 方案实施 ........................... 22
4.1 数据采集 ................................. 22
4.1.1 数据来源 ........................... 22
4.1.2 数据集字段信息 ............................ 22
第 4 章 方案实施
4.1 数据采集
4.1.1 数据来源
本研究数据来源于 2012 年至 2017 年由河北省教育考试院发布的《全国普通高校在河北招生录取分数分布统计》[52]一书,该书完整记录了河北省不同批次、不同文理科 2012~2017 年的录取分数信息,包括最高分、最低分、平均分、当年录取分数线、平均分与录取分数线的差值、不同分数段人数等信息。以 2015 年华北理工大学本科一批理科录取数据为例,表 2 展示了该书记录的录取分数分布统计信息:
除上述河北招生录取分数分布统计信息外,河北省教育考试院网站每年均公布高考录取一分一档表及省控线数据。对上述数据的采集,本文最终构建三个基础数据集,分别是:河北省 2012~2017 本科一批理科录取分数分布统计数据集、河北省 2012~2017 理科一分一档表数据集、河北省 2012~2017 本科一批省控线数据集。
..............................
结论
高考作为我国高校重要的入学考试之一,一直颇受社会关注。高考志愿填报更关乎每位考生的命运,而志愿填报是否精准取决于高校高考录取分数预测是否准确。在目前的高考录取形势下,在海量的高校历史数据中提取有用信息,有效预测高校录取的相关数据,指导考生合理填报高考志愿,具有重要意义。然而,目前对高考录取分数进行预测的模型大多未能有效处理题目难易、考生排位和当年分数线之间的关系,更是忽略了高校发展趋势的变化及因招生未满导致最低录取分数偏离常态的情况。基于此,本文提出了线上百分位法结合线性回归、异常值剔除的数学模型,
并以目前格学教育系统使用的平均排位法作为评价模型,将预测出的录取分数与高校当年实际录取分数进行对比。主要结论如下:
1)本文建立的线上百分位数学模型优于传统仅使用分数或排名进行预测的方法。根据一本分数线、二本分数线、全省录取最低控制分数线所对应的累计人数作为参考点,计算线上录取百分位,消除了题目难易、考生排名、当年分数线等因素对预测准确率的影响。
2)通过线性回归,根据往年最低录取百分位与平均录取百分位的平均差值,求得来年最低录取百分位,进而转化为最低录取分数,解决因高校某一年招生人数变