一种大型考试数据模拟仿真方法、装置及存储介质与流程

文档序号:19739166发布日期:2020-01-18 04:57阅读:261来源:国知局
一种大型考试数据模拟仿真方法、装置及存储介质与流程
本发明涉及模拟仿真
技术领域
,尤其涉及一种大型考试数据模拟仿真方法、装置及存储介质。
背景技术
:传统上,在大型考试和测评中,针对目的的不同,有合格性考试和等级性考试,均可用于人才测评和人才选拔。基本上在传统考试和测评中大量应用的是基于ctt(经典测量理论)的一些相关技术。近年来,随着理论研究的发展,irt(项目反应理论)逐渐有了越来约多的应用,但总体上大型考试还是以ctt理论为基础。随着中高考改革的发展,对大型考试的要求也越来越高,传统大型考试的两大基本原则始终未变:质量和公平,在这两个原则的基础上,对效率的要求逐渐也提升到原则的高度。在近年的中高考改革过程中,相关领域的研究也越来越多,传统考试手段、内容和标准规范,包括赋分方式等方面也逐渐凸现出越来越多的问题,不能满足社会大众和国家政策对教育公平和质量标准不断提升的要求。对于大型考试,尤其是中高考这类具有重大影响的大型考试,相关的研究工作具有极其重要的意义和价值,由于大型考试和测评的成本非常高,所以在进行相关研究时,数据模拟仿真就非常必要和重要。参考近年来全国各地的中高考改革,尤其是高考改革,最近几个批次的省份的高考改革的相关标准规范,包括第一批次改革的浙江、上海,第二批次的北京、山东、天津、海南等相关标准规范,尤其是赋分方式方面,模式差异较之传统方式非常大。在相关研究过程中,对于质性的研究一般采用的方法包括文献研究法、经验总结法、综合评估法等方法路线,对于量化研究,一般就要采用模拟研究法,利用大数据分析和模拟仿真技术,探究相关因素对赋分方式的影响程度并提出相应的解决方案。技术实现要素:本发明所要解决的技术问题在于,提供一种大型考试数据模拟仿真方法、装置及存储介质,适用于大型考试相关的研究和分析,能够有效提高模拟数据的质量,进而提升考试和测试的水平和质量。本发明一实施例提供一种大型考试数据模拟仿真方法,包括:录入基础条件参数,其中,所述基础条件参数包括考生信息、学科信息、历史考试数据;根据所述基础条件参数,利用正态分布的概率密度函数,测算得到各单科的成绩数据;利用最小二乘法原理,对各单科的成绩数据进行优化匹配和迭代处理,得到模拟仿真的结果数据。其中,所述考生信息,包括考生人数、考生编号及选科信息;所述学科信息,包括各单科试卷基本信息、分值范围及难度参数。其中,所述根据所述基础条件参数,利用正态分布的概率密度函数,测算得到各单科的成绩数据,包括:根据所述基础条件参数,利用正态分布的概率密度函数,计算获得各分数值的理论分布概率,再乘以考生人数得到各分数的人数分布,即成绩数量分布;将所述成绩数量分布赋予与考生人数相等的成绩数组中,得到各单科的成绩数据。其中,所述利用最小二乘法原理,对各单科的成绩数据进行优化匹配和迭代处理,得到模拟仿真的结果数据,包括:将一门单科的成绩数据与考生信息进行匹配,并固定匹配关系;采用以下公式,计算出所有学科之间的皮尔逊积矩相关系数:或利用最小二乘法原理,计算所有相关系数的误差的平方和,利用∑(yi-yj)2]最小作为最优判据,其中,yi相当于r1皮尔逊积矩相关系数,yj相当于r设定的配置相关系数;反复迭代,直至得到模拟仿真的结果数据。本发明一实施例还提供一种大型考试数据模拟仿真装置,包括:基础条件参数录入单元,用于录入基础条件参数,其中,所述基础条件参数包括考生信息、学科信息、历史考试数据;各单科的成绩数据计算单元,用于根据所述基础条件参数,利用正态分布的概率密度函数,测算得到各单科的成绩数据;模拟仿真单元,用于利用最小二乘法原理,对各单科的成绩数据进行优化匹配和迭代处理,得到模拟仿真的结果数据。其中,所述考生信息,包括考生人数、考生编号及选科信息;所述学科信息,包括各单科试卷基本信息、分值范围及难度参数。本发明一实施例还提供一种大数据统计抽样服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的大型考试数据模拟仿真方法。本发明一实施例还提供一种计算机可读存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述的大型考试数据模拟仿真方法。实施本发明实施例,具有如下有益效果:根据上述实施例的教导,本发明本发明适用于大型考试相关的研究和分析,能够有效提高模拟数据的质量,进而提升考试和测试的水平和质量。附图说明为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明一实施例提供的大型考试数据模拟仿真方法的流程示意图;图2是本发明一实施例提供的大型考试数据模拟仿真装置的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。请参阅图1。本发明一实施例提供一种大型考试数据模拟仿真方法,包括:s100、录入基础条件参数,其中,所述基础条件参数包括考生信息、学科信息、历史考试数据。其中,所述考生信息,包括考生人数、考生编号及选科信息;所述学科信息,包括各单科试卷基本信息、分值范围及难度参数。在具体的实施例当中,大型多科目或多项目的考试和测评;单科目或单项目的数据模拟仿真方法可以多源,即既可以基于历史数据(明细或统计数据)产生,也可以无历史数据(明细或统计数据),无历史数据时可以基于标准的正态分布函数模拟产生,也可以基于其它分布函数(如贝塔分布)或方法产生;对于已经产生的多维数据(各单科目或单项目数据组),通过特定的算法,改变各单维数据组的数据归属(顺序),使得原多维不具备相关性(或相关性远远不符合理论或实际预期)的数据组更符合现实要求和预期。s200、根据所述基础条件参数,利用正态分布的概率密度函数,测算得到各单科的成绩数据。其中,所述根据所述基础条件参数,利用正态分布的概率密度函数,测算得到各单科的成绩数据,包括:根据所述基础条件参数,利用正态分布的概率密度函数,计算获得各分数值的理论分布概率,再乘以考生人数得到各分数的人数分布,即成绩数量分布;将所述成绩数量分布赋予与考生人数相等的成绩数组中,得到各单科的成绩数据。在具体的实施例当中,根据配置参数和学科配置参数及历史数据模拟各单科的成绩数据,各单科的成绩数据可以通过历史数据来模拟产生,也可以按照纯理论来模拟产生(一般是利用正态分布)。对于已经产生的多维数据(各单科目或单项目数据组),在算法实现上,通过配置相对恒定的相关系数(皮尔逊积矩相关系数),利用最小二乘法(高斯-马尔可夫定理)的原理,进行不断的反复迭代,获取最优的计算结果,作为模拟仿真的最终数据结果。s300、利用最小二乘法原理,对各单科的成绩数据进行优化匹配和迭代处理,得到模拟仿真的结果数据。其中,所述利用最小二乘法原理,对各单科的成绩数据进行优化匹配和迭代处理,得到模拟仿真的结果数据,包括:将一门单科的成绩数据与考生信息进行匹配,并固定匹配关系;采用以下公式,计算出所有学科之间的皮尔逊积矩相关系数:或利用最小二乘法原理,计算所有相关系数的误差的平方和,利用∑(yi-yj)2]最小作为最优判据,其中,yi相当于r1皮尔逊积矩相关系数,yj相当于r设定的配置相关系数;反复迭代,直至得到模拟仿真的结果数据。在具体的实施例当中,在利用最小二乘法进行迭代处理时,交换的数据不是采用完全随机的方式,而是结合相关系数的定义通过排序来进行迭代算法的优化,避免了完全随机的的数据交换方式的迭代,极大提升迭代处理的效率。对于已经产生的多学科多组模拟数据,根据配置的相关系数(皮尔逊积矩相关系数),借助于最小二乘法原理(高斯-马尔可夫定理),通过不断的迭代,将这些多组单学科成绩数据匹配到考生数据,在迭代过程中,主要的运算方式是数据的排序变更,迭代到最优结果后(误差最小),形成的包含考生和各学科成绩的数据即为最终的模拟仿真数据。对于最终模拟仿真数据,根据相关量化研究的范围和内容,对数据做相关的分析处理,产生最后的目标结果。根据上述实施例的教导,本发明实施例主要用于大型考试的数据模拟仿真,可以适用于大型考试(如中高考)相关的研究和分析,包括各类合格性考试、等级性考试、其它人才选拔类测评的规则标准的设计、赋分方式的设计及相关研究领域。该方法适用于多学科(多项目)类型的大型考试和测评。该方法可与ctt(经典测量理论)和irt(项目反应理论)等现代测量技术理论结合,通过对基于高斯分布(正态分布)或其它方法产生的一维及多维数据,结合相关系数(皮尔逊积矩相关系数),通过最小二乘法(高斯-马尔可夫定理)的方法理论,进行反复迭代处理,模拟出更符合理论和实际的的仿真数据,有效提高模拟数据的质量,进而提升考试和测试的水平和质量。本发明方法更易于利用现代it技术,尤其是大数据和云计算及相关的技术以低成本高效率的方式来实现,有效提升解决大型考试中面临的几个核心需求(质量、公平、效率)的手段和技术水平。下面将结合实际的例子,进一步对本发明实施例中的技术方案进行清楚、完整地描述。假定某省的一次高考考试,现在要通过数据模拟来定量分析研究选科人数(或其它因素)对赋分方式标准规范的影响,需要根据配置的初始条件和参数模拟一组或多组考生成绩数据,并计算出总分和转换总分。这里总分和转换总分的计算没有任何技术问题,任何单学科的数据模拟理论上也不存在任何问题,所以问题的关键就是最终模拟仿真出的各学科成绩之间的相关性问题,如果不考虑这点,那最终模拟出的成绩数据各学科之间相关系数肯定是接近0,这个与理论和实际都是不符合的,或者说采取了一些算法进行了处理,但最终的结果数据是否最优?基本上很难保障,这里通过示例一步步地讲解通过本发明方法的来解决这个关键性问题。首先,假定历史数据不足,或者由于生源和政策的变化,依据历史数据进行模拟仿真可靠性远远不足,所以这里设定全部按照理论来进行模拟仿真。基础条件参数的配置:考生数量10万人,考生编号假定为c000001到c100000;公共基础学科三门:语文(yw)、数学(sx)、英语(yy);六选三的科目包括:物理(wl)、化学(hx)、生物(sw)、历史(ls)、地理(dl)、政治(zz);学科试卷难度设定:这里假定采用正态分布来进行单科的数据模拟,通过平均分和标准差来控制试卷的难度和区分度,各学科的平均分为μ_yw、μ_sx、μ_yy、μ_wl、μ_hx、μ_sw、μ_ls、μ_dl、μ_zz;标准差为:σ_yw、σ_sx、σ_yy、σ_wl、σ_hx、σ_sw、σ_ls、σ_dl、σ_zz;如下表所示:学科平均分标准差得分范围下限得分范围上线语文μ_ywσ_yw0100数学μ_sxσ_sx0100英语μ_yyσ_yy0100物理μ_wlσ_wl0100化学μ_hxσ_hx0100生物μ_swσ_sw0100历史μ_lsσ_ls0100地理μ_dlσ_dl0100政治μ_zzσ_zz0100相关系数的设定:根据参数产生各学科成绩数据:根据基础配置,有10万考生,则10万考生的各学科的成绩数据分别为x_yw[]、x_sx[]、x_yy[]、x_wl[]、x_hx[]、x_sw[]、x_ls[]、x_dl[]、x_zz[],每个数组包含10万个成绩数据,考生列表数据为ks[]数组,存放c000001到c100000共10万个考号;根据正态分布的概率密度函数:其中σ代入标准差,μ代入平均分,即可计算获得各分数值的理论分布概率,再乘以样本数10万,即可获得各分数的人数分布数量,这里以平均分65、标准差6.5进行模拟计算,成绩人数分布结果如下(未列出的数量为0):成绩数量成绩数量成绩数量成绩数量成绩数量00482016150797423538720…0492976255167518798812371504286358547614668973815160364606577111790439252831656138788319124045311176660657960392141754146667585480428931421255187968551781296940432056235369507982201…044335728787045668313310004554583437714008848646865940087234378554471336045667328788633根据正态分布计算的成绩数量分布数据表其分布曲线为标准的正态分布;注意在此计算过程中可能存在由于数学计算导致的精度误差,最后的数量合计与10万有小小的误差,这里就需要进行误差纠正,将合计数量补足样本总数10万;成绩数量分布数据计算出来后,可以按此数量将成绩数据赋予10万个成绩数组中;按照上述方法和步骤,分别计算模拟仿真出所有学科的成绩数据,这时候各单科模拟数据就出来了,但其与考生的匹配尚未进行,一般都是采用随机匹配的方式,如果排序后统一匹配,则各学科相关系数是1或-1,如果是随机匹配,则相关系数约等于0,这显然与理论和实际都不符合;下一个步骤就到了本方法的核心处理阶段;利用最小二乘法原理进行数据优化匹配和迭代最小二乘法原理的数学证明可以由高斯-马尔可夫定理来证明,这里不再赘述;这里通过实际的数据计算和迭代处理流程来讲述该步骤的具体处理方法;首先将一门学科的数据与考生数据向匹配,并将该学科成绩数据与考生的匹配关系固定下来,这里假定是语文,则可以产生结果模拟仿真数据如下:计算出所有学科之间的相关系数:这里的相关系数(皮尔逊积矩相关系数)计算公式如下:或者计算出所有的相关系数数值r1之后,利用最小二乘法原理,计算所有相关系数的误差的平方和,利用∑(yi-uj)2]最小作为最优判据,这里的yi相当于r1(计算出来的相关系数),yj相当于r(配置的相关系数);之后通过反复迭代,先是修改除语文学科(这里的固定科目)之外的考生的其它学科的成绩顺序,再计算所有学科的相关系数,根据最优判据,反复迭代,最终获取优化后的数据,就是最终的模拟仿真的结果数据;需要注意的是,在进行迭代的时候,有个极其重要的问题需要考虑:效率;如果算法不进行优化,那么迭代的效率将非常低非常差,所以这里针对性地采取了一定的算法设计以优化整个迭代过程,避免常规的随机处理的低效;具体迭代过程的优化算法如下:(1)、由于存在多组相关系数,首先找出误差最大的相关系数进行优化处理;(2)、某组数据的相关系数误差降低到一定程度后,当其误差不是最大时再调整另外一组或两个学科的相关系数,直到所有相关系数的误差保持在一个相对均衡的水平;(3)、为了最高效地进行迭代,在进行学科成绩数据交换时,确定调整的方向之后再有目的地进行调整,避免采用完全随机的方式进行调整,具体方法是:将一组数据排序并固定(这里假定按照升序),另外一组数据同样按升序排序并标记其顺序,在进行数据交换时,需要提高相关系数时,则将排在前面的高成绩数据与排在后面的低成绩的数据进行交换;需要降低相关系数时,则反之操作,这样有针对性有目标的操作,可以极大提高迭代处理的效率;4、完成成绩数据的模拟仿真之后,可以根据研究需要进行后续的数据分析处理,比如选科数据的影响等等,这些不在本方法的范围内,这里不做描述。请参阅图2,。本发明一实施例还提供一种大型考试数据模拟仿真装置,包括:基础条件参数录入单元10,用于录入基础条件参数,其中,所述基础条件参数包括考生信息、学科信息、历史考试数据。其中,所述考生信息,包括考生人数、考生编号及选科信息;所述学科信息,包括各单科试卷基本信息、分值范围及难度参数。在具体的实施例当中,大型多科目或多项目的考试和测评;单科目或单项目的数据模拟仿真方法可以多源,即既可以基于历史数据(明细或统计数据)产生,也可以无历史数据(明细或统计数据),无历史数据时可以基于标准的正态分布函数模拟产生,也可以基于其它分布函数(如贝塔分布)或方法产生;对于已经产生的多维数据(各单科目或单项目数据组),通过特定的算法,改变各单维数据组的数据归属(顺序),使得原多维不具备相关性(或相关性远远不符合理论或实际预期)的数据组更符合现实要求和预期。各单科的成绩数据计算单元20,用于根据所述基础条件参数,利用正态分布的概率密度函数,测算得到各单科的成绩数据。其中,所述根据所述基础条件参数,利用正态分布的概率密度函数,测算得到各单科的成绩数据,包括:根据所述基础条件参数,利用正态分布的概率密度函数,计算获得各分数值的理论分布概率,再乘以考生人数得到各分数的人数分布,即成绩数量分布;将所述成绩数量分布赋予与考生人数相等的成绩数组中,得到各单科的成绩数据。在具体的实施例当中,根据配置参数和学科配置参数及历史数据模拟各单科的成绩数据,各单科的成绩数据可以通过历史数据来模拟产生,也可以按照纯理论来模拟产生(一般是利用正态分布)。对于已经产生的多维数据(各单科目或单项目数据组),在算法实现上,通过配置相对恒定的相关系数(皮尔逊积矩相关系数),利用最小二乘法(高斯-马尔可夫定理)的原理,进行不断的反复迭代,获取最优的计算结果,作为模拟仿真的最终数据结果。模拟仿真单元30,用于利用最小二乘法原理,对各单科的成绩数据进行优化匹配和迭代处理,得到模拟仿真的结果数据。其中,所述利用最小二乘法原理,对各单科的成绩数据进行优化匹配和迭代处理,得到模拟仿真的结果数据,包括:将一门单科的成绩数据与考生信息进行匹配,并固定匹配关系;采用以下公式,计算出所有学科之间的皮尔逊积矩相关系数:或利用最小二乘法原理,计算所有相关系数的误差的平方和,利用∑(yi-yj)2]最小作为最优判据,其中,yi相当于r1皮尔逊积矩相关系数,yj相当于r设定的配置相关系数;反复迭代,直至得到模拟仿真的结果数据。在具体的实施例当中,在利用最小二乘法进行迭代处理时,交换的数据不是采用完全随机的方式,而是结合相关系数的定义通过排序来进行迭代算法的优化,避免了完全随机的的数据交换方式的迭代,极大提升迭代处理的效率。对于已经产生的多学科多组模拟数据,根据配置的相关系数(皮尔逊积矩相关系数),借助于最小二乘法原理(高斯-马尔可夫定理),通过不断的迭代,将这些多组单学科成绩数据匹配到考生数据,在迭代过程中,主要的运算方式是数据的排序变更,迭代到最优结果后(误差最小),形成的包含考生和各学科成绩的数据即为最终的模拟仿真数据。对于最终模拟仿真数据,根据相关量化研究的范围和内容,对数据做相关的分析处理,产生最后的目标结果。根据上述实施例的教导,本发明实施例主要用于大型考试的数据模拟仿真,可以适用于大型考试(如中高考)相关的研究和分析,包括各类合格性考试、等级性考试、其它人才选拔类测评的规则标准的设计、赋分方式的设计及相关研究领域。该方法适用于多学科(多项目)类型的大型考试和测评。该方法可与ctt(经典测量理论)和irt(项目反应理论)等现代测量技术理论结合,通过对基于高斯分布(正态分布)或其它方法产生的一维及多维数据,结合相关系数(皮尔逊积矩相关系数),通过最小二乘法(高斯-马尔可夫定理)的方法理论,进行反复迭代处理,模拟出更符合理论和实际的的仿真数据,有效提高模拟数据的质量,进而提升考试和测试的水平和质量。本发明方法更易于利用现代it技术,尤其是大数据和云计算及相关的技术以低成本高效率的方式来实现,有效提升解决大型考试中面临的几个核心需求(质量、公平、效率)的手段和技术水平。本发明一实施例还提供一种大数据统计抽样服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的大型考试数据模拟仿真方法。本发明一实施例还提供一种计算机可读存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述的大型考试数据模拟仿真方法。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可监听存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。以上所述是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1