基于文本相似度的非主观题阅卷方法、装置及存储介质与流程

文档序号:18601178发布日期:2019-09-03 22:40阅读:200来源:国知局
基于文本相似度的非主观题阅卷方法、装置及存储介质与流程

本发明涉及人工智能技术领域,尤其涉及一种基于文本相似度的非主观题阅卷方法、装置及计算机可读存储介质。



背景技术:

考试作为对学习效果和知识掌握程度的一种检验方法,在日常工作和生活中广泛存在。由于各类培训考试人数较多、规模较大,而且人工阅卷中会有很多主观因素影响评分结果,如教师的疲劳程度、心情状态以及考生的字体是否美观等,因此教育和培训机构对于自动阅卷的需求日趋强烈。



技术实现要素:

本发明提供一种基于文本相似度的非主观题阅卷方法、装置及计算机可读存储介质,其主要目的在于提供一种非主观题阅卷方法,以实现试卷的智能化评分。

为实现上述目的,本发明的基于文本相似度的非主观题阅卷方法,包括:

对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;

获取考试试卷中考生答案的文本内容;

根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;

利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及

从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。

可选地,所述获取考试试卷中考生答案的文本内容包括:

针对笔试方式的考试试卷,获取考试试卷的影像图像,识别出所述影像图像中非主观题部分问题的考生答案,并将所述考生答案转换为文本格式,形成所述考生答案的文本内容;及

针对机答方式的考试试卷,直接获取所述考生的答案部分,形成所述考生答案的文本内容。

可选地,所述预先确定的分词规则包括利用隐性马尔科夫模型和关键词抽取算法对标准答案和考生答案进行文本改写,并利用k-means算法和朴素贝叶斯分类器构建词袋模型,实现分词操作。

可选地,所述预设算法为余弦相似度算法,公式为:

其中,x、y分别为标准答案和考生答案的分词向量,sim(x,y)表示标准答案和考生答案的分词向量之间的余弦相似度、范围从-1到1。其中,sim(x,y)的值越接近-1,表示两个分词向量指向的方向相反,相似度越低,值越接近1,表示两个分词向量指向的方向相同,相似度越高,0代表两个分词向量之间具有独立性,表示中度的相似性或相异性。

可选地,所述从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分包括:

预先设置标准答案的多个得分要点,并针对每个得分要点的重要程度设置各得分要点的分值比重;

根据所述标准答案和考生答案的分词向量的相似度,筛选出与所述标准答案的得分要点相匹配的考生答案中的关键词;

通过计算考生答案中所有关键词对应的得分要点的分值比重,得到该试卷的非主观题得分。

此外,为实现上述目的,本发明还提供一种装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的基于文本相似度的非主观题阅卷程序,所述基于文本相似度的非主观题阅卷程序被所述处理器执行时实现如下步骤:

对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;

获取考试试卷中考生答案的文本内容;

根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;

利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及

从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。

可选地,所述预先确定的分词规则包括利用隐性马尔科夫模型和关键词抽取算法对标准答案和考生答案进行文本改写,并利用k-means算法和朴素贝叶斯分类器构建词袋模型,实现分词操作。

可选地,所述预设算法为余弦相似度算法,公式为:

其中,x、y分别为标准答案和考生答案的分词向量,sim(x,y)表示标准答案和考生答案的分词向量之间的余弦相似度、范围从-1到1。

可选地,所述从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分包括:

预先设置标准答案的多个得分要点,并针对每个得分要点的重要程度设置各得分要点的分值比重;

根据所述标准答案和考生答案的分词向量的相似度,筛选出与所述标准答案的得分要点相匹配的考生答案中的关键词;

通过计算考生答案中所有关键词对应的得分要点的分值比重,得到该试卷的非主观题得分。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于文本相似度的非主观题阅卷程序,所述基于文本相似度的非主观题阅卷程序可被一个或者多个处理器执行,以实现如上所述的基于文本相似度的非主观题阅卷方法的步骤。

本发明提出的基于文本相似度的非主观题阅卷方法、装置及计算机可读存储介质获取考试试卷中考生答案的文本内容;对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;根据所述文本语料库,对所述考试试卷的标准答案和考生答案按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。本发明能够实现试卷中非主观题的精确的智能化评分。

附图说明

图1为本发明一实施例提供的基于文本相似度的非主观题阅卷方法的流程示意图;

图2为本发明一实施例提供的装置的内部结构示意图;

图3为本发明一实施例提供的装置中基于文本相似度的非主观题阅卷程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,所述“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

进一步地,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

本发明提供一种基于文本相似度的非主观题阅卷方法。

详细地,参照图1所示,为本发明一实施例提供的基于文本相似度的非主观题阅卷方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

s1、对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库。

本发明所述专有词汇可以是金融领域、产品领域的词汇等。例如,对于保险行业中特定的保险名称,如“尊宏人生”等,为一个专有词汇,将这样的词汇汇总至所述的文本语料库中。

s2、获取考试试卷中考生答案的文本内容。

针对笔试方式的考试试卷,本发明通过获取试卷的影像图像,识别出所述试卷的影像图像中问题的考生答案部分,并将所述考生答案部分转换为文本格式,形成所述考生答案的文本内容。

详细地,本发明通过对试卷进行纸质扫描,将所获取的试卷图像的问题和答案部分进行物理切分,利用光学字符识别(opticalcharacterrecognition,ocr)技术对试卷图像的答案部分进行识别,形成所述考生答案的文本内容。

所述ocr是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文本中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

针对机答方式的考试试卷,本发明直接获取所述考生的答案部分,形成所述考生答案的文本内容。

s3、根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量。

本发明较佳实施例中,所述预先确定的分词规则包括利用隐性马尔科夫(hmm)模型和关键词抽取算法对标准答案和考生答案进行文本改写(rewrite),再利用k-means算法和朴素贝叶斯分类器(bayes,nb)构建词袋(bagofword,bow)模型,实现分词操作。

所述rewrite指对于一个文本,首先采用中文分词,然后进行清理、保留主干词,对主干词进行语义增强(同义词/关联词补充)。

首先,本发明对所述标准答案和考生答案通过构建隐性马尔可夫模型进行分词处理。由于文本满足马尔科夫性,即文本中第n个词出现的可能性只与其前面n-1个词语的出现有关,而与第n个词语之后的所有词语无关,因此n元语法模型的目的是:在前n-1个词语出现的情况下,给出第n词语wi出现的概率,其可表示为:

p(wi|w1,...wi-1)=p(wi|wi-n+1,...wi-1)

假设句子s由词序列{w1,w2...wm}组成,则句子按照此词序排列的概率为:

p(s)=p(w1w2...wm)=p(w1)p(w2|w1)...p(wm|wm-n+1,...wm-1)

其中条件概率p(wm|wm-n+1,...wm-1)表示:在词语wm-n+1,...wm-1出现的情况下wm出现的概率,在大规模语料库训练的基础上,使用二元语法模型,因此,句子的概率模型为:

对句子s使用全切分法进行切分,获得所有可能的中文分词方式,然后计算每一种分词方式的概率,选出其中概率最大的一种分词方式,作为最终文本分词结果。选择过程即求p(s)的极大值:

由于试卷的回答可能包含与答案主体无关的叙述,因此,本发明在基于隐性马尔可夫模型进行分词的情况下,对问题进行关键词抽取。假设对问题s和t的主题及描述抽取关键词keys和keyt,由于问题的主题及描述可能包含多个句子,因此本发明对问题的每个子句都抽取关键词。本发明使用基于依存排序的关键词提取算法对子句的关键词按照得分进行排序,然后再按照子句出现的顺序对所有的关键词进行排序,得到问题的关键词序列。

关键词提取算法是利用统计信息、词向量信息以及词语间的依存句法信息,通过构建依存关系图来计算词语之间的关联强度,利用textrank算法迭代算出词语的重要度得分,首先根据句子的依存句法分析结果对所有非停用词构造无向图,接着,利用词语之间的引力值以及依存关联度计算求得边的权重。因此,任意两词wi和wj的依存关联度为:

其中len(wi,wj)表示词语wi和wj之间的依存路径长度,b是超参数。

本发明认为2个词之间的语义相似度无法准确衡量词语的重要程度,只有当2个词中至少有一个在文本中出现的频率很高,才能证明2个词很重要。根据万有引力的概念,将词频看作质量,将2个词的词向量间的欧氏距离视为距离,根据万有引力公式来计算2个词之间的引力。然而仅利用词频来衡量文本中某个词的重要程度太过片面,因此本发明引入了idf值,将词频替换为tf-idf值,从而考虑到更全局性的信息。于是得到了新的词引力值公式。文本词语wi和的wj的引力:

其中,tfidf(w)是词w的tf-idf值,d是词wi和wj的词向量之间的欧式距离。

因此,两个词语之间的关联度为:

weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)

最后,本发明利用textrank算法建立一个无向图g=(v,e),其中v是顶点的集合,e是边的集合,根据下列式子算出顶点wi的得分,其中是与顶点wi有关的集合,η为阻尼系数。本发明选取得分最高的t个词语作为主干词,并对主干词进行语义增强:

所述bow模型即词袋模型。该模型将将文本表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本的每个词汇都是独立的。该模型的实现步骤如下:

利用k-means算法进行大数据聚类,找到适当的聚类中心点----vocabulary。所述k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。其中k-means算法中的k代表类簇个数,means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。在本发明实施例中,利用欧式距离计算数据对象间的距离,假设xi,xj为数据,d表示数据对象的属性个数,d是特征维数,其两者间的距离为:

同时定义第k个类簇的类簇中心为centerk,其更新方式为:其中ck表示第k个类簇中数据对象的个数,centerk表示一个含有d属性的向量。最后,本发明采用误差平方和准则函数得到最终聚类结果j:

训练数据像聚类中心映射,得到每一个训练数据在该聚类中心空间的一个低维表示。通过最终聚类结果j,将其作为直方图的基,用该基向量构造别的向量,并做相关映射,得到不同类别的一个类别的直方图的统计,从而完成bow模型特征提取过程。

得到每一个训练数据的低维表示后,选择基于多项式的朴素贝叶斯分类器(bayes,nb)训练。nb是低方差高偏差的分类器,假设各个特征之间存在条件独立性假设:对于给定的类别,所有的特征相互独立。对于给定样本x=(x1,x2,…,xd)t,其属于类别wi后验概率为:

其中,xk是样本在第k个特征上的取值。本发明为避免数据稀疏的问题,首先对数据使用平滑:

其中ck表示第k维特征可能取值的个数,α为系数。

本发明通过使用mle估计,得到:其中分子表示wi类的训练样本构成的集合di中,第k个特征的取值为xk的样本数。

对新来的样本先映射到聚类中心空间,然后利用得到的分类器进行预测,并将文本用tf-idf值转换为词频向量。

进一步地,本发明还根据所述文本语料库,对所述词频向量进行整理,产生所述标准答案和考生答案的分词向量。

s4、利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度。

本发明所述预设算法为余弦相似度(cosin)算法。

所述余弦相似度是用向量空间中两个分词向量(如所述的分词向量)的余弦值作为衡量两个个体间差异的大小的度量,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。

本发明较佳实施例利用下列公式计算两个分词向量的余弦值:

其中,x、y分别为标准答案和考生答案的分词向量,sim(x,y)表示标准答案和考生答案的分词向量之间的余弦相似度、范围从-1到1。其中,sim(x,y)的值越接近-1,表示两个分词向量指向的方向相反,相似度越低,值越接近1,表示两个分词向量指向的方向相同,相似度越高,0代表两个分词向量之间具有独立性,表示中度的相似性或相异性。

s5、从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。

本发明所述根据相似度匹配相应的分值,完成每道非主观题的智能打分包括:

预先设置标准答案的多个得分要点,并针对每个得分要点的重要程度设置各个得分要点的分值比重;

根据所述标准答案和考生答案的分词向量的相似度,筛选出与所述标准答案的得分要点相匹配的考生答案中的关键词语;

通过计算考生答案中所有关键词语对应的得分要点的分值比重,得到该试卷的非主观题得分。

在本发明所述的基于文本相似度的非主观题阅卷方法中,隐形马尔可夫模型只依赖于每一个状态和它对应的观察对象,可以准确的对文本进行分词处理;词袋模型忽略掉文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文本,从而简化了对文本的处理;朴素贝叶斯分类器在接受大数据量训练和查询时具备高速度。即使选用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是针对特征概率的数学运算而已;k-means算法对处理大数据集的聚类问题,保持可伸缩性和高效性,并可收敛于局部最小值(对初始k个聚类中心的选择敏感),可以实现对文本数据的聚类;余弦相似度算法通过测量两个向量的角的余弦值来度量他们之间的相似性,可以更直观的表现出标准答案和回答之间的相似度,从而根据该相似度匹配到相应的分值。因此,本发明所述基于文本相似度的非主观题阅卷方法可以实现试卷的精确的智能化评分。

本发明还提供一种执行基于文本相似度的非主观题阅卷的装置。参照图2所示,为本发明一实施例提供的装置的内部结构示意图。

在本实施例中,所述装置1可以是智能手机、平板电脑、便携计算机等终端设备,可以是pc(personalcomputer,个人电脑),也可以是服务器、服务器群组等。该装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。

其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是装置1的内部存储单元,例如该装置1的硬盘。存储器11在另一些实施例中也可以是装置1的外部存储设备,例如装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于装置1的应用软件及各类数据,例如基于文本相似度的非主观题阅卷程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于文本相似度的非主观题阅卷程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该装置1与其他电子设备之间建立通信连接。

可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及基于文本相似度的非主观题阅卷程序01的装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

在图2所示的装置1实施例中,存储器11中存储有基于文本相似度的非主观题阅卷程序01;处理器12执行存储器11中存储的基于文本相似度的非主观题阅卷程序01时实现如下步骤:

步骤一、对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库。

本发明所述专有词汇可以是金融领域、产品领域的词汇等。例如,对于保险行业中特定的保险名称,如“尊宏人生”等,为一个专有词汇,将这样的词汇汇总至所述的文本语料库中。

步骤二、获取考试试卷中考生答案的文本内容。

针对笔试方式的考试试卷,本发明通过获取试卷的影像图像,识别出所述试卷的影像图像中问题的考生答案部分,并将所述考生答案部分转换为文本格式,形成所述考生答案的文本内容。

详细地,本发明通过对试卷进行纸质扫描,将所获取的试卷图像的问题和答案部分进行物理切分,利用光学字符识别(opticalcharacterrecognition,ocr)技术对试卷图像的答案部分进行识别,形成所述考生答案的文本内容。

所述ocr是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文本中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

针对机答方式的考试试卷,本发明直接获取所述考生的答案部分,形成所述考生答案的文本内容。

步骤三、根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量。

本发明较佳实施例中,所述预先确定的分词规则包括利用隐性马尔科夫(hmm)模型和关键词抽取算法对标准答案和考生答案进行文本改写(rewrite),再利用k-means算法和朴素贝叶斯分类器(bayes,nb)构建词袋(bagofword,bow)模型,实现分词操作。

所述rewrite指对于一个文本,首先采用中文分词,然后进行清理、保留主干词,对主干词进行语义增强(同义词/关联词补充)。

首先,本发明对所述标准答案和考生答案通过构建隐性马尔可夫模型进行分词处理。由于文本满足马尔科夫性,即文本中第n个词出现的可能性只与其前面n-1个词语的出现有关,而与第n个词语之后的所有词语无关,因此n元语法模型的目的是:在前n-1个词语出现的情况下,给出第n词语wi出现的概率,其可表示为:

p(wi|w1,...wi-1)=p(wi|wi-n+1,...wi-1)

假设句子s由词序列{w1,w2...wm}组成,则句子按照此词序排列的概率为:

p(s)=p(w1w2...wm)=p(w1)p(w2|w1)...p(wm|wm-n+1,...wm-1)

其中条件概率p(wm|wm-n+1,...wm-1)表示:在词语wm-n+1,...wm-1出现的情况下wm出现的概率,在大规模语料库训练的基础上,使用二元语法模型,因此,句子的概率模型为:

对句子s使用全切分法进行切分,获得所有可能的中文分词方式,然后计算每一种分词方式的概率,选出其中概率最大的一种分词方式,作为最终文本分词结果。选择过程即求p(s)的极大值:

由于试卷的回答可能包含与答案主体无关的叙述,因此,本发明在基于隐性马尔可夫模型进行分词的情况下,对问题进行关键词抽取。假设对问题s和t的主题及描述抽取关键词keys和keyt,由于问题的主题及描述可能包含多个句子,因此本发明对问题的每个子句都抽取关键词。本发明使用基于依存排序的关键词提取算法对子句的关键词按照得分进行排序,然后再按照子句出现的顺序对所有的关键词进行排序,得到问题的关键词序列。

关键词提取算法是利用统计信息、词向量信息以及词语间的依存句法信息,通过构建依存关系图来计算词语之间的关联强度,利用textrank算法迭代算出词语的重要度得分,首先根据句子的依存句法分析结果对所有非停用词构造无向图,接着,利用词语之间的引力值以及依存关联度计算求得边的权重。因此,任意两词wi和wj的依存关联度为:

其中len(wi,wj)表示词语wi和wj之间的依存路径长度,b是超参数。

本发明认为2个词之间的语义相似度无法准确衡量词语的重要程度,只有当2个词中至少有一个在文本中出现的频率很高,才能证明2个词很重要。根据万有引力的概念,将词频看作质量,将2个词的词向量间的欧氏距离视为距离,根据万有引力公式来计算2个词之间的引力。然而仅利用词频来衡量文本中某个词的重要程度太过片面,因此本发明引入了idf值,将词频替换为tf-idf值,从而考虑到更全局性的信息。于是得到了新的词引力值公式。文本词语wi和的wj的引力:

其中,tfidf(w)是词w的tf-idf值,d是词wi和wj的词向量之间的欧式距离。

因此,两个词语之间的关联度为:

weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)

最后,本发明利用textrank算法建立一个无向图g=(v,e),其中v是顶点的集合,e是边的集合,根据下列式子算出顶点wi的得分,其中是与顶点wi有关的集合,η为阻尼系数。本发明选取得分最高的t个词语作为主干词,并对主干词进行语义增强:

所述bow模型即词袋模型。该模型将将文本表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本的每个词汇都是独立的。该模型的实现步骤如下:

利用k-means算法进行大数据聚类,找到适当的聚类中心点----vocabulary。所述k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。其中k-means算法中的k代表类簇个数,means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。在本发明实施例中,利用欧式距离计算数据对象间的距离,假设xi,xj为数据,d表示数据对象的属性个数,d是特征维数,其两者间的距离为:

同时定义第k个类簇的类簇中心为centerk,其更新方式为:其中ck表示第k个类簇中数据对象的个数,centerk表示一个含有d属性的向量。最后,本发明采用误差平方和准则函数得到最终聚类结果j:

训练数据像聚类中心映射,得到每一个训练数据在该聚类中心空间的一个低维表示。通过最终聚类结果j,将其作为直方图的基,用该基向量构造别的向量,并做相关映射,得到不同类别的一个类别的直方图的统计,从而完成bow模型特征提取过程。

训练数据像聚类中心映射,得到每一个训练数据在该聚类中心空间的一个低维表示。通过最终聚类结果j,将其作为直方图的基,用该基向量构造别的向量,并做相关映射,得到不同类别的一个类别的直方图的统计,从而完成bow模型特征提取过程。

得到每一个训练数据的低维表示后,选择基于多项式的朴素贝叶斯分类器(bayes,nb)训练。nb是低方差高偏差的分类器,假设各个特征之间存在条件独立性假设:对于给定的类别,所有的特征相互独立。对于给定样本x=(x1,x2,…,xd)t,其属于类别wi后验概率为:

其中,xk是样本在第k个特征上的取值。本发明为避免数据稀疏的问题,首先对数据使用平滑:

其中ck表示第k维特征可能取值的个数,α为系数。

本发明通过使用mle估计,得到:其中分子表示wi类的训练样本构成的集合di中,第k个特征的取值为xk的样本数。

对新来的样本先映射到聚类中心空间,然后利用得到的分类器进行预测,并将文本用tf-idf值转换为词频向量。

进一步地,本发明还根据所述文本语料库,对所述词频向量进行调整,产生所述标准答案和考生答案的分词向量。

步骤四、利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度。

本发明所述预设算法为余弦相似度(cosin)算法。

所述余弦相似度是用向量空间中两个分词向量(如所述的分词向量)的余弦值作为衡量两个个体间差异的大小的度量,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。

本发明较佳实施例利用下列公式计算两个分词向量的余弦值:

其中,x、y分别为标准答案和考生答案的分词向量,sim(x,y)表示标准答案和考生答案的分词向量之间的余弦相似度、范围从-1到1。其中,sim(x,y)的值越接近-1,表示两个分词向量指向的方向相反,相似度越低,值越接近1,表示两个分词向量指向的方向相同,相似度越高,0代表两个分词向量之间具有独立性,表示中度的相似性或相异性。

步骤五、从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。

本发明所述根据相似度匹配相应的分值,完成每道非主观题的智能打分包括:

预先设置标准答案的多个得分要点,并针对每个得分要点的重要程度设置各个得分要点的分值比重

根据所述标准答案和考生答案的分词向量的相似度,筛选出与所述标准答案的得分要点相匹配的考生答案中的关键词语;

通过计算考生答案中所有关键词语对应的得分要点的分值比重,得到该试卷的非主观题得分。

可选地,在本发明实施例中,所述基于文本相似度的非主观题阅卷程序01还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述基于文本相似度的非主观题阅卷程序在所述装置中的执行过程。

例如,参照图3所示,为本发明装置一实施例中的基于文本相似度的非主观题阅卷程序的程序模块示意图,该实施例中,基于文本相似度的非主观题阅卷程序01可以被分割为文本语料库构建模块10、答案获取模块20、分词模块30、相似度计算模块40及打分模块50。示例性地:

所述文本语料库构建模块10用于:对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库。

所述答案获取模块20用于:获取考试试卷中考生答案的文本内容。

可选地,当通过笔试的方式进行考试的时候,获取考试试卷的影像图像,识别出所述影像图像中非主观题部分问题的考生答案,并将所述考生答案转换为文本格式,形成所述考生答案的文本内容;及

当通过机答的方式进行考试的时候,直接获取所述考生的答案部分,形成所述考生答案的文本内容。

所述分词模块30用于:根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量。

可选地,所述预先确定的分词规则包括利用隐性马尔科夫(hmm)模型和关键词抽取算法对标准答案和考生答案进行文本改写(rewrite),再利用k-means算法和朴素贝叶斯分类器(bayes,nb)构建词袋(bagofword,bow)模型,实现分词操作。

所述相似度计算模块40用于:利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度。

可选地,所述预设算法为余弦相似度(cosin)算法,公式为:

其中,x、y分别为标准答案和考生答案的分词向量,sim(x,y)表示标准答案和考生答案的分词向量之间的余弦相似度、范围从-1到1。其中,sim(x,y)的值越接近-1,表示两个分词向量指向的方向相反,相似度越低,值越接近1,表示两个分词向量指向的方向相同,相似度越高,0代表两个分词向量之间具有独立性,表示中度的相似性或相异性。

所述打分模块50用于:从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。

可选地,所述根据相似度匹配相应的分值,完成每道非主观题的智能打分包括:

预先设置标准答案的多个得分要点,并针对每个得分要点的重要程度设置各个得分要点的分值比重;

根据所述标准答案和考生答案的分词向量的相似度,筛选出与所述标准答案的得分要点相匹配的考生答案中的关键词语;

通过计算考生答案中所有关键词语对应的得分要点的分值比重,得到该试卷的非主观题得分。

上述文本语料库构建模块10、答案获取模块20、分词模块30、相似度计算模块40及打分模块50等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于文本相似度的非主观题阅卷程序,所述基于文本相似度的非主观题阅卷程序可被一个或多个处理器执行,以实现如下操作:

对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;

获取考试试卷中考生答案的文本内容;

根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;

利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及

从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。

本发明计算机可读存储介质具体实施方式与上述基于文本相似度的非主观题阅卷装置和方法各实施例基本相同,在此不作累述。

需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1