本发明涉及人工智能领域,具体涉及一种基于机器学习的中文阅读难度分级方法及系统。
背景技术:
人工智能技术是指了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能往往通过自然语言处理与机器学习等技术与语言学研究成果的结合,实现文本阅读难度分级。
阅读难度分级本质上可以概括为对文本可读性的度量问题。定义上,可读性(readability)指文本易于阅读和理解的程度。通常,可读性高的文本内容符合读者的背景知识,并且会适当地复述上文内容,并提供相关知识;此外,高可读性文本行文通常使用常见词汇和结构简单的句法结构,同时避免歧义以减少读者的认知负担。当读者阅读可读性较高的文章时,会有更好的理解和学习效果,因而给读者提供合适的高可读性文本,就可能改善读者的阅读理解表现。
现有技术中,阅读难度分级技术主要以美国“蓝思(lexile)分级”和“az分级”为代表。这些技术的阅读难度分级构建体系通常依赖于传统可读性研究的基本假设,也即以词长(wordlength)和词频(wordfrequency)作为语义的指标,以句长作为语法的指标,而词长和句子较长的文章难度通常较高。基于这些假设,现有技术通常通过设计依赖于这些指标的可读性计算公式来实现对文本可读性的度量。
现有技术的不足之处在于,没有考虑语言随时代变化的特征,进而无法更新汉字难度分级表和词频表;仅通过句长或词长作为复杂度的指标,过于直觉而不能精确地反映其结构性质;以少数浅层次局部的语言特征不足以反映真实的阅读理解过程;阅读难度分级技术仅适用于英文,而英文本身与中文在语言特点上存在着极大的不同。
技术实现要素:
本发明的目的是提供一种基于机器学习的中文阅读难度分级方法及系统,以解决上述不足之处。
为了实现上述目的,本发明提供如下技术方案:
本发明提供了一种基于机器学习的中文阅读难度分级方法,包括以下步骤:
获取训练文本和待检测文本;
根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;
将所述特征集输入svm模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。
上述基于机器学习的中文阅读难度分级方法,训练文本的获取包括以下步骤:
根据多个阅读难度层次和更新的中文文本构建语料库;
从所述语料库中调取相应的文本作为所述训练文本。
上述基于机器学习的中文阅读难度分级方法,字词特征的构建包括以下步骤:
通过预设的中文字词难度分级表对所述训练样本进行分析,得到字词的复杂度特征;
对所述训练样本进行词频统计,并通过预设的词频表对统计结果进行分析,得到字词的词频特征。
上述基于机器学习的中文阅读难度分级方法,语义特征的构建包括以下步骤:
对所述训练样本中的字词按照属性进行分类,得到多个类别的属性词;
在同一类别中对所述属性词进行语义相同字词数目的统计,并对统计结果进行分析,得到所述语义特征。
上述基于机器学习的中文阅读难度分级方法,句子特征的构建包括以下步骤:
根据所述训练样本进行句子复杂度的分析,得到句子的复杂度特征;
通过依存句法树对所述训练样本进行句子中词语的依存关系和语法结构的分析,得到句子的语法特征;
对所述训练样本中句子的长度进行分析,得到句子的长度特征。
上述基于机器学习的中文阅读难度分级方法,篇章特征的构建包括以下步骤:
搜寻所述训练样本中的实义词;
对所述实义词的出现频率进行统计,并根据统计结果得到篇章间的衔接特征。
上述基于机器学习的中文阅读难度分级方法,主题特征的构建包括以下步骤:
对训练样本中的标注样本进行挖掘得到主题模型;
通过主题模型对所述训练样本的目标样本进行分类,得到主题特征。
上述基于机器学习的中文阅读难度分级方法,进行训练包括以下步骤:
根据所述特征集抽取所述训练文本的对应特征;
根据所述标注样本中交叉标注的特征抽取所述训练文本中的对应特征;
通过上述对应特征进行阅读难度等级的训练,得到所述训练结果。
上述基于机器学习的中文阅读难度分级方法,进行预测包括以下步骤:
通过srm统计出所述待检测文本的小样本后,求得超平面将文本分类;
根据所述文本分类结果预测得到所述阅读难度等级。
上述技术方案中,本发明提供的一种基于机器学习的中文阅读难度分级方法,具有以下有益效果:
1)训练样本可以实时更新,从而充分考虑语言随时代变化的特征,如此可以更新汉字难度分级表和词频表;
2)引入语义、句子、篇章以及主题等其他特征,从而通过上述特征和句长、词长作为复杂度的指标,更为客观,且能够精确地反映其结构性质;
3)通过特征集以弥补少数浅层次局部的语言特征不足,从而可以反映真实的阅读理解过程,更为精确的进行阅读难度等级分类;
4)通过本方法使阅读难度分级技术适用于中文,符合中文的语言特点。
本发明还提供了一种基于机器学习的中文阅读难度分级系统,包括:
文本获取单元,获取训练文本和待检测文本;
构建单元,根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;
训练预测单元,将所述特征集输入svm模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。
上述技术方案中,本发明提供的一种基于机器学习的中文阅读难度分级系统,具有以下有益效果:
1)通过文本获取单元可以实现实时更新,从而充分考虑语言随时代变化的特征,如此可以更新汉字难度分级表和词频表;
2)通过构建单元和训练预测单元的配合,引入语义、句子、篇章以及主题等其他特征,从而通过上述特征和句长、词长作为复杂度的指标,更为客观,且能够精确地反映其结构性质;
3)通过构建单元和训练预测单元的配合,实现特征集以弥补少数浅层次局部的语言特征不足,从而可以反映真实的阅读理解过程,更为精确的进行阅读难度等级分类;
4)通过各单元的配合,使阅读难度分级技术适用于中文,符合中文的语言特点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的阅读难度分级方法的流程示意图;
图2为本发明一优选实施例提供的阅读难度分级方法的流程示意图;
图3为本发明一优选实施例提供的阅读难度分级方法的流程示意图;
图4为本发明一优选实施例提供的阅读难度分级方法的流程示意图;
图5为本发明一优选实施例提供的阅读难度分级方法的流程示意图;
图6为本发明一优选实施例提供的阅读难度分级方法的流程示意图;
图7为本发明一优选实施例提供的阅读难度分级方法的流程示意图;
图8为本发明一优选实施例提供的阅读难度分级方法的流程示意图;
图9为本发明一优选实施例提供的阅读难度分级方法的流程示意图;
图10为本发明实施例提供的阅读难度分级系统的结构示意图。
附图标记说明:
10、文本获取单元;20、构建单元;30、训练预测单元。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
如图1所示,为本发明实施例提供的一种基于机器学习的中文阅读难度分级方法,包括以下步骤:
s101、获取训练文本和待检测文本;
训练文本是指通过训练前构建的特征对分类器进行训练所用的文本;待检测文本是指需要判断阅读难度等级的文本。
如图2所示,在步骤s101中,训练文本的获取包括以下步骤:
s201、根据多个阅读难度层次和更新的中文文本构建语料库;
s202、从所述语料库中调取相应的文本作为所述训练文本。
具体的,语料库是通过文本数据采集,获得具有代表性的、机器可读的、有标准参考价值的文本集合。本方法中,基于中国大陆多个版本的中小学教材文本和中高考考试阅读题文本材料、知名中文报刊文本、著名中文文学作品等多个途径构建覆盖多个阅读难度层次、多种语言体裁与题材的大规模中文语料库,同时,该语料库会随着时间不断加入新的文本和剔除过时的文本以保证时效性,充分考虑语言随时代变化的特征。基于该语料库,可以为后续文本特征集的构建提供坚实的语料资源基础,使汉字难度分级表和词频表更为丰富。当需要对某个或多个待检测的文本进行阅读难度等级判断时,从语料库中调取获得部分或全部的文本作为训练文本即可。
s102、根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;
基于前述语料库的资源,同时综合已有的语言学研究成果,从训练文本的字词、语义、句子、篇章、文本主题等层面出发,构建涵盖多个语言层次的特征集。
如图3所示,在步骤s102中,字词特征的构建包括以下步骤:
s301、通过预设的中文字词难度分级表对所述训练样本进行分析,得到字词的复杂度特征;
s302、对所述训练样本进行词频统计,并通过预设的词频表对统计结果进行分析,得到字词的词频特征。
具体的,字词特征分为字词的复杂度特征和字词的词频特征。字词复杂度,基于北京大学语言学研究得到的中文汉字难度分级表和中文词语难度分级表作为字词复杂度的考量指标,并以表中相应字词的难度作为其字词的复杂度特征。可以将上述的分级表进行预先设置,然后通过其对训练样本中的字词进行复杂度分析,得到字词的复杂度特征。词频,基于前述语料库中的不同类别语料分别进行词频统计,得到不同类别语料上的词频表。这些不同语料上的词频表会提供不同难度文本语料集合中词频信息,从而可以作为衡量文本所使用字词所处难度层次的字词的词频特征。
如图4所示,在步骤s102中,语义特征的构建包括以下步骤:
s401、对所述训练样本中的字词按照属性进行分类,得到多个类别的属性词;
s402、在同一类别中对所述属性词进行语义相同字词数目的统计,并对统计结果进行分析,得到所述语义特征。
具体的,属性词包括但不限于,多义词,名、动词,连词,代词等。实义词数目统计:语言学的研究表明读者会花费更多的时间来思考实义词的含义,因此一个包含有更多实义词的句子会包含更多的概念从而阅读难度更高。文本中多义词数目统计:含有多个含义的词在阅读时会造成更多语义上混淆的可能,因此,文本中多义词的数目和每个多义词的含义个数也将作为衡量文本阅读难度的一个特征。文本中的名词短语和动词短语数目统计:名词短语和动词短语是句子的重要组成结构,更多名词短语和动词短语往往意味着包含更多语义概念,阅读难度也相应更难。文本中的连词数目统计:使用连词往往使得文本读起来语义更为通顺连贯,从而有助于降低阅读难度。因此,包含更多连词的文本通常具有更好的可读性。文本中的代词数目统计:代词数目过多容易导致对代词所引用对象的混淆,造成更多的理解困难。
如图5所示,在步骤s102中,句子特征的构建包括以下步骤:
s501、根据所述训练样本进行句子复杂度的分析,得到句子的复杂度特征;
s502、通过依存句法树对所述训练样本进行句子中词语的依存关系和语法结构的分析,得到句子的语法特征;
s503、对所述训练样本中句子的长度进行分析,得到句子的长度特征。
属于不同句子类别的句子的占比:句子类别分为简单句和复合句。由于复合句通常由两个或以上的简单句组成,复合句在句法层面会更加复杂。
具体的,文本句子由不同语言模型给出的困惑度评估的和:困惑度是基于自然语言处理技术中的语言模型得到的对句子复杂程度的一个度量。具体地,基于前述语料库中的不同语料类别,可以基于不同类别语料训练得到针对不同难度层次文本的语言模型。而语言模型的一个重要特性在于能够对于一个新句子给出基于训练语料的一个困惑度评估,当新句子越接近语言模型所使用的训练语料时,困惑度越低。而可以预见,当给予一个简单的句子时,简单语料训练得到的语言模型给出的困惑度评估更低而复杂语料训练得到的语言模型给出的困惑度评估更高,而对于复杂的句子,则简单语料训练得到的语言模型给出的困惑度评估高而复杂语料训练得到的语言模型给出的困惑度评估低。文本中句子的平均、最大和最小依存句法树深度。句子的依存句法树描述了句中各个词语之间的依存关系,也即指出了词语之间在句法上的搭配关系。当一个句子的依存句法树深度更大时意味着句中词语具有更为复杂的依存关系和语法结构,因此也往往意味着更大的阅读难度。文本的平均句长:句子长度往往影响阅读的理解难易程度。
如图6所示,在步骤s102中,篇章特征的构建包括以下步骤:
s601、搜寻所述训练样本中的实义词;
s602、对所述实义词的出现频率进行统计,并根据统计结果得到篇章间的衔接特征。
具体的,衔接性:当文本的不同分段上下文之间具有更好的衔接性时,往往意味着更好的可读性。而更好的衔接往往以更多的语义复现的形式呈现。本方法中对文段的衔接性采用实义词的在不同句子中的复现次数作为特征来刻画。
如图7所示,在步骤s102中,主题特征的构建包括以下步骤:
s701、对训练样本中的标注样本进行挖掘得到主题模型;
s702、通过主题模型对所述训练样本的目标样本进行分类,得到主题特征。
具体的,文本包含的主题类别:不同的主题类别会极大地影响文本的可读性。基于前述语料库挖掘得到主题模型库,具体地,主题模型库中的不同主题反映了文本词汇在词汇表上不同的概率分布,当需要分级的文本与主题模型库中某些主题存在相近的词汇表上概率分布时既判定该文本包含对应的主题类别。
s103、将所述特征集输入svm模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。
如图8所示,在步骤s103中,进行训练包括以下步骤:
s801、根据所述特征集抽取所述训练文本的对应特征;
s802、根据所述标注样本中交叉标注的特征抽取所述训练文本中的对应特征;
s803、通过上述对应特征进行阅读难度等级的训练,得到所述训练结果。
根据上述构建的特征集和标注样本中交叉标注的特征抽取训练样本中的对应特征,以此训练分类器,使分类器学习上述特征,并且能够通过以上特征将训练文本按照难度等级分为不同的种类,使分类器(svm模型)具有难度等级分类的能力。
如图9所示,在步骤s103中,进行预测包括以下步骤:
s901、通过srm统计出所述待检测文本的小样本后,求得超平面将文本分类;
s902、根据所述文本分类结果预测得到所述阅读难度等级。
svm是用于分类的机器学习模型,其原理是根据统计理论的结构化风险最小误差(structuralriskminimization,srm)(vapnik&chervonekis),以srm找出整个训练模型的小样本(supportvectors)后,求得超平面(hyperplane)将文本分类。基于前述特征集抽取训练文本的对应特征和人工交叉标注的训练文本进行难度值训练,使用支持向量机模型进行预测,得到待检测文本的阅读难度等级。
上述技术方案中,本发明提供的一种基于机器学习的中文阅读难度分级方法,具有以下有益效果:
1)训练样本可以实时更新,从而充分考虑语言随时代变化的特征,如此可以更新汉字难度分级表和词频表;
2)引入语义、句子、篇章以及主题等其他特征,从而通过上述特征和句长、词长作为复杂度的指标,更为客观,且能够精确地反映其结构性质;
3)通过特征集以弥补少数浅层次局部的语言特征不足,从而可以反映真实的阅读理解过程,更为精确的进行阅读难度等级分类;
4)通过本方法使阅读难度分级技术适用于中文,符合中文的语言特点。
如图10所示,为本发明实施例提供的一种基于机器学习的中文阅读难度分级系统,包括:
文本获取单元10,获取训练文本和待检测文本;
构建单元20,根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;
训练预测单元30,将所述特征集输入svm模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。
上述技术方案中,本发明提供的一种基于机器学习的中文阅读难度分级系统,具有以下有益效果:
1)通过文本获取单元10可以实现实时更新,从而充分考虑语言随时代变化的特征,如此可以更新汉字难度分级表和词频表;
2)通过构建单元20和训练预测单元30的配合,引入语义、句子、篇章以及主题等其他特征,从而通过上述特征和句长、词长作为复杂度的指标,更为客观,且能够精确地反映其结构性质;
3)通过构建单元20和训练预测单元30的配合,实现特征集以弥补少数浅层次局部的语言特征不足,从而可以反映真实的阅读理解过程,更为精确的进行阅读难度等级分类;
4)通过各单元的配合,使阅读难度分级技术适用于中文,符合中文的语言特点。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。