一种评估文本难度的方法

文档序号:9349927阅读:790来源:国知局
一种评估文本难度的方法
【技术领域】
[0001] 本发明涉及文本难度分析技术领域,具体地,涉及一种评估文本难度的方法。
【背景技术】
[0002] 随着在线教育的兴起,通过诸如平板电脑、手机等电子化平台进行文字阅读的应 用逐渐普及,其中的分级阅读应用也逐渐市场化。所述分级阅读应用是指在阅读之前,先 通过一种评估算法对待阅读文本进行难度评估,然后根据难度评估值进行分级处理,将待 阅读文本推荐给阅读能力与其文本难度评估值匹配的阅读人群,例如根据阅读文本的难度 评估值向不同年级的学生推荐适合的阅读书籍,从而有助于学生阅读能力或考试成绩的提 尚。
[0003] 目前所采用的文本难度评估算法主要存在如下问题:(1)现有评估算法结构复 杂,包含了语法分析和语义分析,甚至还有句子之间的逻辑分析,难以通过计算机技术实 现;(2)现有评估算法的应用对象多为外文文本,由于中文与外文的文化差异性,其对中文 文本的评估结果具有一定的误差。
[0004] 针对目前文本难度评估算法的问题,有必要设计一种新的文本难度评估方法,可 结合统计学原理和中文实际难度特点对阅读文本进行难度评估,从而可简化评估算法结 构,利于计算机实现,快速得到难度评估结果,同时还可确保评估结果的准确度,进而提升 用户体验和实用性。

【发明内容】

[0005] 针对前述文本难度评估算法的问题,本发明提供了一种评估文本难度的方法,可 结合统计学原理和中文实际难度特点对阅读文本进行难度评估,从而可简化评估算法结 构,利于计算机实现,快速得到难度评估结果,还可确保评估结果的准确度,进而提升用户 体验和实用性。
[0006] 本发明采用的技术方案,提供了一种评估文本难度的方法,包括如下步骤:SlOL 读取待测评内容;S102.通过数学统计的方式获取所述待测评内容的文字难度系数、词语 难度系数、句子难度系数和段落难度系数中的任意一种或它们的任意组合;S103.将获取 的、唯一维度的所述难度系数作为所述待测评内容的文本难度评估值,或者将获取的、多维 度的所述难度系数的算术平均结果作为所述待测评内容的文本难度评估值。根据中文的实 际难度特点,待测评内容的文本难度可以但不限于从文字、词语、句子和段落等维度中任意 一种或它们的任意组合去评估,同时在所述评估方法中,通过数学统计方式获取各个维度 的所述难度系数以及对多个维度的所述难度系数进行综合考量,可简化算法结构,利于计 算机实现,从而使所述评估文本难度的方法具有准确度高、易于实现和计算量小的特点,能 够在适于评估中文文本的基础上,快速得到难度评估结果,进而提升用户体验和实用性。
[0007] 具体的,在所述通过数学统计的方式获取所述待测评内容的文字难度系数的步骤 中还包括如下步骤:S201.获取所述待测评内容中出现的各个文字;S202.统计各个文字在 所述待测评内容中的出现频率;S203.查找各个文字在文字难度等级表中对应的文字难度 等级;S204.按照如下公式计算所述待测评内容的文字难度系数ZD :
式中,n为所述待测评内容中不同文字的个数,ZX1为第i个文字在所述文字难度等级 表中对应的文字难度等级,ZR1为第i个文字在所述待测评内容中的出现频率。所述文字难 度等级表包括各个文字和基于中文实际难度特点得到的、对应的文字难度等级,因此根据 步骤S201至S204所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在文字 维度上的文字难度系数ZD。
[0008] 进一步具体的,所述文字难度等级表的建立过程包括如下步骤:S601.选取M种版 本的N个学习阶段的教材;S602.按照如下方式确定各个文字在第X种版本教材中的文字 难度等级ZX xJ^于在第Y个学习阶段的教材中首次出现的文字,按照如下公式确定对应的 文字难度等级ZXx: ZXx= (Y-I)* (ZX Max-ZXMin)/N+ZXMin 式中,ZXMax为最高文字难度等级,ZXMin为最低文字难度等级;对于未在所有学习阶段的 教材中出现的文字,按照如下公式确定对应的文字难度等级ZXx: ZXx = ZX Max 式中,ZXMax为最高文字难度等级,ZXMin为最低文字难度等级;S603.针对每个文字,对 多版本的所述文字难度等级进行算术平均计算,得到各个文字的平均文字难度等级;S604. 将各个文字及对应的平均文字难度等级记录在所述文字难度等级表中。前述建立所述文字 难度等级表的步骤提供了一种量化文字难度的标准化机制,可进一步利于计算机实现,同 时由于各个学习阶段的教材是根据中文实际难度特点和学生的阅读能力而特别编辑的,因 此依托目前使用的各个版本、各个学习阶段的教材,确定的文字难度等级表具有准确度高 的特点,利于后续得到高准确度的文字难度系数。
[0009] 具体的,在所述通过数学统计的方式获取所述待测评内容的词语难度系数的步骤 中还包括如下步骤:S301.获取所述待测评内容中出现的各个词语;S302.统计各个词语在 所述待测评内容中的出现频率;S303.查找各个词语在词语难度等级表中对应的词语难度 等级;S304.按照如下公式计算所述待测评内容的词语难度系数CD :
式中,m为所述待测评内容中不同词语的个数,CX1为第i个词语在所述词语难度等级 表中对应的词语难度等级,CR1为第i个词语在所述待测评内容中的出现频率。所述词语难 度等级表包括各个词语和基于中文实际难度特点得到的、对应的词语难度等级,因此根据 步骤S301至S304所描述的数学统计方式,可得到针对中文文本具有高准确度的、且在词语 维度上的词语难度系数⑶。
[0010] 进一步具体的,所述词语难度等级表的建立过程包括如下步骤:S701.从互联网 中随机抓取词汇量不少于第二数值的第一文字内容,所述第二数值不小于1亿;S702.获取 在所述第一文字内容中出现的各个词语;S703.统计各个词语在所述第一文字内容中的出 现频率;S704.按照如下方式确定各个词语的词语难度等级:
式中,CX1为第i个词语的词语难度等级,CX Max为最高词语难度等级,CX Min为最低词语 难度等级,R1为第i个词语在所述第一文字内容中的出现频率;S705.将各个词语及对应的 词语难度等级记录在所述词语难度等级表中。前述建立所述词语难度等级表的步骤提供了 一种量化词语难度的标准化机制,可进一步利于计算机实现,同时由于针对词语的中文实 际难度特点是在日常使用过程中,词语出现的频率越高,相应的词语难度越低,因此根据步 骤S701至S705所描述的方法,确定的词语难度等级表具有准确度高的特点,利于后续得到 高准确度的词语难度系数。
[0011] 具体的,在所述通过数学统计的方式获取所述待测评内容的句子难度系数的步骤 中还包括如下步骤:S401.获取所述待测评内容中出现的各个句子;S402.以词汇量为度量 标尺确定各个句子的句子长度;S403.根据句子长度查找各个句子在句子难度等级表中对 应的句子难度等级;S404.按照如下公式计算所述待测评内容的句子难度系数SD :
式中,k为所述待测评内容中句子的总数,SX1为第i个句子根据句子长度在所述句子 难度等级表中对应的句子难度等级;或者,当所述句子为分句时,按照如下公式计算所述待 测评内容的句子难度系数SD :
式中,q为所述待测评内容中复句的总数,P为第j个复句中分句的总数,SXl j为第j个 复句中第i个分句根据句子长度在所述句子难度等级表中对应的句子难度等级。所述句子 难度等级表包括具有各种句子长度的句子和基于中文实际难度特点得到的、对应的句子难 度等级,因此根据步骤S401至S404所描述的数学统计方式,可得到针对中文文本具有高准 确度的、且在句子维度上的句子难度系数SD。
[0012] 进一步具体的,所述句子难度等级表的建立过程包括如下步骤:S801.从互联网 中随机抓取词汇量不少于第三数值的第二文字内容,所述第二数值不小于1亿;S802.获取 在所述第二文字内容中出现的各个句子;S803
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1