一种用于简体中文可读性测度的线性模型方法与流程

文档序号:14296039阅读:540来源:国知局

本发明涉及可读性测度技术领域,具体涉及一种用于简体中文的可读性测度的线性模型方法。



背景技术:

语言复杂性(linguisticcomplexity)是多维度跨学科的学术概念,可以从自然语言处理、二语习得、心理语言学、认知学、和对比语言学等角度研究。语言复杂性的界定可以从两个方面展开:严格意义的语言复杂性,即语言结构复杂性研究,多用于跨语言比较研究和作文自动评分;相对意义的语言复杂性研究,例如可读性、语言难度、认知成本等,多用于服务于语言学习和文本理解的应用研究。本项目研究相对意义的语言复杂性,即文本的可读性或易读性(readability)。可读性指标的研究多集中于英语(gunning1969;fengetal.2010)、法语(todirascuetal.2016)、瑞典语(pilanetal.2016)、日语(sato2008)等语种的研究。可读性评价方法旨在发现影响文本阅读难度的语言特征,或者基于有效特征构建数学公式或者模型来表示文本的语言难度或者理解难度。

与其他语种相比,对于汉语文本的可读性研究相对较少,并且以繁体汉字和文本为研究数据。汉字是汉语的书写符号系统,是一种表意文字,与拼音文字差别巨大。yang(1970)是少数较早研究汉语可读性指标并较多被其他学者应用于特定领域的研究成果。yang定义了7因素和3因素两种可读性指标,包含的汉语特征包括:完整句比例、基础词汇比例、平均笔画数等。su和samuels(2010)从汉字构成的角度(如偏旁部首、字词结构等)研究不同汉字特征对于不同阶段汉语学习者的学习效果的影响。sungetal.(2015)构建了一个符合cefr(欧洲共同语言教学与评价参考框架)标准的中文可读性评价系统,用于自动判断汉语教学文本的语言难度等级。值得注意的是以上研究所采用的实验数据或研究对象均为繁体字或繁体汉语文本。少数国内学者针对汉语二语学习文本的可读性测定研究,从语言特征分析、变量计算、和公式草创等方面做出了有意义和有成效的探索(王蕾2005;杨金余2008;郭望皓2009;左虹&朱勇2014)。但仍然存在许多不足,例如研究数据的规模非常小(比如二三十篇文章或者几十个句子),针对性过强(比如面向个别语种的留学生),变量选择主观性较强(比如省略自动化学习的变量),实证检验不充分(比如缺乏拟合优度检验),各种测度公式之间在变量类别的具体设计方面也差异较大。与其他语种可读性研究的丰富性和系统性相比,基于较大规模简体字文本和计算语言学技术的中文可读性指标实证研究尚未全面系统地展开。



技术实现要素:

本发明的目的是为了解决现有技术中的上述缺陷,提供一种用于简体中文可读性测度的线性模型方法。

本发明的目的可以通过采取如下技术方案达到:

一种用于简体中文可读性测度的线性模型方法,所述的方法包括下列步骤:

s1、构建简体中文文本及其可读性级别语料库;

s2、对语料库文本进行预处理,包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、和/或笔画统计;

s3、提取并计算文本语言特征;

s4、依据语言特征和回归算法构建最佳特征组合;

s5、构建可读性测度的线性回归模型。

进一步地,所述的文本语言特征的特征类别包括:浅层特征、词性标注特征、语法特征和/或篇章特征,

其中,所述的浅层特征包括字的复杂度特征、词的复杂度特征、句子复杂度特征和/或文本长度特征,所述的字的复杂度特征包括:特征1.文档最常用字的占比、特征2.文档次常用字的占比、特征3.文档总常用字的占比、特征4.低笔画占比、特征5.中笔画占比、特征6.高笔画占比和/或特征7.平均笔画数;所述的词的复杂度特征包括:特征8.不去重时文档的词汇平均字数、特征9.去重时文档的词汇平均字数、特征10.文档的两字词语的个数、特征11.文档的两字词语在总词数的占比、特征12.文档的三字词语的个数、特征13.文档的三字词语在总词数的占比、特征14.文档的四字词语的个数、特征15.文档的四字词语在总词数的占比、特征16.文档的四字以上词语的个数和/或特征17.文档的四字以上词语在总词数的占比;所述的句子复杂度特征包括特征18.单句的平均多字词语的个数、特征19.单句的平均词数、特征20.仅针对汉字的单句的平均字数和/或特征21.针对所有字符的句子的平均字数;所述的文本长度特征包括特征包括:22.文档的汉字总字数和/或特征23.针对所有字符的文档的总字符数;

其中,所述的词性标注特征包括形容词特征、功能词特征、动词特征、名词特征、实词特征、习语/成语特征和/或副词特征,

所述的形容词特征包括特征24.文档的形容词在总词数的占比、特征25.文档的唯一的形容词在去重后总词数的占比、特征26.文档的唯一形容词个数、特征27.单句平均形容词个数和/或特征28.单句平均唯一形容词个数;

所述的功能词特征包括特征29.文档的功能词在总词数的占比、特征30.文档的唯一的功能词在去重后总词数的占比、特征31.文档的唯一功能词个数、特征32.文档的单句平均功能词个数和/或特征33、单句平均唯一功能词个数;

所述的动词特征包括特征34.文档的动词在总词数的占比、特征35.文档的唯一动词个数、特征36.文档的唯一动词在去重后总词数的占比、特征37.单句平均动词个数和/或特征38.单句平均唯一动词个数;

所述的名词特征包括特征39.文档的普通名词占比、特征40.文档的唯一普通名词个数、特征41.文档的唯一普通名词在去重后总词数的占比、特征42.单句平均普通名词个数、特征43.单句平均唯一普通名词个数、特征44.文档的所有名词在总词数的占比、特征45.文档的唯一所有名词个数、特征46.文档的唯一所有名词在去重后总词数的占比、特征47.单句平均所有名词个数和/或特征48.单句平均唯一所有名词个数;

所述的实词特征包括特征49.文档的实词在总词数的占比、特征50.文档的唯一实词个数、特征51.文档的唯一实词在去重后总词数的占比、特征52.单句平均实词个数和/或特征53.单句平均唯一实词个数;

所述的习语/成语特征包括特征54.文档的习语在总词数的占比、特征55.文档的唯一习语个数、特征56.文档的唯一习语在去重后总词数的占比、特征57.单句平均习语个数和/或特征58.单句平均唯一习语个数;

所述的副词特征包括特征59.文档的副词在总词数的占比、特征60.文档的唯一副词个数、特征61.文档的唯一副词在去重后总词数的占比、特征62.单句平均副词个数和/或特征63.单句平均唯一副词个数;

所述的语法特征包括词组特征、子句特征和/或完整句特征,

其中,所述的词组特征包括特征64.单句平均名词短语个数、特征65.单句平均动词短语个数、特征66.文档的名词短语总数、特征67.文档的动词短语总数、特征68.文档的介词短语总数、特征69.文档的名词短语的平均长度、特征70.文档的动词短语的平均长度和/或特征71.文档的介词短语的平均长度;

所述的子句特征包括特征72.文档的含有子句的句子的个数、特征73.文档的不含有子句的句子占句子总数的占比和/或特征74.文档的句子的平均子句个数;

所述的完整句特征包括特征75.文档完整句句子数和/或特征76.文档完整句平均句法树高度;

所述的篇章特征包括实体密度特征和/或篇章连贯性特征,

其中,所述的实体密度特征包括特征77.文档的实体词总数、特征78.文档的唯一实体词总数、特征79.文档的实体词在文档总词数的占比、特征80.文档的唯一实体词在文档总单词数量的占比、特征81.文档的单句平均实体词数量、特征82.文档的单句平均唯一实体词数量、特征83.文档的命名实体词在文档总词数的占比、特征84.文档的单句平均命名实体词数量、特征85.文档的命名实体词在文档总实体词的占比、特征86.文档的普通名词在总词数的占比、特征87.文档的非命名实体名词在总词数的占比、特征88.文档的单句平均普通名词数量、特征89.文档的单句非命名实体词的数量和/或特征90.文档的单句平均非实体词数量;

其中,所述的篇章连贯性特征包括特征91.文档的连词在总词数的占比、特征92.文档的唯一连词个数、特征93.文档的唯一连词在去重后总词数的占比、特征94.单句平均连词个数、特征95.单句平均唯一连词个数、特征96.文档的代词在总词数的占比、特征97.文档的唯一代词个数、特征98.文档的唯一代词在去重后总词数的占比、特征99.单句平均代词个数和/或特征100.单句平均唯一代词个数。

进一步地,所述的线性回归模型为基于18个显著特征的可读性测度线性回归模型或基于22个显著特征的可读性测度线性回归模型,具体如下:

(1)基于18个显著特征的可读性测度线性回归模型,如下:

y=-7.9291+1.2441x1+0.0408x2+1.7763x3+0.7466x4-29.5241x5+0.1073x6+3.7729x7

-0.5338x8-0.0677x9+36.4785x10+1.533x11-7.7032x12+6.2422x13

-5.9512x14-0.3011x15-0.3609x16+0.3473x17+1.4679x18

其中:

x1:文档的单句平均唯一实体词数量;

x2:文档的介词短语的平均长度;

x3:文档的不含有子句的句子占句子总数的占比;

x4:文档的句子的平均子句个数;

x5:文档的唯一的功能词在去重后总词数的占比;

x6:文档的唯一功能词个数;

x7:文档的唯一普通名词在去重后总词数的占比;

x8:单句平均唯一普通名词个数;

x9:文档的唯一连词个数;

x10:文档的唯一连词在去重后总词数的占比;

x11:单句平均连词个数;

x12:不去重时文档的词汇平均字数;

x13:去重时文档的词汇平均字数;

x14:文档的三字词语在总词数的占比;

x15:单句的平均多字词语的个数;

x16:句子的平均词数;

x17:句子的平均字数;

x18:文档的平均笔画数;

(2)基于22个显著特征的可读性测度线性回归模型,如下:

y=-8.9283+1.1216y1-0.0083y2+0.0531y3+1.6339y4+0.7545y5-2.0576y6-27.6036y7+0.0826y8+3.8044y9-0.5288y10-0.0672y11+37.7010y12+1.6960y13-7.2546y14+5.8566y15-6.1643y16-0.2996y17-0.3681y18+0.3550y19-0.0024y20+0.0023y21+1.611y22;

其中:

y1:文档的单句平均唯一实体词数量;

y2:文档平均句法树高度;

y3:文档的介词短语的平均长度;

y4:文档的不含有子句的句子占句子总数的占比;

y5:文档的句子的平均子句个数;

y6:文档的形容词在总词数的占比;

y7:文档的唯一的功能词在去重后总词数的占比;

y8:文档的唯一功能词个数;

y9:文档的唯一普通名词在去重后总词数的占比;

y10:单句平均唯一普通名词个数;

y11:文档的唯一连词个数;

y12:文档的唯一连词在去重后总词数的占比;

y13:单句平均连词个数;

y14:不去重时文档的词汇平均字数;

y15:去重时文档的词汇平均字数;

y16:文档的三字词语在总词数的占比;

y17:单句的平均多词词语的个数;

y18:句子的平均词数;

y19:句子的平均字数;

y20:文档的汉字总字数;

y21:针对所有字符的文档的总字符数;

y22:平均笔画数。

进一步地,所述的特征4、特征5、特征6中的低笔画、中笔画、高笔画定义如下:

低笔画字为笔画数在1到5之间的字;中笔画字为笔画数在6到15之间的字;高笔画字为笔画数在16以上的字;

所述的特征18中的多字词语是指:两个及两个以上字组成的词语。

进一步地,所述的特征29、特征30、特征31、特征32、特征33中的功能词是指:除了实词之外的其他词,即:连词、感叹词、前缀、象声词、后缀、助动词、非词素;

所述的特征39、特征40、特征41、特征42、特征43、特征86、特征88中的普通名词是指:词性标注为名词的词;

所述的特征44、特征45、特征46、特征47、特征48定义中的所有名词是指:普通名词、机构名、地理名、位置名词、方位名词、时间名词、人名、专有名词;

所述的特征49、特征50、特征51、特征52、特征53定义中的实词是指:名词、动词、数词、形容词、副词、习语/成语、缩略语、量词、代词、区别词、状态词、外来词、词素。

进一步地,所述的特征72、特征73、特征74中的子句是指:取消了独立性的单句、或者分句、或者小句;

所述的特征75、特征76中的完整句是指:主谓结构或非主谓结构的单句,以及复句。

进一步地,所述的特征77、特征78、特征79、特征80、特征81、特征82、特征83定义中的实体词是指:机构名、地理名、人名、时间名词、专有名词;

所述的特征83、特征84、特征85中的命名实体词是指:机构名、地理名、人名;

所述的特征87、特征89中的非命名实体词是指:普通名词、时间名词、专有名词、位置名词、方位名词;

所述的特征90中的非实体词是指:普通名词、位置名词、方位名词。

本发明相对于现有技术具有如下的优点及效果:

1)该预测模型涵盖了浅层特征、词性标注特征(亦称为词法或者语义特征)、语法特征、和篇章特征。

2)该预测模型采用来自于被广泛使用的三个出版社的(人民教育出版社、江苏教育出版社、北京师范大学出版社),涵盖小学、初中、高中共十个年级的义务教育简体汉语课本文本作为训练数据。语料标准并具有权威性。可读性等级具有规范性并被广泛使用。可读性等级分为10级,覆盖面广。是已知首个基于简体汉语文本构建的可读性测度模型。

3)该预测模型拟合度高,简便易行,有较强的可解释性。

4)该预测模型对于评测应用文本的可读性具有较好的可扩展性,适应性,以及重要的指导意义和参考价值。

附图说明

图1是本发明中公开的一种用于简体中文可读性测度的线性模型方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

如附图1所示,本实施例公开了一种用于简体中文可读性测度的线性模型方法。包括下列步骤:

s1、构建简体中文文本及其可读性级别语料库;

s2、对语料库文本进行预处理,包括分词、分句、词性标注、命名实体识别、成分句法分析、依存句法分析、子句标注、和/或笔画统计;

s3、提取并计算文本语言特征;

s4、依据语言特征和回归算法构建最佳特征组合;

s5、构建可读性测度的线性回归模型。

其中,文本语言特征具体如下表:

表1.文本语言特征表

上表中,特征4、5、6定义中的低笔画、中笔画、高笔画具体如下:

低笔画字为笔画数在1到5之间的字;中笔画字为笔画数在6到15之间的字;高笔画字为笔画数在16以上的字。

特征18定义中的多词词语是指:两个及两个以上字组成的词语。

特征29、30、31、32、33定义中的功能词是指:除了实词之外的其他词,即:连词、感叹词、前缀、象声词、后缀、助动词、非词素,等。

特征39、40、41、42、43、86、88定义中的普通名词是指:词性标注为名词的词。

特征44、45、46、47、48定义中的所有名词是指:普通名词、机构名、地理名、位置名词、方位名词、时间名词、人名、专有名词。

特征49、50、51、52、53定义中的实词是指:名词、动词、数词、形容词、副词、习语/成语、缩略语、量词、代词、区别词、状态词、外来词、词素。

特征72、73、74定义中的子句是指:取消了独立性的单句、或者分句、或者小句。

特征75、76定义中的完整句是指:主谓结构或非主谓结构的单句,以及复句。

特征77、78、79、80、81、82、83定义中的实体词是指:机构名、地理名、人名、时间名词、专有名词。

特征83、84、85定义中的命名实体词是指:机构名、地理名、人名。

特征87、89定义中的非命名实体词是指:普通名词、时间名词、专有名词、位置名词、方位名词。

特征90定义中的非实体词是指:普通名词、位置名词、方位名词。

其中,所述的线性回归模型为基于18个显著特征的可读性测度线性回归模型或基于22个显著特征的可读性测度线性回归模型,具体如下:

(1)基于18个显著特征的可读性测度线性回归模型如下:

y=-7.9291+1.2441x1+0.0408x2+1.7763x3+0.7466x4-29.5241x5+0.1073x6+3.7729x7

-0.5338x8-0.0677x9+36.4785x10+1.533x11-7.7032x12+6.2422x13

-5.9512x14-0.3011x15-0.3609x16+0.3473x17+1.4679x18

其中:

x1:文档的单句平均唯一实体词数量;

x2:文档的介词短语的平均长度;

x3:文档的不含有子句的句子占句子总数的占比;

x4:文档的句子的平均子句个数;

x5:文档的唯一的功能词在去重后总词数的占比;

x6:文档的唯一功能词个数;

x7:文档的唯一普通名词在去重后总词数的占比;

x8:单句平均唯一普通名词个数;

x9:文档的唯一连词个数;

x10:文档的唯一连词在去重后总词数的占比;

x11:单句平均连词个数;

x12:文档的词汇平均字数(不去重);

x13:文档的词汇平均字数(去重);

x14:文档的三字词语在总词数的占比;

x15:单句的平均多字词语的个数;

x16:句子的平均词数;

x17:句子的平均字数;

x18:文档的平均笔画数。

(2)基于22个显著特征的可读性测度线性回归模型,如下:

y=-8.9283+1.1216y1-0.0083y2+0.0531y3+1.6339y4+0.7545y5-2.0576y6-27.6036y7+0.0826y8+3.8044y9-0.5288y10-0.0672y11+37.7010y12+1.6960y13-7.2546y14+5.8566y15-6.1643y16-0.2996y17-0.3681y18+0.3550y19-0.0024y20+0.0023y21+1.611y22;

其中:

y1:文档的单句平均唯一实体词数量;

y2:文档平均句法树高度;

y3:文档的介词短语的平均长度;

y4:文档的不含有子句的句子占句子总数的占比;

y5:文档的句子的平均子句个数;

y6:文档的形容词在总词数的占比;

y7:文档的唯一的功能词在去重后总词数的占比;

y8:文档的唯一功能词个数;

y9:文档的唯一普通名词在去重后总词数的占比;

y10:单句平均唯一普通名词个数;

y11:文档的唯一连词个数;

y12:文档的唯一连词在去重后总词数的占比;

y13:单句平均连词个数;

y14:不去重时文档的词汇平均字数;

y15:去重时文档的词汇平均字数;

y16:文档的三字词语在总词数的占比;

y17:单句的平均多词词语的个数;

y18:句子的平均词数;

y19:句子的平均字数;

y20:文档的汉字总字数;

y21:针对所有字符的文档的总字符数;

y22:平均笔画数。

综上所述,该预测模型涵盖了浅层特征、词性标注特征(亦称为词法或者语义特征)、语法特征、和篇章特征,并采用来自于被广泛使用的三个出版社的(人民教育出版社、江苏教育出版社、北京师范大学出版社),涵盖小学、初中、高中共十个年级的义务教育简体汉语课本文本作为训练数据,语料标准并具有权威性。可读性等级具有规范性并被广泛使用。可读性等级分为10级,覆盖面广,是已知首个基于简体汉语文本构建的可读性测度模型。该预测模型拟合度高,简便易行,有较强的可解释性,并且该预测模型对于评测应用文本的可读性具有较好的可扩展性,适应性,以及重要的指导意义和参考价值。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1