中文文本可读性计量系统及其方法

文档序号：6364583阅读：3621来源：国知局

专利名称：中文文本可读性计量系统及其方法
技术领域：
本发明涉及一种中文文本分析系统及其方法，尤其涉及一种提供中文文本可读性分析与评价的可读性计量系统及其方法。
背景技术：
近年来随着学习汉语的人数提高，使得汉语学习事业蓬勃发展，加上网络信息的快速成长，学习范围并不局限于学校老师，学习者也可通过网络数据、书本、文章等自我学习，无论如何，良好教材与读本是学好汉语的必要条件。对于教学者与学习者而言，良好的教材与读本有助于提升教学效能，也可提升学习成效，因而其可读性高低十分重要。可读性(readability)是指阅读材料能够被读者理解的程度(Dale & Chall，1949 ;Klare，1963,2000 ;McLaughlin，1969)，可读性较高的文本具备某些特征，例如内文中有较容易阅读的字词汇(常见字、复杂度低、非技术性、意义清楚)；句子中包含较少代名词与复合词或结构简单；内容符合读者的先备知识，呈现方式适当地重述先前段落；提供相关知识；以及降低无关的干扰信息等(Klare，1963，2000 ；vanden Broek & Kremer, 2000)。由上可知,可读性高的文本属于容易被读者理解的文章,例如采用具体且生活化的词汇，或选择使用较短、复杂度较低的句子，以减少读者的认知负荷。因此，若能针对文本可读性的进行判断与分析，即可提供读者适当的学习教材。欧美研究学者已建置有成熟的线上文本分析系统(Coh-Metrix)，可客观且量化分析文本特性，但其应用于拼音文字，然而中文与拼音文字为两种迥异的文字系统，因而无法直接适用，此外，对于中文文本分析研究上，先前虽有国内学者发展一系列中文适读性公式，但年代已久已不符现代文本使用。综上所述，目前中文可读性研究中仍有下列限制有待突破:(1)亟待发展符合中文特性与现代语言脉络的可读性指针；(2)因过去可读性公式仅选择少数、表浅的语言特征，不够周延，亟待建立包含更多且较为完整的可读性指针；(3)亟待发展具有效度的可读性数学模型。因此，如何能提供学习者或教育者具有更佳效度的可读性数学模型来进行文本可读性分析，此仍属本领域的技术人员所应努力的目标。

发明内容
鉴于上述现有技术的缺点，本发明的目的在于提出一种中文文本可读性计量系统及其方法，通过断词(segment)、可读性指针分析并建立可读性数学模型，以产生可读性分析结果。为达成前述目的及其它目的，本发明提供一种中文文本可读性计量系统，应用于数据处理设备中，并通过该数据处理设备予以执行，该中文文本可读性计量系统包括:断词模块、可读性指针分析模块及智能型计算模块。断词模块应用于文本数据的断词处理，用以将该文本数据与一语料库进行比对以借由该文本数据产生多个断词，且产生对应所述多个断词的词性设定；可读性指针分析模块依据该文本数据中预定的可读性指针，对所述多个断词及所述多个词性设定进行分析，以通过计算得到所述多个可读性指针的指针数值；而智能型计算模块包括一预定的可读性数学模型，用以将所述多个指针数值输入该可读性数学模型以产生分析结果。于一实施例中，该词性设定的内容包括该断词的词性标记、以及该断词模块对应所述多个断词所产生的断词信息与词性标记信息；而该可读性指针由词汇特征、语意特征、语法特征或篇章凝聚性特征的至少一个所组成。于另一实施例中，该可读性数学模型为一般线性或非线性。此外，该非线性的可读性数学模型由支持向量机(support vector machine, SVM)或如人工神经网络(artificialneural network, ANN)等多种人工智能分类器整合而成。另外，本发明还提出一种中文文本可读性计量分析方法，其应用于数据处理装置中，并通过该数据处理装置予以执行，该中文文本可读性计量分析方法包括以下步骤:1)将文本数据与一语料库进行比对以借由该文本数据得到多个断词；2)对所述多个断词进行词性设定；3)将所述多个断词付与词性设定，并对应至预定的可读性指针，以通过计算产生该文本数据中所述多个可读性指针的指针数值；以及4)利用一可读性数学模型，整合所述多个指针数值得到该文本数据可读性的分析结果。本发明的有益效果在于，相较于现有技术，本发明所述的中文文本可读性计量系统及其方法，通过先对中文文本进行断词分析及词性设定，接着依据预设的可读性指针，计算出由该中文文本所产生的多个断词的指针数据，最后，套入智能型计算模块以求得可读性结果，本发明利用符合中文特性及现代语言的断词及可读性指针，借此提供更佳可读性判断机制。因此，通过中文可读性自动分析计量，对于文本可读性研究有相当助益，不仅可提供读者适性文本的服务，同时也可协助研究者或教学者客观且科学化的文本研究及教材发展。

图1为本发明的中文文本可读性计量系统的架构图；图2为本发明的断词模块对于文本数据的处理示意图；图3为本发明通过支持向量机(SVM)利用核心函数将非线性数据转换成特征空间的不意图；图4用于说明通过以支持向量机所建立的数学模型进行文本分类的程序示意图；以及图5为本发明的中文文本可读性计量分析方法的步骤流程图。其中，附图标记说明如下:I中文文本可读性计量系统10断词模块11可读性指针分析模块12智能型计算模块13语料库20断词功能函数21词性标记功能函数
22断词信息功能函数23词性标记信息功能函数100文本数据200分析结果S501 S504 步骤。
具体实施例方式以下借由特定的具体实施例说明本发明的技术内容，熟悉此技艺的人士可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明也可借由其它不同的具体实施例加以施行或应用。请参阅图1，其为本发明的中文文本可读性计量系统的系统架构图。如图所示，该中文文本可读性计量系统I提供对文本数据100的断词处理及可读性分析，其包括:断词模块10、可读性指针分析模块11以及智能型计算模块12。于此须说明的是，前述中文文本可读性计量系统I应用于至少包括处理器、内存、存储单元与操作系统的数据处理设备中，并通过该数据处理设备予以执行，以提供中文文本可读性的分析判断，故并无局限中文文本可读性计量系统I所处理的中文文本来源，可以来自书本、网络等电子档案文件，且该数据处理设备也不限制形式，如计算机、服务器、云端服务器等皆可。断词模块10应用于文本数据100的断词处理，用以将该文本数据100与一语料库13进行比对以借由该文本数据100产生多个断词，且产生对应所述多个断词的词性设定。具体来说，断词模块10提供文本数据100的断词处理，借由将一篇或一段完整的中文内容进行断词并给予标记，以供后续对该文本数据100的分析。换言之，断词(wordsegmentation)对于文本分析是十分重要的，若断词不正确时，将导致后续词性标记错误，使得最后语意解读偏离原意。此外，前述的语料库包括:中央研究院的中文词库、汉语平衡语料库或者是中文句结构树数据库等。待断词完成后将产生多个断词，接着该断词模块10对所述多个断词提供对应的词性设定，详言之，该词性设定的内容可包括对所述多个断词的词性标记，以及该断词模块对应所述多个断词所产生记载所述多个断词及所述词性标记的信息，也就是说，该断词模块10具有断词、词性标记、产生断词信息及词性标记信息等功能，如图2所示，其为本发明的断词模块对于文本数据的处理示意图，请搭配图1观看，文本数据100经断词功能函数20处理后，将会产生许多断词数据，而所述断词数据再通过词性标记功能函数21、断词信息功能函数22或词性标记信息功能函数23等处理，以完成断词及词性标记等程序。可读性指针分析模块11依据该文本数据中预定的可读性指针，对所述多个断词及所述词性设定进行分析，以通过计算得到所述可读性指针的指针数值。如前所述，断词模块10所产生的所述多个断词及所述词性设定，将以预先设定的可读性指针进行分析，经计算后得到所述可读性指针的指针数值，其中，可读性指针是由词汇特征、语意特征、语法特征或篇章凝聚性特征等的至少一个所组成，该可读性指针即是文本数据100中的词、句子、难词、代名词、连接词、否定词等各种可表征文本可读性的特征。于具体实施中，前述的可读性指针大致可划分五类:(1)如词汇数量:字数、词数、段落数等的文章基本描述特征；(2)如词汇丰富性、词汇频率、词汇长度等词汇类特征；(3)如语意与潜在语意等语意类特征；(4)如句平均词数、单句数比率等句法类特征；以及(5)如指称词、连接词等篇章凝聚性特征。在本实施例中，目前已经发展65个指针，于此依据前述五种特征具体分类指针，也就是中文文本可读性计量系统I提供词汇类指针、语意类指针、句法类指针、文章凝聚性指针以及文章基本描述等五类指针判断，且每一类个别指针均为篇章理解的重要成分，整体指针提供更为精确与周延的可读性概念，共同表征文章的可读程度，以供作为文章可读性的判断依据，下面表I用于说明目前已开发的各种指针的分类及其概念定义:表1、各种指针其分类及概念定义
权利要求
1.一种中文文本可读性计量系统，其应用于数据处理设备中，并通过该数据处理设备予以执行，该中文文本可读性计量系统包括: 断词模块，其应用于文本数据的断词处理，用以将该文本数据与一语料库进行比对以借由该文本数据产生多个断词，且产生对应所述多个断词的词性设定；可读性指针分析模块，其依据该文本数据中预定的可读性指针，对所述多个断词及所述词性设定进行分析，以通过计算得到所述可读性指针的指针数值；以及智能型计算模块，其包括一预定的可读性数学模型，用以将所述指针数值输入该可读性数学模型以产生分析结果。
2.根据权利要求1所述的中文文本可读性计量系统，其特征在于，该词性设定的内容包括该断词的词性标记、以及该断词模块对应所述多个断词所产生的断词信息与词性标记信息。
3.根据权利要求1所述的中文文本可读性计量系统，其特征在于，该可读性数学模型为线性或非线性。
4.根据权利要求3所述的中文文本可读性计量系统，其特征在于，该非线性的可读性数学模型是由人工智能分类器整合而成。
5.根据权利要求4所述的中文文本可读性计量系统，其特征在于，该人工智能分类器包括支持向量机、人工神经网络网络、决策树、贝氏网络或基因归划法的任一个。
6.根据权利要求1所述的中文文本可读性计量系统，其特征在于，该可读性指针由词汇特征、语意特征、语法特征或篇章凝聚性特征的至少一个所组成。
7.一种中文文本可读性计量方法，其应用于数据处理装置中，并通过该数据处理装置予以执行，该中文文本可读性计量分析方法包括以下步骤: 1)将文本数据与一语料库进行比对以借由该文本数据得到多个断词； 2)对所述多个断词进行词性设定； 3)将所述多个断词及所述词性设定对应至预定的可读性指针，以通过计算产生该文本数据中所述可读性指针的指针数值；以及 4)利用一可读性数学模型，以由所述指针数值得到该文本数据可读性的分析结果。
8.根据权利要求7所述的中文文本可读性计量方法，其特征在于，该步骤2)所述的词性设定为对所述多个断词给予词性标记、以及产生对应所述多个断词的断词信息及词性标记信息。
9.根据权利要求7所述的中文文本可读性计量方法，其特征在于，该可读性数学模型为一般线性或非线性。
10.根据权利要求9所述的中文文本可读性计量方法，其特征在于，该非线性的可读性数学模型由支持向量机、人工神经网络网络、决策树、贝氏网络或基因归划法的任一个的人工智能分类器整合而成。
全文摘要
本发明公开了一种中文文本可读性计量系统及其方法，该中文文本可读性计量系统用于提供文本数据可读性的分析与评价，首先，令断词模块先进行文本数据的断词处理，将文本数据与一语料库比对以自该文本数据得到多个断词并给予所述多个断词对应的词性设定，接着，由可读性指针分析模块依据预定的可读性指针对所述多个断词及所述词性设定进行分析，以得到该文本数据中所述可读性指针的指针数值，最后，将所述指针数值输入智能型计算模块内的可读性数学模型以产生可读性分析结果。据此，本发明的中文文本可读性计量系统通过断词及指针分析搭配一可读性数学模型来评估中文文本的可读性，不仅符合现行中文特性及语言，也可提供读者适性中文文本。
文档编号G06F17/27GK103207854SQ20121003088
公开日2013年7月17日申请日期2012年2月6日优先权日2012年1月11日
发明者宋曜廷, 陈茹玲申请人:宋曜廷

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋曜廷;陈茹玲
技术所有人：宋曜廷
我是此专利的发明人

上一篇：一种基于聚类算法的图像边缘拟合b样条生成方法
上一篇：一种通用的可按自定义规则编码的物料编码方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。