基于人类概念学习的文本理解复杂度的度量方法

文档序号：6655062阅读：373来源：国知局

专利名称：基于人类概念学习的文本理解复杂度的度量方法
技术领域：
本发明涉及一种基于人类概念学习的文本理解复杂度的度量方法，更为具体的说，涉及一种依据人类概念学习的过程来计算文本中的词被人所理解的难易程度以及词之间逻辑关系被理解的难易程度，并以此来度量文本理解复杂度的方法。
背景技术：
人类学习概念的过程与理解文本的过程非常相似，都离不开对词以及词和词之间逻辑关系的理解。传统的文本理解复杂度度量方法往往局限于对文本进行简单的语法分析和语义分析，而没有从机器理解的角度对文本进行分析，或者仅仅对文本中的句子进行简单的逻辑分析，而并未对文本中的词或者词之间的逻辑关系进行定量的分析。本发明从人类概念学习的角度出发，通过分析词以及词之间逻辑关系对文本的理解复杂度进行度量，从而为基于机器的文本理解提供技术支持。

发明内容
本发明的目的在于针对目前在机器理解文本过程中存在的不足，提供一种基于人类概念学习的文本理解复杂度的度量方法。其本质为将文本的理解过程抽象为人类概念学习的过程，通过对概念中属性(关键词)以及属性间关系(关联规则)的算术运算来度量文本的理解复杂度，从而为基于机器的文本理解提供技术支持。为实现上述目的，本发明的构思是首先提取文本中能够表达该篇文本的关键词 (名词和名词短语)，再根据每个关键词在文本中出现的频数确定文本断言，文本断言即文本中具有常识性知识的关键词；然后根据经典的关联规则挖掘方法提取文本中的关联规则；再依据人类概念代数复杂度的计算方法，计算该文本的理解复杂度。根据上述的发明构思，本发明采用下述技术方案
(1)利用词性标注工具，对文本中的词进行词性标注，提取关键词，即保留文本中的名词和名词短语；
(2)计算文本中关键词出现的频数，按照频数从大到小排序，将排名靠前的关键词作为文本断言；
(3)用Apriori关联规则挖掘算法提取文本中的关联规则；
(4)根据上述步骤得到的文本断言和关联规则，依照人类概念代数复杂度的计算方法，计算文本的理解复杂度。上述步骤中所述的人类概念代数复杂度(记作 Ir表示文本τ的人类概念代数复杂度)的计算方法如下
权利要求
1.一种基于人类概念学习的文本理解复杂度的度量方法，其特征在于操作步骤如下(1)利用词性标注工具，对文本中的词进行词性标注，提取关键词，即保留文本中的名词和名词短语；(2)计算文本中关键词出现的频数，按照频数从大到小排序，将排名靠前的关键词作为文本断言；(3)用Apriori关联规则挖掘算法提取文本中的关联规则；(4)根据上述步骤得到的文本断言和关联规则，依照人类概念代数复杂度的计算方法，计算文本的理解复杂度。
2.根据权利要求1所述的基于人类概念学习的文本理解复杂度的度量方法，其特征在于步骤O)中的文本断言为出现频数较高的关键词，这些关键词能够普遍地被人们所理解，属于常识性知识范畴，其理解复杂度较低；根据人类概念学习的过程，文本断言数不超过九个。
3.根据权利要求2所述的基于人类概念学习的文本理解复杂度的度量方法，其特征在于步骤(3)中的关联规则挖掘是根据人类概念学习过程的经验总结，提取置信度至少大于 0. 5的关联规则，这类关联规则能够充分地表达文本中所表达的知识。
4.根据权利要求3所述的基于人类概念学习的文本理解复杂度的度量方法，其特征在于步骤(4)中人类概念代数复杂度的计算，其计算方法为
全文摘要
本发明涉及一种基于人类概念学习的文本理解复杂度的度量方法。它先保留文本中的名词和名词短语，作为文本的关键词集合，然后将出现次数多的关键词作为文本断言，再挖掘文本中的关联规则，最后根据人类概念学习过程计算文本理解的复杂度。本发明其本质为将文本的理解过程抽象为人类概念学习的过程，通过对概念中属性(关键词)以及属性间关系(关联规则)的算术运算来度量文本的理解复杂度。本发明从人类概念学习的角度出发，通过分析词以及词之间逻辑关系对文本的理解复杂度进行度量，从而为基于机器的文本理解提供技术支持。
文档编号G06F17/30GK102136006SQ20111007714
公开日2011年7月27日申请日期2011年3月30日优先权日2011年3月30日
发明者张俊, 张顺香, 胡庆亮, 蔡传亮, 骆祥峰申请人:上海大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张俊;骆祥峰;蔡传亮;张顺香;胡庆亮
技术所有人：上海大学
我是此专利的发明人

上一篇：列车车厢拥挤程度检测的方法以及人流导引系统的制作方法
上一篇：工作流系统中业务的获取方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。