基于人类概念学习的文本理解复杂度的度量方法

文档序号:6655062阅读:373来源:国知局
专利名称:基于人类概念学习的文本理解复杂度的度量方法
技术领域
本发明涉及一种基于人类概念学习的文本理解复杂度的度量方法,更为具体的 说,涉及一种依据人类概念学习的过程来计算文本中的词被人所理解的难易程度以及词之 间逻辑关系被理解的难易程度,并以此来度量文本理解复杂度的方法。
背景技术
人类学习概念的过程与理解文本的过程非常相似,都离不开对词以及词和词之间 逻辑关系的理解。传统的文本理解复杂度度量方法往往局限于对文本进行简单的语法分析 和语义分析,而没有从机器理解的角度对文本进行分析,或者仅仅对文本中的句子进行简 单的逻辑分析,而并未对文本中的词或者词之间的逻辑关系进行定量的分析。本发明从人 类概念学习的角度出发,通过分析词以及词之间逻辑关系对文本的理解复杂度进行度量, 从而为基于机器的文本理解提供技术支持。

发明内容
本发明的目的在于针对目前在机器理解文本过程中存在的不足,提供一种基于人 类概念学习的文本理解复杂度的度量方法。其本质为将文本的理解过程抽象为人类概念学 习的过程,通过对概念中属性(关键词)以及属性间关系(关联规则)的算术运算来度量文本 的理解复杂度,从而为基于机器的文本理解提供技术支持。为实现上述目的,本发明的构思是首先提取文本中能够表达该篇文本的关键词 (名词和名词短语),再根据每个关键词在文本中出现的频数确定文本断言,文本断言即文 本中具有常识性知识的关键词;然后根据经典的关联规则挖掘方法提取文本中的关联规 则;再依据人类概念代数复杂度的计算方法,计算该文本的理解复杂度。根据上述的发明构思,本发明采用下述技术方案
(1)利用词性标注工具,对文本中的词进行词性标注,提取关键词,即保留文本中的 名词和名词短语;
(2)计算文本中关键词出现的频数,按照频数从大到小排序,将排名靠前的关键词作 为文本断言;
(3)用Apriori关联规则挖掘算法提取文本中的关联规则;
(4)根据上述步骤得到的文本断言和关联规则,依照人类概念代数复杂度的计算方 法,计算文本的理解复杂度。上述步骤中所述的人类概念代数复杂度(记作 Ir表示文本τ的人类概念代数复杂度)的计算方法如下
权利要求
1.一种基于人类概念学习的文本理解复杂度的度量方法,其特征在于操作步骤如下(1)利用词性标注工具,对文本中的词进行词性标注,提取关键词,即保留文本中的名 词和名词短语;(2)计算文本中关键词出现的频数,按照频数从大到小排序,将排名靠前的关键词作为 文本断言;(3)用Apriori关联规则挖掘算法提取文本中的关联规则;(4)根据上述步骤得到的文本断言和关联规则,依照人类概念代数复杂度的计算方法, 计算文本的理解复杂度。
2.根据权利要求1所述的基于人类概念学习的文本理解复杂度的度量方法,其特征 在于步骤O)中的文本断言为出现频数较高的关键词,这些关键词能够普遍地被人们所理 解,属于常识性知识范畴,其理解复杂度较低;根据人类概念学习的过程,文本断言数不超 过九个。
3.根据权利要求2所述的基于人类概念学习的文本理解复杂度的度量方法,其特征在 于步骤(3)中的关联规则挖掘是根据人类概念学习过程的经验总结,提取置信度至少大于 0. 5的关联规则,这类关联规则能够充分地表达文本中所表达的知识。
4.根据权利要求3所述的基于人类概念学习的文本理解复杂度的度量 方法,其特征在于步骤(4)中人类概念代数复杂度的计算,其计算方法为
全文摘要
本发明涉及一种基于人类概念学习的文本理解复杂度的度量方法。它先保留文本中的名词和名词短语,作为文本的关键词集合,然后将出现次数多的关键词作为文本断言,再挖掘文本中的关联规则,最后根据人类概念学习过程计算文本理解的复杂度。本发明其本质为将文本的理解过程抽象为人类概念学习的过程,通过对概念中属性(关键词)以及属性间关系(关联规则)的算术运算来度量文本的理解复杂度。本发明从人类概念学习的角度出发,通过分析词以及词之间逻辑关系对文本的理解复杂度进行度量,从而为基于机器的文本理解提供技术支持。
文档编号G06F17/30GK102136006SQ20111007714
公开日2011年7月27日 申请日期2011年3月30日 优先权日2011年3月30日
发明者张俊, 张顺香, 胡庆亮, 蔡传亮, 骆祥峰 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1