文本认知难度的度量方法

文档序号:6341673阅读:286来源:国知局
专利名称:文本认知难度的度量方法
技术领域
-
木发明涉及一种文本的认知难度的度量方法,更具体地说,涉及一种计算文本中句子之 间的逻辑关系来度量文本的认知难度的方法。
背景技术
文本的认知过程离不开对文本句子之间逻辑关系的掌握。传统的文本分析仅仅停留在语 法分析和简单的语义分析的基础之上,很少有针对文本句子之间的逻辑关系的定量分析。本 发明能从认知科学的角度对文本的认知难度进行度量,从而为基于机器的文本理解提供技术 支持。

发明内容
本发明的目的在于针对目前机器分析文本的局限性,提供一种文本认知难度的度量方法。 其本质是把文本的理解过程抽象为一个概念学习的过程,通过对概念中的对象(句子)和属 性(关键词)的逻辑运算来度量文本的认知难度。
为实现上述目的,本发明的构思是把一篇文本中的关键词,即具有重要意义的名词和 动词,提取出来;统计每一个句子中出现和不出现的关键词,形成一个布尔表达式;通过各 种手段化简这个布尔表达式到最简单的形式,即包含的变量数目最少;再计算该文本的认知 难度根据上述的发明构思,本发明采用下述技术方案-一种文本认知难度的度量方法,其特征在于操作步骤如下
(1) 统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动 词;
(2) 根据所述关键词是否在相应的句子上出现来构建一个布尔表达式;
(3) 根据所述布尔表达式进行逻辑运算来计算该文本的认知难度。
上述步骤(2)中的布尔表达式由若干项相加构成每一个所述项代表一个句子,每一项由若干 变量相乘构成,每一个所述变量代表一个所述关键词;若关键词出现在相应的句子中,则所 述变量为"1";若关键词不出现,则所述变量为"0";把一个句子看成若干关键词的相乘关 系,再把一篇文本看成若干句子的相加关系,这样,该文本就用一个布尔表达式来表示,为 初始的布尔表达式。
上述步骤(3)中的所述的基于逻辑运算的文本认知难度的度量方法,其特征在于所述步骤(3) 中所述的根据布尔表达式进行的逻辑运算就是对布尔表达式进行逻辑化简,直到最简单的布尔表达式出现为止。
上述最简单的布尔表达式就是长度最短的布尔表达式,其包含的所述变量数目最少;所述 最简单的布尔表达式是由若千所述项相加构成。
上述文本的认知难度是用所述最简单的布尔表达式所包含的所述变量数目除以所述初始的 布尔表达式所包含的变量数目而得到的。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点本发明先定 义单篇文本为一个若各关键词和句子组成的布尔表达式,再对该布尔表达式进行逻辑运算來
度量该文本的认知难度,其核心是把文本的理解过程抽象为一个概念学习的认知过程。通过 对概念中的对象(句子)和属性(关键词)的逻辑运算来度量文本的认知难度,本方法以计算文 本中句子之间的逻辑关系,从而便于计算机进行处理。
具体实施例方式
本发明的一个优选实例如下本文本认知难度的度量方法,操作步骤如下-
1. 统计一篇文本中的关键词和句子,关键词就是该文本中具有重要含义的名词和动词;
2. 根据关键词是否在相应的句子上出现来构建一个布尔表达式。此布尔表达式由若干项相 加构成,每一个项代表一个句子,每一项由若干变量相乘构成,每一个变量代表一个关键词。 若关键词出现在相应的句子中,则变量为"1";若关键词不出现,则变量为"0"。把一个句 子看成若干关键词的相乘关系,再把一篇文本看成若干句子的相加关系,这样该文本可以用 一个布尔表达式来表示(初始的布尔表达式)。
假设有两个关键词分别用变量a和b表示。我们用项ab代表一个句子里出现了两个关键词a 和b,用两个项a+b代表第一个句子有关键词a,第二个句子有关键词b,用变量a'代表关 键词a没有出现。
3. 根据布尔表达式进行逻辑运算来计算该文本的认知难度,其特征在于操作步骤如下
(1) 对布尔表达式进行逻辑化简,直到最简单的布尔表达式出现为止。最简单的布尔表达 式就是布尔表达式的长度最短,即包含的变量数目最少。最简单的布尔表达式是由若干 项相加构成,每一项是由若干变量相乘构成;
(2) 最简单的布尔表达式所包含的变量数目除以初始的布尔表达式所包含的变量数目,从 而得到该文本的认知难度度量。
假设一篇有两个句子的文本有初始布尔表达式ab+ab'表示,它包含4个变量,化简 布尔表达式的过程为ab+ab' =a(b+b' )=a,则最简单的布尔表达式就包含1个变量,
则该文本的认知难度为1/4;假设另一篇有两个句子的文本ab+a' b',由于没有更
4短的表达式,所以最简单的布尔表达式的长度就是4,则该文本的认知难度为1。发 现特定表达式的最短等价表达式是一个很难的问题。实际中通过一些近似的计算技术 (如因数分解)化简表达式。
两个对比实例如下
1. 假设有一段对话在两个人之间,记为A和B。
A: Can you tell me the time B: The milkman has just left. 我们从对话中抽取两个关键词(对话中被加粗表示),即time (用符号a表示)和milkman (用符号b表示)。
2. 这段对话的初始的布尔表达式如ab' +a' b所示。
3. 这个对话的初始的布尔表达式包含4个变量,因为这个布尔表达式无法化简,所以最简 单的布尔表达式也包含4个变量。这样它的文本认知难度就是l,表示这是一段很难理解 的对话。
另一个一个基于逻辑运算的文本认知难度的度量方法的具体步骤如下
1. 现在我们加入一个背景知识到这段对话如下
A: Can you tell me the time B: The milkman has just left. 背景矢口识The time is 6 am of the milkman leaving.
2. 这段对话的初始的布尔表达式如ab' +a' b+ab所示。
3. 包含了背景知识的初始的布尔表达式包含6个变量。通过启发式方法可以化简为最简单 的布尔表达式a+b,此最简单的布尔表达式包含2个变量,则包含了背景知识的这段对话 的文本认知难度是0. 333,表示加入了背景知识可以降低文本的认知难度。 对比上面两个例子可以看出,本发明定义的文本认知难度的度量方法确实可以体现实际
文本的认知难度。
权利要求
1. 一种文本认知难度的度量方法,其特征在于操作步骤如下(1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;(2)根据所述关键词是否在相应的句子上出现来构建一个布尔表达式;(3)根据所述布尔表达式进行逻辑运算来计算该文本的认知难度。
2. 根据权利要求1所述的文本认知难度的度量方法,其特征在于所属步骤(2)中的布尔表达 式由若干项相加构成,每一个所述项代表一个句子,每一项由若干变量相乘构成,每一个 所述变量代表一个所述关键词;若关键词出现在相应的句了中,则所述变量为"l";若关 键词不出现,则所述变量为"0";把一个句子看成若干关键词的相乘关系,再把一篇文本 看成若干句子的相加关系,这样,该文本就用一个布尔表达式来表示,为初始的布尔表达 式。
3. 根据权利要求2所述的文本认知难度的度量方法,其特征在于所述步骤(3)中所述的根据 布尔表达式进行的逻辑运算就是对布尔表达式进行逻辑化简,直到最简单的布尔表达式出 现为止。
4. 根据权利要求3所述的文本认知难度的度量方法,其特征在于所述最简单的布尔表达式, 就是长度最短的布尔表达式,其包含的所述变量数目最少;所述最简单的布尔表达式是由 若干所述项相加构成。
5. 根据权利要求4所述的文本认知难度的度量方法,其特征在于文本的认知难度是用所述最 简单的布尔表达式所包含的所述变量数目除所以述初始的布尔表达式所包含的变量数目 而得到的。
全文摘要
本发明涉及一种文本认知难度的度量方法。它先定义单篇文本为一个若干关键词和句子组成的布尔表达式,再对该布尔表达式进行逻辑运算来度量该文本的认知难度。本发明其核心是把文本的理解过程抽象为一个概念学习的认知过程,通过对概念中的对象(句子)和属性(关键词)的逻辑运算来度量文本的认知难度。本方法以计算文本中句子之间的逻辑关系,从而便于计算机进行处理。
文档编号G06F17/27GK101520773SQ200910048309
公开日2009年9月2日 申请日期2009年3月26日 优先权日2009年3月26日
发明者刘方方, 徐炜民, 宁 方, 骆祥峰 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1