基于概念衍生树的关键词层次聚类方法

文档序号:6459325阅读:191来源:国知局
专利名称:基于概念衍生树的关键词层次聚类方法
技术领域
本发明涉及一种计算机自动聚类文本关键词的方法,更具体地说,涉及一种基于 概念衍生树的文本关键词层次聚类方法。
背景技术
文本知识获取与表示的基本单元之一是文本的关键词。文本关键词自动获取的精 度直接影响到文本知识获取的性能与文本本体建立的质量。
属于一个领域的多个文本所共现的类关键词呈现该领域文本的最低层知识,是该 领域文本知识表示与获取的基本单元之一。文本领域关键词的自动获取的精度直接影 响到文本领域知识获取的性能与领域知识本体建立的效果,从而影响网络资源服务的 质量与效果。文本领域关键词的自动获取方法参见已公开的相关专利"文本关键词的 提取方法"(公开号CN101067808),本发明主要讨论文本关键词的衍生关系的自动 获得,及其强度的计算,并最终层次化聚类文本领域关键词。
文本领域关键词的衍生关系指的就是一个概念(关键词)从语义上所扩展出的具 有相关含义的概念(关键词)。例如,对于概念癌症,从医学领域上可以扩展出如肺 癌,胃癌,白血病等关于癌症方面的概念。
领域关键词(概念)根据不同层次的语义,会产生一定的语义衍生关系,而本发 明涉及组织,并且有条理的将这一衍生关系表示出来。
本发明提出用概念衍生树模型来组织和表示领域内的概念和概念之间的语义衍 生关系。利用概念之间的语义信息,将其构建成具有层次性的数据模型。进而将领域 中的概念有效的组织起来。
本发明能有效提高知识获取的性能。这将为网络环境下资源的个性化智能搜索、 自动推荐、创新知识的辅助发现与获取、相关知识的聚集及融合等提供技术支持。

发明内容
本发明的目的在于提供一种能将领域关键词(概念)有效的组织在一起,并按一 定的衍生关系将这些关键词(概念)层次化的基于概念衍生树的关键词层次聚类方法, 本发明所提出的概念衍生树模型仅涉及语义相似性。
本发明的构思是用一种带权值的树状可视化结构来组织领域关键词(概念)的 内部多层语义关系。根据上述的发明构思,本发明采用下述技术方案
一种基于概念衍生树的领域关键词层次聚类方法,其特征在于提取同一领域的多 篇文本的领域关键词若干,并依照语义关系将其层次化为一颗树状模型,具体操作步 骤如下
1. 从同一领域的多篇文本中提取文本领域关键词若干(参考已经公开的相关专
利"文本的关键词的提取方法",公开号CN101067808), 一个关键词就是一 个概念,该领域关键词即为一个概念集;
2. 在概念集中, 一个概念作为一个节点,根节点即为该领域关键词的名称,概 念节点即为除根节点以外的所有节点;
3. 构建第一层概念节点时,选出和根节点存在直接衍生关系的节点便作为这个 节点的子节点,而该节点就是父节点,选出该父节点衍生关系最为密切的若 干个节点作为第一层节点,节点个数的多少用来控制整个衍生树的深度;为 了防止概念节点冗余出现,从概念集中删除第一层的概念节点;
4. 构建第二层概念节点时,分别选出和第一层中每个节点的衍生关系最密切的 若干个节点构成子树(节点个数不宜过多),同一层节点中的概念可以重复出 现;
5. 从概念集中删除衍生树中已有的节点,防止衍生树不同层次的节点出现冗余, 重复执行上一步,构建第三层以及更多的层次,直到概念集为空或者不能从 概念集中添加新的节点,这样便能构建出一棵树形的数据模型;
6. 根据不同性质的概念衍生关系来计算节点和节点之间的权值。其两个节点之 间的关系分为以下三种情况
(1) 若两个节点的父节点是同一个节点,运用力学中的平行四边形法则(或
其它类似方法),计算得出这两个概念之间的权值;
(2) 若两个节点之间的存在直接衍生的关系,则权值由节点所在衍生树的层 次直接得出;
(3) 若两个节点之间的不存在直接衍生的关系,则寻找他们最近的关联节点, 并计算分别计算他们到此关联节点的权值,再由平行四边形法则(或其它类 似方法)计算得出这两个概念之间的权值。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点本 发明通过本发明提供的方法,可以自动获取关键词之间的语义关联关系,并计算关键词之间的语义关联关系的强度,可以分层次、简捷高效地表示文本领域关键词之间的 语义关系,便于计算机掌握和进行理解处理。本发明能有效提高知识获取的性能,这 将为大规模网络环境下资源的个性化智能搜索、自动推荐、创新知识的辅助发现与获 取、相关知识的聚集及融合等提供技术支持。


图1是一个包含一层概念的概念衍生树。
图2是第一层概念衍生节点的同现关系表。 图3是一个完整的概念衍生树的一部分。 图4是一个计算了节点之间衍生关系权重的概念衍生树。
具体实施例方式
本发明的一个优选实施例结合附图详述如下。 基于概念衍生树的文本关键词层次聚类的具体步骤如下
1. 对于人大5000的112篇论文我们可以提取领域关键词163个(参考已经公开的相 关专利"文本的关键词的提取方法",公开号CN101067808)。构成的概念集的大 小为163,即共有163个无重复的概念。
2. 根节点可以根据所涉及的领域来自行确定。对于人大5000的112篇论文训练样本 我们可以根据所在领域将根节点确定为"政治经济"。这样的构造方法可以使整个 概念衍生树更具代表性。
3. 构造第一层的节点首先要确定第一层节点的个数。第一层的节点个数不宜过多, 因为这样便会影响整棵树的深度。构建概念衍生树的目的是在于发现概念和概念 之间的那种具有层次性的衍生关系,因此应尽量在低层位置控制树的广度。本例 子中我们取第一层的树节点总数为整个概念集中概念总数的4次方根并向上取 整。这样便能将第一层的树节点的个数控制在一个比较理想的范围内。因此第一
层树节点的个数是「^"|= 4。确定了第一层的树节点的个数后,再从概念集中
选出在112篇论文中出现次数最多的概念(篇频),提取前面最多的4个关键词。 由于这些出现频率最多的概念和这由112篇论文所构成的领域的关系最为密切, 因此将它们作为第一层的树节点,如图1所示。
4. 在构建第二层及更上层的衍生概念节点的时候,我们可以先构建一个第一层概念 衍生节点的同现关系表,如图2所示。此表表示第一层节点和其他概念在同一篇论文中出现的次数,这里仅挑选了 15个和第一层节点同现次数较多的概念作为例 子。接下来要处理的是子树的节点个数的问题。同根节点一样,子树上的节点不 宜过多。可以按照以下的公式来决定节点的个数即取大于同现次数的概念个数
的前1//7。其中的7可以按照实际需要取值,在本例子中;/=15。这样每个节点的
子节点个数都能控制在一个比较合适的范围内。概念衍生树中同一层次的节点可 以重复出现。
5. 当构建完一个层次的节点后,便将这个层次中的节点(概念)从概念集中移除,
这样便可以避免概念衍生树中产生不同层次的概念和概念之间的关系冗余。然后 可以根据递归算法,将概念衍生树的其他层次一一构建出来,直到覆盖概念集中 所有的概念,或者无法添加新的概念节点,这样一棵完整的树便构建完成了,图
3所示了概念衍生树其中的一部分。
6. 可以从构建好的概念衍生树的顶层概念开始计算两个概念之间权重。
由于在构建概念衍生树的过程中,我们一般都把树的层数控制在7层内。为了使 每一层节点之间的权值有明显的差异,可以将顶层直接衍生概念节点和父节点之 间路径的权值w,设为0.7;每向下一层,直接衍生概念节点和父节点之间路径的权
值便相应地减去O.l,即层次权值差A,为O.l。这样每一层的节点之间的衍生关系
就会随层次的增加而不断减弱。此处的^,和A,.可以根据不同领域的不同需要进行
相应的设置。按照此规则,便能构建出一棵完整的领域概念衍生树,如图4所示。
两个节点之间的关系分为以下三种情况
(1) 若节点C;和节点Cu的父节点是同一个节点。可以运用力学中的平行四边形
法则,将这两个概念看作是力学中不同方向的两个矢量,计算得出的结果便 是这两个概念综合后的权值。因此他们之间的关系可以用下列方法计算
<formula>formula see original document page 6</formula>
5-0.7, =0.7,所以得CVu=0.7。即q和Cn之间存在着一定的概念衍生关
联关系,且衍生权值为0.7。
(2) 若节点(^和节点Cn之间的存在直接衍生的关系,则权值^w,可由树直接得
出0.6。(3)若节点C,2和节点q的最近的关联节点为向下的根节点(iVo&。)。因此,它
们的权值由各层的权值相乘而得。
= —u x ai = 0.6 x 0.7= 0.42;
类似第一种情况利用平行四边形法则可以得出
2—"。则h"。血0 =0.61。
权利要求
1. 种基于概念衍生树的关键词层次聚类方法,其特征在于提取同一领域的多篇文本的领域关键词若干,并依照语义关系将其层次化为一颗树状模型,具体操作步骤如下a)从同一领域的多篇文本中提取文本领域关键词若干,一个关键词就是一个概念,该领域关键词即为一个概念集;b)在概念集中,一个概念作为一个节点,根节点即为该领域关键词的名称,概念节点即为除根节点以外的所有节点;c)构建第一层概念节点时,选出和根节点存在直接衍生关系的节点便作为这个节点的子节点,而该节点就是父节点,选出与该父节点的衍生关系最为密切的若干个节点作为第一层节点,节点个数的多少用来控制整个衍生树的深度;为了防止概念节点冗余出现,从概念集中删除第一层的概念节点;d)构建第二层概念节点时,分别选出和第一层中每个节点的衍生关系最密切的若干个节点构成子树,同一层节点中的概念可以重复出现;e)从概念集中删除衍生树中已有的节点,以防止衍生树的不同层次节点出现冗余,重复执行上一步,构建第三层以及更多的层次,直到概念集为空,或者不能从概念集中添加新的节点,这样便能构建出一棵树形的数据模型;f)根据不同性质的概念衍生关系来计算节点和节点之间的权值。
2. 按权利要求1所述的基于概念衍生树的关键词层次聚类方法,其特征在于所述步骤(f)中的根据不同性质的概念衍生关系来计算节点和节点之间的权值,在两个 节点之间的关系分为以下三种情况-a) 若两个节点的父节点是同一个节点,运用力学中的平行四边形法则,计算得 出这两个概念之间的权值;b) 若两个节点之间的存在直接衍生的关系,则权值由节点所在衍生树的层次直 接得出;c) 若两个节点之间的不存在直接衍生的关系,则寻找他们最近的关联节点,并 计算分别计算他们到此关联节点的权值,再由平行四边形法则计算得出这两 个概念之间的权值。
全文摘要
本发明涉及一种基于概念衍生树的关键词层次聚类方法,它是提取同一领域的多篇文本的领域关键词若干,并依照语义关系将其层次化为一颗树状模型。通过此方法可以自动获取关键词之间的语义关联关系,并计算关键词之间的语义关联关系的强度。该方法可以分层次、简捷高效地为关键词聚类,便于计算机掌握和进行理解处理。本发明能有效提高知识获取的性能,这将为大规模网络环境下资源的个性化智能搜索、自动推荐、创新知识的辅助发现与获取、相关知识的聚集及融合等提供技术支持。
文档编号G06F17/30GK101281530SQ20081003772
公开日2008年10月8日 申请日期2008年5月20日 优先权日2008年5月20日
发明者徐炜民, 宁 方, 骆祥峰 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1