一种基于图的关键词抽取方法与流程

文档序号：11950220阅读：来源：国知局

技术特征：

1.一种基于图的关键词抽取方法，其特征在于，包括以下步骤：

对文本信息进行预处理，所述预处理包括分词处理、词性标注处理和命名实体识别处理；

计算节点特征，以及计算词汇的统计关系和词汇的语义关系；所述节点特征包括：节点的统计特征、位置特性、词性特征和实体特征；所述实体特征包括实体类型特征和命名实体链接特征；

根据所述节点特征计算节点权重，以及根据所述词汇的统计关系和词汇的语义关系计算边权重；

根据所述节点权重和所述边权重计算候选词的分值；

根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。

2.根据权利要求1所述的方法，其特征在于，在所述对文本信息进行预处理步骤之后，以及在所述计算节点特征步骤之前，还包括去停用词步骤。

3.根据权利要求1所述的方法，其特征在于，所述根据所述节点特征计算节点权重步骤包括：

通过公式(3)计算基于TF*IDF的候选词统计特征:

Feature₁(V_i)＝TF(V_i)*IDF(V_i) (3)

Feature₁(V_i)＝TF_i,j*IDF_i

其中，词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的次数，n_i,j是词V_i在文件j中的出现次数，而分母则是在文件j中所有字词的出现次数之和。

IDF(Inverse Document Frequency，IDF)是反文档频率，|D|是语料库中文档的总数，|j:{V_i∈d_j}|是包含V_i的文档数；

通过公式(4)计算候选词的位置特征：

通过公式(5)计算候选词的词性特征：

通过公式(6)计算候选词的实体类型特征：

通过公式(7)计算候选词的实体特性:

4.根据权利要求1所述的方法，其特征在于，所述计算词汇的统计关系和词汇的语义关系步骤包括：

通过公式(8)计算词汇统计关系S_TJ(V_i,V_j)：

$<mrow> <msub> <mi>S</mi> <mi>TJ</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>n</mi> <mi>L</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>k</mi> <mo>×</mo> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

其中，k为词V_i和V_j共现的窗口个数，L为窗口大小。

通过公式(9)计算词汇的语义关系S_YY(V_i,V_j)：

$<mrow> <msub> <mi>S</mi> <mi>YY</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>4</mn> </munderover> <msub> <mi>β</mi> <mi>i</mi> </msub> <munderover> <mi>Π</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>Sim</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

其中，β_i(1≤i≤4)是可调节的参数，且有：β₁+β₂+β₃+β₄＝1；Sim₁(V_i，V_j)为第一独立义原描述式，即两个义原的相似度，计算公式如下：

$<mrow> <msub> <mi>Sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>α</mi> <mrow> <mi>d</mi> <mo>+</mo> <mi>α</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

其中，V_i和V_j表示两个义原，d是V_i和V_j在义原层次体系中的路径长度，是一个正整数。α是一个可调节的参数；Sim₂(V_i,V_j)为其他独立义原描述式；Sim₃(V_i,V_j)为关系义原描述式；Sim₄(V_i,V_j)为符号义原描述式。

5.根据权利要求1所述的方法，其特征在于，计算节点权重步骤包括：

通过公式(11)计算节点权重：

$<mrow> <mi>N</mi> <mi>o</mi> <mi>d</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>α</mi> <mi>k</mi> </msub> <msub> <mi>Feature</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>$

其中：Feature_i为被打分词的特征，α_ki为第k个特征的权重，即不同的特征对被打分词的分值计算的贡献是不同的，Feature_k(V_i)∈[0，1.1]。

6.根据权利要求1所述的方法，其特征在于，所述根据词汇的统计关系和词汇的语义关系计算边权重步骤包括：

通过公式(12)计算边的权重：

$<mrow> <mi>E</mi> <mi>d</mi> <mi>g</mi> <mi>e</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mrow> <mo>(</mo> <mrow> <msup> <mi>β</mi> <mn>2</mn> </msup> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msup> <mi>β</mi> <mn>2</mn> </msup> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>$

其中，β决定计算边权重时，侧重词汇统计关系S_TJ(V_i,V_j)，或者词汇语义关系S_YY(V_i,V_j)，β可以设定为1、2或者1/2，β＝1时则视二者一样重要。

7.根据权利要求1所述的方法，其特征在于，所述根据节点权重和边权重计算候选词的分值步骤包括：

通过公式(13)计算候选词的分值:

Score(V_i)＝(1-d)*Node(V_i)+d*Node(V_i)*Edge(S_TJ(V_i,V_j),

S_YY(V_i,V_j))*Score(V_j)(13)

其中，Node(V_i)是被打分词的权重，Edge(S_TJ(V_i,V_j),S_YY(V_i,V_j))是被打分词和被打分词之间的边权重，它由两部分构成：S_TJ(V_i,V_j)是V_i与相邻词V_j在窗口L中的统计关系，S_YY(V_i,V_j)是V_i与V_j的语义关系。

8.根据权利要求1所述的方法，其特征在于，所述根据候选词的分值排序结果以及文本大小信息确定该文本的关键词步骤包括，根据候选词的分值排序结果以及文本大小抽取Top N个分值最高的词作为该文本的关键词。

完整全部详细技术资料下载

当前第2页1 2 3