一种新型大规模文档主题语义分析方法及系统与流程

文档序号：12665985阅读：来源：国知局

技术特征：

1.一种新型大规模文档主题语义分析方法，其特征在于：包括以下步骤：

A、检测已知文档集合中是否存在分类信息，若是，则执行有监督主体生成步骤，生成得到多个主题集合；反之，则执行无监督主体生成步骤，生成得到多个主题集合；

B、根据得到的多个主题集合，将需要分析的文档分别计算与各主题集合的相关度，从而得到该文档在关于主题集合的主题分布情况。

2.根据权利要求1所述的一种新型大规模文档主题语义分析方法，其特征在于：所述有监督主体生成步骤包括：

A11、根据分类信息，运用特征提取算法对已知文档集合中同一类别的所有文件进行关键词提取，并对提取的关键词整合到各类别对应的特征池当中；

A12、将对应同一类别的特征池中的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合；

A13、将对应同一类别的两个意群进行相关性识别，得出对应同一类别的强相关特征集合和弱相关特征集合；

A14、在同一类别下，对已知文档集合和弱相关特征集合中的关键词进行遍历，分别计算其与强相关特征集合的相关度，并将相关度大于自适应值的关键词整合至强相关特征集合中，进而得到对应各个类别的多个主题集合。

3.根据权利要求1所述的一种新型大规模文档主题语义分析方法，其特征在于：所述无监督主体生成步骤包括：

A21、运用特征提取算法对已知文档集合中所有文件进行关键词提取，并对提取的关键词整合到特征池当中；

A22、对特征池内所有关键词对应的词向量进行聚类分析，得出代表已知文档集合中各语义分类的多个簇，进而得到分类信息；

A23、根据分类信息，将特征池中对应同一类别的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合；

A24、将对应同一类别的两个意群进行相关性识别，得出对应同一类别的强相关特征集合和弱相关特征集合；

A25、在同一类别下，对弱相关特征集合和已知文档集合中未利用过的关键词进行遍历，分别计算其与强相关特征集合的相关度，并将相关度大于自适应值的关键词整合至强相关特征集合中，进而得到对应各个类别的多个主题集合。

4.根据权利要求2所述的一种新型大规模文档主题语义分析方法，其特征在于：所述步骤A12包括：

A121、将对应同一类别的特征池内所有关键词对应的词向量进行二元聚类分析，将关键词拆分成两个意群，并计算两个意群的簇心；

A122、计算各意群中关键词距离对应簇心的欧氏距离；

A123、检测各关键词距离对应簇心的欧氏距离，判断其是否大于预设的距离阈值，若是，则将该关键词移除至不相关特征集合，并将剩余的关键词重新组合为新的特征池，进而返回执行步骤A121；反之，则执行步骤A13。

5.根据权利要求2所述的一种新型大规模文档主题语义分析方法，其特征在于：所述步骤A13包括：

A131、在对应同一类别的两个意群中，从第一意群任意提取两组η元组X1和X2，从第二意群中任意提取一组η元组Y1；

A132、将η元组X1和X2整合为新的2η元组XX1，将η元组X1和Y1整合为新的2η元组XY1；

A133、分别计算新的2η元组XX1和XY1内两两关键词之间的相似度，并分别计算2η元组XX1和XY1各自的相似度之和，进而计算出两者的差值，得到第一相似度差值；

A134、从第二意群任意提取两组η元组M1和M2，从第一意群中任意提取一组η元组N1；

A135、将η元组M1和M2整合为新的2η元组MM1，将η元组M1和N1整合为新的2η元组MN1；

A136、分别计算新的2η元组MM1和MN1内两两关键词之间的相似度，并分别计算2η元组MM1和MN1各自的相似度之和，进而计算出两者的差值，得到第二相似度差值；

A137、判断第一相似度差值是否大于第二相似度差值，若是，则判定第一意群为强相关特征集合，第二意群为弱相关特征集合；反之，则判定第二意群为强相关特征集合，第一意群为弱相关特征集合。

6.根据权利要求5所述的一种新型大规模文档主题语义分析方法，其特征在于：所述相似度的具体计算公式为：

$<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mo><</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>></mo> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>w</mi> <mn>1</mn> <mi>k</mi> </msubsup> <mo>×</mo> <msubsup> <mi>w</mi> <mn>2</mn> <mi>k</mi> </msubsup> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>w</mi> <mn>1</mn> <mi>k</mi> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>w</mi> <mn>2</mn> <mi>k</mi> </msubsup> </mrow> </msqrt> </mrow> </mfrac> <mo>;</mo> </mrow>$

其中，w₁和w₂分别为两个关键词对应的词向量，m表示词向量的维度，sim<w₁，w₂>表示两个关键词的相似度。

7.根据权利要求2或3所述的一种新型大规模文档主题语义分析方法，其特征在于：所述相关度的具体计算公式为：

$<mrow> <mi>r</mi> <mi>e</mi> <mi>l</mi> <mo>[</mo> <mi>w</mi> <mi>x</mi> <mo>,</mo> <mi>W</mi> <mo>]</mo> <mo>=</mo> <munder> <mo>Σ</mo> <mrow> <mi>w</mi> <mo>&Element;</mo> <mi>W</mi> </mrow> </munder> <mfrac> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mi>wx</mi> <mi>k</mi> </msup> <mo>×</mo> <msup> <mi>w</mi> <mi>k</mi> </msup> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mi>wx</mi> <mi>k</mi> </msup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mi>w</mi> <mi>k</mi> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>;</mo> </mrow>$

其中，wx表示关键词对应的词向量，W表示特征集合，这里表示强相关特征集合，w表示特征集合中关键词对应的词向量，这里表示强相关特征集合中关键词对应的词向量，rel[wx，W]表示关键词wx与特征集合W的相关度，m表示词向量的维度。

8.根据权利要求2或3所述的一种新型大规模文档主题语义分析方法，其特征在于：所述自适应值的具体计算公式为：

$<mrow> <mi>γ</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msubsup> <mi>d</mi> <mi>i</mi> <mo>′</mo> </msubsup> <mo>|</mo> <mo>|</mo> <mi>N</mi> <mo>|</mo> </mrow> </mfrac> <munder> <mo>Σ</mo> <mrow> <mi>w</mi> <mo>&Element;</mo> <msubsup> <mi>d</mi> <mi>i</mi> <mo>′</mo> </msubsup> </mrow> </munder> <munder> <mo>Σ</mo> <mrow> <mi>n</mi> <mo>&Element;</mo> <mi>N</mi> </mrow> </munder> <mfrac> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mi>w</mi> <mi>k</mi> </msup> <mo>×</mo> <msup> <mi>n</mi> <mi>k</mi> </msup> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mi>w</mi> <mi>k</mi> </msup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mi>n</mi> <mi>k</mi> </msup> </mrow> </msqrt> </mrow> </mfrac> <mo>;</mo> </mrow>$

其中，N表示强相关特征集合，d_i表示已知文档集合或弱相关特征集合中关键词对应的当前文档，|d_i|表示当前文档的关键词数量，|d_i'|是当前文档中和N正相关的关键词数量，γ表示自适应值，w表示已知文档集合或弱相关特征集合中的关键词对应的词向量，n表示强相关特征集合中关键词对应的词向量，m表示词向量的维度。

9.一种新型大规模文档主题语义分析系统，其特征在于，包括：

主题集合生成单元，用于检测已知文档集合中是否存在分类信息，若是，则执行有监督主体生成步骤，生成得到多个主题集合；反之，则执行无监督主体生成步骤，生成得到多个主题集合；

主题分析单元，用于根据得到的多个主题集合，将需要分析的文档分别计算与各主题集合的相关度，从而得到该文档在关于主题集合的主题分布情况。

完整全部详细技术资料下载

当前第2页1 2 3