非结构化文本数据增强型分布式大规模数据维度抽取方法与流程

文档序号：11155592阅读：来源：国知局

技术特征：

1.一种非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：包括以下步骤：

步骤1：文本分词：对输入文本进行分词，找出最小语义单位之间的互信息值，通过训练设定第一阈值，第一阈值与最小语义单位之间的互所述信息值进行比较，当互信息值大于等于第一阈值时，取得分词结果；

步骤2：词频统计：根据分词结果，对输入文本进行词频统计，并且建立相应的词频关系表；

步骤3：输入文本主题提取：根据抽取所关注的目标领域，确定目标领域的主题词集合，通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性，通过训练设定第二阈值，将稳定性与第二阈值进行对比，当稳定性不小于第二阈值时，取得输入文本主题相关的左侧主题词的集合；通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性，将稳定性与第二阈值进行对比，当稳定性不小于第二阈值时，取得输入文本主题相关的右侧主题词的集合；所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合；

步骤4：过滤主题词：根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤，筛选出候选维度词，计算候选维度词的熵值，取这些值中最前面几个词为提取的维度词。

2.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：在步骤1中，最小语义单位之间的互信息值公式如下：

$<mrow> <mi>M</mi> <mi>I</mi> <mi>V</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

在公式(1)中，X、Y分别表示出现的最小语义单位，用C_min表示最小语义单位集合，则X、Y和C_min满足X,Y∈C_min；

MIV(X,Y)表示最小语义单位中X，Y之间的互信息值；p(X)，p(Y)表示X和Y在输入文本中分别出现的概率，p(X,Y)表示X和Y在输入文本中共同出现的概率；

第一阈值用TH_miv表示，第一阈值TH_miv与最小语义单位中X，Y之间的互信息值满足以下关系时取得分词结果，关系如下：

MIV(X,Y)≥TH_miv (2)。

3.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：在步骤2中：词频关系表用T_WF＝[{ω₁:f₁},{ω₂:f₂},…]表示，其中ω₁…ω_i表示输入文本经过分词得到的词汇，f₁…f_i表示ω₁…ω_i这些词汇在输入文本中出现的对应次数。

4.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：在步骤3中，主题词集合用S_theme＝{s₁,s₂,…,s_i}表示，计算出在输入文本中主题词s_i与主题词s_i所有左侧词s_il共同出现时的稳定性：

$<mrow> <msub> <mi>ES</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>f</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <msub> <mi>Σ</mi> <mrow> <mi>l</mi> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>L</mi> </msub> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

在公式(3)中：S_L表示主题词s_i左侧的所有词集合；p(s_il|s_i)表示主题词s_i所在的位置其左侧词S_il出现的条件概率；

p(s_il|s_i)表示主题词s_i所在的位置其左侧词S_il出现的条件概率是利用极大似然估计得到，公式如下：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

第二阈值用TH_es表示，当输入文本中主题词s_i与其所有左侧词s_il共同出现时的稳定性ES_left不小于该值时s_il与描述输入文本的主题相关，得到输入文本主题相关的左侧主题词s_il的集合，关系如下：

$<mrow> <msubsup> <mi>T</mi> <mrow> <mi>l</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>ES</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>f</mi> <mi>t</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <msub> <mi>TH</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>$

表示输入文本主题相关的左侧主题词s_il的集合，计算输入文本中主题词s_i与主题词s_i所有右侧词s_ir共同出现时的稳定性：

$<mrow> <msub> <mi>ES</mi> <mrow> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <msub> <mi>Σ</mi> <mrow> <mi>r</mi> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>R</mi> </msub> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>$

输入文本中主题词s_i所在位置p(s_ir|s_i)是利用极大似然估计得到：

$<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>$

p(s_ir|s_i)表示主题词s_i所在位置其右侧词S_ir出现的条件概率；

第二阈值用TH_es表示，当输入文本中主题词s_i与其所有右侧词s_ir共同出现时的稳定性ES_left不小于该值时s_ir与描述输入文本的主题相关，得到输入文本主题相关的右侧主题词s_ir的集合，关系如下：

$<mrow> <msubsup> <mi>T</mi> <mrow> <mi>r</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>ES</mi> <mrow> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <msub> <mi>TH</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

由公式(3)～(8)可得输入文本主题相关的主题词集合：

$<mrow> <msubsup> <mi>T</mi> <mrow> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msubsup> <mi>T</mi> <mrow> <mi>l</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>∪</mo> <msubsup> <mi>T</mi> <mrow> <mi>r</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>$

5.根据权利要求4所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：在步骤4中，根据词频统计的结果对输入文本主题提取的主题词集合进行过滤，筛选出候选维度词，词频统计的结果用T_WF表示，输入文本主题提取的主题词集合用表示，T_candi为候选维度词集合，则有以下关系：

$<mrow> <msub> <mi>T</mi> <mrow> <mi>c</mi> <mi>a</mi> <mi>d</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>T</mi> <mrow> <mi>W</mi> <mi>F</mi> </mrow> </msub> <mo>∩</mo> <msubsup> <mi>T</mi> <mrow> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

根据公式(10)，得到T_candi中所有词在输入文本中的平均词频，平均词频用表示；

计算度量函数：

$<mrow> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>ln</mi> <msqrt> <mrow> <msub> <mi>DIS</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> </mrow> </msqrt> <msub> <mi>DIS</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>$

公式(11)中的DIS_m，w表示平均词频的欧式距离DIS_m,w，候选维度词集合T_candi可以表示为T_candi＝{t₁,t₂,…,t_i}以及度量函数，计算T_candi的熵值，公式如下：

$<mrow> <msub> <mi>ET</mi> <mrow> <mi>c</mi> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>Σ</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>i</mi> </munderover> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mi>log</mi> <mi> </mi> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>$

I_m,w表示度量函数，ET_candi表示熵值，取这些熵值最前面几个词作为提取的维度词。

6.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：所述第一阈值和所述第二阈值分别是训练架构通过数据训练得到的，所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络。

7.根据权利要求6所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：所述第一阈值表示输出的分词结果中成词的比例最大化。

8.根据权利要求6所述的非结构化文本数据增强型分布式大规模数据维度抽取方法，其特征在于：所述第二阈值表示候选维度词在主题词集合中的占比最大化。

完整全部详细技术资料下载

当前第2页1 2 3