非结构化文本数据增强型分布式大规模数据维度抽取方法与流程

文档序号:11155592阅读:来源:国知局

技术特征:

1.一种非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:包括以下步骤:

步骤1:文本分词:对输入文本进行分词,找出最小语义单位之间的互信息值,通过训练设定第一阈值,第一阈值与最小语义单位之间的互所述信息值进行比较,当互信息值大于等于第一阈值时,取得分词结果;

步骤2:词频统计:根据分词结果,对输入文本进行词频统计,并且建立相应的词频关系表;

步骤3:输入文本主题提取:根据抽取所关注的目标领域,确定目标领域的主题词集合,通过计算确定输入文本中主题词与此主题词所有左侧词共同出现时的稳定性,通过训练设定第二阈值,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的左侧主题词的集合;通过计算确定输入文本中主题词与此主题词所有右侧词共同出现时的稳定性,将稳定性与第二阈值进行对比,当稳定性不小于第二阈值时,取得输入文本主题相关的右侧主题词的集合;所取得的左侧主题词的集合和右侧主题词之和即为输入文本主题词集合;

步骤4:过滤主题词:根据词频统计的结果来对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,计算候选维度词的熵值,取这些值中最前面几个词为提取的维度词。

2.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤1中,最小语义单位之间的互信息值公式如下:

<mrow> <mi>M</mi> <mi>I</mi> <mi>V</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>log</mi> <mn>2</mn> </msub> <mfrac> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

在公式(1)中,X、Y分别表示出现的最小语义单位,用Cmin表示最小语义单位集合,则X、Y和Cmin满足X,Y∈Cmin

MIV(X,Y)表示最小语义单位中X,Y之间的互信息值;p(X),p(Y)表示X和Y在输入文本中分别出现的概率,p(X,Y)表示X和Y在输入文本中共同出现的概率;

第一阈值用THmiv表示,第一阈值THmiv与最小语义单位中X,Y之间的互信息值满足以下关系时取得分词结果,关系如下:

MIV(X,Y)≥THmiv (2)。

3.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤2中:词频关系表用TWF=[{ω1:f1},{ω2:f2},…]表示,其中ω1…ωi表示输入文本经过分词得到的词汇,f1…fi表示ω1…ωi这些词汇在输入文本中出现的对应次数。

4.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤3中,主题词集合用Stheme={s1,s2,…,si}表示,计算出在输入文本中主题词si与主题词si所有左侧词sil共同出现时的稳定性:

<mrow> <msub> <mi>ES</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>f</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>l</mi> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>L</mi> </msub> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

在公式(3)中:SL表示主题词si左侧的所有词集合;p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率;

p(sil|si)表示主题词si所在的位置其左侧词Sil出现的条件概率是利用极大似然估计得到,公式如下:

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

第二阈值用THes表示,当输入文本中主题词si与其所有左侧词sil共同出现时的稳定性ESleft不小于该值时sil与描述输入文本的主题相关,得到输入文本主题相关的左侧主题词sil的集合,关系如下:

<mrow> <msubsup> <mi>T</mi> <mrow> <mi>l</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>ES</mi> <mrow> <mi>l</mi> <mi>e</mi> <mi>f</mi> <mi>t</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <msub> <mi>TH</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

表示输入文本主题相关的左侧主题词sil的集合,计算输入文本中主题词si与主题词si所有右侧词sir共同出现时的稳定性:

<mrow> <msub> <mi>ES</mi> <mrow> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mo>-</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>r</mi> <mo>&Element;</mo> <msub> <mi>S</mi> <mi>R</mi> </msub> </mrow> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

输入文本中主题词si所在位置p(sir|si)是利用极大似然估计得到:

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

p(sir|si)表示主题词si所在位置其右侧词Sir出现的条件概率;

第二阈值用THes表示,当输入文本中主题词si与其所有右侧词sir共同出现时的稳定性ESleft不小于该值时sir与描述输入文本的主题相关,得到输入文本主题相关的右侧主题词sir的集合,关系如下:

<mrow> <msubsup> <mi>T</mi> <mrow> <mi>r</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>ES</mi> <mrow> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> </mrow> </msub> <mo>&GreaterEqual;</mo> <msub> <mi>TH</mi> <mrow> <mi>e</mi> <mi>s</mi> </mrow> </msub> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

由公式(3)~(8)可得输入文本主题相关的主题词集合:

<mrow> <msubsup> <mi>T</mi> <mrow> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>=</mo> <mo>{</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msubsup> <mi>T</mi> <mrow> <mi>l</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>&cup;</mo> <msubsup> <mi>T</mi> <mrow> <mi>r</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

5.根据权利要求4所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:在步骤4中,根据词频统计的结果对输入文本主题提取的主题词集合进行过滤,筛选出候选维度词,词频统计的结果用TWF表示,输入文本主题提取的主题词集合用表示,Tcandi为候选维度词集合,则有以下关系:

<mrow> <msub> <mi>T</mi> <mrow> <mi>c</mi> <mi>a</mi> <mi>d</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>T</mi> <mrow> <mi>W</mi> <mi>F</mi> </mrow> </msub> <mo>&cap;</mo> <msubsup> <mi>T</mi> <mrow> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>m</mi> <mi>e</mi> </mrow> <mrow> <mi>i</mi> <mi>n</mi> <mi>p</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

根据公式(10),得到Tcandi中所有词在输入文本中的平均词频,平均词频用表示;

计算度量函数:

<mrow> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>ln</mi> <msqrt> <mrow> <msub> <mi>DIS</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> </mrow> </msqrt> <msub> <mi>DIS</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

公式(11)中的DISm,w表示平均词频的欧式距离DISm,w,候选维度词集合Tcandi可以表示为Tcandi={t1,t2,…,ti}以及度量函数,计算Tcandi的熵值,公式如下:

<mrow> <msub> <mi>ET</mi> <mrow> <mi>c</mi> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mi>i</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>i</mi> </munderover> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mi>log</mi> <mi> </mi> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>w</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

Im,w表示度量函数,ETcandi表示熵值,取这些熵值最前面几个词作为提取的维度词。

6.根据权利要求1所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:所述第一阈值和所述第二阈值分别是训练架构通过数据训练得到的,所述第一阈值和所述第二阈值的训练架构为多通道卷积神经网络。

7.根据权利要求6所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:所述第一阈值表示输出的分词结果中成词的比例最大化。

8.根据权利要求6所述的非结构化文本数据增强型分布式大规模数据维度抽取方法,其特征在于:所述第二阈值表示候选维度词在主题词集合中的占比最大化。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1