文本表示方法及系统与流程

文档序号:12271651阅读:来源:国知局

技术特征:

1.一种文本表示方法,其特征在于,包括:

步骤S10,获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;

步骤S20,使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;

步骤S30,将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。

2.根据权利要求1所述的文本表示方法,其特征在于,所述步骤S10包括:

步骤S101,统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;

步骤S102,统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;

步骤S103,统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;

步骤S104,基于得到的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,构建基于主体间性的异质网络。

3.根据权利要求1所述的文本表示方法,其特征在于,所述步骤S20包括:

步骤S201,基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数,所述损失函数为:

<mrow> <mi>O</mi> <mo>-</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mrow> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>)</mo> </mrow> <mo>&Element;</mo> <mi>E</mi> </mrow> </munder> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&CenterDot;</mo> <mi>log</mi> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,wij表示节点i和节点j之间的边的权重,logp(vj|vi)为两个节点之间的条件概率,定义如下:

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mi>j</mi> <mrow> <mo>&prime;</mo> <mi>T</mi> </mrow> </msubsup> <mo>&CenterDot;</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mi>k</mi> <mrow> <mo>&prime;</mo> <mi>T</mi> </mrow> </msubsup> <mo>&CenterDot;</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,ui表示节点i的低维连续向量表示,表示节点j的相邻节点的低维连续向量表示。

4.根据权利要求1-3中任一项所述的文本表示方法,其特征在于,所述步骤S30包括:

采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象低维连续向量表示链接到学习获得的文本表示结果中。

5.根据权利要求4所述的文本表示方法,其特征在于,所述步骤S30包括:

步骤S301,采用文本建模方式学习文本的低维连续向量表示;

步骤S302,对学习获得的文本低维连续向量表示,顺序的接入所述发布者低维连续向量表示和所述评论对象低维连续向量表示,得到对应的表示特征;

步骤S303,将得到的对应的表示特征输入分类模型中,最终得到相应的文本分类模型。

6.一种文本表示系统,其特征在于,包括:

构建模块,用于获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;

表示学习模块,用于使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;

文本分类模块,用于将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。

7.根据权利要求6所述的文本表示系统,其特征在于,

所述构建模块,还用于统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;基于得到的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,构建基于主体间性的异质网络。

8.根据权利要求6所述的文本表示系统,其特征在于,

所述表示学习模块,还用于基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数,所述损失函数为:

<mrow> <mi>O</mi> <mo>=</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mrow> <mo>(</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>)</mo> </mrow> <mo>&Element;</mo> <mi>E</mi> </mrow> </munder> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&CenterDot;</mo> <mi>log</mi> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,wij表示节点i和节点j之间的边的权重,logp(vj|vi)为两个节点之间的条件概率,定义如下:

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>v</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>u</mi> <mi>j</mi> <mrow> <mo>&prime;</mo> <mi>T</mi> </mrow> </msubsup> <mo>&CenterDot;</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>u</mi> <mi>k</mi> <mrow> <mo>&prime;</mo> <mi>T</mi> </mrow> </msubsup> <mo>&CenterDot;</mo> <msub> <mi>u</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,ui表示节点i的低维连续向量表示,表示节点j的相邻节点的低维连续向量表示。

9.根据权利要求6-8任意一项所述的文本表示系统,其特征在于,

所述文本分类模块,还用于采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象低维连续向量表示链接到学习获得的文本表示结果中。

10.根据权利要求9所述的文本表示系统,其特征在于,

所述文本分类模块,还用于采用文本建模方式学习文本的低维连续向量表示;对学习获得的文本低维连续向量表示,顺序的接入所述发布者低维连续向量表示和所述评论对象低维连续向量表示,得到对应的表示特征;将得到的对应的表示特征输入分类模型中,最终得到相应的文本分类模型。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1