一种融入句法结构信息的主题挖掘方法、存储介质及系统

文档序号:30089346发布日期:2022-05-18 08:08阅读:89来源:国知局
一种融入句法结构信息的主题挖掘方法、存储介质及系统

1.本发明属于自然语言处理技术领域,涉及一种融入句法结构信息的主题挖掘方法、存储介质及系统。


背景技术:

2.目前在进行社会科学研究时,常常会使用大数据技术对大量的文本信息进行知识挖掘和分析,可以通过爬虫技术以及短文本主题挖掘,对大量的社交文本数据进行训练和分析,并输出相关的主题观点。但短文本的数据特征稀疏,同时传统的主题挖掘模型对语义的内容没有针对性,导致其结果可解释性差。如何利用社交文本,对于某个舆情的走向进行追踪,以及对新发的事件舆情走向进行预测,是目前社会科学领域的热点研究。
3.经过检索,申请公开号cn109766431a,一种基于词义主题模型的社交网络短文本推荐方法,具体步骤:将词义及下义词信息的基于上下文注意力机制的词表示学习融入社交网络短文本推荐中,以丰富文本的词层面特征;将基于词义表示的狄利克雷多项混合分布短文本主题建模融入社交网络短文本推荐中,以丰富文本层面特征;结合社交网络用户关系,用户相关文本的基于词义表示的短文本主题特征,及用户与文本间的潜在关系特征,对随时间演化的用户潜在兴趣度及倾向度进行建模;通过参数估计方法,预测用户对文本的潜在倾向度,并选取倾向度最大的文本推荐给用户,实现短文本推荐。本发明将词义信息融入到短文本主题建模及社交网络短文本推荐任务中,提高了社交网络短文本推荐任务的准确率。其技术上完全不同,本发明用的词汇间的依赖关系,是基于依存分析算法的信息,同时提出了基于该关系的度量方法,并且应用到了算法采样中。他用到了注意力机制提取信息,这些信息是模糊的概念,且没有度量的方法来保障自己提取的信息到底有多少意义。


技术实现要素:

4.本发明旨在解决以上现有技术的问题。提出了一种融入句法结构信息的主题挖掘方法。本发明的技术方案如下:
5.一种融入句法结构信息的主题挖掘方法,其包括以下步骤:
6.获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;
7.将二元词汇关系的期望值输入到句法结构信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布dp-btm模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;
8.给出具体的主题分布结果和主题下词语的分布结果。
9.进一步的,所述社交文本数据集的二元词汇关系信息具体包括:|b|个二元词关系的期望值和l个词语;其中上述二元关系期望值包含两个单词和一个关系期望值,期望值由句法结构信息树包含的二元关系计算所得,其词语是由待挖掘的短文本中出现的单词构成的,句法结构信息树由依存句法工具分析实现,|b|、 l为正整数;当得到待主题挖掘的短文
本时,计算其中出现的二元词汇关系期望值。
10.进一步的,所述利用依存句法分析工具获得句子中出现的依存关系,具体包括:
11.s11、一个短文本di中包含多个句子s,以句子为单位进行分割,对句子进行分词操作获得单词集合w,为单词进行词性标注,并使用依存算法工具获得单词之间存在的句法结构信息;句法结构信息中包含有多个由中心词words、从属词wordd和关系r组成的三元组合,筛选剔除掉其中words、wordd均是同一词的组合;
12.s12将节点中在句法结构信息中仅有做为中心词出现的单词节点挂载到 root节点下,生成句法结构信息树;
13.s13统计句法结构信息树中出现的二元关系,分别为:亲子关系,兄弟关系,叔侄关系和无特殊关系;
14.s14在分别统计树中出现的二元关系之后,以短文本di为单位,将其包含的所有句子sj的句法结构信息树中统计的二元关系进行整合统计;
15.s15计算二元词汇b在文档di中的期望值;
16.s16重复s11-s15步骤对所有文档d中的二元词汇b关系进行期望值计算;
17.s176根据s16的结果最后wordi和wordj在短文本数据集中d的期望值。
18.进一步的,所述s15计算二元词汇b在文档di中的期望值,具体公式为:
19.pk为b所涉及的单词words和worde单词之间关系k出现在文档di下的概率,
[0020][0021]
其中为步骤s13中叙述的四种二元关系在文档di出现次数的总和,当k依次取s,b,u,n时l依次取3,2,1,0,即亲子关系,兄弟关系,叔侄关系和无特殊关系对应的权重分配为(1+γ)3,(1+γ)2,(1+γ)1,(1+γ)0;
[0022]
其在文档di下二元词汇b的关系期望值为
[0023][0024]
进一步的,所述述主题挖掘模型的采样公式为:
[0025][0026]
其中,p是主题为z时的后验概率分布,z是经过采样后二元词汇b= (wordi,wordj)所被分配的主题,wordi和wordi是建模过程中出现的单词,是假设文本当中没有二元词汇b时的主题分布,其中x是文档集合d用二元词汇集合b表示的集合,b是文档中出现的b的集合,α和β是狄利克雷分布的超参数,γ是用于计算二元关系期望值的配比权重,eb是二元词汇b的关系期望值,是将主题z分配给集合x时词汇wordj的采样次数,n
b|z
是将主题z分配给集合x时词汇wordj的采样次数,m是整个x中二元词汇出现的计数。
[0027]
进一步的,所述主题挖掘模型的主题的多项式分布参数θz和主题词像的多项式分布参数由计算所得,
[0028][0029][0030]
进一步的,所述二元词汇关系信息,具体包括:|b|个三元结构, (wordi,wordj,eb),wordi,wordj由原始文档d中分词得到,eb为单词之间的关系期望值。
[0031]
一种计算机可读存储介质,其该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如任一项所述的融入句法结构信息的主题挖掘方法。
[0032]
一种融入句法结构信息的主题挖掘系统,其包括:
[0033]
期望值计算模块:用于获取社交文本数据集,利用依存句法结构对社交文本数据集的二元词汇关系期望值进行计算;
[0034]
主题挖掘模块:用于将二元词汇关系的期望值输入到二元词汇信息构建的主题挖掘模型中,所述主题挖掘模型采用隐含狄利克雷分布dp-btm模型;对待挖掘文本的词语进行采样分析,来确定主题词语分布集合;
[0035]
分析模块:用于根据主题挖掘模型,分析出具体的主题分布结果和主题下词语的分布结果。
[0036]
本发明的优点及有益效果如下:
[0037]
自己定义的公式有创新价值的是这个
[0038][0039]
这个公式把依存句法分析的结果加入到了传统的btm模型,然后起的名字是 dp-btm模型,难以想到的点子是,如何将句法结构信息(也就是由依存句法分析得到的信息学)利用起来放到采样模型中,上述的公式就是将eb(根据句法结构信息计算的二元词汇间的关系期望值)加入到算法采样过程中,这样算法会根据这个期望值的大小,来改变采样的概率,
[0040]
为何不容易想到的原因:传统的依存算法给出的结论是词汇之间有关系,是什么关系,然后这样的信息在btm模型中无法应用,语义信息不是有或者没有的关系。本发明问题的出发点是如何将语义信息融入到btm模型,有哪些信息可以用于计算词汇间关系语义值,然后如何想一种策略把信息转为值。我想到的是根据依存句法分析工具得到句子中词汇间的关系信息,然后剔除掉我不能用的信息,后者说在构建句法结构信息树时会形成闭环的信息,然后通过构建的这颗树中节点之间存在的关系,(两个节点在不同的树下所处的关系不同)例如亲子关系,兄弟关系等,统计不同树下的这些关系,生成一个不不同关系出现的概率分布,然后计算期望值,然后把这个期望值作为当前关系的关系系数用于采样中。然后在在采样中改变一下公式,这样关系值高的关系在采样时就更容易被采中。这样带来的结果就是btm模型结果的可解释性提升了,主题的分离度更高了
附图说明
[0041]
图1是本发明提供优选实施例算法构建的整个流程。
[0042]
图2是构建一颗句法结构信息树的过程。
[0043]
图3是获取二元词汇关联关系期望值的流程图。
[0044]
图4是句子经过依存分析后句法结构信息。
具体实施方式
[0045]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0046]
本发明解决上述技术问题的技术方案是:
[0047]
本发明主题提供了一种融合句法结构信息的短文本主题挖掘方法。采用图3 的流程获取短文本的二元词汇关系期望值,利用图1的模型框架将句法结构信息加入到主题挖掘的过程当中,解决了短文本数据稀疏造成的主题挖掘困难的同时,提升了模型中二元词汇之间的语义联系。
[0048]
本发明的一种融入句法结构信息的主题挖掘的方法包括以下步骤:
[0049]
s1:利用依存句法分析工具获得句子中出现的依存关系。
[0050]
s11一个短文本di中包含多个句子s,以句子为单位进行分割,对句子进行分词操作获得单词集合w,为单词进行词性标注,并使用依存算法工具获得单词之间存在的句法结构信息。句法结构信息中包含有多个由中心词words、从属词wordd和关系r组成的三元组合,筛选剔除掉其中words、wordd均是同一词的组合,剔除后的关系如附图4所示。同时若words、wordd中出现停用词同样剔除掉该组合。
[0051]
s12将节点中在句法结构信息中仅有做为中心词出现的单词节点挂载到 root节点下,构建如图2所示将“巴士”这个节点挂载到了root节点。生成句法结构信息树。
[0052]
s13统计句法结构信息树中出现的二元关系。例如附图2中所示,“巴士”和“出现”在这句话中的句法结构信息为动宾关系,在树形结构关系中为亲子关系,“忽然”和“巴士”之间的关系是兄弟关系,无实际语法修饰关系,“街上”和“很多”之间的关系是叔侄关系,无具体的语法关系。同时在统计关系时去除掉和根节点root的二元关系。得到树中每个二元词汇的如下信息词汇的如下信息和其分别表示为wordi和wordj即二元词汇b在文档di的句子si中出现亲子关系,兄弟关系,叔侄关系和无特殊关系的次数。
[0053]
二元词汇关系信息;该信息中包括:|b|个二元词关系的期望值和l个词语;其中上述二元关系期望值包含两个单词和一个关系期望值,期望值由句法结构信息树包含的二元关系计算所得,其词语是由待挖掘的短文本中出现的单词构成的,句法结构信息树由依存句法工具分析实现,|b|、l为正整数;当得到待主题挖掘的短文本时,计算其中出现的二元词汇关系期望值;调用基于上述二元词汇信息构建的主题挖掘模型,对待挖掘主题文本集合进行主题挖掘,输出o 个主题词语分布集合,o为正整数;其中上述主题挖掘模型是根据|b|个二元词汇关系期望值,l个词语数据,对待挖掘文本的词语进行采样分析,来确定o 个主题词语分布集合。
[0054]
在一种实现方式中,上述短文本d处理后的单词是经过筛选的,其中剔除了停用词以及标点符号。其单词间的二元关系包含为句法结构信息树中除根节点 root外的任意两个节点之间的关系。其中二元词汇关系期望值由句法结构信息树中存在的不同的二元词汇关系统计计算得来。
[0055]
在一种实现方式中,上述句法结构信息树的由来为(是对的),对文档di分句后得到句子集合s,对集合s中的句子分别进行依存句法分析得到句法结构信息,句法结构信息中包含多个三元组合,其三元组和包括中心词words、从属词 worde和关系r。筛选剔除掉其中words、worde均是同一词的三元组合,同时若 words、worde中出现停用词同样剔除掉该组合。将剔除后的仅存在中心词地位的单词挂载到根节点root上构建句法结构信息树。句法结构信息树是一颗树,其节点代表单词,其中节点之间出现的特定关系包含无特殊关系、叔侄关系、兄弟关系和亲子关系。其不同的关系对刻画句子主题的共享度不同。针对这四种关系计算二元词汇之间的关系期望值。
[0056]
s14在分别统计树中出现的二元关系之后,以短文本di为单位,将其包含的所有句子sj的句法结构信息树中统计的二元关系进行整合统计,例如其亲子关系在文档di出现的次数计算公式如下
[0057][0058]
其余关系计算和该式一致。
[0059]
s15计算二元词汇b在文档di中的期望值,pk为b所涉及的单词words和 worde单词之间关系k出现在文档di下的概率。
[0060][0061]
其中为步骤s13中叙述的四种关系在文档di出现次数的总和。当k依次取 s,b,u,n时l依次取3,2,1,0,即亲子关系,兄弟关系,叔侄关系和无特殊关系对应的权重分配为(1+γ)3,(1+γ)2,(1+γ)1,(1+γ)0。
[0062]
其在文档di下二元词汇b的关系期望值为
[0063][0064]
s16重复s11-s15步骤对所有文档d中的二元词汇b关系进行期望值计算。
[0065]
s16根据s16的结果最后wordi和wordj在短文本数据集中d的期望值为
[0066][0067]
s2根据期望值进行求解采样
[0068]
s21根据公式如下公式进行采样求解为二元词汇b进行主题分配
[0069][0070]
其中,p是主题为z时的后验概率分布,z是经过采样后b=(wordi,wordj) 所被分配的主题,wordiwordj是建模过程中采样的单词,是假设文本当中没有b时的表示,其x是
文档集合d用二元词汇b表示的集合,b是文档中出现的 b的集合,α和β是狄利克雷分布的超参数,γ是用于计算二元关系期望值的配比权重,eb是二元词汇组合b的关系期望值,是将主题z分配给文集x时词汇bj的采样次数,n
b|z
是将主题z分配给文集x时词汇b的采样次数。m是整个x中二元词汇出现的计数。
[0071]
s22根据公式
[0072][0073][0074]
对短文本数据级d主题的多项式分布参数θz和主题词的多项式分布参数进行求解。
[0075]
s3:根据参数θz和对文集d给出具体的o个主题分布和主题下词语的分布。
[0076]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0077]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0078]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0079]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1