本发明涉及人工智能技术领域,特别是一种用于语料库的主题聚类模型构建系统及对应的方法。
背景技术:
语料库是指经科学取样和加工的大规模电子文本库。语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,广泛应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。在智能对话或其它有应用到人工智能对话技术、机器人客服等相关技术的领域里,语料库都是必不可少的基础资料,且是支撑起整个系统的关键。
语料库的采集或生成方式有多种形式,包括:⑴异质的(heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(homogeneous):只收集同一类内容的语料;⑶系统的(systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(specialized):只收集用于某一特定用途的语料。
但不管这些语料库如何得到,最终在正式使用前都需要先对语料库进行分类、标识等聚类管理,然后才能将其更好的应用于实际工作中。目前已公开的各种方法都不能很完美的对语料库进行聚类操作,导致对语料库的查询结果不全面、不准确。
技术实现要素:
本发明为解决上述问题,提供了一种用于语料库的主题聚类模型构建系统及其构建方法,其不仅考虑文档内部的主题和词语,而且还考虑了文档外部的关联词语,使模型得到的结果更准确,更接近用户所需要的结果。
为实现上述目的,本发明采用的技术方案为:
一种用于语料库的主题聚类模型构建系统,其包括:
主题提取模块,对语料库中的每篇文档进行抽取主题;
词语提取模块,对抽取的每个主题进行抽取词语;
词语关联模块,对抽取的每个词语进行添加关联词语;
分布统计模块,根据每篇文档抽取的主题,得到文档的主题分布;根据每个主题抽取的词语以及每个词语对应的关联词语,得到主题的词语分布;
概率统计模块,根据文档的主题分布和主题的词语分布,计算得到每个文档中的每个词语的概率值;
结果输出模块,将每个文档中的概率值最大的词语作为该文档的主题名称,并以该主题名称为标识对语料库中的每篇文档进行聚类。
优选的,每篇文档与t个主题的一个多项分布相对应;每个主题进一步与所述词语和所述关联词语的词语集合中的v个词语的一个多项分布相对应。
优选的,所述词语关联模块中,所述关联词语包括:同义词关联词语、近义词关联词语、自定义关联词语。
优选的,所述自定义关联词语,是指将当前文档相关联的外部文档作为关联文档,通过该关联文档进行查找所述词语的关联词语。
优选的,所述概率统计模块中,进一步包括:
根据文档的主题分布得到每个文档中的每个主题的概率值p(t|d);
根据主题的词语分布得到每个主题中的每个词语的概率值p(w|t);
将每个词语的概率值乘以该词语对应主题的概率值计算得到每个文档中的每个词语的概率值p(w|d);即:p(w|d)=p(w|t)*p(t|d)。
相应的,本发明还提供一种用于语料库的主题聚类模型的构建方法,其包括以下步骤:
(10)对语料库中的每篇文档进行抽取主题;
(20)对抽取的每个主题进行抽取词语;
(30)对抽取的每个词语进行添加关联词语;
(40)根据每篇文档抽取的主题,得到文档的主题分布;根据每个主题抽取的词语以及每个词语对应的关联词语,得到主题的词语分布;
(50)根据文档的主题分布和主题的词语分布,计算得到每个文档中的每个词语的概率值;
(60)将每个文档中的概率值最大的词语作为该文档的主题名称,并以该主题名称为标识对语料库中的每篇文档进行聚类。
优选的,所述的步骤(10)中,每篇文档与t个主题的一个多项分布相对应;所述的步骤(20)和步骤(30)中,每个主题进一步与所述词语和所述关联词语的词语集合中的v个词语的一个多项分布相对应。
优选的,所述的步骤(30)中,所述关联词语包括:同义词关联词语、近义词关联词语、自定义关联词语;其中,所述自定义关联词语,是指将当前文档相关联的外部文档作为关联文档,通过该关联文档进行查找所述词语的关联词语。
优选的,所述的步骤(50)中,进一步包括:
(51)根据文档的主题分布得到每个文档中的每个主题的概率值p(t|d);
(52)根据主题的词语分布得到每个主题中的每个词语的概率值p(w|t);
(53)将每个词语的概率值乘以该词语对应主题的概率值计算得到每个文档中的每个词语的概率值p(w|d);即:p(w|d)=p(w|t)*p(t|d)。
本发明的有益效果是:
本发明的一种用于语料库的主题聚类模型构建系统及其构建方法,其通过对语料库中的每篇文档进行抽取主题,并对抽取的每个主题进行抽取词语以及对抽取的每个词语进行添加关联词语,根据每篇文档抽取的主题得到文档的主题分布,根据每个主题抽取的词语以及每个词语对应的关联词语得到主题的词语分布;然后根据文档的主题分布和主题的词语分布,计算得到每个文档中的每个词语的概率值,并将每个文档中的概率值最大的词语作为该文档的主题名称,最后以该主题名称为标识对语料库中的每篇文档进行聚类;其不仅考虑了文档内部的主题和词语,而且还考虑了文档外部的关联词语,使模型输出结果更准确,更接近用户所需要的结果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种用于语料库的主题聚类模型构建系统的结构示意图;
图2为本发明一种用于语料库的主题聚类模型的构建方法的流程简图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种用于语料库的主题聚类模型构建系统,其包括:
主题提取模块,对语料库中的每篇文档进行抽取主题;
词语提取模块,对抽取的每个主题进行抽取词语;
词语关联模块,对抽取的每个词语进行添加关联词语;
分布统计模块,根据每篇文档抽取的主题,得到文档的主题分布;根据每个主题抽取的词语以及每个词语对应的关联词语,得到主题的词语分布;
概率统计模块,根据文档的主题分布和主题的词语分布,计算得到每个文档中的每个词语的概率值;
结果输出模块,将每个文档中的概率值最大的词语作为该文档的主题名称,并以该主题名称为标识对语料库中的每篇文档进行聚类。
其中,每篇文档与t个主题的一个多项分布相对应,将该多项分布记为θ;每个主题进一步与所述词语和所述关联词语的词语集合中的v个词语的一个多项分布相对应,将这个多项分布记为
所述词语关联模块中,所述关联词语包括:同义词关联词语、近义词关联词语、自定义关联词语。其中,所述自定义关联词语,是指将当前文档相关联的外部文档作为关联文档,通过该关联文档进行查找所述词语的关联词语。
所述概率统计模块中,进一步包括:
根据文档的主题分布得到每个文档中的每个主题的概率值p(t|d);
根据主题的词语分布得到每个主题中的每个词语的概率值p(w|t);
将每个词语的概率值乘以该词语对应主题的概率值计算得到每个文档中的每个词语的概率值p(w|d);即:p(w|d)=p(w|t)*p(t|d)。
如图2所示,本发明还提供一种用于语料库的主题聚类模型的构建方法,其包括以下步骤:
(10)对语料库中的每篇文档进行抽取主题;
(20)对抽取的每个主题进行抽取词语;
(30)对抽取的每个词语进行添加关联词语;
(40)根据每篇文档抽取的主题,得到文档的主题分布;根据每个主题抽取的词语以及每个词语对应的关联词语,得到主题的词语分布;
(50)根据文档的主题分布和主题的词语分布,计算得到每个文档中的每个词语的概率值;
(60)将每个文档中的概率值最大的词语作为该文档的主题名称,并以该主题名称为标识对语料库中的每篇文档进行聚类。
所述的步骤(10)至步骤(30),具体如下:
1、对语料库中的每一篇文档,从主题分布中抽取一个主题;
2、从上述被抽到的主题所对应的词语分布中抽取一个词语;
3、对所述词语加入同义词关联词语、近义词关联词语、自定义关联词语其中,所述自定义关联词语,是指将当前文档相关联的外部文档作为关联文档,通过该关联文档进行查找所述词语的关联词语(如乔布斯与苹果,苹果与华为);
4、重复上述过程,直到所有文档的所有主题、所有词语都被抽取到。
本实施例中,每篇文档与t个主题的一个多项分布相对应,将该多项分布记为θ;每个主题进一步与所述词语和所述关联词语的词语集合中的v个词语的一个多项分布相对应,将这个多项分布记为
所述的步骤(50)中,进一步包括:
(51)根据文档的主题分布得到每个文档中的每个主题的概率值p(t|d);
(52)根据主题的词语分布得到每个主题中的每个词语的概率值p(w|t);
(53)将每个词语的概率值乘以该词语对应主题的概率值计算得到每个文档中的每个词语的概率值p(w|d);即:p(w|d)=p(w|t)*p(t|d);
其中,整个语料库用d表示,语料库中的单个文档用d表示,t表示多个主题的集合,单个主题用t表示,w表示单个文档d中的单个词语。
例:
1.算法开始时,对所有的文档d和主题t,先随机地给θd和
2.针对一个特定的文档df中的第n单词wn,如果令该单词对应的主题为tj,可以把公式改写为:pj(wn|df)=p(wn|tj)*p(tj|df);
3.枚举t中的主题,得到所有的pj(wn|df),其中j取值1~k。然后可以根据这些概率值结果为df中的第n个单词wn选择一个主题;
4.如果df中的第n个单词wn在这里选择了一个与原先不同的主题,就会对θd和
5.这样进行多次循环更新之后,就会得到模型所需要的结果。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。