一种文本聚类方法、装置、设备及可读存储介质与流程

文档序号:15999858发布日期:2018-11-20 19:18阅读:164来源:国知局

本发明涉及聚类技术领域,更具体地说,涉及一种文本聚类方法、装置、设备及可读存储介质。



背景技术:

随着计算机技术和聚类技术的不断融合发展,文本聚类成为对文本信息进行有效地组织、摘要和导航的重要手段。

目前,现有的文本聚类一般基于单机系统实现,由于机器有限,故其可涵盖的文本量较少;且由于其在聚类过程中,将聚类的中间结果存储于后端硬盘中,导致在迭代计算时,每次都需要从硬盘中读取数据,如此便降低了计算速率,进而导致文本聚类的效率有所降低;同时,由于其采用的聚类分析的算法较为复杂,在计算速率缓慢的情况下,可能无法确保聚类结果的准确性。

因此,如何提高文本聚类的效率和准确性,是本领域技术人员需要解决的问题。



技术实现要素:

本发明的目的在于提供一种文本聚类方法、装置、设备及可读存储介质,以提高文本聚类的效率和准确性。

为实现上述目的,本发明实施例提供了如下技术方案:

一种文本聚类方法,应用于分布式集群中的服务器,包括:

获取待聚类的目标源文本;

采用最大概率法提取所述目标源文本中的文本特征,获得目标数据;

从自身缓存中读取预设的神经网络训练模型;

根据所述神经网络训练模型和神经网络算法,对所述目标数据进行聚类分析,并生成与所述目标源文本对应的文件族。

其中,所述采用最大概率法提取所述目标源文本中的文本特征,获得目标数据,包括:

对所述目标源文件进行预处理,并从预处理后的目标源文本中提取文本分词,所述文本分词包括:数字、日期、名字和词性;

从所述文本分词中提取所述文本特征,并通过所述最大概率法确定出现概率最大的文本特征,所述文本特征包括:词权重、词频和逆文档频率。

其中,所述神经网络训练模型的生成包括:

获取目标训练文本,并对所述目标训练文本进行归一化处理;

基于随机数,以及预设的连接值和阈值,对归一化处理后的目标训练文本进行稀疏逻辑回归,获得目标训练集合;

基于所述随机数,所述连接值和所述阈值迭代计算所述目标训练集合,生成所述神经网络训练模型。

其中,所述生成与所述目标源文本对应的文件族,包括:

通过向量空间模型和向量间空间夹角的余弦值生成所述文件族。

其中,所述生成与所述目标源文本对应的文件族之后,还包括:

将所述文件族进行可视化展示。

一种文本聚类装置,应用于分布式集群中的服务器,包括:

获取模块,用于获取待聚类的目标源文本;

提取模块,用于采用最大概率法提取所述目标源文本中的文本特征,获得目标数据;

读取模块,用于从自身缓存中读取预设的神经网络训练模型;

聚类模块,用于根据所述神经网络训练模型和神经网络算法,对所述目标数据进行聚类分析,并生成与所述目标源文本对应的文件族。

其中,所述提取模块包括:

预处理单元,用于对所述目标源文件进行预处理,并从预处理后的目标源文本中提取文本分词,所述文本分词包括:数字、日期、名字和词性;

提取单元,用于从所述文本分词中提取所述文本特征,并通过所述最大概率法确定出现概率最大的文本特征,所述文本特征包括:词权重、词频和逆文档频率。

其中,所述聚类模块具体用于:

通过向量空间模型和向量间空间夹角的余弦值生成所述文件族。

一种文本聚类设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述任意一项所述的文本聚类方法的步骤。

一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的文本聚类方法的步骤。

通过以上方案可知,本发明实施例提供了一种文本聚类方法,应用于分布式集群中的服务器,包括:获取待聚类的目标源文本;采用最大概率法提取所述目标源文本中的文本特征,获得目标数据;从自身缓存中读取预设的神经网络训练模型;根据所述神经网络训练模型和神经网络算法,对所述目标数据进行聚类分析,并生成与所述目标源文本对应的文件族。

可见,所述方法通过提取获取到的目标源文本中的文本特征,获得目标数据,并基于分布式集群中的服务器的缓存、神经网络训练模型以及神经网络算法对目标数据进行聚类分析,从而生成与目标源文本对应的文件族。其中,由于该方法应用于分布式集群,因而其可涵盖的文本量较大,故扩大了文本聚类的数据量;并且,由于神经网络训练模型存储于服务器的缓存,聚类过程中产生的中间结果也存储于服务器的缓存,因此在聚类过程中,不断从缓存中读取数据,可提高数据读取速率,进而提高了文本聚类的效率;同时,本方案采用神经网络算法提高了聚类结果的准确性。

若使用本方法对企业文本进行聚类分析,不仅可提高文本聚类的效率,且由于企业文本较为规范,其得到的聚类结果的准确性将大幅度提升,基于这样的聚类结果,也便于工作人员查找文件,提高工作效率。

相应地,本发明实施例提供的一种文本聚类装置、设备及可读存储介质,也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种文本聚类方法流程图;

图2为本发明实施例公开的另一种文本聚类方法流程图;

图3为本发明实施例公开的一种文本聚类装置示意图;

图4为本发明实施例公开的一种文本聚类设备示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种文本聚类方法、装置、设备及可读存储介质,以提高文本聚类的效率和准确性。

参见图1,本发明实施例提供的一种文本聚类方法,应用于分布式集群中的服务器,包括:

S101、获取待聚类的目标源文本;

具体的,所述目标源文件包括:各类企业文本文件以及网络短文本文件。

S102、采用最大概率法提取目标源文本中的文本特征,获得目标数据;

在本实施例中,当获取到待聚类的目标源文件时,首先采用最大概率法提取目标源文本中的文本特征,以获得目标数据。

其中,一个待切分的汉字串可能包含多种文本分词。例如“有意见分歧”这句话,其可能的结果包括:“有/意见/分歧”,“有意/见/分歧”,甚至更多。此时,可以将其中概率最大的文本分词确定为最终的文本分词。

S103、从自身缓存中读取预设的神经网络训练模型;

具体的,所述神经网络训练模型预先存储于各个服务器的缓存中,如此在文本聚类过程中产生的中间结果,也将暂存于各个服务器的缓存中。因此可不断从缓存中读取中间结果,如此可提高数据读取速率,并进而提高文本聚类效率。

S104、根据神经网络训练模型和神经网络算法,对目标数据进行聚类分析,并生成与目标源文本对应的文件族。

优选地,当待聚类的目标源文件的数量为10亿个时,基于本实施例提供的文本聚类方法,可将这10亿个目标源文件划分为多个文件集合,并将划分得到的文件集合分配至分布式集群中的服务器,以使每台服务器并行对每个文件集合进行聚类分析,从而提高文本聚类的数据处理量和处理效率。

例如:当分布式集群中存在10个节点,即存在10个服务器,那么将10亿个目标源文件划分为10个文件集合,每个文件集合包括1亿个目标文件。如此一台服务器便处理1亿个目标源文件,且分布式集群中的每台服务器并行处理,如此可大幅度提高文本聚类的处理效率。当然,为了便于管理,可以将这10个节点按照各自业务的不同划分为主节点和从节点;其中,主节点的数量可以设置为2个,当其中一个突发故障时,另一个可作为备用,以应对不时之需。

可见,本实施例提供了一种文本聚类方法,所述方法通过提取获取到的目标源文本中的文本特征,获得目标数据,并基于分布式集群中的服务器的缓存、神经网络训练模型以及神经网络算法对目标数据进行聚类分析,从而生成与目标源文本对应的文件族。其中,由于该方法应用于分布式集群,因而其可涵盖的文本量较大,故扩大了文本聚类的数据量;并且,由于神经网络训练模型存储于服务器的缓存,聚类过程中产生的中间结果也存储于服务器的缓存,因此在聚类过程中,不断从缓存中读取数据,可提高数据读取速率,进而提高了文本聚类的效率;同时,本方案采用神经网络算法提高了聚类结果的准确性。若使用本方法对企业文本进行聚类分析,不仅可提高文本聚类的效率,且由于企业文本较为规范,其得到的聚类结果的准确性将大幅度提升,基于这样的聚类结果,也便于工作人员查找文件,提高工作效率。

本发明实施例公开了另一种文本聚类方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。

参见图2,本发明实施例提供的另一种文本聚类方法,应用于分布式集群中的服务器,包括:

S202、获取待聚类的目标源文本;

S202、采用最大概率法提取目标源文本中的文本特征,获得目标数据;

在本实施例中,所述目标数据为文本矩阵。

S203、从自身缓存中读取预设的神经网络训练模型;

S204、根据神经网络训练模型和神经网络算法,对目标数据进行聚类分析;

S205、通过向量空间模型和向量间空间夹角的余弦值生成与目标源文件对应的文件族。

在本实施例中,通过向量空间模型和向量间空间夹角的余弦值生成与目标源文件对应的文件族。

其中,向量空间模型的基本思想是把文本简化为以特征项(即关键词)的权重为分量的N维向量来表示。此模型假设词与词之间不相关,用向量来表示文本,从而简化文本中的关键词之间的复杂关系,将文本用十分简单的向量来表示,使得此模型具备了可计算性。需要说明的是,在向量空间模型中,文本泛指各种机器可读的记录。

若用D表示文本,用T表示特征项,则文本D中能够代表该文本内容的基本语言单位为T,其主要是由词或者短语构成。其中,文本D可以用特征项集表示为:D(T1,T2,……,Tn),其中Tk是特征项,且满足1≤k≤n。

假设一篇文本中有a、b、c、d四个特征项,那么此文本可表示为:D(a,b,c,d),对于其它要与之比较的文本,也将遵从这个特征项顺序。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即:D=D(T1,W1;T2,W2;……,Tn,Wn),简记为D=D(W1,W2,……,Wn),此称之为文本D的权值向量表示,其中,Wk是Tk的权重,1≤k≤n。

基于上述假设,若a、b、c、d的权重分别为30、20、20、10,那么该文本的向量表示为:D(30,20,20,10)。而在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)用向量之间夹角的余弦值来表示,表示公式为:

其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,θ为向量D1和向量D2的空间夹角,1≤k≤n。

需要说明的是,在文本聚类过程中的进行文本归类时,可利用上述方法计算待归类文本和某类目的相关度。

假设文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为:D1(30,20,20,10,0),C1的向量表示为:C1(40,0,30,20,10),则向量C1和向量D1之间夹角的余弦值为:0.86,即文本D1与类目C1相关度为0.86。

具体计算过程为:n维向量V{v1,v2,v3,...,vn}的模为|v|=sqrt(v1*v1+v2*v2+…+vn*vn),

那么两个向量的点积为:m*n=n1*m1+n2*m2+......+nn*mn,相似度为:sim=(m*n)/(|m|*|n|),其中,相似度的物理意义即为两个向量的空间夹角的余弦值。

可见,本实施例提供了另一种文本聚类方法,所述方法通过提取获取到的目标源文本中的文本特征,获得目标数据,并基于分布式集群中的服务器的缓存、神经网络训练模型以及神经网络算法对目标数据进行聚类分析,从而通过向量空间模型和向量间空间夹角的余弦值生成与目标源文本对应的文件族。其中,由于该方法应用于分布式集群,因而其可涵盖的文本量较大,故扩大了文本聚类的数据量;并且,由于神经网络训练模型存储于服务器的缓存,聚类过程中产生的中间结果也存储于服务器的缓存,因此在聚类过程中,不断从缓存中读取数据,可提高数据读取速率,进而提高了文本聚类的效率;同时,本方案采用神经网络算法提高了聚类结果的准确性。

若使用本方法对企业文本进行聚类分析,不仅可提高文本聚类的效率,且由于企业文本较为规范,其得到的聚类结果的准确性将大幅度提升,基于这样的聚类结果,也便于工作人员查找文件,提高工作效率。

基于上述任意实施例,需要说明的是,所述采用最大概率法提取所述目标源文本中的文本特征,获得目标数据,包括:

对所述目标源文件进行预处理,并从预处理后的目标源文本中提取文本分词,所述文本分词包括:数字、日期、名字和词性;

从所述文本分词中提取所述文本特征,并通过所述最大概率法确定出现概率最大的文本特征,所述文本特征包括:词权重、词频和逆文档频率。

具体的,文本特征的提取过程可用下述公式表示:

故:P(W)=P(W1,W2,...,Wi)≈P(W1)×P(W2)×...×P(Wi),即P(Wi)等于Wi在语料库中出现的次数n,与语料库中的总词数N的商。其中,语料库中存储有经取样和加工大量文本。

其中,P(W|S)表示词语在文档中出现的频率,P(S|W)是文本包含的词语的概率,可近似地将P(S|W)看作是恒等于1的,因为任意假想的一种分词方式之下生成的句子总是精准地生成分词结果(只需把分词之间的分界符号扔掉即可),而P(S)在各种分词方式下总是相等的,所以不影响比较。所以P(W|S)约等于P(W)。

在表达词权重时,可将文本在向量空间模型中表示为矢量。其中,词权重表示句子中的词在该语句中的贡献度,例如:“Most scientists think that butterflies use the position of the sun in the sky as a kind of compass that allows them to determine which way is north”,其中:重要的词包括:butterflies、monarchs、scientists、compass;不重要的词包括:most、think、kind、sky;而词权重就是反映每个词的重要性的度量。

词频表示一个词在该语句中出现的次数,用于计算词权重,所以词权重T的计算公式为:

其中,tf为词频,doc_length为汉字串长度。

具体的,词权重的提取方法包括:通过贝叶斯公式获取分词中的主题词候选;获取主题词候选的词频和位置;对主题词候选的词权重进行求解;将词权重最大的主题词候选作为最终的词权重。其中,主题词候选的计算公式为:weighti=α×frei+e×loci,其中,weighti为主题词候选的权重,frei为词频权重因子,loci为位置权重因子,α为词频调节因子,e为位置因子调节因子,i为主题词候选。

逆文档频率表示包含某个词的文本的数目。通常来说,如果一个词在越多的文本中出现过,那么该词对文本的贡献度就越小,即用该词来区分不同文本时,其区分度较小。逆文档频率I的计算公式为:

其中,N为分词出现的次数,df为文档频率,且该计算公式可使逆文档频率的范围处于[0,1]之间。

基于上述任意实施例,需要说明的是,在文本数据的分析过程中,其中间数据均存储于缓存,以便于提高数据的读取效率。

基于上述任意实施例,需要说明的是,所述神经网络训练模型的生成包括:

获取目标训练文本,并对所述目标训练文本进行归一化处理;

基于随机数,以及预设的连接值和阈值,对归一化处理后的目标训练文本进行稀疏逻辑回归,获得目标训练集合;

基于所述随机数,所述连接值和所述阈值迭代计算所述目标训练集合,生成所述神经网络训练模型。

基于上述任意实施例,需要说明的是,所述生成与所述目标源文本对应的文件族之后,还包括:

将所述文件族进行可视化展示。

基于上述任意实施例,需要说明的是,采用本实施例提供的文聚类方法可构建用于文本聚类的如下服务器集群。设置大于20个节点(服务器)的分布式集群,将集群中的服务器划分为主服务器和从服务器,主服务器用于管理从服务器,并在每台服务器上采用神经网络算法对源文本进行高性能的聚类分析;同时,聚类过程基于缓存实现。其中,该分布式集群采用hadoop平台,以提高分布式集群的兼容性。

下面对本发明实施例提供的一种文本聚类装置进行介绍,下文描述的一种文本聚类装置与上文描述的一种文本聚类方法可以相互参照。

参见图3,本发明实施例提供的一种文本聚类装置,应用于分布式集群中的服务器,包括:

获取模块301,用于获取待聚类的目标源文本;

提取模块302,用于采用最大概率法提取所述目标源文本中的文本特征,获得目标数据;

读取模块303,用于从自身缓存中读取预设的神经网络训练模型;

聚类模块304,用于根据所述神经网络训练模型和神经网络算法,对所述目标数据进行聚类分析,并生成与所述目标源文本对应的文件族。

其中,所述提取模块包括:

预处理单元,用于对所述目标源文件进行预处理,并从预处理后的目标源文本中提取文本分词,所述文本分词包括:数字、日期、名字和词性;

提取单元,用于从所述文本分词中提取所述文本特征,并通过所述最大概率法确定出现概率最大的文本特征,所述文本特征包括:词权重、词频和逆文档频率。

其中,所述聚类模块具体用于:

通过向量空间模型和向量间空间夹角的余弦值生成所述文件族。

其中,还包括:所述神经网络训练模型生成模块,所述生成模块包括:

获取单元,用于获取目标训练文本,并对所述目标训练文本进行归一化处理;

逻辑回归单元,用于基于随机数,以及预设的连接值和阈值,对归一化处理后的目标训练文本进行稀疏逻辑回归,获得目标训练集合;

计算单元,用于基于所述随机数,所述连接值和所述阈值迭代计算所述目标训练集合,生成所述神经网络训练模型。

其中,还包括:

展示模块,用于将所述文件族进行可视化展示。

下面对本发明实施例提供的一种文本聚类设备进行介绍,下文描述的一种文本聚类设备与上文描述的一种文本聚类方法及装置可以相互参照。

参见图4,本发明实施例提供的一种文本聚类设备,包括:

存储器401,用于存储计算机程序;

处理器402,用于执行所述计算机程序时实现上述任意实施例所述的文本聚类方法的步骤。

下面对本发明实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种文本聚类方法、装置及设备可以相互参照。

一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意实施例所述的文本聚类方法的步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1