一种文本相似度的计算方法、装置、设备和存储介质与流程

文档序号:15932541发布日期:2018-11-14 01:52阅读:165来源:国知局

本发明实施例涉及数据处理领域,尤其涉及一种文本相似度的计算方法、装置、设备和存储介质。

背景技术

随着数字化技术的发展,企业内部存储有大量的文本数据,用户在分析这些文本数据时,需要寻找并查阅相似的文本信息,从而快速理解各个文本。由于文本数据的增多,人工阅读每个文本,利用人工标注的文本类别或标签进行文本相似度判断的方法,已经不能满足时效性需求,也无法保证标注质量的统一,因此需要通过计算机自然语言处理来判断各个文本的相似度。

目前,在判断文本相似度时,主要通过对需要分析的文本数据,也就是目标文本,和参考查阅的文本数据,也就是对标文本,进行分词得到各个单词序列,再在对应单词序列中抽取文本的关键词或关键句,通过比较目标文本和对标文本的关键词或关键句,或者通过比较目标文本和对标文本的词向量来判断目标文本和对标文本的相似度。

现有技术中的文本相似度判断主要是针对文本整体相似度的判断,而在文本包含有多个主题时,文本整体相似度不能代表文本中每个主题的相似度,减弱了文本相关内容间的相似度,降低了用户对相似文本内容的查阅量。



技术实现要素:

本发明实施例提供了一种文本相似度的计算方法、装置、设备和存储介质,在判断文本整体相似度的同时,实现文本不同主题内容间的相似度判断,增加了文本相似度判断的多样性,提高了用户对相似文本内容的查阅量。

第一方面,本发明实施例提供了一种文本相似度的计算方法,该方法包括:

根据用户需求获取目标文本和至少一个对标文本,并对所述至少一个对标文本进行分词处理得到对应的单词序列;

对所述对标文本的单词序列中的各单词进行聚类处理,分别得到所述对标文本中的主题及对应的关键词;

根据所述对标文本的关键词,分别计算所述目标文本与所述至少一个对标文本中各主题的文本相似度。

第二方面,本发明实施例提供了一种文本相似度的计算装置,该装置包括:

文本分词模块,用于根据用户需求获取目标文本和至少一个对标文本,并对所述至少一个对标文本进行分词处理得到对应的单词序列;

主题聚类模块,用于对所述对标文本的单词序列中的各单词进行聚类处理,分别得到所述对标文本中的主题及对应的关键词;

相似度计算模块,用于根据所述对标文本的关键词,分别计算所述目标文本与所述至少一个对标文本中各主题的文本相似度。

第三方面,本发明实施例提供了一种设备,该设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的文本相似度的计算方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的文本相似度的计算方法。

本发明实施例提供的一种文本相似度的计算方法、装置、设备和存储介质,通过聚类获取对标文本中包含的各主题和对应的关键词,从而实现了目标文本和对标文本中不同主题内容的相似度判断,增加了文本相似度判断的多样性,提高了用户对相似文本内容的查阅量,使用户可以快速、精准地理解目标文本。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1a为本发明实施例一提供的一种文本相似度的计算方法的流程图;

图1b为本发明实施例一提供的方法中根据对标文本的关键词,分别计算目标文本与至少一个对标文本中各主题的文本相似度的方法流程图;

图2为本发明实施例二提供的方法中对对标文本的单词序列中的各单词进行聚类处理,分别得到对标文本中的主题及对应的关键词的方法流程图;

图3为本发明实施例三提供的一种文本相似度的计算方法的流程图;

图4为本发明实施例四提供的应用于具体目标文本和对标文本中的一种文本相似度的计算方法的流程图;

图5为本发明实施例五提供的一种文本相似度的计算装置的结构示意图;

图6为本发明实施例六提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1a为本发明实施例一提供的一种文本相似度的计算方法的流程图,本实施例可适用于任一需要分析文本数据的文档管理系统或专家系统中。本实施例提供的一种文本相似度的计算方法可以由本发明实施例提供的文本相似度的计算装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中,在本实施例中执行本方法的设备可以是平板电脑、台式机和笔记本等任意一种可以查询分析文档数据的设备。具体的,参考图1a,该方法可以包括如下步骤:

s110,根据用户需求获取目标文本和至少一个对标文本,并对至少一个对标文本进行分词处理得到对应的单词序列。

其中,在一些文档管理系统或企业专家系统中存储有大量的文本,企业可以对这些文本进行分析、分享和交流。目标文本是文档管理系统中由于用户需求分析的一类文本数据,通过在文档管理系统中寻找查阅与目标文本相似的参考文本,对该目标文本进行理解;对标文本是在文档管理系统中用户选取的易于理解目标文本的参考文本数据。

具体的,为了快速理解目标文本,需要选取与目标文本相似度高的对标文本。此时,分词可以将文本中连续的汉字序列按照一定的规范重新组合成词序列,也就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词,通过对文本分词可以得到文本中包含的多个独立单词,易于判断两个文本间的相似度。其中,现有的分词算法可以分成三类:基于字符串匹配的分词方法、基于理解的分词方法以及基于统计和机器学习的分词方法。需要说明的是,本实施例中可以通过基于统计和机器学习的分词方法来对文本进行分词。

具体的,用户在需要对文档管理系统中的一篇目标文档进行阅读理解时,可以预先查找出与该目标文本相似的参考文本,也就是对标文本。可选的,根据查阅文本相关的用户需要,首先获取用户需要查阅的目标文本,以及作为参考信息的至少一个对标文本,以便于对该目标文本进行阅读理解。此时,为了确定获取的至少一个对标文本中与目标文本的相似度信息,可以采用任一种分词方法对至少一个对标文本进行分词处理,从而得到各对标文本对应的单词序列。

可选的,本实施例中对对标文本进行分词时,还可以预先设置用户词典和停用词词典。其中,用户词典记录相关文本所属领域的特定单词,以辅助划分单词,得到准确的单词序列;停用词词典记录需要删除的单词,可以包括一些语气助词、代词和副词等此类无实在意义的虚词,通过去除对标文本的分词结果中的停用词,将剩余的单词作为每个对标文本单词序列,得到准确的分词结果。用户词典和停用词词典的设置可以提高文本分词的准确性,进一步优化了两个文本相似度的计算性能。

s120,对对标文本的单词序列中的各单词进行聚类处理,分别得到对标文本中的主题及对应的关键词。

其中,聚类算法是一种无监督的机器学习方法,不需要预先对文本中的各个单词手工标注类别,具有一定的灵活性和较高的自动化处理能力。进一步的,聚类算法可以大概分为5种:划分法、层次法、基于密度的聚类方法、基于网格的聚类方法以及基于模型的聚类方法。其中,划分法,也就是基于划分的聚类算法,对文本中的各单词首先划分为k个分组,每个分组至少包含一个单词,且每个单词属于且仅属于一个分组里,同时对于给定的分组数k,首先给出一个初始的分组数,此后通过反复迭代的方法依次改变分组数,使得每一次改进之后的分组方案都较前一次好,也就是分组后同一分组中的单词几乎不变。基于划分的聚类算法有:k-means算法、k-medoids算法和clarans算法等。

进一步的,对标文本中的主题分别代表对标文本中表述不同内容的文本部分,通过判断对标文本中分词后的各个单词之间的相似性,而对对标文本中各单词进行聚类,从而得到不同主题。各主题中对应的关键词可以是对各个单词进行聚类时,分布到同一主题中的对应的单词,表示该主题的大致文本内容。

可选的,在得到对标文本分词后对应的单词序列时,为了增加文本相似度判断的多样性,计算目标文本与对标文本中各个主题的相似度,需要采用聚类算法对至少一个对标文本的单词序列中的各单词进行聚类处理,对各个单词之间的相似度进行判断,分别将相似度高的多个单词作为对标文本的一个主题,从而将各个单词根据相关相似度分到不同的主题中。

需要说明的是,本实施例中对对标文本的单词序列中的各单词进行聚类时,通常采用基于划分的聚类算法,尤其是k-means算法。具体的,通过先预设分组数k,对对标文本的单词序列中的各单词根据中心距离进行反复迭代,从而将各单词划分为对应主题下的内容。此种聚类方法对对标文本中各单词的输入顺序没有要求,而且可以在任意范围内进行聚类,提高了聚类的准确性。

s130,根据对标文本的关键词,分别计算目标文本与至少一个对标文本中各主题的文本相似度。

具体的,在得到对标文本中的各主题和对应的关键词后,可以通过获取目标文本在分词后的单词序列中的各个单词,通过比较目标文本的各单词和对标文本中各主题对应的关键词,来判断两个文本之间的相似度。比如,可以通过比较目标文本和各对标文本各主题中相同单词和关键词的权重和数量来判断目标文本和至少一个对标文本中各主题的文本相似度,也可以将目标文本中的各单词和对标文本的各主题对应的关键词转换到向量空间,利用向量之间的距离来判断目标文本和至少一个对标文本中各主题的文本相似度。目标文本和至少一个对标文本中各主题的文本相似度的计算,可以提升文本相似度判断的多样性,使用户快速、精准地理解目标文本。

在上述实施例的基础上,如图1b所示,根据对标文本的关键词,分别计算目标文本与至少一个对标文本中各主题的文本相似度,还可以具体包括如下步骤:

s131,对目标文本进行分词处理,获取目标文本中的全部目标单词。

其中,对目标文本的分词可以采用前文中提到的对标文本采用的分词技术,获取目标文本分词后的单词序列中的各单词。目标单词为目标文本分词后对应的单词序列中的全部单词。

可选的,通过统计和机器学习的分词方法对目标文本进行分词,并在预先设置的用户词典和停用词词典的基础上,对分词进行完善,得到目标文本中较为准确的分词结果,并在分词后的单词序列中获取目标文本对应的全部目标单词,也就是分词后的单词序列中的各单词。

s132,根据至少一个对标文本中各主题的关键词的词向量和权重,分别确定各目标单词与各主题的相似度。

其中,对标文本中各主题及对应的关键词在前文对对标文本分词后的各单词进行聚类得到,此时,为了判断目标文本与对标文本各主题的文本相似度,可以通过首先判断目标文本和对标文本中各单词对应的向量之间的距离来判断相似性。具体的,首先对目标文本中的单词和对标文本中的关键词求取对应的词向量,该关键词的词向量是以目标文本的向量空间为基准空间而确定的单词向量。可选的,本实施例中词向量可以通过word2vec工具来获取,word2vec是google开源的一款用于将词转换为向量计算的工具,该工具使用浅层神经网络训练方法,可以在百万数量级的词典和上亿的数据集上高效地训练,所得到的词向量可以很好地衡量词与词之间的相似度。

进一步的,单词权重可以表示各个单词在对应文本中的相对重要程度,通过单词权重的影响,可以进一步表述文本之间的相似性。其中,各个单词的权重可以通过tf-idf指标计算方法来得到。tf-idf指标计算方法如下述公式所示:

其中,tf-idfi,j表示文本中第i个单词在第j个文本中的权重,ni,j表示第i个单词在第j个文本中的出现次数,d表示对标文本的文件总数,j:ti∈dj表示包含词语ti的文本数目(即ni,j≠0的文本数目)。通过这种计算方法可以过滤掉常见的词语,保留重要的词语。tf-idfi,j可以依次计算出目标文本和对标文本中各个单词的权重。可选的,如果对标文本中分词后的各单词均为关键词,则该单词的经过归一化处理后的tf-idf指标计算的权重作为对应的关键词权重,如果对标文本中分词后的各单词中仅选取其中部分单词作为对标文本的关键词,则根据该选取的部分单词的tf-idf指标权重,进行归一化处理得到对标文本各个主题中关键词的权重。

可选的,在获取到目标文本中的全部目标单词时,获取目标单词的词向量,并以目标文本的向量空间为基准向量空间,求取各个对标文本各主题中的对应关键词的词向量,并根据tf-idf指标计算方法求取各个关键词在对标文本各主题中的权重,此时依次根据各个目标单词的词向量与对标文本中各主题对应的关键词的词向量,确定目标文本和对标文本各主题中的各个对应的词向量之间的距离,并结合各个关键词在各对标文本的对应主题中的权重,分别得到各目标单词与各主题中各关键词的相似度,此时,根据各主题包含的各个关键词与目标单词的对应相似度,通过预设方法可以得到目标文本中各目标单词与各主题的文本相似度。

s133,分别根据各目标单词与各主题的相似度,依次确定目标文本与至少一个对标文本中各主题的文本相似度。

具体的,在得到目标文本中各目标单词与对标文本中各主题的相似度时,根据目标单词的数量,可以通过求取各目标单词相对于同一主题的平均相似度,作为目标文本与该主题的文本相似度,也可以通过求取各目标单词相对于同一主题的最大相似度作为目标文本与该主题的文本相似度。本实施例中,将各目标单词相对于对标文本同一主题的平均相似度,作为目标文本与对标文本中该主题的文本相似度,从而根据上述方法依次确定目标文本与至少一个对标文本中各主题的文本相似度。

本实施例的技术方案,通过聚类获取对标文本中包含的各主题和对应的关键词,从而实现了目标文本和对标文本中不同主题内容的相似度判断,增加了文本相似度判断的多样性,提高了用户对相似文本内容的查阅量,使用户可以快速、精准地理解目标文本。

实施例二

图2为本发明实施例二提供的方法中对对标文本的单词序列中的各单词进行聚类处理,分别得到对标文本中的主题及对应的关键词的方法流程图,本实施例是在上述实施例的基础上,对对标文本的单词序列中的各单词进行聚类处理,分别得到对标文本中的主题及对应的关键词进行进一步解释说明。具体的,如图2所示,该方法可以包括如下步骤:

s210,根据对标文本的单词序列中各单词的权重确定对标文本中的文本特征词和对应的词向量。

其中,在获取到对标文本分词后的单词序列时,为了过滤掉该对标文本中贡献性或重要性不大的单词,需要通过确定对标文本的单词序列中各单词的权重,来体现各个单词在对标文本中的贡献性或重要性。其中,各单词的权重可以通过前文中提到的tf-idf指标计算方法来得到。

可选的,在获取到对标文本分词后的单词序列时,通过tf-idf指标计算方法进一步获取对标文本的单词序列中各单词的权重,并预先设置一个权重比较值,该权重比较值可以表示各单词在对标文本中的基本重要性。如果获取的单词权重低于该权重比较值,则说明该单词在对标文本中的重要性不大,可以去除,因此,将对标文本单词序列的所有单词中的权重高于该权重比较值的单词作为对标文本中的文本特征词,后续仅对获取的文本特征词进行分析判断。进一步的,在确定了对标文本中的文本特征词时,为了对文本相似度进行判断,还可以通过前文提到的word2vec工具来获取各个文本特征词对应的词向量。需要说明的是,在现实环境中,word2vec工具要求输入的文本不能太短,而且得到的词向量一般是远远大于二维的。优选地,为了加速后续计算,可以将对标文本训练得到的向量模型存储下来。

s220,对各文本特征词的词向量进行聚类,得到对标文本的各主题以及对应的主关键词。

具体的,在确定至少一个对标文本中的文本特征词和对应的词向量后,可以根据各文本特征词的词向量之间的距离对文本特征词进行聚类,可选的,本实施例中通过前文提到的k-means聚类算法进行聚类,基本思想是:以文本中k个文本特征词为中心进行聚类,对最靠近它们的其他文本特征词归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。

具体的,假设将所有文本特征词的词向量分为k个类别,则聚类方法包括:

1)首先随机生成k个类别的初始中心,也就是随机选取k个文本特征词作为中心点;

2)在每次迭代中,对任意一个文本特征词的词向量,分别计算其到k个中心点的距离,并将该文本特征词的词向量划归到距离最短的中心点所在的类。其中,计算其到k个中心点的距离的公式如下:

其中,disx,y表示文本特征词的词向量x与另一文本特征词的词向量y的距离,实际上为两个词向量的余弦夹角,n表示词向量的维度数,xi表示词向量x的第i个分量,yi表示词向量y的第i个分量。

3)对属于同一类别的文本特征词的词向量求平均值,得到该类的新中心;

4)对于所有的k个聚类中心,如果利用步骤2)和步骤3)中的迭代法更新后,如果每个词向量的类别保持不变,则迭代结束,否则继续迭代步骤2)和步骤3)。

其中,在聚类分析中k的值可以通过davies-bouldin指数进行确定,选择使得davies-bouldin指数最小时的k值。该davies-bouldin指数计算公式为:

其中,dbi表示davies-bouldin指数,k表示类别数目,ti表示第i类别里词向量的个数,xi,m表示第i类别中的第m个词向量;ai表示第i类别的中心点;tj表示第j类词向量的个数,xj,m表示第j类中的第m个词向量;aj表示第j类的中心点;n表示词向量的维度数,ai,k表示第i类别中心点的第k个分量,aj,k表示第j类别中心点的第k个分量。

具体的,求取dbi指数最小时k的值,作为k-means聚类算法中随机生成的类别数,并对对标文本中的各文本特征词的词向量进行迭代计算,迭代完成后,得到最好的聚类结果,将聚类结果中的所有类别分别作为对标文本中的各个主题,并将聚类后每一类别中包含的文本特征词作为对应主题的主关键词,从而确定对标文本的各主题以及对应的主关键词。可选的,在实际操作过程中,可以采用人工方式根据每个主题的主关键词对每个主题进行一个概括性的描述总结,便于用户理解对应主题。

s230,根据预设同义词库分别确定与每个主题中的主关键词相关的各对应主题的副关键词。

具体的,在确定了对标文本的各主题和对应的主关键词后,为了扩大对标文本的相似性,还可以利用预设同义词库,确定与各个主题对应的主关键词相关的同义词,作为相应主关键词所在主题的副关键词。预设同义词库包含了大量相同含义的单词,内容广泛。通过利用同义词库的方式,进一步增加了各主题中关键词的数量,丰富了对标文本的主题关键词。

s240,根据各对应主题中主关键词的归一化权重,确定对应主题中副关键词的权重,以构建包含完整关键词信息的各主题。

具体的,在确定了对标文本的各主题中的关键词后,为了判断文本相似度,还需要确定各个主题中所有关键词的权重,主关键词也就是前文的各个对标文本中的文本特征词,对各个文本特征词分别分到各个主题中时,需要对文本特征词在对标文本中的权重进行归一化处理,分别得到各主题中对应的主关键词的归一化权重,也就是初始权重,对于主关键词和副关键词的最终权重可以通过相关主关键词的归一化权重确定,主关键词的最终权重计算公式如下所示:

其中,qx表示调整后的主题某个主关键词的权重,s为预设数值的正整数,用来调整对应主题的主关键词的重要性,m表示对应主题的某个主关键词的同义词总数目,qx表示对应主题主关键词的初始权重。

副关键词的最终权重计算公式如下所示:

其中,qx'表示调整后的主题某个主关键词的每个同义词的权重,s为预设数值的正整数,用来调整对应主题的主关键词的重要性,m表示对应主题的某个主关键词的同义词总数目,qx表示对应主题主关键词的初始权重。

可选的,首先获取对标文本中各主题中主关键词的归一化权重,并根据预设数值的调整对应主题的主关键词的重要性的正整数,分别根据各对应主题中主关键词的归一化权重,确定对应主题中各主关键词和副关键词的最终权重,从而构建包含完整关键词信息的各主题。可选的,现有技术通过利用文本关键词集合或者维基百科的概念向量空间来形成文本整体的向量,从而判断文本相似度来形成关键词集合,而本实施例可以通过构建主题,利用主题关键词向量来判断文本整体的相似度和在不同主题上的相似度,提高了文本相似度分析的多样性。

本实施例的技术方案,通过预设同义词库构建包含有更多关键词的对标文本的各主题,进一步增加了关键词的数量,丰富了对标文本的主题关键词,提高了用户对相似文本内容的查阅量,提升了文本相似度分析的多样性。

实施例三

图3为本发明实施例三提供的一种文本相似度的计算方法的流程图。本实施例是在上述各个实施例的基础上进行优化。具体的,参照图3,本实施例可以包括如下步骤:

s310,根据用户需求获取目标文本和至少一个对标文本,并对至少一个对标文本进行分词处理得到对应的单词序列。

s320,对对标文本的单词序列中的各单词进行聚类处理,分别得到对标文本中的主题及对应的关键词。

s330,对目标文本进行分词处理,获取目标文本中的全部目标单词。

s340,根据至少一个对标文本的每个主题中全部关键词的词向量和权重,分别确定各目标单词与每个主题中各个关键词的相似度。

具体的,在获取目标文本中的全部目标单词后,可以通过word2vec工具将全部目标单词相应转换为词向量,并以目标文本的向量空间为基准向量空间,再次获取至少一个对标文本的每个主题中全部关键词的词向量,并根据前文确定的各主题中关键词的权重,也就是主关键词和副关键词在对应主题中的最终权重,分别计算各个目标单词与每个主题中各个关键词的相似度。单词相似度的计算相当于求取两个对应词向量的距离,计算公式如下:

其中,simx,y表示目标文本中一个目标单词的词向量x与对标文本的主题中一个关键词的词向量y的相似度,n表示基准向量空间词向量的维度数,xi表示目标文本词向量x的第i个分量,yi表示对标文本中主题关键词词向量y的第i个分量,qy表示词向量y在对应主题中的关键词权重。

s350,分别选取各目标单词与每个主题中各个关键词的相似度的最大值,作为各目标单词与每个主题的相似度。

具体的,在得到目标文本中各目标单词与每个主题中各个关键词的相似度时,为了确定目标文本与对标文本各主题的相似度,本实施例中通过选取目标文本中每个目标单词与各个主题中所有关键词的相似度的最大值,将此最大值作为目标文本中各个目标单词与对标文本中每个主题的相似度。例如,目标单词a与对标文本的主题一中的关键词b、c、d的相似度分别为0.5、0.6和0.4,则将目标单词a与主题一中的关键词b的相似度0.6作为目标单词a与对标文本的主题一的相似度。也就是取所有主题关键词中,与目标文本单个目标单词最大的相似度数值作为目标文本的单个目标单词与对标文本中的单个主题的相似度。

s360,对各目标单词与至少一个对标文本中每个主题的相似度进行排序,根据第一预设数目依次确定目标文本与每个主题的第一平均相似度,分别作为目标文本与至少一个对标文本中各主题的文本相似度。

具体的,在得到各个目标单词与对标文本中每个主题的相似度后,对对标文本同一主题中的各个目标单词与对应主题的相似度从高到底依次排序,并顺序获取第一预设数目的目标单词与对应主题的相似度,并对该第一预设数目的相似度求取第一平均相似度,按照同样方式依次得到目标文本与对标文本中每个主题的第一平均相似度,分别作为目标文本与至少一个对标文本中各主题的文本相似度。也就是将目标文本单个目标单词与对应主题的相似度从高到低排列,计算前第一预设数目t的平均值作为目标文本与对标文本的单个主题的相似度。

s370,对各目标单词与至少一个对标文本中全部主题的相似度进行排序,根据第二预设数目依次确定目标文本与每个对标文本中全部主题的第二平均相似度,分别作为目标文本与至少一个对标文本的整体文本相似度。

具体的,将各个目标单词与单个对标文本中全部主题的相似度进行统一合并,且从高到低排序,此时,如果排序中重复出现某一目标单词,则选取对应的最大相似度参与排序,并顺序获取第二预设数目的目标单词与全部主题的相似度,并对该第二预设数目的相似度求取第二平均相似度,按照同样方式依次得到目标文本与各个对标文本的第二平均相似度,分别作为目标文本与至少一个对标文本的整体文本相似度。

本实施例的技术方案,通过聚类获取对标文本中包含的各主题和对应的关键词,从而实现了目标文本和对标文本中不同主题内容的相似度判断,增加了文本相似度判断的多样性,提高了用户对相似文本内容的查阅量,使用户可以快速、精准地理解目标文本。

实施例四

图4为本发明实施例四提供的应用于具体目标文本和对标文本中的一种文本相似度的计算方法的流程图。本实施例是在上述实施例的基础上给出具体的应用场景,本实施例中,为了简要说明本实施例中的技术方案,目标文本与对标文本可以简化处理,其中,目标文本为“体制压力可能会影响组织选择边界跨越战略”,对标文本有两个,分别为“边界跨越策略需要特定的环境”和“组织会将环境的复杂性映射到组织结构”。并且,本实施例中的用户词典为{边界跨越},停用词词典为{可能、会、的、将、到}。具体的,如图4所示,可以包括如下步骤:

s401,获取目标文本和至少一个对标文本,并进行分词处理。

具体的,根据用户词典和停用词词典,对目标文本分词后,得到的目标单词为“体制/压力/影响/组织/选择/边界跨越/战略”,第一个对标文本分词后的单词序列为“边界跨越/策略/需要/特定/环境”,第二个对标文本分词后的单词序列为“组织/环境/复杂性/映射/组织/结构”。

s402,得到每个对标文本的文本特征词,并转换为对应的词向量。

具体的,根据前文提到的tf-idf指标计算方法,得到每个对标文本中各个单词的权重,例如第一个对标文本中的“边界跨越”,权重为同理得到第一个对标文本中每个单词的权重为:边界跨越(0.06)、策略(0.06)、需要(0.06)、特定(0.06)、环境(0),第二个对标文本中每个单词的权重为:组织(0.1)、环境(0)、复杂性(0.05)、映射(0.05)、结构(0.05)。如果权重比较值r=0.001,则第一个对标文本的文本特征词为:边界跨越、策略、需要和特定,第二个对标文本的文本特征词为:组织、复杂性、映射和结构。

可选的,通过word2vec工具将每个对标文本中的文本特征词转换为词向量,第一个对标文本中的词向量分别为:边界跨越[0.1,0.1]、策略[0.2,0.2]、需要[0.2,0.4]和特定[0.6,0.3],第二个对标文本中的词向量分别为:组织[0.1,0.1]、复杂性[0.3,0.3]、映射[0.4,0.8]和结构[0.4,0.4],环境不属于文本特征词,不需要进行处理。

s403,采用k-means聚类算法对每个对标文本中文本特征词的词向量进行聚类,得到多个主题以及每个主题包含的关键词。

具体的,通过前文的k-means聚类公式,对每个对标文本中文本特征词的词向量进行迭代处理,得到各个主题和对应的关键词。第一个对标文本的文本特征词聚类后得到3个主题,主题和主关键词分别如下,主题一:“边界跨越[0.1,0.1]、策略[0.2,0.2]”,主题二:“需要[0.2,0.4]”,主题三:“特定[0.6,0.3]”。第二个对标文本的特征词聚类后得到2个主题,主题和主关键词分别如下,主题一:“组织[0.1,0.1]、复杂性[0.3,0.3]、结构[0.4,0.4]”,主题二:“映射[0.4,0.8]”。由于原始对标文本中的“环境”一词不属于两个对标文本的特征词,所以不参与聚类过程。

s404,确定对标文本中各主题的主关键词的初始权重,并利用预设同义词库确定对标文本的各主题中的主关键词相关的对应主题中的副关键词及对应的权重。

具体的,本实施例中首先通过tf-idf指标计算方法确定各主题中的主关键词的初始权重,并进行归一化处理,得到归一化权重。其中,第一个对标文本的三个主题中的主关键词初始权重分别如下:主题一:“边界跨越(0.06)、策略(0.06)”,主题二:“需要(0.06)”,主题三:“特定(0.06)”,对权重归一化后的结果分别如下,主题一:“边界跨越(0.5)、策略(0.5)”,主题二:“需要(1)”,主题三:“特定(1)”。第二个对标文本的两个主题中的主关键词初始权重分别如下,主题一:“组织(0.1)、复杂性(0.05)、结构(0.05)”,主题二:“映射(0.05)”,对权重归一化后的结果分别如下,主题一:“组织(0.5)、复杂性(0.25)、结构(0.25)”,主题二:“映射(1)”。

可选的,本实施例中预设同义词库为{策略/战略,特定/特殊},则根据第一个对标文本中各主题的主关键词确定的副关键词分别为:主题一:“战略”,主题二没有副关键词,主题三:“特殊”;第二个对标文本中各主题的主关键词没有对应的副关键词。此时根据前文中提到的主关键词和副关键词的最终权重计算公式,若将调整主题的主关键词重要性的预设数值s=4,则最终得到的第一个对标文本的三个主题关键词和最终权重分别如下,主题一:“边界跨越(0.5)、策略(0.4)、战略(0.1)”,主题二:“需要(1)”,主题三:“特定(0.8)、特殊(0.2)”。得到的第二个对标文本的两个主题关键词和最终权重分别如下,主题一:“组织(0.5)、复杂性(0.25)、结构(0.25)”,主题二:“映射(1)”。

s405,对目标文本进行分词处理,并确定各目标单词的词向量。

具体的,目标文本分此后得到的目标单词序列为:“体制/压力/影响/组织/选择/边界跨越/战略”,通过word2vec工具转换的全部目标单词的词向量分别为:“体制[0.2,0.2],压力[0.5,0.3]、影响[0.2,0.4]、组织[0.4,0.4]、选择[0.3,0.6]、边界跨越[0.2,0.1]、战略[0.4,0.2]”。

s406,以目标文本的向量空间为基准向量空间,确定对标文本的各主题中的关键词的词向量,并确定全部目标单词与各个关键词的相似度。

具体的,全部目标单词的词向量分别为:体制[0.2,0.2],压力[0.5,0.3]、影响[0.2,0.4]、组织[0.4,0.4]、选择[0.3,0.6]、边界跨越[0.2,0.1]和战略[0.4,0.2],此时以目标文本的向量空间为基准向量空间后,确定每个对标文本中各个主题的关键词的词向量。以第一个对标文本的主题一中的关键词“边界跨越”和“战略”为例,此时确定“边界跨越”对应的词向量为[0.2,0.1],“战略”对应的词向量为[0.4,0.2],以第二个对标文本的主题一中的关键词“组织”为例,此时确定“组织”对应的词向量为[0.4,0.4]。为了简化本实施例中的相似度计算过程,仅以第一个对标文本的主题一中的“边界跨越”、“战略”和第二个对标文本的主题一中的“组织”与全部目标单词的相似度进行计算作出相应说明,将其他相似度均作为0进行处理。

可选的,根据前文提到的单词相似度的计算公式,以目标文本中的目标单词“体制”为例,其与第一个对标文本主题一的关键词“边界跨越”的相似度为依据相同的方式得到全部目标单词与各个关键词的相似度。示例性的,确定的全部目标单词和每个对标文本的各主题中的各个关键词之间的相似度如表1所示:

表1目标单词和每个对标文本的各主题中的关键词相似度

s407,在所有主题对应的全部关键词中,选取与目标文本中单个目标单词最大的相似度作为目标文本的单个目标单词与对标文本的单个主题的相似度。

具体的,以各个目标单词和第一个对标文本的主题一中的全部关键词之间的相似度为例,目标单词“体制”与第一个对标文本的主题一中的各个关键词的相似度分别为:0.474、0和0.095,此时选取最大的相似度0.474作为目标单词“体制”与第一个对标文本的主题一的文本相似度,依据同样的方式获取全部目标单词与每个对标文本的全部主题的文本相似度。示例性的,确定的全部目标单词和每个对标文本的各个主题的文本相似度如表2所示:

表2目标单词和每个对标文本的各个主题的文本相似度

s408,将目标文本的单个目标单词与同一主题中关键词的相似度从高到低排序,计算前第一预设数目的相似度平均值作为目标文本与每个对标文本的各个对应主题的文本相似度。

具体的,若第一预设数目设为t=5,则目标文本与第一个对标文本的主题一的文本相似度为(0.500+0.500+0.499+0.474+0.474)/5=0.489,目标文本与第一个对标文本的主题二和主题三的文本相似度都为0。目标文本与第二个对标文本的主题一的文本相似度为(0.500+0.500+0.485+0.474+0.474)/5=0.487,目标文本与第二个对标文本的主题二的文本相似度为0。

s409,将目标文本的单个目标单词与同一对标文本的全部主题的文本相似度从高到低排序,计算前第二预设数目的相似度平均值作为目标文本与每个对标文本的整体文本相似度。

具体的,若第二预设数目为u=10,则目标文本与第一个对标文本的相似度为(0.500+0.500+0.499+0.474+0.474+0.400+0.400+0+0+0)/10=0.325。目标文本与第二个对标文本的相似度为(0.500+0.500+0.485+0.474+0.474+0.474+0.474+0+0+0)/10=0.338。

本实施例的技术方案,通过聚类获取对标文本中包含的各主题和对应的关键词,从而实现了目标文本和对标文本中不同主题内容的相似度判断,增加了文本相似度判断的多样性,提高了用户对相似文本内容的查阅量,使用户可以快速、精准地理解目标文本。

实施例五

图5为本发明实施例五提供的一种文本相似度的计算装置的结构示意图,具体的,如图5所示,该装置可以包括:

文本分词模块510,用于根据用户需求获取目标文本和至少一个对标文本,并对至少一个对标文本进行分词处理得到对应的单词序列;

主题聚类模块520,用于对对标文本的单词序列中的各单词进行聚类处理,分别得到对标文本中的主题及对应的关键词;

相似度计算模块530,用于根据对标文本的关键词,分别计算目标文本与至少一个对标文本中各主题的文本相似度。

本实施例的技术方案,通过聚类获取对标文本中包含的各主题和对应的关键词,从而实现了目标文本和对标文本中不同主题内容的相似度判断,增加了文本相似度判断的多样性,提高了用户对相似文本内容的查阅量,使用户可以快速、精准地理解目标文本。

进一步的,上述主题聚类模块520可以包括:文本特征确定单元5201,用于根据对标文本的单词序列中各单词的权重确定对标文本中的文本特征词和对应的词向量;主题确定单元5202,用于对各文本特征词的词向量进行聚类,得到对标文本的各主题以及对应的主关键词;副关键词确定单元5203,用于根据预设同义词库分别确定与每个主题中的主关键词相关的各对应主题的副关键词;权重确定单元5204,用于根据各对应主题中主关键词的归一化权重,确定对应主题中副关键词的权重,以构建包含完整关键词信息的各主题。

进一步的,上述相似度计算模块530可以包括:目标单词获取单元5301,用于对目标文本进行分词处理,获取目标文本中的全部目标单词;第一相似度计算单元5302,用于根据至少一个对标文本中各主题的关键词的词向量和权重,分别确定各目标单词与各主题的相似度;第二相似度计算单元5303,用于分别根据各目标单词与各主题的相似度,依次确定目标文本与至少一个对标文本中各主题的文本相似度。

进一步的,上述第一相似度计算单元5302可以具体用于:根据至少一个对标文本的每个主题中全部关键词的词向量和权重,分别确定各目标单词与每个主题中各个关键词的相似度;分别选取各目标单词与每个主题中各个关键词的相似度的最大值,作为各目标单词与每个主题的相似度。

进一步的,上述第二相似度计算单元5303可以具体用于:对各目标单词与至少一个对标文本中每个主题的相似度进行排序,根据第一预设数目依次确定目标文本与每个主题的第一平均相似度,分别作为目标文本与至少一个对标文本中各主题的文本相似度。

进一步的,上述装置还可以包括:整体相似度计算模块540,用于对各目标单词与至少一个对标文本中全部主题的相似度进行排序,根据第二预设数目依次确定目标文本与每个对标文本中全部主题的第二平均相似度,分别作为目标文本与至少一个对标文本的整体文本相似度。

本实施例提供的文本相似度的计算装置可适用于上述任意实施例提供的文本相似度的计算方法,具备相应的功能和有益效果。

实施例六

图6为本发明实施例六提供的一种设备的结构示意图,如图6所示,该设备包括处理器60、存储装置61、通信装置62、输入装置63和输出装置64;该设备中处理器60的数量可以是一个或多个,图6中以一个处理器60为例;设备中的处理器60、存储装置61、通信装置62、输入装置63和输出装置64可以通过总线或其他方式连接,图6中以通过总线连接为例。

存储装置61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本相似度的计算方法对应的程序指令/模块(例如,文本相似度的计算装置中的文本分词模块510、主题聚类模块520和相似度计算模块530)。处理器60通过运行存储在存储装置61中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的文本相似度的计算方法。

存储装置61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置61可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置62可用于实现设备间的网络连接或者移动数据连接。

输入装置63可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置64可包括显示屏等显示设备。

本实施例提供的一种设备可用于执行上述任意实施例提供的文本相似度的计算方法,具备相应的功能和有益效果。

实施例七

本发明实施例七还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可实现上述任意实施例中的文本相似度的计算方法。该方法具体可以包括:

根据用户需求获取目标文本和至少一个对标文本,并对至少一个对标文本进行分词处理得到对应的单词序列;

对对标文本的单词序列中的各单词进行聚类处理,分别得到对标文本中的主题及对应的关键词;

根据对标文本的关键词,分别计算目标文本与至少一个对标文本中各主题的文本相似度。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本相似度的计算方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1