本发明涉及互联网,尤其涉及一种基于文本标签计算文本相似度的方法及装置。
背景技术:
1、推荐和搜索场景中经常会用到文本相似度特征,而文本相似度计算的方式有很多,例如,将文本转换为向量后,通过计算向量间的相似度来表示文本间的相似度,或者基于协同过滤的方式,如itemcf,来计算两两文本之间的相似度。
2、然而,相关技术中,文本间的相似度计算计算量大,效率较低,从而造成关联关系信息不准确。
技术实现思路
1、本发明的目的在于提供一种基于文本标签计算文本相似度的方法及装置,具有计算效率高和准确率高的特点,以解决上述技术背景中提出的问题。
2、为实现上述目的,本发明采用以下技术方案:
3、本发明第一个方面提供了一种基于文本标签计算文本相似度的方法,包括:
4、获取至少两个文本的文本标签,文本标签为字符串形式,每个文本标签包括一个或多个标签;
5、将文本标签均转换成转表的列形式,形成各文本对应的标签列;
6、获取每个文本与其他所有文本之间的两两组合关系,并通过每一组合中的两个文本对应的标签列进行关联筛选,筛选出所有组合关系中具有关联的组合,生成关联组合集,关联组合集中组成每个组合的两个文本具有至少一个相同的标签;
7、根据预设规则,设定关联组合集的每个组合中相同标签对应的标签权重值;
8、基于标签权重值,确定关联组合集中每个组合的相似权重值,所述相似权重值为每个组合的所有标签权重值之和。
9、在一种优选实施例中,所述获取每个文本与其他所有文本之间的两两组合关系的步骤包括:
10、获取第一个文本与其他每个文本的组合关系;获取第二个文本与其他每个文本的组合关系;……;获取第n个文本与其他每个文本的组合关系;其中,n为正整数,指待计算相似度的文本总数。
11、在一种优选实施例中,在所述获取每个文本与其他所有文本之间的两两组合关系之后、以及通过每一组合中的两个文本对应的标签列进行关联筛选之前,所述方法还包括:
12、判断是否有相同的文本组合,如果有,则只保留一个,其余丢弃。
13、在一种优选实施例中,所述获取每个文本与其他所有文本之间的两两组合关系的步骤包括:
14、通过笛卡尔积算法获取每个文本与其他所有文本之间的两两组合关系。
15、在一种优选实施例中,所述具有关联的组合,是指组合关系中的两个文本至少具有一个相同的标签。
16、在一种优选实施例中,所述通过每一组合中的两个文本对应的标签列进行关联筛选,筛选出所有组合关系中具有关联的组合,包括如下步骤:
17、任意一个组合包括第一文本和第二文本,所述第一文本对应的标签列为第一标签列,所述第一标签列中包括至少一个标签,所述第二文本对应的标签列为第二标签列,所述第二标签列中包括至少一个标签;
18、判断第一标签列中的标签与第二标签列中的标签是否存在相同标签;
19、如果存在相同标签,则该组合为具有关联的组合;
20、如果不存在相同标签,则该组合不是具有关联的组合,该组合被过滤掉,不参与后续的相似度计算。
21、在一种优选实施例中,所述获取至少两个文本的文本标签,文本标签为字符串形式,包括如下步骤:
22、对文本进行预处理,去除文本中的格式标签和乱码字符,得到待切分文本;
23、以文字为切分单位将所述待切分文本切分为文本字符串,所述文本字符串为文本标签。
24、在一种优选实施例中,所述预设规则,包括:
25、文本与文本进行相似度计算时,设定标签权重值为1;
26、用户与文本进行相似度计算时,设定标签权重值为用户标签偏好值。
27、在一种优选实施例中,所述方法还包括:
28、利用min-max算法对计算出的每个组合的相似权重值进行归一化处理。
29、本发明第二个方面提供了一种文本相似度计算装置,包括:
30、获取模块,被配置为获取至少两个文本的文本标签,文本标签为字符串形式,每个文本标签包括一个或多个标签;
31、转换模块,被配置为将文本标签均转换成转表的列形式,形成各文本对应的标签列;
32、筛选模块,被配置为获取每个文本与其他所有文本之间的两两组合关系,并通过每一组合中的两个文本对应的标签列进行关联筛选,筛选出所有组合关系中具有关联的组合,生成关联组合集,关联组合集中组成每个组合的两个文本具有至少一个相同的标签;
33、标签权重值设定模块,被配置为根据预设规则,设定关联组合集的每个组合中相同标签对应的标签权重值;
34、相似权重值确定模块,被配置为基于标签权重值,确定关联组合集中每个组合的相似权重值,所述相似权重值为每个组合的所有标签权重值之和。
35、在一种优选实施例中,所述装置还包括:
36、归一化模块,被配置为利用min-max算法对计算出的每个组合的相似权重值进行归一化处理。
37、本发明第三个方面还提供了一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
38、其中,所述处理器执行所述计算机程序时可以实现第一方面中任一所述的方法。
39、本发明第四个方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一所述的方法。
40、与现有技术相比,本发明的技术方案具有以下有益效果:
41、本发明技术方案将字符串形式的文本标签先转换成转表的列形式,通过笛卡尔积方式获取每个文本与所有文本两两对应关系,并通过标签关联进行筛选,再设置标签权重值,基于标签权重值计算文本之间的相似度,并进行归一化处理。本发明通过文本标签来计算两个文本之间的相似度,具有计算效率高和准确率高的特点,通过文本标签计算文本相似度的方法较相关技术中向量计算相似度的方式,大大降低了计算资源使用量和计算资源使用时长。
1.基于文本标签计算文本相似度的方法,其特征在于,包括:
2.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述获取每个文本与其他所有文本之间的两两组合关系的步骤包括:
3.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述具有关联的组合,是指组合关系中的两个文本至少具有一个相同的标签。
4.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述通过每一组合中的两个文本对应的标签列进行关联筛选,筛选出所有组合关系中具有关联的组合,包括如下步骤:
5.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述获取至少两个文本的文本标签,文本标签为字符串形式,包括如下步骤:
6.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述预设规则,包括:
7.根据权利要求1所述的基于文本标签计算文本相似度的方法,其特征在于,所述方法还包括:
8.一种文本相似度计算装置,其特征在于,包括:
9.根据权利要求8所述的一种文本相似度计算装置,其特征在于,所述装置还包括:
10.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;