一种文本相似度评估方法及装置的制造方法

文档序号：9727300阅读：340来源：国知局

一种文本相似度评估方法及装置的制造方法
【技术领域】
[0001] 本发明涉及移动通信技术领域，特别是涉及一种文本相似度评估方法及装置。
【背景技术】
[0002] 随着通信及网络技术的飞速发展，互联网成为用户发布信息及获取信息的重要平台。在海量的互联网文本信息中，有些文本信息在主题或内容上彼此具有很高的相似性或相关性，导致信息的冗余性很高。因此需要通过相似度评估的方法对这些文本信息进行相似程度评估，进而对其进行去重、归类，以便更准确、高效的管理这些信息资源。
[0003] 现有的文本相似度的评估方法一般是基于逐词比较的方法，即将待比较的两个文本信息分别切分成词（或称为字符串），再对这两个文本包含的词逐个进行比较，以共同包含的词在总词中所占的比例作为衡量这两个文本的相似程度的标准。
[0004] 然而，这种方法一方面在对文本分词时准确性较差，另一方面采用逐词比较方法的计算效率也较低。

【发明内容】

[0005] 本发明实施例提供了一种文本相似度评估方法及装置，以解决现有的文本相似度评估方法的准确性差和计算效率较低的问题。
[0006] 为了解决上述技术问题，本发明实施例公开了如下技术方案：
[0007] -方面，提供了一种文本相似度评估方法，所述方法包括：
[0008] 将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；
[0009] 统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。
[0010] 可选的，所述将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合包括：
[0011] 分别获得待评估的两个目标文本包含的语句单元，对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合；
[0012] 确定所述语句单元对应的分词集合包含的词的类型，其中所述词的类型包括单一词和非单一词，分别统计各类型的词在所述语句单元对应的分词集合中的数量；
[0013] 根据所述词的类型及数量确定各语句单元对应的有效分词集合。
[0014] 可选的，所述根据所述词的类型及数量确定各语句单元对应的有效分词集合包括：
[0015] 如果所述语句单元对应一个分词集合，则所述一个分词集合即为所述语句单元对应的有效分词集合；
[0016] 如果所述语句单元对应至少两个分词集合，则分别统计所述至少两个分词集合对应的总词数量，所述总词数量为单一词和非单一词的数量之和；
[0017] 当所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
[0018] 可选的，所述对所述语句单元进行分词处理包括：根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。
[0019] 可选的，所述根据所述次数计算所述两个目标文本的向量余弦值采用如下公式：
[0021] 其中，Cos_AB为目标文本A和目标文本B的向量余弦值，counLAi为所述有效分词集合包含的词i在目标文本A中出现的次数，counLBi为所述有效分词集合包含的词i 在目标文本B中出现的次数。
[0022] 可选的，根据所述向量余弦值确定所述目标文本的相似度包括：
[0023] 从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
[0024] 另一方面，提供了一种文本相似度评估装置，所述装置包括：
[0025] 筛选单元，用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；
[0026] 确定单元，用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。
[0027] 可选的，所述筛选单元包括：
[0028] 分词子单元，用于分别获得待评估的两个目标文本包含的语句单元，并对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合；
[0029] 统计子单元，用于确定所述语句单元对应的分词集合包含的词的类型，所述词的类型包括单一词和非单一词，并分别统计各类型的词在所述语句单元对应的分词集合中的数量；
[0030] 确定子单元，用于根据所述词的类型及数量确定各语句单元对应的有效分词集合；
[0031] 可选的，所述确定子单元包括：
[0032] 判断子单元，用于判断所述语句单元是否对应至少两个集合；
[0033] 第一确定子单元，用于如果所述语句单元对应一个分词集合，则确定所述一个分词集合即为所述语句单元对应的有效分词集合；
[0034] 统计子单元，用于如果所述语句单元对应至少两个分词集合，则分别统计所述至少两个分词集合对应的总词数量，所述总词数量为单一词和非单一词的数量之和；
[0035] 第二确定子单元，用于当所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
[0036] 可选的，所述分词子单元具体用于根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。
[0037] 可选的，所述确定单元具体用于根据如下公式计算所述两个目标文本的向量余弦值：
[0039] 其中，Cos_AB为目标文本A和目标文本B的向量余弦值，counLAi为所述有效分词集合包含的词i在目标文本A中出现的次数，counLBi为所述有效分词集合包含的词i 在目标文本B中出现的次数。
[0040] 可选的，所述确定单元具体用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
[0041] 上述技术方案提供的文本相似度评估方法及装置的实施例，首先将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；再统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，并根据所述次数计算所述目标文本的向量余弦值，以及根据所述向量余弦值确定所述目标文本的相似度。
[0042] 所述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选，从而筛选出该语句单元对应的一个有效分词集合，进而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁捷;尹兵;
技术所有人：广州爱九游信息技术有限公司;
我是此专利的发明人

上一篇：网页主题句的抽取方法及装置的制造方法
上一篇：一种文本特征提取系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。