一种文本相似度评估方法及装置的制造方法

文档序号:9727300阅读:340来源:国知局
一种文本相似度评估方法及装置的制造方法
【技术领域】
[0001] 本发明涉及移动通信技术领域,特别是涉及一种文本相似度评估方法及装置。
【背景技术】
[0002] 随着通信及网络技术的飞速发展,互联网成为用户发布信息及获取信息的重要平 台。在海量的互联网文本信息中,有些文本信息在主题或内容上彼此具有很高的相似性或 相关性,导致信息的冗余性很高。因此需要通过相似度评估的方法对这些文本信息进行相 似程度评估,进而对其进行去重、归类,以便更准确、高效的管理这些信息资源。
[0003] 现有的文本相似度的评估方法一般是基于逐词比较的方法,即将待比较的两个文 本信息分别切分成词(或称为字符串),再对这两个文本包含的词逐个进行比较,以共同包 含的词在总词中所占的比例作为衡量这两个文本的相似程度的标准。
[0004] 然而,这种方法一方面在对文本分词时准确性较差,另一方面采用逐词比较方法 的计算效率也较低。

【发明内容】

[0005] 本发明实施例提供了一种文本相似度评估方法及装置,以解决现有的文本相似度 评估方法的准确性差和计算效率较低的问题。
[0006] 为了解决上述技术问题,本发明实施例公开了如下技术方案:
[0007] -方面,提供了一种文本相似度评估方法,所述方法包括:
[0008] 将待评估的两个目标文本分别按语句单元进行分词得到分词集合后,从所述分词 集合中再筛选有效分词集合;
[0009] 统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,根据所 述次数计算所述目标文本的向量余弦值,根据所述向量余弦值确定所述目标文本的相似 度。
[0010] 可选的,所述将待评估的两个目标文本分别按语句单元进行分词得到分词集合 后,从所述分词集合中再筛选有效分词集合包括:
[0011] 分别获得待评估的两个目标文本包含的语句单元,对所述语句单元进行分词处 理,获得所述语句单元对应的至少一个分词集合;
[0012] 确定所述语句单元对应的分词集合包含的词的类型,其中所述词的类型包括单一 词和非单一词,分别统计各类型的词在所述语句单元对应的分词集合中的数量;
[0013] 根据所述词的类型及数量确定各语句单元对应的有效分词集合。
[0014] 可选的,所述根据所述词的类型及数量确定各语句单元对应的有效分词集合包 括:
[0015] 如果所述语句单元对应一个分词集合,则所述一个分词集合即为所述语句单元对 应的有效分词集合;
[0016] 如果所述语句单元对应至少两个分词集合,则分别统计所述至少两个分词集合对 应的总词数量,所述总词数量为单一词和非单一词的数量之和;
[0017] 当所述至少两个分词集合对应的总词数量不相等时,从所述至少两个分词集合中 选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合;当所述总词数量相 等时,从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应 的有效分词集合。
[0018] 可选的,所述对所述语句单元进行分词处理包括:根据正向最大匹配算法或条件 随机场CRF算法对所述语句单元进行分词处理。
[0019] 可选的,所述根据所述次数计算所述两个目标文本的向量余弦值采用如下公式:
[0021] 其中,Cos_AB为目标文本A和目标文本B的向量余弦值,counLAi为所述有效分 词集合包含的词i在目标文本A中出现的次数,counLBi为所述有效分词集合包含的词i 在目标文本B中出现的次数。
[0022] 可选的,根据所述向量余弦值确定所述目标文本的相似度包括:
[0023] 从预设的阈值中确定小于等于所述向量余弦值的最小阈值,将所述最小阈值对应 的相似度等级作为所述目标文本的相似度等级。
[0024] 另一方面,提供了一种文本相似度评估装置,所述装置包括:
[0025] 筛选单元,用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合 后,从所述分词集合中再筛选有效分词集合;
[0026] 确定单元,用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现 的次数,根据所述次数计算所述目标文本的向量余弦值,根据所述向量余弦值确定所述目 标文本的相似度。
[0027] 可选的,所述筛选单元包括:
[0028] 分词子单元,用于分别获得待评估的两个目标文本包含的语句单元,并对所述语 句单元进行分词处理,获得所述语句单元对应的至少一个分词集合;
[0029] 统计子单元,用于确定所述语句单元对应的分词集合包含的词的类型,所述词的 类型包括单一词和非单一词,并分别统计各类型的词在所述语句单元对应的分词集合中的 数量;
[0030] 确定子单元,用于根据所述词的类型及数量确定各语句单元对应的有效分词集 合;
[0031] 可选的,所述确定子单元包括:
[0032] 判断子单元,用于判断所述语句单元是否对应至少两个集合;
[0033] 第一确定子单元,用于如果所述语句单元对应一个分词集合,则确定所述一个分 词集合即为所述语句单元对应的有效分词集合;
[0034] 统计子单元,用于如果所述语句单元对应至少两个分词集合,则分别统计所述至 少两个分词集合对应的总词数量,所述总词数量为单一词和非单一词的数量之和;
[0035] 第二确定子单元,用于当所述至少两个分词集合对应的总词数量不相等时,从所 述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词 集合;当所述总词数量相等时,从所述至少两个分词集合中选择单一词的数量最少的分词 集合为所述语句单元对应的有效分词集合。
[0036] 可选的,所述分词子单元具体用于根据正向最大匹配算法或条件随机场CRF算法 对所述语句单元进行分词处理。
[0037] 可选的,所述确定单元具体用于根据如下公式计算所述两个目标文本的向量余弦 值:
[0039] 其中,Cos_AB为目标文本A和目标文本B的向量余弦值,counLAi为所述有效分 词集合包含的词i在目标文本A中出现的次数,counLBi为所述有效分词集合包含的词i 在目标文本B中出现的次数。
[0040] 可选的,所述确定单元具体用于从预设的阈值中确定小于等于所述向量余弦值的 最小阈值,将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
[0041] 上述技术方案提供的文本相似度评估方法及装置的实施例,首先将待评估的两个 目标文本分别按语句单元进行分词得到分词集合后,从所述分词集合中再筛选有效分词集 合;再统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数,并根据所 述次数计算所述目标文本的向量余弦值,以及根据所述向量余弦值确定所述目标文本的相 似度。
[0042] 所述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个 分词结果进行最优化筛选,从而筛选出该语句单元对应的一个有效分词集合,进而提高了 分词结果的准确性;此外通过计算目标文本的向量余弦值,并根据所
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1