一种文本相似度评估方法及装置的制造方法_4

文档序号：9727300阅读：来源：国知局

必需的通用硬件的方式来实现，通用硬件包括通用集成电路、通用CPU、通用存储器、通用元器件等，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器（ROM，Read-Only Memory)、随机存取存储器（RAM， Random Access Memory)、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。
[0118] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0119] 以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种文本相似度评估方法，其特征在于，所述方法包括：将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。2. 根据权利要求1所述的方法，其特征在于，所述将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合包括：分别获得待评估的两个目标文本包含的语句单元，对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合；确定所述语句单元对应的分词集合包含的词的类型，其中所述词的类型包括单一词和非单一词，分别统计各类型的词在所述语句单元对应的分词集合中的数量；根据所述词的类型及数量确定各语句单元对应的有效分词集合。3. 根据权利要求2所述的方法，其特征在于，所述根据所述词的类型及数量确定各语句单元对应的有效分词集合包括：如果所述语句单元对应一个分词集合，则所述一个分词集合即为所述语句单元对应的有效分词集合；如果所述语句单元对应至少两个分词集合，则分别统计所述至少两个分词集合对应的总词数量，所述总词数量为单一词和非单一词的数量之和；当所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。4. 根据权利要求2或3所述的方法，其特征在于，所述对所述语句单元进行分词处理包括：根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。5. 根据权利要求4所述的方法，其特征在于，所述根据所述次数计算所述两个目标文本的向量余弦值采用如下公式：其中，Cos_AB为目标文本A和目标文本B的向量余弦值，CounLA1为所述有效分词集合包含的词i在目标文本A中出现的次数，CoumB1为所述有效分词集合包含的词i在目标文本B中出现的次数。6. 根据权利要求4所述的方法，其特征在于，根据所述向量余弦值确定所述目标文本的相似度包括：从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。7. -种文本相似度评估装置，其特征在于，所述装置包括：筛选单元，用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；确定单元，用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。8. 根据权利要求7所述的装置，其特征在于，所述筛选单元包括：分词子单元，用于分别获得待评估的两个目标文本包含的语句单元，并对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合；统计子单元，用于确定所述语句单元对应的分词集合包含的词的类型，所述词的类型包括单一词和非单一词，并分别统计各类型的词在所述语句单元对应的分词集合中的数量；确定子单元，用于根据所述词的类型及数量确定各语句单元对应的有效分词集合。9. 根据权利要求8所述的装置，其特征在于，所述确定子单元包括：判断子单元，用于判断所述语句单元是否对应至少两个分词集合；第一确定子单元，用于如果所述语句单元对应一个分词集合，则确定所述一个分词集合即为所述语句单元对应的有效分词集合；统计子单元，用于如果所述语句单元对应至少两个分词集合，则分别统计所述至少两个分词集合对应的总词数量，所述总词数量为单一词和非单一词的数量之和；第二确定子单元，用于当所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。10. 根据权利要求8或9所述的装置，其特征在于，所述分词子单元具体用于根据正向最大匹配算法或条件随机场CRF算法对所述语句单元进行分词处理。11. 根据权利要求10所述的装置，其特征在于，所述确定单元具体用于根据如下公式计算所述两个目标文本的向量余弦值：其中，Cos_AB为目标文本A和目标文本B的向量余弦值，CounLA1为所述有效分词集合包含的词i在目标文本A中出现的次数，CoumB1为所述有效分词集合包含的词i在目标文本B中出现的次数。12. 根据权利要求10所述的装置，其特征在于，所述确定单元具体用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
【专利摘要】本发明公开了一种文本相似度评估方法及装置，所述方法包括：将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；统计所述有效分词集合包含的词分别在两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据向量余弦值确定所述目标文本的相似度。所述方法在对语句单元进行分词的基础上进一步对语句单元对应的多个分词结果进行最优化筛选，从而筛选出该语句单元对应的一个有效分词集合，从而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。
【IPC分类】G06F17/27
【公开号】CN105488023
【申请号】CN201510125905
【发明人】梁捷, 尹兵
【申请人】广州爱九游信息技术有限公司
【公开日】2016年4月13日
【申请日】2015年3月20日

完整全部详细技术资料下载

当前第4页1 2 3 4