一种文本相似度评估方法及装置的制造方法_3

文档序号：9727300阅读：来源：国知局

度评估方法的另一个实施例中，上述步骤102在计算目标文本的余弦相似值时，可首先将两个目标文本中各语句单元对应的有效分词集合进行汇总去重，然后统计出其中的每一个词分别在两个目标文本中出现的次数，之后，具体可根据如下公式计算所述目标文本A和B的向量余弦值：
[0080] 其中，Cos_AB为目标文本A和目标文本B的向量余弦值，counLAi为所述有效分词集合包含的词i在目标文本A中出现的次数，counLBi为所述有效分词集合包含的词i 在目标文本B中出现的次数。
[0081] 假设待评估的两个目标文本A、B分别为"我们最近的确有点累"和"我们最近没有有点累"（实际中待评估的目标文本的语句单元数量通常都较大，这里仅为介绍方法本身来举例说明，因此每个目标文本只包含一个语句单元）。
[0082] 其中目标文本A的有效分词集合为{ "我们"、"最近"、"的确"、"有点"、"累;
[0083] 目标文本B的有效分词集合为{ "我们"、"最近"、"没有"、"有点"、"累"}。
[0084] 对上述两个有效分词集合汇总去重后为{ "我们"、"最近"、"的确"、"有点"、"累"、 "没有" }，分别统计其中的每一个词在目标文本A和目标文本B中出现的次数：
[0085] 目标文本A中各词出现的次数为：
[0086] "我：1次，"最近" ：1次，"的确" ：1次，"有点" ：1次，"累" ：1次，"没有" :0次。
[0087] 目标文本B中各词出现的次数为：
[0088] "我：1次，"最近" ：1次，"的确" :0次，"有点" ：1次，"累" ：1次，"没有" ：1次。
[0089] 将上述各词在目标文本A、B中出现的"次数"的值带入上述向量余弦值的计算公式中，可计算出出Cos_AB的值为0. 8。
[0090] 如图3所示为本发明文本相似度评估方法的另一个实施例的步骤102的具体流程图，在该实施例中，上述步骤102可具体包括如下子步骤1021至1023 :
[0091] 步骤1021 :预设至少一个阈值，所述阈值大于等于0小于等于1 ;
[0092] 步骤1022 :为每一个所述阈值设置对应的相似度等级，所述阈值越大，则对应的所述相似度等级越高；
[0093] 步骤1023 :确定小于等于所述向量余弦值的最小阈值，则所述最小阈值对应的相似度等级即为所述目标文本的相似度等级。
[0094] 例如，设置0、0. 5、0. 9三个阈值，分别对应不相似、中等相似、非常相似三个相似度等级。
[0095] 由于上述目标文本A和B的向量余弦值为0. 8,小于等于该值的最小阈值为0. 5，而最小阈值〇. 5对应的相似等级为"中等相似"，则可认为该目标文本A和B的相似程度为 "中等相似"。
[0096] 本发明文本相似度评估方法提供的上述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选，根据分词结果中包含的词的类型和数量筛选出该语句单元对应的有效分词集合，从而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。
[0097] 与文本相似度评估方法提供的实施例相对应，本发明还提供了文本相似度评估装置的实施例。
[0098] 如图4所示为本发明文本相似度评估装置提供的一个实施例的结构示意图，所述装置包括：
[0099] 筛选单元401，用于将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；
[0100] 确定单元402,用于统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。
[0101] 图5为本发明文本相似度评估装置提供的另一个实施例的筛选单元的结构示意图，可选的，所述筛选单元401包括：
[0102] 分词子单元4011，用于分别获得待评估的两个目标文本包含的语句单元，并对所述语句单元进行分词处理，获得所述语句单元对应的至少一个分词集合；
[0103] 统计子单元4012,用于确定所述语句单元对应的分词集合包含的词的类型，所述词的类型包括单一词和非单一词，并分别统计各类型的词在所述语句单元对应的分词集合中的数量；
[0104] 确定子单元4013,用于根据所述词的类型及数量确定各语句单元对应的有效分词集合。
[0105] 图6为本发明文本相似度评估装置提供的另一个实施例的确定子单元4013的结构示意图，可选的，所述确定子单元4013包括：
[0106] 判断子单元40131，用于判断所述语句单元是否对应至少两个集合；
[0107] 第一确定子单元40132,用于如果所述语句单元对应一个分词集合，则确定所述一个分词集合即为所述语句单元对应的有效分词集合；
[0108] 统计子单元40133,用于如果所述语句单元对应至少两个分词集合，则分别统计所述至少两个分词集合对应的总词数量，所述总词数量为单一词和非单一词的数量之和；
[0109] 第二确定子单元40134,用于如果所述至少两个分词集合对应的总词数量不相等时，从所述至少两个分词集合中选择总词数量最少的分词集合作为所述语句单元对应的有效分词集合；当所述总词数量相等时，从所述至少两个分词集合中选择单一词的数量最少的分词集合为所述语句单元对应的有效分词集合。
[0110] 可选的，所述分词子单元4011具体用于根据正向最大匹配算法或条件随机场CRF 算法对所述语句单元进行分词处理。
[0111] 可选的，所述确定单元402具体用于根据如下公式计算所述两个目标文本的向量余弦值：
[0113] 其中，Cos_AB为目标文本A和目标文本B的向量余弦值，counLAi为所述有效分词集合包含的词i在目标文本A中出现的次数，counLBi为所述有效分词集合包含的词i 在目标文本B中出现的次数。
[0114] 可选的，所述确定单元402还用于从预设的阈值中确定小于等于所述向量余弦值的最小阈值，将所述最小阈值对应的相似度等级作为所述目标文本的相似度等级。
[0115] 本发明提供的文本相似度评估装置的实施例，技术方案本质与上述文本相似度评估方法的实施例相同，因此未做具体解释描述，相关之处可参见上述文本相似度评估方法的实施例的对应部分。
[0116] 本发明文本相似度评估装置提供的上述实施例在对语句单元进行分词的基础上进一步对所述语句单元对应的多个分词结果进行最优化筛选，以筛选出该语句单元对应的一个有效分词集合，从而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。
[0117] 本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加

完整全部详细技术资料下载

当前第3页1 2 3 4