文本匹配方法和装置与流程

文档序号:12596204阅读:来源:国知局

技术特征:

1.一种文本匹配方法,其特征在于,包括:

获取多个待处理文本中各个待处理文本的至少两条词语属性信息,其中,所述多个待处理文本至少包括待匹配文本和文本库中的多个预存文本,每条所述词语属性信息用于记录待处理文本所包含的一个词语与所述待处理文本的索引关系;

从所述多个预存文本的词语属性信息中,提取与所述待匹配文本的词语属性信息对应的词语属性信息;

基于提取到的词语属性信息中记录的索引关系,确定所述多个预存文本中与所述待匹配文本匹配的匹配文本。

2.根据权利要求1所述的方法,其特征在于,基于提取到的词语属性信息中记录的索引关系,确定所述多个预存文本中与所述待匹配文本匹配的匹配文本包括:

基于提取到的词语属性信息中记录的索引关系,统计各个预存文本的词语属性信息数量;

若预存文本的词语属性信息数量达到预设阈值,则确定该预存文本为所述待匹配文本的候选匹配文本;

将确定的多个候选匹配文本,分别与所述待匹配文本进行余弦匹配操作,得到所述多个预存文本中与所述待匹配文本匹配的匹配文本。

3.根据权利要求2所述的方法,其特征在于,基于提取到的词语属性信息中记录的索引关系,统计各个预存文本的词语属性信息数量包括:

从所述提取到的词语属性信息中记录的索引关系中,获取文本标识,其中,同样的文本标识用于表示同样的预存文本,所述索引关系用于记录所述一个词语的属性信息与预存文本的文本标识的对应关系;

统计各个所述文本标识的数量,将所述文本标识的数量作为所述文本标识所表示的预存文本的词语属性信息数量。

4.根据权利要求1至3中任意一项所述的方法,其特征在于,获取多个待处理文本中各个待处理文本的至少两条词语属性信息包括:

对所述待处理文本进行分词操作,得到所述待处理文本的多个词语;

计算所述待处理文本所包含的各个所述词语的哈希值;

从获取的哈希值中,提取N个哈希值,其中,N为大于等于2的自然数;

保存提取的各个所述哈希值与所述待处理文本的文本标识的索引关系,生成所述待处理文本的N条所述词语属性信息。

5.根据权利要求4所述的方法,其特征在于,从获取的哈希值中,提取N个哈希值包括:

从获取的哈希值中,提取前N个数值小的哈希值;或

从获取的哈希值中,提取数值小于预设数值的N个哈希值;或

确定所述N个哈希值的哈希序列,其中,哈希序列中的哈希值按照数值从小到大排列;从所述哈希序列中提取排序在前N位的哈希值。

6.根据权利要求4所述的方法,其特征在于,从所述多个预存文本的词语属性信息中,提取与所述待匹配文本的词语属性信息对应的词语属性信息包括:

从所述多个预存文本的词语属性信息中,提取哈希值数值与所述待匹配文本的任一条词语属性信息中哈希值数值相同的词语属性信息。

7.一种文本匹配装置,其特征在于,包括:

获取单元,用于获取多个待处理文本中各个待处理文本至少两条词语属性信息,其中,所述多个待处理文本至少包括待匹配文本和文本库中的多个预存文本,每条所述词语属性信息用于记录待处理文本所包含的一个词语与所述待处理文本的索引关系;

提取单元,用于从所述多个预存文本的词语属性信息中,提取与所述待匹配文本的词语属性信息对应的词语属性信息;

匹配单元,用于基于提取到的词语属性信息中记录的索引关系,确定所述多个预存文本中与所述待匹配文本匹配的匹配文本。

8.根据权利要求7所述的装置,其特征在于,所述匹配单元包括:

统计模块,用于基于提取到的词语属性信息中记录的索引关系,统计各个预存文本的词语属性信息数量;

确定模块,用于若预存文本的词语属性信息数量达到预设阈值,则确定该预存文本为所述待匹配文本的候选匹配文本;

匹配模块,用于将确定的多个候选匹配文本,分别与所述待匹配文本进行余弦匹配操作,得到所述多个预存文本中与所述待匹配文本匹配的匹配文本。

9.根据权利要求8所述的装置,其特征在于,所述统计模块包括:

获取子模块,用于从所述提取到的词语属性信息中记录的索引关系中,获取文本标识,其中,同样的文本标识用于表示同样的预存文本,所述索引关系用于记录所述一个词语的属性信息与预存文本的文本标识的对应关系;

统计子模块,用于统计各个所述文本标识的数量,将所述文本标识的数量作为所述文本标识所表示的预存文本的词语属性信息数量。

10.根据权利要求7至9中任意一项所述的装置,其特征在于,所述获取单元包括:

分词操作模块,用于对所述待处理文本进行分词操作,得到所述待处理文本的多个词语;

哈希值计算模块,用于计算所述待处理文本所包含的各个所述词语的哈希值;

哈希值提取模块,用于从获取的哈希值中,提取N个哈希值,其中,N为大于等于2的自然数;

生成模块,用于保存提取的各个所述哈希值与所述待处理文本的文本标识的索引关系,生成所述待处理文本的N条所述词语属性信息。

11.根据权利要求10所述的装置,其特征在于,所述哈希值提取模块包括:

第一提取子模块,用于从获取的哈希值中,提取前N个数值小的哈希值;或

第二提取子模块,用于从获取的哈希值中,提取数值小于预设数值的N个哈希值;或

第三提取子模块,用于确定所述N个哈希值的哈希序列,其中,哈希序列中的哈希值按照数值从小到大排列;从所述哈希序列中提取排序在前N位的哈希值。

12.根据权利要求11所述的装置,其特征在于,所述提取单元包括:

信息提取模块,用于从所述多个预存文本的词语属性信息中,提取哈希值数值与所述待匹配文本的任一条词语属性信息中哈希值数值相同的词语属性信息。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1