分词方法、搜索方法及相关产品与流程

文档序号:37419664发布日期:2024-03-25 19:07阅读:11来源:国知局
分词方法、搜索方法及相关产品与流程

本技术涉及计算机,尤其涉及一种分词方法、搜索方法及相关产品。


背景技术:

1、在对文本进行分词时,可以通过确定文本中各个字符的标签,其中,字符的标签用于指示字符在文本的分词结果中的位置。然后根据各个字符的标签对文本进行分词,得到分词结果。因此,如何提高字符的标签的准确度具有非常重要的意义。


技术实现思路

1、本技术提供一种分词方法、搜索方法及相关产品,以提高字符的标签的准确度。

2、第一方面,提供了一种分词方法,所述方法包括:

3、基于预定词典,为目标文本生成参考词序列,所述参考词序列中的参考词既属于所述目标文本又属于所述预定词典;

4、基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,所述候选标签集合中的标签用于指示所述字符在所述目标文本的分词结果中的位置;

5、利用分词模型从所述候选标签集合中确定所述字符的目标标签。

6、在该方面中,由于预定词典中的词语可视为正确词语,分词装置基于预定词典为目标文本生成参考词序列,可提高参考词序列中的参考词的准确度。于是,基于目标文本中的字符在参考词中的位置,确定字符的候选标签集合,可提高候选标签集合中的标签的准确度,进而利用分词模型从候选标签集合中确定字符的目标标签,可提高目标标签的准确度。

7、结合本技术任一实施方式,所述基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,包括:

8、基于所述字符在各个包括所述字符的所述参考词中的位置,确定所述候选标签集合。

9、结合本技术任一实施方式,所述候选标签集合包括以下至少一个标签:单字词、位于词的起始位置、位于词的中间、位于词的结束位置。

10、结合本技术任一实施方式,所述利用分词模型从所述候选标签集合中确定所述字符的目标标签,包括:

11、利用所述分词模型确定所述候选标签集合中概率最大的标签为所述目标标签。

12、结合本技术任一实施方式,所述利用所述分词模型确定所述候选标签集合中概率最大的标签为所述目标标签,包括:

13、利用所述分词模型确定所述候选标签集合中各个标签的概率;

14、基于分词算法和所述候选标签集合中各个标签的概率,确定所述候选标签集合中概率最大的标签为所述目标标签。

15、结合本技术任一实施方式,所述分词算法包括:维特比算法或者前向最大匹配算法或者反向最大匹配算法。

16、结合本技术任一实施方式,在确定所述字符的目标标签后,所述方法还包括:

17、基于所述目标标签,对所述目标文本进行分词,得到分词结果序列。

18、在该种实施方式中,分词装置在基于前文所提供的技术方案提高目标文本中的字符的目标标签的准确度的情况下,基于目标文本中的字符的目标标签,对目标文本进行分词,得到分词结果序列,可提高分词结果序列的准确度。

19、结合本技术任一实施方式,所述分词模型包括:条件随机场或者马儿可夫模型或者隐马儿可夫模型。

20、第二方面,提供了一种搜索方法,所述方法包括:

21、接收来自客户端的搜索请求,所述搜索请求包括检索文本;

22、根据前文所述的方法,对检索文本进行分词,得到检索词序列;

23、从待检索数据库中确定与所述检索词序列中的检索词匹配的待检索数据,作为所述检索文本的检索结果;

24、响应于所述搜索请求,将所述检索结果返回至所述客户端。

25、在该方面中,搜索装置在接收到来自客户端的包括检索文本的检索请求后,基于前文提供的分词方法,对检索文本进行分词,得到检索词序列,可提高检索词序列的准确度。由此以检索词序列中的检索词为依据,从待检索数据库中确定检索文本的检索结果,可提高检索结果的准确度,换句话说,可提高返回至客户端的检索结果的准确度。

26、第三方面,提供了一种分词装置,其特征在于,所述搜索装置包括:

27、生成单元,用于基于预定词典,为目标文本生成参考词序列,所述参考词序列中的参考词既属于所述目标文本又属于所述预定词典;

28、第一确定单元,用于基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,所述候选标签集合中的标签用于指示所述字符在所述目标文本的分词结果中的位置;

29、第二确定单元,用于利用分词模型从所述候选标签集合中确定所述字符的目标标签。

30、结合本技术任一实施方式,所述第一确定单元,用于基于所述字符在各个包括所述字符的所述参考词中的位置,确定所述候选标签集合。

31、结合本技术任一实施方式,所述候选标签集合包括以下至少一个标签:单字词、位于词的起始位置、位于词的中间、位于词的结束位置。

32、结合本技术任一实施方式,所述第二确定单元,用于利用所述分词模型确定所述候选标签集合中概率最大的标签为所述目标标签。

33、结合本技术任一实施方式,所述第二确定单元,用于:

34、利用所述分词模型确定所述候选标签集合中各个标签的概率;

35、基于分词算法和所述候选标签集合中各个标签的概率,确定所述候选标签集合中概率最大的标签为所述目标标签。

36、结合本技术任一实施方式,所述分词算法包括:维特比算法或者前向最大匹配算法或者反向最大匹配算法。

37、结合本技术任一实施方式,所述分词装置还包括:第二分词单元,用于基于所述目标标签,对所述目标文本进行分词,得到分词结果序列。

38、结合本技术任一实施方式,所述分词模型包括:条件随机场或者马儿可夫模型或者隐马儿可夫模型。

39、第四方面,提供了一种搜索装置,其特征在于,所述搜索装置包括:

40、接收单元,用于接收来自客户端的搜索请求,所述搜索请求包括检索文本;

41、第一分词单元,用于根据前文所述的分词方法,对检索文本进行分词,得到检索词序列;

42、检索单元,用于从待检索数据库中确定与所述检索词序列中的检索词匹配的待检索数据,作为所述检索文本的检索结果;

43、发送单元,用于响应于所述搜索请求,将所述检索结果返回至所述客户端。

44、第五方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

45、第六方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

46、第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

47、第八方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

48、第九方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第二方面的方法。

49、第十方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第二方面的方法。

50、第十一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第二方面的方法。

51、第十二方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第二方面的方法。

52、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1