分词处理方法、计算机设备、存储介质和计算机程序产品与流程

文档序号:33468232发布日期:2023-03-15 07:25阅读:25来源:国知局
分词处理方法、计算机设备、存储介质和计算机程序产品与流程

1.本技术涉及分词技术领域,特别是涉及一种分词处理方法、计算机设备、存储介质和计算机程序产品。


背景技术:

2.ascii(american standard code for information interchange,美国信息交换标准代码)编码主要用于显示现代英语和其他西欧语言。在音乐领域中,ascii编码具有命名多样化、多英语连接词和短句较多的特点。ascii编码文本通常以空格为自然分界符,在ascii编码文本缺乏空格时,需要计算机设备对ascii编码文本进行分词处理,来得到正确的ascii编码文本。
3.传统的分词方法的通常是将匹配得到的最长子串作为分词结果,但是这种方式无法准确对短词、短句进行分词,导致这种分词方式的准确率较低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高分词准确率的分词处理方法、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种分词处理方法。所述方法包括:
6.根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到所述待分词文本在每个词典下的分词结果;所述至少两个词典所属的词库领域均不同;
7.针对每个所述分词结果确定所述分词结果的子字段,并对所述分词结果的子字段进行字段消歧处理,得到所述分词结果的消歧字段;
8.针对每个所述分词结果,对所述分词结果的消歧字段进行语义消歧处理,得到所述分词结果的目标字段;
9.对每个所述分词结果的目标字段进行融合,得到所述待分词文本的目标分词结果。
10.在其中一个实施例中,根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到所述待分词文本在每个词典下的分词结果,包括:
11.根据所述至少两个词典,分别对所述待分词文本进行正向和反向的分词处理,得到所述待分词文本在每个词典下的正向分词结果和反向分词结果;
12.根据预设缩进长度,对所述每个词典下的正向分词结果和反向分词结果分别进行缩进处理,得到所述正向分词结果对应的缩进单词和所述反向分词结果对应的缩进单词;
13.从所述至少两个词典中,查询与各个所述缩进单词匹配的目标缩进单词;
14.根据所述目标缩进单词,对所述每个词典下正向分词结果和反向分词结果进行更新,得到所述待分词文本在所述每个词典下的分词结果。
15.在其中一个实施例中,根据预设缩进长度,对所述每个词典下的正向分词结果和反向分词结果分别进行缩进处理,得到所述正向分词结果对应的缩进单词和所述反向分词
结果对应的缩进单词,包括:
16.将所述正向分词结果和反向分词结果中的待验证单词的单词长度与所述预设缩进长度之间的差值作为最小单词长度,将所述待验证单词的单词长度作为最大单词长度,得到所述待验证单词的单词长度范围;
17.根据所述待验证单词的单词长度范围内的各个单词长度,分别对所述正向分词结果和所述反向分词结果中的待验证单词进行缩进处理,得到所述正向分词结果和所述反向分词结果在各个所述单词长度下的缩进单词。
18.在其中一个实施例中,从所述至少两个词典中,查询与各个所述缩进单词匹配的目标缩进单词,包括:
19.从所述至少两个词典中,查询与各个所述单词长度下的缩进单词分别相匹配的单词,得到与所述缩进单词匹配的至少一个候选单词;
20.根据各个所述候选单词的单词分数,从所述至少一个候选单词中筛选出满足预设单词条件的单词,作为与所述缩进单词匹配的目标缩进单词。
21.在其中一个实施例中,针对每个所述分词结果,确定所述分词结果的子字段,并对所述分词结果的子字段进行字段消歧处理,得到所述分词结果的消歧字段,包括:
22.针对每个所述分词结果,对所述分词结果进行字段切分处理,得到所述分词结果的子字段;
23.针对每个所述分词结果,将所述分词结果的子字段输入分词评估模型中,得到所述分词结果的子字段的字段分数;
24.针对每个所述分词结果,根据所述分词结果的子字段的字段分数,从所述分词结果的子字段中筛选出满足预设字段条件的子字段,作为所述分词结果的消歧字段。
25.在其中一个实施例中,针对每个所述分词结果,对所述分词结果进行字段切分处理,得到所述分词结果的子字段,包括:
26.针对每个所述分词结果,根据所述分词结果中的正向分词结果的首字符和尾字符,以及所述分词结果中的反向分词结果的首字符和尾字符,对所述正向分词结果和所述反向分词结果进行字段切分处理,得到所述正向分词结果中的子字段与所述反向分词结果中的子字段;其中所述正向分词结果与所述反向分词结果中的对应的子字段的首字符和尾字符均相同;
27.将所述正向分词结果中的子字段和所述反向分词结果中的子字段,作为所述分词结果的子字段。
28.在其中一个实施例中,针对每个所述分词结果,对所述分词结果的消歧字段进行语义消歧处理,得到所述分词结果的目标字段,包括:
29.针对每个所述分词结果,对所述分词结果的消歧字段和所述消歧字段的上下文单词进行字段合并处理,得到所述消歧字段的合并文本;
30.针对每个所述分词结果,对所述分词结果的候选字段和所述候选字段的上下文单词进行字段合并处理,得到所述候选字段的合并文本;其中所述候选字段为所述分词结果的子字段中除所述消歧字段以外的子字段;
31.将所述消歧字段的合并文本和所述候选字段的合并文本,分别输入至分词评估模型,得到所述消歧字段的合并文本的文本分数以及所述候选字段的合并文本的文本分数;
32.针对每个所述分词结果,根据所述消歧字段的合并文本的文本分数以及所述候选字段的合并文本的文本分数,从所述候选字段和所述消歧字段中筛选得到满足预设文本分数条件的目标字段。
33.在其中一个实施例中,对每个所述分词结果的目标字段进行融合,得到所述待分词文本的目标分词结果,包括:
34.对每个所述分词结果的目标字段进行拼接处理,得到所述目标字段的拼接文本,其中所述拼接文本为所述待分词文本在所述每个词典下的更新后分词结果;
35.对所述每个词典下的更新后分词结果进行融合,得到所述待分词文本的目标分词结果。
36.在其中一个实施例中,对所述每个词典下的更新后分词结果进行融合,得到所述待分词文本的目标分词结果,包括:
37.确定所述每个词典下的更新后分词结果的子字段,并对每个所述更新后分词结果的子字段进行字段消歧处理,得到待分词文本的消歧字段;
38.对所述待分词文本的消歧字段进行语义消歧处理,得到所述待分词文本的目标字段;
39.对所述待分词文本的目标字段进行拼接处理,得到所述待分词文本的目标分词结果。
40.第二方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
41.根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到所述待分词文本在每个词典下的分词结果;所述至少两个词典所属的词库领域均不同;
42.针对每个所述分词结果确定所述分词结果的子字段,并对所述分词结果的子字段进行字段消歧处理,得到所述分词结果的消歧字段;
43.针对每个所述分词结果,对所述分词结果的消歧字段进行语义消歧处理,得到所述分词结果的目标字段;
44.对每个所述分词结果的目标字段进行融合,得到所述待分词文本的目标分词结果。
45.第三方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
46.根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到所述待分词文本在每个词典下的分词结果;所述至少两个词典所属的词库领域均不同;
47.针对每个所述分词结果确定所述分词结果的子字段,并对所述分词结果的子字段进行字段消歧处理,得到所述分词结果的消歧字段;
48.针对每个所述分词结果,对所述分词结果的消歧字段进行语义消歧处理,得到所述分词结果的目标字段;
49.对每个所述分词结果的目标字段进行融合,得到所述待分词文本的目标分词结果。
50.第四方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
51.根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到所述待分词文本在每个词典下的分词结果;所述至少两个词典所属的词库领域均不同;
52.针对每个所述分词结果确定所述分词结果的子字段,并对所述分词结果的子字段进行字段消歧处理,得到所述分词结果的消歧字段;
53.针对每个所述分词结果,对所述分词结果的消歧字段进行语义消歧处理,得到所述分词结果的目标字段;
54.对每个所述分词结果的目标字段进行融合,得到所述待分词文本的目标分词结果。
55.上述分词处理方法、计算机设备、存储介质和计算机程序产品,根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到待分词文本在每个词典下的分词结果;实现了通过多种不同词库领域的词典对待分词文本进行分词处理,以提高短词和短句的分词准确率。然后针对每个分词结果确定分词结果的子字段,并对分词结果的子字段进行字段消歧处理,得到分词结果的消歧字段,实现了对每个分词结果中的子字段进行消歧,能够解决因上一个子字段分词错误而导致后续子字段持续分词错误的问题,进一步提高了对待分词文本的分词准确率。针对每个分词结果,对分词结果的消歧字段进行语义消歧处理,得到分词结果的目标字段;能够解决因字段消歧而忽略待分词文本的上下文信息从而导致分词结果出现歧义的问题,大大提高了待分词文本的分词准确率。对每个分词结果的目标字段进行融合,得到待分词文本的目标分词结果,实现了待分词文本在多个词典下的分词结果的合理融合,极大地提高了分词准确率。
附图说明
56.图1为一个实施例中分词处理方法的应用环境图;
57.图2为一个实施例中分词处理方法的流程示意图;
58.图3为一个实施例中获取待分词文本在每个词典下的分词结果步骤的流程示意图;
59.图4为另一个实施例中分词处理方法的流程示意图;
60.图5为又一个实施例中分词处理方法的流程示意图;
61.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
62.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
63.本技术实施例提供的分词处理方法,可以应用于如图1所示的应用环境中。其中,终端101通过网络与服务器102进行通信。终端101可以接收用户输入或者指定的待分词文本;服务器102可以泛指提供分词处理相关服务的后台系统。数据存储系统可以存储服务器102需要处理的数据。数据存储系统可以集成在服务器102上,也可以放在云上或其他网络服务器上。其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能
车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
64.在一种实施方式中,用户向终端101输入待分词文本,终端101将待分词文本发送至服务器102,服务器102根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到待分词文本在每个词典下的分词结果;至少两个词典所属的词库领域均不同;针对每个分词结果确定分词结果的子字段,并对分词结果的子字段进行字段消歧处理,得到分词结果的消歧字段;针对每个分词结果,对分词结果的消歧字段进行语义消歧处理,得到分词结果的目标字段;对每个分词结果的目标字段进行融合,得到待分词文本的目标分词结果。服务器102在获取待分词文本的目标分词结果后,还可以将目标分词结果发送到终端101进行展示。因此,上述分词处理方法的执行主体可以是服务器102。
65.在一种实施方式中,上述分词处理方法也可以基于服务器102单独实现。例如,服务器102可以从后台数据库中获取待分词文本,并通过执行上述分词处理方法,得到待分词文本的目标分词结果。
66.在一种实施方式中,上述分词处理方法也可以基于终端101单独实现。例如,终端101在获取用户输入的待分词文本后,通过执行上述分词处理方法,得到待分词文本的目标分词结果。
67.由上可知,本示例性实施方式中,上述分词处理方法的执行主体可以是上述终端101或服务器102,还可以应用于包括终端101和服务器102的系统,并通过端101和服务器102的交互实现,本公开对此不做限定。
68.在一个实施例中,如图2所示,提供了一种分词处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
69.步骤s201,根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到待分词文本在每个词典下的分词结果;至少两个词典所属的词库领域均不同。
70.其中,预先构建的至少两个词典可以是常规词词典和曲库词词典,当然也可以根据分词需求增加其他词库领域的词典;其中,常规词词典来自布朗语料库(brown cropus)中的约5.6w个常规词,曲库词词典来自曲库中的37.3w个去重单词,并保存有所有单词的词频。
71.其中,待分词文本指的是由ascii(american standard code for information interchange,美国信息交换标准代码)编码构成的需要进行分词的文本,例如由英语或者其他西欧语言构成的需要进行分词的文本。其中,待分词文本还可以是指音乐领域中的由ascii编码构成的需要进行分词的文本。
72.具体地,服务器构建至少两个不同词库领域的词典,可以是构建一个常规词词典和一个包含有多种音乐领域的连接词和短句的曲库词词典,则服务器得到预先构建的至少两个词典;还可以增加更多的词典来提高分词准确率。获取需要进行分词处理的待分词文本,通过至少两个词典,分别对待分词文本依次进行分词处理和缩进处理,得到待分词文本在每个词典下的分词结果。其中,预先构建的至少两个词典中包含的曲库词词典,能够让待分词文本中的音乐领域的短词被更加准确的识别出来。
73.步骤s202,针对每个分词结果确定分词结果的子字段,并对分词结果的子字段进行字段消歧处理,得到分词结果的消歧字段。
74.其中,子字段指的是对分词结果切分得到的字段。消歧字段是指经过字段消歧处理后得到的字段分数满足预设字段条件的子字段。
75.具体地,服务器将待分词文本在每个词典下的分词结果进行字段切分处理,由于每个词典下的分词结果中包含有正向分词结果和反向分词结果,所以服务器可以对正向分词结果和反向分词结果分别进行字段切分处理,进而得到正向分词结果的子字段和反向分词结果的子字段。然后服务器对正向分词结果的子字段和反向分词结果的子字段进行字段消歧处理,得到分词结果的消歧字段。
76.步骤s203,针对每个分词结果,对分词结果的消歧字段进行语义消歧处理,得到分词结果的目标字段。
77.其中,目标字段是指针对待分词文本处理得到的在每个词典下的分词结果。
78.具体地,服务器针对每个分词结果,将分词结果的所有消歧字段进行合并,得到消歧字段的合并文本;根据消歧字段的合并文本,确定分词结果的子字段在该合并文本中的上下文单词;然后将子字段与上下文单词进行合并,得到子字段的合并文本,对子字段的合并文本进行语义消歧处理,可以是从每个分词结果的正向分词结果的子字段的合并文本以及反向分词结果的子字段的合并文本中,筛选出文本语义相对更准确的合并文本,进而服务器将该文本语义相对更准确的合并文本对应的子字段,作为该分词结果的目标字段。
79.举例说明,假设待分词文本在普通词词典下的分词结果经过上述步骤s202处理后,得到该分词结果的第一个消歧字段是['fabulous','rhythms','of],该分词结果的第二个消歧字段是['modes','to'],则该分词结果的第一个和第二个消歧字段的合并文本是['fabulous','rhythms','of','modes','to']。以该分词结果的第二个消歧字段为例,假设该待分词文本在普通词词典下的分词结果包含正向分词结果和反向分词结果;其中正向分词结果的第二个子字段为['modes','to'],反向分词结果的第二个子字段为['modest','o'];根据消歧字段的合并文本['fabulous','rhythms','of','modes','to'],可以得到正向分词结果的第二个子字段['modes','to']的合并文本为['of','modes','to'],反向分词结果的第二个子字段['modest','o']的合并文本为['of','modest','o']。假设合并文本['of','modes','to']的文本语义比合并文本['of','modest','o']更准确,则将子字段['modes','to']作为该分词结果的目标字段。
[0080]
步骤s204,对每个分词结果的目标字段进行融合,得到待分词文本的目标分词结果。
[0081]
其中,目标分词结果是指从至少两个词典中获取到的与对应的待分词文本的词语的集合。
[0082]
具体地,经过上述步骤s202和步骤s203的处理之后,服务器已经得到每个分词结果的目标字段。针对每个分词结果,服务器将分词结果的目标字段进行拼接处理,得到目标字段的拼接文本;可以理解的是,拼接文本为待分词文本在每个词典下的更新后分词结果;然后服务器将每个词典下的更新后分词结果进行融合,得到待分词文本的目标分词结果。
[0083]
举例说明,为验证本公开提出的分词处理方法的效果,将本实施例中的分词处理方法与现有的分词方法进行了实验比较,实验结果如表1和表2所示。
[0084]
表1
[0085]
待分词文本timurakperov
期望得到的目标分词结果timur akperov现有的分词方法['ti','murak','perov']本实施中的分词处理方法['timur','akperov']
[0086]
表2
[0087][0088][0089]
由表1可知,本实施例中的分词处理方法能够准确的识别出'timur',比现有的分词方法具有更高的准确率,结合表2可知,本实施例中的分词处理方法通过在分词处理后,还进行缩进处理,从而能够准确的识别出'the'这个短词,比现有的分词方法具有更高的准确率。
[0090]
上述分词处理方法中,根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到待分词文本在每个词典下的分词结果;实现了通过多种不同词库领域的词典对待分词文本进行分词处理,以提高短词和短句的分词准确率。然后针对每个分词结果确定分词结果的子字段,并对分词结果的子字段进行字段消歧处理,得到分词结果的消歧字段,实现了对每个分词结果中的子字段进行消歧,能够解决因上一个子字段分词错误而导致后续子字段持续分词错误的问题,进一步提高了对待分词文本的分词准确率。针对每个分词结果,对分词结果的消歧字段进行语义消歧处理,得到分词结果的目标字段;能够解决因字段消歧而忽略待分词文本的上下文信息从而导致分词结果出现歧义的问题,大大提高了待分词文本的分词准确率。对每个分词结果的目标字段进行融合,得到待分词文本的目标分词结果,实现了待分词文本在多个词典下的分词结果的合理融合,极大地提高了分词准确率。
[0091]
在一个实施例中,如图3所示,上述步骤s201,根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到待分词文本在每个词典下的分词结果,具体包括如下内容:
[0092]
步骤s301,根据至少两个词典,分别对待分词文本进行正向和反向的分词处理,得到待分词文本在每个词典下的正向分词结果和反向分词结果。
[0093]
其中,正向分词结果是指对待分词文本经过正向分词处理后获取到的词语的集合。反向分词结果是指对待分词文本经过反向分词处理后获取到的词语的集合。
[0094]
具体地,服务器在每个词典下,分别对待分词文本进行正向和反向的分词处理,可以是对待分词文本分别进行正向最大匹配处理和反向最大匹配处理,即根据每个词典中长度最大单词的长度,从左到右对待分词文本进行切分和匹配处理,则服务器得到待分词文本在每个词典下的正向分词结果,同时,根据每个词典中长度最大单词的长度,从右到左对待分词文本进行切分和匹配处理,得到待分词文本在每个词典下的反向分词结果。其中,最大匹配处理指的是在既定方向(例如正向和反向)上根据存在于词典中的最长单词进行切
分和匹配。
[0095]
需要说明的是,最大长度匹配会受到方向和词典的影响,对于长度较长的单词分词更为有利,然而本公开中的待分词文本是ascii编码构成的需要进行分词的文本,ascii编码中短词较多,例如to、the,为避免上述步骤s301获取到的在每个词典下的正向分词结果和反向分词结果忽略了待分词文本中的短词或者音乐短句,需要进一步对正向分词结果和反向分词结果进一步处理。
[0096]
步骤s302,根据预设缩进长度,对每个词典下的正向分词结果和反向分词结果分别进行缩进处理,得到正向分词结果对应的缩进单词和反向分词结果对应的缩进单词。
[0097]
具体地,服务器根据预设缩进长度,对每个词典下的正向分词结果中的待验证单词和反向分词结果中的待验证单词分别进行缩进处理,得到正向分词结果和反向分词结果中的各个待验证单词对应的缩进单词。其中,待验证单词是指分词结果中需要进行缩进处理的单词,以验证该单词是否分词准确。服务器可以只对正向分词结果和反向分词结果中的所有单词均进行缩进处理,以提升待分词文本的分词结果的准确率,此外,服务器也可以从正向分词结果和反向分词结果中选择部分单词作为待验证单词,以提升待分词文本的分词效率。
[0098]
步骤s303,从至少两个词典中,查询与各个缩进单词匹配的目标缩进单词。
[0099]
步骤s304,根据目标缩进单词,对每个词典下正向分词结果和反向分词结果进行更新,得到待分词文本在每个词典下的分词结果。
[0100]
具体地,服务器从至少两个词典中,查询与各个缩进单词匹配的目标缩进单词;然后将正向分词结果中的待验证单词和反向分词结果中的待验证更新为目标缩进单词,得到每个词典下的更新后正向分词结果和更新后反向分词结果;将更新后正向分词结果和更新后反向分词结果作为待分词文本在每个词典下的分词结果。
[0101]
举例说明,ascii编码文本中有许多短词、短句和长单词存在部分编码相同的情况,例如modesto和modes to,the和themself。假设用户输入的待分词文本为modesto,而用户期望查询的是歌词短句modes to,由于最大匹配处理是根据存在于词典中的最长单词进行切分和匹配,则通过最大匹配处理后得到的是单词modesto,与用户期望查询的歌词短句不同;而modesto单词经过缩进处理后得到modes to短句,符合用户期望查询的歌词短句。
[0102]
本实施例中,通过根据至少两个词典,分别对待分词文本进行正向和反向的分词处理,得到待分词文本在每个词典下的正向分词结果和反向分词结果,能够获取待分词文本在多种词典下的分词结果,能够更全面、更准确的对待分词文本进行分词处理;根据预设缩进长度,对每个词典下的正向分词结果和反向分词结果分别进行缩进处理,得到正向分词结果对应的缩进单词和反向分词结果对应的缩进单词;进而从至少两个词典中,查询与各个缩进单词匹配的目标缩进单词根据目标缩进单词,对每个词典下正向分词结果和反向分词结果进行更新,得到待分词文本在每个词典下的分词结果,能够通过缩进处理对每个词典下的正向分词结果和反向分词结果再次进行验证,解决了最大匹配处理容易忽略短词和短句的缺陷,从而了提高待分词文本中的短词和短句的分词准确率。
[0103]
在一个实施例中,上述步骤s302,根据预设缩进长度,对每个词典下的正向分词结果和反向分词结果分别进行缩进处理,得到正向分词结果对应的缩进单词和反向分词结果对应的缩进单词,具体包括如下内容:将正向分词结果和反向分词结果中的待验证单词的
单词长度与预设缩进长度之间的差值作为最小单词长度,将待验证单词的单词长度作为最大单词长度,得到待验证单词的单词长度范围;根据待验证单词的单词长度范围内的各个单词长度,分别对正向分词结果和反向分词结果中的待验证单词进行缩进处理,得到正向分词结果和反向分词结果在各个单词长度下的缩进单词。
[0104]
其中,预设缩进长度指的是预先设置的用于确定待验证单词的缩进范围的参数。
[0105]
具体地,服务器确定正向分词结果和反向分词结果中的待验证单词,并获取各个待验证单词的单词长度;将待验证单词的单词长度与预设缩进长度之间的差值作为最小单词长度,将待验证单词的单词长度作为最大单词长度;通过最小单词长度和最大单词长度构成待验证单词的单词长度范围。例如,假设待验证单词为darks,则最大单词长度为5;假设预设缩进长度为2,则得到最小单词长度为5-2=3,待验证单词的单词长度范围为[3,5]。
[0106]
服务器根据单词长度范围内的各个单词长度,依次对正向分词结果和反向分词结果中的各个待验证单词进行缩进处理,得到待验证单词在各个单词长度下的缩进单词;其中,单词长度范围内的各个单词长度为整数。例如,假设单词长度范围为[3,5],则该单词长度范围内的单词长度包括3、4和5,进而服务器先根据单词长度3对待验证单词进行缩进,得到至少一个缩进单词,再根据单词长度4对待验证单词进行缩进,也得到至少一个缩进单词,根据单词长度5对待验证单词进行缩进,也得到至少一个缩进单词。
[0107]
在本实施例中,根据待验证单词的单词长度范围内的各个单词长度,分别对正向分词结果和反向分词结果中的待验证单词进行缩进处理,得到正向分词结果和反向分词结果在各个单词长度下的缩进单词,实现了每个词典下的正向分词结果和反向分词结果中的待验证单词的缩进处理,有利于识别出待分词文本中的短词、短句,以解决传统技术中最大匹配处理容易忽略短词、短句的缺陷,从而提高了待分词文本中的短词和短句的分词准确率。
[0108]
在一个实施例中,从至少两个词典中,查询与各个缩进单词匹配的目标缩进单词,包括:从至少两个词典中,查询与各个单词长度下的缩进单词分别相匹配的单词,得到与缩进单词匹配的至少一个候选单词;根据各个候选单词的单词分数,从至少一个候选单词中筛选出满足预设单词条件的单词,作为与缩进单词匹配的目标缩进单词。
[0109]
其中,目标缩进单词是指单词分数满足预设单词条件的缩进单词。
[0110]
具体地,服务器从至少两个词典中,查询与各个缩进单词相匹配的单词,得到待验证单词的至少一个候选单词。举例说明,假设待验证单词为darks,预设缩进长度为2,则得到darks的单词长度范围为[3,5],待验证单词的缩进单词为dar、dark和darks,由于darks已经是从词典中得到的单词,所以darks也是候选单词之一,而dar和dark还需要查询至少两个词典中是否存在相匹配的单词,若dar在词典中不存在,而dark在词典中存在,则将dark作为候选单词之一,并将s作为下个缩进单词的开头再次查询每个词典。
[0111]
当服务器获取到的与缩进单词匹配的候选单词为一个时,将该候选单词作为目标候选单词。当服务器获取到的与缩进单词匹配的候选单词为两个或两个以上时,服务器对各个候选单词进行评估,可以是将各个候选单词输入至单词评估模型中,得到各个候选单词的单词分数;根据各个候选单词的单词分数,从各个候选单词中,筛选出满足预设单词条件的单词,作为与缩进单词匹配的目标缩进单词。其中,预设单词条件可以是从至少一个候选单词中,筛选出单词分数最高的单词,作为待验证单词对应的目标缩进单词。例如,服务
器获取到候选单词darks和dark,通过对darks和dark进行评估,得到darks的单词分数为95,dark的单词分数为80,则将darks作为目标缩进单词。
[0112]
本实施例中,从至少两个词典中,查询与各个单词长度下的缩进单词分别相匹配的单词,得到与缩进单词匹配的至少一个候选单词;根据各个候选单词的单词分数,从至少一个候选单词中筛选出满足预设单词条件的单词,作为与缩进单词匹配的目标缩进单词,实现了对每个词典下的正向分词结果和反向分词结果中的待验证单词再次进行验证,解决了最大匹配处理容易忽略短词的缺陷,从而提高了待分词文本中的短词和短句的分词准确率。
[0113]
在一个实施例中,上述步骤s202,针对每个分词结果,确定分词结果的子字段,并对分词结果的子字段进行字段消歧处理,得到分词结果的消歧字段,具体包括如下内容:针对每个分词结果,对分词结果进行字段切分处理,得到分词结果的子字段;针对每个分词结果,将分词结果的子字段输入分词评估模型中,得到分词结果的子字段的字段分数;针对每个分词结果,根据分词结果的子字段的字段分数,从分词结果的子字段中筛选出满足预设字段条件的子字段,作为分词结果的消歧字段。
[0114]
其中,分词评估模型指的是用于评估字段的分数的模型。分词评估模型可以是n-gram语言模型,当然也可以是其他语言模型。
[0115]
具体地,服务器针对每个分词结果,对分词结果进行字段切分处理,得到分词结果的子字段。服务器将每个分词结果的子字段输入分词评估模型中,进而分词评估模型根据预设单词数量,得到子字段对应的词组;其中,字段切分处理得到的多个子字段中,若存在至少一个子字段所包含的单词数量小于3时,可以将预设单词数量设置为2,反之,可以将预设单词数量设置为3。根据至少两个词典,确定子字段对应的词组的词频。根据子字段对应的词组的词频,得到子字段的概率函数;进而分词评估模型根据子字段的概率函数的求积处理结果和预设单词数量,得到子字段的字段分数;分词评估模型可以通过如下方式进行表示:
[0116][0117]
其中,score表示子字段的字段分数;n表示预设单词数量;t表示子字段中的第t个词组;v(t)表示概率函数。
[0118]
概率函数可以是一个带惩罚项的概率函数,概率函数v(t)可以通过如下方式进行表示:
[0119][0120]
其中,p(t)表示子字段对应的词组的词频,即该词组在至少两个词典中出现的次数;例如,分词评估模型可以是n-gram语言模型,p(t)可以是n-gram语言模型的二元组词频或者三元组词频,此时预设单词数量n表示二或者三。
[0121]
进一步地,服务器针对每个分词结果,根据分词结果的子字段的字段分数,从分词结果的子字段中筛选出满足预设字段条件的子字段,作为该分词结果的消歧字段。其中,预设字段条件是针对消歧字段设置的字段分数判断条件。例如,可以将预设字段条件设置为字段分数最高,假设分词结果中的正向分词结果的子字段的字段分数为88,分词结果中的
反向分词结果的子字段的字段分数为92,则可以将反向分词结果的子字段作为分词结果的消歧字段。
[0122]
本实施例中,针对每个分词结果,对分词结果进行字段切分处理,得到分词结果的子字段;将分词结果的子字段输入分词评估模型中,得到分词结果的子字段的字段分数;进而根据分词结果的子字段的字段分数,从分词结果的子字段中筛选出满足预设字段条件的子字段,作为分词结果的消歧字段,实现了分词结果中子字段的字段消歧,能够将分词错误控制在当前子字段,避免因当前子字段的分词错误而影响下一个子字段的分词,提高了分词处理的鲁棒性。
[0123]
在一个实施例中,针对每个分词结果,对分词结果进行字段切分处理,得到分词结果的子字段,具体包括如下内容:针对每个分词结果,根据分词结果中的正向分词结果的首字符和尾字符,以及分词结果中的反向分词结果的首字符和尾字符,对正向分词结果和反向分词结果进行字段切分处理,得到正向分词结果中的子字段与反向分词结果中的子字段;其中正向分词结果与反向分词结果中的对应的子字段的首字符和尾字符均相同;将正向分词结果中的子字段和反向分词结果中的子字段,作为分词结果的子字段。
[0124]
其中,首字符指的是分词结果中的单词的第一个字符,尾字符指的是分词结果中的单词的最后一个字符;例如单词fabulous的首字符是f,尾字符是s。
[0125]
具体地,服务器针对每个分词结果,根据分词结果中的正向分词结果的首字符和尾字符,以及分词结果中的反向分词结果的首字符和尾字符,对正向分词结果和反向分词结果进行字段切分处理,可以是从正向分词结果和反向分词结果中,确定在正向分词结果和反向分词结果中第一个首字符均相同的单词,作为第一个子字段的起始单词,确定从起始单词后遇到的第一个尾字符不相同的单词,并将该第一个尾字符不相同的单词的上一个单词,作为第一个子字段的末尾单词,则服务器分别得到正向分词结果和反向分词结果中的第一个子字段。然后,服务器将第一个子字段的末尾单词的下一个单词作为第二个子字段的起始单词,确定从第二个子字段的起始单词后遇到的第一个尾字符相同的单词作为第二个子字段的末尾单词,则服务器得到正向分词结果和反向分词结果中的第二个子字段。同理,服务器得到正向分词结果和反向分词结果中的所有子字段。由上述可知,子字段包含从起始单词开始到末尾单词结束的所有单词。
[0126]
例如,用户需要查询的句子为fabulous rhythms of modesto,但用户输入的待分词文本为fabulousrhythmsofmodesto,服务器获取到该待分词文本,经过处理后,得到该待分词文本在曲库词词典下的正向分词结果为['fabulous','rhythms','ofm','odes','to'],反向分词结果为['fabulous','rhythm','sof','modesto'];由于正向分词结果和反向分词结果中第一个首字符均相同的单词为'fabulous',第一个尾字符不相同的单词为'rhythms'和'rhythm',则正向分词结果的第一个子字段为['fabulous'],反向分词结果的第一个子字段为['fabulous']。然后分别从'rhythms'和'rhythm'开始,得到第一个尾字符相同的单词为'to'和'modesto',则正向分词结果的第二个子字段为['rhythms','ofm','odes','to'],反向分词结果的第二个子字段为['rhythm','sof','modesto']。
[0127]
本实施例中,通过根据每个分词结果中各个单词的首字符和尾字符,确定每个分词结果的子字段,使得正向分词结果与反向分词结果中的对应的子字段的首字符和尾字符均相同,以便于后续从正向分词结果与反向分词结果中的对应的子字段中筛选出消歧字段
或目标字段,提高了后续步骤处理的鲁棒性。
[0128]
在一个实施例中,上述步骤s203,针对每个分词结果,对分词结果的消歧字段进行语义消歧处理,得到分词结果的目标字段,具体包括如下内容:针对每个分词结果,对分词结果的消歧字段和消歧字段的上下文单词进行字段合并处理,得到消歧字段的合并文本;针对每个分词结果,对分词结果的候选字段和候选字段的上下文单词进行字段合并处理,得到候选字段的合并文本;其中候选字段为分词结果的子字段中除消歧字段以外的子字段;将消歧字段的合并文本和候选字段的合并文本,分别输入至分词评估模型,得到消歧字段的合并文本的文本分数以及候选字段的合并文本的文本分数;针对每个分词结果,根据消歧字段的合并文本的文本分数以及候选字段的合并文本的文本分数,从候选字段和消歧字段中筛选得到满足预设文本分数条件的目标字段。
[0129]
其中,分词评估模型与上述实施例中提到的分词评估模型可以是相同的模型,并通过上述实施例中提到的公式进行实施,而分词评估模型中的预设单词数量可以相同,也可以不同;当然本实施例中的分词评估模型与上述实施例中提到的分词评估模型也可以是不同的模型。
[0130]
其中,上下文单词是指字段在合并文本中的上一个(或多个)单词以及下一个(或多个)单词。
[0131]
具体地,针对每个分词结果,服务器对分词结果的消歧字段和消歧字段的上下文单词进行字段合并处理,得到消歧字段的合并文本。服务器将分词结果的子字段中除消歧字段以外的子字段作为候选字段,例如,分词结果中的正向分词结果的第一个子字段为消歧字段,则分词结果中的反向分词结果的第一个子字段为候选字段;其中候选字段的上下文单词,可以是候选字段对应的消歧字段在合并文本中的上下文单词,因而服务器对分词结果的候选字段和候选字段的上下文单词进行字段合并处理,可以是服务器将候选字段,以及候选字段对应的消歧字段在合并文本中的上下文单词进行字段合并处理,得到候选字段的合并文本(以下可以将候选字段的合并文本简称为候选文本,可以将消歧字段的合并文本简称为消歧文本)。
[0132]
服务器将消歧文本和候选文本分别输入分词评估模型中,进而分词评估模型根据预设单词数量,得到消歧文本对应的词组以及候选文本的对应的词组;根据至少两个词典,确定候选文本的词组的词频以及消歧文本的词组的词频;然后根据候选文本的词组的词频得到候选文本的概率函数,以及根据消歧文本的词组的词频得到消歧合并文本的概率函数;根据候选文本的概率函数的求积处理结果和预设单词数量,得到候选文本的文本分数,同时根据消歧文本的概率函数的求积处理结果和预设单词数量,得到消歧文本的文本分数。针对每个分词结果,服务器根据消歧字段的合并文本的文本分数以及候选字段的合并文本的文本分数,从候选字段和消歧字段中筛选得到满足预设文本分数条件的目标字段。其中,预设文本分数条件可以是文本分数最高,若候选字段的文本分数最高,则将候选字段作为分词结果的目标字段,若消歧字段的文本分数最高,则将消歧字段作为分词结果的目标字段。
[0133]
举例说明,普通词词典的正向分词结果的子字段和反向分词结果的子字段分别是['modes','to']和['modest','o'],假设经过处理后得到的分词结果的消歧字段是['modes','to'],则分词结果的候选字段为['modest','o']。若消歧字段['modes','to']的
上下文单词为['of'],则消歧字段['modes','to']的合并文本为['of','modes','to'],候选字段['modest','o']的合并文本为['of','modest','o']。假设服务器获取到消歧字段的合并文本['of','modes','to']的文本分数为98,获取到候选字段的合并文本['of','modest','o']的文本分数为80,则分词结果的目标字段为['modes','to']。假设服务器获取到消歧字段的合并文本['of','modes','to']的文本分数为88,获取到候选字段的合并文本['of','modest','o']的文本分数为93,则分词结果的目标字段为['modest','o']。
[0134]
本实施例中,通过对分词结果的消歧字段和消歧字段的上下文单词进行字段合并处理,得到消歧字段的合并文本;对分词结果的候选字段和候选字段的上下文单词进行字段合并处理,得到候选字段的合并文本;将消歧字段的合并文本和候选字段的合并文本,分别输入至分词评估模型,得到消歧字段的合并文本的文本分数以及候选字段的合并文本的文本分数;进而根据消歧字段的合并文本的文本分数以及候选字段的合并文本的文本分数,从候选字段和消歧字段中筛选得到满足预设文本分数条件的目标字段,能够解决因字段消歧而忽略了待分词文本的上下文信息从而导致分词结果出现语义歧义的问题,大大提高了待分词文本的分词准确率。
[0135]
在一个实施例中,上述步骤s204,对每个分词结果的目标字段进行融合,得到待分词文本的目标分词结果,具体包括如下内容:对每个分词结果的目标字段进行拼接处理,得到目标字段的拼接文本,其中拼接文本为待分词文本在每个词典下的更新后分词结果;对每个词典下的更新后分词结果进行融合,得到待分词文本的目标分词结果。
[0136]
具体地,服务器分别将每个分词结果的目标字段进行拼接,得到目标字段的拼接文本,可以理解的是,由于目标字段是经过字段消歧处理和语义消歧处理后从正向分词结果的子字段和反向分词结果的子字段中确定得到的,所以目标字段可以看作每个词典下的分词结果经过字段消歧处理和语义消歧处理后得到的子字段,进而由目标字段拼接得到的拼接文本为待分词文本在每个词典下的更新后分词结果。服务器将每个词典下的更新后的分词结果进行融合,融合后得到待分词文本的目标分词结果。
[0137]
在本实施例中,通过对每个分词结果的目标字段进行拼接处理,得到待分词文本在每个词典下的更新后分词结果;进而对每个词典下的更新后分词结果进行融合,得到待分词文本的目标分词结果,实现了待分词文本在多个词典下的更新后分词结果的合理融合,提高了待分词文本的分词准确率。
[0138]
在一个实施例中,对每个词典下的更新后分词结果进行融合,得到待分词文本的目标分词结果,具体包括如下内容:确定每个词典下的更新后分词结果的子字段,并对每个更新后分词结果的子字段进行字段消歧处理,得到待分词文本的消歧字段;对待分词文本的消歧字段进行语义消歧处理,得到待分词文本的目标字段;对待分词文本的目标字段进行拼接处理,得到待分词文本的目标分词结果。
[0139]
具体地,服务器根据每个词典下的更新后分词结果的首字符和尾字符,对每个更新后分词结果进行字段切分处理,得到每个更新后的分词结果中的子字段;其中,每个更新后分词结果中的对应的子字段的首字符和尾字符均相同。服务器对每个更新后分词结果的子字段进行字段消歧处理,可以是将每个更新后分词结果的子字段输入分词评估模型中,得到更新后分词结果的子字段的字段分数,然后根据更新后分词结果的子字段的字段分数,从更新后分词结果的子字段中筛选出满足预设字段条件的子字段,作为待分词文本的
消歧字段;同时,将其余的更新后分词结果中与消歧字段对应的子字段作为待分词文本的候选字段。例如,常规词词典的更新后分词结果的第二个子字段和曲库词词典的更新后分词结果的第一个子字段被分别确定为待分词文本的消歧字段,则常规词词典的更新后分词结果的第一个子字段为曲库词词典的更新后分词结果的第一个子字段(即消歧字段)对应的候选字段,曲库词词典的更新后分词结果的第二个子字段为常规词词典的更新后分词结果的第二个子字段(即消歧字段)对应的候选字段。
[0140]
进一步地,服务器对待分词文本的消歧字段进行语义消歧处理,可以是将待分词文本的消歧字段和该消歧字段的上下文单词进行合并处理,得到待分词文本的消歧字段的合并文本;对待分词文本的候选字段和该候选字段的上下文单词进行合并处理;其中候选字段的上下文单词,可以是候选字段对应的消歧字段在合并文本中的上下文单词,因而服务器对待分词文本的候选字段和候选字段的上下文单词进行字段合并处理,可以是将待分词文本的候选字段以及该候选字段对应的待分词文本的消歧字段在合并文本中的上下文单词进行字段合并处理,则服务器得到待分词文本的消歧字段的合并文本。将待分词文本的消歧字段的合并文本和待分词文本的候选字段的合并文本,分别输入至分词评估模型,得到待分词文本的消歧字段的合并文本的文本分数,以及待分词文本的候选字段的合并文本的文本分数;根据待分词文本的消歧字段的文本分数以及待分词文本的候选字段的文本分数,从待分词文本的候选字段和待分词文本的消歧字段中筛选得到满足预设文本分数条件的目标字段,作为待分词文本的目标字段。最后将待分词文本的目标字段进行拼接处理,得到待分词文本的目标分词结果。
[0141]
需要说明的是,本实施例中提到的分词评估模型与上述实施例中提到的分词评估模型可以是相同的模型,并通过上述实施例中提到的公式进行实施,而分词评估模型中的预设单词数量可以相同,也可以不同;当然本实施例中的分词评估模型与上述实施例中提到的分词评估模型也可以是不同的模型。
[0142]
本实施例中,通过确定每个词典下的更新后分词结果的子字段,并对每个更新后分词结果的子字段进行字段消歧处理,得到待分词文本的消歧字段;对待分词文本的消歧字段进行语义消歧处理,得到待分词文本的目标字段;对待分词文本的目标字段进行拼接处理,得到待分词文本的目标分词结果,实现了多个词典下的更新后分词结果的字段切分、字段消歧、语义消歧和字段拼接,从而准确的获取到待分词文本的目标分词结果,通过对多个词典的更新后分词结果的多次消歧和验证,大大提高了待分词文本的分词准确率。
[0143]
在一个实施例中,如图4所示,提供了另一种分词处理方法,以该方法应用于服务器为例进行说明,包括以下步骤:
[0144]
步骤s401,根据至少两个词典,分别对待分词文本进行正向和反向的分词处理,得到待分词文本在每个词典下的正向分词结果和反向分词结果。
[0145]
其中,至少两个词典所属的词库领域均不同。
[0146]
步骤s402,将正向分词结果和反向分词结果中的待验证单词的单词长度与预设缩进长度之间的差值作为最小单词长度,将待验证单词的单词长度作为最大单词长度,得到待验证单词的单词长度范围。
[0147]
步骤s403,根据待验证单词的单词长度范围内的各个单词长度,分别对正向分词结果和反向分词结果中的待验证单词进行缩进处理,得到正向分词结果和反向分词结果在
各个单词长度下的缩进单词。
[0148]
步骤s404,从至少两个词典中,查询与各个单词长度下的缩进单词分别相匹配的单词,得到与缩进单词匹配的至少一个候选单词。
[0149]
步骤s405,根据各个候选单词的单词分数,从至少一个候选单词中筛选出满足预设单词条件的单词,作为与缩进单词匹配的目标缩进单词;根据目标缩进单词,对每个词典下正向分词结果和反向分词结果进行更新,得到待分词文本在每个词典下的分词结果。
[0150]
步骤s406,针对每个分词结果,根据分词结果中的正向分词结果的首字符和尾字符,以及分词结果中的反向分词结果的首字符和尾字符,对正向分词结果和反向分词结果进行字段切分处理,得到正向分词结果中的子字段与反向分词结果中的子字段。
[0151]
其中,正向分词结果与反向分词结果中的对应的子字段的首字符和尾字符均相同。
[0152]
步骤s407,将正向分词结果中的子字段和反向分词结果中的子字段,作为分词结果的子字段。
[0153]
步骤s408,针对每个分词结果,将分词结果的子字段输入分词评估模型中,得到分词结果的子字段的字段分数。
[0154]
步骤s409,针对每个分词结果,根据分词结果的子字段的字段分数,从分词结果的子字段中筛选出满足预设字段条件的子字段,作为分词结果的消歧字段;针对每个分词结果,对分词结果的消歧字段和消歧字段的上下文单词进行字段合并处理,得到消歧字段的合并文本。
[0155]
步骤s410,针对每个分词结果,对分词结果的候选字段和候选字段的上下文单词进行字段合并处理,得到候选字段的合并文本;其中候选字段为分词结果的子字段中除消歧字段以外的子字段。
[0156]
步骤s411,将消歧字段的合并文本和候选字段的合并文本,分别输入至分词评估模型,得到消歧字段的合并文本的文本分数以及候选字段的合并文本的文本分数。
[0157]
步骤s412,针对每个分词结果,根据消歧字段的合并文本的文本分数以及候选字段的合并文本的文本分数,从候选字段和消歧字段中筛选得到满足预设文本分数条件的目标字段。
[0158]
步骤s413,对每个分词结果的目标字段进行拼接处理,得到目标字段的拼接文本,其中拼接文本为待分词文本在每个词典下的更新后分词结果。
[0159]
步骤s414,确定每个词典下的更新后分词结果的子字段,并对每个更新后分词结果的子字段进行字段消歧处理,得到待分词文本的消歧字段;对待分词文本的消歧字段进行语义消歧处理,得到待分词文本的目标字段。
[0160]
步骤s415,对待分词文本的目标字段进行拼接处理,得到待分词文本的目标分词结果。
[0161]
上述分词处理方法,能够实现以下有益效果:根据预先构建的至少两个词典,分别对待分词文本进行分词处理,得到待分词文本在每个词典下的分词结果,实现了通过多种不同词库领域的词典对待分词文本进行分词处理,以提高短词和短句的分词准确率。针对每个分词结果确定分词结果的子字段,并对分词结果的子字段进行字段消歧处理,得到分词结果的消歧字段,实现了对每个分词结果中的子字段进行消歧,能够解决因上一个子字
段分词错误而导致后续子字段持续分词错误的问题,进一步提高了对待分词文本的分词准确率。针对每个分词结果,对分词结果的消歧字段进行语义消歧处理,得到分词结果的目标字段;能够解决因字段消歧而忽略待分词文本的上下文信息从而导致分词结果出现歧义的问题,大大提高了待分词文本的分词准确率。对每个分词结果的目标字段进行融合,得到待分词文本的目标分词结果,实现了待分词文本在多个词典下的分词结果的合理融合,极大地提高了分词准确率。
[0162]
为了更清晰阐明本公开实施例提供的分词处理方法,以下以一个具体的实施例对上述分词处理方法进行具体说明。如图5所示,提供了又一种分词处理方法,可以应用于图1中的服务器,具体包括如下内容:
[0163]
(1)词典构建:包括两个词典,普通词词典和曲库词词典。其中,常规词词典来自布朗语料库(brown cropus)中的约5.6w个常规词,曲库词词典来自曲库中的37.3w个去重单词,并保存有所有单词的词频。
[0164]
(2)正反向最大匹配和匹配缩进:当用户想要查询的文本为fabulous rhythms of modesto,但输入的待分词文本为fabulousrhythmsofmodesto时,分别对待分词文本进行正向和反向的最大匹配处理,得到待分词文本在每个词典下的正向分词结果和反向分词结果。待分词文本的正向分词结果和反向分词结果如表3所示。
[0165]
表3待分词文本的正向分词结果和反向分词结果
[0166]
ꢀꢀ
普通词词典曲库词词典正向['fabulous','rhythms','of','modest','o']['fabulous','rhythms','ofm','odes','to']反向['fabulous','rhythms','of','modes','to']['fabulous','rhythm','sof','modesto']
[0167]
由表3可知待分词文本的正向分词结果和反向分词结果同时受匹配的方向和构建的词典两个因素影响。如果在4种分词结果中都不存在所需要的单词时,对4种分词结果中的待验证单词进行缩进处理,得到待验证单词的缩进单词。当待验证单词长度为m,预设缩进长度为n,服务器会检索从m-n到m的所有长度的单词在普通词词典和曲库词词典中的匹配情况,将检索到的与缩进单词相匹配的单词作为候选单词;在候选单词的数量为一的情况下,将候选单词作为待验证单词的目标缩进单词;在候选单词的数量大于一的情况下,根据候选单词的得分,从候选单词中,筛选得到满足预设分数条件的单词,作为待验证单词对应的目标缩进单词。根据目标缩进单词,对每个词典下正向分词结果和反向分词结果中的待验证单词进行更新。
[0168]
(3)公共字段切分:将正向分词结果和反向分词结果中,具有相同首字符的单词和相同尾字符的单词之间的所有单词作为一个子字段,得到正向分词结果的子字段和反向分词结果的子字段。以上述步骤(2)中普通词词典和曲库词词典的正向分词结果和反向分词结果为例,普通词词典的正向分词结果的子字段和反向分词结果的子字段如表4所示,步骤(2)中曲库词词典的正向分词结果的子字段和反向分词结果的子字段如表5所示。
[0169]
表4普通词词典的正向分词结果的子字段和反向分词结果的子字段
[0170] 正向分词结果反向分词结果第一个子字段['fabulous','rhythms','of]['fabulous','rhythms','of]第二个子字段['modes','to']['modest','o']
[0171]
表5曲库词词典的正向分词结果的子字段和反向分词结果的子字段
[0172] 正向分词结果反向分词结果第一个子字段['fabulous']['fabulous']第二个子字段['rhythms','ofm','odes','to']['rhythm','sof','modesto']
[0173]
以表4为例,普通词词典的第一个子字段都是以fabulous的f为首字符,以of的f为首字符,第二个子字段都是以m为首字符,以o为首字符。
[0174]
(4)分字段消歧:通过n-gram的语言模型来获取各个子字段的字段分数,n-gram的语言模型可以通过如下方式进行表示:
[0175][0176]
其中,score表示子字段的字段分数;n表示n-gram的语言模型为n元;t表示字段中的第t个词组;v(t)表示概率函数。
[0177]
概率函数可以是一个带惩罚项的概率函数,概率函数v(t)可以通过如下方式进行表示:
[0178][0179]
其中,p(t)表示n-gram的语言模型对应的n元词组的词频,即n元词组在普通词词典和曲库词词典中出现的次数;当子字段的最小单词数小于3时,n为2,反之n为3。
[0180]
服务器根据每个分词结果的子字段的字段分数,获取到每个分词结果的消歧字段,以上述步骤(3)中普通词词典和曲库词词典的正向分词结果和反向分词结果为例,普通词词典和曲库词词典的消歧字段如表6所示。
[0181]
表6普通词词典和曲库词词典的消歧字段
[0182][0183]
(5)全局消歧:步骤(4)中对子字段进行字段消歧虽然尽量规避了子字段之间的错误分词的传递,但同时也阻碍了子字段获得上下文的语义信息,使得目标字段的合并文本的逻辑性可能较低。为了解决这个缺陷,服务器根据普通词词典和曲库词词典的分词结果的消歧字段的合并文本,对分词结果的消歧字段进行语义消歧处理,得到分词结果的目标字段。
[0184]
(6)多词典合并:服务器获取普通词词典和曲库词词典的目标字段后,对各个目标字段进行拼接,得到拼接文本,将每个词典下的拼接文本作为待分词文本在每个词典下的更新后分词结果。进而对每个词典下的更新后分词结果再次执行上述步骤(3)至(5),最终得到待分词文本的目标分词结果。普通词词典下的拼接文本和曲库词词典下的拼接文本、待分词文本的目标字段和目标分词结果如表7所示。
[0185]
表7拼接文本、目标字段和目标分词结果
[0186][0187]
在本实施例中,实现了通过多种不同词库领域的词典对待分词文本进行分词处理,解决了因上一个子字段分词错误而导致后续子字段持续分词错误的问题,还解决了因字段消歧而忽略待分词文本的上下文信息从而导致分词结果出现歧义的问题,并将待分词文本在多个词典下的更新后分词结果的合理融合,大大提高了待分词文本的分词准确率。
[0188]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0189]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储分词结果、目标字段、目标分词结果等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分词处理方法。
[0190]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0191]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0192]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0193]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0194]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人
信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0195]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0196]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0197]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1