专有名词的智能纠错方法、装置、设备及存储介质与流程

文档序号:21547339发布日期:2020-07-17 17:58阅读:365来源:国知局
专有名词的智能纠错方法、装置、设备及存储介质与流程

本发明涉及大数据技术领域,尤其涉及一种专有名词的智能纠错方法、装置、设备及计算机可读存储介质。



背景技术:

近年来,随着经济社会的不断发展,在垂直领域内,客户咨询问题时,往往会针对一个具体的专业方向,在这些类似问题中,往往包含该领域中的一些特殊的专有名词。用户往往会打错或者因为语言转化导致这些专有名词中出现部分错字,会使后续的模块难以准确判断用户的真实表达。

在目前的输入法或语言识别中,针对用户打错的字或者语言转化导致专有名词中出现错误进行纠错,大多借助于序列标注模型,比如ner,lstm+crf等,但因为这种方法需要一大批标该领域的对齐语料,且在纠错的过程中不限制待纠错专有名词的数量和质量,纠错的运行效率低下。



技术实现要素:

本发明的主要目的在于提供一种专有名词的智能纠错方法、装置、设备及计算机可读存储介质,旨在解决现有的纠错方法运行效率低下的技术问题。

为实现上述目的,本发明提供一种专有名词的智能纠错方法,所述专有名词的智能纠错方法包括以下步骤:

获取待纠错专有名词;

对所述待纠错专有名词进行分词处理,得到所述待纠错文本的多个分词片段,并将所述分词片段以拼音格式输出;

基于所述拼音格式的分词片段,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果;

若所述检索结果不为空,则基于所述检索结果,确定所述各检索候选词;

基于所述检索候选词,计算所述检索候选词的分数并进行排序,输出排序结果;

基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。

可选地,在获取待纠错专有名词的步骤之前,还包括:

获取第一原始语料;

对所述第一原始语料进行分词处理,得到所述原始语料的多个词片段;

将所述词片段以拼音的格式输入,统计所述多个词片段的拼音;

基于所述多个词片段的拼音,确定拼音相同的词片段,构建同音字字典,其中,所述同音字字典包括同一拼音与不同文字的对应关系。

可选地,在所述获取待纠错专有名词的步骤之前,还包括:

获取第二原始语料;

对所述第二原始语料进行切词处理,得到所述第二原始语料的多个词片段;

基于所述多个词片段,分别将所述词片段进行单字切词,得到单字集合;

基于所述单字集合,构建倒排索引字典。

可选地,在所述基于所述拼音格式的分词片段,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果的步骤之后,还包括:

若所述检索结果为空,则遍历剔除所述分词片段中的字,获取多个词组;

分别将所述词组作为关键字,调用预置倒排索引字典,检索所述词组对应的多个候选词,得到检索结果;

基于所述检索结果,输出每个词组对应的检索候选词。

可选地,在所述基于所述检索结果,输出每个词组对应的检索候选词的步骤之后,还包括:

基于所述检索候选词,计算所述检索候选词的分数并进行排序,输出排序结果;

基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。

可选地,所述基于所述检索候选词,计算所述检索候选词的分数并进行排序,输出排序结果包括:

基于所述检索候选词,确定所述对应检索候选词的词频信息;

基于所述检索候选词的词频信息,计算所述检索候选词对应的分数,其中,所述词频信息与所述分数成正比;

基于所述分数,对所述检索候选词进行排序。

可选地,所述基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段包括:

基于所述排序结果,获取所述检索候选词的分数;

基于所述检索候选词的分数,将分数最高的检索候选词作为替换项,替换对应分词片段。

进一步地,本发明还提供一种专有名词的智能纠错装置,所述专有名词的智能纠错装置包括:

获取模块,用于获取待纠错专有名词;

分词模块,用于对所述待纠错专有名词进行分词处理,得到所述待纠错文本的多个分词片段,并将所述分词片段以拼音格式输出;

候选词确定模块,用于基于所述拼音格式的分词片段,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果;若所述检索结果不为空,则基于所述检索结果,确定所述各检索候选词;

分数计算模块,用于基于所述检索候选词,计算所述检索候选词的分数并进行排序,并输出排序结果;

纠错模块,用于基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。

进一步地,所述获取模块还用于:获取第一原始语料;

所述分词模块还用于:将所述第一原始语料进行分词处理,得到所述原始语料的多个词片段;

所述专有名词的智能纠错装置还包括:

统计模块,用于将所述词片段以拼音的格式输入,统计所述多个词片段的拼音;

第一构建模块,用于基于所述多个词片段的拼音,确定拼音相同的词片段,构建同音字字典。

进一步地,所述获取模块,用于获取第二原始语料;

所述专有名词的智能纠错装置还包括:

切词模块,用于对所述第二原始语料进行切词处理,得到所述第二原始语料的多个词片段,并分别将所述词片段进行单字切词,得到单字集合;

第二构建模块,用于基于所述单字集合,构建倒排索引字典。

可选地,所述候选词确定模块具体还用于:

当所述检索结果为空,则遍历剔除所述分词片段中的字,获取多个词组;

分别将所述词组作为关键字,调用预置倒排索引字典,检索所述词组对应的多个候选词,得到检索结果;基于所述检索结果,输出每个词组对应的检索候选词。

可选地,所述所述分数计算模块用于:基于所述检索候选词,计算所述倒排索引字典检索候选词的分数并进行排序,输出排序结果;

所述纠错模块还用于:基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。

可选地,所述分数计算模块具体还用于:

基于所述检索候选词,确定所述对应检索候选词的词频信息;

基于所述检索候选词,确定所述对应检索候选词的词频信息;基于所述检索候选词的词频信息,计算所述检索候选词对应的分数,其中,所述词频信息与所述分数成正比;基于所述分数,对所述检索候选词进行排序。

可选地,所述纠错模块具体用于:

基于所述排序结果,获取所述检索候选词的分数;基于所述检索候选词的分数,将分数最高的检索候选词作为替换项,替换对应分词片段。

进一步地,为实现上述目的,本发明还提供一种专有名词的智能纠错设备,所述专有名词的智能纠错设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的专有名词的智能纠错程序,所述专有名词的智能纠错程序被所述处理器执行时实现如上述任一项所述的专有名词的智能纠错方法的步骤。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有专有名词的智能纠错程序,所述专有名词的智能纠错程序被处理器执行时实现如上述任一项所述的专有名词的智能纠错方法的步骤。

本发明通过对待纠错专有名词先进行分词处理,然后将分词后的多个分词片段转换为拼音格式输出,在进行检索时,将每一个分词片段的拼音作为关键词,从预置同音字字典中检索各分词片段对应候选词,最后再对各检索候选词进行排序,将分数最高的候选词作为替换项,替换对应分词片段,进而实现对专有名词中错别字纠错,保证了专有名词的准确性。本发明为用户提供了更精准的专有名词的智能纠错服务,且实现过程不必依赖于大批量的语料,进而大幅提高了专有名词的纠错效率。

附图说明

图1为本发明专有名词的智能纠错设备实施例方案涉及的设备硬件运行环境的结构示意图;

图2为本发明专有名词的智能纠错方法第一实施例的流程示意图;

图3为本发明专有名词的智能纠错方法第二实施例的流程示意图;

图4为本发明专有名词的智能纠错方法第三实施例的流程示意图;

图5为本发明专有名词的智能纠错方法第四实施例的流程示意图;

图6为图5中步骤s440一实施例的细化流程示意图;

图7为图2中步骤s160一实施例的细化流程示意图;

图8为本发明专有名词的智能纠错装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明提供一种专有名词的智能纠错设备。

参照图1,图1为本发明专有名词的智能纠错设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示,该专有名词的智能纠错设备可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解,图1中示出的专有名词的智能纠错设备的硬件结构并不构成对专有名词的智能纠错设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及专有名词的智能纠错程序。其中,操作系统是管理和控制专有名词的智能纠错设备与软件资源的程序,支持网络通信模块、用户接口模块、专有名词的智能纠错程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。

在图1所示的专有名词的智能纠错设备硬件结构中,网络接口1004主要用于连接系统后台,与系统后台进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;专有名词的智能纠错设备通过处理器1001调用存储器1005中存储的专有名词的智能纠错程序,并执行以下专有名词的智能纠错方法的各实施例的操作。

基于上述专有名词的智能纠错设备硬件结构,提出本发明专有名词的智能纠错方法的各个实施例。

参照图2,图2为本发明专有名词的智能纠错方法第一实施例的流程示意图。本实施例中,所述专有名词的智能纠错方法包括以下步骤:

步骤s110,获取待纠错文本,基于所述待纠错文本确定待纠错的专有名词;

本实施例中的待纠错的专有名词,可以从预置的数据库中获取的文本数据,比如电子病历,也可以从用户输入的数据信息中获取,本发明对待纠错文本的获取途径不限。

本实施例中,待纠错专有名词是指客户在咨询问题时,往往针对具体的一个专业方向,比如在寿险中,往往针对的都是疾病的类别。比如用户会问“系统性红斑狼疮能够投保吗”?在这些问题中,往往包含该领域中的一些特殊的专有名词,但是在目前的输入法和语言识别中,往往用户会打错其中的一个字,或者因为语言转化导致专有名词中可能包含有错别字,比如说“系统性红斑狼疮”中的“斑”(癍和斑同音)或者“输暖管手术可以买保险吗”中的“暖”(“卵”发音不准变成“暖”)等需要进行纠错的专有名词。

本实施例中的待纠错专有名词可以从数据库中获取,比如说电子病历等文档,也可以是从用户输入的数据信息中获取。专有名词值得是某一领域中特殊的专有名词,比如在寿险中,往往都是针对的是疾病这个类别,。

步骤s120,对所述专有名词进行分词处理,得到所述待纠错文本的多个分词片段,并将所述分词片段以拼音格式输出;

本实施例中,对待纠错专有名词进行分词处理,得到多个分词组合。比如“系统性红癍狼疮投保”进行分词处理后为“系统性/红/癍/狼疮/投保”往往会得到1-3个字组成的词的片段。对所有的待纠错文本进行分词处理,得到多个词的片段。

本实施例中,分词又叫切词,是指将一个汉字序列切分成一个一个单独的词。

本实施例中,分词片段是指对待纠错文本进行分词处理之后得到的词片段,比如“系统性红癍狼疮投保”切词后为“系统性/红/癍/狼疮/投保”,其中的“系统性”、“红”、“狼疮”、“投保”等就是得到的分词片段。

步骤s130,基于所述拼音格式的分词片段,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果;

本实施例中,将分词片段全部以拼音的格式输入,其中,由于待纠错专有名词数据量巨大,所以得到的分词片段的数据量也巨大,分别将每一个拼音格式的分词片段作为关键词,从同音字字典中检索分词片段对应的多个候选词。比如,以词片段“投保”的拼音(toubao)为关键词,进行同音字检索,得到的候选词有“投保”,“头孢”,“偷包”等。同时,检索结果也可能为空,比如,以词片段“输暖管”的拼音(shunuanguan)为关键字进行同音字检索,没有与“输暖管”同音的其它词,检索的结果为空。

步骤s140,若所述检索结果不为空,则基于所述检索结果,确定所述各检索候选词;

本实施例中,根据所有分词片段对应的多个候选词,分别输出每一个分词片段对应的检索候选词。

本实施例中,根据分词片段对应的检索候选词,利用预置的打分排序模型,计算对每一个候选词的分数。

本实施例中,检索候选词就是以分词片段的拼音为关键词,从预置的同音字字典中,检索的结果。例如,以词片段“投保”的拼音(toubao)为关键词,进行同音字检索,得到的候选词有“投保”,“头孢”,“偷包”,“投保”,“头孢”,“偷包”就是词片段“投保”的拼音(toubao)作为关键词进行同音检索的候选词。

步骤s150,基于所述检索候选词,计算所述检索候选词的分数并进行排序,并输出排序结果;

本实施例中,根据检索的候选词,分别计算各个候选词的分数,并按照分数的高低进行排序,进一步地,输出排序结果。

步骤s160,基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。

本实施例中,根据各检索候选词的分数将各个候选词进行排序,其中,分数最高的候选词就是替换项,替换对应的分词片段。

本实施例通过对待纠错专有名词先进行分词处理,然后将分词后的多个分词片段转换为拼音格式输出,在进行检索时,将每一个分词片段的拼音作为关键词,从预置同音字字典中检索各分词片段对应候选词,最后再对各检索候选词进行排序,将分数最高的候选词作为替换项,替换对应分词片段,进而实现对专有名词中错别字纠错,保证了专有名词的准确性。本发明为用户提供了更精准的专有名词的智能纠错服务,且实现过程不必依赖于大批量的语料,进而大幅提高了专有名词的纠错效率。

参照图3,图3为本发明专有名词的智能纠错方法第二实施例的流程示意图。本实施例中,上述步骤s110之前还包括:

步骤s210,获取第一原始语料;

本实施例中,获取大量的原始语料,这些语料中包含有特别多的专有名词(比如疾病词“系统性红斑狼疮”等。

步骤s220,对所述第一原始语料进行分词处理,得到所述原始语料的多个词片段;

本实施例中,对这些原始语料进行分词处理,得到多个词片段。

步骤s230,将所述词片段以拼音的格式输入,统计所述多个词片段的拼音。

本实施例中,将这些词片段以拼音的格式输入并存储,同时统计这些词片段的拼音。

步骤s240,基于所述多个词片段的拼音,确定拼音相同的词片段,构建同音字字典,其中,所述同音字字典包括同一拼音与不同文字的对应关系。

本实施例中,根据这些词片段的拼音,从中找出拼音相同的词片段,比如,“投保”,“头孢”,“偷包”,再比如,“大奖”,“大将”,“大疆”,“大江”,“大酱”等。

本实施例中,同音字字典是通过对大量的语料进行切词处理,统计切词后1gram-3gram的拼音,将其中相同的拼音归集在一起,以构建同音字字典。同音字字典的创建可以根据字典拼音排序,找出同音不同字形的字,建立同一拼音与不同字形的对应关系,该对应关系包括拼音与字的对应关系,也可以包括字与包含该字的词语的对应关系。例如,拼音“tou”,与其对应的同音不同字形的字,包括:投,头,偷,…,投,头,偷,…为同音字。又例如,与“投”对应的词包括:投保、投入、投降、投掷、风投。

参照图4,图4为本发明专有名词的智能纠错方法第二实施例的流程示意图。本实施例中,上述步骤s110之前还包括:

步骤s310,获取第二原始语料;

本实施例中,获取大量的原始语料,这些语料中包含有特别多的专有名词(比如疾病词“系统性红斑狼疮”等。

步骤s320,对所述第二原始语料进行切词处理,得到所述第二原始语料的多个词片段;

本实施例中,对这些语料进行分词处理,得到多个词片段。“比如输暖管手术可以投保吗”经过分词处理之后就是“输/暖/管/手术/可以/投保/吗”。

步骤s330,基于所述多个词片段,分别将所述词片段进行单字切词,得到单字集合;

本实施例中,根据多个词片段,分别将这些词片段进行切词处理,切成一个一个的单字,分别以单字作为关键词,检索出相关的内容。比如,将词片段“中国人民”进行切词处理,得到“中”,“国”,“人”,“民”四个字。其中,对所有词片段进行单字切词之后得到的所有单字的集合,就叫单字集合。

步骤s340,基于所述单字集合,构建倒排索引。

本实施例中,根据单字集合中的每一个字,将语料转化为“词项-文档”对,分别对词项和对应的文档进行排序,将具有相同词项对文档归并到该词项所对应的的倒排记录表中,进一步地,将生成的倒排索引写入磁盘,生成中间文件,最后,将所有的中间文件合并,构建最终的倒排索引。比如,1:通过一系列的处理将文档集合转化为“词项—文档”对,“aaa→衣服a”,“蓝色→衣服a”,“m码→衣服a”,“猴子→衣服a”;

2:对词项、文档进行排序,将具有相同词项对文档归并到该词项所对应的倒排记录表中,“颜色→颜色1,颜色2,...颜色n”“款号→xx01,xx02,...xxon”,“图案→猴子1,猴子2,...猴子n”等;3:将上述步骤产生的倒排索引写入磁盘,生成中间文件;4:将上述所有的中间文件合并成最终的倒排索引。

本实施例中,索引是为了加快信息查找过程,基于目标信息内容预先创建的一种储存结构。例如:一本书,没有目录,理论上也是可读的,只是当你合上当前在读的内容时,下次再翻开书本去查找,就比较耗费时间了。如果增加几页目录,我们可以快速地了解书本的大体内容分布以及每一个章节页面位置的分布情况,这样我们查询内容的效率自然就会提高。书的目录,就是书本内容一种简单索引。

本实施例中,倒排索引是一种索引方法,常被用于全文检索系统中的一种单词文档映射结构。主要是基于信息主体的关键属性值进行构建的。比如说,假设检索系统中只有一个商品:衣服a,商标为“aaa”,颜色为“蓝色”,尺寸为“m码”,图案为“猴子”,基于该商品构建其倒排索引结构之后,会产生对应的的索引结构:“aaa→衣服a”,“蓝色→衣服a”,“m码→衣服a”,“猴子→衣服a”,这样用户可以通过搜“aaa”,“蓝色”,“m码”,“猴子”,均可找到该商品,加快了检索速度,扩大了检索范围。

参照图5,图5为本发明专有名词的智能纠错方法第四实施例的流程示意图。基于上述实施例,本实施例中,上述步骤s130之后,还包括:

步骤s410,若所述检索结果为空,则遍历剔除所述分词片段中的字,获取多个词组;

本实施例中,若遇到发音不标准导致无法用同音检索的错误时,从预置同音字字典中检索所述分词片段对应的多个候选词的检索结果就为空。此时,可以遍历地剔除待纠错专有名词中的字,比如“输暖管投保”,如果剔除“暖”字,剩下的两个字“(输,管)”组成的字的组合,也即,词组。

本实施例中,前字的个数和后字的个数不做限制,即只要是剔除了某个字,剩下的字,组成的词组即可作为关键词进行检索。

步骤s420,分别将所述词组作为关键字,调用预置倒排索引,检索所述词组对应的多个候选词,得到检索结果;

本实施例中,分别将得到的多个词组作为关键字,调用预置的倒排索引检索,检索每一个词组对应的多个候选词。

一般地,当接受到用户查询请求,进入到倒排索引进行检索,直到返回检索结果的过程中,主要有以下几个步骤:

(1).在分词系统对用户请求进行分析,产生对应的项,比如;

(2).项在倒排索引中的词项列表中查找对应的项的多个候选词,比如;

(3).分别对多个候选词数据进行微运算;

(4).基于上述运算得分对多个候选词进行综合排序,最后返回结果给用户。

上述该过程是较为简洁的一个检索过程。

比如,“输暖管投保”,如果剔除“暖”字,剩下的两个字“(输,管)”,将“(输,管)”作为关键词,分词系统首先对“(输,管)”进行分析,产生对应的项“输xx”,“输xx”在倒排索引中的词项列表中查找对应的多个候选词“输卵管”,“输精管”,“输血管”等,进一步地,分别对这些候选词进行微运算,计算每一个候选词对应的分数,根据分数将所有候选词进行排序。其中,若候选词的分数大于预设阈值,则将该候选词作为备选的替换项,并将结果输出,返回给用户,得到检索结果。

步骤s430,基于所述检索结果,输出每个词组对应的检索候选词。

本实施例中,根据分词片段中每个词组对应的多个候选词,输出每个词组对应的候选词。比如,“输暖管投保”,如果剔除“暖”字,就可以用词组“(输,管)”作为关键词,利用倒排索引中检索“输卵管”,“输精管”,“输血管”等候选词。

步骤s440,基于所述检索候选词,计算所述检索候选词的分数并进行排序,输出排序结果;

本实施例中,分别对检索候选词进行特征提取,获取检索候选词的组合特征,根据该组合特征,对各检索候选词进行打分。

本实施例中,检索候选词的组合特征包括词频变化的特征,分词变化的特征以及神经网络语言模型预测概率值等特征。

步骤s450,基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。

本实施例中,根据排序结果,将其中分数最高的候选词作为替换项,替换对应的分词片段,完成待纠错专有名词的纠错。

参照图6,图6为图5中步骤s440第四实施例的细化流程示意图。基于上述实施例,本实施例中,上述步骤s440进一步包括:

步骤s4401,基于所述检索候选词,确定所述对应检索候选词的词频信息;

本实施例中,对应的检索候选词包括匹配词条和/或联想词条,比如,用词组“(输,管)”作为关键词,利用倒排索引中检索“输卵管”,“输精管”,“输血管”,“输血”,“输了”,“输钱”,“输入”,“输送”等候选词,其中,输卵管,“输精管”,“输血管”是匹配词条,而“输血”,“输了”,“输钱”,“输入”,“输送”等候选词是联想词条。通过统计原始语料中词条的出现次数,得到各检索候选词对应的词频信息。

步骤s4402,基于所述检索候选词的词频信息,计算所述检索候选词对应的分数,其中,所述词频信息与所述分数成正比;

本实施例中,根据检索候选词的词频信息,可以直接将词频信息作为得分,或者,也可以将词频信息按大小划分为不同的区间,各区间对应不同的得分等。例如,直接将词频信息作为得分,使得词频信息与得分成正比关系,则可以按照词频信息的大小顺序,对各个检索候选词进行排序,将具有较大词频信息的候选词排在前面,也即可以优先展示词频大的词,或者,也可以按照词频信息的大小进行倒序排序。可以理解,在实际应用中,本领域技术人员可以根据需求灵活选择排序方式,本发明实施例对于根据词频信息对候选词进行排序的具体方式不加以限制。

本实施例中,可以根据词频信息和编辑距离计算候选词的分数,根据分数对候选词进行排序。其中,编辑距离是指原词与候选词同一个位置字不同的个数。

具体地,可以通过如下公式计算候选项的得分score:

得分score=排序分数=log10(词频)-编辑距离

步骤s1503,基于所述分数,对所述检索候选词进行排序。

本实施例中,可以根据分数对候选词进行排序。比如:“水豆可以报销吗?”错误词“水豆”的候选词是“水痘”,“水都”,它们的编辑距离均为1,此时,可以根据词频来区分;从而可以选择分数高的“水痘”,水痘log10(10w)–1=5;水都log10(426)–1=2.63

最后,将上述检索候选词按照分数的高低进行排序,进一步地,用户可以快速地完成纠错,解决了现有的纠错方法运行效率低下的问题。

参照图7,图7为图2中步骤s160一实施例的细化流程示意图。基于上述实施例,本实施例中,上述步骤s160进一步包括:

步骤s1601,基于所述排序结果,获取所述检索候选词的分数;

本实施例中,根据排序结果,获取各检索候选词的分数,其中,排序结果是按照分数从高到低排列的。比如,以拼音(dajiang)为关键字,检索的候选词有“大奖”,“大将”,“大疆”,“大江”,“大酱”,这些候选词的排序结果为“大疆”和“大江”,“大奖”,“大将”,“大酱”,分数分别为0.85,0.6,0.55,0.3,0.15,0.1。

步骤s1602,基于所述检索候选词的分数,将分数最高的检索候选词作为替换项,替换对应分词片段。

本实施例中,将分数最高的检索候选词作为替换项,替换对应分词片段。比如“中度贫血头孢”,可以利用“头孢”的拼音“toubao”作为关键词,检索对应的候选词“投保,头孢,偷包,…”三个候选词的分数分别为0.95,0.6,0.2,将三个候选词“投保”,“头孢”及“偷包”的分数进行比较,将分数最高的候选词作为替换项,也即,将“投保”作为替换词,完成待纠错文本的纠错。

参照图8,图8为本发明专有名词的智能纠错装置一实施例的功能模块示意图。本实施例中,所述专有名词的智能纠错装置包括:

获取模块10,用于获取待纠错专有名词;

分词模块20,用于对所述待纠错专有名词进行分词处理,得到所述待纠错文本的多个分词片段,并将所述分词片段以拼音格式输出;

候选词确定模块30,用于基于所述拼音格式的分词片段,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果;若所述检索结果不为空,则基于所述检索结果,确定所述各检索候选词;

分数计算模块40,用于基于所述检索候选词,计算所述检索候选词的分数并进行排序,并输出排序结果;

纠错模块50,用于基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。

可选地,在一具体实施例中,所述专有名词的智能纠错装置还包括:

获取模块,用于获取第一原始语料;

分词模块,用于对所述第一原始语料进行分词处理,得到所述原始语料的多个词片段;

统计模块,用于将所述词片段以拼音的格式输入,统计所述多个词片段的拼音;

第一构建模块,用于基于所述多个词片段的拼音,确定拼音相同的词片段,构建同音字字典。

可选地,在一具体实施例中,所述获取模块还用于获取第二原始语料;

可选地,在一具体实施例中,所述专有名词的智能纠错装置还包括:

切词模块,用于对所述第二原始语料进行切词处理,得到所述第二原始语料的多个词片段,并分别将所述词片段进行单字切词,得到单字集合;

第二构建模块,用于基于所述单字集合,构建倒排索引字典。

可选地,在一具体实施例中,所述候选词确定模块具体用于:

当所述检索结果为空,则遍历剔除所述分词片段中的字,获取多个词组;

分别将所述词组作为关键字,调用预置倒排索引字典,检索所述词组对应的多个候选词,得到检索结果;基于所述检索结果,输出每个词组对应的检索候选词。

可选地,所述分数计算模块具体用于:

基于所述检索候选词,计算所述倒排索引字典检索候选词的分数并进行排序,输出排序结果;

所述纠错模块具体用于:基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。

可选地,在一具体实施例中,所述分数计算模块具体还用于:

基于所述检索候选词,确定所述对应检索候选词的词频信息;基于所述检索候选词的词频信息,计算所述检索候选词对应的分数,其中,所述词频信息与所述分数成正比;基于所述分数,对所述检索候选词进行排序。

可选地,在一具体实施例中,所述纠错模块具体还用于:

基于所述排序结果,获取所述检索候选词的分数;基于所述检索候选词的分数,将分数最高的检索候选词作为替换项,替换对应分词片段。

本实施例通过对待纠错专有名词先进行分词处理,然后将分词后的多个分词片段转换为拼音格式输出,在进行检索时,将每一个分词片段的拼音作为关键词,从预置同音字字典中检索各分词片段对应候选词,最后再对各检索候选词进行排序,将分数最高的候选词作为替换项,替换对应分词片段,进而实现对专有名词中错别字纠错,保证了专有名词的准确性。本发明为用户提供了更精准的专有名词的智能纠错服务,且实现过程不必依赖于大批量的语料,进而大幅提高了专有名词的纠错效率。

基于与上述本发明专有名词的智能纠错方法相同的实施例说明内容,因此本实施例对专有名词的智能纠错装置的实施例内容不做过多赘述。

本发明还提供一种计算机可读存储介质。

本实施例中,所述计算机可读存储介质上存储有专有名词的智能纠错程序,所述专有名词的智能纠错程序被处理器执行时实现如上述任一项实施例中所述的专有名词的智能纠错方法的步骤。其中,专有名词的智能纠错程序被处理器执行时所实现的方法可参照本发明专有名词的智能纠错方法的各个实施例,因此不再过多赘述。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1