文本识别方法、装置、设备及存储介质与流程

文档序号:26804808发布日期:2021-09-29 02:25阅读:102来源:国知局
文本识别方法、装置、设备及存储介质与流程

1.本发明涉及人工智能的智能决策领域,尤其涉及一种文本识别方法、装置、设备及存储介质。


背景技术:

2.随着互联网技术的不断发展和创新,网络舆情已经渗透到了社会生活的各个方面。若在对话系统中用户输入相关不合规言论,后续仍需消耗大量人力来进行有效数据的回流。
3.为了加大网络环境的监管力度,业界通过构建相关关键词词典来识别不合规关键词(即敏感词),若在对话系统中用户输入的言论中出现相关关键词,则判定该言论不合规,但这种方法的扩展性较差,对于一些以拼音或谐音/形近字替换关键词的文本(即敏感词)无法识别,从而导致了敏感文本识别的准确性低。


技术实现要素:

4.本发明提供一种文本识别方法、装置、设备及存储介质,用于提高敏感文本识别的准确性。
5.本发明第一方面提供了一种文本识别方法,包括:
6.获取待处理文本,对所述待处理文本进行基于最大熵的词序列转换,得到目标词序列;
7.对所述目标词序列进行基于相似词候补集的相似字词替换,得到相似词序列;
8.通过预置的深度学习网络模型,对所述目标词序列进行拼音转换,得到拼音序列;
9.对所述待处理文本、所述相似词序列和所述拼音序列分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼音句向量;
10.通过预置的二分类神经网络模型,对所述目标文本句向量、所述目标相似句向量和所述目标拼音句向量进行敏感文本的分类,得到目标文本。
11.可选的,在本发明第一方面的第一种实现方式中,所述获取待处理文本,对所述待处理文本进行基于最大熵的词序列转换,得到目标词序列,包括:
12.获取待处理文本,对所述待处理文本进行文本预处理和分词处理,得到初始分词;
13.对所述初始分词进行歧义字词提取和分词重组,得到已重组分词;
14.通过预置的最大熵模型,对所述已重组分词进行概率筛选,得到有效分词;
15.通过所述有效分词,对所述初始分词进行分词替换,得到目标词序列。
16.可选的,在本发明第一方面的第二种实现方式中,所述对所述目标词序列进行基于相似词候补集的相似字词替换,得到相似词序列,包括:
17.对所述目标词序列进行基于上下文的错误字词检测和字词位置识别,得到错误字词集和目标位置数据,所述目标位置数据为所述错误字词集中各错误字词的位置数据;
18.通过所述目标位置数据,对所述错误字词集进行词延长和序列截断,得到待纠错
字词集;
19.获取与所述目标词序列对应的相似候补集,并将所述待纠错字词集与所述相似候补集进行对比分析和字词替换,得到相似词序列。
20.可选的,在本发明第一方面的第三种实现方式中,所述通过预置的深度学习网络模型,对所述目标词序列进行拼音转换,得到拼音序列,包括:
21.通过预置的深度学习网络模型中的编码层,按照预设长度对所述目标词序列进行序列截断,得到已切断词序列,所述深度学习网络模型包括编码层和解码层;
22.对所述已切断词序列进行基于开始字符的拼接处理,得到处理后的序列;
23.通过所述解码层对所述处理后的序列进行解码,得到拼音序列。
24.可选的,在本发明第一方面的第四种实现方式中,所述通过所述解码层对所述处理后的序列进行解码,得到拼音序列,包括:
25.通过所述解码层中的训练解码层,对所述处理后的序列进行参数学习,得到待预测参数,所述解码层包括训练解码层和预测解码层;
26.通过所述预测解码层基于所述待预测参数,对所述处理后的序列进行拼音预测,得到预测序列;
27.对所述预测序列进行基于所述已切断词序列的拼接和循环解码,得到拼音序列。
28.可选的,在本发明第一方面的第五种实现方式中,所述对所述待处理文本、所述相似词序列和所述拼音序列分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼音句向量,包括:
29.通过所述深度学习网络模型中的机器翻译编码层,分别对所述待处理文本、所述相似词序列和所述拼音序列进行词向量转换和加权平均,得到初始文本句向量、初始相似句向量和初始拼音句向量;
30.分别计算所述初始文本句向量、所述初始相似句向量和所述初始拼音句向量的向量权重,得到文本权重、相似权重和拼音权重;
31.通过所述文本权重对所述初始文本句向量进行加权求和,得到目标文本句向量,通过所述相似权重对所述初始相似句向量进行加权求和,得到目标相似句向量,通过所述拼音权重对所述初始拼音句向量进行加权求和,得到目标拼音句向量。
32.可选的,在本发明第一方面的第六种实现方式中,所述通过预置的二分类神经网络模型,对所述目标文本句向量、所述目标相似句向量和所述目标拼音句向量进行敏感文本的分类,得到目标文本,包括:
33.通过预置的二分类神经网络模型,对所述目标文本句向量、所述目标相似句向量和所述目标拼音句向量分别进行敏感词概率计算,得到文本敏感概率、相似敏感概率和拼音敏感概率;
34.通过所述文本敏感概率、所述相似敏感概率和所述拼音敏感概率,对所述待处理文本进行敏感文本的判别,得到目标文本。
35.本发明第二方面提供了一种文本识别装置,包括:
36.第一转换模块,用于获取待处理文本,对所述待处理文本进行基于最大熵的词序列转换,得到目标词序列;
37.第二转换模块,用于对所述目标词序列进行基于相似词候补集的相似字词替换,
得到相似词序列;
38.第三转换模块,用于通过预置的深度学习网络模型,对所述目标词序列进行拼音转换,得到拼音序列;
39.第四转换模块,用于对所述待处理文本、所述相似词序列和所述拼音序列分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼音句向量;
40.分类模块,用于通过预置的二分类神经网络模型,对所述目标文本句向量、所述目标相似句向量和所述目标拼音句向量进行敏感文本的分类,得到目标文本。
41.可选的,在本发明第二方面的第一种实现方式中,所述第一转换模块包括:
42.分词单元,用于获取待处理文本,对所述待处理文本进行文本预处理和分词处理,得到初始分词;
43.重组单元,用于对所述初始分词进行歧义字词提取和分词重组,得到已重组分词;
44.筛选单元,用于通过预置的最大熵模型,对所述已重组分词进行概率筛选,得到有效分词;
45.替换单元,用于通过所述有效分词,对所述初始分词进行分词替换,得到目标词序列。
46.可选的,在本发明第二方面的第二种实现方式中,所述第二转换模块具体用于:
47.对所述目标词序列进行基于上下文的错误字词检测和字词位置识别,得到错误字词集和目标位置数据,所述目标位置数据为所述错误字词集中各错误字词的位置数据;
48.通过所述目标位置数据,对所述错误字词集进行词延长和序列截断,得到待纠错字词集;
49.获取与所述目标词序列对应的相似候补集,并将所述待纠错字词集与所述相似候补集进行对比分析和字词替换,得到相似词序列。
50.可选的,在本发明第二方面的第三种实现方式中,所述第三转换模块包括:
51.截断单元,用于通过预置的深度学习网络模型中的编码层,按照预设长度对所述目标词序列进行序列截断,得到已切断词序列,所述深度学习网络模型包括编码层和解码层;
52.拼接单元,用于对所述已切断词序列进行基于开始字符的拼接处理,得到处理后的序列;
53.解码单元,用于通过所述解码层对所述处理后的序列进行解码,得到拼音序列。
54.可选的,在本发明第二方面的第四种实现方式中,所述解码单元具体用于:
55.通过所述解码层中的训练解码层,对所述处理后的序列进行参数学习,得到待预测参数,所述解码层包括训练解码层和预测解码层;
56.通过所述预测解码层基于所述待预测参数,对所述处理后的序列进行拼音预测,得到预测序列;
57.对所述预测序列进行基于所述已切断词序列的拼接和循环解码,得到拼音序列。
58.可选的,在本发明第二方面的第五种实现方式中,所述第四转换模块具体用于:
59.通过所述深度学习网络模型中的机器翻译编码层,分别对所述待处理文本、所述相似词序列和所述拼音序列进行词向量转换和加权平均,得到初始文本句向量、初始相似句向量和初始拼音句向量;
60.分别计算所述初始文本句向量、所述初始相似句向量和所述初始拼音句向量的向量权重,得到文本权重、相似权重和拼音权重;
61.通过所述文本权重对所述初始文本句向量进行加权求和,得到目标文本句向量,通过所述相似权重对所述初始相似句向量进行加权求和,得到目标相似句向量,通过所述拼音权重对所述初始拼音句向量进行加权求和,得到目标拼音句向量。
62.可选的,在本发明第二方面的第六种实现方式中,所述分类模块具体用于:
63.通过预置的二分类神经网络模型,对所述目标文本句向量、所述目标相似句向量和所述目标拼音句向量分别进行敏感词概率计算,得到文本敏感概率、相似敏感概率和拼音敏感概率;
64.通过所述文本敏感概率、所述相似敏感概率和所述拼音敏感概率,对所述待处理文本进行敏感文本的判别,得到目标文本。
65.本发明第三方面提供了一种文本识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述文本识别设备执行上述的文本识别方法。
66.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的文本识别方法。
67.本发明提供的技术方案中,获取待处理文本,对所述待处理文本进行基于最大熵的词序列转换,得到目标词序列;对所述目标词序列进行基于相似词候补集的相似字词替换,得到相似词序列;通过预置的深度学习网络模型,对所述目标词序列进行拼音转换,得到拼音序列;对所述待处理文本、所述相似词序列和所述拼音序列分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼音句向量;通过预置的二分类神经网络模型,对所述目标文本句向量、所述目标相似句向量和所述目标拼音句向量进行敏感文本的分类,得到目标文本。本发明实施例中,通过结合目标词序列、相似词序列和拼音序列,对待处理文本进行敏感文本分类,扩展性较高,能识别敏感词以拼音或谐音/形近字替换关键词的文本,从而提高了敏感文本识别的准确性。
附图说明
68.图1为本发明实施例中文本识别方法的一个实施例示意图;
69.图2为本发明实施例中文本识别方法的另一个实施例示意图;
70.图3为本发明实施例中文本识别装置的一个实施例示意图;
71.图4为本发明实施例中文本识别装置的另一个实施例示意图;
72.图5为本发明实施例中文本识别设备的一个实施例示意图。
具体实施方式
73.本发明实施例提供了一种文本识别方法、装置、设备及存储介质,提高了敏感文本识别的准确性。
74.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示
或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
75.为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中文本识别方法的一个实施例包括:
76.101、获取待处理文本,对待处理文本进行基于最大熵的词序列转换,得到目标词序列。
77.可以理解的是,本发明的执行主体可以为文本识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
78.其中,待处理文本可为问答信息query。服务器通过接收输入界面发送的用户输入的文本信息,获得待处理文本,服务器也可通过区块链中获取用户输入的文本信息,获得待处理文本。服务器对待处理文本进行文本预处理,得到预处理后的文本,其中,文本预处理包括大小写转换、全半角转换、长度截断和繁简体转换;调用预置的最大熵模型对预处理后的文本进行概率分布预测,得到词熵值,词熵值用于指示分词的概率;调用预置的语言技术平台(language technology platform,ltp)分词工具,基于词熵值对预处理后的文本进行分词处理,得到目标词序列,其中,语言技术平台ltp分词工具是哈工大开源语言处理系统,用于对初始序列进行分词、词性标注、命名实体识别、依存句法分析和语义角色标注,得到目标词序列。
79.102、对目标词序列进行基于相似词候补集的相似字词替换,得到相似词序列。
80.服务器从预置数据库中提取相似词候补集;计算目标词序列中各分词和相似词候补集中各词的字形相似度和语义相似度;对字形相似度和语义相似度进行加权求和,得到目标相似度;判断目标相似度是否大于预设阈值,若是,则将对应的相似词候补集的字词确定为备用字词,并将对应的目标词序列的分词确定为待替换字词,若否,则不进行处理,继续下个分词的判断,直至将目标词序列中所有分词与相似词候补集进行匹配完成,并得到备用字词和待替换字词;将备用字词对待替换字词进行替换,从而得到相似词序列。
81.103、通过预置的深度学习网络模型,对目标词序列进行拼音转换,得到拼音序列。
82.其中,预置的深度学习网络模型可为深度学习网络模型seq2seq,该深度学习网络模型包括两个循环神经网络(recurrent neural network,rnn),一个循环神经网络作为编码层,另外一个循环神经网络作为解码层。服务器通过预置的深度学习网络模型中的编码层,对目标词序列进行编码得到初始编码向量;根据该初始编码向量对预置数据库中的拼音数据进行检索,得到目标拼音数据,该目标拼音数据包括多音字的拼音数据;基于该目标拼音数据对初始编码向量进行基于上下文的编码转换,得到拼音编码向量;通过预置的深度学习网络模型中的解码层,对拼音编码向量进行解码,得到拼音序列。
83.104、对待处理文本、相似词序列和拼音序列分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼音句向量。
84.服务器分别对待处理文本、相似词序列和拼音序列分别进行词向量转换,得到文本词向量、相似词向量和拼音词向量;调用预置的句向量转换算法,对文本词向量、相似词向量和拼音词向量分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼
音句向量,其中,句向量转换算法可为累加法、平均法、词频

逆文本频率指数(term frequency

inverse document frequency,tf

idf)加权平均法和光滑逆频率(smooth inverse frequency,sif)嵌入法中的任意一种。
85.累加法的执行过程例如:以文本词向量的句向量转换为例说明,服务器对文本词向量进行非停用词识别、非停用词过滤和非停用词统计,得到过滤后的文本词向量和非停用词数量,将过滤后的文本词向量依序叠加,得到目标文本句向量。
86.平均法的执行过程例如:以拼音词向量的句向量转换为例说明,服务器对拼音词向量进行非停用词识别和非停用词过滤,得到过滤后的拼音词向量,将过滤后的拼音词向量依序叠加,得到初始拼音句向量,将初始拼音句向量除以非停用词数量,得到目标拼音句向量。
87.tf

idf加权平均法的执行过程例如:以相似词向量的句向量转换为例说明,服务器对相似词向量进行非停用词识别和非停用词过滤,得到过滤后的相似词向量,将过滤后的相似词向量依序叠加,得到初始相似句向量,计算初始相似句向量中各过滤后的相似词向量的词频

逆文本频率指数,将词频

逆文本频率指数确定为初始相似句向量中各过滤后的相似词向量的权重值,对初始相似句向量中各过滤后的相似词向量进行加权加权平均计算,得到目标相似句向量。
88.sif嵌入法的执行过程例如:以文本词向量的句向量转换为例说明,服务器通过文本词向量遍历预置语料库中的句子,并通过预置sif嵌入法计算公式,对文本词向量进行基于预置语料库中的句子的词向量加权平均值计算,得到初始文本句向量,对初始文本句向量进行主成分分析和主成分计算,得到主成分信息,通过主成分信息对初始文本句向量进行公共成分删除,得到目标文本句向量。
89.105、通过预置的二分类神经网络模型,对目标文本句向量、目标相似句向量和目标拼音句向量进行敏感文本的分类,得到目标文本。
90.服务器调用预置的分类神经网络模型,分别对目标文本句向量、目标相似句向量和目标拼音句向量进行敏感文本概率计算,得到文本敏感值、相似敏感值和拼音敏感值,对文本敏感值、相似敏感值和拼音敏感值进行加权求和,得到目标概率值;判断目标概率值是否大于预设敏感阈值,若是,则将对应的待处理文本确定为敏感文本,若否,则将对应的待处理文本确定为非敏感文本;将敏感文本和非敏感文本确定为目标文本。
91.本发明实施例中,通过结合目标词序列、相似词序列和拼音序列,对待处理文本进行敏感文本分类,扩展性较高,能识别敏感词以拼音或谐音/形近字替换关键词的文本,从而提高了敏感文本识别的准确性。
92.请参阅图2,本发明实施例中文本识别方法的另一个实施例包括:
93.201、获取待处理文本,对待处理文本进行文本预处理和分词处理,得到初始分词。
94.服务器获得待处理文本后,对待处理文本进行大小写转换、全半角转换、长度截断和繁简体转换,得到预处理后的待处理文本。服务器调用预置的分词工具,对预处理后的待处理文本进行分词性标注、命名实体识别、依存句法分析和语义角色标注和分词处理,得到初始分词,其中,预置的分词工具可为语言技术平台ltp分词工具。
95.202、对初始分词进行歧义字词提取和分词重组,得到已重组分词。
96.服务器对初始分词进行基于上下文的分词歧义点提取,得到目标歧义字词;对目
标歧义字词进行分词重组,得到已重组分词,其中,分词重组可以通过以下三种方式的至少其中一种来实现:(1)将分词歧义点与从后方紧邻分词歧义点的至少一个字组合;(2)将从前方紧邻分词歧义点的至少一个字与分词歧义点组合;(3)将从前方紧邻分词歧义点的至少一个点、分词歧义点和从后方紧邻分词歧义点的至少一个字组合。
97.203、通过预置的最大熵模型,对已重组分词进行概率筛选,得到有效分词。
98.服务器通过预置的最大熵模型对已重组分词进行最大熵得分计算,得到分词概率,该分词概率为已重组分词出现的概率,根据分词概率从大到小的顺序,对已重组分词进行排列,得到有效分词,其中,有效分词是已重组分词按照概率排列后排在第一位的分词,有效分词即为正确分词。
99.例如,利用语言技术平台ltp分词工具对处理后的序列“在这种环境下工作是太可怕了”进行分词,获得初始分词为“在/这种/环境/下工/作/是/太/可怕/了”,提取“下”和“工”作为分词歧义点,通过上述三种新分词构造方式,得到的已重组分词“下工”和“工作”,通过最大熵模型对两个已重组分词“下工”和“工作”进行最大熵得分计算和降序排序(即根据分词概率从大到小的顺序,对已重组分词进行排列),得到“工作”为已重组分词按照概率排列后排在第一位的分词,即“工作”的分词概率最高,“工作”出现的概率更高,更有可能是正确的分词结果,从而将“工作”作为有效分词。
100.204、通过有效分词,对初始分词进行分词替换,得到目标词序列。
101.服务器将初始分词中有效分词对应的分词替换为有效分词,得到目标词序列。例如,通过有效分词“工作”对初始分词“在/这种/环境/下工/作/是/太/可怕/了”中的“下工/作”进行替换,得到的正确分词结果(即目标词序列)为“在/这种/环境/下/工作/是/太/可怕/了”。
102.205、对目标词序列进行基于相似词候补集的相似字词替换,得到相似词序列。
103.具体地,服务器对目标词序列进行基于上下文的错误字词检测和字词位置识别,得到错误字词集和目标位置数据,目标位置数据为错误字词集中各错误字词的位置数据;通过目标位置数据,对错误字词集进行词延长和序列截断,得到待纠错字词集;获取与目标词序列对应的相似候补集,并将待纠错字词集与相似候补集进行对比分析和字词替换,得到相似词序列。
104.其中,基于上下文的错误字词检测是指服务器通过预置的上下文关系,对目标词序列的上下文相关性进行识别,得到错误字词集,通过对目标词序列的上下文相关性进行识别,从目标词序列中找到与预置的上下文关系不对应的词,即错误字词集。服务器对错误字词集进行字词位置识别,得到目标位置数据,例如,基于上下文对目标词序列“过去a1/西天a2/很a3/热a4”的错误字词进行检测,得到可能为错误字词的“西天”(即错误字词集),其位置为a2,其中a1

a4代表每个字词对应的位置信息,从而得到目标位置数据西天a2。
105.服务器通过目标位置数据对错误字词集进行上文或下文的字词延长,以及序列截断,得到待纠错字词集,例如,对错误字词集中的错误字词“西天”做上文的字词延长或下文的字词延长,可以得到“东西天”和“西天空”,对“东西天”和“西天空”进行序列截断,得到待纠错字词集“东西/天”和“西/天空”。
106.服务器对目标词序列进行相似候补词获取处理,得到与目标词序列对应的相似候补集,其中,相似候补集包括语义相似词和字型相似词。例如,对目标词序列“过去/西天/
很/热”进行相似候补词获取,“过去”的候补词有“昔日”、“以前”和“往日”等,“西天”的相似词有“两天”和“酉天”等,“很”的相似词有“跟”、“恨”和“十分”等,“热”的相似词有“燥”、“闷”和“炽”等,即这些都是目标词序列的相似候补集。
107.服务器将待纠错字词集与相似候补集进行相似对比(对比分析)和字词替换,得到相似词序列,例如,待纠错字词集为“过去/西天/恨/热”,通过相似候补集对待纠错字词集进行基于上下文的相似对比和字词替换,可以得到相似词序列“以前/天气/很/热”和“过去/两天/很/热”。
108.206、通过预置的深度学习网络模型,对目标词序列进行拼音转换,得到拼音序列。
109.具体地,服务器通过预置的深度学习网络模型中的编码层,按照预设长度对目标词序列进行序列截断,得到已切断词序列,深度学习网络模型包括编码层和解码层;对已切断词序列进行基于开始字符的拼接处理,得到处理后的序列;通过解码层对处理后的序列进行解码,得到拼音序列。
110.具体地,服务器通过解码层中的训练解码层,对处理后的序列进行参数学习,得到待预测参数,解码层包括训练解码层和预测解码层;通过预测解码层基于待预测参数,对处理后的序列进行拼音预测,得到预测序列;对预测序列进行基于已切断词序列的拼接和循环解码,得到拼音序列。
111.服务器通过预置的深度学习网络模型中的编码层,依次对目标词序列的每一个字词进行编码,得到编码后的词序列;再按照预设长度对编码后的词序列进行序列截断,得到切断后的词序列。服务器对切断后的词序列进行拼接处理,得到处理后的序列,即将切断后的词序列与开始字符<go>进行拼接,得到处理后的序列。其中,解码层包括训练解码层和预测解码层,训练解码层和预测解码层是共享参数的,也就是说通过训练解码层得到的参数,预测解码层会用来进行预测。
112.服务器通过训练解码层对处理后的序列进行参数学习,得到待预测参数,待预测参数为拼音预测的参数;通过预测解码层,基于待预测参数对处理后的序列进行拼音预测,得到预测序列;再对预测序列进行基于最大似然估计的最大化处理,得到目标序列,具体地,服务器对预测序列进行联合概率计算,得到预测序列的联合概率,再对预测序列的联合概率进行基于最大似然估计的最大化处理,得到目标序列;对目标序列进行基于切断后的词序列的拼接和循环解码,得到拼音序列,具体地,服务器将上一时刻解码层输出的目标序列和切断后的词序列进行拼接,得到拼接的序列,再将拼接的序列作为下一时刻解码层的输入,重复执行上述步骤“通过预置的深度学习网络模型中的编码层,按照预设长度对目标词序列进行序列截断,得到已切断词序列,深度学习网络模型包括编码层和解码层;对已切断词序列进行基于开始字符的拼接处理,得到处理后的序列;通过解码层对处理后的序列进行解码,得到拼音序列”的执行过程,直到解码层输出的结果为结束符时,停止解码,得到拼音序列,其中,循环次数就是预设的拼音序列的最大长度。
113.207、对待处理文本、相似词序列和拼音序列分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼音句向量。
114.具体地,服务器通过深度学习网络模型中的机器翻译编码层,分别对待处理文本、相似词序列和拼音序列进行词向量转换和加权平均,得到初始文本句向量、初始相似句向量和初始拼音句向量;分别计算初始文本句向量、初始相似句向量和初始拼音句向量的向
量权重,得到文本权重、相似权重和拼音权重;通过文本权重对初始文本句向量进行加权求和,得到目标文本句向量,通过相似权重对初始相似句向量进行加权求和,得到目标相似句向量,通过拼音权重对初始拼音句向量进行加权求和,得到目标拼音句向量。
115.其中,预置的深度学习网络模型可为深度学习网络模型bert,且该深度学习网络模型bert包括12层机器翻译编码层;通过12层机器翻译编码层,分别对待处理文本、相似词序列和拼音序列进行词向量转换处理,得到文本词向量、相似词向量和拼音词向量;对文本词向量、相似词向量和拼音词向量进行加权平均计算,即计算12层机器翻译编码层生成的各词向量的加权算数平均数,得到初始文本句向量、初始相似句向量和初始拼音句向量。
116.其中,服务器可通过预置的公式对文本词向量、相似词向量和拼音词向量分别进行加权平均,得到初始文本句向量、初始相似句向量和初始拼音句向量,其中,表示文本词向量、相似词向量或拼音词向量,k表示第k层机器翻译编码层,n表示待处理文本、相似字序列或拼音序列中的第n个字符,此处k=1,2,...,12,s
k
表示初始文本句向量、初始相似句向量或初始拼音句向量。
117.服务器对初始文本句向量、初始相似句向量和初始拼音句向量分别进行预置语料库中的句子相似度计算,得到初始文本句向量的相似度分值、初始相似句向量的相似度分值和初始拼音句向量的相似度分值,即将预置的预设句向量(预置语料库中的句子)分别与初始文本句向量、初始相似句向量和初始拼音句向量做余弦相似计算;将初始文本句向量的相似度分值、初始相似句向量的相似度分值和初始拼音句向量的相似度分值分别进行归一化处理,得到文本权重、相似权重和拼音权重;通过文本权重对初始文本句向量进行加权求和,得到目标文本句向量,通过相似权重对初始相似句向量进行加权求和,得到目标相似句向量,通过拼音权重对初始拼音句向量进行加权求和,得到目标拼音句向量。
118.208、通过预置的二分类神经网络模型,对目标文本句向量、目标相似句向量和目标拼音句向量进行敏感文本的分类,得到目标文本。
119.具体地,服务器通过预置的二分类神经网络模型,对目标文本句向量、目标相似句向量和目标拼音句向量分别进行敏感词概率计算,得到文本敏感概率、相似敏感概率和拼音敏感概率;通过文本敏感概率、相似敏感概率和拼音敏感概率,对待处理文本进行敏感文本的判别,得到目标文本。
120.服务器通过预置的二分类神经网络模型,基于预置的敏感词库,对目标文本句向量、目标相似句向量和目标拼音句向量中敏感词的概率进行计算,得到文本敏感概率、相似敏感概率和拼音敏感概率;将文本敏感概率、相似敏感概率和拼音敏感概率,分别与预设的敏感词概率阈值相减,得到文本敏感差值、相似敏感差值和拼音敏感差值;分别对文本敏感差值、相似敏感差值和拼音敏感差值进行统计,得到统计数据,统计数据用于指示文本敏感差值、相似敏感差值和拼音敏感差值中概率差值为负值的数量;判断统计数据是否大于或等于1,若是,则将对应的待处理文本确定为敏感文本,若否,则将对应的待处理文本确定为非敏感文本,并将敏感文本和非敏感文本确定为目标文本。
121.本发明实施例中,通过结合目标词序列、相似词序列和拼音序列,对待处理文本进行敏感文本分类,扩展性较高,能识别敏感词以拼音或谐音/形近字替换关键词的文本,从而提高了敏感文本识别的准确性。
122.上面对本发明实施例中文本识别方法进行了描述,下面对本发明实施例中文本识别装置进行描述,请参阅图3,本发明实施例中文本识别装置一个实施例包括:
123.第一转换模块301,用于获取待处理文本,对待处理文本进行基于最大熵的词序列转换,得到目标词序列;
124.第二转换模块302,用于对目标词序列进行基于相似词候补集的相似字词替换,得到相似词序列;
125.第三转换模块303,用于通过预置的深度学习网络模型,对目标词序列进行拼音转换,得到拼音序列;
126.第四转换模块304,用于对待处理文本、相似词序列和拼音序列分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼音句向量;
127.分类模块305,用于通过预置的二分类神经网络模型,对目标文本句向量、目标相似句向量和目标拼音句向量进行敏感文本的分类,得到目标文本。
128.上述文本识别装置中各个模块的功能实现与上述文本识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
129.本发明实施例中,通过结合目标词序列、相似词序列和拼音序列,对待处理文本进行敏感文本分类,扩展性较高,能识别敏感词以拼音或谐音/形近字替换关键词的文本,从而提高了敏感文本识别的准确性。
130.请参阅图4,本发明实施例中文本识别装置的另一个实施例包括:
131.第一转换模块301,用于获取待处理文本,对待处理文本进行基于最大熵的词序列转换,得到目标词序列;
132.其中,第一转换模块301具体包括:
133.分词单元3011,用于获取待处理文本,对待处理文本进行文本预处理和分词处理,得到初始分词;
134.重组单元3012,用于对初始分词进行歧义字词提取和分词重组,得到已重组分词;
135.筛选单元3013,用于通过预置的最大熵模型,对已重组分词进行概率筛选,得到有效分词;
136.替换单元3014,用于通过有效分词,对初始分词进行分词替换,得到目标词序列;
137.第二转换模块302,用于对目标词序列进行基于相似词候补集的相似字词替换,得到相似词序列;
138.第三转换模块303,用于通过预置的深度学习网络模型,对目标词序列进行拼音转换,得到拼音序列;
139.第四转换模块304,用于对待处理文本、相似词序列和拼音序列分别进行句向量转换,得到目标文本句向量、目标相似句向量和目标拼音句向量;
140.分类模块305,用于通过预置的二分类神经网络模型,对目标文本句向量、目标相似句向量和目标拼音句向量进行敏感文本的分类,得到目标文本。
141.可选的,第二转换模块302还可以具体用于:
142.对目标词序列进行基于上下文的错误字词检测和字词位置识别,得到错误字词集和目标位置数据,目标位置数据为错误字词集中各错误字词的位置数据;
143.通过目标位置数据,对错误字词集进行词延长和序列截断,得到待纠错字词集;
144.获取与目标词序列对应的相似候补集,并将待纠错字词集与相似候补集进行对比分析和字词替换,得到相似词序列。
145.可选的,第三转换模块303包括:
146.截断单元3031,用于通过预置的深度学习网络模型中的编码层,按照预设长度对目标词序列进行序列截断,得到已切断词序列,深度学习网络模型包括编码层和解码层;
147.拼接单元3032,用于对已切断词序列进行基于开始字符的拼接处理,得到处理后的序列;
148.解码单元3033,用于通过解码层对处理后的序列进行解码,得到拼音序列。
149.可选的,解码单元3033还可以具体用于:
150.通过解码层中的训练解码层,对处理后的序列进行参数学习,得到待预测参数,解码层包括训练解码层和预测解码层;
151.通过预测解码层基于待预测参数,对处理后的序列进行拼音预测,得到预测序列;
152.对预测序列进行基于已切断词序列的拼接和循环解码,得到拼音序列。
153.可选的,第四转换模块304还可以具体用于:
154.通过深度学习网络模型中的机器翻译编码层,分别对待处理文本、相似词序列和拼音序列进行词向量转换和加权平均,得到初始文本句向量、初始相似句向量和初始拼音句向量;
155.分别计算初始文本句向量、初始相似句向量和初始拼音句向量的向量权重,得到文本权重、相似权重和拼音权重;
156.通过文本权重对初始文本句向量进行加权求和,得到目标文本句向量,通过相似权重对初始相似句向量进行加权求和,得到目标相似句向量,通过拼音权重对初始拼音句向量进行加权求和,得到目标拼音句向量。
157.可选的,分类模块305还可以具体用于:
158.通过预置的二分类神经网络模型,对目标文本句向量、目标相似句向量和目标拼音句向量分别进行敏感词概率计算,得到文本敏感概率、相似敏感概率和拼音敏感概率;
159.通过文本敏感概率、相似敏感概率和拼音敏感概率,对待处理文本进行敏感文本的判别,得到目标文本。
160.上述文本识别装置中各模块和各单元的功能实现与上述文本识别方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
161.本发明实施例中,通过结合目标词序列、相似词序列和拼音序列,对待处理文本进行敏感文本分类,扩展性较高,能识别敏感词以拼音或谐音/形近字替换关键词的文本,从而提高了敏感文本识别的准确性。
162.上面图3和图4从模块化功能实体的角度对本发明实施例中的文本识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中文本识别设备进行详细描述。
163.图5是本发明实施例提供的一种文本识别设备的结构示意图,该文本识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括
一个或一个以上模块(图示没标出),每个模块可以包括对文本识别设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在文本识别设备500上执行存储介质530中的一系列指令操作。
164.文本识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windows serve,mac os x,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的文本识别设备结构并不构成对文本识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
165.本技术还提供一种文本识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述文本识别设备执行上述文本识别方法中的步骤。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行文本识别方法的步骤。
166.进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
167.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
168.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
169.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
170.以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1