本发明涉及计算机的技术领域,具体为一种面向多语言混合文本的语义审核方法与系统。
背景技术:
信息化时代催生了诸多的网络社交平台如微博、聊天论坛、视频弹幕等,这些网络平台每天都在持续产生着海量的用户交互数据如文本数据、视频数据,这在丰富了人们精神生活的同时,也给有效的信息审核和监管带来了困难。
在此形势下,使用算法自动、准确地对数据进行审核的需求日益迫切。以对文本数据的语义审核为例,通常需要通过训练好的模型(如使用bert等预训练模型在下游任务进行微调后得到的深度学习模型)来对文本整体进行是否违规的判断,但是,网络平台中用户产生的文本往往存在着多种语言混杂的情形,例如中文文本中夹杂着英文短语或英文单词,在此情况下,使用单一语言预训练模型微调得到的语义审核模型在进行审核时就会产生偏差从而导致不可靠的审核结果,而使用支持多种语言的bert系列预训练模型微调得到的语义审核模型则会因为单种训练语料的相对不充分从而也会导致审核可靠性的下降。
技术实现要素:
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种面向多语言混合文本的语义审核方法与系统,具备提高了审核结果的准确性的优点,解决了不可靠的审核结果问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种面向多语言混合文本的语义审核方法,包括以下步骤:
s1、鉴别主辅语言,并提取翻译辅语言;
s2、mlm模型预测;
s3、翻译候选结果优选替换;
s4、主语言语义审核。
优选的,所述s1包括:
s11、输入文本进行主语言和辅语言鉴别,并提取出辅语言文本并翻译;
s12、分析判断辅语言是否为短语或非短语,若是短语,则直接转向翻译结果替换模块进行处理,若是非短语,则判断是否为多义词,若非多义词,则转向翻译结果替换模块处理,若是多义词,转向mlm模型预测模块进行处理。
优选的,所述s2包括:
s21、将多义词辅语言文本用mask进行掩模处理;
s22、对掩模位置处进行预测,并输出置信度靠前的预测词集合。
优选的,所述s22中对掩模位置处进行预测是基于wwm方式训练的mlm模型。
优选的,所述s3包括:
s31、将预测结果对待审核混合语言文本中对应的辅语言文本进行替换,得到完全主语言化的单一语言文本;
s32、进行词性标注,并将翻译结果中词性不同的予以去除;
s33、将筛选后的翻译结果与预测结果依次进行基于主语言的词向量库相似度比较;
s34、计算后选取最大相似度值对应的翻译结果为优选结果,根据优选结果对待审核混合语言文本中对应的辅语言文本进行替换,得到完全主语言化的单一语言文本。
优选的,所述s4包括:
s41、对于翻译结果替换模块输出的主语言化单一语言文本,使用基于主语言训练得到的语义审核模型进行语义审核。
一种面向多语言混合文本的语义审核系统,包括混合语言文本输入模块、主辅语言鉴别模块、辅语言提取模块和辅语言翻译模块,所述混合语言文本输入模块、所述主辅语言鉴别模块、所述辅语言提取模块和所述辅语言翻译模块依次相连接,所述辅语言翻译模块检测的输出端分别连接辅语言分析判断模块、翻译结果替换模块和mlm模型预测模块,所述mlm模型预测模块的输出端与翻译候选结果优选模块连接,所述翻译候选结果优选模块的输出端连接翻译结果替换模块,所述翻译结果替换模块的输出端连接主语言语义审核模块,所述主语言语义审核模块的输出端连接审核结果输出模块。
优选的,所述翻译候选结果优选模块包括预测结果替换子模块、主语言词性标注子模块、翻译结果词性筛选子模块、词向量相似度计算子模块、翻译结构寻优子模块和翻译结果输出子模块,所述预测结果替换子模块、所述主语言词性标注子模块、所述翻译结果词性筛选子模块、所述词向量相似度计算子模块、所述翻译结构寻优子模块和所述翻译结果输出子模块依次相连接。
(三)有益效果
与现有技术相比,本发明提供了一种面向多语言混合文本的语义审核方法与系统,具备以下有益效果:
1、通过设计mlm模型预测模块和翻译候选结果优选模块,使用词性标注筛选、词向量相似度比较技术,能够准确地从多义词的多个翻译结果中筛选出真正符合当前上下文语境的结果,确保了翻译结果对原本意思的正确表达,从而为语义审核模型提供了可靠的输入。
2、与通常机器翻译技术不同,本方案应用场景是对多种混合语言文本中的辅语言文本进行翻译,显然会缺失通常机器翻译在面向整体文本翻译时所具备的同种语言上下文语境信息,这种翻译困难在对多义词辅语言文本进行翻译时将变得尤为突出。因此,通常机器翻译技术难以胜任本案所述应用场景中的任务,而本案提出的方法则克服了这种因缺失同语言上下文语境信息所带来的翻译困难。
附图说明
图1为本发明系统图;
图2为本发明中的翻译候选结果优选模块流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,一种面向多语言混合文本的语义审核方法,包括以下步骤:
s1、鉴别主辅语言,并提取翻译辅语言;
s2、mlm模型预测;
s3、翻译候选结果优选替换;
s4、主语言语义审核。
本实施例中,具体的,所述s1包括:
s11、输入文本进行主语言和辅语言鉴别,并提取出辅语言文本并翻译;
s12、分析判断辅语言是否为短语或非短语,若是短语,则直接转向翻译结果替换模块进行处理,若是非短语,则判断是否为多义词,若非多义词,则转向翻译结果替换模块处理,若是多义词,转向mlm模型预测模块进行处理。
本实施例中,具体的,所述s2包括:
s21、将多义词辅语言文本用mask进行掩模处理;
s22、对掩模位置处进行预测,并输出置信度靠前的预测词集合。
本实施例中,具体的,所述s22中对掩模位置处进行预测是基于wwm方式训练的mlm模型,mlm模型的意思为“掩模语言模型”,maskedlanguagemodeling。
本实施例中,具体的,所述s3包括:
s31、将预测结果对待审核混合语言文本中对应的辅语言文本进行替换,得到完全主语言化的单一语言文本;
s32、进行词性标注,并将翻译结果中词性不同的予以去除;
s33、将筛选后的翻译结果与预测结果依次进行基于主语言的词向量库相似度比较;
s34、计算后选取最大相似度值对应的翻译结果为优选结果,根据优选结果对待审核混合语言文本中对应的辅语言文本进行替换,得到完全主语言化的单一语言文本。
本实施例中,具体的,所述s4包括:
s41、对于翻译结果替换模块输出的主语言化单一语言文本,使用基于主语言训练得到的语义审核模型进行语义审核。
一种面向多语言混合文本的语义审核系统,包括混合语言文本输入模块、主辅语言鉴别模块、辅语言提取模块和辅语言翻译模块,所述混合语言文本输入模块、所述主辅语言鉴别模块、所述辅语言提取模块和所述辅语言翻译模块依次相连接,所述辅语言翻译模块检测的输出端分别连接辅语言分析判断模块、翻译结果替换模块和mlm模型预测模块,所述mlm模型预测模块的输出端与翻译候选结果优选模块连接,所述翻译候选结果优选模块的输出端连接翻译结果替换模块,所述翻译结果替换模块的输出端连接主语言语义审核模块,所述主语言语义审核模块的输出端连接审核结果输出模块。
本实施例中,具体的,所述翻译候选结果优选模块包括预测结果替换子模块、主语言词性标注子模块、翻译结果词性筛选子模块、词向量相似度计算子模块、翻译结构寻优子模块和翻译结果输出子模块,所述预测结果替换子模块、所述主语言词性标注子模块、所述翻译结果词性筛选子模块、所述词向量相似度计算子模块、所述翻译结构寻优子模块和所述翻译结果输出子模块依次相连接。
本实施例中,
对系统各模块的具体描述如下:
1、混合语言文本输入模块
输入待审核的混合语言文本,设定混合语言种类数目为2。
2、主辅语言鉴别模块
统计待审核文本中不同语言字符所出现的数目,定义出现字符数目在整个混合语言文本中占据主导的语言为主语言,同时定义另外一种语言为辅语言。例如,对于在中文里夹杂了少量英文词语的混合语言文本,主语言为中文,辅语言为英文。
3、辅语言提取模块
从待审核文本中提取出辅语言文本,可以根据不同语言对应的ascii范围区间,使用正则表达式进行提取。
4、辅语言翻译模块
对辅语言提取模块输出的辅语言文本进行为以主语言为目标语言的翻译,可以借助于各种机器翻译算法、翻译工具,得到包括词语译义及对应词性在内的翻译结果。
5、辅语言分析判断模块
对于辅语言文本,首先判断其是否为包含多个词的短语,如果是多词短语,则直接转向翻译结果替换模块作进一步处理;如果否,则再进一步判断其是否为多义词:如果非多义词,则转向翻译结果替换模块进行处理,否则转向mlm模型预测模块作进一步处理。
6、mlm模型预测模块
将待审核混合语言文本中提取的辅语言文本用mask进行掩模处理;然后使用基于wwm(wholewordmasking)方式训练的mlm(maskedlanguagemodeling)模型对掩模位置处进行预测,并输出置信度靠前的前k个预测词。mlm具体模型可以使用深度学习模型如bert、roberta等,优选使用bert。k值可按照经验进行设置,优选可设为50。
7、翻译候选结果优选模块
对于mlm模型预测模块输出的预测词集合,依次进行1~4子模块处理,当完成遍历后,再进行5~6子模块处理:
1)预测结果替换子模块
使用预测结果对待审核混合语言文本中对应的辅语言文本进行替换处理,得到完全主语言化的单一语言文本。
2)主语言词性标注子模块
对于用预测结果替换后的主语言化单一语言文本,进行词性标注,输出预测结果所对应的词性。
3)翻译结果词性筛选子模块
根据预测结果的词性,将翻译结果中词性与之不同的作去除处理,同时保留词性一致的翻译结果。
例如,对中英文混合文本“我不能bear这种待遇”,在英文中,bear为多义词,既可以翻译成名词“熊”,也可以翻译成动词“忍受”,而根据词性标注结果分析,此处翻译结果应为动词,那么通过词性筛选就可以去除翻译结果中不符合当前上下文语境的名词“熊”。
4)词向量相似度计算子模块
将词性筛选后的翻译结果与预测结果依次进行相似度比较,在基于主语言的词向量库(如word2vec、fasttext、glove等)查询得到各自对应的词向量后,再对词向量之间进行相似度计算,相似度计算方法可采用余弦相似度、欧氏距离、马氏距离等。优选采用余弦相似度,其计算公式如下:
sim(x,y)=xy’/((xx’)(yy’))0.5
其中,x、y分别为待比较的两个词向量,sim(x,y)为x、y的余弦相似度计算结果。
5)翻译结果寻优子模块
在遍历完成预测词集合的相似度计算后,对所有的相似度计算结果进行排序,然后取最大相似度值对应的翻译结果为最终的寻优结果。
例如,对中英文混合文本“我今天的心情很blue”,在英文中,blue为多义词,既可以翻译成形容词“蓝色的”,也可以翻译成形容词“忧郁的”,还可以翻译成名词“蓝色”。对此,首先通过词性筛选从翻译结果中去除名词“蓝色”后,再遍历计算mlm模型对此处的预测结果与翻译结果的词向量相似度,显然,通过优选过程,可以得出最佳的翻译结果为“忧郁的”。
6)翻译结果输出子模块
将翻译结果寻优子模块输出的结果输出至翻译结果替换模块。
8、翻译结果替换模块
使用翻译候选结果优选模块输出的翻译结果,对待审核的混合语言文本中对应的辅语言文本进行替换,得到完全主语言化的单一语言文本。
9、主语言语义审核模块
对于翻译结果替换模块输出的主语言化单一语言文本,使用预训练模型在下游任务微调后得到的语义审核模型进行主语言语义审核。具体的预训练模型可以使用深度学习模型如bert、roberta、xlnet、albert、gpt、t5、electra等,优选可使用bert。
10、审核结果输出模块
对主语言语义审核模块输出的审核结果进行输出和展示。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。