一种多语言垃圾文本的识别方法、装置和计算设备与流程

文档序号:20189565发布日期:2020-03-27 19:30阅读:163来源:国知局
一种多语言垃圾文本的识别方法、装置和计算设备与流程

本发明涉及自然语言处理技术领域,尤其涉及一种多语言垃圾文本的识别方法、装置和计算设备。



背景技术:

某些人由于利益驱使或为了发泄不良情绪,会在短信、即时通讯、游戏等平台发布包含辱骂、色情、反动政治等敏感词的垃圾文本。各平台通常会对其上发布的文本内容进行检查(例如通过敏感词匹配等方法),以识别出垃圾文本并对其进行屏蔽。为了避免被识别以及被屏蔽,这些垃圾文本常常采用多语言混合的方式来干扰平台对于文本内容的检查。

针对多语言垃圾文本的识别,一种可能的方法是,人工标注多条多语言垃圾文本作为训练样本,训练分类模型,然后用训练好的分类模型来判断一个文本是否为垃圾文本。但是,多语言垃圾文本的训练样本数量较少、难以获取,导致分类模型对于垃圾文本的判断不够准确,泛化能力较差。

因此,需要一种更有效的多语言垃圾文本的识别方法。



技术实现要素:

为此,本发明提供一种多语言垃圾文本的识别方法、装置和计算设备,以力图解决或至少缓解上面存在的问题。

根据本发明的一个方面,提供一种多语言垃圾文本的识别方法,包括:获取待识别文本,待识别文本包括至少两种语言;将待识别文本转化为采用主语言编写的中间文本,主语言为上述至少两种语言中的一种;根据中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。

根据本发明的一个方面,提供一种多语言垃圾文本的识别装置,包括:获取模块,适于获取待识别文本,待识别文本包括至少两种语言;转化模块,适于将待识别文本转化为采用主语言编写的中间文本,主语言为上述至少两种语言中的一种;以及判断模块,适于根据中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。

根据本发明的一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如上所述的多语言垃圾文本的识别方法的指令。

根据本发明的一个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如上所述的多语言垃圾文本的识别方法。

根据本发明的技术方案,先将多语言的待识别文本转化为单一语言(即主语言)的中间文本;随后根据中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。本发明实施例的分类模型为单语言模型,用于判断某一种特定语言的文本是否为垃圾文本,单语言垃圾文本相较于多语言垃圾文本来说,训练样本更易获取、数量更多,因此单语言的分类模型能够更加准确地判断中间文本是否为垃圾文本,即,能够更加准确地判断出中间文本所对应的多语言的待识别文本是否为垃圾文本。

进一步地,在本发明的一个实施例中,分类模型可以包括至少两个模型,例如,包括用于判断第一语言的文本是否为垃圾文本的第一分类模型,和用于判断第二语言的文本是否为垃圾文本的第二分类模型。分别将中间文本翻译为第一语言的第一文本、第二语言的第二文本;然后,将第一文本、第二文本分别输入第一分类模型、第二分类模型,以分别输出第一文本、第二文本为垃圾文本的第一概率、第二概率;最后,结合第一概率、第二概率来综合判断待识别文本是否为垃圾文本。采用多个分类模型,可以从多个单一语言的角度来判断待识别文本是否为垃圾文本,减少仅由一个分类模型来识别垃圾文本的误差,使得识别结果更加可信,准确度更高。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的垃圾文本识别系统100的示意图;

图2示出了根据本发明一个实施例的计算设备200的示意图;

图3示出了根据本发明一个实施例的多语言垃圾文本的识别方法300的流程图;

图4示出了根据本发明一个实施例的多语言垃圾文本的识别过程的示意图;以及

图5示出了根据本发明一个实施例的多语言垃圾文本的识别装置500的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的垃圾文本识别系统100的示意图。如图1所示,垃圾文本识别系统100包括用户终端110和计算设备200。

用户终端110即用户所使用的终端设备,其具体可以是桌面电脑、笔记本电脑等个人计算机,也可以是手机、平板电脑、多媒体设备、智能可穿戴设备等,但不限于此。计算设备200用于向用户终端110提供服务,其可以实现为服务器,例如应用服务器、web服务器等;也可以实现为桌面电脑、笔记本电脑、处理器芯片、手机、平板电脑等,但不限于此。

在本发明的实施例中,计算设备200可用于向用户提供文本发布服务,例如,计算设备200可以作为通讯社交应用的服务器,通讯社交应用例如可以是短信、微信、微博、贴吧等应用,用户可以在其上互发消息或发布内容资讯等;又例如,计算设备200可以作为某个游戏应用的服务器,用户可以在该游戏应用上发布会话消息,也可以在社区、论坛内发帖等。以上以通讯社交应用、服务应用为例说明了计算设备200可提供的文本发布服务,但是,本领域技术人员应当理解,计算设备200可以是任何能够向用户提供文本发布服务的设备,而不仅限于通讯社交应用、游戏应用的服务器。

用户通过用户终端110在计算设备200所提供的文本发布平台上发布文本内容。在一些情况下,由于利益驱使或为了发泄不良情绪,用户所发布的文本内容中可能包含辱骂、色情、反动政治等敏感词,扰乱平台秩序,干扰了其他用户的正常使用。这种包含不良内容的、低价值的文本即为垃圾文本。为了维护良好的平台环境,计算设备200会对用户发布的文本内容进行检查,以识别出垃圾文本,并对其进行屏蔽、删除等处理。为了避免被识别以及被屏蔽,不法用户常常采用多语言混合的方式来干扰计算设备200对于文本内容的检查,因此,在本发明的实施例中,提供了一种多语言垃圾文本的识别方法,使得计算设备200可以更加有效地识别出多语言垃圾文本。本发明的多语言垃圾文本的识别方法将在下文中详述。

在一个实施例中,垃圾文本识别系统100还包括数据存储装置120。数据存储装置120可以是关系型数据库例如mysql、access等,也可以是非关系型数据库例如nosql等;可以是驻留于计算设备200中的本地数据库,也可以作为分布式数据库例如hbase等设置于多个地理位置处,总之,数据存储装置120用于存储数据,本发明对数据存储装置120的具体部署、配置情况不做限制。计算设备200可以与数据存储装置120连接,并获取数据存储装置120中所存储的数据。例如,计算设备200可以直接读取数据存储装置120中的数据(在数据存储装置120为计算设备200的本地数据库时),也可以通过有线或无线的方式接入互联网,并通过数据接口来获取数据存储装置120中的数据。

在本发明的实施例中,数据存储装置120中存储有用户发布的历史文本内容。可以理解的是,数据存储装置120中可以存储有所有用户发布的所有内容,也可以存储部分用户在部分时间段内(例如最近三个月)发布的内容。数据存储装置120对于用户发布的历史文本内容的存储方式可以由本领域技术人员自行设置,本发明对此不做限制。用户发布的历史文本内容可以作为语料库的一部分,除了用户发布的历史文本内容之外,语料库还可以包括通过其他渠道获取的文本,例如,从维基百科上摘录的文本,等。语料库中的文本可以按照所包含的语言的数量、种类进行划分,例如,将语料库划分为单语语料库和多语语料库,其中,单语语料库又进一步包括中文语料库、英文语料库、俄文语料库,等等。

在一个实施例中,针对任意一种语言,可以从该语言的语料库中选择一些语料进行标注,将标注后的语料作为训练样本,以训练生成一些用于自然语言处理(naturallanguageprocessing,nlp)的机器学习模型。例如,可以从中文的语料库中选择一些文本,为其标注分类标签,分类标签用于表示一个文本是否为垃圾文本。那么,基于这些已标注了分类标签的中文文本,可以训练出一个中文的分类模型,该分类模型可用于判断一段中文文本是否为垃圾文本。又例如,可以从中文的语料库中选择一些文本,来训练生成中文的语言模型,该语言模型可用于确定一段中文文本的通顺度。在训练该语言模型时,中文语料库中现有的文本均可作为正样本,因为语料库中的文本为在语言的实际使用过程中真实出现过的文本,其通顺度通常较高。负样本则可以通过对语料库中的文本进行处理而得出,例如,打乱文本中词的顺序,或删除文本中的部分词,以降低该文本的通顺度。

本发明的多语言垃圾文本的识别方法的实施,需要基于数据存储装置120中存储的语料来训练机器学习模型(例如前述分类模型、语言模型等)。本发明的多语言垃圾文本的识别方法所涉及的机器学习模型的功能和训练方法将于下文中详述。

本发明的多语言垃圾文本的识别方法可以在计算设备中执行。图2示出了根据本发明一个实施例的计算设备200的结构图。如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令,其用于指示处理器204执行相应的操作。在一些实施方式中,应用222可以布置为在操作系统上使得处理器204利用程序数据224进行操作。

计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个a/v端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个i/o端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备200中,应用222包括多语言垃圾文本的识别装置500,装置500包括多条程序指令,这些程序指令可以指示处理器104执行多语言垃圾文本的识别方法300,以判断出一个多语言文本是否为垃圾文本。

图3示出了根据本发明一个实施例的多语言垃圾文本的识别方法300的流程图。方法300适于在计算设备(例如前述计算设备200)中执行。如图3所示,方法300依次包括步骤s310~s330。

在步骤s310中,获取待识别文本,待识别文本包括至少两种语言。

待识别文本包括至少两种语言,即,待识别文本为多语言文本。以下是待识别文本的两个例子:“这个case你来follow一下”,“尊敬的客户,你就是个bitch,怎么不去умираешь”。

在步骤s320中,将待识别文本转化为采用主语言编写的中间文本,主语言为上述至少两种语言中的一种。

经过步骤s320,多语言的待识别文本被转化为单一语言(即主语言)的中间文本。步骤s320进一步可以按照以下步骤s322~s326实施:

在步骤s322中,将待识别文本切分为多个片段,每个片段对应于一种语言。

待识别文本的切分有多种实施方法。在一个实施例中,可以按照以下方法来对待识别文本进行切分:首先,获取待识别文本的各个字符的统一码(unicode码)。随后,根据统一码来确定各个字符所对应的语言。由于unicode为每种语言中的每个字符设定了统一并且唯一的二进制编码,相应地,给定一个字符的unicode码,即可确定该字符所对应的语言。例如,中文字符对应的unicode码范围为\u4e00至\u9fa5,如果一个字符的unicode码在上述范围之内,则可确定该字符所对应的语言为中文。在确定了各字符所对应的语言之后,将待识别文本中连续对应于同一种语言的字符切分为一个片段,即可将待识别为本切分为多个片段。例如,待识别文本“这个case你来follow一下”可以被切分成“这个”“case”“你来”“follow”“一下”五个片段;待识别文本“尊敬的客户,你就是个bitch,怎么不去умираешь”可以被切分为“尊敬的客户,你就是个”“bitch”“,怎么不去”“умираешь”四个片段。

在另一个实施例中,也可以采用机器学习模型(例如序列标注模型、神经网络模型等)来对待识别文本进行切分。机器学习模型以标注了语言种类的文本作为训练样本训练生成。

当然,除了上述两种方法之外,还可以采用其他方法对待识别文本进行切分。本发明对待识别文本的切分方法不作具体限制。

在步骤s324中,将非主语言片段翻译为主语言,得到非主语言片段对应的翻译片段。

其中,非主语言片段指的是待识别文本所切分出的多个片段中,非采用主语言编写的片段,相应地,采用主语言编写的片段为主语言片段。主语言为待识别文本所包括的语言中的任意一种。

主语言的标定有多种方式,在一种实施方式中,主语言可以由本领域技术人员预先设定,例如,当文本中包括中文字符时,将中文设定为主语言(而不考虑中文字符所占文本比例的多少),在这种设定方式下,待识别文本“这个case你来follow一下”的主语言为中文;或者,当文本中包括英文字符时,将英文设定为主语言(而不考虑英文字符占文本比例地多少),在这种设定方式下,待识别文本“这个case你来follow一下”的主语言为英文。

在另一种实施方式中,可以按照预先设定的规则来确定主语言。例如,可以将文本中字符数量最多的语言作为主语言,在这种设定方式下,由于待识别文本“尊敬的客户,你就是个bitch,怎么不去умираешь”中的中文字符数量多于英文和俄文,因此,该待识别文本的主语言为中文。

当然,除上述两种方法之外,本领域技术人员还可以采用其他的方法来确定待识别文本的主语言,本发明对此不做限制。

步骤s324中将非主语言片段翻译为主语言的过程可以采用现有的机器翻译服务或sdk(softwaredevelopmentkit,软件开发工具包)来实现,本发明对非主语言翻译的实现方法不做限制。

需要说明的是,由于在翻译过程中,两种语言的词和词之间不一定是一一对应的关系,也可能是一对多的关系,相应地,一个非主语言片段所对应的翻译片段可能有一个或多个。例如,非主语言片段“case”可以对应于“案件”、“容器”等多个中文翻译片段。

在步骤s326中,将主语言片段和翻译片段进行组合,以得到待识别文本所对应的采用主语言编写的中间文本。

例如,待识别文本“怎么不去умираешь”可以被切分为“怎么不去”和“умираешь”两个片段,以中文为主语言,那么,“怎么不去”为主语言片段,“умираешь”为非主语言片段。将非主语言片段“умираешь”翻译为主语言,得到其所对应的翻译片段为“死”。将待识别文本中的主语言片段“怎么不去”与非主语言片段的翻译片段“死”进行组合,即可得到待识别文本所对应的主语言的中间文本“怎么不去死”。

在一个实施例中,当一个非主语言片段对应于多个翻译片段时,步骤s326进一步可以按照以下步骤实施:将主语言片段分别与各个非主语言片段的一个翻译片段进行组合,得到至少一个候选文本。组合的过程相当于将各非主语言片段所对应的翻译片段做笛卡尔积,最终得到的候选文本的数量为各非主语言片段所对应的翻译片段的数量的乘积。

随后,分别确定各候选文本的通顺度,将通顺度最大的候选文本作为待识别文本所对应的中间文本。候选文本的通顺度可以采用预设的语言模型来确定,即,分别将各候选文本输入预设的语言模型,根据语言模型的输出来确定候选文本的通顺度。语言模型采用主语言对应的语料库训练生成。

语言模型例如可以是n-gram模型或深度学习模型等,但不限于此。当语言模型为n-gram模型时,训练生成n-gram模型的过程相当于,根据主语言对应的语料库生成一个主语言的各个词之间的条件概率表。将候选文本输入训练好的n-gram模型,n-gram模型会根据条件概率表来计算候选文本出现的概率,出现概率越大,候选文本的通顺度越大。

语言模型还可以是深度学习模型。深度学习模型的训练过程如下:从主语言对应的语料库中选择多个文本,并标注通顺度;将标注了通顺度的文本作为训练样本,训练生成深度学习模型。将候选文本输入训练好的深度学习模型,深度学习模型的输出即为该候选文本的通顺度。

例如,待识别文本“这个case你来follow一下”可以被切分成“这个”“case”“你来”“follow”“一下”五个片段,以中文为主语言,那么,“这个”“你来”“一下”为主语言片段,“case”“follow”为非主语言片段。分别将各非主语言片段翻译为主语言,得到“case”对应的翻译片段为“案件”“容器”,“follow”对应的翻译片段为“跟”“接着”。将主语言片段“这个”“你来”“一下”分别与非主语言片段“case”“follow”的一个翻译片段进行组合,由于每个非主语言片段均对应于两个翻译片段,那么,经过组合,可以得到以下四(即2*2)个候选文本:

1)这个案件你来一下;

2)这个案件你来接着一下;

3)这个容器你来一下;

4)这个容器你来接着一下。

随后,将上述四个候选文本分别输入预设的n-gram模型,由n-gram模型来分别确定各候选文本的通顺度。将通顺度最大的候选文本作为待识别文本对应的中间文本。

在步骤s330中,根据中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。

分类模型例如可以是支持向量机(supportvectormachine,svm)模型、逻辑回归(logisticregression,lr)模型、卷积神经网络(convolutionalneuralnetwork,cnn)模型等,但不限于此。步骤s330中所采用的分类模型通常为二分类模型,其适于接收一个文本输入,输出该文本所对应的分类标签(标明是垃圾文本或不是垃圾文本)和/或该文本属于垃圾文本的概率。相应地,该分类模型采用已经标注了分类标签的文本训练生成。

更具体地,垃圾文本包括辱骂文本、色情文本、涉政文本等多种类型。分类模型可以用于笼统地用于识别垃圾文本,也可以更具体地用于识别某一类型的垃圾文本,例如,识别辱骂文本、色情文本、涉政文本等。相应地,如果分类模型具体地用于识别辱骂文本,则该分类模型由标注了辱骂标签(标明是辱骂文本或不是辱骂文本)的文本训练生成;如果分类模型具体地用于识别色情文本,则该分类模型由标注了色情标签(标明是色情文本或不是色情文本)的文本训练生成;如果分类模型具体地用于识别涉政文本,则该分类模型由标注了涉政标签(标明是涉政文本或不是涉政文本)的文本训练生成;等等。

需要说明的是,本发明对步骤s330中所采用的分类模型的数量以及语言种类均不做限制,本领域技术人员可以根据需要自行选用合适的分类模型。以下示例性地给出步骤s330的三种实施方式:

在第一种实施方式中,预设的分类模型用于确定主语言的文本所对应的分类标签,即,给定一个主语言的文本,分类模型可以输出该文本是否为垃圾文本的判断结果。该分类模型可以采用主语言对应的语料库中已经标注了分类标签的文本训练生成,其中,分类标签用于指示文本是否为垃圾文本。

相应地,步骤s330可以按照以下步骤实施:将中间文本输入分类模型,以使分类模型输出中间文本是否为垃圾文本的判断结果,即,输出中间文本所对应的待识别文本是否为垃圾文本的判断结果。

在第二种实施方式中,预设的分类模型用于确定非主语言的文本所对应的分类标签,即,给定一个非主语言的文本,分类模型可以输出该文本是否为垃圾文本的判断结果。该分类模型可以采用非主语言对应的语料库中,已经标注了分类标签的训练文本训练生成,其中分类标签用于指示文本是否为垃圾文本。

相应地,步骤s330可以按照以下步骤实施:将中间文本翻译为非主语言的次中间文本;将次中间文本输入分类模型,以使分类模型输出待识别文本是否为垃圾文本的判断结果。

在第三种实施方式中,预设的分类模型包括第一分类模型和第二分类模型,第一分类模型、第二分类模型分别用于确定第一语言的文本、第二语言的文本为垃圾文本的概率。应当指出,第一语言、第二语言是两种不同的语言,二者可以均不是主语言,也可以居其一为主语言。在一种优选的实施方式中,为了避免语言翻译所造成的内容偏差,将第一语言、第二语言中的一种设置为主语言,例如,第一语言为主语言。另外,优选地,将第一语言、第二语言设置为语料资源比较丰富、相关的自然语言处理算法研究比较深入的语言,以保证垃圾文本识别的准确度,例如,第一语言为中文,第二语言为英文。

第一分类模型可以采用语料库中已经标注了分类标签的第一语言的文本训练生成,第二分类模型可以采用语料库中已经标注了分类标签的第二语言的文本训练生成,其中,分类标签用于指示文本是否为垃圾文本。

相应地,步骤s330可以按照以下步骤实施:首先,确定中间文本对应的第一语言的第一文本和第二语言的第二文本。若第一语言为主语言,那么第一文本即为中间文本;若第一语言不同于主语言,则第一文本由中间文本翻译得出。类似地,若第二语言为主语言,那么第二文本即为中间文本;若第二文本不同于主语言,则第二文本由中间文本翻译得出。在本发明的实施例中,第一语言和第二语言不会同时为主语言,因此,在确定第一文本和第二文本的过程中,至少要执行一次翻译过程。

在确定了第一文本、第二文本后,分别将第一文本、第二文本输入第一分类模型和第二分类模型,以分别输出第一文本、第二文本为垃圾文本的第一概率、第二概率。也就是说,第一分类模型输出第一文本为垃圾文本的第一概率,第二分类模型输出第二文本为垃圾文本的第二概率。

随后,根据第一概率、第二概率来判断待识别文本是否为垃圾文本。

在一个实施例中,当第一概率大于第一阈值且第二概率大于第二阈值时,将待识别文本判定为垃圾文本。第一阈值、第二阈值的值可以由本领域技术人员自行设置,本发明对此不做限制。

在另一个实施例中,当第一概率和第二概率的加权求和结果大于第三阈值时,将待识别文本判定为垃圾文本,第一概率、第二概率的权重以及第三阈值的值可以由本领域技术人员自行设置,本发明对此不做限制。

当然,除了上述两种实施例之外,还可以采用其他的方法来根据第一概率和第二概率来得出待识别文本是否为垃圾文本的判定结果,本发明对根据第一概率和第二概率来得出待识别文本是否为垃圾文本的判定结果的具体方法不做限制。

图4示出了本发明的一个实施例的多语言垃圾文本的识别过程。具体地,图4所示的为多语言辱骂文本的识别过程。

如图4所示,待识别文本为“尊敬的客户,你就是个bitch,怎么不去умираешь”。

随后,将待识别文本切分为“尊敬的客户,你就是个”“bitch”“,怎么不去”“умираешь”四个片段,以中文为主语言,则“尊敬的客户,你就是个”“,怎么不去”为主语言片段,“bitch”“умираешь”为非主语言片段(二者分别为英文、俄文)。

随后,将非主语言片段翻译为主语言,得到非主语言片段所对应的翻译片段。“bitch”对应于两个翻译片段“泼妇”“牢骚”;“умираешь”对应于一个翻译片段“死”。

随后,将主语言片段“尊敬的客户,你就是个”“,怎么不去”分别与非主语言片段“bitch”“умираешь”的一个翻译片段进行组合,得到以下两个候选文本:

1)尊敬的客户,你就是个泼妇,怎么不去

2)尊敬的客户,你就是个牢骚,怎么不去

随后,分别将两个候选文本输入预设的语言模型,由语言模型来分别确定两个候选文本的通顺度,将通顺度最大的候选文本作为待识别文本的中间文本。经过计算,候选文本1)的通顺度大于候选文本2),因此,将候选文本1)作为待识别文本“尊敬的客户,你就是个bitch,怎么不去умираешь”的中间文本。

随后,将中间文本输入预设的中文辱骂模型,得到该中间文本为辱骂文本的第一概率。同时,将中间文本翻译为英文文本,将该英文文本输入预设的英文辱骂模型,得到该英文文本为辱骂文本的第二概率。最后,综合第一概率和第二概率,得出待识别文本是否为辱骂文本的结果。例如,第一概率、第二概率的值分别为0.8、0.7,二者的权重分别设置为0.7、0.3,阈值设置为0.75,则第一概率、第二概率的加权求和结果为0.8*0.7+0.7*0.3=0.77,大于阈值0.75,因此,将待识别文本“尊敬的客户,你就是个bitch,怎么不去умираешь”判定为辱骂文本。

图5示出了根据本发明一个实施例的多语言垃圾文本的识别装置500的示意图,装置500驻留于计算设备(例如前述计算设备200)中,以使计算设备执行本发明的多语言垃圾文本的识别方法(例如前述方法300)。如图5所示,装置500包括获取模块510、转化模块520和判断模块530。

获取模块510,适于获取待识别文本,待识别文本包括至少两种语言。获取模块510具体用于执行如前述步骤s310的方法,关于获取模块510的处理逻辑和功能可以参见前述步骤s310的相关描述,此处不再赘述。

转化模块520,适于将待识别文本转化为采用主语言编写的中间文本,主语言为待识别文本所包括的至少两种语言中的一种。转化模块520具体用于执行如前述步骤s320的方法,关于转化模块520的处理逻辑和功能可以参见前述步骤s320的相关描述,此处不再赘述。

判断模块530,适于根据所述中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。判断模块530具体用于执行如前述步骤s330的方法,关于判断模块530的处理逻辑和功能可以参见前述步骤s330的相关描述,此处不再赘述。

这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、u盘、软盘、cd-rom或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的多语言垃圾文本的识别方法。

以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1