文本中噪音词的识别方法、装置、服务器组及存储介质与流程

文档序号:14990549发布日期:2018-07-20 22:07阅读:185来源:国知局

本发明涉及人工智能技术领域,尤其涉及一种文本中噪音词的识别方法、装置、服务器组及存储介质。



背景技术:

自然语言处理是人工智能领域最为重要的子领域之一,是当前热门的翻译系统、人机对话系统、问答系统的技术核心。现实世界中产生的文本的不规范性是影响自然语言处理性能的最主要因素之一,而噪音词引起的不规范性尤其显著。

其中,噪音词指的是不在停用词范围,但在当前语境下无意义的词。噪音词与相对固定的停用词不同,其并不固定,某些文本中的噪音词在其他文本中有可能不是噪音词,比如“12第5中学”中的数字12这里是无意义的噪音词,但放在“12月中旬”中就不是噪音词,这导致噪音词难以识别。



技术实现要素:

有鉴于此,本发明提供了一种文本中噪音词的识别方法、装置、服务器组及存储介质,用以解决现有技术中噪音词难以识别的问题,其技术方案如下:

一种文本中噪音词的识别方法,包括:

获取待识别文本;

将所述待识别文本中的每个文字依次转换为字向量,获得与所述待识别文本对应的字向量集合;

将与所述待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到所述噪音词识别模型输出的所述待识别文本中噪音词的识别结果,其中,所述噪音词识别模型以标注了噪音词的训练文本对应的字向量集合为训练样本进行训练得到。

其中,所述待识别文本中包括目标词;

所述训练文本中包括所述目标词;

所述噪音识别模型以标注了所述目标词为噪音词的训练文本对应的字向量集合,以及标注了所述目标词为非噪音词的训练文本对应的字向量集合为训练样本进行训练得到;

所述待识别文本中噪音词的识别结果用于指示所述目标词是否为噪音词。

其中,预先建立所述噪音词识别模型的过程,包括:

获取多个标注了噪音词的文本,组成训练文本集合;

将所述训练文本集合中的训练文本中的每个文字依次转换为字向量,得到与所述训练文本对应的字向量集合,其中,不同字向量之间的距离表征其对应的文字之间的关联性;

将所述训练文本对应的字向量集合作为输入,训练循环神经网络,将训练得到的循环神经网络作为所述噪音词识别模型。

其中,所述将所述训练文本集合中的训练文本中的每个文字依次转换为字向量,包括:

将所述训练文本集合中的训练文本中的每个文字依次处理成矢量数据,并将所述矢量数据转换为字向量,得到与所述训练文本对应的字向量集合。

其中,所述文本中噪音词的识别方法还包括:

获取所述训练文本集合中出现的每种文字对应的矢量数据与对应字向量的映射关系;

所述将所述待识别文本中的每个文字依次转换为字向量,包括:

将所述待识别文本中的每个文字依次转换为矢量数据作为目标矢量数据,并基于所述训练文本集合中出现的每种文字对应的矢量数据与对应字向量的映射关系将所述目标矢量数据转换为字向量。

一种文本中噪音词的识别装置,包括:待识别文本获取模块、待识别文本转换模块和噪音识别模块;

所述待识别文本获取模块,用于获取待识别文本;

所述待识别文本转换模块,用于将所述待识别文本中的每个文字依次转换为字向量,获得与所述待识别文本对应的字向量集合;

所述噪音识别模块,用于将与所述待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到所述噪音词识别模型输出的所述待识别文本中噪音词的识别结果,其中,所述噪音词识别模型以标注了噪音词的训练文本对应的字向量集合为训练样本进行训练得到。

其中,所述待识别文本中包括目标词;

所述训练文本中包括所述目标词;

所述噪音识别模型以标注了所述目标词为噪音词的训练文本对应的字向量集合,以及标注了所述目标词为非噪音词的训练文本对应的字向量集合为训练样本进行训练得到;

所述待识别文本中噪音词的识别结果用于指示所述目标词是否为噪音词。

所述文本中噪音词的识别装置,还包括:训练文本获取模块、训练文本转换模块和训练模块;

所述训练文本获取模块,用于获取多个标注了噪音词的文本,组成训练文本集合;

所述训练文本转换模块,用于将所述训练文本集合中的训练文本中的每个文字依次转换为字向量,得到与所述训练文本对应的字向量集合,其中,不同字向量之间的距离表征其对应的文字之间的关联性;

所述训练模块,用于将所述训练文本对应的字向量集合作为输入,训练循环神经网络,将训练得到的循环神经网络作为所述噪音词识别模型。

一种服务器组,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,以进行以下操作:

获取待识别文本;

将所述待识别文本中的每个文字依次转换为字向量,获得与所述待识别文本对应的字向量集合;

将与所述待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到所述噪音词识别模型输出的所述待识别文本中噪音词的识别结果,其中,所述噪音词识别模型以标注了噪音词的训练文本对应的字向量集合为训练样本进行训练得到。

一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如所述的文本中噪音词的识别方法的各个步骤。

上述技术方案具有如下有益效果:

本发明提供的文本中噪音词的识别方法、装置、服务器组及存储介质,首先获取待识别文本,然后将待识别文本中的每个文字依次转换为字向量,获得与待识别文本对应的字向量集合,最后将将与待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到噪音词识别模型输出的所述待识别文本中噪音词的识别结果,由于噪音词识别模型以标注了噪音词的训练文本对应的字向量集合为训练样本进行训练得到,因此,通过噪音词识别模型可从待识别文本中识别噪音词。本发明提供的文本中噪音词的识别方法使得用户不需要较强的行业知识,只需要在训练模型的初期对训练文本进行标注,实现简单,且识别准确率较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的文本中噪音词的识别方法的一流程示意图;

图2为本发明实施例提供的预先建立噪音词识别模型的实现方式的流程示意图;

图3为本发明实施例提供的文本中噪音词的识别方法的另一流程示意图;

图4为本发明实施例提供的预先建立噪音词识别模型的实现方式的流程示意图;

图5为本发明实施例提供的文本中噪音词的识别装置的结构示意图;

图6为本发明实施例提供的服务器组的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种文本中噪音词的识别方法,请参阅图1,示出了该识别方法的流程示意图,可以包括:

步骤s101:获取待识别文本。

步骤s102:将待识别文本中的每个文字依次转换为字向量,获得与待识别文本对应的字向量集合。

步骤s103:将与待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到噪音词识别模型输出的待识别文本中噪音词的识别结果。

其中,噪音词识别模型以标注了噪音词的训练文本对应的字向量集合为训练样本进行训练得到。

请参阅图2,示出了本实施例中预先建立噪音词识别模型的一种可能的实现过程的流程示意图,可以包括:

步骤s201:获取多个标注了噪音词的文本,组成训练文本集合。

具体地,首先获取多个文本,获取途径可以但不限定为从已有的语料库中选取、通过网络爬虫从网络上爬取等,然后分别对每个文本中的噪音词进行标注,从而获得多个标注了噪音词的文本,每个标注了噪音词的文本为一个训练文本,将这些标注了噪音词的文本组成训练文本集合。优选地,可获取不同领域的文本,以使建立的噪音词识别模型适应不同的应用领域。

步骤s202:将训练文本集合中的训练文本中的每个文字依次转换为字向量,得到与训练文本对应的字向量集合。

其中,不同字向量之间的距离表征其对应的文字之间的关联性。例如,训练文本集合中有大量的“第一人民医院”、“第二中心医院”等与“医院”相关的训练文本,则进行向量转换后,“医”对应的字向量与“院”对应的字向量之间的距离较近,即“医”与“院”之间的关联性较强,而“人”与“中”两个字并没有大量同时出现,因此,“人”对应的字向量与“中”对应的字向量之间的距离较远,即“人”与“中”之间的关联性较弱。

具体地,将训练文本集合中的训练文本中的每个文字依次转换为字向量的过程可以包括:将训练文本集合中的训练文本中的每个文字依次处理成矢量数据,并将矢量数据转换为字向量,得到与训练文本对应的字向量集合。

步骤s203:将训练文本对应的字向量集合作为输入,训练循环神经网络,将训练得到的循环神经网络作为噪音词识别模型。

其中,循环神经网络可以但不限定为rnn、lstm、gru等带有记忆功能的神经网络模型。

本发明实施例提供的文本中噪音词的识别方法,首先获取待识别文本,然后将待识别文本中的每个文字依次转换为字向量,获得与待识别文本对应的字向量集合,最后将与待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到噪音词识别模型输出的待识别文本中噪音词的识别结果,由于噪音词识别模型以标注了噪音词的训练文本对应的字向量集合为训练样本进行训练得到,因此,通过噪音词识别模型可从待识别文本中识别噪音词。本发明实施例提供的文本中噪音词的识别方法,可直接对待识别文本进行全文文本分析,确定待识别文本中是否包含噪音词。本发明实施例提供的识别方法使得用户不需要较强的行业知识,只需要在训练模型的初期对训练文本进行标注,因此实现简单,且识别准确率较高,另外,由于训练文本选自多个不同领域,因此,该方法可适用于多个不同的领域,即适用范围较广。

请参阅图3,示出了本发明实施例提供的文本中噪音词的识别方法的另一流程示意图,该识别方法可以包括:

步骤s301:获取包含目标词的待识别文本。

步骤s302:将待识别文本中的每个文字依次转换为字向量,获得与待识别文本对应的字向量集合。

步骤s303:将与待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到噪音词识别模型输出的、指示待识别文本中的目标词是否为噪音词的识别结果。

其中,噪音词识别模型通过训练文本对应的字向量集合训练得到,其中,训练文本中包括目标词,具体地,噪音识别模型以标注了目标词为噪音词的训练文本对应的字向量集合,以及标注了目标词为非噪音词的训练文本对应的字向量集合为训练样本进行训练得到。

请参阅图4,示出了本实施例中预先建立噪音词识别模型的一种可能的实现过程的流程示意图,可以包括:

步骤s401:获取对包含目标词的文本中的目标词进行标注的文本,组成训练文本集合。

具体地,首先获取包括目标词的多个文本,获取途径可以但不限定为从已有的语料库中选取、通过网络爬虫从网络上爬取等,然后分别对每个文本中的目标词进行标注,标注该目标词为噪音词还是非噪音词,从而获得多个对目标词进行标注的文本,将这些对目标词进行标注的文本组成训练文本集合。优选地,获取包括目标词、且属于不同领域的多个文本,以使建立的噪音词识别模型能够适应不同的应用领域。

步骤s402:将训练文本集合中的训练文本中的每个文字依次转换为字向量,得到与训练文本对应的字向量集合。

其中,不同字向量之间的距离表征其对应的文字之间的关联性。

具体地,将训练文本集合中的训练文本中的每个文字依次转换为字向量的过程可以包括:将训练文本集合中的训练文本中的每个文字依次处理成矢量数据,并将矢量数据转换为字向量,得到与训练文本对应的字向量集合。

在一种可能的实现方式中,可将训练文本集合中出现的所有字进行one-hot编码,以完成文本数据向计算机可处理的矢量数据的转换。需要说明的是,one-hot编码也叫单热点编码,即给训练文本集合中出现的每一个字一个唯一的编码。

具体地,若训练文本集合中总共有n种文字,则每一种文字可用一个n-1维的矢量进行表示,第一种文字的n-1维矢量的所有位均为0,第二种文字的第一位置为1,第三种文字的第二位置为1,以此类推。

示例性地,训练文本集合中有两条语句:“123第一人民医院”和“解放一路”,则训练文本集合中共有12种文字,分别为:“1”、“2”、“3”、“第”、“一”、“人”、“民”、“医”、“院”、“解”、“放”、“路”12种文字,则上述12中文字对应的编码依次为:

“1”对应的编码为:[0,0,0,0,0,0,0,0,0,0,0,0]

“2”对应的编码为:[1,0,0,0,0,0,0,0,0,0,0,0]

“3”对应的编码为:[0,1,0,0,0,0,0,0,0,0,0,0]

“第”对应的编码为:[0,0,1,0,0,0,0,0,0,0,0,0]

“一”对应的编码为:[0,0,0,1,0,0,0,0,0,0,0,0]

……

“放”对应的编码为:[0,0,0,0,0,0,0,0,0,0,1,0]

“路”对应的编码为:[0,0,0,0,0,0,0,0,0,0,0,1]

在将每种文字处理成矢量数据后,可采用word2vec等方法将每个矢量数据转换为字向量。通过上述过程可获得训练文本集合中出现的所有文字对应的矢量数据及字向量,基于此,对于每个训练样本而言,其包含的所有文字对应的字向量可确定,其包含的所有文字对应的字向量组成字向量集合,如此便可获得训练样本对应的字向量集合。

另外,为了实现后续待识别文本中的文字向字向量的转换,可存储训练文本集合中出现的所有文字对应的矢量数据与对应字向量的映射关系。具体的,步骤s102中将待识别文本中的每个文字依次转换为字向量的实现过程可以包括:将待识别文本中的每个文字依次转换为矢量数据作为目标矢量数据,基于上述矢量数据与字向量的对应关系,将目标矢量数据转换为字向量。具体地,在矢量数据与字向量的对应关系中查找与目标矢量数据对应的字向量。

步骤s403:将训练文本对应的字向量集合作为输入,训练循环神经网络,将训练得到的循环神经网络作为噪音词识别模型。

其中,循环神经网络可以但不限定为rnn、lstm、gru等带有记忆功能的神经网络模型。

本发明实施例提供的文本中噪音词的识别方法,首先获取包含目标词的待识别文本,然后将待识别文本中的每个文字依次转换为字向量,获得与待识别文本对应的字向量集合,最后将与待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到噪音词识别模型输出的识别结果,由于噪音词识别模型以标注了目标词为噪音词的训练文本对应的字向量集合,以及标注了目标词为非噪音词的训练文本对应的字向量集合为训练样本进行训练得到,因此,通过噪音词识别模型可识别出待识别文本中的目标词是否为噪音词。本发明实施例提供的文本中噪音词的识别方法,可对待识别文本中的目标词进行分析,确定待识别文本中的目标词是否为噪音词。本发明实施例提供的方法不需要较强的行业知识,只需要在训练模型的初期对训练文本进行标注,因此实现简单,并且,由于噪音词识别模型根据目标词所处的上下文环境判断目标词是否为噪音词,因此,识别准确率较高,另外,由于训练文本选自多个不同领域,因此,该方法可适用于多个不同的领域,即适用范围较广。

本发明实施例还提供了一种文本中噪音词的识别装置,请参阅图5,示出了该识别装置的结构示意图,可以包括:待识别文本获取模块501、待识别文本转换模块502和噪音识别模块503。其中:

待识别文本获取模块501,用于获取待识别文本。

待识别文本转换模块502,用于将待识别文本中的每个文字依次转换为字向量,获得与待识别文本对应的字向量集合。

噪音识别模块503,用于将与待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到噪音词识别模型输出的待识别文本中噪音词的识别结果。

其中,噪音词识别模型以标注了噪音词的训练文本对应的字向量集合为训练样本进行训练得到。

本发明实施例提供的文本中噪音词的识别装置,可利用预先建立的噪音词识别模型对待识别文本进行分析,确定待识别文本中是否包含噪音词。本发明实施例提供的识别装置使得用户不需要较强的行业知识,只需要在训练模型的初期对训练文本进行标注,因此实现简单,且识别准确率较高,另外,由于训练文本选自多个不同领域,因此,该方法可适用于多个不同的领域,即适用范围较广。

在一种可能的实现方式中,上述实施例中待识别文本获取模块501获取的待识别文本中包括目标词,相应地,训练文本中也包括目标词。噪音识别模型以标注了目标词为噪音词的训练文本对应的字向量集合,以及标注了目标词为非噪音词的训练文本对应的字向量集合为训练样本进行训练得到。噪音识别模块503输出的待识别文本中噪音词的识别结果用于指示目标词是否为噪音词。

在一种可能的实现方式中,上述实施例提供的文本中噪音词的识别装置,还可以包括:训练文本获取模块、训练文本转换模块和训练模块。其中:

训练文本获取模块,用于获取多个标注了噪音词的文本,组成训练文本集合。

训练文本转换模块,用于将训练文本集合中的训练文本中的每个文字依次转换为字向量,得到与训练文本对应的字向量集合。

其中,不同字向量之间的距离表征其对应的文字之间的关联性。

训练模块,用于将训练文本对应的字向量集合作为输入,训练循环神经网络,将训练得到的循环神经网络作为噪音词识别模型。

其中,训练文本转换模块,具体用于将训练文本集合中的训练文本中的每个文字依次处理成矢量数据,并将矢量数据转换为字向量,得到与训练文本对应的字向量集合。

上述实施例提供的文本中噪音词的识别装置,还可以包括:映射关系获取模块。

映射关系获取模块,用于获取训练文本集合中出现的每种文字对应的矢量数据与对应字向量的映射关系。

待识别文本转换模块502,具体用于将待识别文本中的每个文字依次转换为矢量数据作为目标矢量数据,并基于训练文本集合中出现的每种文字对应的矢量数据与对应字向量的映射关系将所述目标矢量数据转换为字向量。

本发明实施例还提供了一种服务器组,该服务器组可以包括:存储器601和处理器602。

存储器601,用于存储程序;

处理器602,用于执行所述程序,以进行以下操作:

获取待识别文本;

将所述待识别文本中的每个文字依次转换为字向量,获得与所述待识别文本对应的字向量集合;

将与所述待识别文本对应的字向量集合输入预先建立的噪音词识别模型,得到所述噪音词识别模型输出的所述待识别文本中噪音词的识别结果,其中,所述噪音词识别模型以标注了噪音词的训练文本对应的字向量集合为训练样本进行训练得到。

本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述任一实施例提供的文本中噪音词的识别方法的各个步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1