一种新词发现方法及装置与流程

文档序号:12271302阅读:170来源:国知局
一种新词发现方法及装置与流程

本发明涉及自然语言处理领域,尤其是涉及一种新词发现方法及装置。



背景技术:

随着信息技术的飞速发展,语言在网络平台上也不断被更新,从而造就了大量的新词。而由于这些新词在词典中不存在,导致输入过程的分词结果不准确,影响用户体验。因此,如何快速、准确地发现新词是目前人们关心的问题。

目前在发现新词时,需要人工总结新词的规则,给出相应正则表达式或者文法表达式,根据总结出的规则计算成词概率,从而判断是否属于新词。

然而,新词往往更新速度较快,这种方式需要不断地人工总结规则,导致工作量较大,而且由于很多新词随着时间的推移很快就不再使用,而这种方式也不能考虑这种情况,导致发现的新词利用率不高,占用较多系统资源。



技术实现要素:

本发明解决的技术问题在于提供一种新词发现方法及装置,无需人工总结规则,从而减少工作量,此外由于计算的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

为此,本发明解决技术问题的技术方案是:

本发明提供了一种成词概率的计算方法,所述方法包括:

获取文本数据;

对所述文本数据进行分词,获得候选词;

获取所述候选词的词向量;

根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。

可选的,所述候选词在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率越大;所述候选词在所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越小。

可选的,计算经过遗忘后的所述候选词的成词概率,包括:

将所述候选词的词向量和标识信息依次输入到新词发现模型中;

在每次输入当前候选词的词向量和标识信息之后,利用所述新词发现模型计算当前候选词的成词概率;

其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。

可选的,所述新词发现模型包括初始计算模型和遗忘模型;

利用所述新词发现模型计算当前候选词的成词概率,包括:

将所述当前候选词的词向量、当前候选词的上下文候选词的词向量输入到所述初始计算模型,利用所述初始计算模型计算当前候选词的初始概率;

将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型计算当前候选词的成词概率。

可选的,利用所述遗忘模型计算当前候选词的成词概率,包括:

若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概率;

若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次计算的当前候选词的成词概率进行提升;

若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。

可选的,所述方法还包括:

利用正向样本和负向样本对所述初始计算模型进行训练;

其中,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向量;负向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向量;当前候选词和互斥候选词为相同文本片段的不同分词结果。

可选的,

若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文候选词为成词概率最大的候选词;

若当前候选词的上下文候选词不具有互斥候选词,则当前候选词的上下文候选词为,当前候选词的相邻候选词中的候选词;

所述上下文候选词和所述上下文候选词的互斥候选词为相同文本片段的不同分词结果。

可选的,还包括:

若之前输入的候选词的成词概率低于预设阈值,停止更新之前输入的候选词的成词概率。

可选的,所述标识信息包括:所述候选词输入至所述新词发现模型的输入时间。

可选的,所述新词发现模型为神经网络模型,其中,所述新词发现模型包括输入层、隐层、第一输出层、遗忘层和第二输出层。

本发明提供了一种新词发现方法,包括:

获取上述任一项所述的经过遗忘后的候选词的成词概率;

若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选词未出现在词典中,将所述候选词标记为新词。

本发明提供了一种成词概率的计算装置,所述装置包括:

第一获取模块,用于获取文本数据;

获得模块,用于对所述文本数据进行分词,获得候选词;

第二获取模块,用于获取所述候选词的词向量;

计算模块,用于根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。

可选的,

所述候选词在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率越大;所述候选词在所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越小。

可选的,所述计算模块包括:

输入子模块,用于将所述候选词的词向量和标识信息依次输入到新词发现模型中;

计算子模块,用于在每次输入当前候选词的词向量和标识信息之后,利用所述新词发现模型计算当前候选词的成词概率;

其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。

可选的,所述新词发现模型包括初始计算模型和遗忘模型;

所述计算子模块具体用于,将所述当前候选词的词向量、当前候选词的上下文候选词的词向量输入到所述初始计算模型,利用所述初始计算模型计算当前候选词的初始概率;将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型计算当前候选词的成词概率。

可选的,利用所述遗忘模型计算当前候选词的成词概率时,所述计算子模块具体用于:

若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概率;

若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次计算的当前候选词的成词概率进行提升;

若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。

可选的,还包括:

训练模块,用于利用正向样本和负向样本对所述初始计算模型进行训练;

其中,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向量;负向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向量;当前候选词和互斥候选词为相同文本片段的不同分词结果。

可选的,若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文候选词为成词概率最大的候选词;

若当前候选词的上下文候选词不具有互斥候选词,则当前候选词的上下文候选词为,当前候选词的相邻候选词中的候选词;

所述上下文候选词和所述上下文候选词的互斥候选词为相同文本片段的不同分词结果。

可选的,所述计算子模块还用于,若之前输入的候选词的成词概率低于预设阈值,停止更新之前输入的候选词的成词概率。

可选的,所述标识信息包括:所述候选词输入至所述新词发现模型的输入时间。

可选的,所述新词发现模型为神经网络模型,其中,所述新词发现模型包括输入层、隐层、第一输出层、遗忘层和第二输出层。

本发明提供了一种新词发现装置,包括:

获取模块,用于上述任一项所述的计算装置计算出的、经过遗忘后的候选词的成词概率;

标记模块,用于若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选词未出现在词典中,将所述候选词标记为新词。

通过上述技术方案可知,本发明实施例中,获取文本数据;对所述文本数据进行分词,获得候选词;获取所述候选词的词向量;根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。可见,在本发明实施例中,无需人工总结规则,从而减少工作量,而且最终计算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。

图1为本发明提供的一种方法实施例的流程示意图;

图2为本发明提供的步骤S104的一种具体实施例的流程示意图;

图3为本发明提供的新词发现模型的一种结构示意图;

图4为本发明提供的另一种方法实施例的流程示意图;

图5为本发明实施例提供的一种装置实施例的结构示意图;

图6为本发明实施例提供的另一种装置实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

请参阅图1,本发明提供了成词概率的计算方法的一种方法实施例。

本实施例的所述方法包括:

S101:获取文本数据。

本发明实施例中,预先收集大量文本数据。其中,文本数据可以为多领域或者单领域的文本数据,根据应用需求确定。例如,用户需要发现某专业领域的新词,可以收集与该专业领域相关的文本数据作为文本数据。此外,文本数据可以通过多种方式获取,例如通过网络收集等,本发明实施例对此并不加以限定。收集文本数据的目的是为了从中发现新词。

S102:对文本数据进行分词,获得候选词。

在本发明实施例中,可以通过任一种或者多种分词方式对文本数据进行分词,本发明实施例对此并不加以限定。例如,可以采用穷举法、基于规则的方法、条件随机场等分词方式。在分词之后可以对分词结果进行去重,得到分词结果集合作为获得的候选词。其中获得的候选词的个数通常大于1。

由于文本数据可能会存在异常字符、繁体字符、全角字符等特殊字符,因此在进行分词之前,可以对文本数据进行清洗,从而将特殊字符转换成合法字符。具体的清洗过程可以包括以下任一项或多项:删除异常字符、将繁体字符转换为简体字符、将全角字符转换为半角字符等。

S103:获取所述候选词的词向量。

其中,词向量可以为语义向量,可以直接对候选词进行语义向量化,也可以先对候选词进行单字切分,去除停用字,例如语气字或频率较低的字,对剩余的字进行语义向量化,将单字的语义向量进行相加得到候选词的语义向量。例如,“明”字的语义向量为(0.1 0.01 0.2)、“确”的语义向量为(0.02 0.03 0.2),则“明确”的语义向量为两个单字向量之和,即(0.120.04 0.4)。

其中,语义向量化可以采用深度神经网络等方式实现,例如首先将单字或者词语表示为固定长度的初始向量,使用文本数据对初始向量进行训练,从而得到语义向量。当然,本发明实施例也可以采用其他方式获取词向量,本发明实施例对此并不加以限定。

S104:根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。

在本发明实施例中,每个候选词的成词概率与在文本数据中的出现顺序相关,当随着时间的推移,某一候选词不再出现时,该候选词的成词概率将会逐渐降低,该候选词逐渐被遗忘,而如果该候选词再次出现,则该候选词的成词概率将会加强。因此,所述候选词在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率越大;所述候选词在所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越小。

通过上述技术方案可知,本发明实施例中,获取文本数据;对所述文本数据进行分词,获得候选词;获取所述候选词的词向量;根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。可见,在本发明实施例中,无需人工总结规则,从而减少工作量,而且最终计算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

在本发明实施例中,具体可以通过新词发现模型计算候选词的成词概率。下面提供一种可选的计算方式。

请参阅图2,S104中的计算经过遗忘后的所述候选词的成词概率,包括:

S1041:将所述候选词的词向量和标识信息依次输入到新词发现模型中。

例如所述候选词包括集合:{明确,对话,对话理解,理解,优化,方案},将该集合中每个候选词的词向量和标识信息依次输入到新词发现模型中。

其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。例如,可以将所述候选词输入至所述新词发现模型的输入时间作为标识信息。具体地,设定第1个候选词的输入时间为初始时刻t1,之后每输入1个候选词,则输入时间增加预设时间间隔Δt,例如,第2个候选词的输入时间为t2=Δt+t1。Δt可以根据应用需求设定,例如可以设定为5毫秒。通过这种方式能够将候选词的出现顺序与时间信息关联起来,计算经过遗忘后的成词概率。

S1042:在每次输入当前候选词的词向量和标识信息之后,利用所述新词发现模型计算当前候选词的成词概率。

其中,当前候选词指的是当前需要计算成词概率的候选词,例如在输入当前候选词“理解”的词向量和标识信息之后,利用新词发现模型计算当前候选词“理解”的成词概率。

在新词发现模型的一种可选结构中,包括初始计算模型和遗忘模型。利用新词发现模型计算当前候选词的成词概率,具体可以是将所述当前候选词的词向量、当前候选词的上下文候选词的词向量输入到所述初始计算模型,利用所述初始计算模型计算当前候选词的初始概率;将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型计算当前候选词的成词概率。

其中,遗忘模型可以根据当前候选词在文本数据中的出现顺序和初始概率,计算当前候选词的成词概率。下面分三种情况说明。

第一种情况,若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概率。

本发明实施例中提供一种可选的计算方式:若第M个候选词第一次出现,即与前M-1个候选词不存在重复情况,根据所述初始概率与遗忘参数的乘积,计算第M个候选词的成词概率。

例如,第M个候选词w的成词概率:

P2(w,M)=P1(w,M)×D。

其中,P1(w,M)为第M个候选词w的初始概率,D为遗忘参数。并且D小于1,从而使得P2(w,M)小于P1(w,M)。

第二种情况,随着时间的推移,即候选词的不断输入,当之前输入的候选词又再次出现时,该候选词的成词概率会在再次出现时重新被增强。因此,若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次计算的当前候选词的成词概率进行提升。例如,第2个和第3个候选词均为“理解”,“理解”的成词概率在第2次输入过程之后计算为P2,在第3次输入过程之后计算为P3,P3大于P2

本发明实施例中提供一种可选的计算方式:若第M个候选词之前出现过并且再次出现,即与前M-1个候选词存在重复情况,根据所述初始概率与遗忘参数的乘积,以及上一次计算的第M个候选词的成词概率,计算第M个候选词的成词概率。

例如,第M个候选词w的成词概率:

P2(w,M)=P2(w,M-1)+P1(w,M)×D

其中,P2(w,M-1)为上一次计算的第M个候选词w的成词概率,P1(w,M)为第M个候选词w的初始概率,D为遗忘参数,D小于1。可见,根据该公式计算出的P2(w,M)大于P2(w,M-1)。

第三种情况,随着时间的推移,即候选词的增加,若出现过的候选词在之后过程中一直没出现,或过好久才出现时,该候选词将不断被遗忘,即成词概率不断降低。因此,若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。例如,第2个候选词为“对话”,“对话”的成词概率在第2次输入过程之后为P2,在第3次输入过程之后为P3,由于“对话”在第3次输入过程中没有出现,因此P3小于P2

本发明实施例中提供一种可选的计算方式:

根据上一次计算的当前候选词的成词概率分别与遗忘参数的乘积,更新当前候选词的成词概率。其中,当前候选词在之前出现过并且未再次出现。

例如,第M个候选词与第M-1个候选词w'不重复,即第M-1个候选词w'在第M次输入过程中未出现时,则第M-1个候选词w'在第M次输入过程计算的成词概率:

P2(w',M)=P2(w',M-1)×D。

其中,P2(w',M-1)为上一次计算的第M-1个候选词w'的成词概率,D为遗忘参数。并且D小于1,从而使得P2(w',M)小于P2(w',M-1)。

在本发明实施例中,若将输入时间作为标识信息,则遗忘参数D的计算公式可以为:

D=eb/Δtc

其中,e为自然对数的底数,b和c为常数,一般根据应用需求或实验结果确定,Δt为预设时间间隔。

当遗忘参数具体为D=eb/Δtc时,若第M个候选词与前M-1个候选词不存在重复情况,第M个候选词w的成词概率:若第M个候选词与前M-1个候选词存在重复情况,第M个候选词w的成词概率:若第M个候选词与第M-1个候选词不重复,则第M-1个候选词w',在第M次输入过程的成词概率成词概率被降低。其中,tM为第M个候选词w的输入时间,tM-1为第M-1个候选词的输入时间。

可见,在本发明实施例中,每次输入当前候选词之后,不仅会根据候选词的出现情况,计算输入的当前候选词的成词概率,还会对已出现候选词的成词概率进行更新,例如输入第3个候选词之后,不仅会计算第3个候选词的成词概率,而且会更新第1个和第2个候选词的成词概率。也就是说,每个候选词的成词概率是随着时间的推移不断改变的,当随着时间的推移,某一候选词不再出现时,该候选词的成词概率将会逐渐降低,该候选词逐渐被遗忘,而如果该候选词再次出现,则该候选词的成词概率将会增强。因此本发明实施例最终计算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

本发明实施例中在确定上下文候选词时,首先需要判断当前候选词的上下文候选词是否具有互斥候选词。下面对互斥候选词进行说明。

如果文本数据中同一词有多种分词方法,则会得到多种分词结果;包含相同文本片段的候选词之间的关系为互斥关系,即相互为互斥候选词,即在最终的分词结果中只能出现其中一种候选词。也就是说,候选词与其互斥候选词为相同文本片段的不同分词结果。

例如,文本数据为“明确对话理解优化方案”,分别使用不同的分词方法对所述文本数据进行分词后得到的候选词为{明确,对话,对话理解,理解,优化,方案}。其中“对话”与“对话理解”为互斥关系,“对话理解”与“理解”为互斥关系,即相互为互斥候选词。

而在确定上下文候选词时,若当前候选词的上下文候选词不具有互斥候选词,则当前候选词的上下文候选词为,当前候选词的相邻候选词中的候选词;例如,对于当前候选词“对话”来说,上下文各选择一个候选词,上文候选词为“明确”,下文候选词为“理解”,因此上下文候选词为“明确”和“理解”。

若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文候选词为成词概率最大的候选词;例如,对于当前候选词“明确”来说,上下文各选择一个候选词,上文候选词为空,下文候选词为“对话”、“对话理解”、“理解”中成词概率最大的候选词,假设为“对话理解”,因此上下文候选词为“对话理解”。其中,对于任一个候选词来说,若由遗忘模型计算出该候选词的成词概率,则直接使用计算出的成词概率,若没有计算出成词概率时,则可以进行随机初始化,或者根据步骤S102分词时得到的概率进行初始化。

本发明实施例中,在利用初始计算模型计算初始概率的过程中,利用正向样本和负向样本对所述初始计算模型进行训练。其中,若当前候选词不具有互斥候选词,也就是不存在负向样本时,可以只使用正向样本进行训练。

具体地,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向量;负向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向量。正向样本和负向样本分别使用不同的标签表示,例如正向样本使用1表示,负向样本使用0表示。

在本发明实施例中,可以分别将正向样本及负向样本中包含的候选词的词向量进行拼接后,分别得到正向样本的向量矩阵及负向样本的向量矩阵,再输入到初始计算模型中。具体拼接方法如下所述:

正向样本的向量矩阵拼接时,将当前候选词的词向量放在第一列,当前候选词的上下文候选词的词向量依次放在后面多列中。负向样本的向量矩阵拼接时,将当前候选词的互斥候选词的词向量放在第一列,当前候选词的上下文候选词的词向量依次放在后面多列中。需要说明的是,本发明实施例也可以通过其他方式进行向量矩阵的拼接,对此并不加以限定。拼接后的向量矩阵输入到初始计算模型,用于计算初始概率。

在每次向初始计算模型输入正向样本或者负向样本时,都对初始计算模型进行一次训练过程。具体可以将初始计算模型计算所述初始概率时使用的模型参数作为待训练数据,则初始概率表示的是输入的候选词为正向样本的概率。例如,所述新词发现模型为神经网络模型,并且如图3所示,所述初始计算模型包括输入层、隐层和第一输出层,输入层、隐层和第一输出层的结构可以与神经网络模型中的结构相同,输入层用于输入当前候选词的词向量和上下文候选词的词向量,第一输出层用于输出初始概率,所述遗忘模型包括遗忘层和第二输出层,所述遗忘层用于计算当前候选词的成词概率,第二输出层用于输出遗忘层计算出的成词概率。其中,可以将输入层与隐层之间的网络参数权重w,以及隐层和第一输出层之间的网络参数权重u作为待训练数据。因此在训练过程中,每个候选词的成词概率不断更新,当全部训练过程结束之后,得到相应的模型参数和训练后的新词发现模型,同时还能够得到每个候选词的成词概率。

在本发明实施例中,若候选词达到遗忘次数,即在很长一段时间内未重复出现,导致不断更新的成词概率较低时,可以停止对该候选词的成词概率进行更新或者将成词概率设置为零,从而减少系统工作量。具体地,所述方法还包括:若之前输入的候选词的成词概率低于预设阈值,停止更新之前输入的候选词的成词概率。

在本发明实施例,在计算出成词概率之后,可以根据成词概率判断候选词是否为新词,具体的判断过程通过以下实施例进行说明。

请参阅图4,本发明实施例提供了新词发现方法的一种方法实施例。本实施例的所述方法包括:

S401:获取上述任一实施例所述的经过遗忘后的候选词的成词概率。

例如,对文本数据进行分词获得多个候选词,获取经过遗忘后的各个候选词的成词概率。

其中,经过遗忘后的候选词的成词概率,指的是将候选词的词向量依次输入到新词发现模型之后,利用新词发现模型最终计算出的成词概率。例如,在每次向初始计算模型输入正向样本或者负向样本时,都对初始计算模型进行一次训练过程,当全部训练过程结束之后,得到相应的模型参数和训练后的新词发现模型,同时还能够得到每个候选词的成词概率,即经过遗忘后的成词概率。

S402:若所述成词概率大于预设阈值,并且所述候选词未出现在词典中,将所述候选词标记为新词。

当判断出多个候选词中的任一个候选词的成词概率大于预设阈值,并且未出现在词典中,则可以将所述任一个候选词标记为新词。本发明实施例中还可以进一步将标记为新词的候选词添加到词典中。而对于成词概率低于预设阈值的候选词,则可以直接删除。

对应上述方法实施例,本发明还提供了相应的装置实施例,下面具体说明。

请参阅图5,本发明提供了成词概率的计算装置500的一种装置实施例。本实施例的所述装置500包括:

第一获取模块501,用于获取文本数据。

获得模块502,用于对所述文本数据进行分词,获得候选词。

第二获取模块503,用于获取所述候选词的词向量。

计算模块504,用于根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。

可见,在本发明实施例中,无需人工总结规则,从而减少工作量,而且最终计算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

在本发明实施例中,每个候选词的成词概率与在文本数据中的出现顺序相关,当随着时间的推移,某一候选词不再出现时,该候选词的成词概率将会逐渐降低,该候选词逐渐被遗忘,而如果该候选词再次出现,则该候选词的成词概率将会加强。可选的,所述候选词在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率越大;所述候选词在所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越小。

可选的,所述计算模块504包括:输入子模块和计算子模块。

所述输入子模块,用于将所述候选词的词向量和标识信息依次输入到新词发现模型中。其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。所述标识信息可以包括:所述候选词输入至所述新词发现模型的输入时间。

所述计算子模块,用于在每次输入当前候选词的词向量和标识信息之后,利用所述新词发现模型计算当前候选词的成词概率。

可选的,所述新词发现模型包括初始计算模型和遗忘模型;所述计算子模块具体用于,将所述当前候选词的词向量、当前候选词的上下文候选词的词向量输入到所述初始计算模型,利用所述初始计算模型计算当前候选词的初始概率;将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型计算当前候选词的成词概率。

可选的,利用所述遗忘模型计算当前候选词的成词概率时,所述计算子模块具体用于:

若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概率;

若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次计算的当前候选词的成词概率进行提升;

若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。

可见,在本发明实施例中,每次输入当前候选词之后,不仅会根据候选词的出现情况,计算输入的当前候选词的成词概率,还会对已出现候选词的成词概率进行更新,例如输入第3个候选词之后,不仅会计算第3个候选词的成词概率,而且会更新第1个和第2个候选词的成词概率。也就是说,每个候选词的成词概率是随着时间的推移不断改变的,当随着时间的推移,某一候选词不再出现时,该候选词的成词概率将会逐渐降低,该候选词逐渐被遗忘,而如果该候选词再次出现,则该候选词的成词概率将会增强。因此本发明实施例最终计算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

可选的,所述计算子模块还用于,若之前输入的候选词的成词概率低于预设阈值,停止更新之前输入的候选词的成词概率。

可选的,所述新词发现模型为神经网络模型,如图3所示,所述新词发现模型包括输入层、隐层、第一输出层、遗忘层和第二输出层。

本发明另外一个实施例提供的计算装置500,还包括:

训练模块,用于利用正向样本和负向样本对所述初始计算模型进行训练。

其中,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向量;负向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向量;当前候选词和当前候选词的互斥候选词为相同文本片段的不同分词结果。

可选的,若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文候选词为成词概率最大的候选词;若当前候选词的上下文候选词不具有互斥候选词,则当前候选词的上下文候选词为,当前候选词的相邻候选词中的候选词;上下文候选词和上下文候选词的互斥候选词为相同文本片段的不同分词结果。

请参阅图6,本发明还提供了新词发现装置600的一种装置实施例,本实施例的所述装置600包括:

获取模块601,用于获取上述计算装置500的任一实施例计算出的、经过遗忘后的候选词的成词概率。

例如,对文本数据进行分词获得多个候选词,获取经过遗忘后的各个候选词的成词概率。

其中,经过遗忘后的候选词的成词概率,指的是将候选词的词向量依次输入到新词发现模型之后,利用新词发现模型最终计算出的成词概率。例如,在每次向初始计算模型输入正向样本或者负向样本时,都对初始计算模型进行一次训练过程,当全部训练过程结束之后,得到相应的模型参数和训练后的新词发现模型,同时还能够得到每个候选词的成词概率,即经过遗忘后的成词概率。

标记模块602,用于若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选词未出现在词典中,将所述候选词标记为新词。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1