本公开涉及数据处理技术领域,尤其涉及同义词性模板获取方法及装置。
背景技术:
同义词是指与给定词发音不同而意义相同或基本相同的词语,为给定词找出相应的同义词集是自然语言理解的一个重要课题。其在自然语言理解领域发挥着关键性的作用,例如通过替换用户提出的问题中的同义词,可以将用户提出的问题与问答数据库中预先准备好的预设问题关联起来,并进一步根据该预设问题获得相应的答案,达到根据该答案自动回答用户提出的问题的目的。
技术实现要素:
为克服相关技术中存在的问题,本公开的实施例提供一种同义词性模板获取方法及装置。技术方案如下:
根据本公开的实施例的第一方面,提供一种同义词性模板获取方法,包括:
获取多个样本语料,每个样本语料包括多个词;
确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词;
在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;
将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。
本公开的实施例提供的技术方案中,样本词性模板可以用于指示样本词性模板的中心词的词义,样本词性模板的中心词的词性、样本词性模板的中心词的上文且与样本词性模板的中心词相邻的词的词性或中心词的下文且与中心词相邻的词的词性,目标词性模板同样可以用于指示目标词性模板的中心词的词义,目标词性模板的中心词的词性、目标词性模板的中心词的上文且与目标词性模板的中心词相邻的词的词性或目标词性模板的中心词的下文且与目标词性模板的中心词相邻的词的词性,因此在所确定的相似度满足预设要求的同义词性模板中,同义词性模板的中心词与目标词性模板的中心词不但在自身语义以及自身词性上较为接近,同义词性模板的中心词与目标词性模板的中心词还在相邻词即上文或下文的词的词性上也较为接近,从而使同义词性模板与目标词性模板较为接近,确保二者的语境相似性较高,从而在根据同义词性模板对目标词性模板进行同义替换时,降低了出现误解的几率,改善了用户体验。
在一个实施例中,方法还包括:
根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,方法还包括:
根据bigramscore算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性模板获取评分满足预设评分要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
对多个样本词性模板以及目标词性模板上下文语料进行编码,以获取多个样本词性模板中每个样本词性模板对应的词性模板id以及目标词性模板上下文语料中每个词对应的词id;
将多个样本词性模板中每个样本词性模板对应的词性模板id,目标词性模板上下文语料中每个词对应的词id作为词性模板向量训练模型的输入,将多个样本词性模板中每个样本词性模板对应的词性模板向量以及目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练;
获取训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度。
在一个实施例中,将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板,包括:
将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板;
拼接候选词性模板对应的词性模板向量与目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量;
将拼接向量输入二分类模型;
当二分类模型的输出满足预设二分类输出要求时,将与拼接向量对应的候选词性模板确定为目标词性模板的同义词性模板。
在一个实施例中,词性模板向量训练模型的输出包括目标词性模板上下文语料中位于目标词性模板的中心词上文的m个词对应的词向量,以及目标词性模板上下文语料中位于目标词性模板的中心词下文的m个词对应的词向量,m为大于或等于1的正整数,词性模板向量训练模型为skip-gram模型。
根据本公开的实施例的第二方面,提供一种同义词性模板获取装置,包括:
样本预料获取模块,用于获取多个样本语料,每个样本语料包括多个词;
样本词性模板生成模块,用于确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词;
目标词性模板确定模块,用于在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词;
相似度获取模块,用于根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;
同义词性模板确定模块,用于将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。
在一个实施例中,装置还包括:
样本词性模板筛选模块,用于根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板;
相似度获取模块,包括:
第一相似度获取子模块,用于根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,装置还包括:
样本词性模板评分模块,用于根据bigramscore算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板;
相似度获取模块,包括:
第二相似度获取子模块,用于根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性模板获取评分满足预设评分要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,相似度获取模块,包括:
编码子模块,用于对多个样本词性模板以及目标词性模板上下文语料进行编码,以获取所述多个样本词性模板中每个样本词性模板对应的词性模板id以及所述目标词性模板上下文语料中每个词对应的词id;
词性模板向量训练子模块,用于将所述多个样本词性模板中每个样本词性模板对应的词性模板id,所述目标词性模板上下文语料中每个词对应的词id作为词性模板向量训练模型的输入,将所述多个样本词性模板中每个样本词性模板对应的词性模板向量以及所述目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练;
第三相似度获取子模块,用于获取训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度。
在一个实施例中,同义词性模板确定模块,包括:
候选词性模板确定子模块,用于将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板;
拼接向量获取子模块,用于拼接候选词性模板对应的词性模板向量与目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量;
拼接向量输入子模块,用于将拼接向量输入二分类模型;
同义词性模板确定子模块,用于当二分类模型的输出满足预设二分类输出要求时,将与拼接向量对应的候选词性模板确定为目标词性模板的同义词性模板。
在一个实施例中,词性模板向量训练模型的输出包括目标词性模板上下文语料中位于目标词性模板的中心词上文的m个词对应的词向量,以及目标词性模板上下文语料中位于目标词性模板的中心词下文的m个词对应的词向量,m大于或等于1的正整数,词性模板向量训练模型为skip-gram模型。
根据本公开的实施例的第三方面,提供一种同义短语获取装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取多个样本语料,每个样本语料包括多个词;
确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词;
在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;
将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。
根据本公开的实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现本公开的实施例的第一方面中任一项方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1a是根据一示例性实施例示出的同义词性模板获取方法的流程示意图;
图1b是根据一示例性实施例示出的同义词性模板获取方法的流程示意图;
图1c是根据一示例性实施例示出的同义词性模板获取方法的流程示意图;
图1d是根据一示例性实施例示出的同义词性模板获取方法的流程示意图;
图1e是根据一示例性实施例示出的同义词性模板获取方法的流程示意图;
图2a是根据一示例性实施例示出的同义词性模板获取装置的结构示意图;
图2b是根据一示例性实施例示出的同义词性模板获取装置的结构示意图;
图2c是根据一示例性实施例示出的同义词性模板获取装置的结构示意图;
图2d是根据一示例性实施例示出的同义词性模板获取装置的结构示意图;
图2e是根据一示例性实施例示出的同义词性模板获取装置的结构示意图;
图3是根据一示例性实施例示出的一种装置的框图;
图4是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着科学技术的高速发展和人们生活水平的不断提高,近年来,nlu(naturallanguageunderstanding,自然语言理解)技术迅速发展,成为人工智能领域中较为活跃的研究领域之一。nlu技术也可以被称为人机对话技术,是研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。
在nlu技术中,为给定词找出相应的同义词集是一个重要课题,其中同义词是指与给定词发音不同而意义相同或基本相同的词语。同义词替换可以在人机对话的过程中发挥着关键性的作用,例如通过替换用户提出的问题中的同义词,可以将用户提出的问题与问答数据库中的事先准备好的预设问题关联起来,并进一步根据该预设问题获得相应的答案。
相关技术中,可以通过人工标注确定目标词的同义词;也可以通过获取多条样本语料、目标词与目标词所在的目标语料,并根据多条样本语料、目标词与目标词所在的目标语料确定多条样本语料中每个词与目标词之间的相似度,将多条样本语料中相似度满足要求的词确定为目标词的同义词。
虽然上述方案能够确定目标词的同义词,但需要耗费较多的人力资源,成本较高,目标词的同义词的准确性较差,损害了用户体验。
为了解决上述问题,本公开的实施例提供的技术方案中,通过获取多个样本语料,确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。在本技术方案中,样本词性模板可以用于指示样本词性模板的中心词的词义,样本词性模板的中心词的词性、样本词性模板的中心词的上文且与样本词性模板的中心词相邻的词的词性或中心词的下文且与中心词相邻的词的词性,目标词性模板同样可以用于指示目标词性模板的中心词的词义,目标词性模板的中心词的词性、目标词性模板的中心词的上文且与目标词性模板的中心词相邻的词的词性或目标词性模板的中心词的下文且与目标词性模板的中心词相邻的词的词性。因此,在所确定的相似度满足预设要求的同义词性模板中,同义词性模板的中心词与目标词性模板的中心词不但在自身语义以及自身词性上较为接近,同义词性模板的中心词与目标词性模板的中心词还在相邻词即上文或下文的词的词性上也较为接近,从而使同义词性模板与目标词性模板较为接近,确保二者的语境相似性较高,从而在根据同义词性模板对目标词性模板进行同义替换时,降低了出现误解的几率,改善了用户体验。
本公开的实施例提供了一种同义词性模板获取方法,如图1a所示,包括如下步骤101至步骤105:
在步骤101中,获取多个样本语料。
其中,每个样本语料包括多个词。
示例性的,样本语料可以为由多个词组成的一句话,也可以为包括多句话的一段话。
在步骤102中,确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板。
其中,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词。
示例性的,样本词性模板的格式可以为wa+pa+pb,其中wa表示模板中心词,pa表示中心词对应的词性,pb表示相邻词所代表的词性,“+”表示一个连接符,这种模板称为下文模板。例如当样本语料为“小米/手机/支持/红外线/吗”,样本语料的词性标注结果为['n','n','v','n','u'],样本词性模板的中心词为“支持”,则样本词性模板可以为“支持+v+n”。
在步骤103中,在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料。
其中,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词。
示例性的,在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,可以为根据预先设定的或用户输入的目标词指示信息在多个样本语料中进行检索。并根据检索结果确定在多个样本语料中确定目标词指示信息所指示的目标词所在的语料即目标语料。其中该目标词可以被确定为目标词性模板的中心词,根据该目标词性模板的中心词可以在多个样本词性模板中确定目标词性模板,并进一步获取目标词性模板上下文语料。也可以为在多个样本语料中随机选取一个语料作为目标语料,并在该目标语料中随机选取一个词作为目标词性模板的中心词,根据该目标词性模板的中心词在多个样本词性模板中确定目标词性模板,并进一步获取目标短语上下文语料。
在步骤104中,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在步骤105中,将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。
示例性的,相似度满足预设要求的一个或多个样本词性模板,可以理解为相似度位于预设的相似度取值区间内,也可以理解为相似度大于或等于预设的相似度阈值。
本公开的实施例提供的技术方案中,样本词性模板可以用于指示样本词性模板的中心词的词义,样本词性模板的中心词的词性、样本词性模板的中心词的上文且与样本词性模板的中心词相邻的词的词性或中心词的下文且与中心词相邻的词的词性,目标词性模板同样可以用于指示目标词性模板的中心词的词义,目标词性模板的中心词的词性、目标词性模板的中心词的上文且与目标词性模板的中心词相邻的词的词性或目标词性模板的中心词的下文且与目标词性模板的中心词相邻的词的词性,因此在所确定的相似度满足预设要求的同义词性模板中,同义词性模板的中心词与目标词性模板的中心词不但在自身语义以及自身词性上较为接近,同义词性模板的中心词与目标词性模板的中心词还在相邻词即上文或下文的词的词性上也较为接近,从而使同义词性模板与目标词性模板较为接近,确保二者的语境相似性较高,从而在根据同义词性模板对目标词性模板进行同义替换时,降低了出现误解的几率,改善了用户体验。
在一个实施例中,如图1b所示,方法还包括步骤106:
在步骤106中,根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板。
在步骤104中,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,可以通过步骤1041实现:
在步骤1041中,根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板,获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
示例性的,频率满足预设出现频率要求的样本词性模板,可以理解为多个样本词性模板中相同的样本词性模板出现次数大于或等于预设次数,其中预设次数可以为5次、8次或10次。
通过根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板,根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度,可以确保用于获取相似度的样本词性模板在多个样本词性模板出现次数较多,即确定用于获取相似度的样本词性模板为较为常用的样本词性模板,在之后的步骤中根据该相似度确定为目标词性模板的同义词性模板,可以在尽量不影响目标词性模板的同义词性模板的准确性的前提下,减少运算量,加快处理速度,从而改善了用户体验。
在一个实施例中,如图1c所示,方法还包括步骤107:
在步骤107中,根据bigramscore(二元语法得分)算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板。
在步骤104中,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,可以通过步骤1042实现:
在步骤1042中,根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性模板获取评分满足预设评分要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
示例性的,以样本词性模板为"支持+v+n"对根据bigramscore算法对多个样本词性模板进行评分进行说明:
当样本词性模板为"支持+v+n"时,根据bigramscore算法对该样本词性模板进行评分,可以为统计多个样本词性模板中"支持"与词性"v"的共现次数记为#(支持|v),并统计多个样本词性模板中"v"与词性"n"的共现次数,记为#(v|n),根据s=#(支持|v)*#(v|n)/(#(支持)*#(v)*#(n))获取评分结果s。
评分结果满足预设评分要求的样本词性模板,可以理解为评分结果位于预设的评分结果取值区间内,也可以理解为评分结果大于或等于预设的评分结果阈值,其中,评分结果阈值可以为0.01、0.05或0.1。
通过根据bigramscore算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板,根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性模板获取评分满足预设评分要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度,可以确保用于获取相似度的样本词性模板在多个样本词性模板较为典型且常用,在之后的步骤中根据该相似度确定为目标词性模板的同义词性模板,可以在尽量不影响目标词性模板的同义词性模板的准确性的前提下,减少运算量,加快处理速度,从而改善了用户体验。
在一个实施例中,如图1d所示,在步骤104中,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,可以通过步骤1043至步骤1046实现:
在步骤1043中,对多个样本词性模板以及目标词性模板上下文语料进行编码,以获取多个样本词性模板中每个样本词性模板对应的词性模板id以及目标词性模板上下文语料中每个词对应的词id。
在步骤1044中,将多个样本词性模板中每个样本词性模板对应的词性模板id,目标词性模板上下文语料中每个词对应的词id作为词性模板向量训练模型的输入,将多个样本词性模板中每个样本词性模板对应的词性模板向量以及目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练。
在步骤1045中,获取训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度。
示例性的,对多个样本词性模板以及目标词性模板上下文语料进行编码,可以为对多个样本词性模板以及目标词性模板上下文语料进行独热one-hot编码。
词性模板向量训练模型可以为skip-gram模型,词性模板向量训练模型的输处可以包括目标词性模板上下文语料中位于目标词性模板的中心词上文的m个词对应的词向量,以及目标词性模板上下文语料中位于目标词性模板的中心词下文的m个词对应的词向量,m为大于或等于1的正整数。例如,当目标语料为“新/的/手机/是否/需要/重新/购买/蓝牙/耳机”,且目标词性模板的中心词为“需要”,m=2时,目标语料中目标短语上文与目标短语相邻的m个词可以为“手机”、“是否”,目标语料中目标短语下文与目标短语相邻的m个词可以为“重新”、“购买”。
通过对多个样本词性模板以及目标词性模板上下文语料进行编码,以获取多个样本词性模板中每个样本词性模板对应的词性模板id以及目标词性模板上下文语料中每个词对应的词id,将多个样本词性模板中每个样本词性模板对应的词性模板id,目标词性模板上下文语料中每个词对应的词id作为词性模板向量训练模型的输入,将多个样本词性模板中每个样本词性模板对应的词性模板向量以及目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练,获取训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度。可以使训练后的每个词性模板向量能够准确反映该词性模板向量对应的样本词性模板的特征,从而确保训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度反映每个样本词性模板与目标词性模板之间的相似程度,因此根据该相似度所确定的目标词性模板的同义词性模板准确性较高,从而改善了用户体验。
在一个实施例中,如图1e所述,在步骤105中,将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板,可以通过步骤1051至步骤1054实现:
在步骤1051中,将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板。
在步骤1052中,拼接候选词性模板对应的词性模板向量与目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量。
在步骤1053中,将拼接向量输入二分类模型。
在步骤1054中,当二分类模型的输出满足预设二分类输出要求时,将与拼接向量对应的候选词性模板确定为目标词性模板的同义词性模板。
示例性的,二分类模型的输出满足预设二分类输出要求,可以理解为输出位于预设的输出取值区间内,也可以理解为相似度大于或等于预设的输出阈值,其中输出阈值可以为0.8。
通过将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板,并拼接候选词性模板对应的词性模板向量与目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量,将拼接向量输入二分类模型,当二分类模型的输出满足预设二分类输出要求时,将与拼接向量对应的候选词性模板确定为目标词性模板的同义词性模板,可以在将相似度满足预设要求的一个或多个样本词性模板确定为同义词性模板前,使用二分类模型对相似度满足预设要求的一个或多个样本词性模板进行确定,避免相似度满足预设要求的样本词性模板与目标词性模板差异较大的状况发生,从而提高了确定目标词性模板的同义词性模板的准确性,改善了用户体验。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图2a是根据一个示例性实施例示出的一种同义词性模板获取装置20的框图,同义词性模板获取装置20可以为服务器也可以为服务器的一部分,同义词性模板获取装置20可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图2a所示,该同义词性模板获取装置20包括:
样本预料获取模块201,用于获取多个样本语料,每个样本语料包括多个词。
样本词性模板生成模块202,用于确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词。
目标词性模板确定模块203,用于在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词。
相似度获取模块204,用于根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
同义词性模板确定模块205,用于将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。
在一个实施例中,如图2b所示,同义词性模板获取装置20还包括:
样本词性模板筛选模块206,用于根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板。
相似度获取模块204,包括:
第一相似度获取子模块2041,用于根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,如图2c所示,同义词性模板获取装置20还包括:
样本词性模板评分模块207,用于根据bigramscore算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板。
相似度获取模块204,包括:
第二相似度获取子模块2042,用于根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性模板获取评分满足预设评分要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,如图2d所示,相似度获取模块204,包括:
编码子模块2043,用于对多个样本词性模板以及目标词性模板上下文语料进行编码,以获取所述多个样本词性模板中每个样本词性模板对应的词性模板id以及所述目标词性模板上下文语料中每个词对应的词id。
词性模板向量训练子模块2044,用于将所述多个样本词性模板中每个样本词性模板对应的词性模板id,所述目标词性模板上下文语料中每个词对应的词id作为词性模板向量训练模型的输入,将所述多个样本词性模板中每个样本词性模板对应的词性模板向量以及所述目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练。
第三相似度获取子模块2045,用于获取训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度。
在一个实施例中,如图2e所示,同义词性模板确定模块205,包括:
候选词性模板确定子模块2051,用于将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板。
拼接向量获取子模块2052,用于拼接候选词性模板对应的词性模板向量与目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量。
拼接向量输入子模块2053,用于将拼接向量输入二分类模型。
同义词性模板确定子模块2054,用于当二分类模型的输出满足预设二分类输出要求时,将与拼接向量对应的候选词性模板确定为目标词性模板的同义词性模板。
在一个实施例中,词性模板向量训练模型的输出包括目标词性模板上下文语料中位于目标词性模板的中心词上文的m个词对应的词向量,以及目标词性模板上下文语料中位于目标词性模板的中心词下文的m个词对应的词向量,m≥1,词性模板向量训练模型为skip-gram模型。
本公开的实施例提供一种同义词性模板获取装置,该同义词性模板获取装置可以通过获取多个样本语料,确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。在上述技术方案中,样本词性模板可以用于指示样本词性模板的中心词的词义,样本词性模板的中心词的词性、样本词性模板的中心词的上文且与样本词性模板的中心词相邻的词的词性或中心词的下文且与中心词相邻的词的词性,目标词性模板同样可以用于指示目标词性模板的中心词的词义,目标词性模板的中心词的词性、目标词性模板的中心词的上文且与目标词性模板的中心词相邻的词的词性或目标词性模板的中心词的下文且与目标词性模板的中心词相邻的词的词性,因此在所确定的相似度满足预设要求的同义词性模板中,同义词性模板的中心词与目标词性模板的中心词不但在自身语义以及自身词性上较为接近,同义词性模板的中心词与目标词性模板的中心词还在相邻词即上文或下文的词的词性上也较为接近,从而使同义词性模板与目标词性模板较为接近,确保二者的语境相似性较高,从而在根据同义词性模板对目标词性模板进行同义替换时,降低了出现误解的几率,改善了用户体验。
图3是根据一示例性实施例示出的一种同义词性模板获取装置30的框图,该同义词性模板获取装置30可以为服务器,也可以为服务器的一部分,同义词性模板获取装置30包括:
处理器301;
用于存储处理器301可执行指令的存储器302;
其中,处理器301被配置为:
根据本公开的实施例的第一方面,提供一种同义词性模板获取方法,包括:
获取多个样本语料,每个样本语料包括多个词;
确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词;
在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;
将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。
在一个实施例中,上述处理器301还可以被配置为:
根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,上述处理器301还可以被配置为:
根据bigramscore算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性模板获取评分满足预设评分要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,上述处理器301还可以被配置为:
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
对多个样本词性模板以及目标词性模板上下文语料进行编码,以获取多个样本词性模板中每个样本词性模板对应的词性模板id以及目标词性模板上下文语料中每个词对应的词id;
将多个样本词性模板中每个样本词性模板对应的词性模板id,目标词性模板上下文语料中每个词对应的词id作为词性模板向量训练模型的输入,将多个样本词性模板中每个样本词性模板对应的词性模板向量以及目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练;
获取训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度。
在一个实施例中,上述处理器301还可以被配置为:
将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板,包括:
将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板;
拼接候选词性模板对应的词性模板向量与目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量;
将拼接向量输入二分类模型;
当二分类模型的输出满足预设二分类输出要求时,将与拼接向量对应的候选词性模板确定为目标词性模板的同义词性模板。
在一个实施例中,上述处理器301还可以被配置为:
词性模板向量训练模型的输出包括目标词性模板上下文语料中位于目标词性模板的中心词上文的m个词对应的词向量,以及目标词性模板上下文语料中位于目标词性模板的中心词下文的m个词对应的词向量,m≥1,词性模板向量训练模型为skip-gram模型。
本公开的实施例提供一种同义词性模板获取装置,该同义词性模板获取装置可以通过获取多个样本语料,确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。在上述技术方案中,样本词性模板可以用于指示样本词性模板的中心词的词义,样本词性模板的中心词的词性、样本词性模板的中心词的上文且与样本词性模板的中心词相邻的词的词性或中心词的下文且与中心词相邻的词的词性,目标词性模板同样可以用于指示目标词性模板的中心词的词义,目标词性模板的中心词的词性、目标词性模板的中心词的上文且与目标词性模板的中心词相邻的词的词性或目标词性模板的中心词的下文且与目标词性模板的中心词相邻的词的词性,因此在所确定的相似度满足预设要求的同义词性模板中,同义词性模板的中心词与目标词性模板的中心词不但在自身语义以及自身词性上较为接近,同义词性模板的中心词与目标词性模板的中心词还在相邻词即上文或下文的词的词性上也较为接近,从而使同义词性模板与目标词性模板较为接近,确保二者的语境相似性较高,从而在根据同义词性模板对目标词性模板进行同义替换时,降低了出现误解的几率,改善了用户体验。
图4是根据一示例性实施例示出的一种用于获取同义词性模板的装置400的框图。例如,装置400可以被提供为一服务器。装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件422被配置为执行指令,以执行上述方法。
装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(i/o)接口458。装置400可以操作基于存储在存储器432的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置400的处理器执行时,使得装置400能够执行同义词性模板获取方法,所述方法包括:
获取多个样本语料,每个样本语料包括多个词;
确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词;
在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;
将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。
本公开的实施例提供的技术方案中,样本词性模板可以用于指示样本词性模板的中心词的词义,样本词性模板的中心词的词性、样本词性模板的中心词的上文且与样本词性模板的中心词相邻的词的词性或中心词的下文且与中心词相邻的词的词性,目标词性模板同样可以用于指示目标词性模板的中心词的词义,目标词性模板的中心词的词性、目标词性模板的中心词的上文且与目标词性模板的中心词相邻的词的词性或目标词性模板的中心词的下文且与目标词性模板的中心词相邻的词的词性,因此在所确定的相似度满足预设要求的同义词性模板中,同义词性模板的中心词与目标词性模板的中心词不但在自身语义以及自身词性上较为接近,同义词性模板的中心词与目标词性模板的中心词还在相邻词即上文或下文的词的词性上也较为接近,从而使同义词性模板与目标词性模板较为接近,确保二者的语境相似性较高,从而在根据同义词性模板对目标词性模板进行同义替换时,降低了出现误解的几率,改善了用户体验。
在一个实施例中,方法还包括:
根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,方法还包括:
根据bigramscore算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板;
根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性模板获取评分满足预设评分要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。
在一个实施例中,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:
对多个样本词性模板以及目标词性模板上下文语料进行编码,以获取多个样本词性模板中每个样本词性模板对应的词性模板id以及目标词性模板上下文语料中每个词对应的词id;
将多个样本词性模板中每个样本词性模板对应的词性模板id,目标词性模板上下文语料中每个词对应的词id作为词性模板向量训练模型的输入,将多个样本词性模板中每个样本词性模板对应的词性模板向量以及目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练;
获取训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度。
在一个实施例中,将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板,包括:
将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板;
拼接候选词性模板对应的词性模板向量与目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量;
将拼接向量输入二分类模型;
当二分类模型的输出满足预设二分类输出要求时,将与拼接向量对应的候选词性模板确定为目标词性模板的同义词性模板。
在一个实施例中,词性模板向量训练模型的输出包括目标词性模板上下文语料中位于目标词性模板的中心词上文的m个词对应的词向量,以及目标词性模板上下文语料中位于目标词性模板的中心词下文的m个词对应的词向量,m≥1,词性模板向量训练模型为skip-gram模型。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。