跨语言的词汇义原预测方法、装置与电子设备与流程

文档序号:17359220发布日期:2019-04-09 21:56阅读:108来源:国知局
跨语言的词汇义原预测方法、装置与电子设备与流程

本发明实施例涉及自然语言处理技术领域,更具体地,涉及一种跨语言的词汇义原预测方法、装置与电子设备。



背景技术:

在语言学中,词被定义为可以独立运用的最小的有意义的单位,但却不是最小的不可分割的语义单位。也即是说,词可以进一步被细分为更小的语义元素。例如,词“男人”可以进一步被分割为“人类”、“男性”和“成年人”。

人类语言中最小的不可再分的语义单位被称为义原,所有的词或者其他的语义概念都可以用一个义原的闭集来表示。引入义原可以对词进行更细粒度的分析,有助于更好地理解语言的本质。然而,对于大多数自然语言而言,义原往往十分隐晦,在一些语言中,通过手动标注的方式,为词以及其他概念构建义原知识库,以方便进行自然语言处理中如词相似度计算、词义消歧及情感分析等任务。

但是,大多数语种的语言还没有建立义原知识库,不方便进行这些语言中词的义原的确定,这在一定程度上不利于人类进一步理解和使用这些语言。在进行这些语言中词的义原的确定时,若采用传统的人工标注义原的方式,会耗费高额的人力和时间成本;而由于不同语言之间没有一对一的匹配关系,如英文词“beautiful”可以对应中文词的“美丽”或“漂亮”,也不能简单地把已建立的义原知识库翻译成其他语言。



技术实现要素:

为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种跨语言的词汇义原预测方法、装置与电子设备,用以合理地利用已有义原知识库为跨语言词汇进行义原预测,从而有效节约义原预测的人力和时间成本。

第一方面,本发明实施例提供一种跨语言的词汇义原预测方法,包括:

确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;

分别确定将所述源语言词向量与所述目标语言词向量对齐的第三损失函数,以及为所述源语言词向量融入义原信息的第四损失函数;

基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;

基于所述源语言词与目标语言词对和所述源语言内已建立的义原知识库,采用随机梯度下降法,对所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,所述双语词向量携带所述源语言词向量与所述目标语言词向量的语义对应关系和义原与所述源语言词向量的融合关系;

基于所述双语词向量,通过搜索与所述目标语言中目标词汇词向量相近的源语言词的已标注义原,为所述目标词汇进行义原预测。

第二方面,本发明实施例提供一种跨语言的词汇义原预测装置,包括:

第一设定模块,用于确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;

第二设定模块,用于分别确定将所述源语言词向量与所述目标语言词向量对齐的第三损失函数,以及为所述源语言词向量融入义原信息的第四损失函数;

训练词对抽取模块,用于基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;

向量对齐融合模块,用于基于所述源语言词与目标语言词对和所述源语言内已建立的义原知识库,采用随机梯度下降法,对所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,所述双语词向量携带所述源语言词向量与所述目标语言词向量的语义对应关系和义原与所述源语言词向量的融合关系;

预测输出模块,用于基于所述双语词向量,通过搜索与所述目标语言中目标词汇词向量相近的源语言词的已标注义原,为所述目标词汇进行义原预测。

第三方面,本发明实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与源语言设备和目标语言设备之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的跨语言的词汇义原预测方法。

本发明实施例提供的跨语言的词汇义原预测方法、装置与电子设备,通过单语词向量学习、跨语言词向量对齐以及为源语言词向量融入义原信息等处理步骤,能够合理地利用已有义原知识库进行跨语言词汇的义原预测,从而有效节约义原预测的人力和时间成本,有利于辅助语言学专家的义原标注,进而更快更好地为其他语言构建义原知识库,具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的跨语言的词汇义原预测方法的流程示意图;

图2为本发明另一实施例提供的跨语言的词汇义原预测方法的流程示意图;

图3为本发明实施例提供的跨语言的词汇义原预测装置的结构示意图;

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。

在语言学中,引入义原可以对词进行更细粒度的分析,有助于更好地理解语言的本质。然而,大多数语种的语言还没有建立义原知识库,不方便确定这些语言中词的义原,这在一定程度上不利于人类进一步理解和使用这些语言。本发明实施例为了解决人工标注义原的高额人力和时间成本问题,利用计算机来为跨语言词汇进行义原的自动标注,进而辅助人类专家构建一个较为完整的义原知识库,具有实用意义。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。

图1为本发明一实施例提供的跨语言的词汇义原预测方法的流程示意图,如图1所示,该方法用于实现跨语言的词汇义原预测,该方法包括:

s101,确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数。

可以理解为,在进行跨语言的义原预测时,需要建立义原预测模型,包括对义原预测模型损失函数的确定以及对构建的初始模型进行训练等。本步骤可以对模型中进行源语言词向量和目标语言词向量进行学习的损失函数进行设置。具体而言,分别将学习源语言词向量的损失函数设置为第一损失函数,将学习目标语言词向量的损失函数设置为第二损失函数。

s102,分别确定将源语言词向量与目标语言词向量对齐的第三损失函数,以及为源语言词向量融入义原信息的第四损失函数源语言词目标语言词。

可以理解为,本发明实施例通过源语言和目标语言中一部分词汇的语义对应关系,来将两种语言的所有词向量对齐在一个空间中,使得不同语言但语义相近的词同样满足词向量相似的性质。同时,对于源语言而言,事先已经对其建立了词汇的义原知识库,则根据该义原知识库,可以查询各源语言词被标注的义原,将已知的源语言词的义原标注信息融入到其词向量中,使得有相似义原标注的词有更相近的词向量。

可以理解的是,为了进行综合预测,本步骤仅根据上述处理思路,确定将源语言词向量与目标语言词向量进行向量对齐的损失函数,即第三损失函数,并为源语言词向量融入义原信息的损失函数,即第四损失函数,以具体在后续步骤利用这些损失函数进行综合预测。

另外,学习词向量的目的是预测义原,让义原标注相似的词有相似的向量,这样在预测目标语言词的义原时通过词向量相似的性质找到的词也会有相似的义原。

s103,基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对。

可以理解为,为了对所建立的义原预测模型进行训练,基于源语言和目标语言的单语语料,选取具有相同语义的词对,作为源语言词与目标语言词对。如,基于相同的语义,从源语言和目标语言的单语语料的词表中选取对应的词,构成双语种子词典,而后通过查询种子词典或者翻译软件可以得到具有相同语义的源语言词与目标语言词对。

可以理解的是,对于从源语言中选取的源语言词,可以到目标语言单语语料的词表中选取与该源语言词具有相同语言的目标语言词,这两个具有相同语言的词即构成源语言词与目标语言词对。例如,与中文中的词“吃”具有相同语义的英文词为“eat”,则“吃”和“eat”构成一个源语言词与目标语言词对。按照这个规则选取,直至选取的源语言词与目标语言词对的数量达到一定要求。

s104,基于源语言词与目标语言词对和源语言内已建立的义原知识库,采用随机梯度下降法,对第一损失函数、第二损失函数、第三损失函数和第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,双语词向量携带源语言词向量与目标语言词向量的语义对应关系和义原与源语言词向量的融合关系。

可以理解为,本步骤在上述步骤处理的基础上,采用随机梯度下降法,通过调节源语言和目标语言中具有相同语义的词向量,即源语言词向量和目标语言词向量,同时调节源语言中各源语言词向量与该源语言词向量所对应的源语言词所标注的义原组成的向量,来对上述损失函数的综合损失函数进行优化调节,最终将具有相同语义的源语言词汇和目标语言词汇的词向量对齐到同一个语义空间,形成融入义原信息的双语词向量。

同时,在模型训练中,分别从源语言和目标语言的单语语料中学习单语词的分布式表示,即低维词向量,从而将单语语料中词与词共同出现的性质转化为数学表示。可以理解的是,对于源语言和目标语言而言,从其单语语料中可以学习该语言对应的不同词汇,则对应源语言,其包含的词汇可称为源语言词,同样的,对应目标语言,其包含的词汇可称为目标语言词。

并且,无论是源语言或目标语言,每个词汇可以对应形成一个词向量,则从源语言的单语语料中学习的词向量可以对应作为源语言词向量,而从目标语言的单语语料中学习的词向量可作为目标语言词向量。

即,通过将上述各个步骤的损失函数相加,可以得到框架的总的损失函数,对其采用随机梯度下降的方法,进行训练之后就可以得到所属同一个语义空间的双语词向量。在同一个语义空间的双语词向量的定义是意义相近则词向量相近,比如,“苹果”和“apple”语义相近,那么两者对应的词向量的余弦相似度也应该较大。

s105,基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测。

可以理解为,本步骤在得到双语词向量的基础上,利用源语言词和目标语言词在同一个向量空间的特性,通过搜索与目标语言词汇的词向量接近的源语言词向量,确定该源语言词向量对应的源语言词,再根据该源语言词所标注的义原,来为目标词汇进行义原预测。

本发明实施例提供的跨语言的词汇义原预测方法,通过单语词向量学习、跨语言词向量对齐以及为源语言词向量融入义原信息等处理步骤,能够合理地利用已有义原知识库进行跨语言词汇的义原预测,从而有效节约义原预测的人力和时间成本,有利于辅助语言学专家的义原标注,进而更快更好地为其他语言构建义原知识库,具有良好的实用性。

其中根据上述各实施例可选的,对第一损失函数和第二损失函数进行优化调节的步骤具体包括:

基于源语言的不同单语语料,利用第一损失函数,学习各源语言词间共同出现的性质,并将该性质转化为低维实值分布式表示,形成源语言词向量;

基于目标语言的不同单语语料,利用第二损失函数,学习各目标语言词间共同出现的性质,并将该性质转化为低维实值分布式表示,形成目标语言词向量。

具体而言,对于源语言,利用源语言的单语语料中源语言词与源语言词间共同出现的性质,可以将词转化为低维实值分布式表示——词向量,也即源语言词向量,使得语义相近词的有相似的词向量。例如,可以采用word2vec中的skip-gram模型,学习源语言的不同单语语料中词汇与词汇间共同出现的性质。

同样的,对应目标语言,可以采用类似的方法,学习过程和源语言词向量学习过程基本相同,可同样采用skip-gram模型进行学习,只不过训练语料为目标语言的单语语料,得到目标语言词向量。

其中根据上述各实施例可选的,确定将源语言词向量与目标语言词向量进行向量对齐的损失函数的步骤进一步包括:

利用具有相同语义的源语言词和目标语言词对,构成种子词典;

基于种子词典,确定如下所示的第三损失函数:

式中,wss、wtt表示源语言词和目标语言词,wss表示wss对应的源语言词向量,wtt表示wtt对应的目标语言词向量,d表示种子词典。

可以理解为,本发明实施例在进行源语言词向量与目标语言词向量的向量对齐时,基于种子词典进行双语词向量对齐。具体而言,可以通过采用在线翻译软件等方式,很方便地得到若干两种语言的翻译词对,将词对的集合称为种子词典。因此只需让种子词典中每个词对中的两个跨语言词有相似的词向量。例如,让“eat”和“吃”有相似的词向量,这样可以使得英文、中文所有的词都满足类似的性质。

而在进行向量对齐训练时,只需通过调节词向量wss和wtt来使上述第一损失函数取值最小,即可使wss和wtt最为接近,实现向量对齐。

例如,如图2所示,为本发明另一实施例提供的跨语言的词汇义原预测方法的流程示意图,对于源语言和目标语言,各存在一个语料,通过采用在线翻译软件等方式建立种子词典。之后基于种子词典,将源语言词和目标语言词对齐到同一语义空间,并在此基础上实现对目标词汇的义原预测。

在上述各实施例的基础上,在基于种子词典,确定第三损失函数的步骤之后,本发明实施例的方法还包括:

基于相同的语义,分别为每个目标语言词设定一个与源语言词相匹配的检索索引,并基于各目标语言词分别对应的检索索引,构成一隐向量;

基于隐向量、源语言的单语语料和目标语言的单语语料,确定如下所示的第五损失函数:

其中,

式中,cs、ct分别表示源语言和目标语言中的单语语料,m表示隐向量,|vt|表示检索索引的个数,mt表示检索索引,wtt表示ct中的目标语言词,c(wtt)表示wtt在ct中出现的次数,表示cs中与wtt相匹配的源语言词。

可以理解为,为了进一步将目标语言词向量与源语言词向量进行对齐,在上述各实施例的基础上,再进行基于匹配机制的双语词向量对齐。具体而言,假设每一个目标语言词都有一个源语言词与之相匹配,则用一个隐变量mt来表示与目标语言词wtt所匹配的源语言词的索引,即为与wtt所匹配的源语言词。那么可以得到一个长为目标语言词数|vt|的隐向量m,进而得到上述第二损失函数。其中vt表示目标语言词的词表,隐向量m是前述隐变量mt构成的向量,也就是|vt|维的一个向量。

类似地,假设每一个源语言词也有一个目标语言词与之相匹配,损失函数的表示和上述公式类似。即,对应的,根据每个源语言词,采用上述对应的处理流程,确定源语言词对应的第六损失函数,此处不再赘述。

则,相应的,对第三损失函数和第四损失函数进行优化调节的步骤具体包括:对第三损失函数、第五损失函数和第六损失函数进行加权求和,获取综合损失函数,并对综合损失函数和第四损失函数进行优化调节。

其中根据上述各实施例可选的,确定为源语言词向量融入义原信息的第四损失函数的步骤具体包括:

基于义原知识库,搜索源语言中的近义源语言词汇,近义源语言词汇表示,拥有共同义原的个数达到预设阈值的多个源语言词;

修改近义源语言词汇对应的源语言词向量,并确定如下所示的第四损失函数,以为近义源语言词汇对应的源语言词向量融入义原信息:

式中,表示修改前的源语言词向量,表示修改后的源语言词向量,表示源语言词的近义源语言词汇的集合,αi和βij表示超参数。

可以理解为,本发明实施例进行基于词间相似关系的义原信息融入词向量的处理。具体而言,可以将具有相同义原的个数达到预设阈值的多个源语言词称作近义源语言词汇,或者也可称作“近义词”。例如,将拥有两个以上共同义原的源语言词认为是“近义词”。首先搜索整个源语言空间,找到每个源语言词的所有“近义词”,然后修改这些源语言词的词向量,即源语言词向量,使得“近义词”之间的词向量更接近。

则在进行向量融入训练时,通过调节使得尽可能相似,也就是同一个词向量变化后的词向量要和变化前的词向量尽可能相近。另外要调节使得这两个“近义词”的词向量也尽可能相近。

在上述各实施例的基础上,确定为源语言词向量融入义原信息的第四损失函数的步骤具体包括:

基于义原知识库,构建词与义原共现矩阵,词与义原共现矩阵的元素取值为1表示义原xj被标注到源语言词上,否则表示未进行标注;

通过分解词与义原共现矩阵,确定如下所示的第四损失函数,以进行源语言词向量的义原信息融合:

式中,x表示所有义原的集合,表示源语言词,表示对应的源语言词向量,bs和b′j分别表示源语言词向量和义原向量xj的偏差。

可以理解为,本发明实施例基于义原表示的义原信息融入词向量处理。具体而言,采用分解词和义原共现矩阵的方式来得到义原向量的同时,也可以同步修改词向量,使得词和词之间的义原标注关系体现在词向量中。

对于词和义原共现矩阵ms,其元素值为1表示义原xj被标注到源语言词上,否则表示没有标注。则通过分解ms,可以定义上述第四损失函数。这一损失函数隐含的信息是源语言词如果有义原xj,那么两者向量的点积应该尽可能为1,否则应该尽可能为0。训练过程则是在调节对应的源语言词向量和义原xj对应的义原向量xj。

其中,基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测可按以下处理流程进行:

基于双语词向量,搜索与目标词汇词向量相近的源语言词,并确定该源语言词被标注的所有义原;针对每个义原,通过计算含有该义原的源语言词和目标语言词分别对应的源语言词向量与目标语言词向量间的相似度,计算该义原的得分;选取各得分中高于设定阈值者所对应的义原,作为目标词汇的义原。

其中根据上述各实施例可选的,通过计算含有该义原的源语言词和目标语言词分别对应的源语言词向量与目标语言词向量间的相似度,计算该义原的得分的步骤进一步包括:

对于义原xj,利用如下计算公式,计算该义原的得分:

式中,表示义原xj对于目标词汇的得分,分别表示含有义原xj的源语言词向量与目标语言词向量,表示xj与的标注关系在词与义原共现矩阵中所对应的元素,表示的余弦相似度的降序排列序号。

可以理解为,在进行目标词汇的义原预测时,可在上述各实施例的基础上基于词向量关系进行。具体而言,利用目标语言词附近的源语言词的义原标注,来为当前的目标词汇预测义原。即,利用如上公式,为每一个义原都打一个分,打分依据为含有该义原的源语言词和目标语言词的词向量间的余弦相似度。最终系统为目标词汇wtt预测的义原为上述得分高于一定阈值的义原。

本发明实施例提供的跨语言的词汇义原预测方法,可以有效地为跨语言词预测较好的义原,有利于辅助语言学专家的义原标注,进而更快更好地为其他语言构建义原知识库,具有良好的实用性。

作为本发明实施例的另一个方面,本发明实施例根据上述各实施例提供一种跨语言的词汇义原预测装置,该装置用于在上述各实施例中实现跨语言的词汇义原预测。因此,在上述各实施例的跨语言的词汇义原预测方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。

根据本发明本方面的一个实施例,跨语言的词汇义原预测装置的结构如图3所示,为本发明实施例提供的跨语言的词汇义原预测装置的结构示意图,该装置可以用于实现上述各方法实施例中跨语言的词汇义原预测,该装置包括第一设定模块301、第二设定模块302、训练词对抽取模块303、向量对齐融合模块304和预测输出模块305。其中:

第一设定模块301用于确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;第二设定模块302用于分别确定将源语言词向量与目标语言词向量对齐的第三损失函数,以及为源语言词向量融入义原信息的第四损失函数;训练词对抽取模块303用于基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;向量对齐融合模块304用于基于源语言词与目标语言词对和源语言内已建立的义原知识库,采用随机梯度下降法,对第一损失函数、第二损失函数、第三损失函数和第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,双语词向量携带源语言词向量与目标语言词向量的语义对应关系和义原与源语言词向量的融合关系;预测输出模块305用于基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测。

具体而言,在进行跨语言的义原预测时,需要建立义原预测模型,包括对义原预测模型损失函数的确定以及对构建的初始模型进行训练等。第一设定模块301对义原预测模型中进行源语言词向量和目标语言词向量进行学习的损失函数进行设置。即,分别将学习源语言词向量的损失函数设置为第一损失函数,将学习目标语言词向量的损失函数设置为第二损失函数。

之后,通过源语言和目标语言中一部分词汇的语义对应关系,来将两种语言的所有词向量对齐在一个空间中,使得不同语言但语义相近的词同样满足词向量相似的性质。同时,对于源语言而言,事先已经对其建立了词汇的义原知识库,则根据该义原知识库,可以查询各源语言词被标注的义原,将已知的源语言词的义原标注信息融入到其词向量中,使得有相似义原标注的词有更相近的词向量。

于是,为了进行综合预测,第二设定模块302仅根据上述处理思路,确定将源语言词向量与目标语言词向量进行向量对齐的损失函数,即第三损失函数,并为源语言词向量融入义原信息的损失函数,即第四损失函数,以具体在后续步骤利用这些损失函数进行综合预测。

为了对所建立的义原预测模型进行训练,训练词对抽取模块303基于源语言和目标语言的单语语料,选取具有相同语义的词对,作为源语言词与目标语言词对。如,基于相同的语义,从源语言和目标语言的单语语料的词表中选取对应的词,构成双语种子词典,而后通过查询种子词典或者翻译软件可以得到具有相同语义的源语言词与目标语言词对。

可以理解的是,对于从源语言中选取的源语言词,训练词对抽取模块303可以到目标语言单语语料的词表中选取与该源语言词具有相同语言的目标语言词,这两个具有相同语言的词即构成源语言词与目标语言词对。训练词对抽取模块303按照这个规则选取,直至选取的源语言词与目标语言词对的数量达到一定要求。

再之后,向量对齐融合模块304采用随机梯度下降法,通过调节源语言和目标语言中具有相同语义的词向量,即源语言词向量和目标语言词向量,同时调节源语言中各源语言词向量与该源语言词向量所对应的源语言词所标注的义原组成的向量,来对上述损失函数的综合损失函数进行优化调节,最终将具有相同语义的源语言词汇和目标语言词汇的词向量对齐到同一语义空间,形成融入义原信息双语词向量。

同时,向量对齐融合模块304可以分别从源语言和目标语言的单语语料中学习单语词的分布式表示,即低维词向量,从而将单语语料中词与词共同出现的性质转化为数学表示。可以理解的是,对于源语言和目标语言而言,向量对齐融合模块304从其单语语料中可以学习该语言对应的不同词汇,则对应源语言,其包含的词汇可称为源语言词,同样的,对应目标语言,其包含的词汇可称为目标语言词。

并且,无论是源语言或目标语言,向量对齐融合模块304可以为每个词汇对应形成一个词向量,则从源语言的单语语料中学习的词向量可以对应作为源语言词向量,而从目标语言的单语语料中学习的词向量可作为目标语言词向量。

通过将上述各个步骤的损失函数相加,可以得到框架的总的损失函数,对其采用随机梯度下降的方法,进行训练之后就可以得到所属同一个语义空间的双语词向量。在同一个语义空间的双语词向量的定义是意义相近则词向量相近。

最后,在得到双语词向量的基础上,预测输出模块305利用源语言词汇和目标语言词汇在同一个向量空间的特性,通过搜索与目标语言词汇的目标语言词向量接近的源语言词向量,确定该源语言词向量对应的源语言词汇,再根据该源语言词汇所标注的义原,来为目标词汇进行义原预测。

本发明实施例提供的跨语言的词汇义原预测装置,通过设置相应的执行模块,通过单语词向量学习、跨语言词向量对齐以及为源语言词向量融入义原信息等处理步骤,能够合理地利用已有义原知识库进行跨语言词汇的义原预测,从而有效节约义原预测的人力和时间成本,有利于辅助语言学专家的义原标注,进而更快更好地为其他语言构建义原知识库,具有良好的实用性。

可以理解的是,本发明实施例中可以通过硬件处理器(hardwareprocessor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的跨语言的词汇义原预测装置在实现上述各方法实施例中跨语言的词汇义原预测时,产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。

作为本发明实施例的又一个方面,本实施例根据上述实施例提供一种电子设备,参考图4,为本发明实施例提供的电子设备的实体结构示意图,包括:至少一个存储器401、至少一个处理器402、通信接口403和总线404。

其中,存储器401、处理器402和通信接口403通过总线404完成相互间的通信,通信接口403用于该电子设备与源语言设备和目标语言设备之间的信息传输;存储器401中存储有可在处理器402上运行的计算机程序,处理器402执行该计算机程序时,实现如上述实施例的跨语言的词汇义原预测方法。

可以理解为,该电子设备中至少包含存储器401、处理器402、通信接口403和总线404,且存储器401、处理器402和通信接口403通过总线404形成相互间的通信连接,并可完成相互间的通信,如处理器402从存储器401中读取跨语言的词汇义原预测方法的程序指令等。另外,通信接口403还可以实现该电子设备与源语言设备和目标语言设备之间的通信连接,并可完成相互间信息传输,如通过通信接口403实现跨语言的词汇义原预测等。

电子设备运行时,处理器402调用存储器401中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;分别确定将源语言词向量与目标语言词向量对齐的第三损失函数,以及为源语言词向量融入义原信息的第四损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于源语言词与目标语言词对和源语言内已建立的义原知识库,采用随机梯度下降法,对第一损失函数、第二损失函数、第三损失函数和第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,双语词向量携带源语言词向量与目标语言词向量的语义对应关系和义原与源语言词向量的融合关系;基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测等。

上述的存储器401中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行如上述各实施例的跨语言的词汇义原预测方法。例如包括:确定从源语言的单语语料中学习源语言词向量的第一损失函数,并确定从目标语言的单语语料中学习目标语言词向量的第二损失函数;分别确定将源语言词向量与目标语言词向量对齐的第三损失函数,以及为源语言词向量融入义原信息的第四损失函数;基于源语言和目标语言的单语语料,选取一定数量具有相同语义的源语言词与目标语言词对;基于源语言词与目标语言词对和源语言内已建立的义原知识库,采用随机梯度下降法,对第一损失函数、第二损失函数、第三损失函数和第四损失函数进行优化调节,获取同属一个语义空间的双语词向量,双语词向量携带源语言词向量与目标语言词向量的语义对应关系和义原与源语言词向量的融合关系;基于双语词向量,通过搜索与目标语言中目标词汇词向量相近的源语言词的已标注义原,为目标词汇进行义原预测等。

本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过单语词向量学习、跨语言词向量对齐以及为源语言词向量融入义原信息等处理步骤,能够合理地利用已有义原知识库进行跨语言词汇的义原预测,从而有效节约义原预测的人力和时间成本,有利于辅助语言学专家的义原标注,进而更快更好地为其他语言构建义原知识库,具有良好的实用性。

可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如u盘、移动硬盘、rom、ram、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明实施例的单独实施例。

最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1