一种实体消歧方法及装置与流程

文档序号:11133910阅读:686来源:国知局
一种实体消歧方法及装置与制造工艺

本发明涉及实体消歧技术领域,特别涉及一种实体消歧方法及装置。



背景技术:

实体消歧是为了解决自然语言中广泛存在的命名实体(后文中简称“实体”)的歧义(一词多义)问题,属于词义消歧的一部分,是自然语言处理中非常重要的基础性工作。在视频搜索引擎中存在大量的影视剧名的实体,而影视剧名存在大量的歧义,歧义分为两个方面:其一,影视剧名是一个普通词语或短语(例如:“少帅”既是一个普通的词语也是一部影视剧名称,类似的还有“大丈夫”、“苹果”、“卧虎藏龙”等);其二,一个影视剧名对应多个影视剧实体(例如:“非诚勿扰”即是一部电影的名称,也是一档综艺节目的名称,电影“美人鱼”有多个不同的版本)。每一个不同概念意义事物的叙述内容称为义项,如果能准确识别有歧义的实体,准确的对歧义实体消歧,即区分实体的真正义项,将对于视频搜索引擎的优化有很大的帮助。

实体消歧可以分为有监督学习方法和无监督学习方法。前者从标注了义项的大规模训练数据中抽取歧义词义项的特征属性,然后根据实体词在文本中出现位置的上下文,给出匹配度最高的歧义词义项作为消歧的结果,而后者对大量未标注义项的语料中通过聚类方法将歧义词聚类出不同的义项,同一聚类类别中的特征作为该义项的特征。

对于有监督学习方法,需要对训练数据做大量地人工标注工作,如:确定歧义词存在的候选义项,以及标注大量用于抽取歧义词义项特征的训练数据,这无疑需要大量的人工成本,而且有监督方法无法很好解决没有出现在标注集中的歧义词的消歧。而基于聚类的无监督学习方法,最终的类别(义项)数是不确定的,聚类类别与实际义项也无法一一对应,导致基于无监督学习方法的消歧准确度不高,进而导致搜索的准确度不高。



技术实现要素:

本发明实施例的目的在于提供一种实体消歧方法及装置,以提高搜索的准确度。

为达到上述目的,本发明实施例公开了一种实体消歧方法,方法包括:

利用预先训练的用于识别待消歧实体的第一识别模型,识别目标文本中的待消歧实体;

根据预先训练的用于识别预设字段信息的第二识别模型、预先构建的用于实体消歧的分类模型以及所述目标文本,对所述待消歧实体进行消歧。

较佳的,所述根据预先训练的用于识别预设字段信息的第二识别模型、预先构建的用于实体消歧的分类模型以及所述目标文本,对所述待消歧实体进行消歧,包括:

利用预先训练的用于识别预设字段信息的第二识别模型,从所述目标文本中识别所述待消歧实体上下文中的预设字段信息;

计算所识别的预设字段信息与所述待消歧实体的每一义项的预设字段信息的匹配度;

根据所述匹配度以及所述分类模型,对所述待消歧实体进行消歧。

较佳的,所述根据匹配度以及所述分类模型,对所述待消歧实体进行消歧,包括:

将最高匹配度对应的义项,确定为所述待消歧实体的实际义项。

较佳的,所述根据匹配度以及所述分类模型,对所述待消歧实体进行消歧,包括:

在所有匹配度中存在不小于预设第一阈值的匹配度的情况下,将匹配度不小于预设第一阈值对应的义项,确定为所述待消歧实体的实际义项。

较佳的,所述根据匹配度以及所述分类模型,对所述待消歧实体进行消歧,还包括:

在所有匹配度均小于预设第一阈值的情况下,根据所述分类模型、所述待消歧实体的每一义项、所述待消歧实体的上下文词,对所述待消歧实体进行消歧。

为达到上述目的,本发明实施例公开了一种实体消歧装置,装置包括:

识别模块,用于利用预先训练的用于识别待消歧实体的第一识别模型,识别目标文本中的待消歧实体;

消歧模块,用于根据预先训练的用于识别预设字段信息的第二识别模型、预先构建的用于实体消歧的分类模型以及所述目标文本,对所述待消歧实体进行消歧。

较佳的,所述消歧模块,包括:

识别单元,用于利用预先训练的用于识别预设字段信息的第二识别模型,从所述目标文本中识别所述待消歧实体上下文中的预设字段信息;

计算单元,用于计算所识别的预设字段信息与所述待消歧实体的每一义项的预设字段信息的匹配度;

消歧单元,用于根据所述匹配度以及所述分类模型,对所述待消歧实体进行消歧。

较佳的,所述消歧单元,具体用于:

将最高匹配度对应的义项,确定为所述待消歧实体的实际义项。

较佳的,所述消歧单元,具体用于:

在所有匹配度中存在不小于预设第一阈值的匹配度的情况下,将匹配度不小于预设第一阈值对应的义项,确定为所述待消歧实体的实际义项。

较佳的,所述消歧单元,还具体用于:

在所有匹配度均小于预设第一阈值的情况下,根据所述分类模型、所述待消歧实体的每一义项、所述待消歧实体的上下文词,对所述待消歧实体进行消歧。

由上述的技术方案可见,本发明实施例提供的一种实体消歧方法及装置,利用预先训练的用于识别待消歧实体的第一识别模型,识别目标文本中的待消歧实体;根据预先训练的用于识别预设字段信息的第二识别模型、预先构建的用于实体消歧的分类模型以及所述目标文本,对所述待消歧实体进行消歧。

可见,预先构建多个实体识别和分类模型,利用数据库作为唯一数据源,无需进行人工标注训练数据,不再需要标注集,解决了没有出现在标注集中的歧义词的消歧问题,也节省了人工成本。而且可以通过数据库自动抽取待消歧实体的不同义项和义项特征,义项类别与实际的义项类别可以一一对应,提高了实体消歧的准确度,进而提高了搜索的准确度。

当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种实体消歧方法的流程示意图;

图2为本发明实施例提供的一种实体消歧装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面首先对本发明实施例提供的一种实体消歧方法进行详细说明。

参见图1,图1为本发明实施例提供的一种实体消歧方法的流程示意图,可以包括如下步骤:

S101,利用预先训练的用于识别待消歧实体的第一识别模型,识别目标文本中的待消歧实体;

具体的,命名实体(简称实体)是指人名、机构名、地名以及其他所有以名称为标识的实体。其中,待消歧实体可以为音乐实体、影视剧实体等等。利用中文分词技术对目标文本进行分词,抽取目标文本中的实体词和实体上下文词,将实体词和实体上下文词输入预先训练好的第一识别模型,识别出目标文本的待消歧实体,以便后续对待消歧实体进行消歧。例如,对于目标文本“非诚勿扰电影第二部”,对该文本分词后得到实体词“非诚勿扰”,上下文词为“电影”和“第二部”。将“非诚勿扰”、“电影”和“第二部”输入第一识别模型,从而识别出待消歧实体为“非诚勿扰”。其中,中文分词技术为现有技术,本发明实施例在此不对其进行赘述。

具体的,以待消歧实体为影视剧实体为例,预先训练用于识别待消歧实体的第一识别模型的过程可以为:从视频数据库中抽取所有影视剧实体名称,将影视剧实体名称与分词系统中的普通词典对比,得到没有在普通词典中出现的影视剧实体列表(记为L),L即为无歧义的影视剧实体列表。利用视频数据库中的所有视频标题,将包含L中无歧义影视剧实体的视频标题作为样本,训练第一识别模型。本发明实施例可以使用基于向量空间模型的相似度匹配技术,对上述样本抽取并统计影视剧实体的上下文特征。可以使用基于模板的特征抽取技术抽取样本中影视剧实体的上下文特征,然后可以使用TF-IDF技术(用于信息检索与数据挖掘的加权技术)统计抽取的特征,最终得到可用于识别待消歧实体的第一识别模型。其中,基于向量空间模型的相似度匹配技术、基于模板的特征抽取技术以及TF-IDF(term frequency–inverse document frequency)技术均为现有技术,本发明实施例在此不对其进行赘述。

S102,根据预先训练的用于识别预设字段信息的第二识别模型、预先构建的用于实体消歧的分类模型以及所述目标文本,对所述待消歧实体进行消歧。

具体的,以待消歧实体为影视剧实体为例,预设字段可以为特定字段,例如频道、年代和语言版本等。预先训练用于识别预设字段信息的第二识别模型的过程可以为:从视频数据库获取所有影视剧实体的名称,将同一名称(W)的不同影视剧实体聚在一起,确定为该名称的不同义项(例如:W#1表示影视剧名称W的第一个义项、W#2表示影视剧名称W的第二个义项,以此类推)。

具体的,在获取目标影视剧实体的名称时,有些影视剧可能存在多个名称,或者有别名、简称等。例如,江苏卫视的综艺节目《非诚勿扰》在视频数据库中的完整名称为“缘来非诚勿扰”,而人们习惯成为“非诚勿扰”,所以在视频标题中或者用户查询词中的“非诚勿扰”很多都是指的“缘来非诚勿扰”,这种情况下可以获取该影视剧实体的别名“非诚勿扰”,确定为目标影视剧实体的名称。有的影视剧实体名称包含一些附加信息,例如有一条影视剧实体的名称为“笑傲江湖吕颂贤版”,而该影视剧实体的别名中没有“笑傲江湖”,因此如果不做特殊处理,该条实体无法成为一个义项。本发明实施例可以使用实体识别模块加模板匹配的方式进行处理。实体识别模块能对影视剧实体的标题进行分词并识别其中的影视剧名实体,例如:识别“笑傲江湖吕颂贤版”中的“笑傲江湖”为影视剧名实体,标记为“nz_ALBUM”,“nz”表示词性为实体,ALBUM表示实体类型为影视剧。本发明实施例配置了一些模板,例如:“nz_ALBUM+人名(版)”、“nz_ALBUM+年代(版)”、“nz_ALBUM+之**”等等。当影视剧实体的标题匹配某个模板时,将nz_ALBUM部分抽取出确定为该影视剧实体的别名用于义项抽取,例如上文中的“笑傲江湖吕颂贤版”符合实例模板“nz_ALBUM+人名(版)”,所以抽取“笑傲江湖”确定为其别名。

具体的,影视剧名实体上下文存在大量表示影视剧特定字段(如:频道、年代、语言版本等)的特征,这些特征对于匹配具体义项实体时是非常有用的,例如上文提到的“非诚勿扰”有一个电影版本的实体和一个综艺版本的实体,如果文本为“非诚勿扰电影第二部”,此时频道特征“电影”可以用来确定应该匹配的义项实体为“非诚勿扰(电影)”。

具体的,对于频道特征的抽取,首先从视频数据库获取无频道歧义的影视剧名,具体地,可以抽取仅在一个频道中存在实体的影视剧名即无频道歧义影视剧名,例如“花千骨”只有电视剧频道一个实体,则将“花千骨”确定为无频道歧义的电视剧频道数据。使用这些无频道歧义的影视剧实体,再次利用视频数据库,抽取并统计各频道影视剧实体的上下文特征,得到频道识别的特征,例如电影频道的“电影版”、“影院版”、“票房”等特征。在实际应用中,可以使用卡方检验技术、TF-IDF技术(用于信息检索与数据挖掘的加权技术)以及人工整理的方法,抽取并统计各频道影视剧实体的上下文特征。其中,年代、语言版本等特定字段的特征抽取可以使用正则表达式技术及人工整理的方法就可以完成,例如年代特征“*2016”、“83版”等,语言版本特征“粤语版”、“国粤双语”、“国语”等。其中,卡方检验技术、TF-IDF技术及正则表达式技术均为现有技术,本发明实施例在此不对其进行赘述。

具体的,以待消歧实体为影视剧实体为例,预先构建用于实体消歧的分类模型的过程可以为:

抽取初始义项特征:抽取出待消歧实体不同义项的字段信息(如:导演、演员、角色)作为义项的初始特征,例如:抽取非诚勿扰(综艺)的字段信息,得到该义项的初始特征:“孟非”(主持人)、“黄菡”(嘉宾)、“乐嘉”(嘉宾)、“江苏卫视”(播出频道)等;抽取非诚勿扰(电影)的字段信息,得到该义项的初始特征:“冯小刚”(导演)、“葛优”(演员)、“舒淇”(演员)、“范伟”(演员)等;

语料聚合:在得到了待消歧实体的不同义项以及不同义项的初始特征,此时,消歧可以看作分类问题,歧义实体的不同义项即为分类类别,义项的初始特征即为类别的初始特征。分类问题中,最主要的是需要大量的语料数据,可以通过初始义项特征从视频数据库中聚合语料,然后使用语料继续扩展义项特征,如此迭代使得义项特征和义项语料不断丰富,其中,语料是指在统计自然语言处理中实际上不可能观测到大规模的语言实例,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus),在本发明实施例中聚合的语料可以为视频数据库中包含待消歧实体的视频数据。语料聚合问题已转化为语料分类的问题,可以使用基于向量空间模型的相似度匹配技术来聚合语料,该项技术为现有技术,本发明实施例在此不对其进行赘述;

义项特征扩充:在通过不同义项的初始特征从视频数据库中聚合语料后,待消歧实体的不同义项下都对应一批属于该义项类别的语料数据,即为视频数据(包括标题、字段信息、评论、弹幕等)。可以使用卡方检验和TF-IDF技术,构建特征抽取模型对这些视频数据进行特征抽取,用抽取的特征来扩充义项的初始特征。在实际应用中,可以循环执行几次语料聚合和义项特征扩充,不断扩充义项特征,最终得到包含待消歧实体的不同义项和义项特征的分类模型。

具体的,在实际应用中,可以利用预先训练的用于识别预设字段信息的第二识别模型,从所述目标文本中识别所述待消歧实体上下文中的预设字段信息;计算所识别的预设字段信息与所述待消歧实体的每一义项的预设字段信息的匹配度;根据所述匹配度以及所述分类模型,对所述待消歧实体进行消歧。

具体的,在实际应用中,可以将最高匹配度对应的义项,确定为所述待消歧实体的实际义项。

示例性的,对于目标文本“非诚勿扰电影第二部”,待消歧实体为“非诚勿扰”,待消歧实体上下文为“电影”和“第二部”。利用第二识别模型,从视频数据库中抽取待消歧实体的不同义项,得到两个义项:其一是葛优主演的电影《非诚勿扰》(表示为“非诚勿扰#1”),其二是江苏卫视的一档综艺节目《缘来非诚勿扰》,常被称为“非诚勿扰”(表示为“非诚勿扰#2”)。利用第二识别模型,识别待消歧实体上下文中的预设字段信息为“电影”,计算所识别的预设字段信息“电影”与待消歧实体“非诚勿扰”的每一义项的预设字段信息的匹配度,得到的匹配度分别为90%和20%,将最高匹配度对应的义项“非诚勿扰#1”,确定为待消歧实体“非诚勿扰”的实际义项。

具体的,在实际应用中,可以在所有匹配度中存在不小于预设第一阈值的匹配度的情况下,将匹配度不小于预设第一阈值对应的义项,确定为所述待消歧实体的实际义项。

示例性的,对于目标文本“A电影中文版”,待消歧实体为A,利用第二识别模型,从视频数据库抽取A的不同义项为:A#1(特定字段信息:电影、国语版)、A#2(特定字段信息:电视剧、国语版)、A#3(特定字段信息:电影、粤语版)、A#4(特定字段信息:电视剧、粤语版),计算所识别的特定字段信息“电影”“中文版”与待消歧实体A的每一义项的特定字段信息的匹配度,得到的匹配度分别为90%、30%、85%、20%,预设第一阈值设为80%,则将匹配度不小于预设第一阈值对应的义项A#1和A#3,确定为待消歧实体A的实际义项。

具体的,在实际应用中,可以在所有匹配度均小于预设第一阈值的情况下,根据所述分类模型、所述待消歧实体的每一义项、所述待消歧实体的上下文词,对所述待消歧实体进行消歧。

示例性的,对于目标文本“非诚勿扰男嘉宾被灭灯”,待消歧实体为“非诚勿扰”,从视频数据库抽取“非诚勿扰”的不同义项,得到两个义项:其一是葛优主演的电影《非诚勿扰》(表示为“非诚勿扰#1”),其二是江苏卫视的一档综艺节目《缘来非诚勿扰》,常被称为“非诚勿扰”(表示为“非诚勿扰#2”)。抽取待消歧实体的上下文词“男嘉宾”和“灭灯”,将待消歧实体的上下文词输入分类模型,在分类模型中将上下文词数据“男嘉宾”和“灭灯”与分类模型中“非诚勿扰”的不同义项以及义项特征数据进行匹配,并计算匹配度,将匹配度最大且高于预设第二阈值的义项,确定为待消歧实体的实际义项。例如,计算得到待消歧实体的上下文词与“非诚勿扰#1”的义项特征数据的匹配度为20%,与“非诚勿扰#2”的义项特征数据的匹配度为85%,预设第二阈值设为75%,则将“非诚勿扰#2”确定为目标文本“非诚勿扰男嘉宾被灭灯”中待消歧实体“非诚勿扰”的实际义项。

可见,预先构建多个实体识别和分类模型,利用数据库作为唯一数据源,无需进行人工标注训练数据,不再需要标注集,解决了没有出现在标注集中的歧义词的消歧问题,也节省了人工成本。而且可以通过数据库自动抽取待消歧实体的不同义项和义项特征,义项类别与实际的义项类别可以一一对应,提高了实体消歧的准确度,进而提高了搜索的准确度。

参见图2,图2为本发明实施例提供的一种实体消歧装置的结构示意图,与图1所示的流程相对应,该消歧装置可以包括:识别模块201、消歧模块202。

识别模块201,用于利用预先训练的用于识别待消歧实体的第一识别模型,识别目标文本中的待消歧实体;

消歧模块202,用于根据预先训练的用于识别预设字段信息的第二识别模型、预先构建的用于实体消歧的分类模型以及所述目标文本,对所述待消歧实体进行消歧。

具体的,消歧模块202,可以包括:识别单元、计算单元和消歧单元(图中未示出);

识别单元,用于利用预先训练的用于识别预设字段信息的第二识别模型,从所述目标文本中识别所述待消歧实体上下文中的预设字段信息;

计算单元,用于计算所识别的预设字段信息与所述待消歧实体的每一义项的预设字段信息的匹配度;

消歧单元,用于根据所述匹配度以及所述分类模型,对所述待消歧实体进行消歧。

具体的,所述消歧单元,具体可以用于:

将最高匹配度对应的义项,确定为所述待消歧实体的实际义项。

具体的,所述消歧单元,具体可以用于:

在所有匹配度中存在不小于预设第一阈值的匹配度的情况下,将匹配度不小于预设第一阈值对应的义项,确定为所述待消歧实体的实际义项。

具体的,所述消歧单元,还具体可以用于:

在所有匹配度均小于预设第一阈值的情况下,根据所述分类模型、所述待消歧实体的每一义项、所述待消歧实体的上下文词,对所述待消歧实体进行消歧。

可见,预先构建多个实体识别和分类模型,利用数据库作为唯一数据源,无需进行人工标注训练数据,不再需要标注集,解决了没有出现在标注集中的歧义词的消歧问题,也节省了人工成本。而且可以通过数据库自动抽取待消歧实体的不同义项和义项特征,义项类别与实际的义项类别可以一一对应,提高了实体消歧的准确度,进而提高了搜索的准确度。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1