实体链接方法、装置、设备、计算机可读存储介质与流程

文档序号:18619717发布日期:2019-09-06 22:22阅读:113来源:国知局
实体链接方法、装置、设备、计算机可读存储介质与流程

本发明涉及数据处理技术领域,特别是指一种实体链接方法、装置、设备、计算机可读存储介质。



背景技术:

随着互联网语义知识库和文本信息平台的飞速发展,将文本信息中的实体词链接到互联网语义知识库的无歧义实体,可以为信息检索和抽取、知识工程等任务都提供功能强大的实体消歧系统做支撑。目前,实体链接方法需要人工标注工作及目标语言上的数据集作为训练数据,即需要耗费大量的人力去标注训练数据。



技术实现要素:

本发明要解决的技术问题是提供一种实体链接方法、装置、设备、计算机可读存储介质,能够将文本信息中的实体词链接到无歧义实体。

为解决上述技术问题,本发明的实施例提供技术方案如下:

一方面,提供一种实体链接方法,包括:

通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;

利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;

将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

进一步地,所述通过已有的无歧义实体数据库构建训练数据包括:

将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。

进一步地,所述利用所述训练数据训练无歧义实体识别模型包括:

利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;

将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型。

进一步地,所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型包括:

利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;

集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。

进一步地,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。

进一步地,所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,所述方法还包括:

利用所述语言模型和所述主题模型对所述训练数据进行扩充。

进一步地,所述利用所述语言模型和所述主题模型对所述训练数据进行扩充包括:

将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或

将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。

进一步地,所述根据输出结果确定与所述待识别的实体词链接的无歧义实体包括:

将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。

本发明实施例还提供了一种实体链接装置,包括:

训练数据构建模块,用于通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;

训练模块,用于利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;

处理模块,用于将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

本发明实施例还提供了一种实现实体链接的电子设备,包括:

处理器;和

存储器,在所述存储器中存储有计算机程序指令,

其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:

通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;

利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;

将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:

通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;

利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;

将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

本发明的实施例具有以下有益效果:

上述方案中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。

附图说明

图1为本发明实施例实体链接方法的流程示意图;

图2为本发明实施例通过已有的无歧义实体数据库构建训练数据的流程示意图;

图3为本发明实施例利用训练数据训练无歧义实体识别模型的流程示意图;

图4为本发明实施例利用语言模型、主题模型的输出结果以及训练数据训练得到无歧义实体识别模型的流程示意图;

图5为本发明实施例实体链接装置的结构框图;

图6为本发明实施例实现实体链接的电子设备的结构框图;

图7为本发明具体实施例实体链接方法的流程示意图;

图8为本发明实施例利用无歧义实体数据库中的一条文本构建训练数据的示意图;

图9a和图9b为本发明实施例通过语言模型和主题模型扩充训练数据的示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

本发明的实施例提供一种实体链接方法、装置、设备、计算机可读存储介质,能够将文本信息中的实体词链接到无歧义实体。

实施例一

本发明的实施例提供一种实体链接方法,如图1所示,包括:

步骤101:通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;

步骤102:利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;

步骤103:将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

本实施例中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。

作为一个示例,如图2所示,所述步骤101包括:

步骤1011:将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。

作为一个示例,如图3所示,所述步骤102包括:

步骤1021:利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;

步骤1022:将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型。

作为一个示例,如图4所示,所述步骤1022包括:

步骤10221:利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;

步骤10222:集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。

具体地,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。

作为一个示例,所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,所述方法还包括:

利用所述语言模型和所述主题模型对所述训练数据进行扩充。

具体地,所述利用所述语言模型和所述主题模型对所述训练数据进行扩充包括:

将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或

将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。

作为一个示例,所述根据输出结果确定与所述待识别的实体词链接的无歧义实体包括:

将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。

实施例二

本发明实施例还提供了一种实体链接装置,如图5所示,包括:

训练数据构建模块21,用于通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;

训练模块22,用于利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;

处理模块23,用于将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

本实施例中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。

作为一个示例,训练数据构建模块21用于将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。

作为一个示例,训练模块22具体用于利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型。

作为一个示例,训练模块22具体用于利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。

具体地,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。

作为一个示例,所述训练模块22还用于在利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,利用所述语言模型和所述主题模型对所述训练数据进行扩充。

作为一个示例,所述训练模块22具体用于将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。

作为一个示例,处理模块23具体用于将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。

实施例三

本发明实施例还提供了一种实现实体链接的电子设备30,如图6所示,包括:

处理器32;和

存储器34,在所述存储器34中存储有计算机程序指令,

其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器32执行以下步骤:

通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;

利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;

将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

进一步地,如图6所示,实现实体链接的电子设备30还包括网络接口31、输入设备33、硬盘35、和显示设备36。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器32代表的一个或者多个中央处理器(cpu),以及由存储器34代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。

所述网络接口31,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,例如无歧义实体数据库的数据,并可以保存在硬盘35中。

所述输入设备33,可以接收操作人员输入的各种指令,并发送给处理器32以供执行。所述输入设备33可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备36,可以将处理器32执行指令获得的结果进行显示。

所述存储器34,用于存储操作系统运行所必须的程序和数据,以及处理器32计算过程中的中间结果等数据。

可以理解,本发明实施例中的存储器34可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器34存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统341和应用程序342。

其中,操作系统341,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序342,包含各种应用程序,例如浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序342中。

上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,可以通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

本发明上述实施例揭示的方法可以应用于处理器32中,或者由处理器32实现。处理器32可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器32中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器32可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器34,处理器32读取存储器34中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地,处理器32将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。

具体地,处理器32利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型。

具体地,处理器32利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。

具体地,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。

具体地,处理器32利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,利用所述语言模型和所述主题模型对所述训练数据进行扩充。

具体地,处理器32将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。

具体地,处理器32将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。

本实施例中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。

实施例四

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:

通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;

利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;

将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。

实施例五

下面结合附图对本发明的实体链接方法进行进一步介绍,如图7所示,本发明实施例的实体链接方法具体包括以下步骤:

步骤401:通过已有的无歧义实体数据库构建训练数据;

其中,已有的无歧义实体数据库可以为互联网语义知识库,比如维基百科和百度百科等等,当然还可以为其他类型的数据库。在无歧义实体数据库中存储有大量的文本,每一文本中携带有一个或者多个实体词,每一实体词均可以链接到一无歧义实体。

可以利用无歧义实体数据库中的文本构建训练数据,以利用其中一条文本构建训练数据为例进行说明,将无歧义实体数据库中的其中一条文本复制为多条,如图8所示,无歧义实体数据库中的其中一条文本中包括多个实体词:multinational,electronics和company,将该条文本复制为多条文本,将每一条复制文本中的任意一个或者多个实体词替换为对应的无歧义实体标识,无歧义实体标识可以唯一代表一无歧义实体,比如e0001唯一代表multinational对应的无歧义实体,e0002唯一代表electronics对应的无歧义实体,e0003唯一代表company对应的无歧义实体。

对无歧义实体数据库中每一条文本都执行上述操作,可以得到大量的训练数据。

步骤402:利用训练数据对语言模型进行训练;

将大量的训练数据输入语言模型,对语言模型进行训练,语言模型能够输出一条文本中的实体词为某一无歧义实体时与文本上下文的匹配度,比如对于文本“applepackedanaichipintotheiphonex”,通过语言模型能够输出其中的实体词“apple”与文本上下文的匹配度。再比如对于图8所示的文本,语言模型能够输出其中的实体词multinational为无歧义实体e0001时,与文本上下文的匹配度为1;语言模型能够输出实体词multinational为无歧义实体e0002时,与文本上下文的匹配度为0;语言模型能够输出实体词multinational为无歧义实体e0003时,与文本上下文的匹配度为0,当然,实体词为某一无歧义实体时与文本上下文的匹配度的取值并不局限为0和1,还可以为0到1之间的其他取值。

步骤403:利用训练数据对主题模型进行训练;

将大量的训练数据输入主题模型,对主题模型进行训练,主题模型能够输出一条文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,比如对于文本“applepackedanaichipintotheiphonex”,通过主题模型能够输出其中的实体词“apple”与主题“‘apple(fruit)’”、“iphone”之间的相关度。再比如对于图8所示的文本,主题模型能够输出其中的实体词multinational为无歧义实体e0001时,与文本上下文主题的相关度为1;主题模型能够输出实体词multinational为无歧义实体e0002时,与文本上下文主题的相关度为0;主题模型能够输出实体词multinational为无歧义实体e0003时,与文本上下文主题的相关度为0。当然,实体词为某一无歧义实体时与文本上下文主题的相关度的取值并不局限为0和1,还可以为0到1之间的其他取值。

步骤404:利用语言模型和主题模型对训练数据进行扩充;

上述利用无歧义实体数据库构建的训练数据为初始的标注数据,即文本中的实体词已经链接到无歧义实体。为了提高模型的精度,还可以利用语言模型和主题模型以及大量的未标注数据对训练数据进行扩充。

具体地,如图9a所示,可以将多组未标注数据输入语言模型,每组未标注数据包括携带有实体词的文本,其中,实体词并未链接到无歧义实体,利用语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据作为高置信数据输入主题模型,并利用主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据作为高置信数据加入训练数据,其中,新加入的的训练数据中,在主题模型输出的相关度高于预设第二阈值时,文本中的实体词对应的无歧义实体作为与该实体词链接的无歧义实体。

同时如图9b所示,还可以将多组未标注数据输入主题模型,每组未标注数据包括携带有实体词的文本,其中,实体词并未链接到无歧义实体,利用主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据作为高置信数据输入语言模型,并利用语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据作为高置信数据加入训练数据,其中,新加入的的训练数据中,在语言模型输出的匹配度高于预设第四阈值时,文本中的实体词对应的无歧义实体作为与该实体词链接的无歧义实体。

如图9a和图9b所示,通过语言模型和主题模型交互进行训练,可以利用大量的未标注数据生成新的标注数据补充进训练数据,从而省去人工标注的过程,节省大量的人力,提高模型训练的自动化程度。

步骤405:利用语言模型、主题模型以及训练数据协同训练得到无歧义实体识别模型;

首先利用语言模型的输出结果、主题模型的输出结果以及训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,集成模型能够输出语言模型的输出结果的权重和主题模型的输出结果的权重。比如训练数据中一文本中一实体词与一无歧义实体的匹配概率为m,将该文本输入语言模型得到的输出结果为x,将该文本输入主题模型的输出结果为y,将(m,x,y)作为集成模型的训练数据对集成模型进行训练,利用大量的训练数据使得集成模型不断调整a和b的值,最终使得a*x+b*y的值向m逼近,其中,a为集成模型输出的语言模型的输出结果的权重,b为集成模型输出的主题模型的输出结果的权重。

在训练完集成模型后,集成集成模型、语言模型和主题模型即可得到无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率。在将包括有待识别的实体词的文本输入无歧义实体识别模型后,即可输出待识别的实体词与一个或多个无歧义实体的匹配概率p,p=a*x+b*y,其中,a为训练好的集成模型输出的语言模型的输出结果的权重,b为训练好的集成模型输出的主题模型的输出结果的权重,x为将包括有待识别的实体词的文本输入语言模型得到的输出结果,y为将包括有待识别的实体词的文本输入主题模型得到的输出结果。

步骤406:将包括有待识别的实体词的文本输入无歧义实体识别模型,得到与待识别的实体词链接的无歧义实体。

具体地,可以将包括有待识别的实体词的文本输入无歧义实体识别模型,得到该实体词与多个无歧义实体的匹配概率,可以选择其中匹配概率最高的无歧义实体作为与该实体词链接的无歧义实体;或者对得到的最高的匹配概率进行判断,在该最高的匹配概率大于预设第五阈值时,将该最高的匹配概率作为与该实体词链接的无歧义实体。

本实施例中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。

以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1