实体消歧方法、装置、计算机设备和存储介质与流程

文档序号:19156118发布日期:2019-11-16 00:48阅读:411来源:国知局
实体消歧方法、装置、计算机设备和存储介质与流程

本申请涉及数据处理技术领域,特别是涉及一种实体消歧方法、装置、计算机设备和存储介质。



背景技术:

实体消歧也称语义消歧,专门用于解决同名实体产生歧义的问题。比如,对于两个实体名称均为“张三”的实体,是指向同一人物,还是不同人物,有待进行消歧处理。实体消歧在搜索系统、问答系统、和知识库等领域有着广泛的应用。网络资源中存在大量的重名现象,在分析理解文本的时候,进行实体消歧,以明确实体的正确指向具有非常大的现实意义。

传统的实体消歧方式主要是针对结构化数据为主的实体,而对于数据质量差,或者是非结构化数据为主的实体,目前并没有很好的方案可以实现实体消歧。而对于很多从网络上爬取的数据而言,大多却是非结构化数据,如何正确分析这些数据,以明确实体的正确指向是亟待解决的问题。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够准确地对包括非结构化数据的实体进行实体消歧,以明确实体的正确指向的实体消歧方法、装置、计算机设备和存储介质。

一种实体消歧方法,所述方法包括:

获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;

将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;

根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;

对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;

依据所述综合相似度,对所述待消歧的多个实体进行消歧。

一种实体消歧装置,所述装置包括:

获取模块,用于获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;

提取模块,用于将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;

计算模块,用于根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;

所述计算模块还用于对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;

确定模块,用于依据所述综合相似度,对所述待消歧的多个实体进行消歧。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;

将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;

根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;

对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;

依据所述综合相似度,对所述待消歧的多个实体进行消歧。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取与待消歧的多个实体分别对应的简介数据;多个所述实体对应相同的实体名称;

将所述简介数据输入至预训练的信息提取模型中,通过所述信息提取模型提取与多个所述实体分别对应的关键属性信息;

根据所述关键属性信息,分别计算多个所述实体中待比较的两个实体在多个属性维度上的相似度;

对于每组待比较的两个实体,将各组待比较的两个实体在所述多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度;

依据所述综合相似度,对所述待消歧的多个实体进行消歧。

上述实体消歧方法、装置、计算机设备和存储介质,将与对应相同实体名称的多个实体对应的简介数据,输入至信息提取模型中,可以快速准确地从简介数据中提取各个实体对应的关键属性信息。从而在进行相似度计算时,可过滤掉大量的无效数据,仅需根据有效的关键属性信息来计算待比较的两个实体在多个属性维度上的相似度。对于每组待比较的两个实体,将各组待比较的两个实体在多个属性维度上的相似度进行加权求和,可以得到能更全面反映相似度情况的综合相似度。这样,根据综合相似度,就可准确地确定待消歧的实体是否指向同一实体,可以很好地利用非结构化数据来明确实体的正确指向,大大提高了对包括非结构化数据的实体进行消歧的准确率。

附图说明

图1为一个实施例中实体消歧方法的应用场景图;

图2为一个实施例中实体消歧方法的流程示意图;

图3为一个实施例中对实体在多个属性维度上的相似度进行加权求和,得到待消歧的多个实体间的综合相似度的步骤的流程示意图;

图4为一个实施例中实体消歧装置的结构框图;

图5为另一个实施例中实体消歧装置的结构框图;

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的实体消歧方法,可以应用于如图1所示的应用环境中。其中,终端110与服务器120通过网络进行通信。终端110可从网络资源中获取简介数据,并将简介数据发送至服务器120,服务器120执行该实体消歧方法,确定与待消歧的多个实体相对应的消歧类别,以明确各实体的正确指向。或者,终端110可直接执行该实体消歧方法,确定与待消歧的多个实体相对应的消歧类别,以明确各实体的正确指向。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种实体消歧方法,以该方法应用于图1中的终端110或服务器120(终端和服务器均可称作计算机设备)为例进行说明,包括以下步骤:

s202,获取与待消歧的多个实体分别对应的简介数据;多个实体对应相同的实体名称。

其中,实体(entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系。实体消歧也称语义消歧,是辨别对应相同实体名称的实体是否指向同一实体、或从多个对应相同实体名称的实体中确定目标实体的过程。

待消歧的多个实体是指对应相同的实体名称的多个实体,可以是两个实体或两个以上的实体。通过执行该实体消歧方法,可识别待消歧的实体是否指向同一实体。简介数据是对实体进行解释的数据,包括简介文本、简介视频、简介图像、简介音频等数据,是一种非结构化的数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。

当实体为人物实体时,对应的简介数据可以是简历数据;当实体为企业实体时,对应的简介数据可以是企业介绍;当实体为物品实体时,对应的简介数据可是对物品进行解释的词条中的文本。

在一个实施例中,数据库中可存储有多源数据,这些数据可能来源于供应商、或是从网页爬取、或是第三方平台的数据等。而多源数据中可能存在与相同的实体名称相对应的不同数据。那么,不论是通过该多源数据构建知识库还是整理该多源数据,都需要对多源数据进行实体消歧。

在一个实施例中,计算机设备可从多源数据中提取对应相同实体名称的简介数据。在一个实施例中,计算机设备可对具有相同实体名称的实体进行两两比对处理,也就是对待消歧的多个实体进行两两配对,分别判断两个不同的实体是否指向同一实体,进而根据两两判别的结果,综合确定多个待消歧的实体是否指向同一实体。

举例说明,当实体为人物实体时,计算机设备可获取对应相同实体名称的简历数据。比如,计算机设备获取了三份都是名为“张三”的简历,可相应称为简历数据1、简历数据2、和简历数据3。那么,计算机设备可分别根据简历数据1和简历数据2执行该实体消歧方法,判别简历数据1和简历数据2所对应的实体是否为同一实体。计算机设备还可分别根据简历数据1和简历数据3执行该实体消歧方法,判别简历数据1和简历数据3所对应的实体是否为同一实体。计算机设备还可分别根据简历数据2和简历数据3执行该实体消歧方法,判别简历数据2和简历数据3所对应的实体是否为同一实体。

s204,将简介数据输入至预训练的信息提取模型中,通过信息提取模型提取与多个实体分别对应的关键属性信息。

其中,信息提取模型是经过训练后具有分类或识别能力的机器学习算法模型。机器学习英文全称为machinelearning,简称ml。信息提取模型可通过样本学习具备识别能力,本实施例的信息提取模型用于从简介数据中标识出关键属性信息。信息提取模型可以采用cnn(convolutionalneuralnetwork,卷积神经网络)模型、rnn(recurrentneuralnetwork,循环神经网络)模型、lstm(longshort-termmemory,长短期记忆网络)模型、bilstm(bi-directionallongshort-termmemory,双向长短期记忆网络)模型等神经网络模型。实践中采用lstm模型可从简介数据中较好地标识出关键属性信息。

关键属性信息是实体的关键属性的信息,也就是实体在关键维度上的信息。其中不同类别的实体,具体可对应不同的关键属性维度。关键属性维度具体可以是对该实体所对应的数据进行分类后,通过经验或预设规定所确定的对该实体来说很重要的维度。该关键属性维度下的关键属性信息可以用于代表或唯一确定该实体。比如,当实体为人物实体时,关键属性信息具体可以是学校名称、学历级别、专业名称、企业名称、及部门名称等维度的信息;当实体是企业实体时,相应的关键属性信息具体可以是企业法人、企业成立时间、企业所在地、企业规模、或主营业务等维度的信息。

具体地,通过训练数据对信息提取模型进行训练,得到具有标识能力的信息提取模型。计算机设备可对简介数据中的句子进行切分,将句子中的标点符号去掉后,分别将各实体所对应的简介数据输入至信息提取模型中,通过该信息提取模型对简介数据进行特征提取分析后,得到简介数据中各字符对应的标识符号。将特定标识符号所对应的文本提取出来作为相应的关键属性信息。

举例说明,当实体为人物实体时,计算机设备可将与人物实体对应的简介数据输入至信息提取模型中,通过信息提取模型提取出相应的关键属性信息。比如,计算机设备可预先设置标识符号“o”用于标识无效信息;标识符号“b-org”用于标识“学校名称”、标识符号“i-org”用于标识“学历级别”等。那么,当信息提取模型输出简介数据及各字符所对应的标识符号后,可根据标识符号确定相应的关键属性信息。

在一个实施例中,实体包括人物实体;实体名称包括人物名称;简介数据包括简历数据;关键属性信息包括学校名称、学历级别、专业名称、企业名称、及部门名称中的多种。

其中,简历数据是对个人学历、经历、特长、爱好及其它有关情况所作的简明扼要的书面介绍数据。当实体包括人物实体,简介数据包括简历数据,关键属性信息包括学校名称、学历级别、专业名称、企业名称、及部门名称中的多种时,通过执行该实体消歧方法,可以准确地根据简历数据判别对应相同人物名称的实体是否为同一实体。

s206,根据关键属性信息,分别计算多个实体中待比较的两个实体在多个属性维度上的相似度。

其中,属性维度是与关键属性信息对应的维度,比如当关键属性信息为学校名称时,相应的属性维度就是实体所对应的学校维度。相似度是实体相似的程度,两个实体间相似度越大,则说明这两个实体指向相同对象的可能性就越大,两个实体间相似度越小,则说明这两个实体指向相同对象的可能性就越小,越有可能为不同的实体。实体间的相似度具体可通过比较各实体间关键属性信息的相似程度来确定各实体间的相似度。具体地,计算机设备可根据关键属性信息,在多个属性维度上分别计算各实体间的相似度。

在一个实施例中,步骤s206具体包括:对于多个实体中待比较的两个实体,在各属性维度上,分别将待比较的两个实体对应的关键属性信息拆分成多个字符,组成与待比较的两个实体分别对应、且与各属性维度分别对应的字符集合;从字符集合中,挑选出与待比较的两个实体均对应的字符,组成字符交集集合;根据字符集合,确定与各属性维度分别对应的字符总集合;在各属性维度上,分别计算字符交集集合与字符总集合的字符重合度;将各属性维度所对应的字符重合度作为待比较的两个实体在各属性维度上所对应的相似度。

具体地,计算机设备在确定各实体在不同属性维度上的关键属性信息后,可分别对待比较的多个实体进行两两比较对于多个实体中待比较的两个实体,在每个属性维度均做如下处理:将该属性维度下的多个实体中待比较的两个实体对应的关键属性信息拆分成单个字符,将每个实体所对应的、在该属性维度下的各单个字符组成与该待比较的两个实体对应、且与该属性维度对应的字符集合。进一步地,计算机设备可从待比较的两个实体所对应的字符集合中,挑选出与待比较的两个实体均对应的字符,也就是求各字符集合的交集,得到字符交集集合。计算机设备将该属性维度下的待比较的两个实体所对应的字符去重后组成字符总集合,也就是字符集合的并集。计算机设备将待比较的两个实体所对应的字符所组成的字符交集集合与相应的字符总集合的重合度作为该待比较的实体的相似度。相应的,在每个属性维度下,均做相应的处理。

在一个实施例中,字符交集集合与相应的字符总集合的重合度,具体可以是字符交集集合的字符数与字符总集合的字符数的比值。

在一个实施例中,待消歧的实体数量为两个,或者是,待消歧的实体数量为多个,但计算机设备根据多个实体间的两两组合,分别依次计算两个实体之间的相似度,以确定该两个实体是否为同一实体。在这种情况下,计算机设备对于每个属性维度均做如下处理:将该维度下的待消歧的两个实体对应的关键属性信息分别拆分成单个字符。根据两个实体均对应的字符组成字符交集集合。将两个实体所对应的字符去重后组成字符总集合。将待消歧的两个实体所对应的字符交集集合与字符总集合的重合度作为该属性维度下的待消歧的两个实体的相似度。

举例说明,比如实体1在属性维度a上的关键属性信息为“上海财经政法大学”;实体2在属性维度a上的关键属性信息为“复旦大学”。那么,与实体1对应的字符集合是[“上”、“海”、“财”、“经”、“政”、“法”、“大”、“学”];与实体2对应的字符集合是[“复”、“旦”、“大”、“学”]。相应的,字符交集集合为[“大”、“学”],共2个字符,字符总集合为[“上”、“海”、“财”、“经”、“政”、“法”、“复”、“旦”、“大”、“学”],共10个字符。字符交集集合与字符总集合的重合度为20%。

在一个实施例中,待消歧的实体数量为三个或三个以上,计算机设备可同时计算三个或三个以上的实体之间的相似度,以确定该三个或三个以上的实体是否为同一实体。在这种情况下,计算机设备对于每个属性维度均做如下处理:将该维度下的待消歧的三个或三个以上的实体对应的关键属性信息分别拆分成单个字符。根据三个或三个以上的实体均对应的字符组成字符交集集合。将三个或三个以上的实体所对应的字符去重后组成字符总集合。将待消歧的三个或三个以上实体所对应的字符交集集合与字符总集合的重合度作为该属性维度下的待消歧的两个实体的相似度。

举例说明,比如实体1在属性维度a上的关键属性信息为“上海财经政法大学”;实体2在属性维度a上的关键属性信息为“复旦大学”;实体3在属性维度a上的关键属性信息为“中南大学”。那么,与实体1对应的字符集合是[“上”、“海”、“财”、“经”、“政”、“法”、“大”、“学”];与实体2对应的字符集合是[“复”、“旦”、“大”、“学”];与实体3对应的字符集合是[“中”、“南”、“大”、“学”]。相应的,字符交集集合为[“大”、“学”],共2个字符,字符总集合为[“上”、“海”、“财”、“经”、“政”、“法”、“复”、“旦”、“中”、“南”、“大”、“学”],共12个字符。字符交集集合与字符总集合的重合度为16.7%。

s208,对于每组待比较的两个实体,将各组待比较的两个实体在多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度。

具体地,计算机设备可获取与多个属性维度分别对应的预设加权系数,依据相应的预设加权系数,对该待比较的两个实体在多个属性维度上的相似度进行加权求和,得到待比较的两个实体实体间的综合相似度。可采用如下公式进行计算:综合相似度=加权系数1*相似度1+加权系数2*相似度2+…+加权系数n*相似度n。在一个实施例中,计算机设备可依据不同属性维度所对应的重要程度,赋予不同的加权系数。

举例说明,比如属性维度包括学校维度、学历维度、专业维度和企业维度,相应的预设加权系数为0.2、0.3、0.4和0.1。假如待消歧的各实体间在各属性维度上的相似度分别为90%、90%、100%、和70%。那么,综合相似度=0.2*90%+0.3*90%+0.4*100%+0.1*70%=85%。

s210,依据综合相似度,对待消歧的多个实体进行消歧。

具体地,计算机设备可根据综合相似度确定待消歧的多个实体对应的消歧类别。计算机设备可预先设置相应的阈值,用于判别待消歧的多个实体是否为同一实体,也就是待消歧的多个实体所对应的消歧类别。其中,消歧类别是对待消歧的多个实体进行判断后该多个实体所对应的类别,用来表示待消歧的实体是否指向同一实体。消歧类别具体可包括相似实体、独立实体、需人为判断、以及无法判断等中的至少一种。其中,相似实体是指待消歧的多个实体为同一实体;独立实体指代消歧的实体分别为独立的实体,不指向同一实体;需人为判断指依据当前的条件无法判断当前的实体是否为同一实体,既可能是相似实体也有可能是独立实体;无法判断指当前信息量太少,无法判断当前待消歧的实体是否为同一实体。

在一个实施例中,计算机设备可预先设置第一阈值、第二阈值和第三阈值,其中,第一阈值大于第二阈值,第二阈值大于第三阈值。当综合相似度大于或等于第一阈值时,则判定待消歧的多个实体为相似实体;当综合相似度小于第一阈值、且大于第二阈值时,则需人为判断,计算机设备无法判断待消歧的多个实体是相似实体还是独立实体;当综合相似度小于或等于第二阈值、且大于第三阈值时,则判定待消歧的多个实体为相互独立的实体;当综合相似度小于或等于第三阈值时,则无法判定(可能是信息量太少以至于无法判断)。

举例说明,当实体为人物实体,当前待消歧的实体数量为两个,当综合相似度>=70%时,则判断待比较的两个人物实体为相似人物实体;当40%<综合相似度<70%时,则需要人为判断;当10%<综合相似度<=40%时,则判断待比较的两个人物实体为独立人物实体;当综合相似度<=10%无法判断。

上述实体消歧方法,将与对应相同实体名称的多个实体对应的简介数据,输入至信息提取模型中,可以快速准确地从简介数据中提取各个实体对应的关键属性信息。从而在进行相似度计算时,可过滤掉大量的无效数据,仅需根据有效的关键属性信息来计算待比较的两个实体在多个属性维度上的相似度。对于每组待比较的两个实体,将各组待比较的两个实体在多个属性维度上的相似度进行加权求和,可以得到能更全面反映相似度情况的综合相似度。这样,根据综合相似度,就可准确地确定待消歧的实体是否指向同一实体,可以很好地利用非结构化数据来明确实体的正确指向,大大提高了对包括非结构化数据的实体进行消歧的准确率。

在一个实施例中,步骤s202,也就是获取与待消歧的多个实体分别对应的简介数据的步骤具体包括:获取待处理的多源数据;确定多源数据所对应实体的实体名称;将对应于相同实体名称的多源数据划分为同组多源数据;分别提取各组多源数据中的简介数据,并将提取的简介数据作为与待消歧的多个实体分别对应的简介数据。

其中,多源数据是数据来源方为多个的数据,多源数据的内容纷杂、数据质量参差不齐。具体地,计算机设备可确定多源数据所对应实体的实体名称,再将对应于相同实体名称的多源数据划分为同组多源数据。分别提取各组多源数据中的简介数据,并将提取的简介数据作为与待消歧的多个实体分别对应的简介数据。

以基金经理实体为例,与基金经理实体对应的多源数据比如,国籍、性别、简历数据、基金投资组合的业绩数据、和投资风格等。计算机设备为整合相应的多源数据,首先需进行人物实体消歧。虽然计算机设备可从待处理的多源数据中提取到人物姓名,国籍,性别,开始工作时间,简历数据等,但是由于数据质量差,国籍,性别,开始工作时间字段可能不准确或者为空,传统的消歧方法就难以准确的盘对重复的基金经理实体。针对这种情况,计算机设备可将对应相同人物名称的多源数据划分为同组多源数据,再从各组多源数据中提取出简历数据,并根据提取的简历数据进行相应的实体消歧。

上述实施例中,将对应于相同实体名称的多源数据划分为同组多源数据,并从各组多源数据中提取出简介数据,并根据提取的简介数据进行相应的实体消歧。由于多源数据中非结构化的简介数据是信息量最可靠的数据源,因而根据非结构化的简介数据进行实体消歧的准确率和实用性都会大大提高。

在一个实施例中,步骤s208,也就是对于每组待比较的两个实体,将各组待比较的两个实体在多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度的步骤具体包括以下步骤:

s302,对于每组待比较的两个实体,确定待比较的两个实体在预设属性维度上所对应的预设属性相似度。

具体地,对于每组待比较的两个实体,计算机设备可确定待比较的两个实体在预设属性维度上所对应的预设属性相似度。在一个实施例中,预设属性维度具体可以是在实践经验中认定为更为重要的属性维度。

s304,确定与预设属性相似度对应配置的加权系数。

具体地,计算机设备可根据预设属性维度所对应的预设属性相似度,确定当前的实际场景,进而动态调整加权系数。计算机设备可根据当前的预设属性相似度,确定当前的实际场景,从而选择与该场景相匹配的加权系数。其中,与各场景相匹配的加权系数可以是提前设置好的,可依据当前的实际场景,调整权重,以增加判别待消歧的实体是否为同一实体的准确率。

比如,以人物实体为例,当待消歧的实体在学校维度无交集时,可设置部门维度和企业维度对应的加权系数各为0.5。当待消歧的实体在企业维度无交集,且在学校维度的预设属性相似度大于40%的场景时,可设置学校维度对应的加权系数为0.8;反之,企业维度对应的加权系数为0.8。当待消歧的实体在部门维度无交集、且在学校维度的预设属性相似度大于40%的场景时,可设置学校维度对应的加权系数为0.8;反之,部门维度对应的加权系数为0.8。当待消歧的实体在部门维度和企业维度均无交集时,可设置学校维度对应的加权系数为0.1。当当待消歧的实体在部门维度和学校维度无交集时,可设置学习维度对应的加权系数为0.8。当待消歧的实体在企业维度和学校维度均无交集时,可设置部门维度对应的加权系数为0.8。当待消歧的实体在三类维度都有交集时,可设置企业维度对应的加权系数为0.4、学校维度对应的加权系数为0.2。其中,有交集是指有相同的字符;无交集是指无相同的字符。

s306,根据加权系数,对待比较的两个实体在多个属性维度上的相似度进行加权求和,得到待比较的两个实体间的综合相似度。

具体地,计算机设备可根据动态调整的加权系数,对待比较的两个实体在多个属性维度上的相似度进行加权求和,得到待比较的两个实体间的综合相似度。

上述实施例中,通过待消歧的多个实体在预设属性维度上所对应的预设属性相似度,可动态调整相应配置的加权系数,从而准确地确定待比较的两个实体间的综合相似度。

在一个实施例中,该实体消歧方法还包括数据融合的步骤,该步骤具体包括:当待消歧的多个实体为相似实体时,分别获取与实体对应的多源数据;将对应于待消歧的多个实体的多源数据进行数据融合。

具体地,当待消歧的多个实体为相似实体时,即可确定当前的待消歧的多个实体指向同一实体。计算机设备可分别获取与实体对应的多源数据,将对应于待消歧的多个实体的多源数据进行数据融合。

在一个实施例中,进行数据融合的方法有多种,在此不做限定。比如:对于相同属性维度下的多源数据,计算机设备可将新版本的数据替换旧版本的数据。或者,计算机设备进而将数据质量高的数据替换数据质量低的数据。还或者,计算机设备可根据用户评分,将评分高的数据替换评分低的数据。

上述实施例中,将将对应于相似实体的多源数据进行数据融合,可实现实体所对应内容的扩充,使得该实体的内容更为丰富和准确。

在一个实施例中,该实体消歧方法还包括信息提取模型的训练步骤,该步骤具体包括:获取样本简介数据;依据样本标记字符对样本简介数据中的关键样本属性信息进行标记;将样本简介数据输入至信息提取模型,通过信息提取模型输出中间结果;依据中间结果和样本标记字符之间的差异调整模型参数,直到满足训练停止条件为止。

具体地,在训练信息提取模型的过程中,计算机设备可预先获取样本简介数据。通过人为或自动标注的方式,依据样本标记字符对样本简介数据中的关键样本属性信息进行标记。比如,当样本简介数据为样本简历数据时,计算机设备可将样本简历数据中的学校名称、学历级别、专业名称、企业名称、及部门名称等关键样本属性信息标注出来。在对关键样本属性信息进行标注时,计算机设备可预先设置标识符号“o”用于标识无效信息;标识符号“b-org”用于标识学校名称、标识符号“i-org”用于标识“学历级别”等。将有效信息和无效信息区分开,将对应于不同属性维度的关键样本属性信息采用不同的标识符号来标注。

进一步地,计算机设备可将样本简介数据输入至信息提取模型得到中间结果,根据中间结果与样本标记字符之间的差异调整模型参数,直到满足训练停止条件为止。其中,中间结果是在训练过程中,向信息提取模型输入样本简介数据后,由该信息提取模型所输出的结果。训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的信息提取模型的输出性能指标达到预设指标。

进而,训练好的信息提取模型就具备了自动识别和标注的能力,该信息提取模型对输入的简介数据进行特征分析后,输出包含标识符号的简介数据。计算机设备可根据输出的简介数据中各字符所对应的标识符号,从中提取出实体的关键属性信息。

在一个实施例中,计算机设备可比较中间结果与样本标记字符之间的差异,从而朝减少差异的方向,调整信息提取模型的模型参数。如果调整模型参数后,不满足训练停止条件,则返回将样本简介数据输入至信息提取模型,通过信息提取模型输出中间结果的步骤并继续训练,直到满足训练停止条件时结束训练。

上述实施例中,通过样本简介数据和标记了关键样本属性信息的样本标记字符来训练信息提取模型,可使得信息提取模型习得识别关键属性信息的能力。在模型的训练过程中,通过调整模型参数,就可以尽快地训练出能从简介数据中准确地提取出关键属性信息的模型,提高了训练效率。

应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图4所示,提供了一种实体消歧装置400,包括:获取模块401、提取模块402、计算模块403和确定模块404,其中:

获取模块401,用于获取与待消歧的多个实体分别对应的简介数据;多个实体对应相同的实体名称。

提取模块402,用于将简介数据输入至预训练的信息提取模型中,通过信息提取模型提取与多个实体分别对应的关键属性信息。

计算模块403,用于根据关键属性信息,分别计算多个实体中待比较的两个实体在多个属性维度上的相似度。

计算模块403还用于对于每组待比较的两个实体,将各组待比较的两个实体在多个属性维度上的相似度进行加权求和,得到各组待比较的两个实体间的综合相似度。

确定模块404,用于依据综合相似度,对待消歧的多个实体进行消歧。

在一个实施例中,获取模块401还用于获取待处理的多源数据;确定多源数据所对应实体的实体名称;将对应于相同实体名称的多源数据划分为同组多源数据;分别提取各组多源数据中的简介数据,并将提取的简介数据作为与待消歧的多个实体分别对应的简介数据。

在一个实施例中,计算模块403还用于对于多个实体中待比较的两个实体,在各属性维度上,分别将待比较的两个实体对应的关键属性信息拆分成多个字符,组成与待比较的两个实体分别对应、且与各属性维度分别对应的字符集合;从字符集合中,挑选出与待比较的两个实体均对应的字符,组成字符交集集合;根据字符集合,确定与各属性维度分别对应的字符总集合;在各属性维度上,分别计算字符交集集合与字符总集合的字符重合度;将各属性维度所对应的字符重合度作为待比较的两个实体在各属性维度上所对应的相似度。

在一个实施例中,计算模块403还用于对于每组待比较的两个实体,确定待比较的两个实体在预设属性维度上所对应的预设属性相似度;确定与预设属性相似度对应配置的加权系数;根据加权系数,对待比较的两个实体在多个属性维度上的相似度进行加权求和,得到待比较的两个实体间的综合相似度。

在一个实施例中,该实体消歧装置400还包括融合模块405,其中,获取模块401还用于当待消歧的多个实体为相似实体时,分别获取与实体对应的多源数据。融合模块405,用于将对应于待消歧的多个实体的多源数据进行数据融合。

参考图5,在一个实施例中,该实体消歧装置400还包括模型训练模块406,用于获取样本简介数据;依据样本标记字符对样本简介数据中的关键样本属性信息进行标记;将样本简介数据输入至信息提取模型,通过信息提取模型输出中间结果;依据中间结果和样本标记字符之间的差异调整模型参数,直到满足训练停止条件为止。

上述实体消歧装置,将与对应相同实体名称的多个实体对应的简介数据,输入至信息提取模型中,可以快速准确地从简介数据中提取各个实体对应的关键属性信息。从而在进行相似度计算时,可过滤掉大量的无效数据,仅需根据有效的关键属性信息来计算待比较的两个实体在多个属性维度上的相似度。对于每组待比较的两个实体,将各组待比较的两个实体在多个属性维度上的相似度进行加权求和,可以得到能更全面反映相似度情况的综合相似度。这样,根据综合相似度,就可准确地确定待消歧的实体是否指向同一实体,可以很好地利用非结构化数据来明确实体的正确指向,大大提高了对包括非结构化数据的实体进行消歧的准确率。

关于实体消歧装置的具体限定可以参见上文中对于实体消歧方法的限定,在此不再赘述。上述实体消歧装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端或服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体消歧方法。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述实体消歧方法的步骤。此处实体消歧方法的步骤可以是上述各个实施例的实体消歧方法中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述实体消歧方法的步骤。此处实体消歧方法的步骤可以是上述各个实施例的实体消歧方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1