实体与属性关系的动态抽取方法、服务器及可读存储介质与流程

文档序号:15163949发布日期:2018-08-14 17:12阅读:238来源:国知局

本发明互联网技术领域,尤其涉及实体与属性关系的动态抽取方法、服务器及可读存储介质。



背景技术:

伴随着互联网的迅猛发展及大数据信息时代的来临,在一些特定领域中,例如:电信领域中的技术和业务面临技术升级、业务更新的机遇与挑战,产生了大量的知识和专用术语,成为名副其实的知识高度密信的行业。电信领域中信息量增长,并已形成一个非常庞大而无序的信息资源库,其中非结构化或半结构化的文本数据中携带着丰富的有价值的电信信息。命名实体是文本中承载信息的重要语言单位,是获取有价值信息的必不可少的环节,不同的实体具有不同的属性,同一类实体具有大致相同的属性,只是属性值有所不同。

命名实体识别包括对实体的识别及属性的抽取。通用领域中实体识别是把文本中的实体划为某一语义类型。现有的方法主要有三种方法,即:基于字典、基于统计与基于规则的方法。其中,

基于字典的方法主要是通过字符串匹配找寻词库中命名实体,但是通常没有一个全面的实体库,而且比对费时。

基于规则算法主要在实体识别过程中加入词法规则、语法规则、语义规则,通过规则匹配的方法识别各种类型的命名实体。然而,基于规则方法受限于人工添加规则。

基于统计的方法利用人工标注或原始语料进行训练。而基于统计的方法需要先建立语言模型,然后在训练数据上估算模型参数,这有利于移植到不同的语言及新领域。基于统计的方法主要利用一些统计模型如隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等。属性抽取的任务是为每个实体语义类构造属性表并抽取出属性值。属性抽取的方法主要由模式匹配及基于统计的方法,但是,当前这方面的研究远远少于实体识别。所以,在现有技术中,抽取实体与属性关系的技术仍存在不足和缺陷。



技术实现要素:

本发明的主要目的在于提出一种实体与属性关系的动态抽取方法、服务器与可读存储介质,旨在解决特定技术领域的知识库和语料不健全的问题。

为实现上述目的,本发明提供的一种实体与属性关系的动态抽取方法,所述方法包括步骤:

获取文本数据;

基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体与属性的各项特征。

此外,为实现上述目的,本发明还提出一种服务器,所述服务器包括处理器以及存储器;

所述处理器用于执行存储器中存储的实体与属性关系的动态抽取程序,以实现上述的方法。

此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的方法。

本发明提出的实体与属性关系的动态抽取方法、服务器与可读存储介质,通过获取文本数据,基于动态实体属性关系库和训练模型,从文本数据中动态抽取实体与属性的各项特征,从而构建了动态的实体属性关系库和训练模型,并能够从文本数据中自动地抽取实体与属性的各项特征。

附图说明

图1为本申请第一实施例提供的实体与属性关系的动态抽取方法的流程示意图;

图2为本申请第一实施例提供的实体与属性关系的动态抽取方法的另一流程示意图一;

图3为本申请第一实施例提供的实体与属性关系的动态抽取方法的子流程示意图一;

图4为本申请第一实施例提供的实体与属性关系的动态抽取方法的示例图;

图5为本申请第一实施例提供的实体与属性关系的动态抽取方法的另一流程示意图二;

图6为本申请第一实施例提供的实体与属性关系的动态抽取方法的子流程示意图二;

图7为本申请第二实施例提供的服务器硬件架构的示意图;

图8为图7中实体与属性关系的动态抽取程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。

第一实施例

如图1所示,为本申请第一实施例提供的实体与属性关系的动态抽取方法的流程示意图。在图1中,所述实体与属性关系的动态抽取方法,包括以下步骤:

步骤110,获取文本数据;

步骤120,基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体与属性的各项特征。

具体的,当获取到文本数据时,则基于预先建立的实体属性关系库和实体属性关系训练模型,从该文本数据中动态抽取实体与属性的各项特征,并将其结构化为实体与属性对,得到动态抽取的结果。

在建立了实体属性关系库和训练模型之后,能够识别出文本数据中的实体与属性的关系,动态抽取各项特征,并不断动态扩充训练模型的实体属性关系语料。从而得到更加完善规模的语料作为训练语料,将使通过基于统计机器学习的自动抽取海量文本中的实体与属性的方法的性能更好,从而全面实行自动抽取大量文本中的实体与属性。

可选的,如图2所示,在步骤110之前,所述方法还包括:

步骤210,抓取多个样本数据;

步骤220,根据所述多个样本数据,构建实体属性关系库;

步骤230,按照预设的特征规则,对所述实体属性关系库进行扩充。

具体的,获取大量的样本数据,采用爬虫技术并使用相关领域(例如:电信领域)典型的关键字抓取互联网上与该领域的相关文本数据。研究抓取的样本数据,使用实体属性值模型(entity-attribute-valuemodel,eav)自动构建实体属性种子表,作为实体属性关系的种子库。

利用预设的特征规则,对文本进行分割,使得文本经过分句、分词等预处理后,预留预设的关键字或者关键词,并将预留的关键字或者关键词扩充到实体属性关系库中。以电信领域为例,这些关键字或者关键词可以是“套餐”、“通”、“电话”、“显示”等,当检测到这些关键字或者关键词则扩充至实体属性关系库。

可选的,如图3所示,步骤230具体包括:

步骤310,接收字符串语句;

步骤320,判断所述字符串语句中是否包括实体属性关系库中预设的关键字;若是,则进入步骤330,若否,则不作处理;

步骤330,将所述字符串语句分割成一个或者多个子字符串语句;

步骤340,判断每个子字符串语句与所述实体属性关系库中预设的关键字的匹配度是否达到预设的阈值;若是,则表示原实体属性关系库中存在子字符串语句中的实体,不作处理,若否,则进入步骤350;

步骤350,将所述子字符串语句扩充至所述实体属性关系库。

具体的,检测用户输入字符串语句,并接收该字符串语句,判断字符串语句中包括了预设的关键字或者关键词,则通过正则表达式将字符串语句优化精简为一个或者多个子字符串语句。将子字符串语句与实体属性关系库中的实体进行相似度匹配。相似度匹配的过程为:设置相似度阈值(例如1),若子字符串语句与实体属性关系库中的实体匹配度为1,则说明原实体属性关系库中存在子字符串语句中的实体,不需要进行扩充,相反地,若子字符串语句与实体属性关系库中的实体匹配度没有达到1,则说明原实体属性关系库中没有子字符串语句中的实体,则需要扩充原实体属性关系库。优选的,若存在多个未达到相似度阈值的实体,则取相似度高的实体扩充至实体属性关系库。

示例性地,如图4所示,为扩充实体属性关系库的显示图。在图4中,当接收输入查询内容为“我想了解无线宽带和专线上网的相关消息”时,得到实体1为“无线宽带”,且实体1的相似度结果为0.800000011920929pts,与实体1对应的信息为:业务介绍、接入方式、终端、无线网卡、以及故障分析;得到实体2为“专线上网”,与实体2对应的信息为业务介绍。实体1与实体属性关系库的相似度小于1,则将实体1扩充至实体属性关系库中。

可选的,如图5所示,在步骤110之后,还包括步骤:

步骤510,根据所述实体属性关系库,对所述文本数据进行实体与属性的标注;

步骤520,研究标注的语料,以对实体与属性的特征进行选择。

具体的,对抓取的文本数据通过实体属性关系库使用xml语言对其进行标注,形成特定领域的文本实体属性语料库。对标注的语料进行研究,并根据文本中实体与属性的特点,选择实体与属性的特征,例如,根据上下文特征、词性特征、词表特征等进行选择,从而提取文本中的各项特征。

进一步的,还可以选取实体可能构成的词、句等进行标注和扩充。例如,若关系库中已经存在实体“套餐”,而另一文本数据中存在“a套餐”、“b套餐”等,也可以标注“a套餐”、“b套餐”为实体,并将新标注的实体扩充至实体属性关系库中。

可选的,本申请的实体与属性关系的动态抽取方法还包括:建立实体属性关系训练模型,如图6所示,建立实体属性关系训练模型具体包括以下步骤:

步骤610,抓取多个文本语料;

步骤620,将所述文本语料处理成预设格式的一个或者多个语料文件;

步骤630,训练所述一个或者多个语料文件,生成模型文件;

步骤640,通过所述模型文件中的特征函数集以及预设的算法对所述模型文件进行标注。

具体的,对文本语料进行预加工,生成预设格式的一个或者多个字级的训练语料文件和词级普通训练语料文件,例如,生成规定格式的训练文件、测试文件及用于测评的标准答案文件。

将预处理阶段生成的语料文件生成训练文件,在本实施例中,可以通过crf提供的软件开发工具包(softwaredevelopmentkit,sdk)生成训练文件。借助于模型文件中的特征函数集和参数采用viterbi标注算法得到测试输入数据的全局最优的标注结果。

可选的,建立实体属性关系训练模型的过程还可以包括:

识别标注的模型文件的准确率、召回率和f测度。

具体的,在本实施例中,将标注结果和标准答案进行比较得到识别的准确率、召回率和f测度。

在实际应用中,每次获取到文本数据,则重复上述过程,进而动态建立师徒属性关系库和训练模型,从而使模型在样本有限的情况下学习到新知识,将筛选出的元素加入词表中。随着数据样本的增多,通过对大量数据的学习自动识别电信实体从而扩大命名实体库的规模。通过动态构建的电信实体属性语料,得到比较完善规模的语料作为训练语料,将使通过基于统计机器学习的自动抽取海量文本中的实体与属性的方法的性能更好,从而全面实行自动抽取海量文本中实体与属性。

本实施例提供的实体与属性关系的动态抽取方法,通过获取文本数据,基于动态实体属性关系库和训练模型,从文本数据中动态抽取实体与属性的各项特征,从而构建了动态的实体属性关系库和训练模型,并能够从文本数据中自动地抽取实体与属性的各项特征。

第二实施例

如图7所示,为本申请第二实施例提供一种服务器硬件架构的示意图。在图7中,服务器包括:存储器710、处理器720及存储在所述存储器710上并可在所述处理器720上运行的实体与属性关系的动态抽取程序730。在本实施例中,所述的实体与属性关系的动态抽取程序730包括一系列的存储于存储器710上的计算机程序指令,当该计算机程序指令被处理器720执行时,可以实现本发明各实施例的实体与属性关系的动态抽取操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,实体与属性关系的动态抽取程序730可以被划分为一个或多个模块。如图8所示,实体与属性关系的动态抽取程序730包括:数据获取模块810、动态抽取模块820、关系库构建模块830、扩充模块840、标注模块850、特征选择模块860以及模型构建模块870。其中,

数据获取模块810,用于获取文本数据;

动态抽取模块820,用于基于动态实体属性关系库和训练模型,从所述文本数据中动态抽取实体与属性的各项特征。

具体的,当数据获取模块810获取到文本数据时,则基于预先建立的实体属性关系库和实体属性关系训练模型,动态抽取模块820从该文本数据中动态抽取实体与属性的各项特征,并将其结构化为实体与属性对,得到动态抽取的结果。

在建立了实体属性关系库和训练模型之后,动态抽取模块820能够识别出文本数据中的实体与属性的关系,动态抽取各项特征,并不断动态扩充训练模型的实体属性关系语料。从而得到更加完善规模的语料作为训练语料,将使通过基于统计机器学习的自动抽取海量文本中的实体与属性的方法的性能更好,从而全面实行自动抽取大量文本中的实体与属性。

数据获取模块810,还用于抓取多个样本数据;

关系库构建模块830,用于根据所述多个样本数据,构建实体属性关系库;

扩充模块840,用于按照预设的特征规则,对所述实体属性关系库进行扩充。

具体的,当数据获取模块810获取大量的样本数据时,采用爬虫技术并使用相关领域(例如:电信领域)典型的关键字抓取互联网上与该领域的相关文本数据。研究抓取的样本数据,使用eav自动构建实体属性种子表,作为实体属性关系的种子库。

利用预设的特征规则,对文本进行分割,使得文本经过分句、分词等预处理后,预留预设的关键字或者关键词,并将预留的关键字或者关键词扩充到实体属性关系库中。以电信领域为例,这些关键字或者关键词可以是“套餐”、“通”、“电话”、“显示”等,当检测到这些关键字或者关键词则扩充至实体属性关系库。

可选的,如图3所示,扩充模块840具体用于:

接收字符串语句;

判断所述字符串语句中是否包括实体属性关系库中预设的关键字;若是,则将所述字符串语句分割成一个或者多个子字符串语句;

判断每个子字符串语句与所述实体属性关系库中预设的关键字的匹配度是否达到预设的阈值;若是,则表示原实体属性关系库中存在子字符串语句中的实体,不作处理,若否,则将所述子字符串语句扩充至所述实体属性关系库。

具体的,检测用户输入字符串语句,并接收该字符串语句,判断字符串语句中包括了预设的关键字或者关键词,则通过正则表达式将字符串语句优化精简为一个或者多个子字符串语句。将子字符串语句与实体属性关系库中的实体进行相似度匹配。相似度匹配的过程为:设置相似度阈值(例如1),若子字符串语句与实体属性关系库中的实体匹配度为1,则说明原实体属性关系库中存在子字符串语句中的实体,不需要进行扩充,相反地,若子字符串语句与实体属性关系库中的实体匹配度没有达到1,则说明原实体属性关系库中没有子字符串语句中的实体,则需要扩充原实体属性关系库。优选的,若存在多个未达到相似度阈值的实体,则取相似度高的实体扩充至实体属性关系库。

示例性地,如图4所示,为扩充实体属性关系库的显示图。在图4中,当接收输入查询内容为“我想了解无线宽带和专线上网的相关消息”时,得到实体1为“无线宽带”,且实体1的相似度结果为0.800000011920929pts,与实体1对应的信息为:业务介绍、接入方式、终端、无线网卡、以及故障分析;得到实体2为“专线上网”,与实体2对应的信息为业务介绍。实体1与实体属性关系库的相似度小于1,则将实体1扩充至实体属性关系库中。

标注模块850,用于根据所述实体属性关系库,对所述文本数据进行实体与属性的标注;

特征选择模块860,用于研究标注的语料,以对实体与属性的特征进行选择。

具体的,标注模块850对抓取的文本数据通过实体属性关系库使用xml语言对其进行标注,形成特定领域的文本实体属性语料库。特征选择模块860对标注的语料进行研究,并根据文本中实体与属性的特点,选择实体与属性的特征,例如,根据上下文特征、词性特征、词表特征等进行选择,从而提取文本中的各项特征。

进一步的,还可以选取实体可能构成的词、句等进行标注和扩充。例如,若关系库中已经存在实体“套餐”,而另一文本数据中存在“a套餐”、“b套餐”等,也可以标注“a套餐”、“b套餐”为实体,并将新标注的实体扩充至实体属性关系库中。

模型构建模块870,用于建立实体属性关系训练模型,模型构建模块870包括:预处理单元871、训练单元872、标注单元873以及测评单元874。其中,

预处理单元871,用于将抓取的多个文本语料处理成预设格式的一个或者多个语料文件;

训练单元872,用于训练所述一个或者多个语料文件,生成模型文件;

标注单元873,用于通过所述模型文件中的特征函数集以及预设的算法对所述模型文件进行标注。

测评单元874,用于识别标注的模型文件的准确率、召回率和f测度。

具体的,对文本语料进行预加工,生成预设格式的一个或者多个字级的训练语料文件和词级普通训练语料文件,例如,生成规定格式的训练文件、测试文件及用于测评的标准答案文件。

将预处理阶段生成的语料文件生成训练文件,在本实施例中,可以通过crf提供的sdk生成训练文件。借助于模型文件中的特征函数集和参数采用viterbi标注算法得到测试输入数据的全局最优的标注结果。

在本实施例中,将标注结果和标准答案进行比较得到识别的准确率、召回率和f测度。

在实际应用中,每次获取到文本数据,则重复上述过程,进而动态建立师徒属性关系库和训练模型,从而使模型在样本有限的情况下学习到新知识,将筛选出的元素加入词表中。随着数据样本的增多,通过对大量数据的学习自动识别电信实体从而扩大命名实体库的规模。通过动态构建的电信实体属性语料,得到比较完善规模的语料作为训练语料,将使通过基于统计机器学习的自动抽取海量文本中的实体与属性的方法的性能更好,从而全面实行自动抽取海量文本中实体与属性。

本实施例提供的服务器,通过数据获取模块810获取文本数据,基于动态实体属性关系库和训练模型,动态抽取模块820从文本数据中动态抽取实体与属性的各项特征,从而构建了动态的实体属性关系库和训练模型,并能够从文本数据中自动地抽取实体与属性的各项特征。

第三实施例

本申请实施例还提供了一种计算机可读存储介质。这里的计算机可读存储介质存储有一个或者多个程序。其中,计算机可读存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。当计算机可读存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述第一实施例所提供的实体与属性关系的动态抽取方法。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1