实体集合扩展方法

文档序号：8472996阅读：315来源：国知局

实体集合扩展方法
【技术领域】
[0001] 本发明涉及信息抽取技术，尤其涉及一种实体集合扩展方法。
【背景技术】
[0002] 文本信息抽取（TextInformationExtraction)指的是从自然语言文本中抽取指定类型的实体（Entity)、关系（Relation)、事件（Event)等事实信息，并形成结构化数据输出的文本处理技术。例如从有线新闻和广播电视的文本中抽取恐怖事件相关情况：时间、地点、作案者、受害者、袭击目标等信息。
[0003] 传统信息抽取任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取，这大大制约了文本信息抽取技术的发展和应用，例如问答系统所需要的信息抽取技术远远超越我们通常研宄的人名、地名、机构名、时间、日期等有限实体类别；上下位、部分整体、地理位置等有限关系类别；毁坏、创造、所有权转移等有限事件类别，甚至所需要的类别是未知的、不断变化的。这种应用需求为信息抽取技术的研宄提出了新的挑战。另一方面，从信息抽取的技术手段来讲，由于网络文本具有不规范性、开放性以及海量性的特点，使得传统的依赖于训练语料的统计机器学习方法遇到严重挑战。
[0004] 为了适应互联网实际应用的需求，越来越多的研宄者开始研宄开放式信息抽取技术，目标是从海量、冗余、异构、不规范、含有大量噪声的网页中大规模地抽取开放类别的实体、关系、事件等多层次语义单元信息，并形成结构化数据格式输出。开放式实体抽取的任务是在给出特定语义类的若干实体（又称为"种子"）的情况下，找出该语义类包含的其他实体，其中特定语义类的标签可能显式给出，也可能隐式给出。在互联网应用领域，开放式实体抽取技术对于知识库构建、网络内容管理、语义搜索、推荐系统、问答系统等都具有重要应用价值。
[0005] 开放式实体信息抽取又称为实体集合扩展（EntitySetExpansion)，目标是根据用户输入的种子词从网络中抽取同类型的实体扩展至实体集合中，在这一过程中需要自动判别用户输入种子词的类别信息，或者根据用户输入的类别进行类别词扩展。具体难点如下：1)初始信息少，实体抽取通常采用半监督或无监督的方法，己知信息一般有以下三种：种子实体、语义类别标签以及预先定义的信息。其中给出的种子通常少于5个，语义类别标签有时会给出有时不会给出，而预先定义的信息通常是若干模板，可以利用的己知信息非常少；2)语义类别难以确定，在没有给定语义类别标签的情况下，种子实体可能会同时属于多个语义类，使得目标语义类别的确定非常困难。比如给出"中国、美国、俄罗斯"三个种子实体，这三个种子实体都可归为"国家"类别，但同时又都可归为"联合国安理会常任理事会成员"类别，或者归为"有核武器的国家"类别。
[0006] 现有的实体集合扩展方法是：根据与种子节点在网页中的共现频率进行扩展，也就是同类实体在网络上具有相似的网页结构或者相似的上下文特征，抽取过程就是首先找到这样的网页或者文本，然后从中抽取未知的同类型实体，或者根据已有的种子节点信息，通过训练语料的统计机器学习方法，估计候选实体与种子相似的概率，完成实体集合扩展。例如在某网页中，"奥迪"、"宝马"、"保时捷"等具有相同的网页结构，如果己知"奥迪"、"宝马"、"保时捷"为汽车品牌名，那么该网页中其他具有相同上下文特征的字符串也很可能是汽车品牌类型实体。
[0007] 现有的实体集合扩展方法都是基于网页来获取候选实体的概率分布信息或者统计信息，都是一种模糊的扩展，不能保证扩展结果的准确性，且由于网页信息的海量、冗余、异构、不规范、含有大量噪声等因素，使得扩展过程时间消耗很大，效率较低。

【发明内容】

[0008] 本发明提供一种实体集合扩展方法，其目的在于解决现有基于网页的实体集合扩展方法的扩展结果不准确，扩展过程时间消耗较大，效率较低的问题。
[0009] 本发明实施例提供的实体集合扩展方法包括：
[0010] 获取用户输入的种子实体集合，所述种子实体集合中包含的种子实体的数量为至少两个；
[0011] 根据上述种子实体集合中每个种子实体的实体名，在RDF知识库中确定所述每个种子实体对应的属性信息，所述属性信息中包括至少一个属性特征，所述RDF知识库中存储有预先建立的每个实体的实体名和属性信息的关联关系；
[0012] 根据上述每个种子实体对应的属性信息，确定所述种子实体集合对应的相同属性特征，所述相同属性特征包括至少两个种子实体所具有的相同的属性特征；
[0013] 确定上述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合，将所述扩展实体集合中包括的实体添加到所述种子实体集合中，得到扩展后的实体集合；
[0014] 将所述扩展后的实体集合发送给用户终端设备。
[0015] 基于上述，本发明提供的实体集合扩展方法通过以种子实体为关键字，在RDF知识库中查询种子实体的相同属性特征，并且根据相同属性特征信息在RDF知识库中查询候选实体，由候选实体构成扩展实体集合进行实体集合扩展。由于RDF知识库使用的是结构化的XML数据，在进行实体集合扩展时，可以挖掘出了种子实体之间的语义信息，使得扩展结果变得更为智能和准确，而且结构化的数据更易于处理，保证了实体集合扩展的效率。
【附图说明】
[0016] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0017] 图1为本发明实施例提供的一实体集合扩展方法的流程示意图；
[0018] 图2为本发明实施例提供的另一实体集合扩展方法的流程示意图；
[0019] 图3为本发明实施例提供的再一实体集合扩展方法的流程示意图；
[0020] 图4为本发明实施例提供的再一实体集合扩展方法的流程示意图。
【具体实施方式】
[0021] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0022] 本发明实施例的技术方案具体可以应用于命名实体特征获取、推荐系统、QA系统以及知识库构建等方面。该方法可以通过实体集合扩展装置来实现，该实体集合扩展装置可以集成在网络设备中，也可以单独设置，该实体集合扩展装置可以通过软件和/或硬件的方式来实现。网络设备具体可以是服务器，或可以进行Internet访问的计算机等。
[0023]在发明实施例中，用于实体集合扩展的数据来源为资源描述框架（Resource DescriptionFramework，简称RDF)类型的网络知识库。例如，互联网中的freebase、yago 和dbpedia等具有较高数据质量的知识库（KnowledgeBase，简称KB)。RDF是一种用于描述Web资源的标记语言。RDF是一个处理元数据的可扩展标记语言（ExtensibleMarkup Language，简称XML)应用，XML是标准通用标记语言的子集，XML可以对文档和数据进行结构

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈跃国;杜小勇;张香玲;陈峻;刘德海;
技术所有人：中国人民大学;
我是此专利的发明人

上一篇：基于开源数据识别住区车位匹配社会停车需求的方法
上一篇：实时数据存储与查询方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。