实体集合扩展方法

文档序号:8472996阅读:315来源:国知局
实体集合扩展方法
【技术领域】
[0001] 本发明涉及信息抽取技术,尤其涉及一种实体集合扩展方法。
【背景技术】
[0002] 文本信息抽取(TextInformationExtraction)指的是从自然语言文本中抽取指 定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输 出的文本处理技术。例如从有线新闻和广播电视的文本中抽取恐怖事件相关情况:时间、地 点、作案者、受害者、袭击目标等信息。
[0003] 传统信息抽取任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取, 这大大制约了文本信息抽取技术的发展和应用,例如问答系统所需要的信息抽取技术远远 超越我们通常研宄的人名、地名、机构名、时间、日期等有限实体类别;上下位、部分整体、地 理位置等有限关系类别;毁坏、创造、所有权转移等有限事件类别,甚至所需要的类别是未 知的、不断变化的。这种应用需求为信息抽取技术的研宄提出了新的挑战。另一方面,从信 息抽取的技术手段来讲,由于网络文本具有不规范性、开放性以及海量性的特点,使得传统 的依赖于训练语料的统计机器学习方法遇到严重挑战。
[0004] 为了适应互联网实际应用的需求,越来越多的研宄者开始研宄开放式信息抽取技 术,目标是从海量、冗余、异构、不规范、含有大量噪声的网页中大规模地抽取开放类别的实 体、关系、事件等多层次语义单元信息,并形成结构化数据格式输出。开放式实体抽取的任 务是在给出特定语义类的若干实体(又称为"种子")的情况下,找出该语义类包含的其他 实体,其中特定语义类的标签可能显式给出,也可能隐式给出。在互联网应用领域,开放式 实体抽取技术对于知识库构建、网络内容管理、语义搜索、推荐系统、问答系统等都具有重 要应用价值。
[0005] 开放式实体信息抽取又称为实体集合扩展(EntitySetExpansion),目标是根据 用户输入的种子词从网络中抽取同类型的实体扩展至实体集合中,在这一过程中需要自动 判别用户输入种子词的类别信息,或者根据用户输入的类别进行类别词扩展。具体难点如 下:1)初始信息少,实体抽取通常采用半监督或无监督的方法,己知信息一般有以下三种: 种子实体、语义类别标签以及预先定义的信息。其中给出的种子通常少于5个,语义类别标 签有时会给出有时不会给出,而预先定义的信息通常是若干模板,可以利用的己知信息非 常少;2)语义类别难以确定,在没有给定语义类别标签的情况下,种子实体可能会同时属 于多个语义类,使得目标语义类别的确定非常困难。比如给出"中国、美国、俄罗斯"三个种 子实体,这三个种子实体都可归为"国家"类别,但同时又都可归为"联合国安理会常任理事 会成员"类别,或者归为"有核武器的国家"类别。
[0006] 现有的实体集合扩展方法是:根据与种子节点在网页中的共现频率进行扩展,也 就是同类实体在网络上具有相似的网页结构或者相似的上下文特征,抽取过程就是首先找 到这样的网页或者文本,然后从中抽取未知的同类型实体,或者根据已有的种子节点信息, 通过训练语料的统计机器学习方法,估计候选实体与种子相似的概率,完成实体集合扩展。 例如在某网页中,"奥迪"、"宝马"、"保时捷"等具有相同的网页结构,如果己知"奥迪"、"宝 马"、"保时捷"为汽车品牌名,那么该网页中其他具有相同上下文特征的字符串也很可能是 汽车品牌类型实体。
[0007] 现有的实体集合扩展方法都是基于网页来获取候选实体的概率分布信息或者统 计信息,都是一种模糊的扩展,不能保证扩展结果的准确性,且由于网页信息的海量、冗余、 异构、不规范、含有大量噪声等因素,使得扩展过程时间消耗很大,效率较低。

【发明内容】

[0008] 本发明提供一种实体集合扩展方法,其目的在于解决现有基于网页的实体集合扩 展方法的扩展结果不准确,扩展过程时间消耗较大,效率较低的问题。
[0009] 本发明实施例提供的实体集合扩展方法包括:
[0010] 获取用户输入的种子实体集合,所述种子实体集合中包含的种子实体的数量为至 少两个;
[0011] 根据上述种子实体集合中每个种子实体的实体名,在RDF知识库中确定所述每个 种子实体对应的属性信息,所述属性信息中包括至少一个属性特征,所述RDF知识库中存 储有预先建立的每个实体的实体名和属性信息的关联关系;
[0012] 根据上述每个种子实体对应的属性信息,确定所述种子实体集合对应的相同属性 特征,所述相同属性特征包括至少两个种子实体所具有的相同的属性特征;
[0013] 确定上述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合,将 所述扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展后的实体集合;
[0014] 将所述扩展后的实体集合发送给用户终端设备。
[0015] 基于上述,本发明提供的实体集合扩展方法通过以种子实体为关键字,在RDF知 识库中查询种子实体的相同属性特征,并且根据相同属性特征信息在RDF知识库中查询候 选实体,由候选实体构成扩展实体集合进行实体集合扩展。由于RDF知识库使用的是结构 化的XML数据,在进行实体集合扩展时,可以挖掘出了种子实体之间的语义信息,使得扩展 结果变得更为智能和准确,而且结构化的数据更易于处理,保证了实体集合扩展的效率。
【附图说明】
[0016] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。
[0017] 图1为本发明实施例提供的一实体集合扩展方法的流程示意图;
[0018] 图2为本发明实施例提供的另一实体集合扩展方法的流程示意图;
[0019] 图3为本发明实施例提供的再一实体集合扩展方法的流程示意图;
[0020] 图4为本发明实施例提供的再一实体集合扩展方法的流程示意图。
【具体实施方式】
[0021] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0022] 本发明实施例的技术方案具体可以应用于命名实体特征获取、推荐系统、QA系统 以及知识库构建等方面。该方法可以通过实体集合扩展装置来实现,该实体集合扩展装置 可以集成在网络设备中,也可以单独设置,该实体集合扩展装置可以通过软件和/或硬件 的方式来实现。网络设备具体可以是服务器,或可以进行Internet访问的计算机等。
[0023]在发明实施例中,用于实体集合扩展的数据来源为资源描述框架(Resource DescriptionFramework,简称RDF)类型的网络知识库。例如,互联网中的freebase、yago 和dbpedia等具有较高数据质量的知识库(KnowledgeBase,简称KB)。RDF是一种用于描 述Web资源的标记语言。RDF是一个处理元数据的可扩展标记语言(ExtensibleMarkup Language,简称XML)应用,XML是标准通用标记语言的子集,XML可以对文档和数据进行结 构
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1