互联网海量数据中命名实体间关系提取方法及其系统的制作方法

文档序号:9217305阅读:270来源:国知局
互联网海量数据中命名实体间关系提取方法及其系统的制作方法
【技术领域】
[0001] 本发明涉及一种互联网海量数据中命名实体间的关系提取技术,特别涉及一种互 联网海量数据中命名实体间关系提取方法及其系统,本发明是一种适应于海量数据的基于 频繁词和加权熵的关系提取方法和系统,同时为了适应互联网巨大的数据量和保持灵活的 扩展性,并且结合了Hadoop分布式技术。
【背景技术】
[0002] 目前,互联网技术高速发展,堆积在互联网中的数据呈爆炸性的指数型增长,21世 纪初以来,因为网络硬件设施的快速发展以及存储介质愈来愈廉价,互联网中数据的存储 量更是达到了前所未有的巨大,世界中几乎每一个人都为其源源不断的贡献着数据资源。 在这种背景下,技术、商业、管理以及金融等领域都在悄然的发生着巨大的变化,人们的思 潮也开始了新一轮的变革,正在迎接着"大数据"时代的来临,正在体验和适应着"大数据" 时代带给生活方式乃至思考方式的大变革。
[0003] 然而,数据量的巨大是静态的,如果没有科学的方法和技术去"挖掘"其中所蕴含 的知识,将忽略这笔巨大的资源。本发明所探讨的命名实体关系提取方法,就是面向互联网 这些大量的结构化、半结构化甚至无结构的文本,构建一个迭代的分布式提取框架去完成 对这些静态数据资源的自动解析和知识发现,用以实现互联网下命名实体关系的提取,构 建实体关系网络。
[0004] 基于互联网的命名实体关系提取(Web-basedEntityRelationExtraction)在 当前互联网技术高速发展的今天已经逐渐成为了一个极具潜力的研宄方向,从一个巨大的 语料库中探寻蕴含在不同命名实体之间的关系是一项具有挑战性并且很有意义的研宄,其 在自然语言处理(NaturalLanguageProcessing)的众多领域均有着广泛的应用,例如信 息检索(InformationRetrieval)、问答系统(QuestionAnswering)、语义搜索(Semantic Search)和文本挖掘(TextualMining)等。命名实体的排歧作为对于命名实体中同名实体 间歧义的消除,是使关系提取更为准确从而面向语义层面的重要一步,使关系的提取对于 之前更多的从字面层面出发进化到对实体本身所代表意义的关注,从而使得实体之间的关 系更加牢固和可信。
[0005] 考虑到频繁的词语更能代表一个文档的关键字,在基于频繁词的n元组方法中可 以获得一个关系类别中常出现的词语,过滤掉那些没意义且关系无关的词语,提高关系查 找能力。考虑了类别对词语权重影响的加权熵方法就是这样一种获得常用类别词语的方 法,这个方法改进了频繁词不能完全代表文档主题的问题,进一步提高了关系提取中的准 确率。
[0006] 分布式计算理论和技术的飞速发展推动了大量的对海量数据研宄的进展,这些理 论和技术中最具有划时代意义的便是MapReduce计算模型和Hadoop框架,利用它们,可以 构建出灵活的高可扩展的分布式计算框架,本发明正是借助MapReduce计算模型和Hadoop 框架构建出了一个能够稳定运行的分布式实体关系提取框架。
[0007] 对海量互联网文本的获取可以利用当前成熟的爬虫技术,互联网爬虫通过对由网 站内的链接组成的网络进行广泛遍历,连续的获得大量所需的信息,利用当前成熟的网络 爬虫理论可以构建出高效的网络爬虫。
[0008] 中文文本处理技术的发展为本研宄的开展奠定了坚实的基础,例如中文分词和词 性标注在目前学术界和工业界均有较为成熟的解决方案,对于这些理论和技术的掌握与应 用是本发明顺利开展的基础。

【发明内容】

[0009] 本发明的首要目的在于克服现有技术的缺点与不足,提供了一种互联网海量数据 中命名实体间关系提取方法,该方法通过使用一种基于频繁词和加权熵的关系提取方法, 并面向多对多的多元关系,提高了提取实体关系对的召回率,改进了频繁词不能完全代表 类别主题的问题,提高了关系提取中的准确率。
[0010] 本发明的另一目的在于克服现有技术的缺点与不足,提供一种互联网海量数据中 命名实体间关系提取方法的系统,该系统为了使得命名实体间关系的查找能够持续运行于 当今互联网海量数据中,使得关系查找系统更加方便扩展和具有较高的运行效率,本系统 利用了开源的Hadoop分布式框架和MapReduce计算模型。
[0011] 本发明的首要目的通过下述技术方案实现:互联网海量数据中命名实体间关系提 取方法,包括以下步骤:
[0012] 网络信息爬取和语料库构建,从百科网站上爬取命名实体以及关于实体的文本解 释,百科类网站上包含大量无结构和半结构化的实体细节描述信息,同时,互联网中依然存 在大量结构化的实体数据,称之为"种子"数据,即从结构化互联网文档中提取的关系明确 的实体对,这部分信息将作为训练数据指导更大量的实体关系标注;
[0013] 文本预处理,将爬取到的文本进行分词、词性标注和去除停顿词处理;
[0014] 提取多对多候选关系对,现实中的关系不是仅仅存在一对一的关系,例如一本书 完全有可能有多个作者,一个导演完全有可能拍摄过多部影片,实体关系应当是可以组成 网络的多元关系,本发明在提取候选对的时候不再局限于二元关系;
[0015] 提取代表短文档特征的关键词,利用频繁词提取方法和改进于其的加权熵方法可 以获得短文本中表示文本意义的关键词;
[0016] 获得代表实体关系的"实体-关系模式",利用由结构化数据获取的"种子"数据和 提取的短文本中的关键词组成一个表达实体关系的"实体-关系模式",所谓"实体-关系 模式"就是包含这一对"种子"的短文本,例如在" #大张伟#_p在春节晚会上唱了《#倍儿 爽#_3》这首歌"这段短文本中#'之间是命名实体和它的ID,之后是命名实体的属 性),包含了 一个人物和一首歌曲,可以获得"P在春节晚会上唱了S这首歌"这样一段"实 体-关系模式",并且由于"大张伟-倍儿爽"这个"实体关系对"的类别为"演唱者",所以 这段模式被划分为"演唱者"关系的模式,这其中每一个模式被当作一个向量,向量中每一 个经过中文分词等预处理后的词语都被赋予了权重,在系统中使用词频(Term-Frequency) 作为每一个词语的权重,模式中的包含类别信息,例如人物(P)、电影电视剧(M)、音乐(S) 以及书籍⑶等。
[0017] 关系标注,即获取"实体关系对",利用这些模式在大量的无结构文本中去寻找新 的"实体关系对",例如以上"实体-关系模式",当包含有人物和歌曲的短文本出现,并且它 们的文本和这条关系模式足够"相似"的话,那么可以认为这里的人物是这首歌曲的演唱 者,这里的"相似"是利用之前文本预处理后为每一个词语赋予的权重作为度量然后计算相 似度相互比较得出的。
[0018] 实体关系对评估,对已经产生的"实体-关系模式"以及候选"实体关系对"的评 价和筛选是本发明中极其重要的一环,认为有价值的"实体-关系模式"才能产生有价值的 "实体关系对",且有价值的"实体关系对"才能够作为"种子"继续服务于下一轮命名实体关 系的查找与提取。
[0019] 所述的网络信息爬取和语料库构建为:
[0020] 当前工业界存在有大量优秀的爬虫框架,Scrapy是一个用Python语言编写的开 源爬虫框架,用来抓取网站并从中提取数据,从数据挖掘到监控和自动化测试的领域都有 广泛的应用。它实现了一个爬虫的大部分模块,并且把大部分爬虫操作模块化,从而对外提 供各种接口,可以灵活地实现想要的功能,正是借助了Scrapy框架来完成对语料库知识的 构建。
[0021] 因为的任务需要大量的包含命名实体数据且存在较多说明性内容的文本,然后可 以利用的方法去挖掘文本中这些命名实体之间的关系,所以一般百科类的站点比较适合去 使用,百度百科是中文信息知识库较为全面的公共站点,它其中包含着大量的命名实体词 条,选择它作为大量无结构文本内容的来源,这一部分也是机器学习算法主要的处理部分。
[0022] 同时,需要一些关系明确的训练数据,即明确了实体之间关系的数据,在本文中称 之为"种子"数据,使用这些由"种子"组成的训练数据去学习的命名实体关系提取模型。为 了获得这些"种子"数据组成的先验知识,还应当去抓取一些存在着结构化数据的站点,这 一部分站点主要是一些资讯网站,例如存在大量音乐、电影和书籍信息和数据的豆瓣网、存 在大量电影电视剧资讯以及明星关系信息的时光网,以及众多的电子商务网站,它们之中 存在大量的出售的书籍的信息,例如京东书店。在以上站点中,成功获取了大量关系明确的 训练数据。
[0023] 所述的提取代表短文档特征的关键词为:
[0024] 在很多"实体_关系模式"中,有一些词语并不能够很好的表现一个关系类别,不 属于能够代表特定关系的特征词,比如春节晚会是一个专用词语,它的出现不能够代表所 在的模式是能够产生"演唱者"关系类别的,因为春节晚会不仅有唱歌,还有舞蹈、小品等 等,所以这部分词语在"演唱者"的关系模式中认为属于不重要的那一部分,甚至可能产生 干扰,在有些经过预处理过的包含多个实体的短文本中,比如"#乔羽_P#所著作的《#难忘 今宵_s#》是春节晚会的结束曲",从它之中可以提取的"实体-关系模式"为"〈{},P,{:著 作^},5, {春节晚会_112,结束曲_n},()>",在这两段模式中,相同的词语只包含了 "春节 晚会",那么这个词语对这二者之间相似度的贡献最大,但是它不能代表第二段模式也会被 标记为"演唱者"(乔羽是该歌曲的作词人),这样的词语对关系的查找产生了干扰。
[0025] 所以一个改进的地方是去除这些不能代表关系特征的词语,然后将剩余的词语组 成新的"实体_关系模式",且认为在一种关系类别中频繁出现的词语才可以代表这类关系 的特征,但是频繁词在某些条件下也存在问题,例如"〈{著名_a,歌唱家_n},P,{演唱_v}, S,{},(演唱者)>",虽然"歌唱家"和"演唱"对于歌曲与歌手的"演唱者"关系具有明显 的代表作用,但是"著名"这个词语在很多关系类别中均会频繁出现,例如歌曲与作词人的 "作词者"关系,很多作词人也十分著名
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1