一种知识网络的半自动生成方法

文档序号:6604943阅读:374来源:国知局
专利名称:一种知识网络的半自动生成方法
技术领域
本发明涉及一种面向海量文本数据的知识网络(Knowl edgeNetwork)半自动生成方法,属于文本信息处理技术领域。
背景技术
文本是最基本、最常用的信息载体。随着互联网的日益普及,文本信息迅速膨胀。 例如,在hternet上每天有数十万的网页更新,数百万新的网页加入,使得hternet上的信息丰富而又复杂。另一方面,新的知识不断出现(比如“甲型Hmi流感”),旧的知识不断消失(比如“随身听”),现存知识不断变更涵义(比如“俯卧撑”)。因此,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前文本信息处理领域面临的一大挑战。知识发现的任务就是从海量的文本数据中发现应当被系统收集的知识,然后对收集到的知识进行结构化处理,以便于日后的查询、修改。在实践中,人们发现使用树形结构管理的知识网络,可以有效地将知识组织起来。知识网络的概念最早由瑞典工业界在20世纪90年代中期提出。一般认为,知识网络是在概念网络的基础上添加了权值,从而定量地表示用户对知识节点之间关系的一种结构。其中,知识节点可以在现有的目录搜索引擎中提取,具有独立性、继承性、变异性、多维性等特点。在用户使用知识网络的过程中,可以根据某个知识节点的出现次数、用户的反馈信息来更新知识网络。当用户和系统多次交互后,这个知识网络就逼近于用户对某个词义的真实理解。关于知识网络的进一步介绍,可以参考赵蓉英的著作《知识网络及其应用》 (北京图书馆出版社2007年8月出版,ISBN :9787501335299)。在申请号为200710000966.5的中国发明专利申请中,提出了一种相关信息的发布方法和装置。该方法包括以下步骤收集互联网中符合预置条件的网络文本;计算得到网络文本相应的文本特征参数;比对特征参数,依次完成网络文本的归类;发布相应的相关信息。该方法能够在用户不关心当前浏览文本关键词的情况下,发布最准确的相关信息, 以及能够准确的将相关信息发布至终端用户的虚拟空间,以满足互联网相关信息发布的发展需要。另外,在申请号为200810079685. 8的中国发明专利申请中,提出了一种基于数据挖掘技术的文本多精度表示方法。它利用数据挖掘技术从海量文本中发现重要的文本特征信息,这些特征信息是多层次、多精度的。利用这些特征形成文本的精确表示,计算机基于这种精确的文本表示进行文本检索、聚类和分类等处理,能产生更佳的效果。但是,上述的专利申请只能在一定程度上解决海量文本数据的结构化问题,并不具备直接生成知识网络的能力。目前,人们要想生成知识网络,必须依赖于人脑的智力判断,因此所需时间较长,工作效率较低。特别是在面对海量文本数据的情况下,单纯依赖人力来生成知识网络很难满足用户的实际需求。

发明内容
本发明所要解决的技术问题在于提供一种知识网络的半自动生成方法。利用该方法可以让计算机自动从海量文本数据中发现、抽取、组织知识,从而快速形成知识网络。为实现上述的发明目的,本发明采用下述的技术方案一种知识网络的半自动生成方法,基于文本标引系统实现,所述文本标引系统中包括单文本知识发现与抽取单元、多文本知识关系提取与聚类单元、知识网络生成与修正单元、知识网络应用单元以及知识库存储单元,其特征在于(1)首先形成一个知识网络内核;(2)所述单文本知识发现与抽取单元接收非结构化的文档,通过分词和命名实体识别技术,从非机构化文本数据中找到需要关注的知识点,并抽取出来;(3)在对多篇文档进行知识发现和抽取后,将新的知识放到相应位置上作为候选知识;(4)知识网络生成与修正单元中的知识网络运营平台将候选知识提交给相应的专家系统进行关联性判断,将判断为“是”的候选知识作为确认知识,判断为“否”的候选知识
被舍弃。其中,在所述步骤(1)中,所述知识网络内核从半结构化的互联网数据中抽取获
得或者由人工给出。所述步骤(3)中,采取基于图论的聚类技术确定从文本中抽取的知识点的相互关系,并进一步通过多文本知识关系提取与聚类单元中的知识与TAG间关系数据模块对文本进行类别标记。本发明所提供的知识网络半自动生成方法从一个小的知识网络内核开始,让计算机自动从互联网海量的数据中发现、抽取、组织知识,经专家系统进行确认后,能够迅速而有效地构造一个知识网络结构,从而使生成知识网络的过程摆脱了对人的智力判断的依赖。


下面结合附图和具体实施方式
对本发明作进一步的详细说明。图1为本发明中所使用的文本标引系统的逻辑框架示意图;图2为现有知识体系的一个示例图;图3为知识网络内核的一个示例图;图4为采取基于图论的聚类技术所获得的一个实施例;图5为图4所示的实施例对应的知识网络示意图。
具体实施例方式本发明的实施过程依赖于图1所示的文本标引系统。该文本标引系统中设置了单文本知识发现与抽取单元、多文本知识关系提取与聚类单元、知识网络生成与修正单元、知识网络应用单元以及知识库存储单元等。其中,单文本知识发现与抽取单元利用倒排文档频度的方法,对文本中识别的单词,包括分词结果、命名实体识别结果、新词识别结果,进行计算获得体现文本内容的知识点。多文本知识关系提取与聚类单元用于完成多文本词(即不同知识节点)之间的关系提取以及聚类等工作。该多文本知识关系提取与聚类单元包括针对语义网络(Semanticnetwork)的关系挖掘模块、采用聚类技术的知识间关系数据模块和采用贝叶斯(BAYES)分类模型的知识与TAG间关系数据模块,其中该关系挖掘模块一方面连接单文本知识发现与抽取单元,另一方面分别连接知识间关系数据模块和知识与TAG 间关系数据模块。多文本知识关系提取与聚类单元主要是利用词同现获取每一个单词的同现词集,再通过同现词集的比较来评判两个词的相似性。知识网络生成与修正单元包括知识网络初始化模块、知识网络存储模块、知识网络操作模块和知识网络运营平台。其中,知识网络初始化模块连接知识网络存储模块,该知识网络存储模块与知识网络操作模块进行双向的信息交互。另外,知识网络运营平台也与知识网络操作模块进行双向信息交互。知识网络生成与修正单元利用从互联网上获得的知识体系,例如百度百科、互动百科等,直接转化为机器可读的数据结构,再通过知识网络操作模块对该知识体系进行读取、查询、创建、 修改等操作。知识网络操作模块是知识网络生成与修正单元的核心组成部分,该知识网络操作模块一方面分别与多文本知识关系提取与聚类单元中的知识间关系数据模块和知识与TAG间关系数据模块相连接,另一方面连接前述的知识库存储单元。知识库存储单元同时与单文本知识发现与抽取单元相连接,用于提供分类用知识库。知识网络存储模块根据具体应用的需要,将相关的应用导出至知识网络应用单元。在生成知识网络之前,首先需要进行初始化的工作,即从半结构化的互联网数据抽取或者人工给出从而形成一个小的知识网络内核,例如利用从互联网上获得的知识体系如百度百科、互动百科等(图2所示),经过结构化处理可以得到图3所示的知识网络内核。然后,上述的单文本知识发现与抽取单元接收非结构化的文档,通过分词和命名实体识别技术,从大量的非机构化文本数据找到需要关注的知识点(即与知识网络内核相关联的知识点),并抽取出来。例如下面有一篇介绍猪流感的文章,其中“甲型Hmi流感” 就属于新的知识,其它的知识点也用下划线标示出来。
权利要求
1.一种知识网络的半自动生成方法,基于文本标引系统实现,所述文本标引系统中包括单文本知识发现与抽取单元、多文本知识关系提取与聚类单元、知识网络生成与修正单元、知识网络应用单元以及知识库存储单元,其特征在于(1)首先形成一个知识网络内核;(2)所述单文本知识发现与抽取单元接收非结构化的文档,通过分词和命名实体识别技术,从非机构化文本数据中找到需要关注的知识点,并抽取出来;(3)在对多篇文档进行知识发现和抽取后,将新的知识放到相应位置上作为候选知识;(4)知识网络生成与修正单元中的知识网络运营平台将候选知识提交给相应的专家系统进行关联性判断,将判断为“是”的候选知识作为确认知识,判断为“否”的候选知识被舍弃。
2.如权利要求1所述的知识网络的半自动生成方法,其特征在于所述步骤(1)中,所述知识网络内核从半结构化的互联网数据中抽取获得。
3.如权利要求1所述的知识网络的半自动生成方法,其特征在于 所述步骤(1)中,所述知识网络内核由人工给出。
4.如权利要求1所述的知识网络的半自动生成方法,其特征在于所述步骤(3)中,采取基于图论的聚类技术确定从文本中抽取的知识点的相互关系。
5.如权利要求4所述的知识网络的半自动生成方法,其特征在于所述步骤(3)中,进一步通过多文本知识关系提取与聚类单元中的知识与TAG间关系数据模块对文本进行类别标记。
全文摘要
本发明公开了一种知识网络的半自动生成方法,包括如下步骤(1)首先形成一个知识网络内核;(2)由单文本知识发现与抽取单元接收非结构化的文档,通过分词和命名实体识别技术,从非机构化文本数据中找到需要关注的知识点,并抽取出来;(3)在对多篇文档进行知识发现和抽取后,将新的知识放到相应位置上作为候选知识;(4)由知识网络运营平台将候选知识提交给相应的专家系统进行关联性判断,将判断为“是”的候选知识作为确认知识,判断为“否”的候选知识被舍弃。本知识网络半自动生成方法从一个小的知识网络内核开始,让计算机自动从互联网海量的数据中发现、抽取、组织知识,经专家系统进行确认后,能够迅速而有效地构造一个知识网络结构。
文档编号G06F17/30GK102207946SQ20101021226
公开日2011年10月5日 申请日期2010年6月29日 优先权日2010年6月29日
发明者张伟伟, 张旭成, 杜嘉伟, 陶鹏 申请人:天津海量信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1