基于信息抽取技术的搜索引擎的制作方法

文档序号：6575129阅读：171来源：国知局

专利名称：基于信息抽取技术的搜索引擎的制作方法
技术领域：
本发明涉及信息抽取(Information Extraction)和搜索引擎(SearchEngine)技术，主要是一种将面向特定领域的信息抽取技术应用到现有搜索引擎的技术实现。
背景技术：
信息抽取技术是按照一定规则，利用计算机对自由、半自由文本中的有效信息进行提取，并加以组织，展现给用户的技术。特定领域的信息抽取以领域相关知识作为指导，利用人工标记的、规则的样本集进行训练，使信息抽取机制中的规则的抽象层次和覆盖面达到最合理的程度，然后再对样本集外的文本进行信息提取。该技术一直以来是计算机人工智能研究领域的核心问题，也是一个难点。
搜索引擎技术是利用关键字组合，在网络上查找相关信息，并按照他们与关键字的匹配程度进行排序，然后返回给用户查看的技术。特定领域的搜索引擎能够做到关键字的精确匹配，并且由于有领域知识的指导，搜索的结果更加合理、贴切。
随着Internet的快速发展，网络上的信息呈现爆炸式的增长。纷繁的网络信息使搜索引擎的应用得到了空前的提高。近几年来，全球的Internet服务商提供了各种各样的搜索引擎。这些搜索引擎很好地解决了信息搜索的途径和方法，在人们对信息的获取过程中起到了很重要的作用。但是目前搜索引擎给出的信息还需要人为的挑选，而且因为其返回信息的不精确性，这项挑选工作也是很重的。

发明内容
本发明所要解决的技术问题是提供一种信息抽取与搜索引擎的结合，利用信息抽取技术对搜索引擎返回的相关信息页面进行信息获取，并用结构化的方式对抽取的信息进行表现，使用户对于自己想要查找的信息更加一目了然，这种信息抽取与搜索引擎的结合，我们称之为一种基于信息抽取技术的搜索引擎。
本发明解决其技术问题所采用的技术方案。这种基于信息抽取技术的搜索引擎，利用机器学习的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。也就是说，利用机器学习和模式识别的方法，将经过人工标注的训练集文本的结构信息、字段信息，体现到机器学习后的规则中去。通过训练和学习，不断调整机器的规则数目和抽象程度，使其满足一定的精度要求，然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面，利用规则进行信息提取。信息提取用有限状态机的方式实现，将经过词法分析、语法分析、语义分析、结构分析等的文本，按照有限状态机中的状态进行推导，使之满足某种最终状态，从而根据不同的状态，获取文本中的不同类型信息。
本发明解决其技术问题所采用的技术方案还可以进一步完善。含有同类信息且布局基本一致的HTML页面样本集是指在该引擎训练阶段由用户事先指定规则的HTML页面集合，提供给引擎的学习机进行学习，从而获取对该领域页面的信息抽取规则。所述的特定领域搜索引擎是指在系统的试开发实现阶段，搜索引擎仅仅面向某一个特定的领域，从而提高搜索的准确性和精度。搜索引擎获取的信息页面交由训练得出的信息抽取规则处理；信息抽取规则对页面进行有效抽取；对于不能进行相关信息抽取的页面，认为其不合法；对于抽取得到的有效信息，结构化地展现给用户。对样本页面进行学习分下面几个阶段a)结构分析；b)词法分析；c)语法解析；d)语义解释；e)框架构建；f)协商决议。机器学习的样本是人为标注的规则页面；样本集是一个规则的HTML页面集合，它们有统一的格式，含有同种类型的信息；人为标注的任务是对HTML的半自由文本标注出关键字，和相应的结构信息。信息抽取规则以解析图和语义关系等形式给出，信息抽取的结果以量化的关键字段值的形式给出。信息抽取是一个机器学习的过程。本发明中涉及的机器学习方法是利用人工标注的规则样本集来进行训练。可以建立领域知识库，作为训练的指导，从而省去了为训练集样本进行人工标注的步骤。利用领域知识库的指导，带来的另一个好处是，系统的整个处理机制与领域知识库耦合松散，当用户需要面向另一个领域进行同样的工作时，只要将领域知识库作一次更换，而不必改动其他的任何处理过程。
本发明有益的效果是基于信息抽取技术的搜索引擎，实际上是将信息抽取技术与搜索引擎技术有机地结合在一起，同时利用了有效的信息获取和信息处理手段。对于当前信息膨胀，但网上信息又非常凌乱的现状，此搜索引擎是一个非常有效、准确的信息获取工具，它能够较大范围地提高人们的工作效率。

图1是本发明的基于统计方法的模式识别系统图；图2是本发明的语法依赖关系图；图3是本发明的信息处理过程示意图；图4是本发明的有限状态机示意图；图5是本发明的有限状态机中文示意图；具体实施方式
下面结合特定的科研领域(Call Paper页面信息获取)对本发明作详细描述。这种基于信息抽取技术的搜索引擎系统第一步机器学习机器学习过程根据不同的信息提取目的和不同的领域，准备相应的学习训练样本，人工对样本进行标注。将准备好的样本交由学习机器进行学习，调整学习机器的规则集，使其满足一定的要求。一、训练样本1、页面获取训练样本同信息源一样，也是一些Web页面，因此我们从Internet上获取训练样本，即在网上找规则的Call Paper页面，加以利用。
A)、利用现有的搜索引擎，搜索出现Call Paper字段的页面；只要含有Call Paper字段的页面，都会被搜索引擎返回。
B)、去除出现Call Paper但不含相关信息的页面；对于返回的页面，会出现含有Call Paper字段，但没有任何Call Paper信息的情况，首先将这些页面删除。
C)、去除布局风格不一致的页面；为了使训练集样本适合机器学习，要将布局不一致的页面删除，以免影响学习过程中机器的规则集确定。2、页面预处理对于含有Call Paper信息的页面，进行进一步处理，使之成为只有同一格式的自由文本。
A)、删除机器学习尚不能处理的图片信息；B)、删除页面中的广告信息；C)、去除页面中含有的链接信息；D)、最后，去除页面中含有的HTML标签信息，使页面成为仅含有Call Paper信息的自由文本。3、人工标注对于经过以上处理的自由文本，通过人工的方式，将关键字段信息标注出来。
面向科研领域的Call Paper页面，我们需要标注的是会议名称、会议主题、会议时间、会议主办单位、论文截稿日期、论文要求等。
人工标注的过程其实也可以看成是一个领域知识库的建立过程。二、机器学习准备了充分的学习样本之后，就开始利用这些样本训练规则集。我们利用模式识别的知识，对样本集进行处理。
基于统计方法的模式识别系统主要有四个部分组成数据获取，预处理，特征提取和选择，分类决策。(如图1所示)1、结构分析根据页面的分段线索将文档划分成各个部分之后，利用最大熵分类器来划分句子的边界。2、词法分析查找领域相关的术语表，对句子中每一个将在后继的语法解析和语义解释过程中用到的单词都赋以语法和语义特性。对于Call Paper信息来说，领域相关的术语表信息不会很多。3、语法解析通过文本中的单词到单词之间的弧线关系，建立一个依赖关系图。利用依赖关系图说明句子中各个词之间的语法关系。(如图2所示)4、语义解释应用覆盖算法，从人工标注的训练集中学习一组语义规则，每条语义规则都对解析依赖图中的节点进行处理，测试他们的语法和语义特性。
下面是一个规则学习器的基本结构<pre listing-type="program-listing">RULE_LEARNER(训练集)Do until所有训练集被覆盖{从训练集中选择一个种子规则＝GENERATE_RULE(种子，训练集)保存规则在训练集中标记该实例已被规则覆盖}}GENERATE_RULE(种子，训练集)规则＝种子的最通用规则用规则初始化主干集合用训练集测试规则If规则在错误容许范围内{Return规则}else{Do until主干集合空or规则被发现{ 主干集合＝主干集合的所有规则中的k个最好的特殊化规则规则＝主干集合中的最好规则用训练集测试规则 If规则在错误容许范围内{ Return规则 }}<dp n="d5"/> } }</pre>在训练集中应用上述四个步骤，系统将最终得到进行信息提取的众多规则。
上述第一步机器学习，与下面所述的其他步骤可以看成是不同阶段的。机器学习是一个预备阶段，为了信息查询做好处理的准备。从下面的页面获取阶段开始，进入真正的信息获取阶段。信息从网络Web页面的获取、相关处理，然后到利用规则进行抽取，到最后的结构化地表现给用户，对用户来说，是一个完整的信息获取的过程。
第二步页面获取用户输入想要查询的关键字，页面获取部分负责根据这个关键字从网络上查找相关的页面返回，交给后继步骤进行精化处理。
由于现有的搜索引擎(例如Google)已经达到高速的效果，我们利用现有的搜索引擎，在此基础上建立一个元搜索引擎(Meta SearchEngine)。
一、发送请求1、关键字组合基于信息抽取技术的搜索引擎是面向特定领域的，用户在进行搜索时，不必指定领域内容，而只要指定关心的特定内容。如面向科研的Call Paper搜索，用户不用指定Call Paper为搜索关键字，只要将CallPaper主题词，如Machine Learning作为搜索关键字。
将用户输入的搜索关键字，与特定领域的关键字相结合，从而形成新的搜索关键词组，以便交给通用的、后台支持的搜索引擎。
2、发送请求经过关键词组合之后，将新的关键词提交给通用的搜索引擎(使用Google作为后台支持)。
解析Google服务器的HTTP-POST请求，发现在Google网址(http//www.google.com/)之后扩展search？hl＝zh-CN&q＝(查询关键词)&lr＝，对应了基于该关键词的查询请求HTTP-POST。
二、取得页面
1、查询结果页面对搜索引擎服务器发出HTTP-POST请求之后，利用HTTP-GET请求获取查询结果页面。
解析Google服务器的HTTP-GET请求，发现在Google网址(http//www.google.com/)之后扩展search？hl＝zh-CN&q＝(查询关键词)&start＝(起始记录序号)&sa＝N，对应了基于该关键词查询的、从起始记录序号开始的若干条查询结果。
2、提取链接通用搜索引擎返回页面，通常都是含有具有有效信息页面的链接。通过分析结果页面的HTML源码，根据页面链接标志<a href＝...>，提取结果页面中含有的链接信息。
3、目标页面根据提取链接步骤中所提取的链接信息，获取真正含有有效信息的页面，也就是信息源页面。
三、页面规整从Internet中获取的信息源页面，因为各个服务商的不同，在页面布局、风格、内容上都存在着很大的差异。要能够对这些页面进行统一的信息提取处理，必须要对它们按照一定标准进行规整。
1、Web文档正则化对所获取的页面的HTML源码进行合理的修改，使所有的HTML标签规范化，全都包含在开括号和闭括号(”<”和”>”)之间，除去HTML标签的属性值。
利用堆栈实现标签的嵌套。每遇到一个HTML标签，如果是正标签，压入堆栈；如果是反标签，对堆栈进行从栈顶到栈底的搜索，找到第一个对应的反标签，并为此前在堆栈中碰到的其他正标签配上反标签。若搜索中没有碰到对应的正标签，则忽略此反标签。
2、语法标签树生成令T＝(V，E)表示Web文档D的一个标签树，其中V＝VT∪VC，VT是标签节点(内部节点)的一个有限集合，VC是内容节点(叶节点)的一个有限集合。E(V×V)，表示有向边。我们称一个从节点u(u∈V)开始的子树为具有属性P的最小子树，如果它是满足下列条件的最小子树没有另外的子树subtree(w)，w∈V，同时满足属性P并且u是w的一个祖先。
● parent(u)u的父节点定义为parent(u)＝{w|w∈V，(w，u)∈E}。一颗树T的根节点是唯一一个没有父节点的节点。
● children(u)children(u)＝{w|w∈V，(u，w)∈E}。u的父节点对应u的子节点集合。
这个定义表明有且仅有一条边(u，w)∈E时，w是u的一个子节点。
● fanout(u)对于任何一个u∈V的节点，我们用fanout(u)表示u的子节点集合的势。
如果u∈VT，fanout(u)＝‖children(u)‖；如果u∈Vc，fanout(u)＝0。
● nodeSize(u)对于任何一个u∈V的节点，如果u∈VC，例如，u是一个叶节点，那么nodeSize(u)表示节点u的内容的字节数。否则，u是一个标签节点，例如，u∈VT并且fanout(u)＞0。我们把nodeSize(u)定义成从u可到达的所有叶节点的节点大小之利，例如，nodeSize(u)＝∑v，∈children(u)(nodeSize(vi))。对于任何一个u∈V的节点，我们定义u子树的大小subtreeSize(u)为u节点的大小。例如，subtreeSize(u)＝nodeSize(u)。
● tagCount(u)对于任何一个u∈V的节点，如果u∈VC，是一个叶节点，那么tagCount(u)＝0。否则，u∈VT，是一个标签节点，那么tagCount(u)＝1+∑v∈children(u)(tagCount(v1))。tagCount(u)表示以u为祖先节点的所有标签节点的总个数。
3、初步过滤在语法标签树上，找到Call Paper和其他领域关键字段所在的内容节点，找出这些节点的公共最小父节点，以该父节点作为根节点的树，即为有效信息子树。
去除该有效信息子树之外的其他部分的内容。
4、去除标签在获取最小有效信息子树之后，去除该子树中的HTML标签，使之成为自由文本。
第三步信息处理信息处理的过程与上述第一步机器学习的过程有很大的相似性。但是在机器学习中，为了提高机器学习的精准度和速度，我们提供了人工处理的、状态良好的训练集。
在信息处理中，信息源页面就是来自于第二步页面获取中的规整的页面。(如图3所示)一、分词、标记(Tokenization and Tagging)将文本分解成句子和单词，并且给出各个词的词性。
二、句子分析(Sentence Analysis)找出文本中的名词组、动词组、介词词组和其他的简单结构，定位文本中的表层主语和直接宾语，发现并标记与抽取主题相关的语义实体。
三、抽取(Extraction)抽取是系统中的第一个完全领域相关的组成部分。系统确认文本中相关实体之间的特定领域关系。
四、合并(Merging)系统检查在文本中碰到的每个实体，决定它是指某一个已经存在的实体，还是新的、必须保存的实体。并且合并工作还要做的是确定每一个动词词组的主语。
五、模板生成(Template Generation)决定文本中独立事件的个数，将独立的信息抽取模块对应到每个事件，并产生输出模板。在Call Paper信息获取中，模板生成步骤能够很有效地对付一个HTML页面中含有多个会议的Call Paper信息的情况。
信息处理的整个过程中，用到了机器学习中得出的领域规则。并且，用有限状态机技术在自由文本中提取出各种字段。例如所示的有限状态机，用于提取报告人的姓名如图4和图5所示，椭圆表示非终态，六边形表示终态。图形中的单词表示该状态处理的单词。如，机器当前读到单词”speaker”时，进入第一个状态；接下来如果读入”dr”时，表示第二个状态读入空字符，直接进入终态。接下来在机器跳出终态前所提取的字段，即为人名。
信息处理过程，利用上述五个步骤，并且利用含有领域知识的有限状态机进行信息提取，对每个单独的页面进行相同的处理，最后能够得出一个页面中所含的信息。
第四步信息表现每个Web页面经过信息处理之后，输出信息提交到信息表现部分。信息表现负责将多个Web页面的信息输出进行整合。
一、积累信息对于每个Web页面的信息输出，将其存储到内存缓冲区，等到信息积累到一定数量，再将它们展现出来。
按照Call Paper的特性，和其他传统搜索引擎的惯例，选择10～15条记录为一个显示集，也可由用户选择一次显示的信息量。
二、信息整合考虑到每个Call Paper页面的信息量有一定的差异，对于信息处理步骤返回的内容，要进行一定的整合，才能统一显示。
信息整合采用最大信息集的原则，对于每条信息，如果缺少某一项，则标识为空，而表现模板的信息字段是所有信息字段的并集。
三、信息表现以HTML表格形式给出所有获取的信息，并按照序号分组、分页。
权利要求
1.一种基于信息抽取技术的搜索引擎，其特征是利用机器学习的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。
2.根据权利要求1所述的基于信息抽取技术的搜索引擎，其特征是所述的含有同类信息且布局基本一致的HTML页面样本集是指在该引擎训练阶段由用户事先指定规则的HTML页面集合，提供给引擎的学习机进行学习，从而获取对该领域页面的信息抽取规则。
3.根据权利要求1所述的基于信息抽取技术的搜索引擎，其特征是所述的特定领域搜索引擎是指在系统的试开发实现阶段，搜索引擎仅仅面向某一个特定的领域，从而提高搜索的准确性和精度。
4.根据权利要求1所述的基于信息抽取技术的搜索引擎，其特征是搜索引擎获取的信息页面交由学习机器训练得出的信息抽取规则处理；信息抽取规则对页面进行有效抽取；对于不能进行相关信息抽取的页面，认为其不合法；对于抽取得到的有效信息，结构化地展现给用户。
5.根据权利要求1或2所述的基于信息抽取技术的搜索引擎，其特征是对规则页面进行学习分下面几个阶段a)结构分析；b)词法分析；c)语法解析；d)语义解释；e)框架构建；f)协商决议。
6.根据权利要求1或2所述的基于信息抽取技术的搜索引擎，其特征是机器学习的样本是人为标注的规则页面；样本集是一个规则的HTML页面集合，它们有统一的格式，含有同种类型的信息；人为标注的任务是对HTML的半自由文本标注出关键字，和相应的结构信息。
7.根据权利要求1或2所述的基于信息抽取技术的搜索引擎，其特征是信息抽取规则以解析图和语义关系等形式给出。
8.根据权利要求1或2所述的基于信息抽取技术的搜索引擎，其特征是信息抽取的结果以量化的关键字段值的形式给出。
全文摘要
本发明涉及一种基于信息抽取技术的搜索引擎，利用机器学习的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则；应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。通过训练和学习，调整规则数目和抽象程度，使其满足精度要求，然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面，利用规则进行信息提取。本发明有益的效果是将信息抽取技术与搜索引擎技术有机地结合在一起，是一个非常有效、准确的信息获取工具，它能够较大范围地提高人们的工作效率。
文档编号G06F17/40GK1410918SQ0211189
公开日2003年4月16日申请日期2002年5月31日优先权日2002年5月31日
发明者吴朝晖, 徐杰锋, 陆伟申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴朝晖;徐杰锋;陆伟
技术所有人：浙江大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。