一种基于网页聚类的Web信息自动抽取方法

文档序号：8512569阅读：344来源：国知局

一种基于网页聚类的Web信息自动抽取方法
【技术领域】
[0001]本发明公开一种Web信息自动抽取方法，属于计算机信息提取技术领域，具体地说是一种基于网页聚类的Web信息自动抽取方法。
【背景技术】
[0002]随着Internet技术的迅速发展，Web已经成为当今最庞大的信息库。然而Web页面中通常含有很多用户并不关心的信息，如广告链接、导航栏和版权信息等，有必要从Web页面中抽取出有用的信息，而通常用于Web信息抽取的软件又称作包装器(Wrapper)。自1994年起，包装器生成技术经历了从手工编写包装器脚本，到利用机器学习的半自动化生成，再到自动化生成的三个阶段。目前，自动化已经成为Web信息抽取技术的一个重要特征，比较有代表性的抽取工具有RoadRunner、IEPAD, Dela和MDR-2等。但是现有的抽取工具使用时算法构造复杂、准确率低。本发明提供一种基于网页聚类的Web信息自动抽取方法，根据数据提供网站动态网页的特点，在基于DOM的抽取技术上，根据对树的相似度比较对网页进行聚类分析，从而分类出网页结构相似度较高的网页簇，实现一个高精度的Web信息自动抽取系统，并通过大量的测试网页集对这些算法进行实验和评估，Web信息自动抽取应用了可选节点对模板的修正和调整，以提高内容节点的正确标识。实验结果表明，该方法能够自动寻找并抽取网页主要信息，与同类技术相比具有算法构造简单、准确率高等优势。

【发明内容】

[0003]本发明针对现有的Web自动化信息抽取技术中，抽取工具使用时算法构造复杂、准确率低的问题，提供一种基于网页聚类的Web信息自动抽取方法，根据数据提供网站动态网页的特点，在基于DOM的抽取技术上，自动寻找并抽取网页主要信息，与同类技术相比具有算法构造简单、准确率高等优势。
[0004]本发明提出的具体方案是:
一种基于网页聚类的Web信息自动抽取方法:
对动态网页集合进行页面预处理JfHTML网页转化成XHTML格式，并清除网页中的明显错误；
网页聚类:网页集合的聚类具有层次之间的分割嵌套的关系，形成一个树状结构，利用计算它们的编辑距离来比较HTML标签树的相似性；根据网页聚类的复杂度，采取相应的算法，定义两个网页的树编辑距离；
生成抽取模板:网页聚类后的每一个网页簇，都生成一个对应的抽取模板，所有抽取模板组成了抽取系统的包装器；
进行数据抽取:对要抽取的网页和包装器的相应模板进行编辑距离的计算，如果模板中的所有必需节点都在最后的映射中，说明该网页满足此包装器，则把与包装器指定的内容节点对应的网页内容部分抽取出来，模板中不是所有必需节点都在映射中，则通过计算编辑距离选取最相似的模板抽取网页信息。
[0005]所述的网页集合的聚类使用的凝聚层次算法来表示层次之间的分割嵌套的关系，每个单独的数据对象作为一个簇，每一步距离最近的两个簇首先被合并，直到簇的个数满足要求。
[0006]所述的根据网页聚类的复杂度，采取CURE算法，定义两个网页的树编辑距离，计算过程为:网页聚类中产生的代表簇满足两个阈值，簇的全局自相似性满足阈值Dg，簇中两两网页间的列相似度满足阈值Ωε，伪代码如下:Cluster Page (page Set，Ω g，Ω e)let mij be the distance of Pi and Pj in the page Set Initialize each page to agroup and put it into the set of groups Gwhile (G>1) dochoose A， B e G， a pairof groups which maximize the auto-similarity measure s (A U B) if s (A U B) > Ω g&& E i，j e A U B，cs (i，j) > Ω ethenremove A and B from Glet Φ=Α U Binsert Φ intoGelse breakend whilereturn G
根据情况设置Ω e值。
[0007]所述的生成抽取模板，分为两个网页的模板的生成和多网页模板生成；
两个网页模板的生成:利用DOM树的相似性算法，在计算编辑距离的同时，生成一个节点映射集合，获得树节点1\和T 2之间距离最小的子树匹配情况，把这些匹配情况作为一个列表返回，当TjPT2F匹配时，返回的列表为空；当T JPT2至少有一个没有子节点时，返回的列表只包含1\和T 2的匹配；T #口 T 2分别是第一个网页和第二个网页的树节点；
多个网页的模板的生成:建立在两个网页的模板生成基础上，选取一个网页作为初始模板，根据其他网页逐步调整模板，通过统计方法得到最后的模板，利用最后模板生成抽取网页信息的包装器。
[0008]所述的多个网页的模板的生成过程为:
初始模板的选取，结合网页聚类的算法，对于网页聚类结果簇集合C=IPc^P1,...，&}；根据其他网页调整和修正该模板，网页的顺序从节点数最多处开始，依次往下，算法的伪代码如下所示:
Generate Template(page Set, λ ) template 一 the page which have the maximumpotential template nodes Delete the selected template from page Set Sort thepages of page Set by the number of nodes in descending order Mark a integerfield appear Count of all nodes in template to I for each page p in pageSet does(template, p)match Nodes Set=get Match Nodes(template, p)for eachnode pair’(nt，np) in match Nodes Set doset nt.appear Count=nt.appearCount+1align Template(nt，np)end
mini Count=ceil((pageSet.count+1) * λ ) discard the nodes whose appear Countis less than mini Count return template
通过统计方法得到最后的模板，利用最后模板生成抽取网页信息的包装器。
[0009]本发明的有益之处是:本发明基于DOM的抽取技术上，根据对树的相似度比较对网页进行聚类分析，从而分类出网页结构相似度较高的网页簇，实现一个高精度的Web信息自动抽取系统，并通过大量的测试网页集对这些算法进行实验和评估，Web信息自动抽取应用了可选节点对模板的修正和调整，以提高内容节点的正确标识。实验结果表明，该方法能够自动寻找并抽取网页主要信息，与同类技术相比具有算法构造简单、准确率高等优势。
【附图说明】
[0010]图1本发明方法的流程示意图。
【具体实施方式】
[0011]结合附图对本发明做进一步说明。
[0012]一种基于网页聚类的Web信息自动抽取方法:
对动态网页集合进行页面预处理:首先，要对页面进行处理。对于抓取的网页，并不能直接转化成一个DOM树，因为HTML网页的格式通常不是规范的XML格式，因此需要将其先转化成XHTML格式。另外，Web中很多的网页都会存在标签上的错误，由于HTML的不规范性导致代码中存在的标签不配对也不影响页面的执行，并且很多标签是多余的。可以采用HTML Tidy来解决。Tidy是一个开源的HTML网页净化工具，它可以将HTML转化成XHTML，并能清除网页中的明显错误。
[0013]网页聚类:网页集合的聚类具有层次之间的分割嵌套的关系，形成一个树状结构，利用计算它们的编辑距离来比较HTML标签树的相似性；根据网页聚类的复杂度，采取相应的算法，定义两个网页的树编辑距离；
树编辑距离:对模型进行编辑。基于DOM模型的Web信息抽取技术的基础算法，就是比较两棵HTML标签树的相似性。采用比较两棵树相似性的方法，计算它们的编辑距离，找到两棵树之间权值最小的一个映射(mapping)，定义如下:
假设X是一棵树，Xm是树X中第i个字节点，则树T T 2之间的映射满足有序数对(i，j)的集合。
[0014]对于网页集合的聚类，层次聚类过程不同由层次的分割聚类组成，层次之间的分割具有嵌套的关系，整个过程为一个树状结构。可以采用自底向上的层次算法称为凝聚层次算法，把每个单独的数据对象作为一个簇，每一步距离最近的簇对首先被合并，直到簇的个数满足要求。
[0015]网页聚类算法:例如聚类网页的数目为500?1000，在这个复杂度上，可以采用类CURE算法。网页聚类中产生的代表簇必须满足两个阈值。首先簇的全局自相似性必须满足阈值Dg，其次簇中两两网页间的列相似度必须满足阈值，这个阈值的设定是为了避免出现新簇，虽有较高的全局自相似性，但簇内仍然包含了一些不相似对象的情况。可以将Ω^Ρ Ω e值分别设置为0.9和0.8，整个过程算法的伪代码如下:Page (page Set, Ω g, Ωε)let mij be the distance of Pi and Pj in the page Set Initialize each page to agroup and put it into the set of groups Gwhile (G>1) dochoose A， B e G， a pairof groups which

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：武斌;张志华;徐宏伟;王传超;
技术所有人：浪潮集团有限公司;
我是此专利的发明人

上一篇：基于最大熵模型的事件论元识别方法及系统的制作方法
上一篇：一种降维映射的大数据可视化方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。