一种面向主题的信息采集方法和系统的制作方法

文档序号:6470862阅读:296来源:国知局
专利名称:一种面向主题的信息采集方法和系统的制作方法
技术领域
本发明涉及一种信息采集技术,具体的说,涉及一种面向主题的信息 采集方法和系统。
背景技术
搜索引擎(Search Engine)的诞生,使得检索信息的能力获得了极大 的提高。尽管搜索引擎得到了飞速的发展和广泛的应用,当前的搜索引擎 仍然无法完全满足用户的需求,在检索结果的准确性、覆盖率、时效性等 方面都还存在不足,搜索引擎依然面临巨大的技术挑战。通用搜索引擎为 用户提供不限定主题、内容广泛的信息搜索服务,为了保证检索内容的覆 盖率,搜索引擎希望能够索引尽可能多的内容。同时为了保证检索结果的 时效性,需要尽可能减少索引库与数据源网站数据同步的延时。
在通用搜索引擎面临上述难以解决的问题时,面向主题的搜索引擎 (又称为垂直搜索引擎)受到人们越来越多的关注。如面向BBS、面向视 频内容、面向科技文献等各种针对特定领域、特定主题、特定网站类型的 搜索引擎。面向主题的搜索引擎只对特定网站或特定主题的网页进行索 引,从信息采集的角度,面向主题的搜索引擎需要过滤与本主题无关的内 容,从而减少了网页采集和分析的数据规模。面向主题的搜索引擎可以利 用领域知识和特点,通过具有特色的采集调度和内容抽取技术,实现比通 用搜索引擎获取网页更高的效率,并提高信息抽取的质量。
现有技术中的面向主题的搜索引擎主要由网页釆集、网页信息抽取、 索引、检索等模块组成。其中网页采集抽取是搜索引擎的数据来源和基础。 面向主题的网页采集方法的一般步骤分为
1) 设定采集种子网页,并提取该网页中出现的新链接,作为待采集 的网页;
2) 采集网页;
3) 对采集到的网页进行分析,判断网页是否与主题相关,并且提取 出该网页中出现的新链接,作为待釆集的网页。并重复步骤2。
从降低网络带宽和磁盘存储需求的角度出发, 一个优秀的面向主题的 网络信息采集方法应该具有较高的采集有效性,即所采集页面中与主题相 关的页面所占的比例要尽可能的高,这样可以极大的降低无关数据的釆集 量和存储量。

发明内容
本发明要解决的技术问题是提供一种面向主题的信息采集方法和系 统,来提高面向主题的互联网信息采集的有效性。
根据本发明的一个方面,提供了一种面向主题的信息采集方法,包
括下列步骤
1) 根据待采集链接队列中链接的顺序,从所述待采集链接队列中获 得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新 链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所 述新链接添加到所述待采集链接队列中;
2) 根据所述页面的相关链接集合和所述页面的主题相关性,计算所 有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列 中的链接的顺序,重复步骤1)和2)直至采集结束。
其中,所述步骤1)中的所述提取所述页面的相关链接集合包括下列 步骤
11) 根据所述页面内容,构建所述页面的DOM树;
12) 提取所述DOM树的极大并列子树族,由所述极大并列子树族的 并列节点集合构成所述页面的相关链接集合。
其中,所述步骤11)是利用开源工具HTML Parser完成。
其中,所述步骤11 )还包括
111)删除所述DOM树中的非链接型叶子节点。
其中,所述步骤12)所述提取所述DOM树的极大并列子树族包括
A. 置并列子树族集合5 = 0,置栈ST = 0,将所述DOM树的根节点 root添力。到栈中;
B. 如果ST^0,则集合S即为所求集合,否则取出ST的栈顶元素p;
C. 如果p是一个叶子节点,返回步骤B;
D. 如果p只有一个儿子节点q,将q添加到栈ST当中,返回步骤B;
E. 判断<formula>formula see original document page 6</formula>是否构成了以p为根节点的并列
子树族,如果是,则将T添力。到S当中,否则以此将
cM《0),cM《0),…,cM《々)0)添力。到栈ST当中,转至步骤B。
其中,所述步骤1)中所述判定所述页面的主题相关性采用文本分类 方法。
其中,所述步骤2)中所述根据所述页面的相关链接集合和所述页面 的主题相关性,计算所有链接的页面的主题相关性,包括
21) 对于已经采集的,但非确实主题相关的页面,根据所述非确实主 题相关的页面中的新链接的个数,以及所述非确实主题相关的页面中的新 链接的页面的主题相关性,计算所述非确实主题相关的页面的主题相关 性;
22) 对于步骤1)所述新链接所指向的页面,根据所述新链接所在的 相关链接集合内的链接的平均主题相关性,以及所述新链接所在的链接的 个数,计算所述新链接的页面的主题相关性。
其中,所述步骤21 )和所述步骤22 )根据雅各比迭代法和高斯一塞德 尔迭代法进行计算。
其中,所述雅各比迭代法和高斯一塞德尔迭代法进行8至12次迭代。 根据本发明的另一方面,还提供了一种面向主题的信息采集系统,包括..
待采集链接队列,用于存储链接;
存储信息库,用于存储页面内容、页面的相关链接集合和页面的主题 相关性;
多线程采集器,用于根据链接的顺序,从所述待采集链接队列中获得 多个链接,并从互联网中采集所述多个链接的页面的内容并存储至所述存 储信息库,提取所述页面中的新链接,判定所述页面的主题相关性,提取 所述页面的相关链接集合,并存储所述页面的主题相关性和所述页面的相 关链接集合到所述存储信息库,将所述新链接添加到所述待采集链接队 列;
采集调度器,用于根据所述页面的相关链接集合和所述页面的主题相 关性,计算所述待采集链接队列中所有链接的页面的主题相关性,并调整 所迷待采集链接队列中链接的顺序。
在该系统中,所述多线程采集器包括提取相关链接集合装置,用于提 取所述页面的相关链接集合,所述提取相关链接集合装置进一 步包括
用于根据所述页面内容,构建所述页面的DOM树的装置;和
用于提取所述DOM树的极大并列子树族,由所述极大并列子树族的 并列节点集合构成所述页面的相关链接集合的装置。
在该系统中,所述采集调度器包括用于计算所有链接的页面的主题相 关性的装置,所述用于计算所有链接的页面的主题相关性的装置包括
计算非确实主题相关的页面的主题相关性的装置,用于对于已经采集 的,但非确实主题相关的页面,根据所述非确实主题相关的页面中的新链 接的个数,以及所述非确实主题相关的页面中的新链接的页面的主题相关 性,计算所述非确实主题相关的页面的主题相关性;
计算新链接的页面的主题相关性的装置,用于对于所述新链接所指向 的页面,根据所述新链接所在的相关链接集合内的链接的平均主题相关 性,以及所述新链接所在的链接的个数,计算所述新链接的页面的主题相 关性。
本发明的有益效果在于本发明放弃采用链接的文本信息,应用基于 链接拓朴结构信息,极大的减小了对存储空间的需求;并且提高了面向主 题信息采集的有效性。


图1是根据本发明一个实施例的面向主题的信息采集系统框架图; 图2是DOM树并列叶子节点集合示意图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图, 对根据本发明一个实施例的面向主题的信息采集方法进一步详细说明。应
当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
面向主题信息采集方法基于链接拓朴结构分析的思想,根据网页信息 分析以及主题相关性预测方法对互联网页面进行采集,极大地提高视面向 主题采集有效性。首先对互联网页面内容进行分析,提取并列链接集合, 判定该页面的主题相关性;然后依据该互联网页面内的链接之间的拓朴结 构信息,计算该页面内链接所指向的页面的主题相关性;最后利用可根据 主题相关性调整采集顺序的主题信息采集系统进行信息采集。
根据本发明一个实施例,整个采集系统框架的运行机制如图l所示,
具体包括下列3步
1) 设置初始采集链接集合(Seed),并添加到待采集链接队列 (Queue )。
2) 多线程釆集器(MTD, Multi-threaded downloader)从待采集4连接 队列(Queue )中根据待采集链接的顺序获得多个链接,并从互联网(WEB ) 中采集这些链接的页面的内容,提取该页面中的新链接,MTD根据下述 方法分析该页面,提取该页面的相关链接集合,并判定该页面的主题相关 性。其中所述多个链接一般占Queue中所有链接的10%至30%。把页面 的内容、该页面的主题相关性和该页面的相关链接集合信息存储到存储信 息库(Storage)中,将所述新链接添加到Queue中。
其中,提取该页面的相关链接集合是对HTML页面的建立DOM树模 型,从DOM树模型中抽取极大并列子树族,进而提取互联网页面中相关 链接集合。
利用开源工具HTML Parser对页面的HTML文本内容完成DOM树模 型的构建。由于页面采集过程只涉及到HTML文本中的链接信息,因此, 优选的可以将HTML文本中非链接型叶子节点从DOM树中进行删除,从 而完成对DOM数的压缩。首先找到D OM树中的 一 个非链接型叶子节点, 如果找不到,则结束;否则删除该节点,并重复上述操作直到结束。
定义rree(p)描述一棵以节点p为根的树,cw(p)表示p的儿子节点的个 数,cM《0),c/z/W2 0),…,cM《(p)0)分别表示p的c"O)个儿子节点;
对于一个节点p而言,它的所有儿子节点是有序的,序列的顺序即节 点所对应的HTML文本在原始页面中的上下文关系;
称7>^(>)与7>ee(《)具有相同的结构,当且^又当节点p和节点q均为叶 子节点时,或者节点p和节点q均为非叶子节点时,m(p) = c"(《),且对于
vu ^ ^ , o)和cM《(《)也具有相同的结构;
如果对于一个节点p,它有两个或两个以上的叶子节点,且任意两个
叶子节点c/n'W, (; )和c/z//《.O)所构成的子树7>ee(c/z/W, (p))和7Vee(cM《O》都具 有相同结构,则称2>ee(cW(p)),rree(c歸,O)),..., 7Vee(cM《(p)O))构成了以节 点p为才艮节点的并列子树族。TV^O!), 7>ee(>2),…,7>ee(> )构成以root为根 节点的 一 个极大并列子树族T ,当且仅当不存在并列子树族 r^(7Vee(仏),7Vee(《2),…,r,ee(^》,它满足3/,y,1 S/S",1《y^m, j吏4寻^是; ,的牙且
先。
r^e(A), 7>^(/72),.." 7Vee(凡)构成一个以root为才艮节点并列子树族T, 假设这n棵树中每一棵树都包含有m+l个节点,定义对于VU&^w,
2(/0 =仏。《1,...,^4表示7>"(^,)的前序遍历结果,树的前序、后序或者中序 遍历结果都是唯一的,在前序遍历结果中显然
^ = {、,^,...,^}被称为并列子树族T的一个并列节点集合。如图2所示,
其中填充图案相同的节点为并列叶子节点。
任何两个极大并列子树族都是不相交的。如果两个极大并列子树族 r—7V^O,),7yee02),…,7^e(/0), 它们的共同父亲是; 。,以及 r = (7Vee(A),rree(《2),…,7V—《m)},它们的共同父亲是《。,且有《。- p。;假设T 和T,相交,那么必然存在一个节点r,使得&和p。都是r的祖先,根据树 的性质有要么《。是P。的祖先、要么A是《。的祖先,这与T和T,是极大子树 族矛盾,所以任何两个极大并列子树族都是不相交的。
根据以上描述,从DOM树中I是取极大并列子树族的步骤如下
A. 置并列子树族集合5 = 0,置栈S2^0,将DOM树的根节点root 添加到栈中;
B. 如果51 = 0,转至步骤F;否则取出ST的栈顶元素p;
C. 如果p是一个叶子节点,返回步骤B,否则进行步骤D;
D. 如果p只有一个儿子节点q,将q添加到栈ST当中,返回步骤B, 否则进行步骤E;
E. 判断7" = {7>^(^,'械0》|/ = 1.丄"(;7)}是否构成了以p为才艮节点的并列
子树族,如果是,则将T添力口到S当中,否则以此将 cM《0 ),cM《O),…,cM《咖)0)添力。到栈ST当中,转至步骤B;
F. 集合S即为所求集合。 的,都是O(n)。
获取每一极大并列子树族的每一个由叶子节点构成的并列节点集合, 则每个集合构成该DOM树描述的HTML页面中的一个相关链接集合。
互联网页面的主题相关性是指某页面确实是与主题相关,或者某页面 所指向的页面都具有很高的主题相关性。可以理解这个定义是递归的。
用/(/)表示链接/所指向的页面的主题相关性,也就是链接/所指向页 面的主题相关程度,/(/>
, /(/)越大链接/的主题相关性越大,/(/)越
小链接/的主题相关性越小。用P(7)表示链接/所指向的页面;用
0!^77fo^(/))表示页面P(/)中的所有链接。一个页面P(/)可能拥有若干个相
关链接集合。这里用链接集合re/afe《(P(/)), retoe《(i5(/)),…,retoe《(i5(/))表 示页面户(/)的s个相关链接集合,显然有
本领域技术人员可以理解, 一个链接可能存在于多个相关链接集合当中。
用F表示目前已经采集到的页面集合,R表示已经采集到的确实主题 相关的页面所组成的集合,显然有i e尸。例如,主题为视频,R表示已经 采集到的含有视频的页面所组成的集合。N表示目前待采集的页面集合,
定义集合= {v 1 / e。^!7ifo(P(V)),P(V)e "表示链接/出现过的页面。
对于已经采集到的页面,从互联网中获得HTML页面内容,可以得到 大量的页面特征信息, 一般可利用文本分类以及其它相关技术进行主题相 关性判断,确定该页面是否确实主题相关。也即
对于P(/)ei 的情况,= 1 ( 1 )
3)采集调度器(Scheduler),每隔一段时间以后将会根据Storage中 存储的相关链接集合信息和如上所述的已经采集到的页面的主题相关性, 计算Queue中所有链接的页面的主题相关性,并调整Queue中链接的采集 顺序,然后重复执行步骤2)。
如果一个页面它所指向的页面大多数都是与主题相关的话,则称该页 面在面向主题的信息釆集中是一个好的发散型(Hub)页面。因为绝大多数 的互联网页面中,主题相关的页面总是并列出现的;所以在同一个页面中 的 一个相关链接集合中的若干个链接所指向的页面具有很高的主题相关 性的话,那么该集合中其余的链接指向的页面也具有很高的相关性。
根据上述原理,对于已经采集的,但非确实主题相关的页面,根据所 述非确实主题相关的页面中的新链接的个数,以及所述非确实主题相关的 页面中的新链接的页面的主题相关性,计算所述非确实主题相关的页面的 主题相关性对于<formula>formula see original document page 12</formula>, 且<formula>formula see original document page 12</formula>的情况,<formula>formula see original document page 12</formula>(2)
其中,符号| l表示计算集合中元素个数。
对于目前待釆集的页面集合,根据所述新链接所在的相关链接集合内 的链接的平均主题相关性,以及所述新链接所在的链接的个数,计算所述 新链接的页面的主题相关性对于e iV时情况,
<formula>formula see original document page 12</formula> (3)
根据上述方程(1 )、 ( 2 )和(3 )对/(/)进行计算。类似于一种基于拓
朴关系的页面重要程度评分(Page Rank)的计算方式,可以采用雅各比 (Jacobi)迭代法与高斯一塞德尔(Gauss-Seidel)迭代法对/(/)进行求解。
为了控制迭代过程的计算消耗,通过实验论证,优选的,采用的迭代次数 为8至12次。
根据页面的主题相关性,调整添加了新链接的待采集链接队列中的链 接的顺序,重复执行上述步骤2)和步骤3 )直到Queue中链接为空时结 束。本领域技术人员可以理解,也可以自行设置采集页面数量的上限阈值, 达到这个阈值以后,自动结束并退出采集程序。
综上所述,根据本发明的一个具体实施例,提供了一种面向主题的信 息采集系统,包括
待采集链接队列,用于存储链接;
存储信息库,用于存储页面内容、页面的相关链接集合和页面的主题 相关性;
多线程釆集器,用于根据链接的顺序,从待釆集链接队列中获得多个 链接,并从互联网中采集该多个链接的页面的内容并存储至存储信息库, 提取该页面中的新链接,判定该页面的主题相关性,提取该页面的相关链 接集合,并存储该页面的主题相关性和该页面的相关链接集合到存储信息 库,将新链接添加到上述待采集链接队列;
采集调度器,用于根据该页面的相关链接集合和页面的主题相关性, 计算上述待采集链接队列中所有链接的页面的主题相关性,并调整所述待 采集链接队列中链接的顺序。
在该系统中,多线程采集器包括提取相关链接集合装置,用于提取页 面的相关链接集合,该提取相关链接集合装置进一步包括
用于根据页面内容,构建页面的DOM树的装置;和
用于提取该DOM树的极大并列子树族,由该极大并列子树族的并列 节点集合构成页面的相关链接集合的装置。
在该系统中,釆集调度器包括用于计算所有链接的页面的主题相关性 的装置,所述用于计算所有链接的页面的主题相关性的装置包括
计算非确实主题相关的页面的主题相关性的装置,其用于对于已经采 集的,但非确实主题相关的页面,根据该非确实主题相关的页面中的新链 接的个数,以及该非确实主题相关的页面中的新链接的页面的主题相关 性,计算该非确实主题相关的页面的主题相关性;
计算新链接的页面的主题相关性的装置,其用于对于新链接所指向的 页面,根据该新链接所在的相关链接集合内的链接的平均主题相关性,以 及该新链接所在的链接的个数,计算该新链接的页面的主题相关性。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神 和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因 此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
权利要求
1. 一种面向主题的信息采集方法,包括下列步骤:1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1)和2)直至采集结束。
2. 根据权利要求1所述的方法,其特征在于,所述步骤1 )中的所述 提取所述页面的相关链接集合包括下列步骤11 )才艮据所述页面内容,构建所述页面的DOM树;12 )提取所述DOM树的极大并列子树族,由所述极大并列子树族的 并列节点集合构成所述页面的相关链接集合。
3. 根据权利要求2所述的方法,其特征在于,所述步骤11)是利用 开源工具HTML Parser完成。
4. 根据权利要求2所述的方法,其特征在于,所述步骤ll)还包括 111)删除所述DOM树中的非链接型叶子节点。
5. 根据权利要求2所述的方法,其特征在于,所述步骤12)所述提 取所述DOM树的极大并列子树族包括A. 置并列子树族集合5 = 0,置栈S7^0,将所述DOM树的根节点 root添力口到栈中;B. 如果sr-0,则集合S即为所求集合,否则取出ST的栈顶元素p;C. 如果p是一个叶子节点,返回步骤B;D. 如果p只有一个儿子节点q,将q添加到栈ST当中,返回步骤B;E. 判断r—r^e(cM《0))l!^l…c"(p》是否构成了以p为冲艮节点的并列子树族,如果是,则将T添力口到 S 当中,否贝'j以此将 cM《0),cM《0),…,cM《(p)0)添加到栈ST当中,转至步骤B。
6. 根据权利要求1所述的方法,其特征在于,所述步骤1 )所述判定 所述页面的主题相关性釆用文本分类方法。
7. 根据权利要求l所述的方法,其特征在于,所述步骤2)所述根据 所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面 的主题相关性,包括21) 对于已经采集的,但非确实主题相关的页面,根据所述非确实主题相关的页面中的新链接的个数,以及所述非确实主题相关的页面中的新 链接的页面的主题相关性,计算所述非确实主题相关的页面的主题相关性;22) 对于步骤1)所述新链接所指向的页面,根据所述新链接所在的 相关链接集合内的链接的平均主题相关性,以及所述新链接所在的链接的 个数,计算所述新链接的页面的主题相关性。
8. 根据权利要求7所述的方法,其特征在于,所述步骤21)和所述 步骤22 )根据雅各比迭代法和高斯一塞德尔迭代法进行计算。
9. 根据权利要求8所述的方法,其特征在于,所述雅各比迭代法和高 斯一塞德尔迭代法进行8至12次迭代。
10. —种面向主题的信息采集系统,包括 待采集链接队列,用于存储链接;存储信息库,用于存储页面内容、页面的相关链接集合和页面的主题 相关性;多线程采集器,用于根据链接的顺序,从所述待采集链接队列中获得 多个链接,并从互联网中采集所述多个链接的页面的内容并存储至所述存 储信息库,提取所述页面中的新链接,判定所述页面的主题相关性,提取 所述页面的相关链接集合,并存储所述页面的主题相关性和所述页面的相 关链接集合到所述存储信息库,将所述新链接添加到所述待采集链接队 列;采集调度器,用于根据所述页面的相关链接集合和所述页面的主题相 关性,计算所述待釆集链接队列中所有链接的页面的主题相关性,并调整 所述待采集链接队列中链接的顺序。
11. 根据权利要求IO所述的系统,其特征在于,所述多线程釆集器包 括提取相关链接集合装置,用于提取所述页面的相关链接集合,所述提取 相关链接集合装置进一步包括用于根据所述页面内容,构建所述页面的DOM树的装置;和 用于提取所述DOM树的极大并列子树族,由所述极大并列子树族的 并列节点集合构成所述页面的相关链接集合的装置。
12.根据权利要求IO所述的系统,其特征在于,所述采集调度器包括 用于计算所有链接的页面的主题相关性的装置,所述用于计算所有链接的页面的主题相关性的装置包括计算非确实主题相关的页面的主题相关性的装置,用于对于已经采集 的,但非确实主题相关的页面,根据所述非确实主题相关的页面中的新链 接的个数,以及所述非确实主题相关的页面中的新链接的页面的主题相关 性,计算所述非确实主题相关的页面的主题相关性;计算新链接的页面的主题相关性的装置,用于对于所述新链接所指向 的页面,根据所述新链接所在的相关链接集合内的链接的平均主题相关 性,以及所述新链接所在的链接的个数,计算所述新链接的页面的主题相 关性。
全文摘要
本发明提供一种面向主题的信息采集方法,包括下列步骤1)根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;2)根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复步骤1和2直至采集结束。上述方法极大的减小了对存储空间的需求;并且提高了面向主题信息采集的有效性。
文档编号G06F17/30GK101382956SQ20081022352
公开日2009年3月11日 申请日期2008年10月6日 优先权日2008年10月6日
发明者张勇东, 李佳文, 郭俊波 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1