一种基于搜索策略的多主题信息采集方法

文档序号:6523434阅读:171来源:国知局
一种基于搜索策略的多主题信息采集方法
【专利摘要】本发明是一种基于搜索策略的多主题信息采集方法,其步骤如下:(1)将主题规则集拆分成原子规则集;(2)判定原子规则集中原子规则的关系;(3)将原子规则集调度到内置搜索队列、通用搜索队列;(4)用和中的原子规则进行搜索采集。本发明方法针对多主题信息采集效率低下的问题,提出将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。
【专利说明】一种基于搜索策略的多主题信息采集方法
【技术领域】
[0001]本发明涉及一种信息采集技术,具体地说,涉及一种基于搜索策略的多主题信息采集方法。
【背景技术】
[0002]主题信息采集是指有选择性地采集那些与预先定义好的主题相关信息的行为。主题信息采集面对的是特定的行业用户,采集的信息只限定于特定的主题。按照采集主题的范围和规模,可以分为广泛主题采集和具体主题采集。广泛主题指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题采集也称作领域信息采集。用户在采集这类主题时,往往并没有太具体的要求。这类信息采集往往采集到的信息数量较多,为了达到较高的召回率,在进行信息过滤的时候所设定的阈值较低、限制较宽。比如,“交通事故”、“自然灾害”、“地震”、“火灾”等都是广泛主题的例子。简而言之,广泛主题缺乏具体的要素约束,比如时间、地点、参与对象等约束要素,因而它获取的内容比较杂乱,采集内容与主题的平均相关度也较低。
[0003]具体主题涵盖面较窄,因此意义也比较明确,采集信息的规模也较小。这类采集一般可直接服务于用户,是目前最主要的主题信息采集模式,为此,它在进行信息过滤的时候所设定的阈值较高、限制较严。比如,“2008年汶川地震”、“美国斯诺登事件”、“3.15动车事故”、“2008金融危机”、“2012台湾选举”等都是具体主题的例子。这类主题由于有明确的约束要素,使得采集到的信息与主题的平均相关度较高。
[0004]申请号为200810223523.7的现有技术提出了一种面向主题的信息采集方法,该方法首先根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;而后,根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复上述两步直至采集结束。
[0005]在2002年德国出版的会议论文集:2002年第六届欧洲数字图书馆研究和高级技术会议(Proceedings of 2002 Conference of the European Conference on Researchand Advanced Technology for Digital Libraries),题目为:主题米集、隧道和数字图书馆(Focused crawls, tunneling, and digital libraries),作者是:D.Bergmark, C.Lagoze, and A.Sbityakov,该文提出了基于关键字的主题信息采集方法,没有考虑关键字之间的“与”、“或”关系。
[0006]在2012年中国出版的期刊:情报学报,题目为:一种基于局部分析面向事件的查询扩展方法,作者是:仲兆满,朱平,李存华,管燕,刘宗田,该文针对事件检索问题,讨论了事件要素之间的约束关系,体现了关键字之间的“与”关系。
[0007]现有技术没有考虑多主题信息采集过程中的重复采集信息的问题,效率低下。
【发明内容】

[0008]本发明所要解决的技术问题是针对现有技术中存在的多主题信息采集效率低下的问题,提出一种基于搜索策略的多主题信息采集方法,该方法将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。
[0009]本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种基于搜索策略的多主题信息采集方法,其特点是:其具体步骤如下:
A、将主题规则集拆分成原子规则集及&;
B、判定原子规则集Ra中原子规则和,呢的关系;
C、将原子规则隼IT分配到内置搜索队列、通用搜索队列#;
D、用#和f中的原子规则进行搜索采集;
步骤A中所述的将主题规则集R拆分成原子规则隼其具体步骤如下:
Al、依次从中取出每条主题规则Ri , Ra置空;
A2、判段Mi中是否包含“+”关系;如果包含,则转步骤A3 ;否则,Ra = ISg),转步骤
A5 ;
A3、判断中是否存在“与”分配律。如果存在m个(m> O),循环执行Hi次“与”分配律运算,得到我* ;否则,Rs1 = Ri,转步骤A4 ;
A4、依据“ + ”关系将切分成H条原子规则,将n条原子规则放入丑〃,转步骤
A5 ;
A5、得到原子规则集及》;
步骤(C)中所述的将原子规则集把分配到内置搜索队列#、通用搜索队列#,其具体步骤如下:
Q、遍历JT中所有原子规则,没有关系的原子规则直接分别放入Jgr、Cc ;如果原子规则有关系,记有关系的原子规则集为Ra,,转步骤C2 ;否则,转步骤C6 ;
02、从取出一条原子规则,判断它与其他原子规则之间的关系;如果两条原子规则^ ,选成分别放入Q1 Qc '转步骤C5;否则,转步骤C3 ;
C 3、如果 < = < ,选或放入#,选和i^放入g11 ,转步骤C 5 ;否则转步骤C4 ;
C4、如Jf d % ,选If放入# ,选Jlf和放入gc,转步骤C5 ;
C5、判断JJff*中的原子规则是否全部分配完毕,完成转步骤C6 ;否则,转步骤C2 ;
C6、得到内置搜索队列0和通用搜索队列gc。
[0010]本发明的基于搜索策略的多主题信息采集方法与现有技术相比较,具有以下效果:该方法将多主题的采集规则转化为原子规则,通过判定原子规则间的三种关系,为内置搜索引擎和通用搜索引擎分配不同的原子规则,达到了压缩原子规则、减少网络访问次数的目的,提高了单位时间内采集的信息数目。
【专利附图】

【附图说明】
[0011]图1是本发明的基于搜索策略的多主题信息采集方法的流程图;
图2是图1中步骤101所述的将主题规则集R拆分成原子规则集把的流程图;
图3是图1中步骤103所述的将原子规则集JT分配到内置搜索队列0"、通用搜索队列的流程图。
【具体实施方式】
[0012]下面结合附图和【具体实施方式】对本发明的实施过程作进一步详细的描述。
`[0013]参照图1,一种基于搜索策略的多主题信息采集方法,该方法包括如下步骤:
步骤101、将主题规则集及拆分成原子规则隼JT,参照图2,其具体步骤如下:
步骤201、依次从及中取出每条主题规则馬,原子规则集置空。主题规则指使用关键词之间的“与”(*)、“或”(+ )关系描述主题,比如,主题r为“2008汶川地震”,则主题T的规则可以为2008*(汝川+四川)*地憲,,原子规则指对主题的表示规则进行拆分,拆
分后的关键词之间仅仅存在“与”的关系,比如主题规则i? = 2008*(技M+四川)*地盡,
拆分后得到两条原子规则分别是R1* = 3008*浏11*地震和R; = 2008*圆11*地震。
[0014]步骤202、判段中是否包含“ + ”(或)关系。如果包含,转步骤203 ;否则,Re = ^isI,转步骤 207 ;步骤203、判断片中是否存在“与”分配律。主题规则“与”分配律定义为:A* (B+C)
=A*B+A*C,例如“地震*(汶川+四川)”#地震*汶川+地震*四川”。如果有,转步骤204,;否则,转步骤205 ;
步骤204、假设有Hf个(in>0)存在“与”分配律,循环执行fff次“与”分配律运算,得到Ri",转步骤206 ;
步骤2O5、Rf = Ri ,转步骤206 ;
步骤206、依据“ + ”关系将%,切分成/I条原子规则,将《条原子规则放入中,转步骤207 ;
步骤207、得到原子规则集?
[0015]步骤102、判定原子规则集中原子规则的关系,其具体如下:
B1、两条原子规则经过关系切分后,如果关键词相同,且出现的顺序完全
一致,则这两条规则存在相同关系,记作< =Rj,转步骤B4 ;否则转步骤B2 ;
B2、如果关键词完全相同,但出现的顺序不一致,则这两条规则存在互换关系,记作 ? Rj,转步骤B4 ;否则转步骤B3 ;
B3、如果 < 的关键字是g关键字的真子集,则这两条规则存在包含关系,记作
,转步骤B4 ;
B4、原子规则及;1,.#的关系判定结束。
[0016]步骤103、将原子规则集调度到内置搜索队列#、通用搜索队列#,参照
图3,其具体步骤如下:
步骤301、遍历中所有原子规则,没有关系的原子规则直接分别放入。如
果原子规则有关系,记有关系的原子规则集为/r*,转步骤302 ;
步骤302、判定^a*是否为空,如果不为空,转步骤303 ;否则,转步骤310 ;
步骤303、从取出一条原子规则,判断它与其他原子规则之间的关系。如果两条原子规则 < = <,转步骤306 ;否则,转步骤304 ;步骤304、如果,转步骤307 ;否则,转步骤305 ;
步骤305、如果JJf c ,转步骤308 ;否则,转步骤309 ;
步骤306、选 < 或疼分别放入^ ;
步骤307、选Jf或 < 放入f,选< 和Jf放入# ;
步骤308、选< 放入Q1 ,选JSJ1和放入f ;
步骤309、判断及~中的原子规则是否全部判定完毕,完成转步骤310 ;否则,转步骤
303 ;
步骤310、得到和0^。
[0017]步骤104、用#和#中的原子规则进行搜索采集,其具体如下:
D1、用疗中的原子规则在内置搜索引擎中采集信息。内置搜索引擎指网站自带的用于对网站自身内容进行搜索的引擎,比如微博、论坛等内置搜索引擎。
[0018]D2、用中的原子规则在通用搜索引擎中采集信息。通用搜索引擎指从互联网
上多种媒体中广泛的采集收集信息,为用户提供信息检索服务的引擎,比如百度、谷歌等通用搜索引擎。
[0019]使用两种不同的采集方法,在不同的单位时间内统计采集的信息量。两种方法如下:
(1)进行主题规则到原子规则的拆分,不考虑原子规则之间的关系,将所有的原子规则分配到内置搜索引擎和通用搜索引擎采集,该方法记作M1 ;
(2)进行主题规则到原子规则的拆分,考虑原子规则之间的关系,依据原子规则之间的关系分配不同的原子规则调度到内置搜索引擎和通用搜索引擎采集,该方法记作M2,这就是本发明的方法。
[0020]为了统计获取的信息量,方法叫和M2都仅进行URL排重,不进行内容排重。
[0021]围绕某省消防部门,制定的主题规则共有138条,拆分后的原子规则8223条,这些原子规则中存在包含关 系的有4146条,存在互换关系的有717条,存在相同关系的有427条。经过关系判定后,推送到内置搜索引擎队列的原子规则条数为4009条,减少了 4214条,减少比例为51%,对内置搜索目标而言,减少了约一半的访问工作量。推送到通用搜索引擎队列的原子规则条数为8002条,减少了 221条,减少比例为3%。对通用搜索引擎而言,只有原子规则具有了相同关系才能减少访问次数,所以采集次数减少并不明显。
[0022]对获取信息量的比较使用的评测指标:P 二其中,t指单位时间,比如
I个小时、I天等,指单位时间内采集到的信息数目。[0023]不同的单位时间采集到的信息量见表1所示。
[0024]表1.不同的单位时间获取的信息量
【权利要求】
1.一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下: A、将主题规则集拆分成原子规则集JT1; B、判定原子规则集Jr中原子规则M1H的关系; C、将原子规则隼JT分配到内置搜索队列f、通用搜索队列#; D、用#和f中的原子规则进行搜索采集;
JSJt3T.步骤A中所述的将主题规则集R拆分成原子规则隼JT其具体步骤如下: Al、依次从中取出每条主题规则Ri , Rn置空; A2、判段Ri中是否包含“+”关系;如果包含,则转步骤A3 ;否则,JT = py,转步骤A5 ; A3、判断中是否存在“与”分配律。
2.如果存在Hf个(!?>(}),循环执行M次“与”分配律运算,得到;否则,段/ = R1-,转步骤A4 ; A4、依据“ + ”关系将切分成n条原子规则,将W条原子规则放入丑《,转步骤A5 ; A5、得到原 子规则集Ra ; 步骤(C)中所述的将原子规则集分配到内置搜索队列#、通用搜索队列f,其具体步骤如下: Cl、遍历中所有原子规则,没有关系的原子规则直接分别放入#、;如果原子规则有关系,记有关系的原子规则集为Ha',转步骤C2 ;否则,转步骤C6 ; C2、从及~取出一条原子规则,判断它与其他原子规则之间的关系;如果两条原子规则=R^ ,选2?1或分别放入Q1 Qc >转步骤C5;否则,转步骤C3 ; C3、如果as J^r,选或g放入f ,选 < 和g放入,转步骤C5 ;否则转步骤C4 ;C4、如CZi^ ,选if放入# ,选 < 和Rj放入gC,转步骤C5 ;C5、判断中的原子规则是否全部分配完毕,完成转步骤C6 ;否则,转步骤C2 ;C6、得到内置搜索队列jg1和 通用搜索队列f。
【文档编号】G06F17/30GK103617286SQ201310677257
【公开日】2014年3月5日 申请日期:2013年12月13日 优先权日:2013年12月13日
【发明者】仲兆满, 李存华, 管燕 申请人:仲兆满
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1