一种顾及时间意图的主题网络信息采集方法与流程

文档序号:12470387阅读:207来源:国知局
本发明涉及互联网网页搜索领域,特别是获取互联网中特定内容的网页的主题爬行方法,尤其是一种顾及时间意图的主题网络信息采集方法。
背景技术
:主题爬行是获取互联网中特定领域网页的一种关键技术方法,旨在尽可能多地下载与指定主题相关的网页。它主要是根据用户指定的主题,通过以主题相关度计算、URL优先级分配等为主的爬行策略,不断地从泛在网络资源中获取相关网页的信息。基于网页内容的URL优先级分配方法是传统主题爬行常用的方法。其主要是根据两类相关度值计算得到的,具体为:(1)父网页内容主题相关度:其值越高,父网页所包含的URL优先级就越高;(2)锚文本主题相关度:其是指主题与锚文本、锚文本上下文和URL字符串等信息的相关度值,其中锚文本往往是对URL所指向页面内容的概括性描述。在基于网页内容的URL优先级分配方法中,父网页内容主题相关度和锚文本主题相关度常采用余弦公式计算,例如:某URL的父网页内容主题相关度为sim(VDk,VTk),锚文本主题相关度为sim(VAk,VTk),则该URL的优先级Priority(URL)可按如下公式计算:Priority(URL)=θ×sim(VDk,VTk)+γ×sim(VAk,VTk)(1-1)上式中,θ和γ分别表示父网页内容主题相关度和锚文本主题相关度的衰减因子,且满足θ+γ=1。在利用主题爬行方法收集时间敏感的突发事件信息时,时间意图常常会作为主题的一种限定要素。根据ISO19100系列标准的规定(2002),时间对象可被划分为“时刻”和“时段”,其中“时刻”表示时间空间中的一个点;“时段”相当于时间空间中的一条线,有起点、终点和长度等属性。一般来说,网络上关于某一突发事件的信息报道主要出现在事件发生之后,即报道的发布时间应晚于突发事件的起始时间;另一方面,突发事件存在产生、发展、变化和消亡的演化过程,在不同的演化阶段,人们关注该事件的热度也不一样,优先下载关注度较高时段的信息,可满足大多数人的需求,这在一定程度上反映了该事件的时间分布。也就是说,在利用主题进行网络信息采集时,时间意图(如起始时间和时间分布)在信息相关度判断和信息发现优先次序分配方面具有显著的作用。尽管在利用主题爬行方法收集网络信息时通过设定起始时间可单独用于过滤部分不相关的信息,且其时间分布会影响信息发现的优先次序,但是传统网络信息采集方法仍只是关注主题的普通语义,并没有分析利用主题的时间意图,存在时间分布平等化的问题,导致其查准率低。具体表现为:(1)缺乏时间意图的表示方法:传统单向量主题表示方法只是表示主题的关键词,没有提供其时间意图的表示方法;(2)弱化主题起始时间的作用:传统主题相关度计算策略仅依靠网页内容来判断其与主题的相关性,弱化了主题起始时间的作用;(3)忽略主题时间分布影响信息发现优先次序的影响:传统URL优先级分配方法目前主要利用网页内容、锚文本及其上下文、URL字符串、链接关系甚至网页的更新时间,但却忽略了主题时间分布的影响。技术实现要素:本发明要解决的技术问题是提供一种顾及时间意图的主题网络信息采集方法,以减少或避免前面所提到的问题。为解决上述技术问题,本发明提供了一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值;步骤B,采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A获得的所述时间分布的量化值为变量的递增函数,并将其融入到基于网页内容的URL优先级分配方法,从而获得基于时间分布量化值的URL优先级分配计算公式,计算出最终的URL优先级,也就使得受关注时刻的URL获得较高的优先级。优选地,步骤A中的所述先验数据为Google趋势数据。优选地,步骤B中,主题中的时间意图的表达方式如下;主题和网页内容总体上的形式化表达:给定主题T和网页内容D,其按如下公式表示。T=〈VTk,TST,TTD>D=<VDk,TPT>其中,VTk,TST和TTD分别表示主题普通向量,主题的起止时间及其时间分布;VDk和TPT分别表示网页内容的普通向量及其发布时间。主题的形式化表达:其普通向量VTk,起止时间TST和时间分布TTD按照如下公式表达。VTk={(k1,wTk1),(k2,wTk2),...,(ks,wTks)}TST=[tSTs,tSTe]TTD={<[tTDs1,tTDe1],λ1>,...,<[tTDsr,tTDer],λr>}其中,ki表示主题中的第i个普通关键词;wTki表示普通关键词ki的权重;s表示主题中普通关键词的个数;tSTs表示主题的起始时间,tSTe表示主题的结束时间,<[tTDsi,tTDei],λi>表示时间分布中第i个<时段,搜索量指数>对;tTDsi和tTDei分别为第i个时段的起始时间和结束时间,λi为第i个时段的搜索量指数值;网页内容的形式化表达:其普通向量VDk和发布时间TPT按照如下公式表示。VDk={(k1,wDk1),(k2,wDk2),...,(ks,wDks)}TPT=tPT其中,ki表示网页内容中的第i个普通关键词;wDki表示其普通关键词ki的权重;tPT表示网页的发布时间。优选地,步骤B中,计算时间相关度和普通关键词相关度的公式分别如下;计算主题和网页内容的时间相关度按如下公式所示:sim(TPT,TST)=0tPT<tSTs1tSTs≤tPT≥tSTe]]>其中,sim(TPT,TST)表示主题和网页内容的时间相关度值;计算主题和网页内容的普通主题相关度按如下公式所示:sim(VDk,VTk)=Σi=1swTki×wDkiΣi=1swTki2×Σi=1swDki2]]>式中,sim(VDk,VTk)表示主题T和网页内容D的普通主题相关度值。优选地,步骤C中的所述URL优先级分配计算公式为:其中,PriorityT(URL)表示最终的URL优先级,Priority(URL)是现有的基于网页内容的URL优先级分配方法得到的优先级,Pr(t/T)是时间分布量化值的标准化值,也表示发布时间为t的网页与主题T相关的概率;所述阈值在0到1区间取值。优选地,所述阈值设置为0.4。优选地,基于网页内容的URL优先级分配方法得到的优先级Priority(URL)的计算公式为:Priority(URL)=θ×sim(VDk,VTk)+γ×sim(VAk,VTk)其中,θ和γ分别表示父网页内容主题相关度和锚文本主题相关度的衰减因子,且满足θ+γ=1。优选地,所述衰减因子θ设置为0.4,γ设置为0.6。本发明所提供的一种顾及时间意图的主题网络信息采集方法,通过量化主题的起始时间和时间分布,基于时间的国际标准来形式化表达时间意图,形成由时间意图和普通关键词(非时间词语)独立组成的多元化表示方法,接着分步计算时间相关度和普通关键词相关度,最后将量化的时间分布作为某递增函数的变量融入到URL优先级分配方法中计算出URL优先级,大大提高了网页发现数量和查准率。具体实施方式为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。本发明提供了一种顾及时间意图的主题网络信息采集方法,其用于针对主题事件进行互联网网页信息收集排序,其包括如下步骤:步骤A,利用先验数据确定主题事件的起始时间,并量化其时间分布,得到一个时间分布的量化值;主题的时间意图是指主题中包含的时间特征。本发明将主题的时间意图分为明确的时间意图和潜在的时间意图。其中,明确的时间意图是指主题中已明确给出时间界限,如主题“2008年地震”明确指出需要发现2008年的地震信息;潜在的时间意图是指主题中没有明确限定时间特征,但是主题所描述事件本身却暗含时间特征,如主题“汶川地震”暗含汶川地震的起始时间2008年5月21日。在主题网络信息采集发现过程中,主题事件的起始时间和时间分布起着不同的作用,因此,本发明的时间意图识别主要包括两部分:主题事件起始时间的识别及其时间分布的识别。在现有的时间信息检索中,查询词时间意图的识别主要是借助于某些先验数据,如用户搜索日志和经过标注的新闻语料。在此基础上,本发明也将借助先验数据进行主题时间意图的识别。在一个具体实施例中,本发明借助的先验数据是Google趋势(GoogleTrends)数据。Google趋势数据是指在过去一段时间内某一查询词的搜索量指数。Google趋势数据并不是原始的搜索量,而是相对于总搜索量的一个标准化值。经过标准化后,Google趋势数据在0到100之间取值,值越大表明搜索量越大。目前,Google趋势数据已经广泛应用于疾病预测、保护生物学及网络舆情等方面。究其原因,主要是Google趋势数据反映了用户对该查询词所涉及内容的关注程度,搜索量越大,表明关注的人越多,而关注的人越多,越表明发生了与该内容相关的事件。本发明也正是基于Google趋势数据的这一特点来识别地表覆盖主题事件的时间意图,主要分为两步:(1)识别主题事件的起始时间:其主要是依据Google趋势数据中搜索量指数从无到有的变化。因为根据事件产生、发展、变化和消亡的演化过程,主题事件产生之前,关注此主题的用户较少,其搜索量达不到Google趋势数据统计的标准。在实际计算中,基于Google趋势数据的主题起始时间识别方法只识别其起始时段搜索量指数为0的主题。究其原因,一方面,并不是每一个主题都有明确的起始时间(如主题“地震”并不特指某一具体事件,它没有特定的起始时间),这部分主题的起始搜索量指数并不为0;另一方面则源自Google趋势数据本身的限制,Google趋势数据是从2004年1月开始统计的,发生在2004年以前并延续到2004年的主题的起始搜索量指数不为0。最终,识别的主题起始时间是Google趋势数据中首次出现搜索量指数大于0的时刻。(2)量化主题事件的时间分布:其直接利用Google趋势数据中搜索量指数的变化来表示,即采用搜索量指数来量化时间分布。因为Google趋势数据本身就反映了互联网中不同时段内关注该主题的热度变化,即主题事件的时间分布。首先,按照起始时间识别方法可以识别出相应的起始时间,基于Google趋势数据的时间意图识别,可以粗略的识别出主题事件的起始时间。例如主题“汶川地震”在2008年5月至2008年12月非常受用户关注,并且在2009年5月纪念月又重新受到关注,与其演化过程是相符的。这说明直接利用Google趋势数据量化主题事件的时间分布是合理的。此外,百度指数也可作为识别时间意图的先验数据。其与Google趋势数据类似,是以通用搜索引擎百度的查询日志为基础,反映不同的主题查询词在过去一段时间里的用户关注度和媒体关注度。基于百度指数的主题时间意图识别方法与基于Google趋势数据的主题时间意图识别方法类似,在此不再赘述。步骤B,顾及时间意图的主题表示和相关度计算:采用不同的表示方法对主题中的时间意图和普通关键词分别进行表示,并分别计算时间相关度和普通关键词相关度;在现有的主题网络信息采集过程中,通常采用传统单向量表示蕴含时间意图的主题,这样就无法体现起始时间和时间分布。因此,在本发明所提供的方法中,采用不同的形式表示主题的普通关键词、主题的起止时间、主题的时间分布特征以及网页内容的普通关键词和其发布时间。具体为:(1)基于单向量方法表示普通关键词:主题和网页内容的普通关键词采用<关键词,权重>对表示;其维数取决于主题中关键词的个数,在主题不变的情况下,其维数是固定不变的。(2)基于时间国际标准表示时间意图:在国际标准中,时间分为时刻和时段。主题的起始时间和网页内容的发布时间通常是一个时间点,采用时刻表示;为了便于计算,本发明利用时段来表示主题的起始时间和结束时间(即起止时间);其时间分布反映的是不同时间范围内关注该事件的热度变化。因此,时间分布由<时段,搜索量指数>对表示,其中时段对应时间范围,搜索量指数对应主题事件的热度值。特别的,为节约存储空间,不表示搜索量指数为0的时刻。它们的形式化表达如下所示:(1)主题和网页内容总体上的形式化表达:给定主题T和网页内容D,其可以按如下公式表示。T=<VTk,TST,TTD>(1-2)D=<VDk,TPT>(1-3)式中,VTk,TST和TTD分别表示主题普通向量,主题的起止时间及其时间分布;VDk和TPT分别表示网页内容的普通向量及其发布时间。(2)主题的形式化表达:其普通向量VTk,起止时间TST和时间分布TTD可按照如下公式表达。VTk={(k1,wTk1),(k2,wTk2),...,(ks,wTks)}(1-4)TST=[tSTs,tSTe](1-5)TTD={<[tTDs1,tTDe1],λ1>,...,<[tTDsr,tTDer],λr>}(1-6)式中,ki表示主题中的第i个普通关键词;wTki表示普通关键词ki的权重;s表示主题中普通关键词的个数;tSTs表示主题的起始时间,由用户指定或根据步骤A中的方法识别;tSTe表示主题的结束时间,由用户指定或默认为无穷大;<[tTDsi,tTDei],λi>表示时间分布中第i个<时段,搜索量指数>对;tTDsi和tTDei分别为第i个时段的起始时间和结束时间,λi为第i个时段的搜索量指数值,这几个参数可根据步骤A所采用的先验数据(例如Google趋势数据)获得,并省略搜索量指数为0的时段;(3)网页内容的形式化表达:其普通向量VDk和发布时间TPT按照如下公式表示。VDk={(k1,wDk1),(k2,wDk2),...,(ks,wDks)}(1-7)TPT=tPT(1-8)式中,ki表示网页内容中的第i个普通关键词;wDki表示其普通关键词ki的权重;tPT表示网页的发布时间。主题和网页内容中普通关键词的权重计算方法可利用现有技术获得,例如可参考现有文献“WuH,ChenJ,etal.AFocusedCrawlerforBorderlandsSituationInformationwithGeographicalPropertiesofPlaceNames[J].Sustainability,2014,6(10):6529-6552.”所提供的方法获得。正如
背景技术
中所述,传统的主题相关度计算方法仅利用网页内容来判断其是否与主题相关,弱化了主题起始时间可单独过滤部分不相关信息的作用,容易导致某些信息的错判,影响主题爬行的查准率。本发明以传统向量空间模型为基础,从起始时间和普通关键词两个方面出发,采用二步法判断网页内容和主题之间的相关度,从而提供了一种新的顾及起始时间的主题相关度计算策略。其计算流程主要分为以下两步:(1)计算主题和网页内容的时间相关度。因为主题起始时间可单独用于过滤部分不相关的信息,因此,只需比较网页内容的发布时间和主题起止时间即可初步判定其是否与主题相关。因此,时间相关度的计算可如下公式所示。sim(TPT,TST)=0tPT<tSTs1tSTs≤tPT≥tSTe---(1-9)]]>式中,sim(TPT,TST)表示主题和网页内容的时间相关度值;其它参数如前所述。时间相关度值为0,表示网页内容与主题不相关,在爬行中应丢弃该网页;时间相关度值为1,表示网页内容与主题可能相关,其最终的相关性需要通过网页内容来进一步确定。因此时间相关度值为1时就继续计算普通主题相关度。(2)计算主题和网页内容的普通主题相关度。主题和网页内容的普通关键词仍然采用单向量表示,其相关度值可采用传统的余弦公式计算,如下列公式所示。sim(VDk,VTk)=Σi=1swTki×wDkiΣi=1swTki2×Σi=1swDki2---(1-10)]]>式中,sim(VDk,VTk)表示主题T和网页内容D的普通主题相关度值;其它参数如前所述。如果sim(VDk,VTk)大于等于给定的阈值时,则判定该网页内容与主题相关;否则,判定网页内容与主题不相关,并丢弃该网页。在顾及起始时间的主题相关度计算策略中,优先计算时间相关度的原因是时间相关度值的计算比较简单。步骤C,根据步骤B所计算的时间相关度和普通关键词相关度,构建以步骤A中的获得的所述时间分布的量化值为变量的递增函数,并将其融入到基于网页内容的URL优先级分配方法,从而获得基于时间分布量化值的URL优先级分配计算公式,使得受关注时刻的URL获得较高的优先级,从而解决时间分布平等化问题。在主题网络信息采集过程中,主题的时间分布会影响信息发现的优先次序。具体表现为:如果某一URL所对应网页内容的发布时间t存在较多的相关网页,则在主题T确定的前提下,发布时间为t的网页内容与主题T相关的概率Pr(t/T)较大,即在该时刻的URL具有较高的优先级。但是现有URL优先级分配方法并没有考虑这一特性。为了解决这一问题,本发明以时间分布的量化值(即前述Google趋势数据中的搜索量指数)为基础,提供了一种基于时间分布量化值的URL优先级分配方法。其过程是:首先,构建以量化值为自变量的递增函数:由于时间分布的量化值在某种程度上反映了某一时段内发布其相关网页的数量,且量化值与相关网页数呈现正比的趋势,即量化值越大,表明发布的相关网页越多,而递增函数恰恰可以呈现这一特性。因此本发明选择构建以时间分布量化值为指数,以自然常数e为底的指数函数(自然指数函数)。然后,融合递增函数和基于网页内容的URL优先级分配方法:融合前,本方法先基于网页内容的URL优先级分配方法计算出其内容优先级,其值大于等于给定的某一阈值时,才进行融合。这主要是为了确保时间分布只影响相关网页对应URL的发现次序,防止提高不相关网页对应URL的发现次序。在融合时,本发明中主要是将递增函数乘以其内容优先级。最终,基于时间分布量化值的URL优先级分配的公式如下所示。式中,PriorityT(URL)表示最终的URL优先级;Priority(URL)是现有的基于网页内容的URL优先级分配方法得到的优先级,其计算公式可为
背景技术
所提供的公式(1-1);Pr(t/T)是时间分布量化值的标准化值,也表示发布时间为t的网页与主题T相关的概率;该公式中的阈值在0到1区间取值,当其为1时,表示URL优先级一直按传统方法计算;当其为0时,表示URL优先级一直按照融入时间分布的方法计算。在一个优选实施例中,基于时间分布量化值的URL优先级分配方法的计算过程主要分为六步,具体如下:(1)量化主题的时间分布。主题的时间分布可以通过Google趋势数据获得,其量化值为Google趋势数据中搜索量指数。(2)估算待下载URL所对应网页内容的发布时间t。在信息发现过程中,待下载URL所对应网页内容的发布时间是未知的。在本发明中,其计算方法主要有两种:1)基于URL字符串信息的计算方法:当待下载URL字符串本身包含时间信息时(如“http://news.sohu.com/20080905/n259388056.shtml”中的“20080905”为待下载URL所对应网页的发布时间),利用相应的时间正则表达式抽取该时间,并将其作为待下载URL所对应网页内容的发布时间;2)基于父网页内容时间的计算方法:当待下载URL字符串本身不包含时间信息时,将待下载URL父网页内容的发布时间作为其所对应网页内容的发布时间。因为,一方面待下载URL父网页内容的发布时间通常都稍微大于或等于待下载URL所对应网页内容的发布时间,并且Google趋势数据每一个时段的间隔较大。另一方面,这一假设并不影响待下载URL所对应网页与主题的相关度值,只是影响该URL的发现顺序。(3)标准化时间分布的量化值Pr(t/T)。如上所述,只需取得时间t所对应时段的搜索量指数并标准化即可,如以下公式所示。公式中的参数如前所述。(4)计算待下载URL的锚文本主题相关度值sim(VAk,VTk)。其中,锚文本向量(由锚文本及其上下文和URL字符串信息组成)如以下公式所示,VAk={(k1,wAk1),(k2,wAk2),...,(ks,wAks)}(1-13)锚文本主题相关度值如以下公式所示。sim(VAk,VTk)=Σi=1swTki×wAkiΣi=1swTki2×Σi=1swAki2---(1-14)]]>式中,VAk表示锚文本向量;wAki表示锚文本中普通关键词ki的权重;其它参数同前所述。(5)计算待下载URL的内容优先级Priority(URL):其计算公式如
背景技术
所述。因为锚文本是网页对待下载URL的直接描述,相对于父网页的内容而言,锚文本更重要,所以在本发明中将公式中的衰减因子θ和γ分别设置为0.4和0.6。(6)计算待下载URL的最终优先级:其计算公式如(1-11)所示,经实验分析,本发明将公式(1-11)中的阈值设置为0.4。在一个具体实施例中,本发明旨在尽可能多的从网络中发现具有时间特征的网络化信息,同时尽可能少的下载不相关的信息。其基本流程可包括如下五步:(1)准备工作:用户需要指定内容主题和与主题相关的初始URL。然后,利用基于Google趋势数据的时间意图识别方法来确定主题的起始时间,并量化其时间分布。(2)请求和解析网页:利用HTTP协议向互联网请求初始URL或URL优先级队列中优先级最高的URL,以便获取该URL相对应的网页内容。其次,根据网页的文档对象模型(DocumentObjectModel,DOM),解析出网页相应的标题、正文、发布时间、待下载URL及其锚文本信息。(3)主题相关度计算:首先,根据步骤(1)和(2)中获取的主题起始时间和网页内容发布时间,利用公式(1-2)到(1-6)表示主题的起止时间、普通关键词、时间分布及网页内容的普通关键词和发布时间;然后利用公式(1-9)计算它们的时间相关度,过滤掉与主题具有Before时序关系的网页内容;接着,利用公式(1-10)计算普通主题相关度值。当相关度值大于等于某一阈值时,则将该网页保存到网页资源库;否则,判定该网页与主题不相关,并丢弃该网页。(4)URL优先级分配:根据公式(1-11)到(1-14)计算URL优先级,然后按照该优先级值将其存入URL优先级队列中。(5)重复步骤(2)、(3)和(4)直到URL优先级队列为空或达到某一循环条件时为止。在硬件条件和网络带宽相同的情况下,本发明所提供的方法可比现有主题网络信息采集方法提高10%-30%的网页抓取数量,并能提高10%左右的查准率。本发明所提供的一种顾及时间意图的主题网络信息采集方法,通过量化主题的起始时间和时间分布,基于时间的国际标准来形式化表达时间意图,形成由时间意图和普通关键词(非时间词语)独立组成的多元化表示方法,接着分步计算时间相关度和普通关键词相关度,最后将量化的时间分布作为某递增函数的变量融入到URL优先级分配方法中计算出URL优先级,大大提高了网页发现数量和查准率。本领域技术人员应当理解,虽然本发明是按照多个实施例的方式进行描述的,但是并非每个实施例仅包含一个独立的技术方案。说明书中如此叙述仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体加以理解,并将各实施例中所涉及的技术方案看作是可以相互组合成不同实施例的方式来理解本发明的保护范围。以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1