一种基于能量函数的网页时间敏感性度量方法

文档序号:6544338阅读:164来源:国知局
一种基于能量函数的网页时间敏感性度量方法
【专利摘要】本发明公开了一种基于能量函数的网页时间敏感性度量方法,属于数据质量的研究范畴,涉及时态Web、网络信息质量评估、使用模式等【技术领域】。目前,Web垃圾信息泛滥,数据质量低下已经成为普遍现象。导致这一现象的一个重要原因是信息是时间敏感的,即信息是随着时间的推移而变化的。然而不同信息的时间敏感程度是不一样的,为统一度量信息的时间敏感度,本发明根据Web用户对信息的需求、信息量的增加和页面的链接关系三个方面对网页的能量进行度量,用能量的变化刻画网页的时间敏感度。本方法可应用于网页质量评价和排序,也可应用于信息检索中,以提高检索结果的质量。
【专利说明】一种基于能量函数的网页时间敏感性度量方法
【技术领域】
[0001]本发明属于时态Web、Web信息质量评估、使用模式等【技术领域】,涉及数据质量的研究范畴,特别涉及一种基于能量函数的网页时间敏感性度量方法。
【背景技术】
[0002]时态Web:近年来,时态Web日渐成为学者们关注的焦点。Web学术的权威国际会议 ffffff (International World Wide Web Conference)在 2011 年专门设立了 “时态 Web”
研讨会-TffAffCTemporal Web Analytics Workshop)。该研讨会主要讨论了时间信息检
索、Web内容的时间性和Web档案的搜索与访问的时间性三个方面。Omar Alonso等分析了文档中时间信息的类型,时间的表述方式及形式化,时间的标注等内容,指出了时态网络的研究方向,包括时空信息挖掘、时态检索、时间相似度与实时搜索等。Mikl0s Erd6lyi等提出了新的基于特征的时态链接相似度,给出了在大规模的图中高效计算的方法,用以探测网络的垃圾信息。Marilena Oita等研究了网页进化的规律,并对近年来捕捉网页随时间而变化轨迹的各种最优方法进行了对比。
[0003]另外,Brian D.Davison等人基于在不同时间点的多种网络快照组成的时态Web图,建立了网络冲浪模型来组合各个网络的刷新率。Jure Leskovec等人对在线媒体的时态变化模式进行了研究,他认为网页内容存在产生、发展和消退的生命周期,他们对生命周期内网页内容随时间变化的规律性进行了研究,并针对两组不同时间敏感度的网页进行了时态模式实验。Yun Chi等通过“社区分解”分析结构和时间动态变化发现社区。SusanT.Dumais分析了 Web内容随时间的变化,用户重复访问网页的行为,以及用户意图和网页内容对用户重复访问模式的影响,并将Web页面和链接的演化模式、文档改变数量和频率等应用到相关度排序中,以改善排序结果。
[0004]Web信息质量评估:与本发明相关的Web信息质量评估主要涉及可信度、新鲜度、时效性、三个方面:
[0005](I)可信度方面:Weiyi Meng和Clement Yu基于信息的正确性、新鲜度和一致性,研究了 Web信息的真实性,他们利用Web中的其他信息判断给定语句是否真实,并针对虚假的陈述找出最相近的真实表达;
[0006](2)新鲜度方面:新鲜度(Freshness)的研究开始得很早,已经有了广泛研究。特别是在搜索领域,新鲜度已经逐渐成为一个度量搜索结果的重要标准。Brian D.Davison从Web用户的维护活动中挖掘网页的新鲜度,并将这个特征用于搜索。他们从页面本身和链入页面两方面量化了 Web随着时间推移的新鲜度,并利用两种新鲜度度量类型间的时间相关性量化页面新鲜度的可信性。Jun Ma等人提出了一个基于网页的发表时间的网页质量排序模型,并将该模型应用于PageRank算法中,以提高检索性能;
[0007](3)时效性方面:时效性(timeliness)是评价Web信息质量的一个重要指标,陈传夫等人提出了一个时效性评估框架,在采用层次分析法确定各级指标权重的过程中,构造了时效性指标的判断矩阵。Yanlong Zhang等提出了平均发布时延(Mean Time DelayTo Publish)、网站演化速度(Site Evolution Speed)和主页更新频率(Homepage UpdateFrequency)三种网站时效性度量方法。Elad Yom-Tov和Fernando Diaz针对三个新闻事件,研究了新闻媒体(电视、报纸和新闻网站)、社会媒体(包括Facebook和Twitter)和搜索引擎三种信息源的时效性和信息源传播范围与地理位置之间的关系。Sandra de F.MendesSampaio等人构建了基于数据的准确度、完整度和时效性的数据质量评价模型对网页进行评价,并将该模型应用到已有的信息查询系统中,以提高查询结果的质量。
[0008]然而,时间敏感性分析与时效性度量、新鲜度和可信度是有区别的。Web内容的时效性度量往往是在时间戳缺失、不完整或者不确定的情况下确定Web内容是否过时,换句话说,Web内容的时间戳可能没有、不完整或者不确定,进行时效性度量就是要找到Web内容的时间戳;Web内容的新鲜度是仅仅是考虑信息发布的时间与当前系统时间的距离。而Web内容的时间敏感性分析就是发现Web内容随时间变化而变化的快慢规律,从而可以帮助确定Web内容的时间戳进行时效性度量。也就是,时效性度量、新鲜度只需要明确数据的时间戳,确定是否过时,是否新鲜,不需要考虑中间过程,是以目的为导向的。而敏感性分析却需要考虑信息随时间变化的过程和规律,不需要确定是否过时,是以过程为导向的。
[0009]可信度与敏感性分析的差别在于,Web内容的可信度是考虑Web内容的表达是否正确、可靠和真实,时间只是参考因素,而敏感性分析并不考虑内容的真实性,时间是研究的主要对象。
[0010]其他Web信息质量评估的方法还包括:方滨兴等研究了利用网页质量评价的新维度一社会性标注一一以改进网页检索性能;中科院钟华、黄涛等提出了一种网络资源敏感的性能诊断方法。
[0011]本发明还涉及到使用模式方面的研究:在使用模式(Usage Pattern)方面,已有大量的研究工作。K Sudheer Reddy等人采用了一种基于模式摘要的聚类方法,挖掘对网站通常进行不定期访问的用户的行为模式。Lixuan Zhang和Iryna Pentina将微博用户与Twitter用户进行了对比,研究了新浪微博用户的动机和使用模式。上述研究仅限于发现模式,而Robert Cooley等人则研究了这些发现的模式是否有趣,他们基于支持逻辑(Support Logic)提出了一个量化模型,用于度量模式的趣味性,在Web数据中自动识别有趣的模式。在使用模式的应用方面,主要是用于帮助用户快速获取目标信息和对用户进行个性化推荐。Qiqi Jiang等人采用序列分析的方法研究不同的网页浏览模式,识别出搜索信息浏览、社会信息浏览、电子商务信息浏览和直接浏览四类独特的Web浏览行为类别。Oznur Kirmemis Alkan和Pinar Karagoz提出了一个新的模式挖掘框架,该框架将用户会话的聚类与PathSearch-BF算法结合,构建智能访问路径,促进网站的个性化,辅助用户更容易到达目标页面。Yanchun Zhang等人基于Web事务数据,研究了以任务为对象的用户行为模式,结合概率潜在语义分析(PLSA)模型,提出了一个Web推荐框架,依据派生任务优先的规则,给用户推荐感兴趣的内容或者定制信息。使用模式除了被用于推荐外,还有可以应用与其他一些领域。Nurit Gal-Ozl等人从Web应用的使用信息和使用模式中挖掘用户的角色。Johann Schrammel等人研究了在不同类型的Web社区中用户的个性特征、使用模式和信息泄露之间的关系。
[0012]随着Web信息的飞速增长,Web正日益成为人们发布和获取信息最主要渠道,Web信息质量变得尤为重要。目前,Web垃圾信息泛滥,数据质量低下已经成为普遍现象。导致这一现象的一个重要原因是信息是时间敏感的,即信息是随着时间的推移而变化的,然而不同信息的时间敏感程度是不一样的。

【发明内容】

[0013]为统一度量信息的时间敏感度,本发明提出了一种基于能量函数的网页时间敏感性度量方法。
[0014]为完成上述目标,本发明所采用的技术方案是:一种基于能量函数的网页时间敏感性度量方法,其特征在于,包括以下步骤:
[0015]步骤1:选取目标网页集合D,利用已有爬虫爬取目标网页集合,针对网页集合D中的任意一个网页d,通过信息抽取算法从无结构的网页文本中抽取结构化的网页信息,作为网页时间敏感性特征;所述的网页时间敏感性特征包括网页的标题、网页的发布时间、网页的正文内容、网页的正文标签、网页的链出链接、用户访问与评论的时间序列;
[0016]步骤2:基于步骤I中所述的网页时间敏感性特征,构建网页能量函数模型,计算每个特征对网页的能量贡献;其具体实现包括以下子步骤:
[0017]步骤2.1:根据网页的正文内容计算网页的时间词信息量IVtw(d),基于网页的时间词信息量IVtw(d)与网页的发布时间,计算网页发布时刻即h时刻网页信息本身产生的初始能量,并定义网页信息的衰减函数,计算在tk时刻网页信息本身的能量:
[0018]步骤2.2:根据网页的标题、网页的正文内容和网页的正文标签,计算网页的主题
信息覆盖度IVtopi。,基于主题信息覆盖度IVtopi。,计算网页在tk时刻主题信息覆盖的能量贡献 eWtopfc
[0019]步骤2.3:依据网页的链出链接,构建网页的链接网络,并计算其链接网络在tk时亥Ij对该网页的能量贡献elink(tk, d);
[0020]步骤2.4:基于用户的访问序列和评论序列,定义用户访问与用户评论网页信息的衰减函数,计算网页在tk时刻,用户访问与用户评论对网页的能量贡献ej()in(tk,d);
[0021 ] 步骤3:基于步骤2中所述的tk时刻网页信息本身的能量:句、网页
在tk时刻主题信息覆盖的能量贡献、链接网络在tk时刻对该网页的能量贡献elink(tk, d)和网页在tk时刻用户访问与用户评论对网页的能量贡献ej()in(tk,d),计算网页在tk时刻的总能量Eng (tk, d);
[0022]步骤4:计算网页在tk时刻的时间敏感度。
[0023]作为优选,步骤2.1中所述的时间词信息量IVtw(d)和tk时刻网页信息本身的能量分别Cw为.
【权利要求】
1.一种基于能量函数的网页时间敏感性度量方法,其特征在于,包括以下步骤: 步骤1:选取目标网页集合D,利用已有爬虫爬取目标网页集合,针对网页集合D中的任意一个网页d,通过信息抽取算法从无结构的网页文本中抽取结构化的网页信息,作为网页时间敏感性特征;所述的网页时间敏感性特征包括网页的标题、网页的发布时间、网页的正文内容、网页的正文标签、网页的链出链接、用户访问与评论的时间序列; 步骤2:基于步骤I中所述的网页时间敏感性特征,构建网页能量函数模型,计算每个特征对网页的能量贡献;其具体实现包括以下子步骤: 步骤2.1:根据网页的正文内容计算网页的时间词信息量IVtw(d),基于网页的时间词信息量IVtw(d)与网页的发布时间,计算网页发布时刻即h时刻网页信息本身产生的初始能量,并定义网页信息的衰减函数,计算在tk时刻网页信息本身的能量(?,d); 步骤2.2:根据网页的标题,网页的正文内容和网页的正文标签,计算网页的主题信息覆盖度IVttjpi。,基于主题信息覆盖度IVttjpi。,计算网页在tk时刻主题信息覆盖的能量贡献 步骤2.3:依据网页的链出链接,构建网页的链接网络,并计算其链接网络在tk时刻对该网页的能量贡献elink(tk, d); 步骤2.4:基于用户的访问序列和评论序列,定义用户访问与用户评论网页信息的衰减函数,计算网页在tk时刻,用户访问与用户评论对网页的能量贡献ej()in(tk,d); 步骤3:基于步骤2中所述的tk时刻网页信息本身的能量网页在tk时刻主题信息覆盖的能量贡献链接网络在tk时刻对该网页的能量贡献elink(tk,d)和网页在tk时刻用户访问与用户评论对网页的能量贡献ej()in(tk,d),计算网页在tk时刻的总能量 Eng(tk,d); 步骤4:计算网页在tk时刻的时间敏感度。
2.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤2.1中所述的时间词信息量IVtw(d)和tk时刻网页信息本身的能量分别为:
3.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤2.2中所述的主题信息覆盖度IVt_和tk时刻主题信息覆盖的能量贡献分别为:
4.根据权利要求1所 述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤2.3中所述的链接网络在tk时刻对该网页的能量贡献elink(tk,d)为:
eIink (tk,d) -elinkin (tk, d) +elinkout (tk, d),其中
5.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤2.4中所述的在tk时刻用户访问与用户评论对网页的能量贡献e_n(tk,d)为:
6.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤3中所述的网页d在tk时刻的总能量Eng(tk, d)为:

7.根据权利要求1所述的基于能量函数的网页时间敏感性度量方法,其特征在于:步骤4中所述的网页在tk时刻的时间敏感度为
【文档编号】G06F17/30GK103927365SQ201410160080
【公开日】2014年7月16日 申请日期:2014年4月21日 优先权日:2014年4月21日
【发明者】李石君, 甘琳, 朱昌盛, 刘世超, 余伟, 李宇轩 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1