基于Web时间不一致的过时网页自动发现与排序方法

文档序号:6559426阅读:143来源:国知局
专利名称:基于Web时间不一致的过时网页自动发现与排序方法
技术领域
本发明涉及时态狗仏网页质量评估及时效性度量、基于时间感知的Wfeb网页信息检索系统、Web信息抽取、时态数据库等技术领域,尤其涉及一种基于Web时间不一致的过时网页自动发现与排序方法及系统。
背景技术
时态Web 近年来,时态Web日渐成为学者们关注的焦点。Web学术最权威的国际 WWW (International World Wide Web Conference)在 2011 时专门设立了“时态 Web”
研讨会。Na Dai等人基于在不同时间点的多种网络快照组成的时态Web图,建立了网络冲浪模型来组合各个网络的刷新率[1]。Marius Pasca研究发现,在对标记了时间戳的网页文档进行检索时,用户的检索词可能跟时间高度相关,而这些时间检索词可以分成显性和隐性两类ra。Yim Chi等通过“社区分解”来分析结构和时间动态变化发现社区ω。时态Web 的相关成果为本发明的研究提供了理论基础,时态Web研究虽然有较系统而深入的研究, 但是对Web时间不一致性并未进行定义和研究。网页质量评估及时效性度量现有研究表明,虽然部分研究成果从一定程度上揭示了网络资源的时间分布特性和时间敏感度[2’5],但鲜有学者专门针对网页信息内容的时间一致性问题开展研究。方滨兴等研究了利用网页质量评价的新维度(社会性标注)以改进网页检索性能⑷。中科院钟华、黄涛等提出了一种网络资源敏感的性能诊断方法te]。陈传夫等在采用层次分析法确定各级指标权重的过程中,构造了时效性指标的判断矩阵fc]。 Brian D. Davison等人利用网页新鲜度来评估网页质量,并从页面本身和它的链入页面两方面来度量网页的新鲜度[7]。事实上,以上的测评指标均针对的是网站内容的整体质量和一般意义上的信息时效性,对于网页的时间不一致性并未进行建模和度量。基于时间感知的Web网页信息检索系统以I^ageRank (网页级别)为代表的基于链接分析打分方法用于标识网页的等级和重要性,虽然I^ageRank等主流搜索算法开始考虑了时间维度,但是仅仅是简单的参考网页的更新时间,并未考虑网页的一致性和表达用户搜索意图的关键字的时间信息,故在时间敏感搜索中,其排序结果存在一定的偏差,常常不尽人意[8]。因此,对已有的检索模型的时间体系的扩展与深化成为必然。近年来,不断出现对基于时间的信息的检索系统,Klaus Berberich等提出一种索引结构,能有效地对带有时间信息的文档进行高性能的检索支持[9],但该结构仅仅支持基于时间点的查询,不支持带有时间段信息的查询。Susan Τ. Dumais通过研究随时间变化的用户兴趣如何影响用户访问方式,提出一个结合内容时间演化的信息检索模型[1°]。Zhumin Chen研究了基于发表时间(P-time)的时间敏感型网页的排序模型,并在文中提出了在没有明显P-time时推断网页发表时间的方法[11]。Web信息抽取Weikum,Gerhard等人研究了一个基于知识理解的命名实体、它们的语义类,以及它们的相互关系[12]。Steven khockaert等人提出了基于Allen区间代数的模糊化框架,通过使用简单的启发式技术,从Web文档中提取时间信息,并通过模糊时间推理提高抽取信息的可靠性,处理了由于事件的模糊引起的冲突[13]。Utku Irmak和Reiner Kraft研究了命名结构实体,提出了一种检测半结构实体的新三级引导框架,描述了电话、 日期和时间实体,并进行英语、德语、波兰语、瑞典语和土耳其语文件的广泛评价[14]。Tim Weninger等人提出一种基于文本与标记比率的方式抽取各种Web页面内容的方法[15]。 Mohammed Kayed等人提出一种基于网页模板的页面级Web抽取方法[16]。时态数据库及其它相关研究时态数据库技术将时态信息引入到传统数据库,近来时态数据在理论、模型及标准化等研究领域都取得了丰硕成果,包括时态数据库模型、历史关系模型、历史关系代数、对象历史模型等[18],目前应用最广的是基于双时态概念模型的 TSQL2 (Temporal Extension to the SQL_92Language)。国内汤庸等运用时态逻辑和动态逻辑对时态数据库的时间轴进行了公理化建模,并设计和实现了时态数据处理原理系统 [19]。Alessandro Artale等人将概念数据模型扩展到时间维,提出了时间概念模型,从时间标记、演化、转化和生命周期等方面进行推理研究,并度量了推理的复杂性_]。Haiquan Chen等人使用基于贝叶斯推理的方法对时空冗余的数据进行清洗[21]。总之,现有研究在时态ffeb、网页质量评估及时效性度量进行了较深入的研究,但在Web时间不一致性建模、推理和度量,以及网站过时信息自动发现与排序方面,还没有进行系统深入的研究。参考文献[l]Na Dai, Brian D.Davison :Freshness Matters :In Flowers, Food, and Web Authority. SIGIR 2010:114-121.[2]Marius Pasca =Towards Temporal Web Search. SAC March 16-20,2008: 1117-1121.[3]Yun Chi, Shenghuo Zhu, Xiaodan Song, Jun ' ichi Tatemura, Belle L. Tseng Structural and temporal analysis of the blogosphere through community factorization. KDD 2007 :163-172.[4]刘凯鹏,方滨兴.一种基于社会性标注的网页排序算法.计算机学报· Vol. 33(6),2010 :1014-1023.[5]王伟,张文博,魏峻,钟华,黄涛.一种资源敏感的Web应用性能诊断方法.软件学报.Vol. 21(2), 2010 194-208.[6]陈传夫,唐琼,于媛,吴志强等.网络上科学信息的时效性测量.情报学报.Vol. 28 (4), 2009 :610-617.[7]Na Dai, Brian D.Davison :Capturing Page Freshness for Web Search. SIGIR,2010 :871-872.[8]Junghoo Cho,Sourashis Roy,Robert E. Adams :Page Quality :In Search of an Unbiased Web Ranking. SIGMOD 2005 :551-562.[9]Klaus Berberich,Srikanta J. Bedathur, Thomas Neumann, Gerhard Weikum Atime machine for text search. SIGIR 2007 :519-526.[10]Susan T. Dumais :Temporal dynamics and information retrieval. CIKM2010 :7-8.[11]Zhumin Chen,Jun Ma,Chaoran Cui,Hongxing Rui,Shaomang Huang :WebPage
10Publication Time Detection and its Application for Page Rank. SIGIR 2010 859-860.[12]Weikum,Gerhard and Theobald, Martin :From information to knowledge harvesting entities and relationships from web sources. PODS 2010 :65-76.[13]Steven Schockaert,Martine De Cock,Etienne E. Kerre-Reasoning about fuzzy temporal information from the web towards retrieval of historical events. Soft Comput. (SOCO)2010, Vol. 14(8) :869-886.[14]Utku Irmak, Reiner Kraft :A scalable machine-learning approach for semi-structured named entity recognition. Wffff 2010 :461-470.[15]Tim Weninger,Wi11iam H. Hsu,Jiawei Han :CETR :content extraction via tag ratios. Wffff 2010 :971-980.[16]Mohammed Kayed, Chia-Hui Chang.FiVaTech :Page_Level Web Data Extraction from Template Pages.IEEE Transactions on Knowledge and Data Engineering. 2010,Vol. 22(2) :249-263.[17]李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法.计算机研究与发展,2006,Vol. 43(9) :1644-1650.[18]Fusheng Wang, Carlo Zaniolo, Xin ZhouArchIS :an XML-based approach to transact ion-time temporal database systems.The VLDB Journal,2008, 17 1445-1463.[19]刘冬宁,汤庸.时态数据库时间轴的动态逻辑模型.软件学报.Vol. 21, No. 4, April 2010:694-701.[20]Alessandro Artale, Roman Kontchakov, Vladislav Ryzhikov, Michael Zakharyaschev :Complexity of Reasoning over Temporal Data Models. ER 2010 174-187.[21]Haiquan Chen, Wei-Shinn Ku, Haixun Wang, Min-Te Sun !Leveraging Spatio-Temporal Redundancy for RFID Data Cleansing. SIGMOD 2010 :51-62.

发明内容
针对上述存在的技术问题,本发明基于网页的生命周期,提出了一种基于ffeb时间不一致的过时网页自动发现与排序方法。本发明将涉及概念“Web时间一致性”和“Web 时间不一致性”,Web时间不一致性指在当前情境下,网页所表述的时间与用户关注和理解的实际时间存在歧义性和冲突性,这个概念是评价网络信息质量的一项重要指标,关系到网页内容的时效性和精准性。为解决上述技术问题,本发明采用如下的技术方案一、一种基于Web时间不一致的过时网页自动发现与排序方法,包括以下步骤步骤一、针对不同网页信息对时间的敏感程度和Web中存在的时间不一致问题, 建立Web时间不一致模型,其中,Web时间不一致模型包括网页时间不一致模型、网页与栏目时间不一致模型、不同网站相同栏目时间不一致模型;该步骤进一步包括以下子步骤1-1对不同网页信息进行敏感性分析,依据网页的主题和信息关于时间的变化趋势对网页进行分类,并估算出每一类网页对时间敏感的程度区间;1-2利用Web信息的时间轴在逻辑上的序关系建立Web时间关系向量模型;1-3针对每一类网页自身存在的时间不一致问题,依据Web时间关系向量模型构建网页时间不一致模型,其中,网页时间不一致模型包括时延不一致模型、约束不一致模型和无约束不一致模型;1-4针对网站栏目中网页时间信息与栏目内涵之间的时间不一致性问题,依据 Web时间关系向量模型构建网页与栏目时间不一致模型,其中,网页与栏目时间不一致模型包括时延不一致模型、约束不一致模型、无约束不一致模型;1-5针对不同网站的相同栏目下描述相同信息的网页的时间不一致问题,依据 Web时间关系向量模型建立不同网站相同栏目时间不一致模型,其中,不同网站相同栏目时间不一致模型包括比较不一致模型和预测不一致模型;步骤二、利用时间知识概念模型、正则文法匹配和模式代数对Web信息进行多维度时间抽取,其中,多维度时间包括事件发生时间、写稿时间、发布时间、阅读时间、转载时间和文本过期时间;步骤三、依据Web时间不一致模型对网页进行分类,并根据抽取的Web信息多维度时间,进行Web时间不一致度量,得到网页的时间不一致度量程度,其中,Web时间不一致度量包括网页自身的时间不一致度量、网页与栏目之间的时间不一致度量、不同网站相同栏目之间的时间不一致度量;网页自身的时间不一致度量程度和网页与栏目之间的时间不一致度量程度均为
权利要求
1. 一种基于Web时间不一致的过时网页自动发现与排序方法,其特征在于,包括以下步骤步骤一、针对不同网页信息对时间的敏感程度和Web中存在的时间不一致问题,建立 Web时间不一致模型,其中,Web时间不一致模型包括网页时间不一致模型、网页与栏目时间不一致模型、不同网站相同栏目时间不一致模型;该步骤进一步包括以下子步骤1-1对不同网页信息进行敏感性分析,依据网页的主题和信息关于时间的变化趋势对网页进行分类,并估算出每一类网页对时间敏感的程度区间;1-2利用Web信息的时间轴在逻辑上的序关系建立Web时间关系向量模型; 1-3针对每一类网页自身存在的时间不一致问题,依据Web时间关系向量模型构建网页时间不一致模型,其中,网页时间不一致模型包括时延不一致模型、约束不一致模型和无约束不一致模型;1-4针对网站栏目中网页时间信息与栏目内涵之间的时间不一致性问题,依据Web时间关系向量模型构建网页与栏目时间不一致模型,其中,网页与栏目时间不一致模型包括时延不一致模型、约束不一致模型、无约束不一致模型;1-5针对不同网站的相同栏目下描述相同信息的网页的时间不一致问题,依据Web时间关系向量模型建立不同网站相同栏目时间不一致模型,其中,不同网站相同栏目时间不一致模型包括比较不一致模型和预测不一致模型;步骤二、利用时间知识概念模型、正则文法匹配和模式代数对Web信息进行多维度时间抽取,其中,多维度时间包括事件发生时间、写稿时间、发布时间、阅读时间、转载时间和文本过期时间;步骤三、依据Web时间不一致模型对网页进行分类,并根据抽取的Web信息多维度时间,进行Web时间不一致度量,得到网页的时间不一致度量程度,其中,Web时间不一致度量包括网页自身的时间不一致度量、网页与栏目之间的时间不一致度量、不同网站相同栏目之间的时间不一致度量;网页自身的时间不一致度量程度和网页与栏目之间的时间不一致度量程度均为ηInCon(W) = J^ai χwebpage.Inconsistency(i),InCon(W)为网页 W 的时间不一致度量程度;ηi=l为网站中时间不一致网页存在的时间不一致问题类型的数量;α 时间不一致问题类型i 的权值;webpage. Inconsistency (i)表示网页W的第i类时间不一致问题的时间不一致程度;不同网站相同栏目之间的时间不一致度量程度包括比较不一致度量程度和预COS < X, V > ,-—^ + 1■ f —Ifcitfi 禾呈 S,te ^ ^ - Ifc it fi fM it InConCompare{wx W2) = ^J^, InConCompare (ffl, W2)表示网页W1和W2的比较不一致程度,x, y分别为网页W1和W2的事COS < X, V > ,-—^ + 1件描述向量;预测不一致度量程度『2)= MM ; InConPre (wl,ff,)表示网页W1和W2的预测不一致程度,χ, y分别为网页W1和W2的事件描述向量;步骤四、构造时间不一致规则集,通过时间不一致规则集、基于时间知识概念的规则集、时间不一致逻辑推理算子,基于抽取的Web信息多维度时间,进行Web时间不一致推理, 其中,时间不一致规则集包括时延不一致规则集、约束不一致规则集、无约束不一致规则集、比较不一致规则集、预测不一致规则集;Web时间不一致推理包括网页时间关系向量中未知维度时间值推理、相同主题网页信息的时间不一致推理、不同网站相同栏目的时间不一致统计推理;步骤五、根据用户输入的网站地址,基于Web时间不一致模型、Web时间不一致度量、 Web时间不一致推理得出每个网页的时间不一致程度,并根据网页的时间不一致程度自动发现网站过时网页,并给出过时网页列表。
2.根据权利要求1所述的基于Web时间不一致的过时网页自动发现与排序方法,其特征在于,还包括步骤基于Web时间不一致模型、Web时间不一致度量、Web时间不一致推理,按照网站信息新鲜度对同类网站网页进行排序,其中网站信息新鲜度
3.根据权利要求1所述的基于Web时间不一致的过时网页自动发现与排序方法,其特征在于,还包括步骤基于Web时间不一致模型,根据用户搜索关键词中表示时间的语义,将检索结果根据 Web时间不一致问题和相应的时间不一致程度进行时间感知排序。
4.根据权利要求1、2或3所述的基于Web时间不一致的过时网页自动发现与排序方法,其特征在于所述步骤一的子步骤1-3和1-4中的时延不一致模型、约束不一致模型、无约束不一致模型为时延不一致模型网页事件e的发生时间与发布时间的延迟
5.根据权利要求1、2或3所述的基于Web时间不一致的过时网页自动发现与排序方法,其特征在于所述步骤一的子步骤1-5中的比较不一致模型和预测不一致模型的工作流程分别如下比较不一致模型的工作流程为①对网页W1进行事件挖掘,得出该网页的事件描述向量χ;②依据网页W1描述的事件e的发表时间Tpublish(e),确定网页W1的邻域时间区间
6.根据权利要求1、2或3所述的基于Web时间不一致的过时网页自动发现与排序方法,其特征在于所述的步骤四中的时间不一致规则集如下时延不一致规则集设t为事件e的时延不一致临界值,若= 1,则时延一致;若i (A^tA(e;M) = 0,则时延不一致;其中,R为时态系统T中的时间序关系;约束不一致规则集网页事件e对于当前时间t,a)若有]1,s为一时间点,R(t,s) =1 时,满足 Ge = 1,而且如。,当 R(s。,t)=丄时 τ (t,Ge) = 0,当 R(t,s。)= 1 时 τ (t, He) = 1则事件e过期,且过期时间点为s0’即称事件e的正过期距离为S(1-t。b)若丸力, R (s, s0) =UR(t,s) = 1时,满足Ge = 1,而且力=1时,事件e过期,则称事件e 有效,且过期时间点为Stl,即称事件e的负过期距离为%-t ;其中,R为时态系统T中的时间序关系;Ge表示在所有将来时间,e都为真;τ为时态系统T中的真假赋值函数;He表示在过去时间,e总归为真;无约束不一致规则集设t为临界时间,、为系统当前时间,e为网页W描述的事件, e’为网页W’描述的事件,当R(Tpubli。at ,t) = 1时,认为网页W无约束不一致。而且对所有无约束一致的网页满足 ^^publicate (^)' Tpublicate (θ ) ^ (TpuI3^icate (θ) ? t〇)—1, R(Tpublicate(e' ),t0) = 1,当 R(Tpubli。ate(e),Tpublicate(e' )) = 1 时,有网页 W,的优先级比 W高;比较不一致规则集e为网页W描述的事件,e’为网页W’描述的事件,对任意的相似网页 W,W,当
7.根据权利要求1、2或3所述的基于Web时间不一致的过时网页自动发现与排序方法,其特征在于所述的步骤五进一步包括以下子步骤 5-1时间不一致网页的抽取、推理和度量①信息抽取针对筛选出来的时间敏感性网页,进行时间信息抽取,包括网页所在栏目标题时间信息抽取、网页标题时间信息抽取、网页内容时间维度抽取;②Web时间不一致推理采取步骤四中的Web时间不一致推理方法,对于未抽取到的网页时间维度,进行网页时间不一致推理,由网页的已知维度推理出网页的未知维度,以及相似网页的时间维度推理出未知网页时间维度;③Web时间不一致度量在时间信息抽取的基础上,通过Web时间不一致推理,进行网页的时间不一致模式识别,依据不同的模式,采用不同的时间不一致模型进行时间不一致度量;5-2网站过时网页的自动发现①依据每一类时间不一致度量,得出每个网页的每一类时间不一致程度;②若maxUnconsistencyG)}彡a,则认为网页为过时网页;其中,i为时间不一致类型;Inconsistency (i)为网页的第i类时间不一致类型的时间不一致程度;a为网页过时临界值,0.5彡a彡1,一般取a = 0.5;5-3基于Wfeb时间不一致的过时网页排序依据每一种时间不一致程度和max {Inconsistency (i)}将网页进行过时网页排序,给出过时网页分类列表和总排名列表,其中,过时网页分类表包括网页时间不一致的过时网页列表、网页与栏目时间不一致的过时网页列表和相同栏目不同网站时间不一致的过时网页列表。
8.根据权利要求3所述的基于Web时间不一致的过时网页自动发现与排序方法,其特征在于该步骤进一步包括以下子步骤1建立表示时间的词语的词库,对词库中的时间词进行分类; 2对每类时间词建立不同的约束函数;3根据用户的搜索关键词中的时间词,匹配约束函数,并采用相应的检索模型,将检索结果进行时间感知排序。
9.根据权利要求8所述的基于Web时间不一致的过时网页自动发现与排序方法,其特征在于所述的步骤1中将词库中的时间词分为两类,第一类为表示“最新”概念的时间词,第二类为表示“一段时间”的时间词;所述的步骤2中的约束函数有两类第一类约束函数是针对第一类时间词建立,为(F)^qJ-(『’)<。W’和W 分别为网页列表中的不同网页,、为系统当前时间,当Tpublish (W) < Tpublish (W')时,网页W’ 的优先级高于网页W,其中,Tpublish(W)、Tpublish(W')分别为网页W’和W的发布时间;第二类约束函数是针对第二类时间词建立,为t (keyword) < Tpublish(W) < t0, W表示网页列表中的任意网页,其中,、为系统当前时间,t(keyWOrd)表示搜索关键词所表示的时间段,Tpublish(W)为网页W的发布时间; 所述的步骤3进一步包括子步骤①采用查询评估技术,采用检索模型得到一个初步的网页列表L;②采用检索模型,对网页列表L中的网页发表时间进行约束匹配;③根据ConScore(q,W)来确定网页列表中网页的顺序,ConScore (q, W) = α (q, W) X Sim (q, W) + β (q, W) X Sim_t (q, W) + y (q, W)X (I-InCon(W)) 其中,ConScore (q, W)网页W对某一查询q的相似度; Sim (q, W)网页相似度;Sim_t (q, W)对网页列表L中的网页发表时间进行约束匹配时,若网页发表时间满足约束,则 Sim_t (q,W) = 1,否则,Sim_t (q,W) = O ; InCon(W)网页W的时间不一致性程度值; α (q,ff) :Sim(q, W)的权重;β (q,W)网页W的新鲜度,
10. 一种基于Web时间不一致的过时网页自动发现与排序系统,其特征在于,包括①过时网页自动发现模块、②同类网站信息新鲜度排序模块和③时间感知搜索模块;①过时网页自动发现模块进一步包括子模块时间信息抽取模块、Web时间不一致推理模块、Web时间不一致度量模块、基于Web时间不一致的过时网页排序模块,其中时间信息抽取模块,用于针对筛选出来的时间敏感性网页,进行时间信息抽取;时间信息抽取模块包括子模块用于抽取网页所在栏目标题时间信息的抽取模块、用于抽取网页标题时间信息的抽取模块和用于抽取网页内容时间维度的抽取模块;Web时间不一致推理模块,用于对网页中未抽取到的时间维度,进行网页时间不一致推理,并识别网页的时间不一致模式;Web时间不一致推理模块包括子模块用于由网页的已知维度推理出网页的未知维度的推理模块、和用于由网页的时间维度推理出未知网页时间维度的推理模块;Web时间不一致度量模块,用于依据网页的不同时间不一致模式,采用对应的时间不一致模型进行Web时间不一致度量;Web时间不一致度量模块包括子模块用于度量网页自身的时间不一致的度量模块、用于度量网页与栏目之间的时间不一致的度量模块、用于度量不同网站相同栏目之间的时间不一致的度量模块;基于Web时间不一致的过时网页排序模块,用于根据Web时间不一致度量模块的度量结果,对网页进行过时网页排序;基于Web时间不一致的过时网页排序模块包括子模块用于对网页时间不一致的过时网页进行排序的排序模块、用于对网页与栏目时间不一致的过时网页进行排序的排序模块、用于对同栏目不同网站时间不一致的过时网页进行排序的排序模块;②同类网站信息新鲜度排序模块进一步包括子模块网页获取模块和排序模块,其中 网页获取模块,用于获取同类网站网页;排序模块,用于对网页获取模块获取的同类网站网页,基于网站信息新鲜度进行排序,网站信息新鲜度FScore = FineFScore +CourseFScore,pineFScore为细粒度新鲜
全文摘要
本发明提供了一种基于Web时间不一致的过时网页自动发现与排序方法,本发明方法基于网页具有时间生命性,建立网页多维时间向量,抽取网页的多维时间值,建立Web时间不一致模型,提出Web时间不一致推理和度量的新方法,构建解决Web时间不一致的理论框架,并将这一理论框架应用到(1)网站过时网页的自动发现与排序,将网站维护人员从繁重的人工检查中解放出来,有助于节约人力资源;(2)同类网站基于时间不一致度量的质量排序,如政府或大学网站在信息新鲜度方面的质量进行排序;(3)为搜索引擎提供时间敏感信息排序方法,使得用户能够更便利的搜索最新的信息,能提高网站的内容质量和用户评价。
文档编号G06F17/30GK102253998SQ20111019413
公开日2011年11月23日 申请日期2011年7月12日 优先权日2011年7月12日
发明者刘世超, 刘咏宁, 李宇轩, 李石君, 杨莎, 甘琳 申请人:武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1