时态一致性约束判断的网页时效获取方法与流程

文档序号:23305826发布日期:2020-12-15 11:36阅读:191来源:国知局
时态一致性约束判断的网页时效获取方法与流程

本发明涉及一种网页时效获取方法,特别涉及一种时态一致性约束判断的网页时效获取方法,属于网页时效判断技术领域。



背景技术:

伴随互联网技术的高速发展,信息爆炸似增长,互联网每天产生的页面达到百亿量级,大数据时代已经到来。互联网作为历史上最大的信息载体,它的开放性使得网上发布新闻、言论和观点十分方便,这也导致了信息结构性差、无规则,变得杂乱无章。面对如此丰富但又混乱的信息资源,从中获得满意的信息是个巨大的挑战。搜索引擎满足了人们对所需信息查找的需求,但当下网页更新速度惊人,每天互联网上都会有海量网页更新,而且很多网页都会伴随时间变化,导致网页质量逐渐下降。对搜索引擎来说,当用户检索与时间关联的内容时,若返回结果过时,就会降低用户对搜索引擎的期望和信任;如果搜索引擎的抓取网页库新鲜度不够,搜索范围过窄,那检索结果不可能是最满意和最新的,对用户来说,检索结果也就失去了实际参考价值。现有技术的搜索引擎针对时间信息的检索也做了许多改进,大多数都是利用网页的爬取时间来辅助检索结果排序,但爬取时间跟爬虫的更新频率相关,而且并不能代表网页中内容的时间信息,存在时间差。因此,选取好的时间标准来评估网页的时效性具有重要意义和巨大的市场价值。

网页发布后,其内容所描述的事件能够迅速吸引人们的注意力且容易被广泛传播,同时这些事件又具备仅在第一时间有高热度但后期伴随时间推移热度会明显下降的特点,这样的网页就具有时效性。信息从产生开始,就具有时间属性,人们利用信息的时间属性可方便有利的去评估信息价值,信息的时效性是指信息在特定时间段对决策有价值的性质,而且价值与时间成正比;现代信息技术的发展也为网页时效性获取奠定了基础,并且在一些信息系统和时态数据库中,时效性扮演着非常重要的角色。

伴随互联网的发展,出现了许多新的应用需求,人们越来越关注数据的时态信息,其重要性与日俱增,迫切需要时态信息处理技术。时态特性是信息的客观存在。八十年代中后期,时态信息技术快速发展,已投入应用领域,由于计算机技术迅猛发展,时态信息在很多领域内得到了广泛的应用,自然语言处理、时空信息、多媒体等各种技术迅速发展,促使时态信息与应用技术相结合。由于时间维的引入,数据库设计变得复杂,对于时态数据库可通过时态函数依赖约束规范化时态数据模式,现有技术分析传统函数依赖与时态函数依赖之间的联系,提出了成员籍、有限属性闭包等时态函数依赖集算法,进一步规范化了时态数据库模式。

现有技术对时间信息提取的工作起步于九十年代中后期,在1995年信息理解会议上提出了针对时间信息提取的命名实体识别任务,为深入挖掘网页中的突发事件新闻并用于应急管理,现有技术引入中文的时间关系理论,提出面向突发事件新闻的时间提取方法。在时态信息检索方面,现有技术通过分析个性化挖掘特点,提出了基于时效性的网络页面个性化推荐模型,该模型的挖掘算法在存储结构上加入了时效价值系数,使得挖掘出的信息更符合用户需求。现有技术通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出了基于用户查询日志挖掘的时间感知搜索引擎模型,一定程度上弥补了当下主流搜索引擎在时效性检索查询方面存在的不足。百度出台了《时效性资源收录问题》,高度重视时效性信息,这说明网站内容建设必须立足时效性信息,才能引起搜索引擎的关注,时效性将成为所有网站内容中必不可少的组成部分。

综上,现有技术都还存在一些明显不足,表现在以下方面:

一是互联网信息结构性差、无规则,数据海量且杂乱无章,从中获得满意的信息是巨大的挑战,但当下网页更新速度惊人,每天互联网上都会有海量网页更新,而且很多网页都会伴随时间变化,现有技术的搜索引擎无法满足信息查找需求,当用户检索与时间关联的内容时,若返回结果过时,就会降低用户对搜索引擎的期望和信任;如果搜索引擎的抓取网页库新鲜度不够,搜索范围过窄,那检索结果不可能是最满意和最新的,对用户来说,检索结果也就失去了实际参考价值;现有技术的搜索引擎大多数都是利用网页的爬取时间来辅助检索结果排序,但爬取时间跟爬虫的更新频率相关,而且并不能代表网页中内容的时间信息,存在时间差,造成网页搜索结果不理想;

二是网络上的信息不仅包含即时信息,同时也包含过时信息,二者间存在价值上的冲突,各类网站中都有时间不一致问题,由于网站未及时更新,这类信息失效的可能性大,使网页失去了阅读的价值,极大的损害了信息发布者的形象,影响了用户的体验,甚至可能会误导决策行为,造成生产生活中不必要的经济损失;现有技术解决网络过时信息问题主要是采用人工逐个排检,效率低且工作量大,伴随大数据时代的到来,面对不断增长的互联网海量数据,人工方式难以胜任,需要一种智能发掘网络过时信息的系统方法及工具,保持网络时态一致性,即在当前状况下,网络的各个时间要素不存在矛盾和歧义,保持一致;

三是网站可看成一个网页的集合,网页呈现的信息丰富多样,蕴藏在这些信息中的时间信息决定网站是否跟得上潮流,如果某网页的内容满足某一用户的特定需求,该页面就体现出价值属性,而时效性是评估网页价值的重要标准,全面评估网页的时效性,不仅要获得网页中出现的所有关联的时间短语,还要使检索结果最大程度满足时效性要求,现有技术对网页内容布局没有分析,无法确定可能出现时间短语的位置,无法充分提取时间短语,网页时间分析处理技术不成熟,不能够满足行业需求;

四是当前网站内容建设必须立足时效性信息,才能引起搜索引擎的关注,时效性是所有网站内容中必不可少的组成部分,现有技术没有提取网页的发布时间角和提取网页的内容时间切实有效的方法,无法获得最准确的网页发布时间,更是无法设计获取网页发布时间的算法加入到检索系统中,无法利用信息的时间属性去评估信息价值,导致网页检索结果失去了实际参考价值,网页时效获取的质量和精度明显达不到要求。



技术实现要素:

本发明提供的时态一致性约束判断的网页时效获取方法,针对互联网信息结构性差、无规则,数据海量且杂乱无章,每天互联网上都会有海量网页更新,而且很多网页都会伴随时间变化,现有技术的搜索引擎无法满足信息查找需求的问题,提出了一种高精度的网页时效获取方法,能够高效准确的评估网页的时效性,筛选出时效性高的网页,不仅提高了网页时效性获取的精确度,也增强了其可靠性;本发明对网页内容布局做细致分析,把可能出现时间短语的位置全部标记出来,保证时间短语提取更充分,网页时效获取智能化程度高,速度较快,是一种具备显著创新性,且优势突出的网页时效获取方法。

为达到以上技术效果,本发明所采用的技术方案如下:

时态一致性约束判断的网页时效获取方法,提出基于网络时态要素模型的时态不一致智能识别系统,主要包括:一是网络时态要素模型和时态信息提取,构建基于网站分层体系的时态要素模型,对网络信息的时态灵敏度分析量度,提取网络的时态信息;二是构建网络时态一致性约束和判断体系,对网页中信息的时态语义进行鉴别和判断;三是网络时态不一致发掘、分类与量度,根据网站时态要素模型提取出站点、单元、子单元和页面的时态信息值,然后采用判断体系判断未知时态信息,建立时态一致性约束集合,再检验是否违反约束体系,识别时态不一致的网页信息;

本发明利用逐层递进的方式,设计网页发布时间获取方法,提出通过获取网页发布时间来评估网页时效性的检索系统,并对中文时间表达式进行充分的识别抽取,提取网页的内容时间信息;网页时间分析处理方法包括网页内容时间分析、提取网页正文、中文时间表达式识别,网页内容时间分析具体包括网页内容布局、网页中出现的时间,中文时间表达式识别具体包括时间表达式分类、识别时间表达式;

本发明网页时效获取系统设计实现,从网页的发布时间角度出发,分析爬取的页面发布时间辅助检索结果的排序,并提取网页的内容时间,根据网页的发布时间可知网页的新鲜度,采用层次结构模型获取网页的发布时间,逐层判断,获得最准确的发布时间,设计获取网页发布时间的算法加入到检索系统中,作为参考因素对检索结果排序;

本发明一是分析时效性网页具备的特征,设计了一种网络时态要素模型,并提出网络时态一致性约束和判断体系和时态模型中时态向量的提取和评估方法,然后基于时态要素模型实现对不一致时态的智能发掘、分类和量度;二是详细解析网页时间分析处理方法,首先基于网页内容布局,采样分析时间在网页内容布局中的分布状况,得出在评估网页时效性问题上最具价值的几类时间点,包括网页内容时间点、网页发布时间点、网页入库时间点,然后识别文本时间短语,采用正则表达式方法,对中文的时间表达式建立识别规则方法,鉴别匹配文本中出现的时间短语;三是提出一种逐层递进的方法获取网页发布时间,以此评估网页的时效性,并提取网页正文的内容时间。

时态一致性约束判断的网页时效获取方法,进一步的,网络信息时态灵敏性分析与量度采用用户的访问模式、单元更新模式、文本时间信息特征对网络进行灵敏性量度,从动态和静态二方面评价网页的时态灵敏性;

定义时间灵敏度:

hxt=ca(qv)+va(qu)+ua(y)式1其中c,v,u是权重函数,

f(ti)是随时间ti变化的权重函数,qv=(qv(t1),...,qv(tn))是用户的访问模式,以网站单元为单位,利用ti时刻单元的整体访问频率uas(ti)对ti时刻访问频率uaw(ti)进行平滑,得到的平滑后访问频率qv(ti)=m×uas(ti)+n×uaw(ti)的时间序列;

qu=(qu(t1),...,qu(tn))是单元的更新模式,是ti时刻的更新频率qu(ti)随时间变化的时间序列,b(ti)是随时间ti变化的权重函数;

y是文本时间信息特征函数,ay为时间词词频,ry(i)为时间词i的位移,w为网页文本长度。

时态一致性约束判断的网页时效获取方法,进一步的,网络时态要素模型在网络信息内容要素中加入时态要素,是对网站、单元、子单元和网页页面的抽象;网络时态要素模型将网站描述为一棵五层非空树,网站主页是根结点,单元及其各级子单元是中间结点,网页页面是叶子结点,每个网页最多离网站首页四次点击就能到达,将网站描述成一棵五层非空树,而且叶子结点的深度最大值为5;

网络时态要素层次树中,每一个结点用表示,由一个二元组(uo,ut)表示,uo为内容向量,ut为时态向量;其中,内容向量uo=(otitle,ourl,otopic,otext)是一个关于网页l与其描述的事件e的四维向量,包括网页标题otitle、网页链接ourl、网页主题otopic、网页文本otext;对于根结点,其内容向量可表示为uo=(otitle,ourl,0,0),otitle为网站名,ourl为网站主页链接;对于中间结点,otitle为单元名称,ourl为单元主页链接;时态向量ut=(toccur,tpublish,tforward,texpire)是一个关于网页l与其描述事件e的四维向量,包括事件发生时间toccur、发表时间tpublish、转载时间tforward和过期时间texpire;

知识时态层析模型提取和判断时间向量,时态层次模型描述时间实体的时间类型、时间表示、时态、描述事件概念的层次关系;时间类型包括:时间点、时间区间、时间频率;时间表示包括:显式时间、隐含时间、相对时间;时态包括:过去时,现在时,将来时;描述的事件包括:区间事件,瞬时事件,周期事件。

时态一致性约束判断的网页时效获取方法,进一步的,网络时态一致性约束体系中,网页内时态一致性约束体系:网页信息有些没有时效性,对这类信息根据它的发布时间规定一个过期时间;而对于有时效性的信息,通过结合时间的过去、现在、将来属性进行语义分析,将信息分为三类:一是预测信息,二是实时报道信息,三是回顾报道信息,这些信息在一段时间后会失去价值,过期时间与网页信息的时间灵敏度关联,时间灵敏度越高,过期时间越短;在相同时间灵敏度下,预测信息的过期时间相对于信息发布时间最长,回顾报道信息的过期时间相对于信息发布时间最短;

网页与单元之间时态一致性约束体系:单元内的子网页,若单元中不含时态约束信息,网页与单元的时态一致性约束就等于网页内部的时态约束;若单元内有时态约束信息,首先根据单元的时态信息提取基本过期时间,过期时间是对网页的基本时间限制,只有在当前读取时间同时在基本过期时间和网页自身过期时间之前时,才认为网页与单元时态一致;

同类网站相同单元之间时态一致性约束体系:同类网站相同单元的时间信息经常出现描述同一个事件的不同时间信息,对这些描述信息做时态一致性比较,为网站评估提供参考。

时态一致性约束判断的网页时效获取方法,进一步的,根据网络时态一致性约束体系构建逻辑推断算子,推断时态信息和约束关系:

由网络已知时态分量值到未知维度时间值的推断:网页各时间维度间具有逻辑关系,解释为在时间轴上的前后关系,由已知时间维度信息推出未知时间维度信息;

相同主题网页信息的时间一致性推断:相同主题的时态信息类似,当它们具备时态一致性时,时态关联明显,通过关联主题网页时态信息,可判断未明确包含的时间信息;从一部分网页推出的时态信息,可当作关联网页的相应未知时态信息;另外网页与它的父结点网页和子结点网页常描述同一个主题,上层网页的发布时间和过期时间均较下层网页的发布时间更晚,相邻二层网页或同一层的相邻网页之间具有相似的时间维度;

不同网站相同单元的时态统计推断:对于一些大型的时态一致性很好的网站,相同单元的时态信息也有很大的关联性;通过不同网站相同单元的统计分析比较,可从已知的时态信息判断得到未包含时间信息的网页时态信息。

时态一致性约束判断的网页时效获取方法,进一步的,网络时态不一致网页发掘:首先根据网站时态要素模型提取出站点、单元、子单元、页面的时态信息值,然后采用推断体系判断未知时态信息,建立其时态一致性约束集合,再检验是否违反约束体系,如果检测到违反时态一致性约束,发掘时态不一致性信息,如果读取时间大于过期时间则说明网页时态不一致,另外计算各个网页的时态不一致量度值,并为时态不一致网页规定一个临界值,如果大于临界值,则网页是时态不一致的,小于临界值则网页时态一致;

网络时态不一致分类:根据网络时态一致性分析得到各类网络时态不一致状况,包括信息时滞不一致、信息失效不一致、信息陈旧不一致,信息时滞是信息的发布时间相对事件的发生时间间隔过长,造成信息滞后,即tpublish>texpire,信息灵敏度越高,滞后效应越明显;信息失效是指信息超过它的生命周期而失去价值,信息的生命周期指信息发挥其价值的时间周期;信息陈旧指信息长时间没有更新而变的陈旧;后二种状况当读取时间t>texpire时不一致;当网页的单元还有时态信息时,网页过期时间texpire取单元限制过期时间和网页自身过期时间的最小值;

网络时态不一致量度:刻画网页的过期程度可通过曲线拟合方法得到网页过期后的时效曲线,对网页的时态不一致量度,通过量度函数h(t)表示,其中t为当前读取时间,且t>tpublish,用式5量度函数量度网页的过期程度:

对单元的时态不一致量度,采用计算该单元网页的时态不一致量度的平均值量度,对于站点的时态不一致量度,采用计算站点单元的时态不一致量度的平均值量度。

时态一致性约束判断的网页时效获取方法,进一步的,网页内容时间分析中,网页内容的布局方便对页面进行解析,提取网页中出现的时间短语;正文内容是页面中的主体内容,主体内容描述该网页呈现的主要信息,是对事件的叙述,这部分是时间短语出现的高频地带,时间信息提取工作倾向于正文的文字内容;

html是创建网页的基础语言,完整的html文件由三部分组成:html部分、头部部分、主体部分;<html>标签、<head>标签、<title>标签、<body>标签构成网页的基本,这些标签都成对出现(<>和</>),在标签间添加展示内容,网页中出现的时间信息映射到页面源码中,存在于这些标签之间;据网页撰写规律,一般用特殊标签强调时间短语,包括<span>标签、<div>标签、<meta>标签,在提取时间信息工作上侧重于对此类标签的分析。

时态一致性约束判断的网页时效获取方法,进一步的,时间表达式在网页布局中的分布具有集中性和规律性,大部分时间短语会在网页正文中出现;且此类时间都被包含在<span>标签里,对网页中经常采用到的时间短语,做如下归类:

一是网页发布时间:指思想、观点、文章或者意见通过网页形式公之于众所处的时间点,对发布时间不明显的网页,通过浏览器开发者工具选项的控制台输入代码javascript:alert获得,且在大部分网页的url路径中也可明显的发掘该网页的发布时间,网页的发布时间与正文描述事件的发生时间相近,借由网页发布时间辅助搜索引擎实现时效性检索具有高度的参照性和高效性;

二是网页内容时间:指正文中所描述事件具体发生的时间,网页正文中的时间短语很多并不是单独出现,存在很多时间短语,干扰事件发生时间的提取工作;中文时间短语有相对时间和绝对时间之分;

三是网页加载时间:指从点击请求到页面完全呈现消耗的时间,加载时间不能在网页上找出,却影响网站的排名,影响搜索引擎对其兴趣度,短的加载时间是很好的浏览体验;

四是页面访问时间:指访问者停留在该页面阅读的时间;

五是网页更新时间:指网页内容或者布局结构更新周期,网站更新周期短,更新快,容易引起搜索引擎的关注;

六是网页入库时间:指网络爬虫爬取该页面存入网页库的时间,搜索引擎的入库时间容易获得,且评价该网页的发布时间,依据入库时间辅助时效性检索;

七是网页转载时间:网络用户把某个网页的非原创内容从原网站转移到其它网站重新发表的时间,通过转载时间有效协助确定网页中所出现的时间短语具体所指的精确时间点;

综合上述几类时间分析,网页的发布时间、内容时间和入库时间在搜索引擎返回用户检索结果时,有效辅助结果排序,使呈现给用户的网页列表更具有时效性。

时态一致性约束判断的网页时效获取方法,进一步的,中文时间表达式分类中,时间表达式可看作一个或者多个时间词的序列,在语法范畴内,共有五类标签:一是名词,包括专有名词;二是名词短语;三是形容词;四是副词;五是形容词或者副词短语;常见的时间表达式都可分解为这五种标签的组合;

时间表达式分为可标记类型和不可标记类型,可标记类型时间是通过语义解释,能在时间轴上定位的时间表达式,是时间点或时间段;不可标记类型时间是可用来描述时间但不能具体解释时间语义,即不能在时间轴上定位的时间;可标记时间类型的大部分时间表达式都包含有时间触发词,它能传递时间概念,根据示意时间的长短,可标记时间类型可划分成点时间和段时间;

点时间,是任意时间单位上的最小刻度,这类时间表达式包括:一是含有“日”、“月”、“年”的日期表达式,二是含有“时”、“分”、“秒”的时钟表达式;三是直接用时间名词表达的日期;

段时间,是对时间单位数量化后的表示,是时间过程上的延续,包括二种类别:一是表示时间持续长度或者范围的表达式;二是连接二个时间短语组成的持续时间表达式。

时态一致性约束判断的网页时效获取方法,进一步的,识别时间表达式是从文本内容中提取出有关描述时间的短语,利用基于规则的方法,构建时间短语匹配规则,首先识别标准时间、日期简单的时间表达式,然后分析文本中相邻共现的简单时间短语,将这些相邻组合短语与规则模板进行匹配,提取完整的时间表达式;完整的时间表达式具有一定的规则,分析语料库中不同的时间表达式,制定不同的识别模板,然后通过规则训练其它文本,匹配出复杂的时间短语;

简单时间表达式是可精确时间的短语,由数词、量词和时间触发词组成,或是单独的时间名词和特殊时间名词;复杂时间表达式是由时间触发词、数词、特殊名词、时间定位词、介词各种词语结合组成的,是对时间区段的大体描述;

简单时间短语确定,借助句子前后的介词、位置词分析复杂时间表达式,对出现在时间表达式中的介词、事件触发词、位置词、时间名词,建立词典收录,以供识别算法调用;通过对时间表达式的分析,大部分时间短语都包含时间触发词,是识别时间短语的关键;

描述识别时间表达式的具体工作流程:首先识别简单的时间短语如时间、日期、段时间和时间名词,按照中文的表述方式,时间和日期都由时间单位组合,它们的表达式通常有规则和规律性,这些时间单位即是关键词也是时间触发词,因此建立规则如“数字+时+数字+分+数字+秒”来识别形表达式;大部分段时间也遵循“数字或者量词+时间触发词”的表达规律;时间名词的表达是特定的且数量居多,据此可建立时间名词词典,通过将待分析短语与词典中的词条匹配识别时间名词;然后进行时间模版匹配;复杂的时间短语借助模版规则匹配识别;

采用基于时间的正则表达式识别文本中的时间短语,提取出时间表达式,正则表达式由一系列数字、不同字符、字母以及表达特定意义的字符组成,这串组合字符具有一定的句法规则,用来识别文本中满足该句法规则的一类字符串,将文本与这些规则模板匹配,基于基础的时间日期表达式,识别出时间短语,在文本中有很多时间短语相邻出现,采用模板匹配这些相邻出现的时间短语,若匹配成功,则这些时间短语的组合就是将要输出的时间表达式,对后面的文本继续匹配,直至结束。

与现有技术相比,本发明的贡献和创新点在于:

第一,本发明提供的时态一致性约束判断的网页时效获取方法,针对互联网信息结构性差、无规则,数据海量且杂乱无章,从中获得满意的信息是巨大的挑战,但当下网页更新速度惊人,每天互联网上都会有海量网页更新,而且很多网页都会伴随时间变化,现有技术的搜索引擎无法满足信息查找需求的问题;提出了一种高精度的网页时效获取方法,当用户检索与时间关联的内容时,返回结果不过时,提高用户对搜索引擎的期望和信任;搜索引擎的抓取网页库新鲜度高,搜索范围广,检索结果是最满意和最新的,检索结果实际参考价值大;能够高效准确的评估网页的时效性,筛选出时效性高的网页,不仅提高了网页时效性获取的精确度,也增强了其可靠性;

第二,本发明提供的时态一致性约束判断的网页时效获取方法,针对网络上的信息不仅包含即时信息,同时也包含过时信息,二者间存在价值上的冲突,各类网站中都有时间不一致问题,由于网站未及时更新,这类信息失效的可能性大,使网页失去了阅读的价值,极大的损害了信息发布者的形象,影响了用户的体验,甚至可能会误导决策行为,造成生产生活中不必要的经济损失的问题;提出了基于网络时态要素模型的时态不一致智能识别系统,高效排检网络过时信息问题,准确率高且速度快,伴随大数据时代的到来,面对不断增长的互联网海量数据,这种智能发掘网络过时信息的系统方法及工具,对于保持网络时态一致性,即在当前状况下,保证网络的各个时间要素保持一致具有巨大的价值,提高网页时效获取性能,使其在获取速度和获取精度上有大幅提高;

第三,网页是网站最基本的组成单位,网站可看成一个网页的集合,网页呈现的信息丰富多样,蕴藏在这些信息中的时间信息决定网站是否跟得上潮流,如果某网页的内容满足某一用户的特定需求,该页面就体现出价值属性,而时效性是评估网页价值的重要标准,全面评估网页的时效性,不仅要获得网页中出现的所有关联的时间短语,还要尽快判别某个或者某几个时间短语与检索关键词有关,能够提高检索的关联度,使检索结果最大程度满足时效性要求;本发明对网页内容布局做细致分析,把可能出现时间短语的位置全部标记出来,保证时间短语提取更充分,网页时效获取智能化程度高,速度较快,是一种具备显著创新性,且优势突出的网页时效获取方法;

第四,本发明提供的时态一致性约束判断的网页时效获取方法,能获取网页发布时间的页面,其发布时间与事件发生时间的时间距离很小,时效性较高,证实了本发明根据网页发布时间来评估网页时效性的推断;且对于结果中排序在前的页面,网站更新频率相对较快,也说明了网站的更新频率会影响网站时效性。本发明实验中证明获取网页发布时间的方法结果是有效的,搜索引擎的检索结果满足了用户的时效性需求。

附图说明

图1是本发明的时间表达式识别流程示意图。

图2是本发明的网页时效获取系统架构示意图。

图3是本发明的爬虫系统工作流程示意图。

图4是本发明获取网页发布时间流程示意图。

具体实施方式

下面结合附图,对本发明提供的时态一致性约束判断的网页时效获取方法的技术方案进行进一步的描述,使本领域的技术人员可以更好的理解本发明并能予以实施。

本发明提供的时态一致性约束判断的网页时效获取方法,针对互联网上普遍存在的各类时间不一致问题,提出了基于网络时态要素模型的时态不一致智能识别系统,主要包括:一是网络时态要素模型和时态信息提取,构建基于网站分层体系的时态要素模型,对网络信息的时态灵敏度分析量度,提取网络的时态信息;二是构建网络时态一致性约束和判断体系,对网页中信息的时态语义进行鉴别和判断;三是网络时态不一致发掘、分类与量度,根据网站时态要素模型提取出站点、单元、子单元和页面的时态信息值,然后采用判断体系判断未知时态信息,建立时态一致性约束集合,再检验是否违反约束体系,识别时态不一致的网页信息。

社会或者生活中发生一个话题事件,那么描述该话题事件的网页就会立即发布,时间上间隔很短;伴随网页的发布,网络用户就可以在互联网上浏览该页面描述的事件信息,网页的发布时间基本上契合网页内容中事件的发生时间。根据此特点,本发明利用逐层递进的方式,设计网页发布时间获取方法,提出通过获取网页发布时间来评估网页时效性的检索系统,并对中文时间表达式进行充分的识别抽取,提取网页的内容时间信息。网页时间分析处理方法包括网页内容时间分析、提取网页正文、中文时间表达式识别,网页内容时间分析具体包括网页内容布局、网页中出现的时间,中文时间表达式识别具体包括时间表达式分类、识别时间表达式。

本发明网页时效获取系统设计实现,从网页的发布时间角度出发,分析爬取的页面发布时间辅助检索结果的排序,并提取网页的内容时间,根据网页的发布时间可知网页的新鲜度,采用层次结构模型获取网页的发布时间,逐层判断,获得最准确的发布时间,设计获取网页发布时间的算法加入到检索系统中,作为参考因素对检索结果排序。

本发明一是分析时效性网页具备的特征,针对网页中的时态不一致问题,设计了一种网络时态要素模型,并提出网络时态一致性约束和判断体系和时态模型中时态向量的提取和评估方法,然后基于时态要素模型实现对不一致时态的智能发掘、分类和量度;二是详细解析网页时间分析处理方法,首先基于网页内容布局,采样分析时间在网页内容布局中的分布状况,得出在评估网页时效性问题上最具价值的几类时间点,包括网页内容时间点、网页发布时间点、网页入库时间点,然后识别文本时间短语,本发明采用正则表达式方法,对中文的时间表达式建立识别规则方法,鉴别匹配文本中出现的时间短语;三是提出一种逐层递进的方法获取网页发布时间,以此评估网页的时效性,并提取网页正文的内容时间。

一、基于网络时态要素模型的时态不一致智能识别系统

伴随互联网技术的发展,网络上的信息量无结构性的快速增长,变得多样复杂,这些网络信息不仅包含即时信息,同时也包含过时信息,二者间存在价值上的冲突,本发明把此现象称为时间不一致问题,各类网站中都有这一现象,例如:一是网页中的单元标题名是本周新闻,但由于未及时更新,包含有本周以前的信息;二是招聘网站中经常出现“急聘”“好消息”等信息,由于网站未及时更新,这类信息失效的可能性大。以上问题使网页失去了阅读的价值,极大的损害了信息发布者的形象,影响了用户的体验,甚至可能会误导决策行为,造成生产生活中不必要的经济损失。现有技术解决网络过时信息问题主要是采用人工逐个排检,效率低且工作量大。伴随大数据时代的到来,面对不断增长的互联网海量数据,人工方式难以胜任,需要一种智能发掘网络过时信息的系统方法及工具,保持网络时态一致性,即在当前状况下,网络的各个时间要素不存在矛盾和歧义,保持一致。

(一)网络时态要素模型和时态信息提取

1、网络信息时态灵敏性分析与量度

网络信息对时间的灵敏程度各不一样,有的对时间敏感,如新闻,有的基本不灵敏,如生活常识。需要分析网络中不同单元网页的时态灵敏性特征及灵敏度的量化量度方法,对网页进行筛选过滤。本发明分析得出,新闻和金融对时间十分灵敏的信息,具有的特征为:一是在信息发表后的短时间内,网页访问量很大,访问率高;二是该类信息单元更新频率高;三是信息中包含大量时间信息。所以,本发明采用用户的访问模式、单元更新模式、文本时间信息特征对网络进行灵敏性量度,从动态和静态二方面评价网页的时态灵敏性;

定义时间灵敏度:

hxt=ca(qv)+va(qu)+ua(y)式1其中c,v,u是权重函数,

f(ti)是随时间ti变化的权重函数,qv=(qv(t1),...,qv(tn))是用户的访问模式,以网站单元为单位,利用ti时刻单元的整体访问频率uas(ti)对ti时刻访问频率uaw(ti)进行平滑,得到的平滑后访问频率qv(ti)=m×uas(ti)+n×uaw(ti)的时间序列;

qu=(qu(t1),...,qu(tn))是单元的更新模式,是ti时刻的更新频率qu(ti)随时间变化的时间序列,b(ti)是随时间ti变化的权重函数。

y是文本时间信息特征函数,ay为时间词词频,ry(i)为时间词i的位移,w为网页文本长度。

2、网络时态要素模型

(1)网络时态要素层次树

网络时态要素模型在网络信息内容要素中加入时态要素,是对网站、单元、子单元和网页页面的抽象。网络时态要素模型将网站描述为一棵五层非空树,网站主页是根结点,单元及其各级子单元是中间结点,网页页面是叶子结点,每个网页最多离网站首页四次点击就能到达,所以将网站描述成一棵五层非空树,而且叶子结点的深度最大值为5。

网络时态要素层次树中,每一个结点用表示,由一个二元组(uo,ut)表示,uo为内容向量,ut为时态向量;其中,内容向量uo=(otitle,ourl,otopic,otext)是一个关于网页l与其描述的事件e的四维向量,包括网页标题otitle、网页链接ourl、网页主题otopic、网页文本otext;对于根结点,其内容向量可表示为uo=(otitle,ourl,0,0),otitle为网站名,ourl为网站主页链接;对于中间结点,otitle为单元名称,ourl为单元主页链接;时态向量ut=(toccur,tpublish,tforward,texpire)是一个关于网页l与其描述事件e的四维向量,包括事件发生时间toccur、发表时间tpublish、转载时间tforward和过期时间texpire。

(2)知识时态层析模型

知识时态层析模型提取和判断时间向量,时态层次模型描述时间实体的时间类型、时间表示、时态、描述事件概念的层次关系;时间类型包括:时间点、时间区间、时间频率;时间表示包括:显式时间、隐含时间、相对时间;时态包括:过去时,现在时,将来时;描述的事件包括:区间事件,瞬时事件,周期事件。

3、模型时态向量提取与评估

(1)网络时态信息提取

内容向量的提取:内容向量包括网页链接、标题、主题和文本,文档向量中的主体维度采用基于概率的统计模型提取。网页链接、标题和文本内容采用基于正则表达式、网页模块、dom树、关键字匹配方法进行提取。

时态向量的提取:基于时态层次模型,提取时态向量:

一是将时间信息按照出现的形式划分为三种示意:显式时间示意、隐含时间示意、相对时间示意;二是基于时间本体,通过参照时间和时间的时态信息,对时间信息进行统一的标示化;三是再根据时间信息在文档中出现的位移、标准化值、类型判断时间信息的语义,得到时态向量的每个维度。

(2)网络时态信息评估

网络时态信息提取评估主要是评估从网络实体中提取内容向量uo,时态向量ut的时态分量值的提取任务复杂度和提取性能;复杂度主要取决于涉及的领域和提取的场景。主要提取的信息为时态信息,复杂度不会太大;性能评估指标主要采用精度和召回率,对于性能评估采用单指标和综合指标评估法,单指标即单独采用精度和召回率进行性能评估,综合指标评估即采用精度和召回率的综合值。

(二)网络时态一致性约束与判断体系

1、网络时态一致性约束体系

(1)网页内时态一致性约束体系:网页信息有些没有时效性,对这类信息根据它的发布时间规定一个过期时间,因为伴随时间的增长它们会变成时态不一致。而对于有时效性的信息,通过结合时间的过去、现在、将来属性进行语义分析,将信息分为三类:一是预测信息,二是实时报道信息,三是回顾报道信息,这些信息在一段时间后会失去价值,过期时间与网页信息的时间灵敏度关联,时间灵敏度越高,过期时间越短;在相同时间灵敏度下,预测信息的过期时间相对于信息发布时间最长,回顾报道信息的过期时间相对于信息发布时间最短,有些时效性很强的信息会因为发布延迟而在发布时就过期。

(2)网页与单元之间时态一致性约束体系:单元内的子网页,若单元中不含时态约束信息,网页与单元的时态一致性约束就等于网页内部的时态约束;若单元内有时态约束信息,首先根据单元的时态信息提取基本过期时间,过期时间是对网页的基本时间限制,只有在当前读取时间同时在基本过期时间和网页自身过期时间之前时,才认为网页与单元时态一致。

(3)同类网站相同单元之间时态一致性约束体系:同类网站相同单元的时间信息经常出现描述同一个事件的不同时间信息,对这些描述信息做时态一致性比较,为网站评估提供参考。

2、网络时态一致性推断

根据网络时态一致性约束体系构建逻辑推断算子,推断时态信息和约束关系。

(1)由网络已知时态分量值到未知维度时间值的推断:网页各时间维度间具有逻辑关系,解释为在时间轴上的前后关系,由已知时间维度信息推出未知时间维度信息,例如已知事件已发生的时间和信息的发布时间,可推出事件的撰稿时间,因为撰稿时间在发生时间与发布时间之间的某个时间,同理,阅读时间在发布时间与转发时间之间,已知发布时间与转发时间后也可推出大致的阅读时间;另外,如果知道参照事件的发生时间和关联时间,可推出信息描述事件的发生时间。

(2)相同主题网页信息的时间一致性推断:相同主题的时态信息类似,当它们具备时态一致性时,时态关联明显,通过关联主题网页时态信息,可判断未明确包含的时间信息;从一部分网页推出的时态信息,可当作关联网页的相应未知时态信息;另外网页与它的父结点网页和子结点网页常描述同一个主题,上层网页的发布时间和过期时间均较下层网页的发布时间更晚,相邻二层网页或同一层的相邻网页之间具有相似的时间维度。

(3)不同网站相同单元的时态统计推断:对于一些大型的时态一致性很好的网站,相同单元的时态信息也有很大的关联性;通过不同网站相同单元的统计分析比较,可从已知的时态信息判断得到未包含时间信息的网页时态信息,如同一事件的发生时间在不同网站相同单元里可视为一致,从而可以互推;另外,通过比较它们的时态一致性,还可得出不同网站的时效性排名。

(三)网络时态不一致发掘、分类与量度

1、网络时态不一致网页发掘:首先根据网站时态要素模型提取出站点、单元、子单元、页面的时态信息值,然后采用推断体系判断未知时态信息,建立其时态一致性约束集合,再检验是否违反约束体系,如果检测到违反时态一致性约束,发掘时态不一致性信息,如比较网页的过期时间和当前读取时间,如果读取时间大于过期时间则说明网页时态不一致,另外计算各个网页的时态不一致量度值,并为时态不一致网页规定一个临界值,如果大于临界值,则网页是时态不一致的,小于临界值则网页时态一致。

2、网络时态不一致分类:根据网络时态一致性分析得到各类网络时态不一致状况,包括信息时滞不一致、信息失效不一致、信息陈旧不一致,信息时滞是信息的发布时间相对事件的发生时间间隔过长,造成信息滞后,即tpublish>texpire,信息灵敏度越高,滞后效应越明显;信息失效是指信息超过它的生命周期而失去价值,信息的生命周期指信息发挥其价值的时间周期;信息陈旧指信息长时间没有更新而变的陈旧;后二种状况当读取时间t>texpire时不一致;当网页的单元还有时态信息时,网页过期时间texpire取单元限制过期时间和网页自身过期时间的最小值。

3、网络时态不一致量度:刻画网页的过期程度可通过曲线拟合方法得到网页过期后的时效曲线,对网页的时态不一致量度,通过量度函数h(t)表示,其中t为当前读取时间,且t>tpublish,用式5量度函数量度网页的过期程度:

对单元的时态不一致量度,采用计算该单元网页的时态不一致量度的平均值量度,对于站点的时态不一致量度,采用计算站点单元的时态不一致量度的平均值量度。

二、网页时间分析处理方法

网页是网站最基本的组成单位,网站可看成一个网页的集合。网页呈现的信息丰富多样,蕴藏在这些信息中的时间信息决定网站是否跟得上潮流。如果某网页的内容满足某一用户的特定需求,该页面就体现出价值属性,而时效性是评估网页价值的重要标准。全面评估网页的时效性,不仅要获得网页中出现的所有关联的时间短语,还要尽快判别某个或者某几个时间短语与检索关键词有关,能够提高检索的关联度,使检索结果最大程度满足时效性要求。本发明对网页内容布局做细致分析,把可能出现时间短语的位置全部标记出来,保证时间短语提取更充分。

(一)网页内容时间分析

1、网页内容布局

网页内容的布局方便对页面进行解析,提取网页中出现的时间短语。从页面全局角度,网页主要由页眉、主体内容和页脚三部分组成;从组织结构角度看,网页主要由正文内容、导航栏和单元三大要素组成;正文内容是页面中的主体内容,主体内容描述该网页呈现的主要信息,是对事件的叙述,这部分是时间短语出现的高频地带,时间信息提取工作倾向于正文的文字内容。

html是创建网页的基础语言,完整的html文件由三部分组成:html部分、头部部分、主体部分;<html>标签、<head>标签、<title>标签、<body>标签构成网页的基本,这些标签都成对出现(<>和</>),在这标签间添加展示内容。网页中出现的时间信息映射到页面源码中,存在于这些标签之间。据网页撰写规律,一般用特殊标签强调时间短语,包括<span>标签、<div>标签、<meta>标签,在提取时间信息工作上侧重于对此类标签的分析。

2、网页中出现的时间

时间表达式在网页布局中的分布具有集中性和规律性,大部分时间短语会在网页正文中出现;如新闻类网页,在新闻标题下方会紧跟新闻的发布时间,且此类时间都被包含在<span>标签里,对网页中经常采用到的时间短语,做如下归类:

一是网页发布时间:指思想、观点、文章或者意见通过网页形式公之于众所处的时间点,对于发布时间不明显的网页,用户可通过浏览器开发者工具选项的控制台输入代码javascript:alert获得,且在大部分网页的url路径中也可明显的发掘该网页的发布时间,但该时间很可能并不是完整的,具体时间还需分析网页信息得知;网页的发布时间与正文描述事件的发生时间相近,借由网页发布时间辅助搜索引擎实现时效性检索具有高度的参照性和高效性;

二是网页内容时间:指正文中所描述事件具体发生的时间,网页正文中的时间短语很多并不是单独出现,存在很多时间短语,干扰事件发生时间的提取工作;中文时间短语有相对时间和绝对时间之分,相对时间需要计算,增加了时间表达式分析难度;

三是网页加载时间:指从用户点击请求到页面完全呈现消耗的时间,加载时间不能在网页上找出,却影响网站的排名,影响搜索引擎对其兴趣度,短的加载时间是很好的浏览体验;

四是页面访问时间:指访问者停留在该页面阅读的时间;

五是网页更新时间:指网页内容或者布局结构更新周期,网站更新周期短,更新快,容易引起搜索引擎的关注;

六是网页入库时间:指网络爬虫爬取该页面存入网页库的时间,搜索引擎的入库时间容易获得,且评价该网页的发布时间,依据入库时间辅助时效性检索;

七是网页转载时间:网络用户把某个网页的非原创内容从原网站转移到其它网站重新发表的时间,通过转载时间可有效协助确定网页中所出现的时间短语具体所指的精确时间点;

综合上述几类时间分析,网页的发布时间、内容时间和入库时间在搜索引擎返回用户检索结果时,可有效辅助结果排序,使呈现给用户的网页列表更具有时效性。

(二)提取网页正文

大部分时间短语集中出现在网页正文里,为识别时间短语,首先提取网页正文,但网页中除正文内容,还存在很多与主体内容不相关的信息,如弹窗、广告、页眉页脚内容,这些信息像噪音一样干扰正文提取工作。针对这些问题,本发明分析网页的html结构,借鉴html2article开源算法思想,剔除网页的html标签,按照文本密度从压缩的html文档中提取正文。

(三)中文时间表达式识别

1、时间表达式分类

时间表达式可看作一个或者多个时间词的序列,在语法范畴内,共有五类标签:一是名词,包括专有名词,例如“今天”、“星期三”;二是名词短语,例如“星期五晚上”、“过去二年”;三是形容词,例如“当前”、“长期”;四是副词,例如“每天”、“同时”;五是形容词或者副词短语,例如“接近半小时”、“一天前”;常见的时间表达式都可分解为这五种标签的组合。

时间表达式分为可标记类型和不可标记类型,可标记类型时间是通过语义解释,能在时间轴上定位的时间表达式,是时间点或时间段;不可标记类型时间是可用来描述时间但不能具体解释时间语义,即不能在时间轴上定位的时间。可标记时间类型的大部分时间表达式都包含有时间触发词,它能传递时间概念,根据示意时间的长短,可标记时间类型可划分成点时间和段时间。

(1)点时间,是任意时间单位上的最小刻度,如时间单位是“年”,则一年的时间都可以是点时间。这类时间表达式包括:一是含有“日”、“月”、“年”的日期表达式,二是含有“时”、“分”、“秒”的时钟表达式;三是直接用时间名词表达的日期;

(2)段时间,是对时间单位数量化后的表示,是时间过程上的延续,包括二种类别:一是表示时间持续长度或者范围的表达式,如“100天”;二是连接二个时间短语组成的持续时间表达式,如“星期一到星期五”。

2、识别时间表达式

时间表达式识别是从文本内容中提取出有关描述时间的短语,利用基于规则的方法,构建时间短语匹配规则,首先识别标准时间、日期简单的时间表达式,然后分析文本中相邻共现的简单时间短语,将这些相邻组合短语与规则模板进行匹配,提取完整的时间表达式。完整的时间表达式具有一定的规则,分析语料库中不同的时间表达式,制定不同的识别模板,然后通过规则训练其它文本,匹配出复杂的时间短语。

简单时间表达式是可精确时间的短语,由数词、量词和时间触发词组成,或是单独的时间名词和特殊时间名词。复杂时间表达式是由时间触发词、数词、特殊名词、时间定位词、介词等各种词语结合组成的,是对时间区段的大体描述。

简单时间短语确定,借助句子前后的介词、位置词分析复杂时间表达式,对出现在时间表达式中的介词、事件触发词、位置词、时间名词,建立词典收录,以供识别算法调用。通过对时间表达式的分析,大部分时间短语都包含时间触发词,是识别时间短语的关键。

描述识别时间表达式的具体工作流程:首先识别简单的时间短语如时间、日期、段时间和时间名词,按照中文的表述方式,时间和日期都由时间单位组合,它们的表达式通常有规则和规律性,这些时间单位即是关键词也是时间触发词,因此建立规则如“数字+时+数字+分+数字+秒”来识别形如“4时6分22秒”的表达式;大部分段时间也遵循“数字或者量词+时间触发词”的表达规律;时间名词的表达是特定的且数量居多,据此可建立时间名词词典,通过将待分析短语与词典中的词条匹配识别时间名词;然后进行时间模版匹配;复杂的时间短语借助模版规则匹配识别。

采用基于时间的正则表达式识别文本中的时间短语,提取出时间表达式。正则表达式由一系列数字、不同字符、字母以及表达特定意义的字符组成,这串组合字符具有一定的句法规则,用来识别文本中满足该句法规则的一类字符串,将文本与这些规则模板匹配,基于基础的时间日期表达式,识别出时间短语,在文本中有很多时间短语相邻出现,采用模板匹配这些相邻出现的时间短语,若匹配成功,则这些时间短语的组合就是将要输出的时间表达式,对后面的文本继续匹配,直至结束。具体流程如图1所示。

三、网页时效获取系统设计实现

(一)系统设计架构

本发明从网页的发布时间角度出发,分析爬取的页面发布时间辅助检索结果的排序,并提取网页的内容时间,网页发布时间是判断网页时效性的重要依据,根据网页的发布时间可知网页的新鲜度,采用层次结构模型获取网页的发布时间,逐层判断,获得最准确的发布时间。实施例首先对爬虫爬取的页面库进行人工分析,发掘大部分网页存在发布时间,证明了获取网页发布时间可行;然后设计获取网页发布时间的算法加入到检索系统中,作为参考因素对检索结果排序。系统架构图如图2所示。

(二)网页时效获取系统模块设置

1、抓取模块

本发明采用的是开源可扩展的网络爬虫项目heritrix对网页进行抓取,用户采用该爬虫工具从网上抓取想要的资源,heritrix严格按照robots.txt文件的排除指示和robotsmeta标签工作,用户在运行时选择要用的模块,方便用户实现自己的抓取逻辑;采用网络爬虫爬取与主题关联的网页信息,由于用户关注爬取的网页信息的新鲜度,爬虫系统在爬取时采取边爬取边筛选时效性高的网页的方法,若一个网站不能及时发布新网页,爬虫在爬取时就会过滤掉该网站,爬虫工作流程图如图3所示。

2、提取网页发布时间

网页中描述的事件发生时间是最具价值的时间标准,但难以智能识别和获取,本发明用网页的发布时间publishtime代替;网页发布时间可直观的评价网页内容的新鲜度,并且一个事件发生后很快就会发布到网上,关于网页发布时间,现有技术在提取网页发布时间上已提出二种方法,一种是多联合拷贝分析法,此方法还未经过充分全面验证;另一种是链接分析法,该方法只是基于链接,获取的网页发布时间不够全面。现有技术的方法专注于在网页正文中提取网页的发布时间,在提取网页时效性信息上存在明显不足,比如时间复杂度过高和提取比例较低,本发明将大幅提高提取的时间效率与百分比。

第一步,用爬虫系统先爬取海量网页进行数据分析,大部分的网页的发布时间的年月日可从网页的url中获取,但这个时间不够精确,而且只有80%多的网页其发布日期可通过url分析获取,这是获取发布日期流程的第一步;将这些格式整合,用正则表达式来匹配日期;

第二步是进一步精确到时分秒或者时分,根据已获取到的年月日在网页源码中匹配完整的年月日时分秒,如果某时间单位缺失,默认为“00”;如果没有时分秒信息,则读取为“00:00:00”,以此类推;

第三步是对网页发布时间无法通过url获取的链接进行处理,通过匹配正文中的时间获取网页发布时间;通过对未能通过链接分析获取日期的网页进行源代码分析,发掘发布时间隐藏在某个标签里或javascript代码中。

由于网页内容布局为人工设计,无法百分之百提取出所有网页的发布时间,只能采取逐层判断并套用模型的方法尽可能多的获取正确的网页发布时间;最后把获取到的时间统一表示为“yyyy-mm-ddhh:mm:ss”的格式,存储数据库中保存起来。获取网页发布时间的过程图如图4所示:

3、网页预处理

提取网页内容时间要提取到正文里面的时间短语,首先要对网页进行预处理,网页包含大量的html标记和无关的广告信息,这些信息数量远超过文本正文数量。网页预处理采用正则表达式把网页的html标记去掉,降低干扰,从过滤html标签后的文本中,采用基于网页分析的算法html2article提取网页正文,html2article网页正文提取算法根据网页中正文内容文字密度高的特点确定正文的起止行号。

4、时间短语识别

获得网页正文文本后,对文本进行分词操作,识别时间表达式。本发明采用了中国科学院计算技术研究研发的汉语词法分析系统ictclas,版本为nlpir汉语分词系统,该分词系统有中文分词,词性标示,命名实体识别,用户词典功能,并且支持gbk编码、utf8编码、big5编码、微博分词、新词发掘与关键词提取;

利用nlpir分词系统对文本处理后,得到的分词文本可按照基于正则表达式的时间表达式识别方法匹配,然后根据相对于关键词在文本中的位置偏移量,得到的时间词组合建立一个向量空间矩阵。

根据普遍写作习惯,在描写事件前或者事件后很近的距离就交代时间信息。本发明依据此规律,认为距离关键词偏移量最小的时间词即为内容发生时间contenttime;然后扫描时间词的向量矩阵,对符合条件的时间词做如下处理:如果为绝对时间,规范化时间表达并记录;如果为相对时间,根据参照时间、时间偏移量、偏移方向,计算事件发生时间,规范化时间表达并记录。

相对时间计算:

若偏移方向在时间轴上为正,contenttime=参照时间+时间偏移量;

若偏移方向在时间轴上为负,contenttime=参照时间-时间偏移量。

规范标准为“yyy-mm-ddhh:mm:ss”。

5.查询排序

获得发布时间后,系统就可以对网页进行时效性检索。本发明通过对多数用户的浏览习惯,设定网页有价值的判定时间t,即网页的发布时间距离现在的时间差超过判定时间周期t,就认为该页面过期,失去了时效性。系统对爬虫爬取的网页进行网页发布时间提取,根据计算式:

ht=currenttime-publishtime式6

得出时间距离ht,然后根据检索关键词获得符合要求的网页集合,若网页满足ht≤t,则该页面满足时效性要求,其余的舍弃不要;最后对剩余的页面集合再根据ht从小到大排序,把排序后的结果返回给用户。

(三)结果分析

通过访问数据库中存储网页发布时间的数据表,从数据表中提取了790条数据进行统计,94%以上页面的发布时间可以通过本发明方法获取的,其中有91%的发布时间信息是完整的。

通过表中的url字段再去访问原网页,对比网页和表中获取的时间信息,获取结果基本相吻合,实验效果理想。在获取网页发布时间之后,用户进行关键字检索,搜索引擎的检索结果依据网页发布时间优化后不仅保证了与关键词的关联度,而且很好的满足了检索结果都是最新网页的要求,达到了高时效性的标准。

通过手动分析检索的页面结果,本发明能获取网页发布时间的页面,其发布时间与事件发生时间的时间距离很小,这类网站时效性较高,证实了本发明根据网页发布时间来评估网页时效性的推断;且对于结果中排序在前的页面,网站更新频率相对较快,也说明了网站的更新频率会影响网站时效性。

本发明的时态一致性约束判断的网页时效获取方法,基于网页时效性,提出了网络时态模型的时态不一致智能识别系统,包括网络时态模型的构建、时态不一致约束体系和判断体系、基于网络时态模型的时态不一致智能识别方法。在内部搜索引擎的基础上,提出了基于层次分析模型的获取网页发布时间方法,利用网页发布时间对搜索引擎的检索结果进行时效性排序,实现时效性检索;同时从网页内容时间的角度对网页时效性进行分析。实验中证明获取网页发布时间的方法结果是有效的,搜索引擎的检索结果满足了用户的时效性需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1