一种面向深层网页的增量信息获取方法

文档序号:6650668阅读:482来源:国知局
专利名称:一种面向深层网页的增量信息获取方法
技术领域
本发明涉及一种面向深层网页的增量信息获取方法,具体涉及一种由网络查询接 口连接的深层网页的信息获取方法,用于深层网页数据源的集成。
背景技术
目前主流搜索引擎还只能搜索Internet表面可索引的信息,在Internet深处 还隐含着大量通过主流搜索引擎无法涉及的海量信息,这些信息被称之为深层网页(De印 Web,又称为 Invisible Web 或 Hidden Web)。根据 Bright Planet 研究表明,Deep Web 信 息量非常庞大,是可索引Web信息的500倍,并且这些De印Web内容95%都是可以通过 Internet无需付费注册就可以公开访问的。De印Web的信息一般存储在服务器端Web数据 库中,与静态页面相比通常信息量更大、主题更专一、信息质量和结构更好。目前De印Web 信息集成主要有两种实现方案一种方案是基于元搜索的方法,针对某个领域提供统一的 查询接口,将用户查询经过语义映射转发到各个Deep Web数据源上,返回的结果经过抽取、 语义标注、去重合并呈现给用户。该方案不需维护本地数据库,但存在如下不足查询响应 时间由远程数据源的服务质量决定,响应时间不可控;同时,建立和维护统一查询接口模式 与各个数据源接口模式的语义映射代价高。另一种方案与构建传统搜索引擎一样,将Deep Web数据库里内容爬取出来,存储到本地动态网页拷贝库中并建立索引,它能在最短时间 内响应用户的查询要求。目前第二种方案正受到越来越多国内外研究学者的关注,将成为 Deep Web数据集成研究的主流,该方案中一个关键问题是如何让本地数据和远程数据源中 数据保持同步。本发明解决该关键问题,在相同更新资源条件下,使得本地数据和远程数据 保持最大化同步。由于De印Web是自治的、独立更新的,其数据经常处于频繁更新的状态,而用户总 是希望能够得到当前Web数据库中最新的内容。因此需要定期的更新本地数据拷贝,以保 持和远程数据源同步。由于不同的De印Web数据源或同一个De印Web数据源中的数据记录 变化频率是不一样的,现有方法按统一频率更新本地存储的所有数据,这是非常耗费资源 的(包括带宽、远程数据源的服务器资源等)。而且,Deep Web处于快速动态更新的状态, 使得数据更新维护变得更加复杂。

发明内容
本发明目的是针对现有技术存在的缺陷提供一种面向深层网页的增量信息获取 方法。本发明为实现上述目的,采用如下技术方案本发明一种面向深层网页的增量信息获取方法包括如下步骤步骤1 确定本地对象与远程数据源同步频率,其中远程数据源即远程Web上数据 库;步骤2 利用泊松过程来表示远程数据源平均变化频率Ai,其中,i = 1,2,…,η ;
步骤3 确定平均新颖度由步骤2得到的平均变化频率Xi,确定各对象即远程Web上数据库中各数据项ei 对应的同步频率fi,在满足同步资源限制的条件下,使本地数据库的平均新颖度最大,
权利要求
1.一种面向深层网页的增量信息获取方法,其特征在于包括如下步骤步骤1 确定本地对象与远程数据源同步频率,其中远程数据源即远程Web上数据库; 步骤2 利用泊松过程来表示远程数据源平均变化频率λ ρ其中,i = l,2,...,η; 步骤3 确定平均新颖度由步骤2得到的平均变化频率λ i,确定各对象即远程Web上数据库中各数据项ei对 应的同步频率&,在满足同步资源限制的条件下,使本地数据库的平均新颖度:Fos)最大,
2.根据权利要求1所述的一种面向深层网页的增量信息获取方法,其特征在于所述数 据记录集合S在时间上取平均值加以衡量
3.根据权利要求1所述的一种面向深层网页的增量信息获取方法,其特征在于对于所 有的(s,a)初始化表项Qtl (s,a) = 0,此处Q表示计算机机器学习领域的专业表示即Q为 增强学习的表示形式,其中s表示状态,a表示动作,也就是Q (s,a)表示应用动作a到状态 S的结果状态;初始化为0值,也就是未进行学习初始化值;在每个情节中,将对数据源的范 围作为其活动,得到回报值为ri
4.根据权利要求1所述的一种面向深层网页的增量信息获取方法,其特征在于本地对 象数据库中的对象数据是远程Web数据库中数据的一份拷贝,获取远程Web数据库中数据的方法如下(1)提供待查询数据的主题,分别构建站点初始训练队列URL,然后提取队首队列URL, 分析指队首页面页面结构提取页面中的链接地址URL,并根据页面关键信息计算链接地址 的立即回报得出未来回报,然后结合Value值词库中未来回报来计算该链接地址的综合Q 值;(2)权衡立即回报价值和未来回报价值的信任度,即现在是处理利用阶段还是探索阶 段,控制信任度。根据URL地址的深度因子是否大于5,如果深度因子大于5,则抛弃,不放 入待提取URL队列;(3)当得到深度因子小于5的URL链接后,然后判断其综合Q值是否大于设定的主题 值,如果是则更新Value值词库中的原属性值,并用新的Value值词库来计算未来回报,然 后根据URL优先权放入待提取URL队列中,如此反复训练直到得到最终的待提取URL队列, 然后由网络爬虫抓取Deep Web中增量信息;如果综合Q值小于设定的主题值,则舍去该 URL,返回步骤(1)继续下一轮训练。
全文摘要
本发明公布了一种面向深层网页的增量信息获取方法。本发明方法包括步骤1确定与远程数据源同步频率;步骤2利用泊松过程来表示数据源变化频率;步骤3确定平均新颖度;步骤4根据数据时新性确定更新频率进行增量信息获取。另外,本发明还可以利用在线学习方法有效进行增量信息获取。本发明方法首先确定与远程数据源同步频率,然后利用泊松过程获得数据源变化频率;接着根据数据时新性确定更新频率。相比现有技术,本发明方法是一种非常高效的深层网页的增量信息获取方法,它能够较大范围地提高人们的工作效率以及在相同更新资源条件下,使得本地数据和远程数据保持最大化同步,为进一步实现深层网数据源集成提供基础。
文档编号G06F17/30GK102103636SQ201110020898
公开日2011年6月22日 申请日期2011年1月18日 优先权日2011年1月18日
发明者崔志明, 文学志, 方巍, 毕硕本 申请人:南京信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1