页面的处理方法及装置的制造方法

文档序号:8339638阅读:165来源:国知局
页面的处理方法及装置的制造方法
【专利说明】页面的处理方法及装置 【技术领域】
[0001] 本申请涉及页面处理技术,尤其涉及一种页面的处理方法及装置。 【【背景技术】】
[0002] -般来说,网站的页面可以是基于超文本标记语言(HyperText Markup Language,HTML)、扩展超文本标签语言(extensible HTML,XHTML)或无线标记语言 (Wireless Markup Language,WML)编写的网页(Web Page),也可以称为Web页面。对网站 的页面进行数据采集与分析,通常需要用到列表页面库,根据指定频率对列表页面库中所 包含的列表页面进行数据抓取。现有技术中,由操作人员逐一浏览每个网站,对网站的列表 页面进行人工识别和标注,以建立列表页面库。
[0003] 然而,现有建立列表页面库的操作复杂,且容易出错,从而导致了列表页面库建立 的效率和可靠性的降低。 【
【发明内容】

[0004] 本申请的多个方面提供一种页面的处理方法及装置,用以提高列表页面库建立的 效率和可靠性。
[0005] 本申请的一方面,提供一种页面的处理方法,包括:
[0006] 获取指定网站的页面;
[0007] 根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类;
[0008] 根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页 面集合。
[0009] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所 述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集合,包括: [0010] 根据每个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页 面,确定所述每个类中的页面作为所述网站的列表页的概率;
[0011] 根据所述概率,选择所述至少一个类,以作为所述列表页面集合。
[0012] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据每 个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页面,确定所述每个 类中的页面作为所述网站的列表页的概率,包括:
[0013] 根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度;
[0014] 根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度;
[0015] 确定所述每个类的指向类的数量;其中,所述每个类和所述每个类的指向类满 足:所述每个类相对于所述指向类的关联出度大于所述每个类相对于所述指向类的关联入 度;
[0016] 根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率。
[0017] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,
[0018] 所述每个类的出度为所述每个类中的每个页面的出度的总和;其中,所述每个页 面的出度由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、 以及所述其它页面与所述网站的根节点的距离确定;
[0019] 所述每个类的入度为所述每个类中的每个页面的入度的总和;其中,所述每个页 面的入度由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、 以及所述其它页面与所述网站的根节点的距离确定。
[0020] 如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,
[0021] 所述根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度,包 括:
[0022] 根据
【主权项】
1. 一种页面的处理方法,其特征在于,包括: 获取指定网站的页面; 根据所述页面的页面特征,对所述页面进行聚类,以获得一个或多个类; 根据所述一个或多个类之间的页面的链接关系,选择至少一个类,以作为列表页面集 合。
2. 根据权利要求1所述的方法,其特征在于,所述根据所述一个或多个类之间的页面 的链接关系,选择至少一个类,以作为列表页面集合,包括: 根据每个类中的页面所链出的其它页面和所述每个类中的页面所链入的其它页面,确 定所述每个类中的页面作为所述网站的列表页的概率; 根据所述概率,选择所述至少一个类,以作为所述列表页面集合。
3. 根据权利要求2所述的方法,其特征在于,所述根据每个类中的页面所链出的其它 页面和所述每个类中的页面所链入的其它页面,确定所述每个类中的页面作为所述网站的 列表页的概率,包括: 根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度; 根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度; 确定所述每个类的指向类的数量;其中,所述每个类和所述每个类的指向类满足:所 述每个类相对于所述指向类的关联出度大于所述每个类相对于所述指向类的关联入度; 根据所述每个类的出度、所述每个类的入度和所述指向类的数量,确定所述概率。
4. 根据权利要求3所述的方法,其特征在于, 所述每个类的出度为所述每个类中的每个页面的出度的总和;其中,所述每个页面的 出度由所述每个页面与所述网站的根节点的距离、所述每个页面所链出的其它页面、以及 所述其它页面与所述网站的根节点的距离确定; 所述每个类的入度为所述每个类中的每个页面的入度的总和;其中,所述每个页面的 入度由所述每个页面与所述网站的根节点的距离、所述每个页面所链入的其它页面、以及 所述其它页面与所述网站的根节点的距离确定。
5. 根据权利要求4所述的方法,其特征在于, 所述根据所述每个类中的页面所链出的其它页面,确定所述每个类的出度,包括: 根据^% =ZiZz5cO,获得所述每个类的出度;其中, j V Jj OUTk为第k个类的出度,k为自然数; 为第k个类的第j个页面的出度,j为自然数,DOi为第j个页面在所述链接 关系中指向的第i个其它页面贡献的出度增量,i为自然数;其中, 若第j个页面与所述网站的根节点的距离大于第j个页面指向的第i个其它页面与所 述网站的根节点的距离,DOi= α ;若第j个页面与所述网站的根节点的距离小于第j个页 面指向的第i个其它页面与所述网站的根节点的距离,DOi= β,α〈β,且α+β =N,N为 自然数;若第j个页面与所述网站的根节点的距离等于第j个页面指向的第i个其它页面 与所述网站的根节点的距离,DO i= X,且X =N/2, N为自然数; 所述根据所述每个类中的页面所链入的其它页面,确定所述每个类的入度,包括: f \ 根据= Σ Σβ/<·,获得所述每个类的入度;其中, j V / Jj INk为第k个类的入度,k为自然数; 为第k个类的第j个页面的入度,j为自然数,DIi为在所述链接关系中指向 V Jj 第j个页面的第i个其它页面贡献的入度增量,i为自然数;其中, 若第j个页面与所述网站的根节点的距离大于指向第j个页面的第i个其它页面与所 述网站的根节点的距离,DIi= α ;若第j个页面与所述网站的根节点的距离小于指向第j 个页面的第i个其它页面与所述网站的根节点的距离,DIi= β,α>β,且α+β
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1