一种抽取网页信息块的方法及装置的制作方法

文档序号：6357268阅读：262来源：国知局

专利名称：一种抽取网页信息块的方法及装置的制作方法
技术领域：
本发明涉及计算机领域，特别涉及一种抽取网页信息块的方法及装置。
背景技术：
对于新闻网页、小说网页和博客网页，这些网页中包括对用户有价值的关键信息，如新闻正文、小说正文和博客正文，还包括对用户无用的信息，如广告等无用信息；如果在返给用户的网页中只包括关键信息，不仅方便用户浏览，还减少网络资源的占用。目前可以从网页中抽取包括关键信息的信息块，将抽取的信息块封装成新网页；接下来以新闻网页为例对该方案进行说明:一个新闻网页一般包括页顶导航、二级导航、正文标题、正文信息、正文、交互块和链接信息块等信息块，对用户有价值的信息块包括二级导航、正文标题、正文信息和正文；对于一个新闻网页，首先将该新闻网页包括的信息划分为多个信息块，确定该新闻网页的D0M(Document Object Model,文档对象模型)树结构,根据技术人员事先制作该DOM树结构包括的信息模板确定划分的每个信息块的名称，然后抽取名称为二级导航、正文标题、正文信息和正文分别对应的信息块，并将抽取的四个信息块封装成新的新闻网页。其中，需要说明的是:技术人员事先对大量的网页进行归类，将属于同一 DOM树结构的网页归为一类，然后对属于同一 DOM树结构的网页进行分析并制作出该DOM树结构包括的一个或多个信息块模板。在实现本发明的过程中，发明人发现现有技术至少存在以下问题:不同网站的网页的DOM树结构都有所不同使得DOM树种类繁多，如此对属于每个DOM树结构的网页进行归类,根据属于每个DOM树结构的网页制作出每个DOM树结构包括的信息块模板，需要投入大量的人力；网站有可能进行网页改版，一旦网页改版，网页采用的DOM树结构也随之改变，如此就需要再制作改变之后的DOM树包括的信息块模板，维护量巨大。

发明内容
为了减少人力投入和维护量，本发明提供了抽取网页信息块的方法及装置。所述技术方案如下:一种抽取网页信息块的方法，所述方法包括:获取网页所包括的多个特征的特征值，所述网页包括多个信息块；根据获取的所述多个特征值确定所述每个信息块的类别，所述多个信息块分别与多个类别一一对应，所述多个类别包括页顶导航、二级导航、正文标题、正文信息、正文、小说标题、小说正文信息、小说正文、小说导航、博客导航、博客标题、博客信息、博客正文、链接信息块和交互块中至少一者；从所述网页中选定至少一个信息块以进行显示。获取网页所包括的多个特征的特征值，包括:
将所述网页具有的特征的特征值设置为第一特征值，将所述网页不具有的特征的特征值设置为第二特征值。所述根据获取的所述多个特征值确定所述每个信息块的类别包括:计算每个信息块属于每个类别的概率，并将对应概率最大的类别定义为该信息块的类别。所述计算每个信息块属于每个类别的概率包括:针对任一个类别C，根据所述类别C包括的样本总数Ctotal和每个类别包括的样本总数Total计算出所述类别C的类别概率
权利要求
1.一种抽取网页信息块的方法，其特征在于，所述方法包括: 获取网页所包括的多个特征的特征值，所述网页包括多个信息块；根据获取的所述多个特征值确定所述每个信息块的类别，所述多个信息块分别与多个类别一一对应，所述多个类别包括页顶导航、二级导航、正文标题、正文信息、正文、小说标题、小说正文信息、小说正文、小说导航、博客导航、博客标题、博客信息、博客正文、链接信息块和交互块中至少一者；从所述网页中选定至少一个信息块以进行显示。
2.如权利要求1所述的方法，其特征在于，获取网页所包括的多个特征的特征值，包括: 将所述网页具有的特征的特征值设置为第一特征值，将所述网页不具有的特征的特征值设置为第二特征值。
3.如权利要求2所述的方法，其特征在于，所述根据获取的所述多个特征值确定所述每个信息块的类别包括:计算每个信息块属于每个类别的概率，并将对应概率最大的类别定义为该信息块的类别。
4.如权利要求3所述的方法，其特征在于，所述计算每个信息块属于每个类别的概率包括: 针对任一个类别C，根据所述类别C包括的样本总数Ctotal和每个类别包括的样本总数Total计算出所述类别C的类别概率P
5.一种抽取网页信息块的装置，其特征在于，所述装置包括: 获取模块，用于获取网页所包括的多个特征的特征值，所述网页包括多个信息块；确定模块，用于根据获取的所述多个特征值确定所述每个信息块的类别，所述多个信息块分别与多个类别一一对应，所述多个类别包括页顶导航、二级导航、正文标题、正文信息、正文、小说标题、小说正文信息、小说正文、小说导航、博客导航、博客标题、博客信息、博客正文、链接信息块和交互块；选定模块，用于从所述网页中选定至少一个信息块以进行显示。
6.如权利要求5所述的装置，其特征在于，所述获取模块，具体用于将所述网页具有的特征的特征值设置为第一特征值，将所述网页不具有的特征的特征值设置为第二特征值。
7.如权利要求6所述的装置，其特征在于，所述确定模块包括: 计算单元，用于计算所述信息块属于每个类别的概率；定义单元，用于将对应概率最大的类别定义为该信息块的类别。
8.如权利要求7所述的装置，其特征在于，所述计算单元，第一计算子单元，用于针对任一个类别C，根据所述类别C包括的样本总数Ctotal和每个类别包括的样本总数Total计算出所述类别的类别概率
全文摘要
本发明公开了一种抽取网页信息块的方法及装置，属于计算机领域。所述方法包括获取网页所包括的多个特征的特征值，所述网页包括多个信息块；根据获取的所述多个特征值确定所述每个信息块的类别，所述多个信息块分别与多个类别一一对应，所述多个类别包括页顶导航、二级导航、正文标题、正文信息、正文、小说标题、小说正文信息、小说正文、小说导航、博客导航、博客标题、博客信息、博客正文、链接信息块和交互块中至少一者；从所述网页中选定至少一个信息块以进行显示。所述装置包括获取模块、确定模块和选定模块。本发明能够减少人力投入和维护量。
文档编号G06F17/30GK103198075SQ20121000465
公开日2013年7月10日申请日期2012年1月9日优先权日2012年1月9日
发明者徐羽, 彭默, 蔡兵申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐羽;彭默;蔡兵
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种采用图像分类技术从遥感图像中进行滑坡检测的方法
上一篇：基于块相似性的交互式图像分割方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。