一种在浏览器中显示网页内容的方法和装置制造方法

文档序号:6487562阅读:198来源:国知局
一种在浏览器中显示网页内容的方法和装置制造方法
【专利摘要】本申请公开了一种在浏览器中显示网页内容的方法和装置,该方法包括:获取用户请求读取的网页;判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文。本发明能够过滤掉网页中正文以外的无用信息。
【专利说明】一种在浏览器中显示网页内容的方法和装置
【技术领域】
[0001]本申请涉及网络【技术领域】,特别涉及一种在浏览器中显示网页内容的方法和装置。
【背景技术】
[0002]当前互联网中,存在大量的内容型网页(例如提供新闻、小说等内容的网页),用户在浏览内容型网页时,主要关注的对象是网页中的文章。在内容型网页中往往包含大量的广告等的正文以外的信息,这些正文以外的信息给用户的阅读带来了很多干扰。
[0003]为了减少网页中正文以外的信息给用户带来的干扰,目前,一些浏览器(例如Chrome)使用插件对网页中的广告信息进行过滤,可以在一定程度上减少广告信息对用户的阅读带来的干扰。然而,这种使用插件对广告信息进行过滤的方法只能有限的减少干扰,并不能提供纯粹的阅读模式,使用户在浏览内容型网站时不受无用信息的干扰。

【发明内容】

[0004]有鉴于此,本申请的目的在于提供一种提升浏览器的阅读体验的方法,该方法能够过滤掉网页中正文以外的无用信息。
[0005]为了达到上述目的,本申请提供了一种在浏览器中显示网页内容的方法,该方法包括:
[0006]获取用户请求读取的网页;
[0007]判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文。
[0008]预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的统一资源定位符URL匹配规贝U,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
[0009]所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。
[0010]所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成文当对象模型DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为一级标题hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0011]所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0012]所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,如果DOM树中存在标签为文章article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0013]所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题;
[0014]其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
[0015]所述在浏览器中以预设阅读模式输出所述标题和正文的方法为:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
[0016]本申请还提供了一种浏览器,该浏览器包括:网页获取单元、正文提取单元、输出单元;
[0017]所述网页获取单元,用于获取用户请求读取的网页;
[0018]所述正文提取单元,用于判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文;
[0019]所述输出单元,用于在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文。
[0020]所述规则建立单元,用于预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
[0021]所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:使用预先建立的每条匹配规则中的键与所述网页的统一资源定位符URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。
[0022]所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成文档对象模型DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为一级标题hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0023]所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为hI的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0024]所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,如果DOM树中存在标签为文章article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0025]所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题;
[0026]其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
[0027]所述输出单元在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文时,用于:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
[0028]由上面的技术方案可知,本申请中,获取用户请求的网页后,如果判定网页是内容型网页,则提取网页的标题和正文并在浏览器中输出提取的标题和正文,从而实现过滤网页中正文以外的无用信息,使用户在浏览内容型网页时可以不受无用信息的干扰的目的。
【专利附图】

【附图说明】
[0029]图1是本发明实施例在浏览器中显示网页内容的方法流程图;
[0030]图2是本发明实施例提供的浏览器的架构示意图。
【具体实施方式】
[0031]为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本发明的技术方案进行详细说明。
[0032]参见图1,图1是本发明实施例在浏览器中显示网页内容的方法流程图,主要包括以下几个步骤:
[0033]步骤101、获取用户请求读取的网页;
[0034]当用户需要浏览某一网页时,需要在浏览器的统一资源定位符(URL)地址栏中输入该网页的URL地址或点击该网页的链接,以触发浏览器获取该网页的过程。
[0035]步骤102、判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文。
[0036]这里,所述内容型网页是指以文章作为主体的网页,包括较多的文字内容,例如提供新闻、小说、资讯(例如博客)等内容的网页,均属于内容型网页。这类网页中通常都有广告等干扰信息,本实施例中通过提取标题和正文的方式去除网页中的干扰信息。
[0037]本实施例中,只对内容型网页的标题和正文进行提取,需要判断网页是否是内容型网页,如果是内容型网页,才会在浏览器中输出从网页中提取的标题和正文。
[0038]图1所示本发明实施例中,判断网页是否是内容型网页,当网页是内容型网页时,按照预设规则从网页中提取标题和正文的方法有多种,下面分别进行说明:
[0039]第一种:针对每个网站中使用相同模版的内容型网页建立匹配规则,根据匹配规则进行标题和正文的判断和提取。
[0040]在实际应用中,每个网站中,对于同一类型网页往往使用相同的模版,对于同一网站中使用相同模版的内容型网页,每个网页的标题所在的位置、正文所在的位置均相同,可以将内容型网页解析成文档对象模型(Document Object Model, DOM)树,贝U每个网页的标题所在的DOM树节点以及正文所在的DOM树节点均相同。基于该特点,可以针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,所述健值对包括健和值,其中,键包括使用该模版的内容型网页的URL匹配规则,这里的URL匹配规则可以是使用该模版的所有内容型网页的URL的正则表达式,例如:http://news.com/\d{8, 8} /\d+.htm/i ;值包括使用该模版的内容型网页的标题位置信息和正文位置信息,例如:{title: ' #id:article hi' , content: ' #id:article, class:content/ },表示标题所在的DOM树节点为标识(id)属性为文章(article)的节点的子节点:一级标题(hi)节点,正文所在的DOM树节点`为id属性为article、class属性为content的节点。
[0041]这种情况下,所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文(也即提取标题所在的DOM树节点的文本作为该网页的标题,提取正文所在DOM树节点的文本作为该网页的正文)。
[0042]这种针对每个网站中使用相同模版的内容型网页建立一条匹配规则的方法是由人工设定和更新规则,准确率比较高。
[0043]第二种:根据网页渲染的视觉效果的智能算法策略进行标题和正文的判断和提取。
[0044]在实际应用中,在内容型网页中,正文内容通常占用显示区域的主要部分,例如在显示区域的第一屏。基于该特点,可以将网页解析成DOM树,获取DOM树中的每个节点的位置信息(包括该节点的文本占用的宽度、高度、以及字体大小等),根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值大于预设正文视觉属性值的节点,则可以确定该网页是内容型网页,可以提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,这里,节点的视觉属性值表明了该节点在网页中的位置与网页的主要显示区域的位置关系,其值越大,表明节点在网页中的位置越接近网页的主要显示区域的中心位置,其值越小,表明节点在网页中的位置越远离网页的主要显示区域的中心位置;另夕卜,网页的标题通常位于标签hi (<hl>标题</hl>)中,当该网页是内容型网页时,如果DOM树中存在标签为hi的节点,则可以提取标签为hi的节点的文本作为该网页的标题。
[0045]其中,根据DOM树中每个节点的位置信息计算该节点的视觉属性值可以采用以下公式:
[0046]ViewValue=a-1- (height Xwidth) X fondsize,其中,ViewValue 表不节点的视觉属性值,height表示节点的文本占用的高度,width表示节点的文本占用的宽度,fondsize表示节点的文本的字体大小,a为调节系数,初始值为预设初始值(例如1),当该节点的id属性为 article、入 P (entry)、提交(post)、正文体(body)、列(column)、主(main)、或上下文(content)时,将a的值增加第一预设调节系数(例如0.4);当该节点的类(class)属性为 article、entry、post、body、column、main、或 content 时,将 a 的值增加第一预设调节系数;当该节点的id属性为注释(comment)、组合框(combobox)、disqus (一种名位disqus的第三方评注插件系统)、脚注(foot)、头注(header)、菜单(menu)、聚合(rss)、免费资源网路社群(shoutbox)、侧边栏(sidebar)、或感应器(sponsor)时,将a的值减去第二预设调节系数(例如 0.8),当该节点的 Class 属性为 comment、combobox、disqus、foot、header、menu、rss、shoutbox、sidebar、或sponsor时,将a的值减去第二预设调节系数。
[0047]下面对上述公式举例说明:
[0048]假设网页中包括如下源代码:〈div id= “article”, class= “post”〉文本内容〈/div>,则将网页解析成DOM树后,该部分内容将会被解析为标签为div的节点,该节点的id属性为 article,该节点的 class 属性为 post,则 a=l+0.4+0.4=1.8 ;
[0049]再假设网页中包括如下源代码:〈div id= “co_ent”,class= “post”〉文本内容</div>,则将网页解析成DOM树后,该部分内容将会被解析为标签为div的节点,该节点的id 属性为 comment,该节点的 class 属性为 post,则 a=l+0.4-0.8=0.6。
[0050]第三种:基于正文中包括多个标点符号的判断准则进行标题和正文的判断和提取。
[0051]在实际应用中,网页的正文中往往会包括很多标点符号。基于该特点,可以将网页解析成DOM树,提取DOM树中的每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号的节点,则可以确定该网页是内容型网页,可以将该节点的文本作为该网页的正文,另外,当该网页是内容型网页时,如果DOM树中存在标签为hi的节点,则可以提取标签为hi的节点的文本作为该网页的标题。
[0052]第四种,基于网页中的标签的语义进行标题和正文的判断和提取。
[0053]网页中的各标签都具有一定的语义,例如hi标签代表网页的标题,article表示网页的正文,如果网页中正确使用了各标签,则可以根据各标签的语义提取出网页的正文和标题。具体地,可以将所述网页解析成DOM树,如果DOM树中存在标签为article的标签,则可以确定该网页是内容型网页,可以提取标签为article的节点的文本作为该网页的正文,另外,当该网页是内容型网页时,如果DOM树中存在标签为hi的节点,则可以提取标签为hi的节点的文本作为该网页的标题。
[0054]第五种:基于上述第二、三、四种方法的综合考虑进行标题和正文的判断和提取。[0055]实际上,上述第二、三、四种方法均可以完成标题和正文的判断和提取,然而却不能保证结果的正确性,可以通过对该三种方法进行综合考虑,计算加权平均值,则可以更精确的进行标题和正文的判断和提取。
[0056]所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文具体包括:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为hI的节点,则提取标签为hi的节点的文本作为该网页的标题;
[0057]其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
[0058]图1所示本发明实施例中,可以预先设定阅读模式模板页面,该模板页面中可以对标题以及正文的字体类型、字体大小、字体颜色、正文之间的行距、页边距等进行设置。这样,可以使用内嵌框架(iframe)载入预设阅读模式模板页面,将标题和正文填充到预设阅读模式模板中,从而实现在浏览器中以预设阅读模式显示网页的内容。
[0059]综上所述,本发明中,当获取到用户请求读取的网页内容后,当判断确定网页是内容型网页后,可以利用内容型网页的特性(例如标题和正文所在的标签,标题和正文位于网页显示区域的第一屏等)来获取网页的标题和正文,然后再利用预设阅读模式在浏览器中显示网页的标题和正文,从而达到去除网页中的无用信息,只将网页的主要内容显示给用户,使用户在浏览内容型网页时可以不受无用信息的干扰的目的。
[0060]以上对本发明实施例提升浏览器的阅读体验的方法进行了详细说明,本发明还提供了一种浏览器,下面结合图2进行说明。
[0061]图2是本发明实施例提供的浏览器的架构示意图,该浏览器包括网页获取单元201、正文提取单元202、输出单元203 ;其中,
[0062]网页获取单元201,用于获取用户请求读取的网页;
[0063]正文提取单元202,用于判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文;
[0064]输出单元203,用于在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文。
[0065]该浏览还包括规则建立单元204 ;
[0066]所述规则建立单元204,用于预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息;
[0067]所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。[0068]上述浏览器中,所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0069]上述浏览器中,所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0070]上述浏览器中,所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,如果DOM树中存在标签为article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
[0071]上述浏览器中,所述正文提取单元202在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题;
[0072]其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
[0073]上述浏览器中,所述正文提取单元202在根据该节点的位置信息计算该节点的视觉属性值时,用于采用以下公式:
[0074]ViewValue=a-1- (heightXwidth) X fondsize,其中,ViewValue 表不节点的视觉属性值,height表示节点的文本占用的高度,width表示节点的文本占用的宽度,fondsize表示节点的文本的字体大小为调节系数,初始值为预设初始值,当该节点的id属性包括article、entry、post、body、column、main、或 content 时,将 a 的值增加第一预设调节系数;当该节点的 class 属性包括 article、entry、post、body、column、main、或 content 时,将a的值增加第一预设调节系数;当该节点的id属性包括comment、combx、disqus、foot、header、menu、rss、shoutbox、sideba、或sponsor时,将a的值减去第二预设调节系数,当该节点的 Class 属性包括 comment、combx、disqus、foot、header、menu、rss、shoutbox、sideba、或sponsor时,将a的值减去第二预设调节系数。
[0075]上述浏览器中,所述输出单元203在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文时,用于:使用内嵌框iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
[0076]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
【权利要求】
1.一种在浏览器中显示网页内容的方法,其特征在于,该方法包括: 获取用户请求读取的网页; 判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文,并在浏览器中以预设阅读模式输出所述标题和正文。
2.根据权利要求1所述的提升浏览器的阅读体验的方法,其特征在于,预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的统一资源定位符URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息; 所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:使用预先建立的每条匹配规则中的键与所述网页的URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。
3.根据权利要求1所述的在浏览器中显示网页内容的方法,其特征在于, 所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成文当对象模型DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为一级标题hI的节点,则提取标签为hi的节点的文本作为该网页的标题。
4.根据权利要求1所述的在浏览器中显示网页内容的方法,其特征在于, 所述判断所述网页是否是内·容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
5.根据权利要求1所述的在浏览器中显示网页内容的方法,其特征在于, 所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,如果DOM树中存在标签为文章article的节点,则确定该网页为内容型网页,提取标签为article的节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
6.根据权利要求1所述的在浏览器中显示网页内容的方法,其特征在于, 所述判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文包括:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题; 其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为articIe,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
7.根据权利要求1-6任一权项所述的在浏览器中显示网页内容的方法,其特征在于, 所述在浏览器中以预设阅读模式输出所述标题和正文的方法为:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
8.—种浏览器,其特征在于,该浏览器包括网页获取单元、正文提取单元、输出单元: 所述网页获取单元,用于获取用户请求读取的网页; 所述正文提取单元,用于判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文; 所述输出单元,用于在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文。
9.根据权利要求8所述的浏览器,其特征在于,该浏览还包括规则建立单元; 所述规则建立单元,用于预先针对每个网站中使用同一模版的所有内容型网页建立一条匹配规则,所述匹配规则包括键值对,其中,键包括使用该模版的内容型网页的URL匹配规则,值包括使用该模版的内容型网页的标题位置信息和正文位置信息; 所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:使用预先建立的每条匹配规则中的键与所述网页的统一资源定位符URL进行匹配,如果匹配成功,则确定该网页是内容型网页,根据该条匹配规则中的标题位置信息和正文位置信息获取所述网页的标题和正文。`
10.根据权利要求8所述的浏览器,其特征在于, 所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成文档对象模型DOM树,获取DOM树中的每个节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果该节点的视觉属性值超过预设正文视觉属性值,则确定该网页是内容型网页,提取视觉属性值大于预设正文视觉属性值的节点的文本作为该网页的正文,若DOM树中存在标签为一级标题hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
11.根据权利要求8所述的浏览器,其特征在于, 所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,提取DOM树中每个节点的文本,如果该节点的文本中包括超过预设个数的标点符号,则确定该网页是内容型网页,将该节点的文本作为该网页的正文,若DOM树中存在标签为hI的节点,则提取标签为hi的节点的文本作为该网页的标题。
12.根据权利要求8所述的浏览器,其特征在于, 所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,如果DOM树中存在标签为文章articIe的节点,则确定该网页为内容型网页,提取标签为articIe的节点的文本作为该网页的正文,若DOM树中存在标签为hi的节点,则提取标签为hi的节点的文本作为该网页的标题。
13.根据权利要求8所述的浏览器,其特征在于, 所述正文提取单元在判断所述网页是否是内容型网页,当所述网页是内容型网页时,按照预设规则从所述网页中提取标题和正文时,用于:将所述网页解析成DOM树,并计算DOM树中的每个节点的正文权值,如果该节点的正文权值大于预设正文权值,则确定该网页是内容型网页,提取该节点的正文作为该网页的正文,若DOM树中存在标签为hI的节点,则提取标签为hi的节点的文本作为该网页的标题; 其中,计算DOM树中的每个节点的正文权值,包括:获取该节点的位置信息,根据该节点的位置信息计算该节点的视觉属性值,如果视觉属性值大于预设正文视觉属性值,则将该节点的正文权值增加预设第一权值;如果该节点的标签为article,则将该节点的正文权值增加预设第二权值;提取该节点的文本信息,如果该节点的文本中存在超过预设个数的标点符号,则将该节点的正文权值增加预设第三权值。
14.根据权利要求8-13任一权项所述的浏览器,其特征在于, 所述输出单元在浏览器中以预设阅读模式输出正文提取单元从所述网页中提取的标题和正文时,用于:使用内嵌框架iframe载入预设阅读模式模板页面,将所述标题和正文填充到预设阅读模式模板页面。
【文档编号】G06F17/30GK103577466SQ201210274520
【公开日】2014年2月12日 申请日期:2012年8月3日 优先权日:2012年8月3日
【发明者】张宁, 刘钟书, 王文明, 刘帅, 李一山 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1