一种呈现浏览器主体内容的方法_2

文档序号:9929579阅读:来源:国知局
端优化的页面也能有很好的效果。能自动处理任意页面,不再局限于只有特定网站才能获得良好阅读体验,满足用户多样的阅读需求。适合在用户浏览网页过程中后台系统会自动进行预读,当完成当前页的阅读后,自动加载到下一页。本发明的阅读模式根据用户的阅读需求进行设置,满足当下阅读者的阅读需要,使阅读者获得了良好的使用效果。
【附图说明】
[0059]图1是呈现浏览器主体内容的方法的流程示意图。
【具体实施方式】
[0060]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的【具体实施方式】仅仅用以解释本发明,并不用于限定本发明。
[0061]本实施例所述呈现浏览器主体内容的方法,该方法包括:
[0062]SI,分析加载成功的页面,判断页面中是否存在表示页面内容的候选节点;如果是,则进入S2;如果否,则仍保持当前界面的阅读状态;
[0063]S2,获取候选节点的评分,选择评分最高的候选节点A作为所述页面的主要内容,然后,根据所述候选节点A中的文本、图片和视频的占比,选择相应的阅读模式;
[0064]S3,获取所述页面的主要内容标题;
[0065]S4,将所述主要内容标题和所述页面的主要内容进行全屏展示;
[0066]S5,判断全屏展示时滚动条的位置是否小于预先设定的高度阈值,如果小于,则进入S6;如果不小于,则继续判断;
[0067]S6,加载并展示下一页,直到接收到退出全屏展示的请求;
[0068]S7,删除全屏阅读区,并根据全屏阅读区上滚动条所在位置,跳转到所述页面上与所述位置内容相同的区域。即:在页面为第I页时进入全屏阅读状态,而在全屏阅读状态时已在加载并阅读的页面为第14页,则在取消阅读展示时,自动跳转到第14页,不会回到第I页。
[0069]在全屏阅读中设置了关于字体大小、字体颜色、字间距、展示区域位置、阅读背景颜色和自动滚动控制区。
[0070]更详细的解释说明:
[0071](— )所述表示页面内容的候选节点按照下述方法获取:
[0072]Al,提取表示主要内容的标签节点;所述标签节点包括:BODY、DIV、TD、P、PRE、D、SPAN、STRONG和ARTICLE;
[0073]A2,删除父级元素节点内容为菜单、标题和页脚的节点,然后再删除宽及高小于宽及高阈值的节点,得到一级备用节点组;
[0074]A3,通过一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性的权重值,获得该节点的初始评分;
[0075]A4,按照初始评分从高到低将一级备用节点排序,得到二级备用节点组;
[0076]A5,判断二级备用节点组任意一个节点中Unicode编码字符是否是中文、日文或韩文,如果是,则将该节点的初始评分乘以3,得到该节点评分;如果否,则将该节点的初始评分直接作为本轮计算的该节点评分;然后删除节点评分小于节点评分阈值的节点,得到三级备用节点组;
[0077]A6,计算三级备用节点中每个节点的面积,然后删除节点面积小于面积阈值的节点,得到四级备用节点组;
[0078]A7,将每个节点中文本的文字字体大小与预先设定的字体大小对比,得到相应的字体权重值C,将四级备用节点组每个节点的节点评分乘以字体权重值C最为该节点的最终评分;
[0079]然后删除最终评分小于最终评分阈值的节点,得到五级备用节点组;
[0080]AS,从五级备用节点组中去除水平线和/或标题占比大于占比阈值的节点,得到候选节点,所述标题不限于h1、h2、h3、h4、h5和h6。[0081 ]①、步骤A3具体按照下述方法实现:
[0082]获取一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性;
[0083]判断所述标志性属性是加分属性还是减分属性,如果标志性属性Q是加分属性,则将W X α最为该节点的初始评分;如果标志性属性组合Q是加分属性,则将W X β最为该节点的初始评分;
[0084]所述α是加分权重值,所述β是减分权重值;所述加分属性包括article、entry、post、main 和 content;所述减分属性包括:foot、header、list、menu、rss、sidebar 和sponsor0
[0085]②、步骤A6具体按照下述步骤实现:
[0086]获取三级备用节点组中任意一个三级备用节点的总面积;
[0087]获取所述三级备用节点中包括的非文字区的面积,所述非文字区不限于空白、图片、插件和输入框;
[0088]将所述三级备用节点的总面积与所述非文字区的面积做差,得到所述三级备用节点的面积。
[0089]③、步骤A7,具体按照下述步骤实现:
[0090]获取四级备用节点组中任意一个四级备用节点的文本,获得所述文本中字体的平均大小,判断所述字体的平均大小与12镑的大小关系;
[0091 ]如果所述字体的平均大小大于12镑,则所述文本的字体权重值C>1;
[0092]如果所述字体的平均大小等于12镑,则所述文本的字体权重值C=I;
[0093]如果所述字体的平均大小小于12镑,则所述文本的字体权重值C<I;
[0094]将所述三级备用节点组中每个节点的节点评分与该节点的文本的字体权重值做乘,得到该节点的最终评分。
[0095](二)步骤S2中,所述根据所述候选节点A中的文本、图片和视频的占比,选择相应的阅读模式,具体为:
[0096]获取候选节点中文本、图片和视频的占比;
[0097]如果图片或视频的面积占比之和大于90%,则选择图片或影片放映模式;
[0098]如果图片或视频的面积占比之和小于等于90%,则选择纯文本阅读模式。
[0099](三)步骤S3,具体按照下述步骤实现:
[0100]获取距离所述候选节点外边框预设像素内的标题节点,所述标题节点不限于h1、h2、h3、h4和h5;
[0101]计算所述标题节点中的标题文本在所述页面的标题中出现的频率;
[0102]将出现频率最高的标题文本作为所述阅读模式的标题。
[0103](四)步骤S4,所述全屏展示具体按照下述实现:
[0104]建立全屏阅读区,所述全屏阅读区覆盖所述页面;
[0105]将所述主要内容标题和所述页面的主要内容进行格式化处理后加载到全屏阅读区,完成全屏展示;
[0106]所述格式化处理包括:去除不可见的或文本大小小于阈值的元素,去除非文本和/或非图片和/或非视频,调整字体、颜色、文本宽度。
[0107](五)步骤S6中所述加载并展示下一页,具体按照下述步骤实现:
[0108]BI,查找下一页节点,具体为:
[0109]将与所述候选节点A连接的且在所述页面与所述候选节点A属于上、下分布的候选节点作为初选节点;判断所述初选节点中是否包括下一页提示节点;所述下一页提示节点不限于下一页、下一章、下一篇、下一节和下页。
[Ο??Ο] 如果是,进入Β2;
[0111]如果否,判断是否能筛选出与所述候选节点A的URL的前序路径相同且路径最尾端编号相比增加最少的URL,如果是,则保存查找到的URL,进入Β2;如果否,则判断所述候选节点A的父节点文本中是否包括的下一页提示节点,如果是,进入Β2;如果否,则继续判断是否能筛选出与所述候选节点A的父节点的URL的前序路径相同且路径最尾端编号相比增加最少的URL,如果是,保存查找到的URL,进入Β2;如果否,则结束;
[0112]Β2,打开所述下一页提示节点指向的URL或直接打开保存的URL,然后依次进行S1、S2找出主要内容;
[0113]Β3,将找出的主要内容拼接在当前全屏阅读内容的尾端。
[0114]步骤BI中关于URL的具体事例为:
[0115]如当前页面为http://www.sina.com.en/china/j/ 2015-11-28/doc2207578.shtml,则筛选出链接节点的协议(http://)+域名(www.sina.c
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1