一种呈现浏览器主体内容的方法_3

文档序号:9929579阅读:来源:国知局
om.cn)+路径(/china/j/2015-ll_28/)http://www.sina.com.cn/china/j/2015-11-28/相同,仅路径后部分(doc2207578.shtml)不同的所有节点,依次比较其文件名(对应doc2207578的部分)与当前页面的文件名(doc2207578),其编号增加最少的节点作为下一页节点(一般为doc2207579,也可能是 doc2207580、doc2207581 推类)。
[0116]通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明根据页面内容,使用智能算法分析页面,提取文章主体部分及标题,分析需加载页面的内容是以文字还是图片为主体,然后根据主体的不同,将需要加载的主体内容加载相应阅读模式中。去除页面中无关的广告等干扰内容,让用户沉静在阅读中,同时非常适合在移动和PC端展示,让未为移动端优化的页面也能有很好的效果。能自动处理任意页面,不再局限于只有特定网站才能获得良好阅读体验,满足用户多样的阅读需求。适合在用户浏览网页过程中后台系统会自动进行预读,当完成当前页的阅读后,自动加载到下一页。本发明的阅读模式根据用户的阅读需求进行设置,满足当下阅读者的阅读需要,使阅读者获得了良好的使用效果。
[0117]以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
【主权项】
1.一种呈现浏览器主体内容的方法,其特征在于,该方法包括: Si,分析加载成功的页面,判断页面中是否存在表示页面内容的候选节点;如果是,则进入S2;如果否,则仍保持当前界面的阅读状态; S2,获取候选节点的评分,选择评分最高的候选节点A作为所述页面的主要内容,然后,根据所述候选节点A中的文本、图片和视频的占比,选择相应的阅读模式; S3,获取所述页面的主要内容标题; S4,将所述主要内容标题和所述页面的主要内容进行全屏展示。2.根据权利要求1所述方法,其特征在于,所述表示页面内容的候选节点按照下述方法获取: Al,提取表示主要内容的标签节点;所述标签节点包括:BODY、DIV、TD、P、PRE、D、SPAN、STRONG和ARTICLE; A2,删除父级元素节点内容为菜单、标题和页脚的节点,然后再删除宽及高小于宽及高阈值的节点,得到一级备用节点组; A3,通过一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性的权重值,获得该节点的初始评分; A4,按照初始评分从高到低将一级备用节点排序,得到二级备用节点组; A5,判断二级备用节点组任意一个节点中Unicode编码字符是否是中文、日文或韩文,如果是,则将该节点的初始评分乘以3,得到该节点评分;如果否,则将该节点的初始评分直接作为本轮计算的该节点评分;然后删除节点评分小于节点评分阈值的节点,得到三级备用节点组; A6,计算三级备用节点中每个节点的面积,然后删除节点面积小于面积阈值的节点,得到四级备用节点组; A7,将每个节点中文本的文字字体大小与预先设定的字体大小对比,得到相应的字体权重值C,将四级备用节点组每个节点的节点评分乘以字体权重值C最为该节点的最终评分; 然后删除最终评分小于最终评分阈值的节点,得到五级备用节点组; AS,从五级备用节点组中去除水平线和/或标题占比大于占比阈值的节点,得到候选节点。3.根据权利要求2所述方法,其特征在于,步骤A3具体按照下述方法实现: 获取一级备用节点组中任意一个节点所包含的文本数量W和其标志性属性; 判断所述标志性属性是加分属性还是减分属性,如果标志性属性Q是加分属性,则将WX α最为该节点的初始评分;如果标志性属性组合Q是加分属性,则将W X β最为该节点的初始评分; 所述α是加分权重值,所述β是减分权重值;所述加分属性包括article、entry、post、main 和content;所述减分属性包括:foot、header、list、menu、rss、sidebar和sponsor ο4.根据权利要求2所述方法,其特征在于,步骤A6具体按照下述步骤实现: 获取三级备用节点组中任意一个三级备用节点的总面积; 获取所述三级备用节点中包括的非文字区的面积; 将所述三级备用节点的总面积与所述非文字区的面积做差,得到所述三级备用节点的面积。5.根据权利要求2所述方法,其特征在于,步骤A7,具体按照下述步骤实现: 获取四级备用节点组中任意一个四级备用节点的文本,获得所述文本中字体的平均大小,判断所述字体的平均大小与12镑的大小关系; 如果所述字体的平均大小大于12镑,则所述文本的字体权重值C> I; 如果所述字体的平均大小等于12镑,则所述文本的字体权重值C= I; 如果所述字体的平均大小小于12镑,则所述文本的字体权重值C< I; 将所述三级备用节点组中每个节点的节点评分与该节点的文本的字体权重值做乘,得到该节点的最终评分。6.根据权利要求1所述方法,其特征在于,步骤S2中,所述根据所述候选节点A中的文本、图片和视频的占比,选择相应的阅读模式,具体为: 获取候选节点中文本、图片和视频的占比; 如果图片或视频的面积占比之和大于90%,则选择图片或影片放映模式; 如果图片或视频的面积占比之和小于等于90%,则选择纯文本阅读模式。7.根据权利要求1所述方法,其特征在于,步骤S3,具体按照下述步骤实现: 获取距离所述候选节点外边框预设像素内的标题节点; 计算所述标题节点中的标题文本在所述页面的标题中出现的频率; 将出现频率最高的标题文本作为所述阅读模式的标题。8.根据权利要求1所述方法,其特征在于,步骤S4,所述全屏展示具体按照下述实现: 建立全屏阅读区,所述全屏阅读区覆盖所述页面; 将所述主要内容标题和所述页面的主要内容进行格式化处理后加载到全屏阅读区,完成全屏展示; 所述格式化处理包括:去除不可见的或文本大小小于阈值的元素,去除非文本和/或非图片和/或非视频,调整字体、颜色、文本宽度。9.根据权利要求1所述方法,其特征在于,在步骤S4之后还包括以下步骤: S5,判断全屏展示时滚动条的位置是否小于预先设定的高度阈值,如果小于,则进入S6;如果不小于,则继续判断; S6,加载并展示下一页,直到接收到退出全屏展示的请求; S7,删除全屏阅读区,并根据全屏阅读区上滚动条所在位置,跳转到所述页面上与所述位置内容相同的区域。10.根据权利要求9所述方法,其特征在于,步骤S6中所述加载并展示下一页,具体按照下述步骤实现: BI,查找下一页节点,具体为: 将与所述候选节点A连接的且在所述页面与所述候选节点A属于上、下分布的候选节点作为初选节点;判断所述初选节点中是否包括下一页提示节点; 如果是,进入B2 ; 如果否,判断是否能筛选出与所述候选节点A的URL的前序路径相同且路径最尾端编号相比增加最少的URL,如果是,则保存查找到的URL,进入B2;如果否,则判断所述候选节点A的父节点文本中是否包括的下一页提示节点,如果是,进入B2;如果否,则继续判断是否能筛选出与所述候选节点A的父节点的URL的前序路径相同且路径最尾端编号相比增加最少的URL,如果是,保存查找到的URL,进入B2;如果否,则结束; B2,打开所述下一页提示节点指向的URL或直接打开保存的URL,然后依次进行S1、S2找出主要内容; B3,将找出的主要内容拼接在当前全屏阅读内容的尾端。
【专利摘要】本发明公开了一种呈现浏览器主体内容的方法,涉及互联网领域。该方法包括:分析加载成功的页面,判断页面中是否存在表示页面内容的候选节点;如果否,则仍保持当前界面的阅读状态;如果是,则获取候选节点的评分,选择评分最高的候选节点A作为所述页面的主要内容,然后,根据所述候选节点A中的文本、图片和视频的占比,选择相应的阅读模式;接着获取所述页面的主要内容标题;最后将所述主要内容标题和所述页面的主要内容进行全屏展示。本发明的阅读模式根据用户的阅读需求进行设置,满足当下阅读者的阅读需要,使阅读者获得了良好的使用效果。
【IPC分类】G06F17/30
【公开号】CN105718522
【申请号】CN201610028516
【发明人】陈明杰
【申请人】北京傲游天下科技有限公司
【公开日】2016年6月29日
【申请日】2016年1月15日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1