一种用于确定渲染网页的浏览器内核类型的方法与设备的制作方法

文档序号:6440973阅读:261来源:国知局

专利名称::一种用于确定渲染网页的浏览器内核类型的方法与设备的制作方法
技术领域
:本发明涉及互联网
技术领域
,尤其涉及一种用于确定渲染网页的浏览器内核类型的技术。
背景技术
:随着互联网技术的不断发展,已出现多种用于解析并渲染网页的浏览器内核,如IE浏览器使用的Trident内核、Firefox浏览器使用的Gecko内核、Safari浏览器使用的Webkit内核等,其用于决定浏览器显示能够网页的内容以及相应的格式。由于不同的浏览器内核对网页内容的解析方式与支持程度不同,同一网页在使用不同的浏览器内核渲染的浏览器中显示的效果存在很大差异。目前,支持双浏览器内核或多浏览器内核的浏览器可通过切换浏览器内核来渲染不同的网页,以保证网页在该浏览器中的显示效果,现有技术在通过对网页进行筛选分类以确定渲染该网页的浏览器内核类型来实现浏览器内核的自动切换时,一般采用人工筛选的方式,但由于人工筛选需投入较高人工成本且筛选周期较长,难以实现大规模数据快速筛选。因此,如何实现有效地确定渲染网页的浏览器内核类型,成为目前亟待解决的问题之一。
发明内容本发明的目的是提供一种用于确定渲染网页的浏览器内核类型的方法与设备。根据本发明的一个方面,提供了一种用于确定渲染网页的浏览器内核类型的方法,该方法包括以下步骤:a获取待处理的网页;b根据所述网页,获取所述网页的浏览器相关的特征信息;c根据所述浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。根据本发明的另一方面,还提供了一种用于确定渲染网页的浏览器内核类型的设备,该设备包括:第一网页获取装置,用于获取待处理的网页;特征信息获取装置,用于根据所述网页,获取所述网页的浏览器相关的特征信息;类型确定装置,用于根据所述浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。与现有技术相比,本发明通过提取网页的展示、功能等特征信息,利用决策树、支持向量机(SVM)等分类方法对该些网页进行筛选分类以确定渲染该些网页的浏览器内核类型,从而降低人工筛选成本,同时能够对新出现的网页及时确定渲染该网页的浏览器内核类型,保证网页在浏览器中的展示效果,以提升用户浏览体验。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1示出根据本发明一个方面的用于确定渲染网页的浏览器内核类型的设备示意图;图2示出根据本发明一个优选实施例的用于确定渲染网页的浏览器内核类型的示例图;图3示出根据本发明一个优选实施例的用于确定渲染网页的浏览器内核类型的示例图;图4示出根据本发明一个优选实施例的用于确定渲染网页的浏览器内核类型的设备不意图;图5示出根据本发明另一个方面的用于确定渲染网页的浏览器内核类型的方法流程6示出根据本发明一个优选实施例的用于确定渲染网页的浏览器内核类型的方法流程图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施例方式下面结合附图对本发明作进一步详细描述。图1示出根据本发明一个方面的用于确定渲染网页的浏览器内核类型的设备示意图。确定设备I包括第一网页获取装置11、特征信息获取装置12和类型确定装置13。在此,确定设备I为网络设备,包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,现有的浏览器可以是例如Microsoft公司的IE浏览器、Mozilla公司的Firefox浏览器、Google公司的Safari浏览器、苹果公司的Safari浏览器、遨游公司的Maxthon浏览器、Opera公司的Opera浏览器、360公司的360浏览器、搜狐公司的搜狗浏览器、腾讯公司的腾讯TT浏览器等在此,所述浏览器内核类型包括但不限于:I)IE浏览器使用的Trident内核;2)Opera浏览器使用的Presto内核;3)Safari浏览器使用的Webkit内核;4)Firefox浏览器使用的Gecko内核。本领域技术人员应能理解上述浏览器内核类型仅为举例,其他现有的或今后可能出现的浏览器内核类型如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。以下基于图1对根据本发明一个实施例进行详细描述。如图1所示,首先,第一网页获取装置11获取待处理的网页。在此,所述获取待处理的网页的方式包括但不限于:I)第一网页获取装置11在确定设备I的网页存储库中获取待处理的网页;例如,第一网页获取装置11应事件触发实时地通过确定设备I提供的应用编程接口(API),在本地的网页存储库中进行匹配查询,以获得待处理的网页。2)第一网页获取装置11定期地通过约定的通信方式从第三方设备读取待处理的网页;例如,第一网页获取装置11经由网络,并通过约定的通信方式向第三方设备发送获取待处理的网页的请求,并接收该第三方设备响应于该请求返回的待处理的网页。再如,第三方设备经由网络,并通过约定的通信方式主动向确定设备I发送待处理的网页,第一网页获取装置11通过实时监听的方式接收该等网页。其中,所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(AdHoc网络)等。在此,第一网页获取装置11与第三方设备之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。本领域技术人员应能理解上述获取待处理的网页的方式仅为举例,其他现有的或今后可能出现的获取待处理的网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。接着,特征信息获取装置12例如根据第一网页获取装置11获取的待处理的网页的(同一资源定位符)URL或其所对应的标记语言文件,获取该等网页的浏览器相关的特征信息。在此,所述浏览器相关的特征信息包括以下至少任一项:I)浏览器相关的网页展示特征信息;其中,所述网页展示特征信息包括但不限于:a)与特定浏览器内核类型相对应的专有脚本特征信息;例如,JavaScript中与IE浏览器使用的Trident内核相对应的专有构造函数“ActiveXObjectO”、“VBArrayO”;b)与特定浏览器内核类型相对应的专有级联样式表(CSS)特征信息;例如,CSS中与IE浏览器使用的Trident内核相对应的专有属性,如“layout-flow”、“line_break”;c)网页文档类型;例如,标记语言网页文件中的文档声明“doctype”若为用于呈现遵循最新标准的网页的标准(Standard)模式(也就是严格呈现模式),则推荐使用Webkit内核渲染该网页;若为用于呈现为传统浏览器而设计的网页的包容(Quirks)模式(也就是松散呈现模式或者兼容模式),则推荐使用Trident内核渲染该网页;d)网页标签;例如,与IE浏览器使用的Trident内核相对应的专有的陈旧网页标签“〈bgsound〉”、“〈marquee〉”、“〈layer〉”等。e)网页布局方式;例如,若网页使用表格(标签为“〈table〉”)等早期的网页布局方式,则推荐使用IE浏览器使用的Trident内核渲染该网页;若网页使用网页标签“<DIV>”进行网页布局,则推荐使用Webkit内核渲染该网页。f)网页主题;例如,与网页相对应的统一资源定位符(URL)包含“store”、“shop”等关键词,则判断该网页的主题可能为电子商务网页,而电子商务网页一般采用较新的网页标准,则推荐使用Webkit内核渲染该网页。2)浏览器相关的网页功能特征信息;其中,所述网页功能特征信息包括但不限于:a)网页中包含需特定浏览器内核解析的控件;例如,与IE浏览器使用的Trident内核相对应的专有控件,如ActiveX控件等;b)网页采用异步JavaScript和XML(AJAX)技术实现;c)网页中包含Flash功能;d)网页中包含图片动态效果展示;e)网页中包含悬浮窗口展示。本领域技术人员应能理解上述浏览器相关的特征信息仅为举例,其他现有的或今后可能出现的浏览器相关的特征信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,所述标记语言文件包括但不限于:a)超文本标记语言(HTML)文件;b)可扩展超文本标记语言(XHTML)文件;c)可扩展标记语言(XML)文件等。在此,所述根据网页的标记语言文件以获取该(等)网页的浏览器相关的特征信息的方式包括但不限于:I)特征信息获取装置12根据待处理的网页的标记语言文件,将该标记语言文件解析为(文档对象模型)DOM树,接着根据预定的浏览器相关的各个特征项在该DOM树的各节点中进行匹配查询,以获得该网页包含的与该等特征相对应的特征值;在此,所述DOM树意指通过对标记语言文件进行解析而获得的树结构数据,该树中的各节点与标记语言文件中的标签以及标签内容相对应。在一示例中,预定的浏览器相关的特征项为网页是否包含与Trident内核相对应的专有的陈旧网页标签“〈bgS0Und>”、“〈marqUee>”、“〈layer>”;则特征信息获取装置12提取待处理的网页的HTML文件,对该HTML文件进行解析并生成与其相对应的DOM树,如图2所示,接着对该DOM树各个节点中的内容分别进行解析,并根据该特征项在该DOM树的各个节点中进行遍历,例如,节点N4包含的HTML内容为:“〈bgsoundsrc="http://abc/music.asp"loop="-1">,,,即特征信息获取装置12在该节点中获得标签〈bgsound〉与预定的特征项相匹配,则特征信息获取装置12将该网页包含Trident内核专用的陈旧网页标签作为浏览器相关的特征信息。2)特征信息获取装置12根据待处理的网页的标记语言文件,将该标记语言文件与预定的浏览器相关的特征项进行字符串匹配,以获取与该网页相对应的特征信息。在一示例中,特征信息获取装置12提取待处理的网页的HTML文件,其包括:<html>〈head〉〈title〉我的网页〈/title〉〈metahttp-equiv="X-UA-Compatible"content="IE"/>〈/head〉〈body〉适用于IE7浏览器显不</p></boby></html>若预定的浏览器相关的特征项为网页包含Trident内核专有的属性“content="IE"”,则特征信息获取装置12根据该特征项在该HTML文件中进行字符串匹配,当在该HTML文件中查询获取与特征项相一致的字符串“content="IE"”时,则将网页包含Trident内核专有属性“content="IE"”作为浏览器相关的特征信息;3)根据网页的执行脚本,将该执行脚本与预定的浏览器相关的特征项进行字符串匹配,以获取与该网页相对应的特征信息。在此,所述执行脚本包括但不限于JavaScript、VBScript、ActionScript等。在一示例中,特征信息获取装置12根据待处理的网页,提取该网页中的JavaScript执行脚本,其中,该执行脚本包括:〈SCRIPTLANGUAGE=”JScript”>varobjMyData=newActiveXObject(‘this,object,);〈/SCRIPT〉若预定的浏览器相关的特征项为网页包含Trident内核专有的JavaScript脚本对象“ActiveXObject”,则特征信息获取装置12根据该特征项在执行脚本中进行字符串匹配,当匹配获得与该特征项相一致的字符串“ActiveXObject”时,则将网页包含Trident内核专有的JavaScript脚本对象作为浏览器相关的特征信息。本领域技术人员应能理解上述获取浏览器相关的特征信息的方式仅为举例,其他现有的或今后可能出现的获取浏览器相关的特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。随后,类型确定装置13根据特征信息获取装置12获取的浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。具体地,类型确定装置13根据已获取的浏览器相关的特征信息,通过诸如决策树分类、支持向量机(SVM)分类等分类方法对该网页进行分类,以确定适于渲染该网页的浏览器内核类型。在此,所述预定分类规则包括但不限于:I)决策树分类;其中,所述决策树是利用了概率论的原理,并且利用一种树形图作为分析工具;其基本原理是用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。在一示例中,仅将待处理的网页针对Trident内核和Webkit内核两种浏览器内核类型进行分类;如图3所示,类型确定装置13根据某网页的特征信息在决策树中进行分类;首先,在决策树的决策点NI进行决策判断,决策点NI代表的决策问题为网页是否包含仅用于Trident内核的专有的陈旧网页标签“〈bgsound〉”、“〈marquee〉”、“〈layer〉”等,若判断为“是”,则确定该网页使用Trident内核渲染,否则,将该等特征信息中未用于分类判断的特征信息标记为第一中间数据,然后,根据该第一中间数据在决策点N2进行决策判断,决策点N2代表的决策问题为网页是否包含与IE浏览器使用的Trident内核相对应的专有控件,如ActiveX控件等,若判断为“是”,则确定该网页使用Trident内核渲染,否则,将该第一中间数据中未用于分类判断的特征信息标记为第二中间数据,然后,根据该第二中间数据在决策点N3执行决策判断,决策点N3代表的决策问题为网页是否使用表格(标签为〈table〉)进行网页布局,若判断为“是”,则确定该网页使用Trident内核渲染,否则确定使用Webkit内核渲染。2)支持向量机(SVM)分类;其中,所述支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原则上的,避免了局部极小点,能够保证找到的极值解就是全局最优解,具有良好的分类精确性。在一示例中,仅将待处理的网页针对Trident内核和Webkit内核两种浏览器内核类型进行分类;类型确定装置13从网页包含的浏览器相关的特征信息提取各个特征项所对应的特征值,并将该等特征值组合成该网页的特征向量,并将其作为输入参数在预设的基于支持向量机的分类模型中进行加权计算,以确定使用Trident内核渲染该网页的推荐权值Vl和使用Webkit内核渲染该网页的推荐权值V2。若Vl>V2,则确定该网页使用Trident内核渲染,否则,确定该网页使用Webkit内核渲染。本领域技术人员应能理解上述预定分类规则仅为举例,其他现有的或今后可能出现的预定分类规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。本领域技术人员还应能理解上述确定渲染网页的浏览器内核类型的方式仅为举例,其他现有的或今后可能出现的确定渲染网页的浏览器内核类型的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,确定设备I的第一网页获取装置11、特征信息获取装置12、类型确定装置13之间是持续不断地工作。具体地,第一网页获取装置11持续地获取待处理的网页;特征信息获取装置12也持续地根据所述网页,获取所述网页的浏览器相关的特征信息;类型确定装置13也持续地根据所述浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。在此,本领域技术人员应理解“持续”是指各装置不断进行上述待处理的网页的获取、浏览器相关的特征信息的获取及浏览器内核类型的确定,直至满足预定停止条件,例如第一网页获取装置11在较长时间内停止获取待处理的网页。优选地(参照图1),类型确定装置13还根据特征信息获取装置12获取的浏览器相关的特征信息,并结合所述网页的历史渲染记录,以加权确定渲染所述网页的浏览器内核类型。具体地,类型确定装置13根据网页的特征信息,基于预定分类规则对网页进行分类,以确定推荐的用于渲染该网页的浏览器内核类型及其对应的推荐权值;同时根据该网页的标识信息,从网页浏览记录库中提取与该网页的全部或预定数量的历史渲染记录,对该等历史渲染记录进行统计分析,以获取统计分析结果,然后,类型确定装置13根据该统计分析结果,以确定历史上渲染该网页所使用的浏览器内核类型及相应的累计使用次数;然后,类型确定装置13根据预定加权规则,对上述两种参考信息进行加权计算,以确定渲染该些网页的浏览器内核类型。在此,所述网页浏览记录库包括但不限于网页的标识信息,如网页的URL、网页ID,及其所对应的网页历史浏览时间、历史渲染记录等。该网页浏览记录库包括但不限于关系数据库、Key-Value存储系统、文件系统等。在此,所述网页记录库可存储于确定设备I中,也可以存储于第三方设备中。在一示例中,仅将待处理的网页针对Trident内核和Webkit内核两种浏览器内核类型进行分类。首先,类型确定装置13根据网页的特征信息,对网页进行分类以确定使用Trident内核渲染该网页的推荐权值为6,而使用Webkit内核渲染该网页的推荐权值为4;同时,类型确定装置13根据该网页的URL,从网页浏览记录库中提取与该网页的最近10次历史渲染记录,并对该等历史渲染记录进行统计分析以获得用户历史上使用Trident内核渲染该网页的次数为2次,而使用Webkit内核渲染该网页的次数8次,则类型确定装置13根据预定加权规则,获得在确定渲染该网页的浏览器内核类型的计算中分类推荐的计算权重为0.6,而历史渲染记录的计算权重为0.4,并据此进行加权计算以获得与Trident内核相对应的推荐权值为4.4(=6X0.6+2X0.4),与Webkit内核相对应的推荐权值为5.6(=4X0.6+8X0.4),进而类型确定装置13确定渲染该网页的浏览器内核类型为Webkit内核。在此,需要说明的是,上述举例中的各项数值仅为说明作用的示例,以供读者理解本发明,并非实际应用时的真实数据,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。本领域技术人员应能理解上述确定渲染网页的浏览器内核类型的方式仅为举例,其他现有的或今后可能出现的确定渲染网页的浏览器内核类型的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。更优选地(参照图1),确定设备I还包括提供装置(未示出)。该提供装置将类型确定装置13所确定的渲染所述网页的浏览器内核类型信息提供给用户设备的浏览器,以用于渲染所述网页。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或手写设备等方式进行人机交互的电子产品,例如计算机、智能手机、PDA、或IPTV等。具体地,该提供装置将所确定的渲染网页的浏览器内核类型信息,通过约定的通信方式,实时地或定期地发送至用户设备,随后写入到浏览器的渲染信息库中。在此,所述渲染信息库包括但不限于网页的标识信息,如网页的URL、网页ID,及其所对应的渲染该网页的浏览器内核信息。该渲染信息库包括但不限于关系数据库、Key-Value存储系统、文件系统等。在此,所述提供的方式包括但不限于:I)使用所确定的渲染各个网页的浏览器内核类型信息完全覆盖用户设备的渲染信息库中已有的记录;2)将所确定的渲染网页的浏览器内核类型信息差分覆盖用户设备的渲染信息库中的记录,即将未存储在用户设备浏览器中的渲染某网页的浏览器内核类型信息插入渲染信息库中;将已存储但发生变更的渲染某网页的浏览器内核类型信息进行覆盖,以更新渲染该网页的浏览器内核信息记录。在一示例中,提供装置将所确定的渲染各个网页的浏览器内核类型信息,通过约定的通信方式,实时地发送至用户设备;用户设备通过实时监听地方式接收该等信息,并提取渲染该等网页的浏览器内核类型信息中各个网页的URL,接着根据该URL在渲染信息库中进行匹配查询,以获得在该渲染信息库中不存在的网页,并将该等不存在的网页所对应的浏览器内核类型信息写入该渲染信息库中;同时将在该渲染信息库中已存在的网页但其所对应的浏览器内核类型发生变化的浏览器内核类型信息进行覆盖写入,进而浏览器可基于上述信息为不同的网页切换使用相应的浏览器内核。本领域技术人员应能理解上述提供浏览器内核类型信息的方式仅为举例,其他现有的或今后可能出现的提供浏览器内核类型信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图4示出根据本发明一个优选实施例的用于确定渲染网页的浏览器内核类型的设备示意图。其中,确定设备I还包括优选网页获取装置14’。在此,图4中所示装置11’和13’的功能与前面参照图1所描述的装置11和13的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。具体地,优选网页获取装置14’根据预定筛选规则,从第一网页获取装置11’获取的待处理的网页中获取优选网页;特征信息获取装置12’根据该等优选网页,获取与该等优选网页的浏览器相关的特征信息。在此,所述预定筛选规则包括但不限于:I)获取累计浏览次数超过累计次数阈值的网页作为优选网页;2)获取累计浏览次数最多的第一预定数量的网页作为优选网页;3)获取浏览频次超过频次阈值的网页作为优选网页;4)获取浏览频次最高的第二预定数量的网页作为优选网页。本领域技术人员应能理解,上述各项预设筛选规则不仅可以单独用于优选网页获取装置14’获取优选网页,还可以将其中多项结合用于优选网页获取装置14’获取优选网页。本领域技术人员还应能理解上述预定筛选规则仅为举例,其他现有的或今后可能出现的预定筛选规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在一示例中,第一网页获取装置11’获取待处理的网页,然后,优选网页获取装置14’提取该等待处理网页的URL,在网页浏览记录库中进行匹配查询,以获得该等待处理的网页的累计浏览次数,并将累计浏览次数超过累计次数阈值2000次的网页作为优选网页;特征信息获取装置12’根据该等优选网页,获取与该等优选网页的浏览器相关的特征信息。本领域技术人员应能理解上述获取优选网页的方式和/或获取浏览器相关的特征信息的方式仅为举例,其他现有的或今后可能出现的获取优选网页的方式和/或获取浏览器相关的特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图5示出根据本发明一个方面的用于确定渲染网页的浏览器内核类型的方法流程图。在此,确定设备I为网络设备,包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在此,现有的浏览器可以是例如Microsoft公司的IE浏览器、Mozilla公司的Firefox浏览器、Google公司的Safari浏览器、苹果公司的Safari浏览器、遨游公司的Maxthon浏览器、Opera公司的Opera浏览器、360公司的360浏览器、搜狐公司的搜狗浏览器、腾讯公司的腾讯TT浏览器等在此,所述浏览器内核类型包括但不限于:I)IE浏览器使用的Trident内核;2)Opera浏览器使用的Presto内核;3)Safari浏览器使用的Webkit内核;4)Firefox浏览器使用的Gecko内核。本领域技术人员应能理解上述浏览器内核类型仅为举例,其他现有的或今后可能出现的浏览器内核类型如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。以下基于图5对根据本发明一个实施例进行详细描述。如图5所示,在步骤SI中,确定设备I获取待处理的网页。在此,所述获取待处理的网页的方式包括但不限于:I)在步骤SI中,确定设备I在其网页存储库中获取待处理的网页;例如,在步骤SI中,确定设备I应事件触发实时地通过确定设备I提供的应用编程接口(API),在本地的网页存储库中进行匹配查询,以获得待处理的网页。2)在步骤SI中,确定设备I定期地通过约定的通信方式从第三方设备读取待处理的网页;例如,在步骤Si中,确定设备I经由网络,并通过约定的通信方式向第三方设备发送获取待处理的网页的请求,并接收该第三方设备响应于该请求返回的待处理的网页。再如,第三方设备经由网络,并通过约定的通信方式主动向确定设备I发送待处理的网页,在步骤SI中,确定设备I通过实时监听的方式接收该等网页。其中,所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(AdHoc网络)等。在此,确定设备I与第三方设备之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。本领域技术人员应能理解上述获取待处理的网页的方式仅为举例,其他现有的或今后可能出现的获取待处理的网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。接着,在步骤S2中,确定设备I例如根据其在步骤SI中获取的待处理的网页的(同一资源定位符)URL或其所对应的标记语言文件,获取该等网页的浏览器相关的特征信肩、O在此,所述浏览器相关的特征信息包括以下至少任一项:I)浏览器相关的网页展示特征信息;其中,所述网页展示特征信息包括但不限于:a)与特定浏览器内核类型相对应的专有脚本特征信息;例如,JavaScript中与IE浏览器使用的Trident内核相对应的专有构造函数“ActiveXObjectO”、“VBArrayO”;b)与特定浏览器内核类型相对应的专有级联样式表(CSS)特征信息;例如,CSS中与IE浏览器使用的Trident内核相对应的专有属性,如“layout-flow”、“line_break”;c)网页文档类型;例如,标记语言网页文件中的文档声明“doctype”若为用于呈现遵循最新标准的网页的标准(Standard)模式(也就是严格呈现模式),则推荐使用Webkit内核渲染该网页;若为用于呈现为传统浏览器而设计的网页的包容(Quirks)模式(也就是松散呈现模式或者兼容模式),则推荐使用Trident内核渲染该网页;d)网页标签;例如,与IE浏览器使用的Trident内核相对应的专有的陈旧网页标签“〈bgsound〉”、“〈marquee〉”、“〈layer〉”等。e)网页布局方式;例如,若网页使用表格(标签为“〈table〉”)等早期的网页布局方式,则推荐使用IE浏览器使用的Trident内核渲染该网页;若网页使用网页标签“<DIV>”进行网页布局,则推荐使用Webkit内核渲染该网页。f)网页主题;例如,与网页相对应的统一资源定位符(URL)包含“store”、“shop”等关键词,则判断该网页的主题可能为电子商务网页,而电子商务网页一般采用较新的网页标准,则推荐使用Webkit内核渲染该网页。2)浏览器相关的网页功能特征信息;其中,所述网页功能特征信息包括但不限于:a)网页中包含需特定浏览器内核解析的控件;例如,与IE浏览器使用的Trident内核相对应的专有控件,如ActiveX控件等;b)网页采用异步JavaScript和XML(AJAX)技术实现;c)网页中包含Flash功能;d)网页中包含图片动态效果展示;e)网页中包含悬浮窗口展示。本领域技术人员应能理解上述浏览器相关的特征信息仅为举例,其他现有的或今后可能出现的浏览器相关的特征信息如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在此,所述标记语言文件包括但不限于:a)超文本标记语言(HTML)文件;b)可扩展超文本标记语言(XHTML)文件;c)可扩展标记语言(XML)文件等。在此,所述根据网页的标记语言文件以获取该(等)网页的浏览器相关的特征信息的方式包括但不限于:I)在步骤S2中,确定设备I根据待处理的网页的标记语言文件,将该标记语言文件解析为(文档对象模型)DOM树,接着根据预定的浏览器相关的各个特征项在该DOM树的各节点中进行匹配查询,以获得该网页包含的与该等特征相对应的特征值;在此,所述DOM树意指通过对标记语言文件进行解析而获得的树结构数据,该树中的各节点与标记语言文件中的标签以及标签内容相对应。在一示例中,预定的浏览器相关的特征项为网页是否包含与Trident内核相对应的专有的陈旧网页标签“〈bgsound〉”、“〈marquee〉”、“〈layer〉”;则在步骤S2中,确定设备I提取待处理的网页的HTML文件,对该HTML文件进行解析并生成与其相对应的DOM树,如图2所示,接着对该DOM树各个节点中的内容分别进行解析,并根据该特征项在该DOM树的各个节点中进行遍历,例如,节点N4包含的HTML内容为:“〈bgsoundsrc="http://abc/music.asp"loop="-1">,,,即在步骤S2中,确定设备I在该节点中获得标签〈bgsound〉与预定的特征项相匹配,则确定设备I将该网页包含Trident内核专用的陈旧网页标签作为浏览器相关的特征信息。2)在步骤S2中,确定设备I根据待处理的网页的标记语言文件,将该标记语言文件与预定的浏览器相关的特征项进行字符串匹配,以获取与该网页相对应的特征信息。在一示例中,在步骤S2中,确定设备I提取待处理的网页的HTML文件,其包括:<html>〈head〉〈title〉我的网页〈/title〉〈metahttp-equiv="X-UA-Compatible"content="IE"/>〈/head〉〈body〉适用于IE7浏览器显不</p>〈/body〉</html>若预定的浏览器相关的特征项为网页包含Trident内核专有的属性“content="IE"”,则确定设备I根据该特征项在该HTML文件中进行字符串匹配,当在该HTML文件中查询获取与特征项相一致的字符串“content="IE"”时,则将网页包含Trident内核专有属性“content="IE"”作为浏览器相关的特征信息;3)根据网页的执行脚本,将该执行脚本与预定的浏览器相关的特征项进行字符串匹配,以获取与该网页相对应的特征信息。在此,所述执行脚本包括但不限于JavaScript、VBScript、ActionScript等。在一示例中,在步骤S2中,确定设备I根据待处理的网页,提取该网页中的JavaScript执行脚本,其中,该执行脚本包括:〈SCRIPTLANGUAGE=”JScript”>varobjMyData=newActiveXObject(‘this.0bject,);〈/SCRIPT〉若预定的浏览器相关的特征项为网页包含Trident内核专有的JavaScript脚本对象“ActiveXObject”,则确定设备I根据该特征项在执行脚本中进行字符串匹配,当匹配获得与该特征项相一致的字符串“ActiveXObject”时,则将网页包含Trident内核专有的JavaScriPt脚本对象作为浏览器相关的特征信息。本领域技术人员应能理解上述获取浏览器相关的特征信息的方式仅为举例,其他现有的或今后可能出现的获取浏览器相关的特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。随后,在步骤S3中,确定设备I根据其在步骤S2中获取的浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。具体地,在步骤S3中,确定设备I根据已获取的浏览器相关的特征信息,通过诸如决策树分类、支持向量机(SVM)分类等分类方法对该网页进行分类,以确定适于渲染该网页的浏览器内核类型。在此,所述预定分类规则包括但不限于:I)决策树分类;其中,所述决策树是利用了概率论的原理,并且利用一种树形图作为分析工具;其基本原理是用决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。在一示例中,仅将待处理的网页针对Trident内核和Webkit内核两种浏览器内核类型进行分类;如图3所示,在步骤S3中,确定设备I根据某网页的特征信息在决策树中进行分类;首先,在决策树的决策点NI进行决策判断,决策点NI代表的决策问题为网页是否包含仅用于Trident内核的专有的陈旧网页标签“〈bgsound〉”、“〈marquee>”、“〈layer>”等,若判断为“是”,则确定该网页使用Trident内核渲染,否则,将该等特征信息中未用于分类判断的特征信息标记为第一中间数据,然后,根据该第一中间数据在决策点N2进行决策判断,决策点N2代表的决策问题为网页是否包含与IE浏览器使用的Trident内核相对应的专有控件,如ActiveX控件等,若判断为“是”,则确定该网页使用Trident内核渲染,否则,将该第一中间数据中未用于分类判断的特征信息标记为第二中间数据,然后,根据该第二中间数据在决策点N3执行决策判断,决策点N3代表的决策问题为网页是否使用表格(标签为〈table〉)进行网页布局,若判断为“是”,则确定该网页使用Trident内核渲染,否则确定使用Webkit内核渲染。2)支持向量机(SVM)分类;其中,所述支持向量机是建立在统计学习理论的VC维理论和结构风险最小化原则上的,避免了局部极小点,能够保证找到的极值解就是全局最优解,具有良好的分类精确性。在一示例中,仅将待处理的网页针对Trident内核和Webkit内核两种浏览器内核类型进行分类;在步骤S3中,确定设备I从网页包含的浏览器相关的特征信息提取各个特征项所对应的特征值,并将该等特征值组合成该网页的特征向量,并将其作为输入参数在预设的基于支持向量机的分类模型中进行加权计算,以确定使用Trident内核渲染该网页的推荐权值Vl和使用Webkit内核渲染该网页的推荐权值V2。若Vl>V2,则确定该网页使用Trident内核渲染,否则,确定该网页使用Webkit内核渲染。本领域技术人员应能理解上述预定分类规则仅为举例,其他现有的或今后可能出现的预定分类规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。本领域技术人员还应能理解上述确定渲染网页的浏览器内核类型的方式仅为举例,其他现有的或今后可能出现的确定渲染网页的浏览器内核类型的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。优选地,确定设备I在步骤S1、步骤S2和步骤S3中是持续不断地工作。具体地,在步骤SI中,确定设备I持续地获取待处理的网页;在步骤S2中,确定设备I也持续地根据所述网页,获取所述网页的浏览器相关的特征信息;在步骤S3中,确定设备I也持续地根据所述浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。在此,本领域技术人员应理解“持续”是指确定设备I在各步骤中不断进行上述待处理的网页的获取、浏览器相关的特征信息的获取及浏览器内核类型的确定,直至满足预定停止条件,例如确定设备I在较长时间内停止获取待处理的网页。优选地(参照图5),在步骤S3中,确定设备I还根据其在步骤S2中获取的浏览器相关的特征信息,并结合所述网页的历史渲染记录,以加权确定渲染所述网页的浏览器内核类型。具体地,在步骤S3中,确定设备I根据网页的特征信息,基于预定分类规则对网页进行分类,以确定推荐的用于渲染该网页的浏览器内核类型及其对应的推荐权值;同时根据该网页的标识信息,从网页浏览记录库中提取与该网页的全部或预定数量的历史渲染记录,对该等历史渲染记录进行统计分析,以获取统计分析结果,然后,确定设备I根据该统计分析结果,以确定历史上渲染该网页所使用的浏览器内核类型及相应的累计使用次数;然后,确定设备I根据预定加权规则,对上述两种参考信息进行加权计算,以确定渲染该些网页的浏览器内核类型。在此,所述网页浏览记录库包括但不限于网页的标识信息,如网页的URL、网页ID,及其所对应的网页历史浏览时间、历史渲染记录等。该网页浏览记录库包括但不限于关系数据库、Key-Value存储系统、文件系统等。在此,所述网页记录库可存储于确定设备I中,也可以存储于第三方设备中。在一示例中,仅将待处理的网页针对Trident内核和Webkit内核两种浏览器内核类型进行分类。首先,在步骤S3中,确定设备I根据网页的特征信息,对网页进行分类以确定使用Trident内核渲染该网页的推荐权值为6,而使用Webkit内核渲染该网页的推荐权值为4;同时,确定设备I根据该网页的URL,从网页浏览记录库中提取与该网页的最近10次历史渲染记录,并对该等历史渲染记录进行统计分析以获得用户历史上使用Trident内核渲染该网页的次数为2次,而使用Webkit内核渲染该网页的次数8次,则确定设备I根据预定加权规则,获得在确定渲染该网页的浏览器内核类型的计算中分类推荐的计算权重为0.6,而历史渲染记录的计算权重为0.4,并据此进行加权计算以获得与Trident内核相对应的推荐权值为4.4(=6X0.6+2X0.4),与Webkit内核相对应的推荐权值为5.6(=4X0.6+8X0.4),进而确定设备I确定渲染该网页的浏览器内核类型为Webkit内核。在此,需要说明的是,上述举例中的各项数值仅为说明作用的示例,以供读者理解本发明,并非实际应用时的真实数据,不应视为对本专利申请保护范围的任何限制。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。本领域技术人员应能理解上述确定渲染网页的浏览器内核类型的方式仅为举例,其他现有的或今后可能出现的确定渲染网页的浏览器内核类型的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。更优选地(参照图5),该过程还包括步骤S5(未示出)。在步骤S5中,确定设备I将其在步骤S3中所确定的渲染所述网页的浏览器内核类型信息提供给用户设备的浏览器,以用于渲染所述网页。在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或手写设备等方式进行人机交互的电子产品,例如计算机、智能手机、PDA、或IPTV等。具体地,在步骤S5中,确定设备I将所确定的渲染网页的浏览器内核类型信息,通过约定的通信方式,实时地或定期地发送至用户设备,随后写入到浏览器的渲染信息库中。在此,所述渲染信息库包括但不限于网页的标识信息,如网页的URL、网页ID,及其所对应的渲染该网页的浏览器内核信息。该渲染信息库包括但不限于关系数据库、Key-Value存储系统、文件系统等。在此,所述提供的方式包括但不限于:I)使用所确定的渲染各个网页的浏览器内核类型信息完全覆盖用户设备的渲染信息库中已有的记录;2)将所确定的渲染网页的浏览器内核类型信息差分覆盖用户设备的渲染信息库中的记录,即将未存储在用户设备浏览器中的渲染某网页的浏览器内核类型信息插入渲染信息库中;将已存储但发生变更的渲染某网页的浏览器内核类型信息进行覆盖,以更新渲染该网页的浏览器内核信息记录。在一示例中,在步骤S5中,确定设备I将所确定的渲染各个网页的浏览器内核类型信息,通过约定的通信方式,实时地发送至用户设备;用户设备通过实时监听地方式接收该等信息,并提取渲染该等网页的浏览器内核类型信息中各个网页的URL,接着根据该URL在渲染信息库中进行匹配查询,以获得在该渲染信息库中不存在的网页,并将该等不存在的网页所对应的浏览器内核类型信息写入该渲染信息库中;同时将在该渲染信息库中已存在的网页但其所对应的浏览器内核类型发生变化的浏览器内核类型信息进行覆盖写入,进而浏览器可基于上述信息为不同的网页切换使用相应的浏览器内核。本领域技术人员应能理解上述提供浏览器内核类型信息的方式仅为举例,其他现有的或今后可能出现的提供浏览器内核类型信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。图6示出根据本发明一个优选实施例的用于确定渲染网页的浏览器内核类型的方法流程图。其中,该过程还包括步骤S4’。在此,图6中所示确定设备I在步骤SI,和步骤S3’中的功能与前面参照图5所描述的确定设备I在步骤SI和步骤S3中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。具体地,在步骤S4,中,确定设备I根据预定筛选规则,从其在步骤SI,中获取的待处理的网页中获取优选网页;在步骤S2’中,确定设备I根据该等优选网页,获取与该等优选网页的浏览器相关的特征信息。在此,所述预定筛选规则包括但不限于:I)获取累计浏览次数超过累计次数阈值的网页作为优选网页;2)获取累计浏览次数最多的第一预定数量的网页作为优选网页;3)获取浏览频次超过频次阈值的网页作为优选网页;4)获取浏览频次最高的第二预定数量的网页作为优选网页。本领域技术人员应能理解,上述各项预设筛选规则不仅可以单独用于确定设备I获取优选网页,还可以将其中多项结合用于确定设备I获取优选网页。本领域技术人员还应能理解上述预定筛选规则仅为举例,其他现有的或今后可能出现的预定筛选规则如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。在一不例中,在步骤SI’中,确定设备I犾取待处理的网页,然后,在步骤S4’中,确定设备I提取该等待处理网页的URL,在网页浏览记录库中进行匹配查询,以获得该等待处理的网页的累计浏览次数,并将累计浏览次数超过累计次数阈值2000次的网页作为优选网页;在步骤S2’中,确定设备I根据该等优选网页,获取与该等优选网页的浏览器相关的特征信息。本领域技术人员应能理解上述获取优选网页的方式和/或获取浏览器相关的特征信息的方式仅为举例,其他现有的或今后可能出现的获取优选网页的方式和/或获取浏览器相关的特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此夕卜,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。权利要求1.一种计算机实现的用于确定渲染网页的浏览器内核类型的方法,该方法包括以下步骤:a获取待处理的网页;b根据所述网页,获取所述网页的浏览器相关的特征信息;c根据所述浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。2.根据权利要求1所述的方法,其中,所述步骤b包括:-根据所述网页的标记语言文件,获取与所述网页的浏览器相关的特征信息。3.根据权利要求1或2所述的方法,其中,所述预定分类规则包括以下至少任一项:-决策树分类;-支持向量机分类。4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c包括:-根据所述浏览器相关的特征信息,并结合所述网页的历史渲染记录,以加权确定渲染所述网页的浏览器内核类型。5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:-根据预定筛选规则,从所述待处理的网页中获取优选网页;其中,所述步骤b包括:-根据所述优选网页,获取与所述优选网页的浏览器相关的特征信息。6.根据权利要求5所述的方法,其中,所述预定筛选规则包括但不限于以下至少任一项:-获取累计浏览次数超过累计次数阈值的网页作为优选网页;-获取累计浏览次数最多的第一预定数量的网页作为优选网页;-获取浏览频次超过频次阈值的网页作为优选网页;-获取浏览频次最高的第二预定数量的网页作为优选网页。7.根据权利要求1至6任一项所述的方法,其中,所述浏览器相关的特征信息包括以下至少任一项:-网页展示特征信息;-网页功能特征信息。8.根据权利要求1至7任一项所述的方法,其中,所述浏览器内核类型包括以下至少任一项:-Trident内核;-Presto内核;-Webkit内核;-Gecko内核。9.根据权利要求1至8中任一项所述的方法,其中,该方法还包括:-将所确定的渲染所述网页的浏览器内核类型信息提供给用户设备的浏览器,以用于渲染所述网页。10.一种用于确定渲染网页的浏览器内核类型的设备,其中,该设备包括:第一网页获取装置,用于获取待处理的网页;特征信息获取装置,用于根据所述网页,获取所述网页的浏览器相关的特征信息;类型确定装置,用于根据所述浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。11.根据权利要求10所述的设备,其中,所述特征信息获取装置用于根据所述网页的标记语言文件,获取与所述网页的浏览器相关的特征信息。12.根据权利要求10或11所述的设备,其中,所述预定分类规则包括以下至少任一项:-决策树分类;-支持向量机分类。13.根据权利要求10至12中任一项所述的设备,其中,所述类型确定装置用于根据所述浏览器相关的特征信息,并结合所述网页的历史渲染记录,以加权确定渲染所述网页的浏览器内核类型。14.根据权利要求10至13中任一项所述的设备,其中,该设备还包括:优选网页获取装置,用于根据预定筛选规则,从所述待处理的网页中获取优选网页;其中,所述特征信息获取装置用于根据所述优选网页,获取与所述优选网页的浏览器相关的特征信息。15.根据权利要求14所述的设备,其中,所述预定筛选规则包括但不限于以下至少任一项:-获取累计浏览次数超过累计次数阈值的网页作为优选网页;-获取累计浏览次数最多的第一预定数量的网页作为优选网页;-获取浏览频次超过频次阈值的网页作为优选网页;-获取浏览频次最高的第二预定数量的网页作为优选网页。16.根据权利要求10至15任一项所述的设备,其中,所述浏览器相关的特征信息包括以下至少任一项:-网页展示特征信息;-网页功能特征信息。17.根据权利要求10至16任一项所述的设备,其中,所述浏览器内核类型包括以下至少任一项:-Trident内核;-Presto内核;-Webkit内核;-Gecko内核。18.根据权利要求10至17中任一项所述的设备,其中,该设备还包括:提供装置,用于将所确定的渲染所述网页的浏览器内核类型信息提供给用户设备的浏览器,以用于渲染所述网页。全文摘要本发明的目的是提供一种用于确定渲染网页的浏览器内核类型的方法与设备。本发明根据获取的待处理的网页,获取所述网页的浏览器相关的特征信息,进而根据所述浏览器相关的特征信息,基于预定分类规则,确定渲染所述网页的浏览器内核类型。与现有技术相比,本发明通过提取网页的展示、功能等特征信息,利用决策树、支持向量机(SVM)等分类方法对该些网页进行筛选分类以确定渲染该些网页的浏览器内核类型,从而降低人工筛选成本,同时能够对新出现的网页及时确定渲染该网页的浏览器内核类型,保证网页在浏览器中的展示效果,以提升用户浏览体验。文档编号G06F17/30GK103164423SQ20111041384公开日2013年6月19日申请日期2011年12月9日优先权日2011年12月9日发明者钱毅,应蕾,连城申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1