生成网页模板的方法及装置制造方法

文档序号:6520645阅读:183来源:国知局
生成网页模板的方法及装置制造方法
【专利摘要】本发明公开一种生成网页模板的方法及装置,属于互联网【技术领域】。所述方法包括:构建对网页进行标注的可视化效果框架;获取对网页各部分内容区域进行标注的指示;记录内容区域与标注指示的对应关系,得到网页模板。根据本发明,能够提高生成网页模板的效率和准确性。
【专利说明】生成网页模板的方法及装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,具体涉及一种生成网页模板的方法及装置。
【背景技术】
[0002]网页模板可以用于抽取网页的内容,比如有的搜索引擎在抓取网站时使用了定向采集技术,定向采集的蜘蛛使用网页模板把网站的相关内容抽取出来,获得格式化的内容,包括网页的标题、作者、发表时间和正文等信息。
[0003]现有的一种生成网页模板的方法为:首先,根据页面的URL(Uniform ResourceLocator,统一资源定位符),下载页面的源代码;其次,根据页面的源代码对页面结构进行自动分析,计算出页面中各结构的哈希值;然后,根据页面的源代码人工判断页面中哪些结构对应标题,哪些结构对应正文,哪些结构对应发表时间等,并进行标记;最后,生成结构的哈希值与结构的内容类型的对应关系,得到网页模板。
[0004]现有的生成网页模板方法至少存在如下缺点:
[0005]人工标记页面结构的内容类型是通过文本编辑进行的,网页模板里面有大量的不相关的内容,有的网页模板甚至有好几万行,导致人工标记的效率非常低;
[0006]网页模板中的各种内容夹杂在网页代码中,由于网页内容没有直观的呈现出来,如果对网页设计语言不熟,则不容易确定页面结构的内容类型,人工标记时就容易出错,导致生成的网页模板的准确性不高,进而导致根据该网页模板进行内容抽取的准确性也不闻。

【发明内容】

[0007]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的生成网页模板的方法及装置。
[0008]依据本发明的一个方面,提供了一种生成网页模板的方法,所述方法包括:
[0009]构建对网页进行标注的可视化效果框架;
[0010]获取对网页各部分内容区域进行标注的指示;
[0011]记录内容区域与标注指示的对应关系,得到网页模板。
[0012]可选地,所述可视化效果框架包括内容区域、位于选中的内容区域上方的蒙版和标注菜单,所述标注菜单包括多种内容类型菜单项;
[0013]所述获取对网页各部分内容区域进行标注的指示包括:获取通过标注菜单选择的内容类型。
[0014]可选地,在构建对网页进行标注的可视化效果框架之前,所述方法还包括:
[0015]获取网页的源代码,根据所述源代码生成所述网页的DOM树;
[0016]获取所述DOM树中各节点对应的标签的哈希值;
[0017]为所述网页的各标签添加哈希值属性;
[0018]所述记录内容区域与标注指示的对应关系,包括:记录内容区域所属标签的哈希值与选择的内容类型的对应关系。
[0019]可选地,所述方法还包括:对根据同一资源站点下的多个网页生成的多个网页模板进行统计,提取所述多个网页模板中的相同部分生成最终的网页模板。
[0020]可选地,所述获取所述DOM树中各节点对应的标签的哈希值,包括:
[0021]为所述网页的各标签添加索引属性;
[0022]将添加索引属性后的网页的源代码发送到服务端,以供服务端进行标签的哈希值计算;
[0023]接收服务端发送的标签索引值与哈希值的对应关系。根据本发明的另一方面,提供了一种生成网页模板的装置,所述装置包括:
[0024]可视化效果框架构建器,适于构建对网页进行标注的可视化效果框架;
[0025]标注指示获取器,适于获取对网页各部分内容区域进行标注的指示;
[0026]网页模板生成器,适于记录内容区域与标注指示的对应关系,得到网页模板。
[0027]可选地,所述可视化效果框架包括内容区域、位于选中的内容区域上方的蒙版和标注菜单,所述标注菜单包括多种内容类型菜单项;
[0028]所述标注指示获取器进一步适于:获取通过标注菜单选择的内容类型。
[0029]可选地,所述装置还包括:
[0030]DOM树生成器,适于获取网页的源代码,根据所述源代码生成所述网页的DOM树;
[0031]哈希值获取器,适于获取所述DOM树中各节点对应的标签的哈希值;
[0032]哈希值属性添加器,适于为所述网页的各标签添加哈希值属性;
[0033]所述网页模板生成器进一步适于:记录内容区域所属标签的哈希值与选择的内容类型的对应关系,得到网页模板。
[0034]可选地,所述装置还包括统计器,适于对根据同一资源站点下的多个网页生成的多个网页模板进行统计,提取所述多个网页模板中的相同部分生成最终的网页模板。
[0035]可选地,所述哈希值获取器进一步适于:
[0036]为所述网页的各标签添加索引属性;
[0037]将添加索引属性后的网页的源代码发送到服务端,以供服务端进行标签的哈希值计算;
[0038]接收服务端发送的标签索引值与哈希值的对应关系。
[0039]根据本发明上述的一个或多个技术方案,通过构建对网页进行标注的可视化效果框架,不需要手工编辑网页模板文本,只需要在所述可视化效果框架中选择网页内容区域进行可视化操作,即可轻松定义网页模板,提高了生成网页模板的效率;而且,由于网页内容被直观的呈现出来,不需要具备网页设计方面的专业知识,就很容易确定页面结构的内容类型,提高了生成网页模板的准确性。
[0040]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0041]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0042]图1示出了根据本发明一个实施例的生成网页模板的方法流程图;
[0043]图2示出了本发明实施例中对网页的标题进行标注的示意图;
[0044]图3示出了本发明实施例中对网页的正文进行标注的示意图;
[0045]图4示出了根据本发明一个实施例的生成网页模板的方法详细流程图;
[0046]图5示出了根据本发明一个实施例的生成网页模板的装置结构图;
[0047]图6示出了根据本发明一个实施例的对网页提供可视化标注的方法流程图;
[0048]图7示出了根据本发明一个实施例的对网页提供可视化标注的装置结构图;
[0049]图8示出了根据本发明一个实施例的根据可视化模板进行网页内容抽取的方法流程图;
[0050]图9示出了根据本发明一个实施例的根据可视化模板进行网页内容抽取的装置结构图;
[0051]图10示出了根据本发明一个实施例的根据可视化模板进行网页内容抽取的系统结构图。
【具体实施方式】
[0052]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0053]实施例1
[0054]本实施例提供一种生成网页模板的方法及装置
[0055]图1示出了根据本发明一个实施例的生成网页模板的方法流程图,参照图1,所述方法包括:
[0056]步骤102,构建对网页进行标注的可视化效果框架;
[0057]在一种实现方式中,所述可视化效果框架可以包括:内容区域、位于选中的内容区域上方的蒙版和标注菜单,所述标注菜单包括多种内容类型菜单项。
[0058]通过获取网页的源代码例如html (hypertext mark-up language,超文本标记语言)文档,将样式表文件例如CSS (cascading style sheets,层叠样式表)文件附加到html文档,并在html文档中增加js (javascript)脚本,可以构建网页的可视化效果框架。具体地,通过js脚本可以实现当检测到某个内容区域被选中时,在选中的内容区域上方出现蒙版和标注菜单,所述蒙版和标注菜单的显示方式可以由样式表文件中定义的规则来限定。
[0059]根据上述的可视化效果框架,网页在浏览器中进行显示时,网页的各部分内容区域会具有可视化效果,某个内容区域被选中时(例如检测到鼠标移动到该内容区域上方,又例如,在触摸屏中检测到对该内容区域的点击或者检测到在该内容区域的滑动手势),该内容区域的上方会出现蒙版,并且,该内容区域的上方会同时出现标记菜单或者根据触发出现标记菜单,例如,在被选中的内容区域上单击鼠标右键,会出现各种内容类型菜单项。如图2和图3所示,所述内容类型菜单项可以包括“标记为标题”、“标记为正文”和“标记为日期”等,另外,所述内容类型菜单项还可以包括“保存标记”和“结束标记”等。
[0060]步骤104,获取对网页各部分内容区域进行标注的指示;
[0061]在本发明实施例中,执行标注的主体是客户端,客户端可以由用户、运营人员或管理人员进行操作。可以通过鼠标对网页进行标注,将鼠标移动到某个内容区域上方并单击鼠标右键,然后,点击某个内容类型菜单项,便可完成对该部分内容区域的标注。在触摸屏中,还可以根据对菜单项的触摸操作来选择内容类型,实现对网页的标注。如图2所示,通过单击“标记为标题”,可以将相应的内容区域标记为标题,如图3所示,通过单击“标记为正文”,可以将相应的内容区域标记为正文。
[0062]步骤106,记录内容区域与标注指示的对应关系,得到网页模板。
[0063]每标记一个内容区域,并选则“保存标记”菜单项,就可以将该内容区域与选择的内容类型的对应关系存储到网页模板中,通过选择“结束标记”菜单项,完成对网页中所有需要标记的内容区域的标记,得到该网页对应的网页模板(或者称为网页内容模板)。
[0064]可见,根据本发明实施例的技术方案,只需要在所述可视化效果框架中选择网页内容区域进行可视化操作,即可轻松定义网页模板,提高了生成网页模板的效率;而且,由于网页内容被直观的呈现出来,很容易确定页面结构的内容类型,提高了生成网页模板的准确性。
[0065]上述方案是根据一个网页来生成对应于该网页的网页模板。对于一个资源站点而言,其可能包括很多网页,这些网页一般是根据相同的网页设计模板生成,因而这些网页的结构会基本相同,有可能仅存在很少的不同之处,例如,有的网页中可能包括评论内容,而有的网页不包括评论内容,但这些网页都包括标题、作者、发表时间和正文等内容。如果对每个网页都进行上述的步骤来生成网页模板,则工作量仍然较大。
[0066]于是,为进一步提高网页模板的生成效率,所述方法还可以包括:对根据同一资源站点下的多个网页生成的多个网页模板进行统计,提取所述多个网页模板中的相同部分生成最终的网页模板。具体地,可以对资源站点包括的所有网页进行抽样,得到多个网页;然后,根据上述方法生成多个网页模板;最后,提取所述多个网页模板(网页模板中每条内容区域与内容类型的对应关系为网页模板的一个部分)中的相同部分生成最终的网页模板(或者称为该资源站点的网页模板)。
[0067]例如,对于360网站,可以先根据该网站的主页URL (http://www.360.cn/)获取首页的HTML文档;然后对该HTML文档进行分析发现该网站包括多个(例如1000个)子网页,于是,从这1000个子网页按照预定的算法(例如随机算法)抽取50个子网页;对这50个子网页进行可视化标注后生成50个网页模板;最后,提取这50个网页模板中的相同部分生成对应于360网站的网页模板。
[0068]另外,在本发明实施例中,为便于定位和标识网页中的内容区域,还可以为各内容区域所属的标签添加哈希值属性,相应地,在网页模板中存储的就是内容区域所属标签的哈希值与选择的内容类型的对应关系。在此种情况下,本发明实施例的生成网页模板的方法在构建对网页进行标注的可视化效果框架的步骤之前,还可以包括如下步骤:
[0069]首先,获取网页的源代码,根据所述源代码生成所述网页的DOM(Document ObjectModel,文档对象模型)树;
[0070]然后,获取所述DOM树中各节点对应的标签的哈希值;[0071]最后,为所述网页的各标签添加哈希值属性。
[0072]其中,所述哈希值可以包括标签在所述DOM树中的层级哈希值和标签自身的哈希值。标签在DOM树中的层级哈希值可以根据当前标签所在的DOM树的层级关系计算出来,标签自身的哈希值可以根据当前标签所拥有的属性节点计算出来。
[0073]在具体实现时,可以由服务端来进行标签的哈希值计算。如图10所示,服务端210位于搜索引擎200中,搜索引擎200与多个(图中示出了 3个)第三方网站服务器300通信连接,服务端210可以配合客户端100来生成网页模板。此种情况下,所述获取所述DOM树中各节点对应的标签的哈希值可以包括:
[0074]首先,在客户端100为所述网页的各标签添加索引属性;
[0075]然后,客户端100将添加索引属性后的网页的源代码发送到服务端210 ;
[0076]其次,服务端210进行标签的哈希值计算;
[0077]最后,服务端210将标签索引值与哈希值的对应关系发送到客户端100。
[0078]在实施本发明时,客户端的操作可以包括如下步骤:
[0079]首先,在客户端安装可视化效果框架生成插件,并访问第三方网站服务器300中的网页;
[0080]然后,在一种实现方式中,鼠标移动到网页内容区域上方,内容区域的上方出现淡蓝色的蒙版,表示该内容区域被选中,右键单击,出现选择菜单,可以选择该内容区域属于标题、正文等内容类型;
[0081]最后,标记完成后,客户端生成网页|旲板。
[0082]客户端可以把生成的网页模板发送给服务端,服务端在进行定向采集网页内容时即可使用该网页模板进行信息采集。
[0083]以下给出一个本发明实施例的生成网页模板的方法一个详细流程。参照图4,所述方法包括:
[0084]步骤402,客户端获取网页的源代码,根据所述源代码生成所述网页的DOM树;
[0085]步骤404,客户端为DOM树的每个标签添加索引属性,其中,DOM树的遍历可以使用深度优先的算法进行;
[0086]步骤406,客户端把添加索引(index)属性后的网页的源代码发送给服务端,发送
的内容例如为:
[0087]
【权利要求】
1.一种生成网页模板的方法,包括: 构建对网页进行标注的可视化效果框架; 获取对网页各部分内容区域进行标注的指示; 记录内容区域与标注指示的对应关系,得到网页模板。
2.如权利要求1所述的方法,其中: 所述可视化效果框架包括内容区域、位于选中的内容区域上方的蒙版和标注菜单,所述标注菜单包括多种内容类型菜单项; 所述获取对网页各部分内容区域进行标注的指示,包括:获取通过标注菜单选择的内容类型。
3.如权利要求2所述的方法,其中,在构建对网页进行标注的可视化效果框架之前,所述方法还包括: 获取网页的源代码,根据所述源代码生成所述网页的DOM树; 获取所述DOM树中各节点对应的标签的哈希值; 为所述网页的各标签添加哈希值属性; 所述记录内容区域与标注指示的对应关系,包括:记录内容区域所属标签的哈希值与选择的内容类型的对应关系。
4.如权利要求3所述的方法,其中,还包括:` 对根据同一资源站点下的多个网页生成的多个网页模板进行统计,提取所述多个网页模板中的相同部分生成最终的网页模板。
5.如权利要求3所述的方法,其中,所述获取所述DOM树中各节点对应的标签的哈希值,包括: 为所述网页的各标签添加索引属性; 将添加索引属性后的网页的源代码发送到服务端,以供服务端进行标签的哈希值计算; 接收服务端发送的标签索引值与哈希值的对应关系。
6.一种生成网页模板的装置,包括: 可视化效果框架构建器,适于构建对网页进行标注的可视化效果框架; 标注指示获取器,适于获取对网页各部分内容区域进行标注的指示; 网页模板生成器,适于记录内容区域与标注指示的对应关系,得到网页模板。
7.如权利要求6所述的装置,其中: 所述可视化效果框架包括内容区域、位于选中的内容区域上方的蒙版和标注菜单,所述标注菜单包括多种内容类型菜单项; 所述标注指示获取器进一步适于:获取通过标注菜单选择的内容类型。
8.如权利要求7所述的装置,其中,还包括: DOM树生成器,适于获取网页的源代码,根据所述源代码生成所述网页的DOM树; 哈希值获取器,适于获取所述DOM树中各节点对应的标签的哈希值; 哈希值属性添加器,适于为所述网页的各标签添加哈希值属性; 所述网页模板生成器进一步适于:记录内容区域所属标签的哈希值与选择的内容类型的对应关系,得到网页模板。
9.如权利要求8所述的装置,其中,还包括: 统计器,适于对根据同一资源站点下的多个网页生成的多个网页模板进行统计,提取所述多个网页模板中的相同部分生成最终的网页模板。
10.如权利要求8所述的装置,其中,所述哈希值获取器进一步适于: 为所述网页的各标签添加索引属性; 将添加索引属性后的网页的源代码发送到服务端,以供服务端进行标签的哈希值计算; 接收服务端发送的标签索`引值与哈希值的对应关系。
【文档编号】G06F17/30GK103678509SQ201310606200
【公开日】2014年3月26日 申请日期:2013年11月25日 优先权日:2013年11月25日
【发明者】马晓辉 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1