网站名称提取方法及装置制造方法

文档序号:6489918阅读:153来源:国知局
网站名称提取方法及装置制造方法
【专利摘要】本发明公开一种网站名称提取方法,包括:从浏览记录中获取网站的页面标题,提取网站域名并分组;提取相同所述网站域名下所有页面标题首尾的公共子段;对提取公共子段后的所述页面标题进行整理,获取网站名称。本发明还公开一种网站名称提取装置。本发明通过从浏览记录中获取网站的页面标题,提取网站域名并分组;提取相同所述网站域名下所有页面标题首尾的公共子段;整理提取公共子段后的所述页面标题,获取网站名称的方法,具有在离线状态下自动提取网站名称的有益效果,实现方式简捷、网站覆盖面全。
【专利说明】网站名称提取方法及装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,尤其涉及一种网站名称提取方法及装置。
【背景技术】
[0002]随着互联网技术的迅猛发展和个人建立网站门槛的逐步降低,网站域名呈现爆炸性增长。而网站名称对显示网页来源和出处、网站备案和网站管理具有不可或缺的重要作用;同时,在离线状态下,通过分析用户的浏览记录获取用户在线浏览的网站名称,对后续分析用户相关数据具有十分重要的意义。
[0003]现有技术通常是采用人工采集的方法对网站名称进行配置,形成〈网站域名,域名名称 > 的配置表,比如〈news.sina.com.cn,新浪新闻 > 等;而越来越多网站的不断建立,使人工整理网站名称变得越来越困难;现有技术的人工采集网站名称的方法具有人工维护成本非常高的缺陷,且人工采集网站的覆盖度也非常有限。

【发明内容】

[0004]本发明的主要目的是提供一种网站名称提取方法及装置,旨在离线状态下自动提取网站名称。
[0005]本发明公开了一种网站名称提取方法,包括以下步骤:
[0006]从浏览记录中获取网站的页面标题,提取网站域名并分组;
[0007]提取相同所述网站域名下所有页面标题首尾的公共子段;
[0008]对提取公共子段后的所述页面标题进行整理,获取网站名称。
[0009]本发明还公开一种网站名称提取装置,包括:
[0010]域名获取模块,用于从浏览记录中获取网站的页面标题,提取网站域名并分组;
[0011]公共子段提取模块,用于提取相同所述网站域名下所有页面标题首尾的公共子段;
[0012]网站名称获取模块,用于对提取公共子段后的所述页面标题进行整理,获取网站名称。
[0013]本发明通过从浏览记录中获取网站的页面标题,提取网站域名并分组;提取相同所述网站域名下所有页面标题首尾的公共子段;对提取公共子段后的所述页面标题进行整理,获取网站名称的方法,具有在离线状态下自动提取网站名称的有益效果,实现方式简捷、覆盖面全。
【专利附图】

【附图说明】
[0014]图1是本发明网站名称提取方法一实施例流程示意图;
[0015]图2是本发明网站名称提取装置一实施例结构示意图。
[0016]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。【具体实施方式】
[0017]以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0018]本发明是在用户离线状态下,对用户在线上网浏览网页所产生的浏览记录或浏览日志进行分析,自动提取用户在线浏览网站的网站名称;为后续进行相关数据处理提供重要依据,比如用户从搜狐网站转载新闻至新浪微博时,标识该新闻是来源于搜狐网等。所述用户在线上网浏览网页包括:用户可以通过任何浏览器,利用手机、电脑等一切终端浏览网页;比如,通过手机UC浏览器(优视科技研发的一款手机浏览器)、通过台式电脑的火狐浏览器浏览网页等。
[0019]参照图1,图1是本发明网站名称提取方法一实施例流程示意图;如图1所示,本发明网站名称提取方法包括以下步骤:
[0020]步骤S01、从浏览记录中获取网站的页面标题,提取网站域名并分组;
[0021]利用浏览记录中保存的URL (Uniform Resource Locator,统一资源定位符)抓取网站页面内容,建立文档对象模型树,利用网页的html(Hypertext Markup Language,超文本标识语言)源码中的〈title〉标识提取网站的页面标题。根据提取的网站页面标题,提取每个URL域名,并根据提取的网站域名进行分组;在一优选的实施例中,对浏览记录中保存的众多URL进行分组,是将域名相同的URL分至同一组。所述域名相同的URL指域名关键字相同的URL,比如,对于URL为:
[0022]①http://society.people, com.cn/n/2012/0719/cl008_18551272.html 的网站,该URL的域名关键字指的是“http://society, people, com.cn/”。若该浏览记录中,有URL 为:② http: //society, people, com.cn/n/2012/0719/c 1008-18555463.html 的网站,则上述URL的域名关键字也为“http://society.people, com.cn/” ;则就能将上述域名相同的URL为①和URL为的②的URL分为同一组。
[0023]本领域技术人员可以理解,所述文档对象模型树即D0M(Document Object Model,文档对象模型)树;所述DOM是一种与浏览器、平台、语言的接口,是以层次结构组织的节点或信息片断的集合,使得用户可以访问页面其他的标准组件。
[0024]步骤S02、提取相同所述网站域名下所有页面标题首尾的公共子段;
[0025]由于页面标题中的域名信息一般出现在页面标题的起始端或者结束端,即开头或者末尾,因此,为了最终获取到网站名称,需要提取同一域名下所有页面标题的开头和末尾的最长公共子段。
[0026]比如,有页面标题为“南京“最帅医生”街头传递正能量续 称做分内之事一社会一人民网”和“北京知名小学海外游学赴赌城 教委称无权定规则一社会一人民网”,则提取上述页面标题的开头和结尾的最长公共子段为“社会一人民网”。
[0027]步骤S03、对提取公共子段后的所述页面标题进行整理,获取网站名称。
[0028]将提取公共子段后的页面标题进行数据规整,比如,过滤无效域名名称,去除多余字符(如下划线、空格等),调整相应的字符顺序等。对页面标题进行规整,通常是按照合乎的逻辑或者人们的习惯。列举一个具体的例子:比如,按照主域名在前,子域名在后的顺序进行规整,将提取页面标题的开头和结尾的最长公共子段后的“社会一人民网”规整为“人民网一社会”;当然,也可以按照其他的方式进行规整。本领域技术人员可以理解,对页面标题进行规整只要合乎逻辑或习惯即可,本实例对具体的规整方式或文字的具体排列不做限定。
[0029]若该浏览记录中只有一条URL或两条URL,则可以直接根据保存的URL所对应的页面标题,直接获取对应的网站名称。
[0030]本发明网站名称提取方法采用离线自动化数据分析机制,实现方式简单;并支持WWW> wap2.0等网页类型,且覆盖任意网站域名,覆盖面全。
[0031]下面以实际应用为例来具体描述本发明网站名称提取方法的实现过程。
[0032]比如,离线情况下,浏览记录中保存的URL数据集中,其中的两个网址分别为:① http://society.people, com.cn/n/2012/0719/c1008-18551272.html 和② http://society, people, com.cn/n/2012/0719/cl008-18555463.html ;利用上述 URL,查找并获取对应的网址的页面标题;比如网址①和网址②对应的页面标题即URL〈title>分别为“南京“最帅医生”街头传递正能量续 称做分内之事一社会一人民网”和“北京知名小学海外游学赴赌城 教委称无权定规则一社会一人民网”。提取上述页面标题的网站域名,并将相同域名的网站分为同一组。在一优选的实施例中,相同域名的网站指该网站对应的URL的域名关键字相同,比如对网址①提取的域名关键字为“society, people, com.cn” ;对网址②提取的域名关键字也为“society, people, com.cn”,则将网址①和网址②分为同一组。分别提取上述网址①和网址②页面标题首尾的公共子段;对于网址①的页面标题“南京“最帅医生”街头传递正能量续 称做分内之事一社会一人民网”和网址②页面标题“北京知名小学海外游学赴赌城 教委称无权定规则一社会一人民网”提取首尾公共子段,得到二者首尾最长的公共子段为“社会一人民网”。对提取首尾最长公共子段后的页面标题“社会一人民网”进行数据规整,使之符合逻辑或人们的日常习惯;比如,按照主域名在前、子域名在后行为习惯,对上述“社会一人民网”进行调整,得到对应的网站名称为“人民网-社会”。
[0033]本实施例通过获取网站的页面标题,提取网站域名并分组;提取相同所述网站域名下所有页面标题首尾的公共子段;对提取公共子段后的所述页面标题进行整理,获取网站名称的方法,具有在离线状态下通过分析自动提取网站名称的有益效果,实现方式简捷、
覆盖面全。
[0034]参照图2,图2是本发明网站名称提取装置一实施例结构示意图。如图2所示,本发明网站名称提取装置包括:域名获取模块01、公共子段提取模块02和网站名称获取模块03。
[0035]域名获取模块01,用于从浏览记录中获取网站的页面标题,提取网站域名并分组;
[0036]域名获取模块01利用浏览记录中保存的URL抓取网站页面内容,建立文档对象模型树,利用网页的html源码中的〈title〉标识提取网站的页面标题。根据提取的网站页面标题,域名获取模块01提取每个URL域名,并根据提取的网站域名进行分组;在一优选的实施例中,域名获取模块01对浏览记录中保存的众多URL进行分组,是将域名相同的URL分至同一组。所述域名相同的URL指域名关键字相同的URL,比如,对于URL为:
[0037]①http://society.people, com.cn/n/2012/0719/cl008_18551272.html 的网站,该URL的域名关键字指的是“http://society, people, com.cn/”。若该浏览记录中,有URL 为:② http: //society, people, com.cn/n/2012/0719/c 1008-18555463.html 的网站,则上述URL的域名关键字也为“http://society.people, com.cn/”;则域名获取模块01就能将上述域名相同的URL为①和URL为的②的URL分为同一组。
[0038]本领域技术人员可以理解,所述文档对象模型树即DOM树;所述DOM是一种与浏览器、平台、语言的接口,是以层次结构组织的节点或信息片断的集合,使得用户可以访问页面其他的标准组件。
[0039]公共子段提取模块02,用于提取相同所述网站域名下所有页面标题首尾的公共子段;
[0040]由于页面标题中的域名信息一般出现在页面标题的起始端或者结束端,即开头或者末尾,因此,为了最终获取到网站名称,需要公共子段提取模块02提取同一域名下所有页面标题的开头和末尾的最长公共子段。
[0041]比如,有页面标题为“南京“最帅医生”街头传递正能量续 称做分内之事一社会一人民网”和“北京知名小学海外游学赴赌城 教委称无权定规则一社会一人民网”,则公共子段提取模块02提取上述页面标题的开头和结尾的最长公共子段为“社会一人民网”。
[0042]网站名称获取模块03,用于对提取公共子段后的所述页面标题进行整理,获取网站名称。
[0043]网站名称获取模块03将提取公共子段后的页面标题进行数据规整,比如,过滤无效域名名称,去除多余字符(如下划线、空格等),调整相应的字符顺序等。
[0044]网站名称获取模块03对页面标题进行规整,通常是按照合乎的逻辑或者人们的习惯。列举一个具体的例子:比如,网站名称获取模块03按照主域名在前,子域名在后的顺序进行规整,将提取页面标题的开头和结尾的最长公共子段后的“社会一人民网”规整为“人民网一社会”;当然,网站名称获取模块03也可以按照其他的方式进行规整。本领域技术人员可以理解,网站名称获取模块03对页面标题进行规整只要合乎逻辑或习惯即可,本实例对网站名称获取模块03具体的规整方式或对文字的具体排列不做限定。
[0045]若该浏览记录中只有一条URL或两条URL,则网站名称获取模块03可以直接根据保存的URL所对应的页面标题,直接获取对应的网站名称。
[0046]本发明网站名称提取装置利用网站页面标题的特性,采用离线自动化数据分析机制,可达到准确提取网站名称的有益效果,且实现方式简单;同时支持www、wap2.0等网页类型,并能够覆盖任意网站域名,覆盖面全。
[0047]下面以实际应用为例来具体描述本发明网站名称提取装置提取网站名称的实现过程。
[0048]比如,离线情况下,浏览记录中保存的URL数据集中,其中的两个网址分别为:① http://society.people, com.cn/n/2012/0719/c1008-18551272.html 和② http://society, people, com.cn/n/2012/0719/cl008_18555463.html ;域名获取模块 01 利用上述URL,查找并获取对应的网址的页面标题;比如网址①和网址②对应的页面标题即URL〈title>分别为“南京“最帅医生”街头传递正能量续 称做分内之事一社会一人民网”和“北京知名小学海外游学赴赌城 教委称无权定规则一社会一人民网”。域名获取模块01提取上述页面标题的网站域名,并将相同域名的网站分为同一组。在一优选的实施例中,相同域名的网站指该网站对应的URL的域名关键字相同,比如域名获取模块Ol对网址①提取的域名关键字为“society, people, com.cn”,对网址②提取的域名关键字也为“society, people, com.cn”,则域名获取模块01将网址①和网址②分为同一组。公共子段提取模块02分别提取上述网址①和网址②页面标题首尾的公共子段;具体地,公共子段提取模块02分别对网址①的页面标题“南京“最帅医生”街头传递正能量续 称做分内之事一社会一人民网”和网址②页面标题“北京知名小学海外游学赴赌城 教委称无权定规则一社会一人民网”提取首尾公共子段,得到二者首尾最长的公共子段为“社会一人民网”。网站名称获取模块03对提取首尾最长公共子段后的页面标题“社会一人民网”进行数据规整,使之符合逻辑或人们的日常习惯;比如,网站名称获取模块03按照主域名在前、子域名在后行为习惯,对上述“社会一人民网”进行调整,得到对应的网站名称为“人民网-社会”。
[0049]本实施例通过获取网站的页面标题,提取网站域名并分组;提取相同所述网站域名下所有页面标题首尾的公共子段;对提取公共子段后的所述页面标题进行相应处理,获取网站名称,具有在离线状态下通过分析自动提取网站名称的有益效果,实现方式简捷、覆
盖面全。
[0050]以上所述仅为本发明的优选实施例,并非因此限制其专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接运用在其他相关的【技术领域】,均同理包括在本发明的专利保护范围内。
【权利要求】
1.一种网站名称提取方法,其特征在于,包括以下步骤: 从浏览记录中获取网站的页面标题,提取网站域名并分组; 提取相同所述网站域名下所有页面标题首尾的公共子段; 对提取公共子段后的所述页面标题进行整理,获取网站名称。
2.如权利要求1所述的方法,其特征在于,所述获取网站的页面标题,提取网站域名并分组包括: 利用统一资源定位符URL获取浏览记录中网站的页面内容,建立文档对象模型,获取所述URL对应的网站页面标题; 根据所述页面标题,提取每个所述URL的域名并分组。
3.如权利要求1所述的方法,其特征在于,所述对提取公共子段后的所述页面标题进行整理包括: 按照预置逻辑或规则对提取公共子段后所述页面标题进行处理。
4.如权利要求2所述的方法,其特征在于,所述提取每个所述URL的域名并分组包括: 提取所述URL的域名后,将相同域名的所述URL分至同一组。
5.如权利要求4所述的方法,其特征在于,所述相同域名的所述URL包括域名关键字相同的所述URL。
6.一种网站名称提取装置,其特征在于,包括: 域名获取模块,用于从浏览记录中获取网站的页面标题,提取网站域名并分组; 公共子段提取模块,用于提取相同所述网站域名下所有页面标题首尾的公共子段; 网站名称获取模块,用于对提取公共子段后的所述页面标题进行整理,获取网站名称。
7.如权利要求6所述的装置,其特征在于,所述域名获取模块具体用于: 利用URL获取浏览记录中网站的页面内容,建立文档对象模型,获取所述URL对应的网站页面标题; 根据所述页面标题,提取每个所述URL的域名并分组。
8.如权利要求6所述的装置,其特征在于,所述网站名称获取模块还用于: 按照预置逻辑或规则对提取公共子段后所述页面标题进行处理。
9.如权利要求7所述的装置,其特征在于,所述域名获取模块还用于: 提取所述URL的域名后,将相同域名的所述URL分至同一组。
10.如权利要求9所述的装置,其特征在于,所述相同域名的所述URL包括域名关键字相同的所述URL。
【文档编号】G06F17/30GK103778115SQ201210394288
【公开日】2014年5月7日 申请日期:2012年10月17日 优先权日:2012年10月17日
【发明者】蔡兵 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1