一种网页分类方法和系统的制作方法

文档序号:9396900阅读:269来源:国知局
一种网页分类方法和系统的制作方法
【技术领域】
[0001]本发明涉及互联网应用技术领域,尤其涉及一种网页分类方法和系统。
【背景技术】
[0002]随着互联网信息需求的扩大,信息定向投放成为一种趋势。为了更有针对性地投放信息,需要对互联网上的人群进行属性分析或标签界定,而这主要通过判断用户访问的媒体网页类型来进行分析。其中,常见的对媒体网页进行分类的方法主要包括:
[0003]I)利用url (统一资源定位)的字符串进行分类,如利用sports, qq.com中的字符串“sports”将该网页分类至体育类目;
[0004]2)人工识别,由有经验的人员根据网页内容进行网页分类;
[0005]3)网页内容关键字频次识别,主要通过解析url对应的html (超文本标记语言)内容,根据其中的关键字频次进行网页分类。
[0006]上述各分类方法中,方法3)通过机器学习等算法予以实现,准确度相对较低;方法2)虽然准确度较高,但是效率低;方法I)虽然效率和质量都不错,但是对于主要由日期或数据表示的url的网页分类却显得无可奈何,而这类网页的流量往往非常大,诸如视频网站、电子商务网站以及博客网站中的网页等。

【发明内容】

[0007]本发明的目的是提供一种网页分类方法和系统,可以有效对媒体网页类型进行分类。
[0008]根据本发明的一个方面,提供了一种网页分类方法,该方法包括以下步骤:
[0009]接收用户输入的域名,基于所述域名得到需要爬取面包肩的网页所对应的地址(url);
[0010]基于所述地址爬取所述网页的面包肩;
[0011]基于所爬取的面包肩对所述网页进行分类。
[0012]进一步地,所述基于所述域名得到需要爬取面包肩的网页所对应的地址的步骤具体包括:
[0013]基于所述域名,得到包括所述域名在内的至少部分网页地址;
[0014]判断所述网页地址对应的网页是否存在历史被爬取面包肩的记录或/和所述网页是否活跃;
[0015]基于所述判断,筛选出需要爬取面包肩的网页所对应的地址。
[0016]其中,在筛选出需要爬取面包肩的网页所对应的地址的步骤前,还包括:
[0017]对面包肩的有效性进行判断,过滤无效面包肩对应的网页地址。
[0018]进一步地,所述基于所述地址爬取所述网页的面包肩的步骤包括:
[0019]基于面包肩的提取规则和所述地址,多线程地分别同时爬取并记录所述网页的面包肩。
[0020]其中,所述基于面包肩的提取规则爬取所述网页的面包肩具体包括:
[0021]对所述网页的html代码进行解析;
[0022]设定所述面包肩的开始字段和结束字段,获取所述面包肩的完整字段。
[0023]进一步地,所述基于所爬取的面包肩对所述网页进行分类的步骤具体包括:
[0024]确定面包肩分类关键字/词,基于所述关键字/词筛选出所述域名下包含所述关键字/词的所有面包肩对应的网页地址;
[0025]将所述筛选的网页地址所对应的网页归类于所述面包肩分类关键字/词所确定的类别。
[0026]进一步地,所述网页分类方法还包括:
[0027]基于所爬取的面包肩对网页进行的分类,对访问所述网页的用户进行属性分类。
[0028]根据本发明的另一个方面,还提供了一种网页分类系统,包括:
[0029]待分类网页获取装置,用于接收用户输入的域名,基于所述域名得到需要爬取面包肩的网页所对应的地址(url);
[0030]面包肩爬取装置,基于所述地址爬取所述网页的面包肩;
[0031]网页分类器,基于所爬取的面包肩对所述网页进行分类。
[0032]进一步地,所述待分类网页获取装置具体用于:
[0033]基于所述域名,得到包括所述域名在内的至少部分网页地址;
[0034]判断所述网页地址对应的网页是否存在历史被爬取面包肩的记录或/和所述网页是否活跃;
[0035]基于所述判断,筛选出需要爬取面包肩的网页所对应的地址。
[0036]其中,所述待分类网页获取装置在筛选出需要爬取面包肩的网页所对应的地址前,还用于:
[0037]对面包肩的有效性进行判断,过滤无效面包肩对应的网页地址。
[0038]进一步地,所述面包肩爬取装置具体用于:
[0039]基于面包肩的提取规则和所述地址,多线程地分别同时爬取并记录所述网页的面包肩。
[0040]其中,所述面包肩爬取装置基于面包肩的提取规则爬取所述网页的面包肩中,具体用于:
[0041 ]对所述网页的html代码进行解析;
[0042]设定所述面包肩的开始字段和结束字段,获取所述面包肩的完整字段。
[0043]进一步地,所述网页分类器具体用于:
[0044]确定面包肩分类关键字/词,基于所述关键字/词筛选出所述域名下包含所述关键字/词的所有面包肩对应的网页地址;
[0045]将所述筛选的网页地址所对应的网页归类于所述面包肩分类关键字/词所确定的类别。
[0046]进一步地,所述网页分类系统还包括:
[0047]用户属性分类装置,基于所爬取的面包肩对网页进行的分类,对访问所述网页的用户进行属性分类。
[0048]与现有技术相比,本发明具有以下优点:本发明通过识别面包肩中的字段,基于面包肩进行网页分类,提升了网页分类的准确率和效率,并进一步提高了对网络人群的属性进行标记的准确性。
【附图说明】
[0049]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0050]图1示出根据本发明一个方面的一种网页分类系统的示意性框图;
[0051]图2示出某视频类网页中所展示的面包肩示意图;
[0052]图3(a)-图3(b)示出所述待分类网页获取装置的具体工作流程图;
[0053]图4示出根据本发明一个优选实施例的基于面包肩对人群进行分类的界面图;
[0054]图5示出根据本发明另一个方面的一种网页分类的方法流程图;
[0055]附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0056]下面结合附图对本发明作进一步详细描述。
[0057]图1示出根据本发明一个方面的一种网页分类系统的示意性框图。其中,所述系统包括待分类网页获取装置11、面包肩爬取装置12以及网页分类器13。优选地,所述系统还包括用户属性分类装置14。具体地,待分类网页获取装置11接收用户输入的域名,基于所述域名得到需要爬取面包肩的网页所对应的地址(url);面包肩爬取装置12基于所述地址爬取所述网页的面包肩;网页分类器13基于所爬取的面包肩对所述网页进行分类。进一步地,用户属性分类装置14基于所爬取的面包肩对网页进行的分类,对访问所述网页的用户进行属性分类。
[0058]上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地,或者按照设定的或实时调整的工作模式要求,进行工作。
[0059]其中,待分类网页获取装置11接收用户输入的域名,基于所述域名得到需要爬取面包肩的网页所对应的地址(url),而所得到的网页为至少一个或多个,相应的网页地址也为至少一个或多个。具体地,所述域名可以包括任意级别的域名,例如一级域名、二级域名或三级域名等等,在此不作限定,典型地,视频类网址的域名例如为V.youku.com。通常,同一域名下,存在至少一个网页或多个网页对应的地址,仍以域名V.youku.com为例,其下存在的网址包括 http://v.youku.com/v_show/idj 或 http://v.youku.com/v_show/id_xnjqlb jtcw 等。
[0060]其中,所述面包肩是用于表达内容归属关系的界面元素,面包肩导航一般表现为“主分类 > 一级分类> 二级分类 > 三级分类 >…… > 最终内容页面”或者“首页 > 分类页 > 次级分类页”或者“首页 >> 分类页 >> 次级分类页”等形式。请参考图2示出的某视频类网页中所展示的面包肩示意图,如图2所示,该网页展示的面包肩为:电视剧〉韩国〉剧情/家庭/偶像/言情/时装。当然,不同网站的面包肩格式可以相同或不同,不同网站的面包肩对应的代码也可以相同或不同。
[0061]待分类网页获取装置11基于各种通信协议或/和网页规则通过与用户的用户设备进行交互,例如,通过一次或多次调用该用户设备提供的应用程序接口(API)或其他约定的通信方式,或者,通过ASP、JSP或PHP等页面技术,获取用户在搜索框、查询框等接收用户输入的域名,又或者,通过与搜索引擎等第三方设备的交互,接收用户
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1