网站频道自动挖掘方法

文档序号:9396902阅读:360来源:国知局
网站频道自动挖掘方法
【技术领域】
[0001]本发明属于网站频道挖掘技术领域,特别涉及一种对大规模的网页URL进行分析处理、自动发现各个网站的频道以及对频道进行分类的网站频道自动挖掘方法。
【背景技术】
[0002]随着互联网技术的不断发展以及信息的不断膨胀,人们对于网络信息的使用需求也越来越高,如何对海量的网络URL进行分析和管理是许多网络应用都需要面临的难题。网站频道自动挖掘方法是对大规模的网页URL进行分析处理,自动发现各个网站的频道以及对频道进行分类,进一步地实现对URL进行分类。
[0003]随着互联网广告行业的发展,主流广告投放方式已经由包断网站流量对所有用户投放同样的广告,转变为根据具体的网页内容和不同用户的特征,分别投放不同的广告内容,来精准的迎合用户的兴趣爱好,达到提高广告点击率和转化率的目的。
[0004]对广告投放系统来说,需要区分大量不同网页的类别,也需要根据用户历史上的访问记录来分析其兴趣爱好。针对互联网的海量的,且在快速增长的网页规模,需要一个有效地对网页内容进行分类的系统。
[0005]现有的网页分类方法主要有以下几种:(I)采用人工对各个站点的URL进行标注,费时费力,且人工知识很难覆盖到大量站点。(2)从网络上把大量URL的网页内容都抓取下来,对每一个网页用一个网页分类系统分好类,并存到一个缓存系统中。这样当处理到一个网页时,从缓存系统中获取预先得到的分类结果。此种方法的问题在于:需要预先对所有网页进行抓取和分类,占用磁盘空间非常大;每当遇到一个未预先处理的网页时,就需要启动抓取和分类的过程,耗时较长;并且很多网页上的文本内容很少,比较难准确的分类,错误率很高。(3)借助于各个网站的频道体系。由于多数大型网站,通常会整理一个特有的频道体系,来方便用户快速访问,因此可以得到各个URL对应的网站频道,人工将这个频道映射到网页分类体系中。此种方法的问题在于:人工整理这些频道列表,不仅费时费力,而且在频道列表更新之后,很难及时发现。
[0006]因此,网站频道挖掘技术领域急需一种网站频道自动挖掘方法,能够自动发现各个网站的频道以及对频道进行分类,提高了 URL数据的抓取和分类效率,占用磁盘空间小,省时省力,分类更加准确。

【发明内容】

[0007]本发明为了解决抓取和分类耗时长、占用空间大,费时费力的问题,提供了一种网站频道自动挖掘方法,技术方案如下:
网站频道自动挖掘方法,包括如下步骤:
步骤一,从互联网数据中抓取各个网站的URL数据;
步骤二,对URL数据进行分解,分解成多种URL模式;
步骤三,对分解获得的多种URL模式进行过滤,去除重复包含的URL模式,得到候选URL模式;
步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;
步骤五,对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;
步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;
步骤七,合并URL模式中存在包含关系的模式,得到频道列表。
[0008]优选的,在上述网站频道自动挖掘方法中,步骤一是通过定制的网络爬虫,或者/和从互联网广告网络的广播数据中,收集互联网上各个网站的URL数据的。
[0009]优选的,在上述网站频道自动挖掘方法中,步骤一中通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:
定制的网络爬虫是指从几个大的门户网站开始抓取网页,并收集网页中的URL,将URL加到候选队列之中;进一步地继续抓取候选队列中的URL,从网页中收集URL,仍旧加到候选队列中,去除重复的URL,如此循环,直至收集上亿的URL数据;
优选的,在上述网站频道自动挖掘方法中,步骤一中从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司;互联网广告代理公司再将所述URL搜集起来,进行积攒,即得到上亿的URL数据。
[0010]优选的,在上述网站频道自动挖掘方法中,步骤二中对URL数据进行分解,分解成多种URL模式的具体步骤为:
首先,URL为统一资源定位符,通常包括子域名、域名、目录多个组成部分;
进一步地,对URL数据进行分解是指,提取URL中包括子域名、域名、顶级域名、目录的多个组成部分,并按照相应的分隔符对子域名和目录进行分隔;
进一步地,舍弃URL中的部分子域名或者目录,重新拼装,得到的即为URL模式。
[0011 ] 优选的,在上述网站频道自动挖掘方法中,步骤三中对分解获得的多种URL模式进行过滤,去除重复包含的URL,得到候选URL模式的具体步骤为:
首先,通过聚合步骤二中的URL模式,可以得到每个URL模式中包含的URL,并计算URL的数目;
进一步地,设置URL阈值,保留URL数据大于URL阈值的URL模式,对不满足条件的URL模式进行删除,即得到候选URL模式。
[0012]优选的,在上述网站频道自动挖掘方法中,步骤四中对过滤后的候选URL模式中所包含的URL数据进行抽样处理的具体步骤为:
候选URL模式中包含有多个URL数据,需要对每种候选URL模式下所包含的URL数据进行抽样处理,抽样是随机抽样,抽样结束后,每个URL模式包含的URL数量相等。
[0013]优选的,在上述网站频道自动挖掘方法中,步骤五中对抽样留下的URL数据进行抓取网页内容,并对网页进行分类的具体步骤为:
首先,采用通用的网络爬虫,抓取每个URL所对应的网页内容;
进一步地,人工对每个网页进行分类,寻找一些训练样本,训练出一个通用的网页分类器;
进一步地,利用训练好的网页分类器,提取网页的标题和正文; 进一步地,对提取的网页标题和正文进行分类,得到每个URL数据的分类标签。
[0014]优选的,在上述网站频道自动挖掘方法中,步骤五中的网页分类器是利用词组在各个分类下出现的频率不同来计算训练分类的。
[0015]优选的,在上述网站频道自动挖掘方法中,步骤六中统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式的具体步骤为:
首先,URL模式下包含的URL数据的分类是比较一致的,而不是杂乱无章的;
进一步地,根据统计的每个URL模式下所包含的URL分类标签,计算每个分类标签所占的比例;与预先设置的分类标签比例阈值进行比较,如果分类标签所占的比例大于比例阈值,则该URL模式所属的URL分类是比较一致的,进行保留;过滤所属的URL分类不一致的模式,即得到符合条件的URL模式和对应的分类标签。
[0016]优选的,在上述网站频道自动挖掘方法中,步骤七中合并URL模式中存在包含关系的模式,得到频道列表的具体步骤为:
首先,将上级URL模式与当前URL模式进行比较,上级URL模式是指组成模式的成分与当前URL模式相似,但是要比当前URL模式中的内容要少;
进一步地,当前URL模式对应的分类,与上级模式一致,则舍弃当前URL模式;
进一步地,被保留的URL模式和对应的分类,即构成了频道列表。
[0017]本发明的有益效果:
1.本发明能够自动发现各个网站的频道以及对频道进行分类,提高抓取和分类效率,占用磁盘空间小,省时省力,分类更加准确。
[0018]2.本发明通过过滤需要存储的频道列表比抓取的URL数量少很多,更加节省资源。
[0019]3.即使某个抓取的URL网页内容很少,但是通过本发明的URL模式把它划到一个频道,仍旧可以得到可靠的类别,大大降低分类的错误率。
【附图说明】
[0020]下面结合附图和【具体实施方式】来详细说明本发明:
图1是网站频道自动挖掘方法的流程图。
【具体实施方式】
[0021]为了使本发明技术实现的措施、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
[0022]实施例1:
图1是网站频道自动挖掘方法的流程图。
[0023]如图1所示,网站频道自动挖掘方法,包括如下步骤:
步骤一,从互联网数据中抓取各个网站的URL数据;
步骤二,对URL数据进行分解,分解成多种URL模式;
步骤
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1