网站频道自动挖掘方法_2

文档序号:9396902阅读:来源:国知局
三,对分解获得的多种URL模式进行过滤,去除重复包含的URL模式,得到候选URL模式; 步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;
步骤五,对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;
步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;
步骤七,合并URL模式中存在包含关系的模式,得到频道列表。
[0024]实施例2:
图1是网站频道自动挖掘方法的流程图。
[0025]如图1所示,网站频道自动挖掘方法,包括如下步骤:
步骤一,从互联网数据中抓取各个网站的URL数据;
通过定制的网络爬虫,或者/和从互联网广告网络的广播数据中,收集互联网上各个网站的URL数据的;
通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:定制的网络爬虫是指从几个大的门户网站开始抓取网页,并收集网页中的URLd^URL加到候选队列之中;进一步地继续抓取候选队列中的URL,从网页中收集URL,仍旧加到候选队列中,去除重复的URL,如此循环,直至收集上亿的URL数据;
从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司;互联网广告代理公司再将所述URL搜集起来,积攒几周之后,也可以构成上亿的URL数据;
进一步地,将定制的网络爬虫和从广告网络中收集的URL数据合并起来,组成一个更大的数据集合;
步骤二,对URL数据进行分解,分解成多种URL模式;
步骤三,对分解获得的多种URL模式进行过滤,去除重复包含的URL,得到候选URL模式;
步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;
步骤五,对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;
步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式;
步骤七,合并URL模式中存在包含关系的模式,得到频道列表。
[0026]实施例3:
步骤一,从互联网数据中抓取各个网站的URL数据;
通过定制的网络爬虫,或者/和从互联网广告网络的广播数据中,收集互联网上各个网站的URL数据的;
通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:定制的网络爬虫是指从几个大的门户网站开始抓取网页,并收集网页中的URLd^URL加到候选队列之中;进一步地继续抓取候选队列中的URL,从网页中收集URL,仍旧加到候选队列中,去除重复的URL,如此循环,直至收集上亿的URL数据;
从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司;互联网广告代理公司再将所述URL搜集起来,积攒几周之后,也可以构成上亿的URL数据; 进一步地,将定制的网络爬虫和从广告网络中收集的URL数据合并起来,组成一个更大的数据集合;
步骤二,对URL数据进行分解,分解成多种URL模式;
首先,URL为统一资源定位符,通常包括子域名、域名、目录多个组成部分;例如,完成的URL格式为:协议://用户名:密码O子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志
进一步地,对URL数据进行分解是指,提取URL中包括子域名、域名、顶级域名、目录的多个组成部分,并按照相应的分隔符对子域名和目录进行分隔;
例如:对http://voice.hupu.com/nba/1772918.html,提取并分隔完成后,可以得到voice、hupu、com、nba 多个成分;
对 http://finance, sina.com.cn/china/dfjj/20150724/155922784378.shtml,提取并分隔完成后,可以得到finance、sina、com、cn、china、dfjj\20150724多个成分;
进一步地,舍弃URL中的部分子域名或者目录,重新拼装,得到的即为URL模式;
例如:(I) http://voice.hupu.com/nba/1772918.html,分解组装后的模式为 hupu.com,voice.hupu.com,voice.hupu.com/nba ;
(2)http://finance, sina.com.cn/china/dfjj/20150724/155922784378.shtml,分角军组装后的模式为 sina.com.cn, finance, sina.com.cn, finance, sina.com.cn/china,finance, sina.com.cn/china/dfjj, finance, sina.com.cn/china/dfjj/20150724o
[0027]步骤三,对分解获得的多种URL模式进行过滤,去除重复包含的URL,得到候选URL模式;
首先,通过聚合步骤二中的URL模式,可以得到每个URL模式中包含的URL,并计算URL的数目;
进一步地,设置URL阈值,例如1000,保留URL数据大于URL阈值的URL模式,对不满足条件的URL模式进行删除,即得到候选URL模式。
[0028]步骤四,对过滤后的候选URL模式中所包含的URL数据进行抽样处理;
候选URL模式中包含有多个URL数据,需要对每种候选URL模式下所包含的URL数据进行抽样处理,抽样是随机抽样,抽样结束后,每个URL模式包含的URL数量相等。
[0029]步骤五,对抽样留下的URL数据进行抓取网页内容,并对网页进行分类;
首先,采用通用的网络爬虫,抓取每个URL所对应的网页内容;
进一步地,人工对每个网页进行分类,寻找一些训练样本,训练出一个通用的网页分类器;
网页分类器利用词组在各个分类下出现的频率不同来计算,例如姚明”、“中国足球”这些词组在体育分类出现的频率很高,但在科技分类出现的频率很低。
[0030]利用训练好的网页分类器,对我们得到的URL数据的网页内容进行分类,得到每个URL数据的分类标签;
进一步地,利用训练好的网页分类器,提取网页的标题和正文;
进一步地,对提取的网页标题和正文进行分类,得到每个URL数据的分类标签。
[0031]步骤六,统计各个URL模式中所包含的URL数据,设置分类相同的比例阈值,留下包含的URL数据分类超过比例阈值的模式; 首先,URL模式下包含的URL数据的分类是比较一致的,而不是杂乱无章的;
进一步地,根据统计的每个URL模式下所包含的URL分类标签,计算每个分类标签所占的比例;与预先设置的分类标签比例阈值进行比较,如果分类标签所占的比例大于比例阈值,则该URL模式所属的URL分类是比较一致的,进行保留;过滤所属的URL分类不一致的模式,即得到符合条件的URL模式和对应的分类标签。
[0032]步骤七,合并URL模式中存在包含关系的模式,得到频道列表。
[0033]首先,将上级URL模式与当前URL模式进行比较,上级URL模式是指组成模式的成分与当前URL模式相似,但是要比当前URL模式中的内容要少;例如:hupu.com是hupu.com/news的上级模式;
进一步地,当前URL模式对应的分类,与上级模式一致,则舍弃当前URL模式;
如果某个模式Cl的上级模式c2也存在,且上级模式c2的类别与Cl的类别相同,则Cl被上级模式c2完全包含,可以放弃cl ;例如:hupu.com/news,hupu.com是2个模式,都对应篮球分类,那么hupu.com/news相比hupu.com不能提供更多信息,应该被舍弃;但是,nba.hupu.com也被hupu.com包含,但nba.hupu.com对应的类别是NBA,比hupu.com的类别篮球更细,可以提供更有价值的信息,nba.hupu.com就应该被保留。
[0034]进一步地,被保留的URL模式和对应的分类,即构成了频道列表。
[0035]下面结合具体实施例对本发明进行说明:
步骤一,从互联网数据中抓取了大量关于新浪网的URL数据,例如http://neWS.sina.c
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1