网站频道自动挖掘方法_2

文档序号：9396902阅读：来源：国知局

三，对分解获得的多种URL模式进行过滤，去除重复包含的URL模式，得到候选URL模式；步骤四，对过滤后的候选URL模式中所包含的URL数据进行抽样处理；
步骤五，对抽样留下的URL数据进行抓取网页内容，并对网页进行分类；
步骤六，统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；
步骤七，合并URL模式中存在包含关系的模式，得到频道列表。
[0024]实施例2:
图1是网站频道自动挖掘方法的流程图。
[0025]如图1所示，网站频道自动挖掘方法，包括如下步骤:
步骤一，从互联网数据中抓取各个网站的URL数据；
通过定制的网络爬虫，或者/和从互联网广告网络的广播数据中，收集互联网上各个网站的URL数据的；
通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:定制的网络爬虫是指从几个大的门户网站开始抓取网页，并收集网页中的URLd^URL加到候选队列之中；进一步地继续抓取候选队列中的URL，从网页中收集URL，仍旧加到候选队列中，去除重复的URL，如此循环，直至收集上亿的URL数据；
从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司；互联网广告代理公司再将所述URL搜集起来，积攒几周之后，也可以构成上亿的URL数据；
进一步地，将定制的网络爬虫和从广告网络中收集的URL数据合并起来，组成一个更大的数据集合；
步骤二，对URL数据进行分解，分解成多种URL模式；
步骤三，对分解获得的多种URL模式进行过滤，去除重复包含的URL，得到候选URL模式；
步骤四，对过滤后的候选URL模式中所包含的URL数据进行抽样处理；
步骤五，对抽样留下的URL数据进行抓取网页内容，并对网页进行分类；
步骤六，统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；
步骤七，合并URL模式中存在包含关系的模式，得到频道列表。
[0026]实施例3:
步骤一，从互联网数据中抓取各个网站的URL数据；
通过定制的网络爬虫，或者/和从互联网广告网络的广播数据中，收集互联网上各个网站的URL数据的；
通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为:定制的网络爬虫是指从几个大的门户网站开始抓取网页，并收集网页中的URLd^URL加到候选队列之中；进一步地继续抓取候选队列中的URL，从网页中收集URL，仍旧加到候选队列中，去除重复的URL，如此循环，直至收集上亿的URL数据；
从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为:各个互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司；互联网广告代理公司再将所述URL搜集起来，积攒几周之后，也可以构成上亿的URL数据；进一步地，将定制的网络爬虫和从广告网络中收集的URL数据合并起来，组成一个更大的数据集合；
步骤二，对URL数据进行分解，分解成多种URL模式；
首先，URL为统一资源定位符，通常包括子域名、域名、目录多个组成部分；例如，完成的URL格式为:协议://用户名:密码O子域名.域名.顶级域名:端口号/目录/文件名.文件后缀？参数=值#标志
进一步地，对URL数据进行分解是指，提取URL中包括子域名、域名、顶级域名、目录的多个组成部分，并按照相应的分隔符对子域名和目录进行分隔；
例如:对http://voice.hupu.com/nba/1772918.html，提取并分隔完成后，可以得到voice、hupu、com、nba 多个成分；
对 http://finance, sina.com.cn/china/dfjj/20150724/155922784378.shtml，提取并分隔完成后，可以得到finance、sina、com、cn、china、dfjj\20150724多个成分；
进一步地，舍弃URL中的部分子域名或者目录，重新拼装，得到的即为URL模式；
例如:(I) http://voice.hupu.com/nba/1772918.html，分解组装后的模式为 hupu.com，voice.hupu.com，voice.hupu.com/nba ；
(2)http://finance, sina.com.cn/china/dfjj/20150724/155922784378.shtml,分角军组装后的模式为 sina.com.cn, finance, sina.com.cn, finance, sina.com.cn/china,finance, sina.com.cn/china/dfjj, finance, sina.com.cn/china/dfjj/20150724o
[0027]步骤三，对分解获得的多种URL模式进行过滤，去除重复包含的URL，得到候选URL模式；
首先，通过聚合步骤二中的URL模式，可以得到每个URL模式中包含的URL，并计算URL的数目；
进一步地，设置URL阈值，例如1000，保留URL数据大于URL阈值的URL模式，对不满足条件的URL模式进行删除，即得到候选URL模式。
[0028]步骤四，对过滤后的候选URL模式中所包含的URL数据进行抽样处理；
候选URL模式中包含有多个URL数据，需要对每种候选URL模式下所包含的URL数据进行抽样处理，抽样是随机抽样，抽样结束后，每个URL模式包含的URL数量相等。
[0029]步骤五，对抽样留下的URL数据进行抓取网页内容，并对网页进行分类；
首先，采用通用的网络爬虫，抓取每个URL所对应的网页内容；
进一步地，人工对每个网页进行分类，寻找一些训练样本，训练出一个通用的网页分类器;
网页分类器利用词组在各个分类下出现的频率不同来计算，例如姚明”、“中国足球”这些词组在体育分类出现的频率很高，但在科技分类出现的频率很低。
[0030]利用训练好的网页分类器，对我们得到的URL数据的网页内容进行分类，得到每个URL数据的分类标签；
进一步地，利用训练好的网页分类器，提取网页的标题和正文；
进一步地，对提取的网页标题和正文进行分类，得到每个URL数据的分类标签。
[0031]步骤六，统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；首先，URL模式下包含的URL数据的分类是比较一致的，而不是杂乱无章的；
进一步地，根据统计的每个URL模式下所包含的URL分类标签，计算每个分类标签所占的比例；与预先设置的分类标签比例阈值进行比较，如果分类标签所占的比例大于比例阈值，则该URL模式所属的URL分类是比较一致的，进行保留；过滤所属的URL分类不一致的模式，即得到符合条件的URL模式和对应的分类标签。
[0032]步骤七，合并URL模式中存在包含关系的模式，得到频道列表。
[0033]首先，将上级URL模式与当前URL模式进行比较，上级URL模式是指组成模式的成分与当前URL模式相似，但是要比当前URL模式中的内容要少；例如:hupu.com是hupu.com/news的上级模式；
进一步地，当前URL模式对应的分类，与上级模式一致，则舍弃当前URL模式；
如果某个模式Cl的上级模式c2也存在，且上级模式c2的类别与Cl的类别相同，则Cl被上级模式c2完全包含，可以放弃cl ;例如:hupu.com/news，hupu.com是2个模式，都对应篮球分类，那么hupu.com/news相比hupu.com不能提供更多信息，应该被舍弃；但是，nba.hupu.com也被hupu.com包含，但nba.hupu.com对应的类别是NBA，比hupu.com的类别篮球更细，可以提供更有价值的信息，nba.hupu.com就应该被保留。
[0034]进一步地，被保留的URL模式和对应的分类，即构成了频道列表。
[0035]下面结合具体实施例对本发明进行说明:
步骤一，从互联网数据中抓取了大量关于新浪网的URL数据，例如http://neWS.sina.c

完整全部详细技术资料下载

当前第2页1 2 3