网站频道自动挖掘方法_3

文档序号：9396902阅读：来源：国知局

om.cn/w/2014-04-23/052429991412.shtml, http://video, sina.com.cn/l/pl/sportstv/1683448.html, http://tech.sina.com.cn/it/2014-04-17/09559326842, shtml等。
[0036]步骤二，对URL数据进行分解，分解成多种URL模式，得到了 video, sina.com.cn, news.sina.com.cn, tech.sina.com.cn, tech.sina.com.cn/it, tech.sina.com.cn/it/2014-04-17 等多种 URL 模式；
步骤三，对分解获得的多种URL模式进行过滤，去除重复包含的URL模式，得到候选URL模式；例如:tech.sina.com.cn/it/2014-04-17被过滤了，剩余几百个候选URL模式。
[0037]步骤四，对过滤后的候选URL模式中所包含的URL数据进行抽样处理；例如:每个URL模式抽样500个URL ；
步骤五，对抽样留下的URL数据进行抓取网页内容，并对网页进行分类；
步骤六，统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；例如video, sina.com.cn URL模式被过滤了；步骤七，合并URL模式中存在包含关系的模式，得到频道列表；例如，由于tech.sina.com.cn/it跟上级模式tech.sina.com.cn的分类都是科技，因此被过滤了；
最终从新浪网中得到了 49个频道；例如sports, sina.com.cn/cba的类别是篮球，sports, sina.com.cn/nba 类别也是篮球，finance, sina.com.cn/money 的类别是投资理财，baby.sina.com.cn的类别是母婴。
[0038]本发明能够自动发现各个网站的频道以及对频道进行分类，提高抓取和分类效率，占用磁盘空间小，省时省力，分类更加准确。
[0039]本发明通过过滤需要存储的频道列表比抓取的URL数量少很多，更加节省资源。
[0040]即使某个抓取的URL网页内容很少，但是通过本发明的URL模式把它划到一个频道，仍旧可以得到可靠的类别，大大降低分类的错误率。
[0041]以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。
【主权项】
1.网站频道自动挖掘方法，其特征在于，包括如下步骤: 步骤一，从互联网数据中抓取各个网站的URL数据；步骤二，对所述URL数据进行分解，分解成多种URL模式；步骤三，对分解获得的多种所述URL模式进行过滤，去除重复包含的URL模式，得到候选URL模式；步骤四，对过滤后的所述候选URL模式中所包含的URL数据进行抽样处理；步骤五，对抽样留下的所述URL数据进行抓取网页内容，并对网页进行分类；步骤六，统计各个所述URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；步骤七，合并所述URL模式中存在包含关系的模式，得到频道列表。2.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤一是通过定制的网络爬虫，或者/和从互联网广告网络的广播数据中，收集互联网上各个网站的URL数据的。3.根据权利要求2所述的网站频道自动挖掘方法，其特征在于，所述步骤一中通过定制的网络爬虫收集互联网上各个网站的URL数据的具体步骤为: 所述定制的网络爬虫是指从几个大的门户网站开始抓取网页，并收集网页中的URL，将URL加到候选队列之中；进一步地继续抓取候选队列中的URL，从网页中收集URL，仍旧加到候选队列中，去除重复的URL，如此循环，直至收集上亿的URL数据。4.根据权利要求2所述的网站频道自动挖掘方法，其特征在于，所述步骤一中从互联网广告网络的广播数据中收集互联网上各个网站的URL数据的具体步骤为: 各个所述互联网广告网络会将用户访问的URL全部广播给互联网广告代理公司；互联网广告代理公司再将所述URL搜集起来，进行积攒，即得到上亿的URL数据。5.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤二中对URL数据进行分解，分解成多种URL模式的具体步骤为: 首先，URL为统一资源定位符，通常包括子域名、域名、目录多个组成部分；进一步地，对所述URL数据进行分解是指，提取URL中包括子域名、域名、顶级域名、目录的多个组成部分，并按照相应的分隔符对子域名和目录进行分隔；进一步地，舍弃所述URL中的部分子域名或者目录，重新拼装，得到的即为URL模式。6.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤三中对分解获得的多种URL模式进行过滤，去除重复包含的URL，得到候选URL模式的具体步骤为: 首先，通过聚合所述步骤二中的URL模式，可以得到每个所述URL模式中包含的URL，并计算URL的数目；进一步地，设置URL阈值，保留URL数据大于URL阈值的URL模式，对不满足条件的URL模式进行删除，即得到候选URL模式。7.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤四中对过滤后的候选URL模式中所包含的URL数据进行抽样处理的具体步骤为: 所述候选URL模式中包含有多个URL数据，需要对每种候选URL模式下所包含的URL数据进行抽样处理，抽样是随机抽样，抽样结束后，每个URL模式包含的URL数量相等。8.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤五中对抽样留下的URL数据进行抓取网页内容，并对网页进行分类的具体步骤为: 首先，采用通用的网络爬虫，抓取每个所述URL所对应的网页内容；进一步地，人工对每个网页进行分类，寻找一些训练样本，训练出一个通用的网页分类器；进一步地，利用训练好的所述网页分类器，提取网页的标题和正文；进一步地，对提取的网页标题和正文进行分类，得到每个URL数据的分类标签。9.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤六中统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式的具体步骤为: 首先，所述URL模式下包含的URL数据的分类是比较一致的，而不是杂乱无章的；进一步地，根据统计的每个URL模式下所包含的URL分类标签，计算每个分类标签所占的比例；与预先设置的分类标签比例阈值进行比较，如果分类标签所占的比例大于比例阈值，则所述URL模式所属的URL分类是比较一致的，进行保留；过滤所属的URL分类不一致的模式，即得到符合条件的URL模式和对应的分类标签。10.根据权利要求1所述的网站频道自动挖掘方法，其特征在于，所述步骤七中合并URL模式中存在包含关系的模式，得到频道列表的具体步骤为: 首先，将上级所述URL模式与当前所述URL模式进行比较，上级所述URL模式是指组成模式的成分与当前URL模式相似，但是要比当前URL模式中的内容要少；进一步地，当前所述URL模式对应的分类，与上级模式一致，则舍弃当前所述URL模式；进一步地，被保留的所述URL模式和对应的分类，即构成了频道列表。
【专利摘要】本发明属于网站频道挖掘技术领域，提供了网站频道自动挖掘方法，包括：步骤从互联网数据中抓取各个网站的URL数据；对URL数据进行分解，分解成多种URL模式；对分解获得的多种URL模式进行过滤，去除重复包含的URL模式，得到候选URL模式；对过滤后的候选URL模式中所包含的URL数据进行抽样处理；对抽样留下的URL数据进行抓取网页内容，并对网页进行分类；统计各个URL模式中所包含的URL数据，设置分类相同的比例阈值，留下包含的URL数据分类超过比例阈值的模式；合并URL模式中存在包含关系的模式，得到频道列表。本发明能够自动发现各个网站的频道以及对频道进行分类，提高了URL数据的抓取和分类效率，占用磁盘空间小，省时省力，分类更加准确。
【IPC分类】G06F17/30
【公开号】CN105117436
【申请号】CN201510485686
【发明人】汤奇峰, 刘作涛
【申请人】上海晶赞科技发展有限公司
【公开日】2015年12月2日
【申请日】2015年8月10日

完整全部详细技术资料下载

当前第3页1 2 3