一种网络特定内容挖掘方法和装置、及一种电子设备的制作方法

文档序号:6633814阅读:186来源:国知局
一种网络特定内容挖掘方法和装置、及一种电子设备的制作方法
【专利摘要】本发明公开了一种网络特定内容挖掘方法和装置、及一种电子设备,其中,网络特定内容挖掘方法包括:从多条浏览器日志中分别提取第一URL和跳转自第一URL的第二URL;确定与指定网站的标识信息相匹配的第一URL;从跳转自与指定网站的标识信息相匹配的第一URL的第二URL中筛选来源于指定网站的URL;从来源于所述指定网站的URL中查找网络热点URL,将网络热点URL对应的网页内容作为网络特定内容。本发明能够更快速、更准确地挖掘出网络特定内容,并且获得的内容也更加全面。
【专利说明】一种网络特定内容挖掘方法和装置、及一种电子设备

【技术领域】
[0001] 本发明涉及互联网【技术领域】,具体涉及一种网络特定内容挖掘方法和装置、及一 种电子设备。

【背景技术】
[0002] 随着互联网的快速发展,网络作为一种消息传播媒介,成为人们获取信息、交流信 息的重要渠道,其具有传播消息更快速的优点,越来越受到广大网民的青睐。大量的网民涌 入一些提供交互服务的网站中发表自己的意见和爆料各类新闻,每天有成千上万的话题从 互联网上产生。如何更快速地从相关网站的海量信息中获取网络特定内容,将对了解社会 发展形势、掌握舆论动态起到指导性作用。
[0003] 目前的技术中获取网络上的特定内容的方法主要有以下两种:
[0004] 第一种方法:网站会提供与特定内容相关的开放API (Application Programming Interface,应用程序编程接口),可以通过调用网站提供的开放API获取该网站上的特定 内容。
[0005] 但是,网站所提供的与特定内容相关的开放API可能较少,因此通过该种方法所 获取到的特定内容的数量有限,不能全面覆盖该网站中的特定内容。例如,某个网站只提供 了 3种与特定内容相关的API,分别是获取最近1小时、最近1天和最近1周的特定内容,因 此,如果用户想要获取其他的特定内容,则这些API均不能支持。
[0006] 第二种方法:首先通过爬取各个网站获得其中的内容,然后分析各条内容的浏览 量、转发量、评论量及其这些数量的变化趋势,最后设计算法从其中提取出特定内容。
[0007] 但是,该种方法涉及到爬取调度、网页解析、数据更新存储等复杂技术,执行过程 复杂,对人力、物力的投入有较高要求。
[0008] 因此,目前的网络特定内容获取方法无法快速、准确地获取网站中的网络特定内 容。


【发明内容】

[0009] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的一种网络特定内容挖掘方法和相应的一种网络特定内容挖掘装置,及一种电子设 备。
[0010] 依据本发明的一个方面,提供了一种网络特定内容挖掘方法,包括:
[0011] 从多条浏览器日志中分别提取第一 URL和跳转自所述第一 URL的第二URL ;
[0012] 确定与指定网站的标识信息相匹配的第一 URL ;
[0013] 从跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL中筛选来源于 所述指定网站的URL ;
[0014] 从所述来源于所述指定网站的URL中查找网络热点URL,将所述网络热点URL对应 的网页内容作为网络特定内容。
[0015] 可选地,所述确定与指定网站的标识信息相匹配的第一 URL的步骤包括:
[0016] 将每个第一 URL分别与指定网站的标识信息进行匹配;
[0017] 将包括所述指定网站的标识信息的第一 URL确定为与指定网站的标识信息相匹 配的第一 URL。
[0018] 可选地,所述从跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL 中筛选来源于所述指定网站的URL的步骤包括:
[0019] 将全部跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL确定为来 源于所述指定网站的URL。
[0020] 可选地,所述从跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL 中筛选来源于所述指定网站的URL的步骤包括:
[0021] 将每个跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL分别与指 定网站的标识信息进行匹配;
[0022] 将不包括所述指定网站的标识信息的第二URL确定为来源于所述指定网站的 URL。
[0023] 可选地,所述从所述来源于所述指定网站的URL中查找网络热点URL的步骤包 括:
[0024] 针对每个来源于所述指定网站的URL分别统计其出现的频率;
[0025] 将频率大于预设阈值的所述来源于所述指定网站的URL确定为网络热点URL。
[0026] 可选地,所述方法还包括:
[0027] 对所述网络热点URL进行聚类,获得至少一个URL聚类。
[0028] 可选地,所述对所述网络热点URL进行聚类,获得至少一个URL聚类的步骤包括:
[0029] 针对每个网络热点URL分别提取对应的特征信息,并采用所述特征信息构建该网 络热点URL对应的特征向量;
[0030] 计算每两个网络热点URL对应的特征向量的相似度;
[0031] 将相似度位于预设的相似度区间之内的特征向量对应的网络热点URL确定为属 于同一个URL聚类。
[0032] 可选地,所述方法还包括:
[0033] 从所述网络热点URL中选取来源于预设类型网站的URL。
[0034] 可选地,所述从所述网络热点URL中选取来源于预设类型网站的URL的步骤包 括:
[0035] 将所述网络热点URL与所述预设类型网站的标识信息进行匹配;
[0036] 将包括所述预设类型网站的标识信息的网络热点URL确定为来源于预设类型网 站的URL。
[0037] 可选地,所述指定网站包括社交网站;所述社交网站包括以下至少之一:推特 Twitter、脸谱 Facebook、领英 LinkedIru微博、人人网。
[0038] 可选地,所述预设类型网站包括以下至少之一:视频网站、时事网站、非门户网站、 非媒体网站、个性化定制网站。
[0039] 依据本发明的另一方面,提供了一种网络特定内容挖掘装置,包括:
[0040] 提取模块,适于从多条浏览器日志中分别提取第一 URL和跳转自所述第一 URL的 第二 URL ;
[0041] 确定模块,适于确定与指定网站的标识信息相匹配的第一 URL ;
[0042] 筛选模块,适于从跳转自所述与指定网站的标识信息相匹配的第一 URL的第二 URL中筛选来源于所述指定网站的URL ;
[0043] 查找模块,适于从所述来源于所述指定网站的URL中查找网络热点URL,将所述网 络热点URL对应的网页内容确定为网络特定内容。
[0044] 可选地,所述确定模块包括:
[0045] 第一匹配子模块,适于将每个第一 URL分别与指定网站的标识信息进行匹配;
[0046] 第一确定子模块,适于将包括所述指定网站的标识信息的第一 URL确定为与指定 网站的标识信息相匹配的第一 URL。
[0047] 可选地,所述筛选模块包括:
[0048] 第二确定子模块,适于将全部跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL确定为来源于所述指定网站的URL。
[0049] 可选地,所述筛选模块包括:
[0050] 第二匹配子模块,适于将每个跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL分别与指定网站的标识信息进行匹配;
[0051] 第三确定子模块,适于将不包括所述指定网站的标识信息的第二URL确定为来源 于所述指定网站的URL。
[0052] 可选地,所述查找模块包括:
[0053] 统计子模块,适于针对每个来源于所述指定网站的URL分别统计其出现的频率;
[0054] 热点确定子模块,适于将频率大于预设阈值的所述来源于所述指定网站的URL确 定为网络热点URL。
[0055] 可选地,所述装置还包括:
[0056] 聚类模块,适于对所述网络热点URL进行聚类,获得至少一个URL聚类。
[0057] 可选地,所述聚类模块包括:
[0058] 构建子模块,适于针对每个网络热点URL分别提取对应的特征信息,并采用所述 特征信息构建该网络热点URL对应的特征向量;
[0059] 计算子模块,适于计算每两个网络热点URL对应的特征向量的相似度;
[0060] 聚类确定子模块,适于将相似度位于预设的相似度区间之内的特征向量对应的网 络热点URL确定为属于同一个URL聚类。
[0061] 可选地,所述装置还包括:
[0062] 选取模块,适于从所述网络热点URL中选取来源于预设类型网站的URL。
[0063] 可选地,所述选取模块包括:
[0064] 热点匹配子模块,适于将每个网络热点URL分别与所述预设类型网站的标识信息 进行匹配;
[0065] 类型确定子模块,适于将包括所述预设类型网站的标识信息的网络热点URL确定 为来源于预设类型网站的URL。
[0066] 可选地,所述指定网站包括社交网站;所述社交网站包括以下至少之一:推特 Twitter、脸谱 Facebook、领英 LinkedIru微博、人人网。
[0067] 可选地,所述预设类型网站包括以下至少之一:视频网站、时事网站、非门户网站、 非媒体网站、个性化定制网站。
[0068] 依据本发明的另一方面,提供了一种电子设备,包括如上任意一项所述的网络特 定内容挖掘装置。
[0069] 根据本发明的网络特定内容挖掘方案,首先从多条浏览器日志中分别提取第一 URL和跳转自第一 URL的第二URL ;然后确定与指定网站的标识信息相匹配的第一 URL,并 从跳转自与指定网站的标识信息相匹配的第一 URL的第二URL中筛选来源于指定网站的 URL ;最后从来源于所述指定网站的URL中查找网络热点URL,将网络热点URL对应的网页 内容作为网络特定内容。本发明利用浏览器日志的特点,基于浏览器日志筛选出来源于指 定网站的URL,进而从这些URL中进行网络特定内容的查找,无需再通过指定网站提供的开 放API获取,也无需再对指定网站进行爬取调度、网页解析、数据更新存储等复杂过程,因 此能够更快速、更准确地挖掘出网络特定内容,并且获得的内容也更加全面。
[0070] 进一步地,本发明还可以对得到的网络热点URL进行聚类、选取其中来源于特定 类型网站的URL等操作,从而能够满足用户的各种需求。
[0071] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。

【专利附图】

【附图说明】
[0072] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0073] 图1示出了本发明实施例一中的一种网络特定内容挖掘方法的步骤流程图;
[0074] 图2示出了本发明实施例二中的一种网络特定内容挖掘方法的步骤流程图;
[0075] 图3示出了本发明实施例三中的一种网络特定内容挖掘装置的结构框图;以及
[0076] 图4示出了本发明实施例四中的一种网络特定内容挖掘装置的结构框图。

【具体实施方式】
[0077] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0078] 实施例一:
[0079] 参照图1,示出了本发明实施例一中的一种网络特定内容挖掘方法的步骤流程图, 在本实施例中,网络特定内容挖掘方法可以包括以下步骤:
[0080] 步骤100,从多条浏览器日志中分别提取第一 URL和跳转自所述第一 URL的第二 URL。
[0081] 在某些网站的网页中存在很多插入URL(Universal Resource Locator,统一资源 定位符)的内容,如果用户对该URL关联的内容感兴趣,则当用户点击这些插入的URL后即 可访问该URL所指向的网页。本发明实施例中考虑到这些被插入到网站的网页中并且被点 击的URL可能为网络热点URL,因此基于这些被点击的URL进行网络特定内容的挖掘。 [0082] 浏览器可以提供日志功能,当用户在浏览器中访问某一 URL所指向的网页时,即 可以生成该访问行为相关的浏览器日志,该浏览器日志中记录有对应的访问信息,例如所 访问网页的URL等信息,根据这些访问信息即可得知用户在浏览器上的访问情况。
[0083] 对于一些装机量大的浏览器,会依据HTTP Referer (来源)记录用户的浏览日志, HTTP Referer是header的一部分(header的意思是标头,是指服务器以HTTP (HyperText Transfer Protocol,超文本传送协议)传输HTML(HyperText Mark-up Language,超文本标 记语言)资料到浏览器前所送出的字串),当浏览器向网页服务器发送请求的时候,一般会 带上Referer,告诉服务器当前是从哪个页面链接过来的,服务器籍此可以获得一些信息用 于处理。因此,本发明实施例的浏览器日志中不仅会记录当前所访问网页的URL,还可以记 录当前访问网页的URL是从哪个URL跳转过来的。装机量大的浏览器覆盖的网络流量就大, 统计出网络热点URL的偏差相对小,所以本发明实施例可以基于装机量大的浏览器日志中 所记录的这些URL进行网络特定内容的挖掘。
[0084] 首先可以获取多条浏览器日志,其中每条浏览器日志中可以包括第一 URL和跳转 自所述第一 URL的第二URL,然后从每条浏览器日志中分别提取第一 URL和跳转自所述第一 URL 的第二 URL。
[0085] 步骤102,确定与指定网站的标识信息相匹配的第一 URL。
[0086] 在从每条浏览器日志中分别提取第一 URL和跳转自所述第一 URL的第二URL后, 首先可以针对提取到的多个第一 URL,确定其中与指定网站的标识信息相匹配的第一 URL, 即确定哪些第一 URL为在指定网站上所访问的URL。
[0087] 步骤104,从跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL中筛 选来源于所述指定网站的URL。
[0088] 在上述步骤102中确定出与指定网站的标识信息相匹配的第一 URL后,获取跳转 自这些第一 URL的第二URL,然后从这些第二URL中筛选来源于所述指定网站的URL。
[0089] 步骤106,从所述来源于所述指定网站的URL中查找网络热点URL,将所述网络热 点URL对应的网页内容作为网络特定内容。
[0090] 筛选出来源于所述指定网站的URL后,可以进一步从这些来源于所述指定网站的 URL中查找网络热点URL,最后即可将查找到的网络热点URL对应的网页内容作为网络特定 内容。
[0091] 本发明实施例中对上述各个步骤进行了简单介绍,对于上述各个步骤的具体过程 将在下面的实施例二中进行详细介绍。
[0092] 本发明实施例利用浏览器日志的特点,基于浏览器日志筛选出来源于指定网站的 URL,进而从这些URL中进行网络特定内容的查找,无需再通过指定网站提供的开放API获 取,也无需再对指定网站进行爬取调度、网页解析、数据更新存储等复杂过程,因此能够更 快速、更准确地挖掘出网络特定内容,并且获得的内容也更加全面。
[0093] 实施例二:
[0094] 参照图2,示出了本发明实施例二中的一种网络特定内容挖掘方法的步骤流程图, 在本实施例中,网络特定内容挖掘方法可以包括以下步骤:
[0095] 步骤200,从多条浏览器日志中分别提取第一 URL和跳转自所述第一 URL的第二 URL。
[0096] 本发明实施例中,浏览器日志中还可以记录该日志的生成时间,因此可以依据浏 览器日志的生成时间,根据实际情况获取某一特定时间段内的多条浏览器日志,例如可以 获取某几个小时、某一天、某一周、某一月内的多条浏览器日志等,对于具体的时间段本发 明实施例并不加以限制。
[0097] 获取到浏览器日志之后,即可从每条浏览器日志中分别提取第一 URL和跳转 自所述第一 URL的第二URL。其中,第一 URL (refer_URL)即为最初访问的URL,第二 URL (current_URL)即为当前在浏览器中访问的URL,即在访问第一 URL时,该第一 URL对应 的网页中插入了上述第二URL,通过点击该第二URL即可从第一 URL跳转到第二URL。
[0098] 步骤202,确定与指定网站的标识信息相匹配的第一 URL。
[0099] 本发明实施例中,可以从某些指定网站的信息中挖掘网络特定内容,即网络热点 内容,考虑到相比传统的消息传播媒介,社交网站传播消息的速度更快,因此可以通过监控 社交网站,来获取实时网络热点内容。本发明实施例中的指定网站可以包括社交网站,该社 交网站包括以下至少之一:推特Twitter、脸谱Facebook、领英Linkedln、微博、人人网。当 然,指定网站还可以包括其他网站,本发明实施例对此并不加以限制。
[0100] 首先可以根据指定网站的标识信息,针对提取到的多个第一 URL,确定其中与指定 网站的标识信息相匹配的第一 URL,即确定哪些第一 URL为在指定网站上所访问的URL。
[0101] 在本发明的一种优选实施例中,该步骤202可以包括以下子步骤:
[0102] 子步骤al,将每个第一 URL分别与指定网站的标识信息进行匹配;
[0103] 子步骤a2,将包括所述指定网站的标识信息的第一 URL确定为与指定网站的标识 信息相匹配的第一 URL。
[0104] URL中可以包括大量的信息,URL很显著也很重要的一个特征就是通过斜线(/)来 分割字符串,每一个分割后的字符串分别表示不同的属性,例如对应的协议名称、域名、站 点名、页面名称等等。每个网站也都有特定的标识信息,例如该网站的域名等等。因此本发 明实施例中即可以将第一 URL与指定网站的标识信息进行匹配,如果第一 URL中包括所述 指定网站的标识信息,则可以确定此第一 URL为在该指定网站上所访问的URL,即确定此第 一 URL为与该指定网站的标识信息相匹配的第一 URL。
[0105] 以指定网站为微博为例,可以将微博的域名"weibo.com"作为该网站的标识信息, 将第一 URL与"weibo. com"这一字符串进行匹配,如果第一 URL中包括"weibo. com"这一 字符串,则可以确定该第一 URL为在微博上所访问的URL。当然,还可以将微博的其他信息 作为该网站的标识信息,只要根据该标识信息能够唯一确定微博这一网站即可,本发明实 施例对此并不加以限制。
[0106] 步骤204,从跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL中筛 选来源于所述指定网站的URL。
[0107] 在确定出与指定网站的标识信息相匹配的第一 URL后,可以进一步获取跳转自这 些与指定网站的标识信息相匹配的第一 URL的第二URL,然后对这些第二URL进行筛选,筛 选出来源于所述指定网站的URL。
[0108] 在本发明的一种优选实施例中,该步骤204可以包括以下子步骤:
[0109] 子步骤bl,将全部跳转自所述与指定网站的标识信息相匹配的第一 URL的第二 URL确定为来源于所述指定网站的URL。
[0110] 该种情况下,可以直接将全部跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL确定为来源于所述指定网站的URL,因此,筛选出的来源于所述指定网站的 URL可以为在该指定网站中访问的URL,也可以为在该指定网站之外的其他网站中访问的 URL。
[0111] 在本发明的另一种优选实施例中,该步骤204可以包括以下子步骤:
[0112] 子步骤cl,将每个跳转自所述与指定网站的标识信息相匹配的第一 URL的第二 URL分别与指定网站的标识信息进行匹配;
[0113] 子步骤c2,将不包括所述指定网站的标识信息的第二URL确定为来源于所述指定 网站的URL。
[0114] 该种情况下,可以进一步对全部跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL进行筛选,将其中不包括所述指定网站的标识信息的第二URL确定为来源于 所述指定网站的URL。因此,筛选出的来源于所述指定网站的URL为在该指定网站之外的其 他网站中访问的URL。
[0115] 以指定网站为微博为例,在其中的网页中所插入的URL有许多是指向其他网站 的,这些URL关联的内容可能是用户更加感兴趣的,因此可以进一步筛选出这些URL。如果 将微博的域名"weibo. com"作为该网站的标识信息,则将每个跳转自所述与指定网站的标 识信息相匹配的第一 URL的第二URL分别与"weibo. com"这一字符串进行匹配,如果第二 URL中不包括"weibo. com"这一字符串,则可以确定该第二URL为来源于所述指定网站的 URL。
[0116] 步骤206,从所述来源于所述指定网站的URL中查找网络热点URL,将所述网络热 点URL对应的网页内容作为网络特定内容。
[0117] 对这些来源于所述指定网站的URL再进一步进行分析,从其中查找网络热点URL, 然后即可将这些网络热点URL对应的网页内容作为网络特定内容,即网络热点内容。
[0118] 网络热点内容即指用户访问频率高的内容,因此在本发明的一种优选实施例中, 可以按照来源于所述指定网站的URL出现的频率确定网络热点URL,即将其中出现的频率 高的URL确定为网络热点URL。因此,该步骤206可以包括以下子步骤:
[0119] 子步骤dl,针对每个来源于所述指定网站的URL分别统计其出现的频率;
[0120] 子步骤d2,将频率大于预设阈值的所述来源于所述指定网站的URL确定为网络热 点 URL。
[0121] 对于其中的预设阈值,本领域技术人员根据实际经验进行相关设定即可,本发明 实施例对具体的数值并不加以限制。
[0122] 在查找到网络热点URL后,可以将这些网络热点URL进行展示,在展示时,可以按 照其出现的频率从高到低进行展示,还可以按照其他任意方式进行展示。
[0123] 步骤208,对所述网络热点URL进行聚类,获得至少一个URL聚类。
[0124] 本发明实施例中,在查找到网络热点URL后,还可以进一步对所述网络热点URL进 行聚类,获得至少一个URL聚类,从而将属于同一类型的内容聚集到一起。
[0125] 在本发明的一种优选实施例中,该步骤208可以包括以下子步骤:
[0126] 子步骤el,针对每个网络热点URL分别提取对应的特征信息,并采用所述特征信 息构建该网络热点URL对应的特征向量;
[0127] 子步骤e2,计算每两个网络热点URL对应的特征向量的相似度;
[0128] 子步骤e3,将相似度位于预设的相似度区间之内的特征向量对应的网络热点URL 确定为属于同一个URL聚类。
[0129] 其中,针对每个网络热点URL分别提取对应的特征信息,可以为提取网络热点URL 的标题信息、正文信息等,然后采用这些信息构建该网络热点URL对应的特征向量。向量和 向量之间存在距离,两个向量之间的距离越近,意味着这两个向量越相似,即相似度越高, 属于同一个聚类的可能性就越大。因此,即可将相似度位于预设的相似度区间之内的特征 向量对应的网络热点URL确定为属于同一个URL聚类。本领域技术人员可以根据实际经验 设置上述相似度区间的对应数值,本发明实施例对具体的数值并不加以限制。
[0130] 上述子步骤e2可以选定距离度量函数,比如:欧氏距离(Euclidean distance)、 曼哈顿距离(Manhattan distance)、余弦相似度(cosine similarity)、汉明距离(Hamming distance)、明氏距离(Minkowski distance)等,通过计算两个特征向量的距离对每两个网 络热点URL对应的特征向量进行相似度计算。
[0131] 例如,可以计算每两个特征向量之间的欧氏距离,当所述欧氏距离位于预设的第 一距离区间之内时,确定该两个特征向量的相似度位于预设的相似度区间之内;还可以计 算每两个特征向量之间的曼哈顿距离,当所述曼哈顿距离位于预设的第二距离区间之内 时,确定该两个特征向量的相似度位于预设的相似度区间之内;还可以计算每两个特征向 量的夹角的余弦值,当所述夹角的余弦值位于预设的余弦值区间之内时,确定该两个特征 向量的相似度位于预设的相似度区间之内。对于其中第一距离区间、第二距离区间和余弦 值区间的具体数值,本领域技术人员根据实际经验进行相关设定即可,本发明实施例对其 并不加以限制。
[0132] 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距 离公式。两个n维向量a(x n,X12,…,xln)与b(x21,X22,…,x 2n)间的欧氏距离为: 4' £(?.-?)2,也可以用表示成向量运算的形式^ L w u ?12 =^l(a-b)(a-b) 〇
[0133] 曼哈顿距离也称为城市街区距离。两个n维向量a(xn,X12,…,x ln)与b(x21, n X22,…,X2n)间的曼哈顿距离为:<2 = -?|。 k=i
[0134] 几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念 来衡量样本向量之间的差异。对于两个n维向量a(x n,X12,…,xln)与b(x21,X22,…, x2n),可以使用类似于夹角余弦的概念来衡量它们间的相似程度= 即 ^l=]XU'X2k cos(^)- ; 2。夹角余弦取值范围为[_i,i]。夹角余弦越大表示两个向量 的夹角越小,夹角余弦越小表示两向量的夹角越大,当两个向量的方向重合时夹角余弦取 最大值1,当两个向量的方向完全相反夹角余弦取最小值-1。对于其余距离度量函数的计 算过程,本发明实施例在此不再一一论述。
[0135] 经过聚类过程,可以将属于同一类型的内容聚集到一起。例如,在聚类前,可能有 上万条网络热点URL,但是其中很多URL的话题是相似的,如有些是讨论iphone 6发布会, 有些是讨论北京马拉松。经过聚类操作,就可以把讨论iphone 6和北京马拉松的分别聚成 一类,后续可以为编辑团队或者运营团队做实时热点、舆情/商情的专题内容提供支持。如 对2014年9月10日上午的浏览器日志,按照上述方法,分析出了多条网络热点URL,经过 聚类将其中关于iphone 6发布会的一类URL聚集到一起,例如可以包括以下3个网络热点 URL :
[0136] (I) http: //video, sina. com, cn/l/p/1688893. html
[0137] (2)http://tech, sina. com. cn/mobile/iphone6/
[0138] (3)http://live, sina. com. cn/zt/l/v/tech/iphone6 live
[0139] 步骤210,从所述网络热点URL中选取来源于预设类型网站的URL。
[0140] 本发明实施例中,在查找到网络热点URL后,还可以进一步从所述网络热点URL中 选取来源于预设类型网站的URL,从而满足用户特殊的数据需求。
[0141] 在本发明的一种优选实施例中,该步骤210可以包括以下子步骤:
[0142] 子步骤fl,将所述网络热点URL与所述预设类型网站的标识信息进行匹配;
[0143] 子步骤f2,将包括所述预设类型网站的标识信息的网络热点URL确定为来源于预 设类型网站的URL。
[0144] 其中,预设类型网站的标识信息可以为能够唯一标识该网站类型的任意字符串, 并且在该网站访问的URL中均包括该标识信息。预设类型网站包括以下至少之一:视频 网站、时事网站、非门户网站、非媒体网站、个性化定制网站。例如,可以选取来源于视频网 站的URL,只获取感兴趣的视频内容;还可以选取来源于时事网站的URL,即与时事相关的 URL(比如来自人民网、新华社等媒体的URL),这点可用于挖掘时事热点;还可以选取来源 于非门户网站且非媒体网站的URL(比如个人博客的URL),这点可用于挖掘一些热门的爆 料消息;还可以选取来源于个性化定制网站的URL,即依据个性化定制的频道或者关键词 选出相关的URL,这点可用于个性化信息的推送。当然预设类型网站还可以包括其他类型网 站,应用于其他场景,本发明实施例对此并不加以限制。
[0145] 需要说明的是,步骤208和步骤210并不限定于上述执行顺序,本发明实施例中可 以先执行步骤208再执行步骤210,也可以先执行步骤210再执行步骤208,还可以同步执 行步骤208和步骤210。
[0146] 本发明实施例中,不仅能够更快速、更准确地挖掘出更加全面的网络特定内容,还 可以进一步对得到的网络热点URL进行聚类、选取其中来源于特定类型网站的URL等操作, 从而能够满足用户的各种需求。
[0147] 需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的 动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依 据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉, 说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必需的。
[0148] 实施例三:
[0149] 参照图3,示出了本发明实施例三中的一种网络特定内容挖掘装置的结构框图。在 本实施例中,网络特定内容挖掘装置可以包括以下模块:
[0150] 提取模块300,适于从多条浏览器日志中分别提取第一 URL和跳转自所述第一 URL 的第二URL ;
[0151] 确定模块302,适于确定与指定网站的标识信息相匹配的第一 URL ;
[0152] 筛选模块304,适于从跳转自所述与指定网站的标识信息相匹配的第一 URL的第 二URL中筛选来源于所述指定网站的URL ;
[0153] 查找模块306,适于从所述来源于所述指定网站的URL中查找网络热点URL,将所 述网络热点URL对应的网页内容确定为网络特定内容。
[0154] 本发明实施例中,首先从多条浏览器日志中分别提取第一 URL和跳转自第一 URL 的第二URL ;然后确定与指定网站的标识信息相匹配的第一 URL,并从跳转自与指定网站的 标识信息相匹配的第一 URL的第二URL中筛选来源于指定网站的URL ;最后从来源于所述 指定网站的URL中查找网络热点URL,将网络热点URL对应的网页内容作为网络特定内容。 本发明实施例利用浏览器日志的特点,基于浏览器日志筛选出来源于指定网站的URL,进而 从这些URL中进行网络特定内容的查找,无需再通过指定网站提供的开放API获取,也无需 再对指定网站进行爬取调度、网页解析、数据更新存储等复杂过程,因此能够更快速、更准 确地挖掘出网络特定内容,并且获得的内容也更加全面。
[0155] 实施例四:
[0156] 参照图4,示出了本发明实施例四中的一种网络特定内容挖掘装置的结构框图。在 本实施例中,网络特定内容挖掘装置可以包括以下模块:
[0157] 提取模块400,适于从多条浏览器日志中分别提取第一 URL和跳转自所述第一 URL 的第二URL ;
[0158] 确定模块402,适于确定与指定网站的标识信息相匹配的第一 URL ;
[0159] 筛选模块404,适于从跳转自所述与指定网站的标识信息相匹配的第一 URL的第 二URL中筛选来源于所述指定网站的URL ;
[0160] 查找模块406,适于从所述来源于所述指定网站的URL中查找网络热点URLJfK 述网络热点URL对应的网页内容确定为网络特定内容;
[0161] 聚类模块408,适于对所述网络热点URL进行聚类,获得至少一个URL聚类;
[0162] 选取模块410,适于从所述网络热点URL中选取来源于预设类型网站的URL。
[0163] 优选地,所述确定模块可以包括以下子模块:
[0164] 第一匹配子模块,适于将每个第一 URL分别与指定网站的标识信息进行匹配;
[0165] 第一确定子模块,适于将包括所述指定网站的标识信息的第一 URL确定为与指定 网站的标识信息相匹配的第一 URL。
[0166] 优选地,所述筛选模块可以包括以下子模块:
[0167] 第二确定子模块,适于将全部跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL确定为来源于所述指定网站的URL。
[0168] 或者,所述筛选模块可以包括以下子模块:
[0169] 第二匹配子模块,适于将每个跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL分别与指定网站的标识信息进行匹配;
[0170] 第三确定子模块,适于将不包括所述指定网站的标识信息的第二URL确定为来源 于所述指定网站的URL。
[0171] 优选地,所述查找模块可以包括以下子模块:
[0172] 统计子模块,适于针对每个来源于所述指定网站的URL分别统计其出现的频率;
[0173] 热点确定子模块,适于将频率大于预设阈值的所述来源于所述指定网站的URL确 定为网络热点URL。
[0174] 优选地,所述聚类模块可以包括以下子模块:
[0175] 构建子模块,适于针对每个网络热点URL分别提取对应的特征信息,并采用所述 特征信息构建该网络热点URL对应的特征向量;
[0176] 计算子模块,适于计算每两个网络热点URL对应的特征向量的相似度;
[0177] 聚类确定子模块,适于将相似度位于预设的相似度区间之内的特征向量对应的网 络热点URL确定为属于同一个URL聚类。
[0178] 优选地,所述第三选取模块包括以下子模块:
[0179] 热点匹配子模块,适于将每个网络热点URL分别与所述预设类型网站的标识信息 进行匹配;
[0180] 类型确定子模块,适于将包括所述预设类型网站的标识信息的网络热点URL确定 为来源于预设类型网站的URL。
[0181] 优选地,所述指定网站包括社交网站;所述社交网站包括以下至少之一:推特 Twitter、脸谱Facebook、领英Linkedln、微博、人人网。所述预设类型网站包括以下至少之 一:视频网站、时事网站、非门户网站、非媒体网站、个性化定制网站。
[0182] 本发明实施例中,能够更快速、更准确地挖掘出更加全面的网络特定内容,并且可 以进一步对得到的网络热点URL进行聚类、选取其中来源于特定类型网站的URL等操作,从 而能够满足用户的各种需求。
[0183] 对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单, 相关之处参见方法实施例的部分说明即可。
[0184] 实施例五:
[0185] 在本实施例中,提供了一种电子设备,该电子设备中设置有上述实施例三中的网 络特定内容挖掘装置,或者,该电子设备中设置有上述实施例四中对实施例三的装置进行 了多种优化后的一种或多种网络特定内容挖掘装置。该电子设备用于实现前述方法实施例 中的网络特定内容挖掘方法,并具有相应的方法实施例的有益效果,在此不再赘述。
[0186] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。 各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求 的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种 编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发 明的最佳实施方式。
[0187] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构 和技术,以便不模糊对本说明书的理解。
[0188] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面 的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身 都作为本发明的单独实施例。
[0189] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单 元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或 子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任 何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开 的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴 随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代 特征来代替。
[0190] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可以以任意的组合方式来使用。
[0191] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行 的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网络特定内容挖掘装置 及电子设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这 里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序 产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多 个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以 任何其他形式提供。
[0192] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在 未列在权利要求中的元件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个这 样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来 实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件 项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为 名称。
[0193] 本发明公开了 A1、一种网络特定内容挖掘方法,其中包括:
[0194] 从多条浏览器日志中分别提取第一 URL和跳转自所述第一 URL的第二URL ;
[0195] 确定与指定网站的标识信息相匹配的第一 URL ;
[0196] 从跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL中筛选来源于 所述指定网站的URL ;
[0197] 从所述来源于所述指定网站的URL中查找网络热点URL,将所述网络热点URL对应 的网页内容作为网络特定内容。
[0198] A2、如Al所述的方法,其中,所述确定与指定网站的标识信息相匹配的第一URL的 步骤包括:
[0199] 将每个第一 URL分别与指定网站的标识信息进行匹配;
[0200] 将包括所述指定网站的标识信息的第一 URL确定为与指定网站的标识信息相匹 配的第一 URL。
[0201] A3、如Al所述的方法,其中,所述从跳转自所述与指定网站的标识信息相匹配的 第一 URL的第二URL中筛选来源于所述指定网站的URL的步骤包括:
[0202] 将全部跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL确定为来 源于所述指定网站的URL。
[0203] A4、如Al所述的方法,其中,所述从跳转自所述与指定网站的标识信息相匹配的 第一 URL的第二URL中筛选来源于所述指定网站的URL的步骤包括:
[0204] 将每个跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL分别与指 定网站的标识信息进行匹配;
[0205] 将不包括所述指定网站的标识信息的第二URL确定为来源于所述指定网站的 URL。
[0206] A5、如Al所述的方法,其中,所述从所述来源于所述指定网站的URL中查找网络热 点URL的步骤包括:
[0207] 针对每个来源于所述指定网站的URL分别统计其出现的频率;
[0208] 将频率大于预设阈值的所述来源于所述指定网站的URL确定为网络热点URL。
[0209] A6、如Al所述的方法,其中,还包括:
[0210] 对所述网络热点URL进行聚类,获得至少一个URL聚类。
[0211] A7、如A6所述的方法,其中,所述对所述网络热点URL进行聚类,获得至少一个URL 聚类的步骤包括:
[0212] 针对每个网络热点URL分别提取对应的特征信息,并采用所述特征信息构建该网 络热点URL对应的特征向量;
[0213] 计算每两个网络热点URL对应的特征向量的相似度;
[0214] 将相似度位于预设的相似度区间之内的特征向量对应的网络热点URL确定为属 于同一个URL聚类。
[0215] A8、如Al所述的方法,其中,还包括:
[0216] 从所述网络热点URL中选取来源于预设类型网站的URL。
[0217] A9、如A8所述的方法,其中,所述从所述网络热点URL中选取来源于预设类型网站 的URL的步骤包括:
[0218] 将所述网络热点URL与所述预设类型网站的标识信息进行匹配;
[0219] 将包括所述预设类型网站的标识信息的网络热点URL确定为来源于预设类型网 站的URL。
[0220] A10、如Al所述的方法,其中,所述指定网站包括社交网站;所述社交网站包括以 下至少之一:推特Twitter、脸谱Facebook、领英Linkedln、微博、人人网。
[0221] All、如Al所述的方法,其中,所述预设类型网站包括以下至少之一:视频网站、时 事网站、非门户网站、非媒体网站、个性化定制网站。
[0222] B12、一种网络特定内容挖掘装置,其中包括:
[0223] 提取模块,适于从多条浏览器日志中分别提取第一 URL和跳转自所述第一 URL的 第二 URL ;
[0224] 确定模块,适于确定与指定网站的标识信息相匹配的第一 URL ;
[0225] 筛选模块,适于从跳转自所述与指定网站的标识信息相匹配的第一 URL的第二 URL中筛选来源于所述指定网站的URL ;
[0226] 查找模块,适于从所述来源于所述指定网站的URL中查找网络热点URL,将所述网 络热点URL对应的网页内容确定为网络特定内容。
[0227] B13、如B12所述的装置,其中,所述确定模块包括:
[0228] 第一匹配子模块,适于将每个第一 URL分别与指定网站的标识信息进行匹配;
[0229] 第一确定子模块,适于将包括所述指定网站的标识信息的第一 URL确定为与指定 网站的标识信息相匹配的第一 URL。
[0230] B14、如B12所述的装置,其中,所述筛选模块包括:
[0231] 第二确定子模块,适于将全部跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL确定为来源于所述指定网站的URL。
[0232] B15、如B12所述的装置,其中,所述筛选模块包括:
[0233] 第二匹配子模块,适于将每个跳转自所述与指定网站的标识信息相匹配的第一 URL的第二URL分别与指定网站的标识信息进行匹配;
[0234] 第三确定子模块,适于将不包括所述指定网站的标识信息的第二URL确定为来源 于所述指定网站的URL。
[0235] B16、如B12所述的装置,其中,所述查找模块包括:
[0236] 统计子模块,适于针对每个来源于所述指定网站的URL分别统计其出现的频率;
[0237] 热点确定子模块,适于将频率大于预设阈值的所述来源于所述指定网站的URL确 定为网络热点URL。
[0238] B17、如B12所述的装置,其中,还包括:
[0239] 聚类模块,适于对所述网络热点URL进行聚类,获得至少一个URL聚类。
[0240] B18、如B17所述的装置,其中,所述聚类模块包括:
[0241] 构建子模块,适于针对每个网络热点URL分别提取对应的特征信息,并采用所述 特征信息构建该网络热点URL对应的特征向量;
[0242] 计算子模块,适于计算每两个网络热点URL对应的特征向量的相似度;
[0243] 聚类确定子模块,适于将相似度位于预设的相似度区间之内的特征向量对应的网 络热点URL确定为属于同一个URL聚类。
[0244] B19、如B12所述的装置,其中,还包括:
[0245] 选取模块,适于从所述网络热点URL中选取来源于预设类型网站的URL。
[0246] B20、如B19所述的装置,其中,所述选取模块包括:
[0247] 热点匹配子模块,适于将每个网络热点URL分别与所述预设类型网站的标识信息 进行匹配;
[0248] 类型确定子模块,适于将包括所述预设类型网站的标识信息的网络热点URL确定 为来源于预设类型网站的URL。
[0249] B21、如B12所述的装置,其中,所述指定网站包括社交网站;所述社交网站包括以 下至少之一:推特Twitter、脸谱Facebook、领英Linkedln、微博、人人网。
[0250] B22、如B12所述的装置,其中,所述预设类型网站包括以下至少之一:视频网站、 时事网站、非门户网站、非媒体网站、个性化定制网站。
[0251] C23、一种电子设备,其中,包括如B12-B22任意一项所述的网络特定内容挖掘装 置。
【权利要求】
1. 一种网络特定内容挖掘方法,其特征在于,包括: 从多条浏览器日志中分别提取第一URL和跳转自所述第一URL的第二URL; 确定与指定网站的标识信息相匹配的第一URL; 从跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL中筛选来源于所述 指定网站的URL; 从所述来源于所述指定网站的URL中查找网络热点URL,将所述网络热点URL对应的网 页内容作为网络特定内容。
2. 如权利要求1所述的方法,其特征在于,所述确定与指定网站的标识信息相匹配的 第一URL的步骤包括: 将每个第一URL分别与指定网站的标识信息进行匹配; 将包括所述指定网站的标识信息的第一URL确定为与指定网站的标识信息相匹配的 第一URL。
3. 如权利要求1所述的方法,其特征在于,所述从跳转自所述与指定网站的标识信息 相匹配的第一URL的第二URL中筛选来源于所述指定网站的URL的步骤包括: 将全部跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL确定为来源于 所述指定网站的URL。
4. 如权利要求1所述的方法,其特征在于,所述从跳转自所述与指定网站的标识信息 相匹配的第一URL的第二URL中筛选来源于所述指定网站的URL的步骤包括: 将每个跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL分别与指定网 站的标识信息进行匹配; 将不包括所述指定网站的标识信息的第二URL确定为来源于所述指定网站的URL。
5. 如权利要求1所述的方法,其特征在于,所述从所述来源于所述指定网站的URL中查 找网络热点URL的步骤包括: 针对每个来源于所述指定网站的URL分别统计其出现的频率; 将频率大于预设阈值的所述来源于所述指定网站的URL确定为网络热点URL。
6. 如权利要求1所述的方法,其特征在于,还包括: 对所述网络热点URL进行聚类,获得至少一个URL聚类。
7. 如权利要求6所述的方法,其特征在于,所述对所述网络热点URL进行聚类,获得至 少一个URL聚类的步骤包括: 针对每个网络热点URL分别提取对应的特征信息,并采用所述特征信息构建该网络热 点URL对应的特征向量; 计算每两个网络热点URL对应的特征向量的相似度; 将相似度位于预设的相似度区间之内的特征向量对应的网络热点URL确定为属于同 一个URL聚类。
8. 如权利要求1所述的方法,其特征在于,还包括: 从所述网络热点URL中选取来源于预设类型网站的URL。
9. 一种网络特定内容挖掘装置,其特征在于,包括: 提取模块,适于从多条浏览器日志中分别提取第一URL和跳转自所述第一URL的第二 URL; 确定模块,适于确定与指定网站的标识信息相匹配的第一URL; 筛选模块,适于从跳转自所述与指定网站的标识信息相匹配的第一URL的第二URL中 筛选来源于所述指定网站的URL; 查找模块,适于从所述来源于所述指定网站的URL中查找网络热点URL,将所述网络热 点URL对应的网页内容确定为网络特定内容。
10. -种电子设备,其特征在于,包括如权利要求9所述的网络特定内容挖掘装置。
【文档编号】G06F17/30GK104376066SQ201410637595
【公开日】2015年2月25日 申请日期:2014年11月5日 优先权日:2014年11月5日
【发明者】罗维 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1