基于cdn的网页内容感知系统及方法

文档序号:8223494阅读:222来源:国知局
基于cdn的网页内容感知系统及方法
【技术领域】
[0001]本发明涉及计算机技术领域,尤其涉及一种基于CDN的网页内容感知系统及方法。
【背景技术】
[0002]内容分发网络(content distribut1n network,CDN)是指一种通过互联网互相连接的计算机网络系统,CDN节点服务器设置在多个地点、多个不同的网络上。这些节点之间会动态的互相传输内容,优化用户的下载行为,并借此减少内容供应者所需要的带宽成本,改善用户的下载速度,提升用户上网体验,提高系统稳定性。CDN网络虽然具有丰富的大数据样本空间,但其对“网页”这一内容节点感知的信息维度较少,尚不能充分挖掘出隐藏在大数据内容背后更多的价值。
[0003]不同于⑶N服务提供商,单一互联网公司掌握着自身网页节点的全局信息。若能综合多个数据源,挖掘全网网页节点的深层信息,深度感知网页内容,便能构建起以“网页内容节点”为视角的网络世界评估体系。
[0004]对于网页内容感知已有很多相关研宄,目前比较常用的方法是首先对网页进行基于HTML或XML或DOM的结构化分析,然后再根据信息在网页上的具体位置将信息从网页中抽取出来。还有基于视觉的分块方法,该方法采用视觉信息对网页进行分块,进而提取网页内容。但是由于不同公司或机构的开发要求以及开发人员的习惯不同,不同公司间的页面结构往往存在很大的差异,即使在网页内容展示效果差距不大、开发语言相同的前提下,在编码方式等方面也存在巨大差异,所以对于需要先进行页面结构分析再进行网页内容提取的方案,通用性较差并且对于海量网页数据缺乏高时效性。基于视觉进行分块的方法通常对于网页的分块太过硬性,灵活度较差。对于面向搜索引擎的网页内容提取方案,多为仅提取正文及标题内容,并没有进一步的深度分析及处理,缺乏对于网页内容深度、全面的感知。

【发明内容】

[0005]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一方面的目的在于提出一种具有全面的、实时性高、通用性强的基于CDN的网页内容感知系统。
[0006]本发明第二方面的目的在于提出一种基于⑶N的网页内容感知方法。
[0007]为了实现上述目的,本发明第一方面实施例的基于⑶N的网页内容感知系统包括数据获取模块、数据管理模块、处理模块和控制器。数据获取模块用于采集日志数据。。所述数据管理模块包括第一存储模块,所述第一存储模块存储有索引表,所述索引表包括特定互联网内容提供商的预定URL (uniform resource locator)及预定URL对应的预定页面结构。所述处理模块从所述日志数据中提取出URL及相关参数,根据所述预定URL从所述URL中筛选出目的URL,并根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。控制器用于控制所述数据获取模块采集日志数据,并控制所述处理模块从所述日志数据中提取出URL及相关参数;所述控制器,还用于控制所述处理模块根据所述预定URL从所述URL中筛选出目的URL,以及控制所述处理模块根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。
[0008]根据本发明实施例的基于CDN的网页内容感知系统,通过数据获取单元实时地获取日志数据,处理模块从日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词,解决了不同互联网提供商间的页面结构的差异化问题,通用性强,从而提高了本发明实施例的基于CDN的网页内容感知系统的可靠性、可用性和扩展性。
[0009]在一些示例中,所述处理模块包括预处理模块、结构分析模块和内容感知模块。预处理模块用于从所述日志数据中提取出URL及相关参数,并根据所述预定URL从所述URL中筛选出目的URL。结构分析模块用于根据所述预定页面结构对所述目的URL的页面结构进行分析以获取需要感知的内容块。内容感知模块用于从所述内容块中感知出用于描述所述网页的特征词。
[0010]在一些示例中,所述数据管理模块还包括:第二存储模块和挖掘模块。第二存储模块用于存储所述目的URL的网页,所述处理模块还用于控制所述第二控制器存储所述目的URL的网页。挖掘模块用于从所述目的URL的网页中挖掘出所述预定的页面结构。
[0011 ] 在一些示例中,所述处理模块还包括预测模块。预测模块用于通过对所述特征词进行统计处理以获取热点内容。
[0012]在一些示例中,所述数据获取模块利用分布式消息队列方式采集日志数据。
[0013]在一些示例中,所述预处理模块基于正则表达式的方法从所述日志数据中提取出URL及相关参数。
[0014]本发明第二方面实施例的基于⑶N的网页内容感知方法,包括以下步骤:采集日志数据;从所述日志数据中提取出URL及相关参数;根据预定URL从所述URL中筛选出目的URL,并根据预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。
[0015]根据本发明实施例的基于CDN的网页内容感知方法,从获取的日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词,解决了不同互联网提供商间的页面结构的差异化问题,通用性强,从而提高了本发明实施例的基于CDN的网页内容感知系统的可靠性、可用性和扩展性。
[0016]在一些示例中,还包括:通过对所述特征词进行统计处理以获取热点内容。
[0017]在一些示例中,利用分布式消息队列方式采集日志数据。
[0018]在一些示例中,基于正则表达式的方法从所述日志数据中提取出URL及相关参数。
[0019]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0020]图1是根据本发明一个实施例的基于CDN的网页内容感知系统的结构框图;
[0021]图2是本发明一个实施例的采集日志消息队列的逻辑结构图;
[0022]图3是本发明一个实施例的处理模块工作过程示意图;和
[0023]图4是根据本发明一个实施例的基于CDN的网页内容感知方法的流程图。
【具体实施方式】
[0024]在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0025]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0026]在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1