基于cdn的网页内容感知系统及方法_3

文档序号:8223494阅读:来源:国知局
cy, IDF)是一个词语普遍重要性的度量。某一词语的IDF,可以由语料库中的总文件数除以包含该词语之文件的数目,再将得到的商取对数得到。一个词语在某一文件内的高频率,以及该词语在整个语料库文件集中的低文件频率,可以产生出高权重的TF-1DF。因此,TF-1DF倾向于保留文档中较为特别的词语,而过滤常用词。另外,TF-1DF并没有考虑到词语的位置信息,对于Web文档而言,权重的计算应该体现出HTML的结构特征。词语在不同的标记符中对文章内容的反应程度不同,其权重贡献的大小也是不同的。
[0050]基于以上描述,对经网页结构过滤后的部分以及各标签进行网页内容感知,同时在TF-1DF的基础上,对于不同的标签赋予不同的权重,综合计算出该网页中特征词的贡献权重,作为感知的结果。
[0051]具体的,对经过网页结构过滤后的主要部分以及各标签首先进行分词处理,得出文档的分词结构,去掉介词、连词、感叹词和虚词等对表达文档主题没有帮助的词语,以TF-1DF为基础,并结合针对标签的不同权重,综合计算出剩下词语的权重,将超过预设阀值的词作为代表了网页的内容的特征词。
[0052]进一步地,在本发明的一个实施例中,处理模块30还包括:预测模块38。预测模块38用于通过对上述特征词进行统计处理以获取热点内容。即内容挖掘部分(MiningBolt)还可对内容感知模块36的内容进行进一步深度利用。在实时感知网页内容的同时,CDN服务提供商对与所述特征词相关的全网数据进行统计处理,提供实时结果(RealTimeResult),如提供包括实时频道排行,实时新闻排行、实时话题排行、最热访问页面、受访升降榜及访客分布地区等内容。根据实时统计结果,CDN服务提供商可根据实时统计的结果,在传统的用户就近性和服务负载机制的基础上,将感知到的热点内容提前部署到相关节点上,这样就进一步降低了用户访问热点资源时的时延。上述过程中得到的一些有用数据,还可存储到数据库(DataBase)中供后续分析使用。
[0053]根据本发明实施例的基于CDN的网页内容感知系统,通过数据获取单元实时地获取日志数据,处理模块从日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词,解决了不同互联网提供商间的页面结构的差异化问题,通用性强,从而提高了本发明实施例的基于CDN的网页内容感知系统的可靠性、可用性和扩展性。
[0054]本发明第二方面的实施例中提出一种基于CDN的网页内容感知方法,如图4所示,包括以下步骤:采集日志数据;从日志数据中提取出URL及相关参数;根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL对应的网页的页面结构进行分析以感知网页的特征词。具体实现过程如下:
[0055]步骤SI,采集日志数据。
[0056]具体地,在本发明的一个实施例中,利用分布式消息队列方式采集日志数据。例如图2的LinkedIn的基于kafka的日志采集及处理逻辑结构图所示,Kafka中主要有三种角色,分别为 producer,broker 和 consumer。
[0057](I) Producer
[0058]Producer即为采集日志部分,这些分布式日志采集节点将采集到的海量日志数据推送到Broker中。
[0059](2) Broker
[0060]Broker采取了多种策略提高数据处理效率,包括sendfile和zero copy等技术。为了降低I/O压力,Broker也是分布式部署的,
[0061](3) Consumer
[0062]Consumer为不同的功能处理节点,他们将从Broker中抽取需要的日志进行下一步处理
[0063]在本发明的实施例中,通过这种分布式加载机制来统一线上和离线的消息处理过程,这样既满足了系统100的分布式架构,又保证了 CDN服务的高效性。
[0064]步骤S2,从日志数据中提取出URL及相关参数。
[0065]在本发明的一个实施例中,结合图2和图3,采用基于正则表达式的方法对从Broker中抽取出的日志数据进行预处理,即Spout部分不断提供日志数据源,Log-To-RawData部分从Spout中获取日志数据源,并提取日志数据中的访问IP,访问时间和URL等信息,完成对原始的日志数据的预处理。
[0066]进一步地,由于日志数据中可能包含一些无用网页或者仅仅是设备间的通信信息,为了提高有效性,Log-To-RawData部分需对获取的URL进行过滤。各个网站的目录结构不同,但对于同一网站,URL的层级结构是相似的。以新华网为例,其格式为http://news.xinhuanet.com/频道/年-月/日/c_ID.htm,根据存储的预定URL进行过滤,即根据互联网内容提供商的URL的具体结构,便可基于正则表达式对原始日志数据源进行有效过滤,把无用的网页过滤掉,从上述URL中筛选出目的URL。
[0067]步骤S3,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL对应的网页的页面结构进行分析以感知网页的特征词。
[0068]进一步地,在本发明的一个实施例中根据步骤S2获取的目的URL对应的网页中挖掘出预定URL对应的预定页面结构。根据预定页面结构对目的URL的页面结构进行分析以获取需要感知的内容块。
[0069]在对日志数据进行预处理以后,便可获取目的URL指向的网页页面。此时,通过步骤S2处理得到的Web content即被用于网页内容感知,Raw-To-SematicData完成了从页面内容到特征词提取的工作,如下所述。
[0070]目前的大多数网页一般都分为正文区、相关链接区和噪音区,如广告、装饰及导航信息等。由于CDN服务提供商掌握着其代理的互联网内容服务提供商的预定URL及其结构,这样CDN服务提供商便可在感知网页内容之前首先根据预定URL(目的URL)确定该网页的来源。选取曾经感知过的特定内容提供商网页集为训练集,挖掘出某一互联网内容提供商的预定页面结构。基于这样的方法,CDN服务提供商便可掌握其代理的各互联网内容提供商的预定页面结构。这样就克服了前面所描述的互联网内容提供商间页面结构多样无法统一感知的问题。对于特定内容提供商进行特定的页面结构挖掘,提高了页面结构感知准确率。
[0071]在对以往感知过的页面结构进行充分的学习后,便可得到面向不同互联网内容服务提供商特定的页面结构分类器。这样,当获得一个新的页面结构分析请求时,首先便可根据其URL确定具体的互联网内容提供商,然后使用对该内容提供商的训练得到的分类器对该页面进行页面结构分析。从而清洗掉其中的如导航信息、广告信息、版权信息和其他与主题内容无关的信息,保留主要需要感知的内容块。针对不同的互联网内容提供商有针对性的挖掘其网页结构,过滤其中与主题无关的噪音部分,仅对过滤后的主要内容进行感知,这样就提高了网页内容感知的准确率和效率。
[0072]进一步地,从上述内容块中感知出用于描述网页的特征词。在进行网页内容感知时,采用经典的TF-1DF算法获取描述该网页的特征词。在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长文
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1