基于cdn的网页内容感知系统及方法_2

文档序号:8223494阅读:来源:国知局
”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0027]在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
[0028]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0029]参见图1,本发明实施例的基于⑶N的网页内容感知系统100包括:数据获取模块
10、数据管理模块20、处理模块30和控制器40。
[0030]数据获取模块10用于采集日志数据。数据管理模块20包括第一存储模块22。第一存储模块22存储有索引表,索引表包括特定互联网内容提供商的预定URL(uniformresource locator)及预定URL对应的预定页面结构。处理模块30从日志数据中提取出URL及相关参数,根据预定URL从URL中筛选出目的URL,并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词。控制器40用于控制数据获取模块10采集日志数据,并控制处理模块30从日志数据中提取出URL及相关参数,还用于控制处理模块30根据预定URL从URL中筛选出目的URL,以及控制处理模块30根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词。
[0031]具体地,在本发明的一个实施例中,数据获取模块10利用分布式消息队列方式采集日志数据。例如图2的LinkedIn的基于kafka的日志采集及处理逻辑结构图所示,Kafka中主要有三种角色,分别为producer,broker和 consumer。
[0032](I) Producer
[0033]Producer即为采集日志部分,这些分布式日志采集节点将采集到的海量日志数据推送到Broker中。
[0034](2) Broker
[0035]Broker采取了多种策略提高数据处理效率,包括sendfile和zero copy等技术。为了降低I/O压力,Broker也是分布式部署的,
[0036](3) Consumer
[0037]Consumer为不同的功能处理节点,他们将从Broker中抽取需要的日志进行下一步处理
[0038]在本发明的实施例中,通过这种分布式加载机制来统一线上和离线的消息处理过程,这样既满足了系统100的分布式架构,又保证了 CDN服务的高效性。
[0039]在本发明的一个实施例中,处理模块30包括:预处理模块32、结构分析模块34和内容感知模块36。结合图3,具体介绍处理模块30完成的功能。
[0040](I)预处理模块32用于从数据获取模块10获取的日志数据中提取出URL及相关参数。在本发明的一个实施例中,结合图2,采用基于正则表达式的方法对从Broker中抽取出的日志数据进行预处理,即Spout部分不断提供日志数据源,Log-To-RawData部分从Spout中获取日志数据源,并提取日志数据中的访问IP,访问时间和URL等信息,完成对原始的日志数据的预处理。
[0041]进一步地,由于日志数据中可能包含一些无用网页或者仅仅是设备间的通信信息,为了提高有效性,Log-To-RawData部分需对获取的URL进行过滤。各个网站的目录结构不同,但对于同一网站,URL的层级结构是相似的。以新华网为例,其格式为http://news.xinhuanet.com/频道/年-月/日/c_ID.htm,预处理模块32根据第一存储模块22存储的预定URL进行过滤,即根据互联网内容提供商的URL的具体结构,便可基于正则表达式对原始日志数据源进行有效过滤,把无用的网页过滤掉,从上述URL中筛选出目的URL。
[0042]进一步地,在本发明的一个实施例中,数据管理模块20还包括:第二存储模块24和挖掘模块26。
[0043]第二存储模块24用于存储预处理模块32获取的目的URL的网页,控制器40还用于控制第二存储模块24存储目的URL的网页。例如,第二存储模块24采用Had00p、Mysql等数据库存储目的URL的网页。挖掘模块26用于从目的URL对应的网页中挖掘出预定URL对应的预定页面结构。第一存储模块22将预定URL及预定URL对应的网页的预定页面结构存储在索引表中。
[0044](2)结构分析模块34用于根据预定页面结构对目的URL的页面结构进行分析以获取需要感知的内容块。
[0045]在对日志数据进行预处理以后,便可获取目的URL指向的网页页面。此时,通过预处理模块32得到的Web content即被用于网页内容感知,Raw-To-SematicData完成了从页面内容到特征词提取的工作,如下所述。
[0046]目前的大多数网页一般都分为正文区、相关链接区和噪音区,如广告、装饰及导航信息等。由于CDN服务提供商掌握着其代理的互联网内容服务提供商的预定URL及其结构,这样CDN服务提供商便可在感知网页内容之前首先根据预定URL(目的URL)确定该网页的来源。选取曾经感知过的特定内容提供商网页集为训练集,挖掘出某一互联网内容提供商的预定页面结构。基于这样的方法,CDN服务提供商便可掌握其代理的各互联网内容提供商的预定页面结构。这样就克服了前面所描述的互联网内容提供商间页面结构多样无法统一感知的问题。对于特定内容提供商进行特定的页面结构挖掘,提高了页面结构感知准确率。
[0047]在对以往感知过的页面结构进行充分的学习后,便可得到面向不同互联网内容服务提供商特定的页面结构分类器。这样,当获得一个新的页面结构分析请求时,首先便可根据其URL确定具体的互联网内容提供商,然后使用对该内容提供商的训练得到的分类器对该页面进行页面结构分析。从而清洗掉其中的如导航信息、广告信息、版权信息和其他与主题内容无关的信息,保留主要需要感知的内容块,以供下面内容感知模块36使用。针对不同的互联网内容提供商有针对性的挖掘其网页结构,过滤其中与主题无关的噪音部分,仅对过滤后的主要内容进行感知,这样就提高了网页内容感知的准确率和效率。
[0048](3)内容感知模块36用于从上述内容块中感知出用于描述网页的特征词。
[0049]在进行网页内容感知时,采用经典的TF-1DF算法获取描述该网页的特征词。在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管词语重要与否)。逆向文件频率(inverse documentfrequen
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1