基于cdn的网页内容感知系统及方法_4

文档序号：8223494阅读：来源：国知局

件(同一个词语在长文件里可能会比短文件有更高的词频，而不管词语重要与否)。逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一词语的IDF，可以由语料库中的总文件数除以包含该词语之文件的数目，再将得到的商取对数得到。一个词语在某一文件内的高频率，以及该词语在整个语料库文件集中的低文件频率，可以产生出高权重的TF-1DF。因此，TF-1DF倾向于保留文档中较为特别的词语，而过滤常用词。另外，TF-1DF并没有考虑到词语的位置信息，对于Web文档而言，权重的计算应该体现出HTML的结构特征。词语在不同的标记符中对文章内容的反应程度不同，其权重贡献的大小也是不同的。
[0073]基于以上描述，对经网页结构过滤后的部分以及各标签进行网页内容感知，同时在TF-1DF的基础上，对于不同的标签赋予不同的权重，综合计算出该网页中特征词的贡献权重，作为感知的结果。
[0074]具体的，对经过网页结构过滤后的主要部分以及各标签首先进行分词处理，得出文档的分词结构，去掉介词、连词、感叹词和虚词等对表达文档主题没有帮助的词语，以TF-1DF为基础，并结合针对标签的不同权重，综合计算出剩下词语的权重，将超过预设阀值的词作为代表了网页的内容的特征词。
[0075]进一步地，内容挖掘部分(Mining Bolt)还可对网页内容感知部分的内容进行进一步深度利用。通过对上述特征词进行统计处理以获取热点内容。在实时感知网页内容的同时，CDN服务提供商对与特征词相关的全网数据进行统计处理，提供实时结果(Real TimeResult)，如提供包括实时频道排行，实时新闻排行、实时话题排行、最热访问页面、受访升降榜及访客分布地区等内容。根据实时统计结果，CDN服务提供商可根据实时统计的结果，在传统的用户就近性和服务负载机制的基础上，将感知到的热点内容提前部署到相关节点上，这样就进一步降低了用户访问热点资源时的时延。上述过程中得到的一些有用数据，还可存储到数据库(DataBase)中供后续分析使用。
[0076]根据本发明实施例的基于CDN的网页内容感知方法，从获取的日志数据中提取出URL及相关参数，根据预定URL从URL中筛选出目的URL，并根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词，解决了不同互联网提供商间的页面结构的差异化问题，通用性强，从而提高了本发明实施例的基于CDN的网页内容感知系统的可靠性、可用性和扩展性。
[0077]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0078]尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1.一种基于⑶N的网页内容感知系统，其特征在于，包括: 数据获取模块，所述数据获取模块用于采集日志数据；数据管理模块，所述数据管理模块包括第一存储模块，所述第一存储模块存储有索引表，所述索引表包括特征互联网内容提供商的预定URL (uniform resource locator)及预定URL对应的网页的预定页面结构；处理模块，所述处理模块从所述日志数据中提取出URL及相关参数，根据所述预定URL从所述URL中筛选出目的URL，并根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词；以及控制器，用于控制所述数据获取模块采集日志数据，并控制所述处理模块从所述日志数据中提取出所述URL及相关参数；所述控制器，还用于控制所述处理模块根据所述预定URL从所述URL中筛选出目的URL,以及控制所述处理模块根据所述预定页面结构对所述目的URL的页面结构进行分析以感知所述网页的特征词。
2.如权利要求1所述的系统，其特征在于，所述处理模块包括: 预处理模块，用于从所述日志数据中提取出URL及相关参数，并根据所述预定URL从所述URL中筛选出目的URL ；结构分析模块，用于根据所述预定页面结构对所述目的URL的页面结构进行分析以获取需要感知的内容块；及内容感知模块，用于从所述内容块中感知出用于描述所述网页的特征词。
3.如权利要求1或2所述的系统，其特征在于，所述数据管理模块还包括: 第二存储模块，用于存储所述目的URL的网页，所述控制器还用于控制所述第二控制器存储所述目的URL的网页；及挖掘模块，用于从所述目的URL对应的网页中挖掘出所述目的URL的网页对应的所述预定页面结构。
4.如权利要求1-3任意一项所述的系统，其特征在于，所述处理模块还包括: 预测模块，用于通过对所述特征词进行统计处理以获取热点内容。
5.如权利要求1所述的系统，其特征在于，所述数据获取模块利用分布式消息队列方式采集日志数据。
6.如权利要求2所述的方法，其特征在于，所述预处理模块基于正则表达式的方法从所述日志数据中提取出URL及相关参数。
7.一种基于CDN的网页内容感知方法，其特征在于，包括以下步骤: 采集日志数据；从所述日志数据中提取出URL及相关参数；根据预定URL从所述URL中筛选出目的URL，并根据预定页面结构对所述目的URL对应的网页的页面结构进行分析以感知所述网页的特征词。
8.如权利要求7所述的方法，其特征在于，还包括: 通过对所述特征词进行统计处理以获取热点内容。
9.如权利要求7或8所述的方法，其特征在于，利用分布式消息队列方式采集日志数据。
10.如权利要求7所述的方法，其特征在于，基于正则表达式的方法从所述日志数据中提取出URL及相关参数。
【专利摘要】本发明提出一种基于CDN的网页内容感知系统包括数据获取模块、数据管理模块、处理模块和控制器。数据获取模块用于采集日志数据。数据管理模块包括第一存储模块，第一存储模块存储有索引表，索引表包括特定互联网内容提供商的预定URL及其对应的预定页面结构。控制器用于控制数据获取模块采集日志数据，并控制处理模块从日志数据中提取出URL及相关参数；控制器还用于控制处理模块根据预定URL从URL中筛选出目的URL，以及控制处理模块根据预定页面结构对目的URL的页面结构进行分析以感知网页的特征词。本发明的基于CDN的网页内容感知系统具有全面的、实时性高、通用性强的特点。本发明还提出一种基于CDN的网页内容感知方法。
【IPC分类】G06F17-30
【公开号】CN104536972
【申请号】CN201410727791
【发明人】鄂海红, 宋美娜, 郑聪, 王赟, 李川, 潘昊, 宋俊德
【申请人】北京邮电大学, 博元森禾信息科技（北京）有限公司
【公开日】2015年4月22日
【申请日】2014年12月3日

完整全部详细技术资料下载

当前第4页1 2 3 4