量化节目观看人群属性的方法及系统的制作方法

文档序号:9708972阅读:374来源:国知局
量化节目观看人群属性的方法及系统的制作方法
【技术领域】
[0001] 本发明涉及网络视频技术领域,特别是一种量化节目观看人群属性的方法。本发 明还涉及一种量化节目观看人群属性的系统。
【背景技术】
[0002] 随着互联网的发展,网络视频技术日趋成熟,在线视频和视频广告普及,大量的广 告主开始转向在线视频网站投放广告,与在传统电视节目进行广告的投放一样,在此过程 中,广告主仍然特别在意节目观看人群的属性,比如性别、年龄、地域、兴趣爱好等,不同节 目观看人群差别很大,人群属性与广告主的目标用户属性越接近,所投放的广告会更有效 果。
[0003] 为了统计节目观看人群属性,传统的方法,是采用电话调研,询问用户观看节目情 况,用户基本信息等,然后人工录入用户属性,整理观看节目人群的属性。这种方法效率低, 能收集到的数据量少。
[0004] 在视频网站上,则采取在网页上弹出一个问卷,询问用户的基本信息,然后收集问 卷的结果的方式,理论上采用弹出问卷的方式,只要发布的问卷量足够大,就能够覆盖所有 的节目,但实际上,大规模弹出问卷,易造成用户体验差的情况,导致很多用户不会进行问 卷填写和提交,所以很难覆盖大量的媒体和受众,而且,弹出问卷的方式,视频媒体、问卷工 具都会有不菲的收费,使用起来成本较高。
[0005]目前还有一种方案是通过给用户一些奖励,从而在用户的浏览器上安装插件,并 要求用户登记自己的基本信息,由此来分析节目观看人群的属性,此方法能分析很多指标, 包括观看时间、点击行为等,由于存在系统限制、用户配合度等各种问题,这种方法能覆盖 的人群也很小,实际能统计到的数据所做出的节目观看人群属性描述数据很难说非常准 确。

【发明内容】

[0006] 有鉴于此,本发明提供了一种量化节目观看人群属性的方法及系统,通过采集分 析大量的广告曝光日志,这些日志包含了媒体信息、网址信息、cookie信息、IP信息、UA信息 等,解析网址信息得到广告所在网页中的面包肩信息,解析面包肩中的文本得到节目的信 息,以此建立节目和cookie的联系,再通过cookie对应的人群属性数据,即可将节目与人群 属性关联。根据日志中的媒体信息还能过滤出其中的在线视频媒体。IP信息能分析出用户 的地理位置,UA信息能分析出用户观看视频的设备。利用此量化节目观看人群属性的方法 及系统帮助投放广告的公司、广告代理公司从热门的在线视频节目中,挑选与期望目标人 群最接近的节目,进行在线视频广告投放,从而提高广告的效果。
[0007] 根据本发明的第一方面,本发明提供一种量化节目观看人群属性的方法,其包括 如下步骤:
[0008] 步骤S101,采集广告曝光日志;
[0009] 步骤S102,解析所述广告曝光日志获得面包肩信息;
[0010] 步骤S103,通过面包肩信息获得节目信息;
[0011] 步骤S104,将所得节目信息与人群属性信息关联;和
[0012] 步骤S105,统计所述关联的结果。
[0013] 优选地,所述广告曝光日志中包括媒体信息、网址信息、IP信息、cookie信息、和UA 信息中的多种。
[0014] 优选地,在步骤S102中,根据广告曝光日志中的媒体信息过滤出在线视频媒体的 曝光日志。
[0015] 优选地,在步骤S102中,根据广告曝光日志中记录的网址信息,利用网络爬虫抓取 网页中的面包肩。
[0016] 优选地,在步骤S103中,通过分析面包肩的文本获得节目信息。
[0017] 在本发明的一些实施方式中,在步骤S104中,根据广告曝光日志中记录的cookie 信息,利用DMP系统获得人群属性。
[0018]根据本发明的第二方面,本发明提供一种量化节目观看人群属性的系统,包括:
[0019 ]数据采集单元,包括日志采集单元和网页数据采集单元;
[0020]数据清洗单元,解析采集到的数据中的信息并清洗;
[0021 ]数据分析单元,将清洗出的数据之间建立关联;和
[0022] 数据存储单元,存储上述关联后的数据。
[0023] 优选地,数据清洗单元包括日志解析单元和面包肩清洗单元。
[0024] 在本发明的一些实施方式中,日志采集单元采集广告曝光日志;
[0025] 日志解析单元从广告曝光日志中解析出网址信息和cookie信息;
[0026] 网页数据采集单元根据解析出的网址信息启动爬虫任务,抓取网页中的面包肩;
[0027] 面包肩清洗单元对所得面包肩内容进行清洗,留下含节目信息的广告曝光日志;
[0028] 数据分析单元将从广告曝光日志中解析出的cookie信息与人群属性关联;和
[0029] 数据存储单元存储关联后的数据。
[0030] 优选地,数据清洗单元还包括媒体过滤单元。
[0031 ]在本发明的一些实施方式中,日志采集单元采集广告曝光日志;
[0032]日志解析单元从广告曝光日志解析出媒体信息、网址信息和cookie信息;
[0033]媒体过滤单元根据解析出的媒体信息过滤出在线视频媒体的曝光日志;
[0034] 面包肩采集单元针对过滤出的在线视频媒体的曝光日志,根据解析出的网址信息 启动爬虫任务,抓取网页中的面包肩;
[0035] 面包肩清洗单元对所得面包肩内容进行清洗,留下含节目信息的广告曝光日志;
[0036] 数据分析单元将从广告曝光日志中解析出的cookie信息与人群属性关联;和
[0037] 数据存储单元存储关联后的数据。
[0038]根据本发明,通过自动采集,自动处理的方式快速的对海量的广告曝光日志进行 解析,将节目信息与人群属性进行关联,从丰富的指标分析节目观看人群的属性,为广告主 和广告代理提供在线视频广告投放方案的指导,从而节约广告费用、提高广告宣传效果。
【附图说明】
[0039] 本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发 明的实施例及其描述,用来解释本发明的原理。在附图中,
[0040] 图1是示意地表示本发明涉及的一些实施方式的系统构成的框图。
[0041 ]图2是示意地表示使用本发明的量化节目观看人群属性系统的工作流程图。
【具体实施方式】
[0042]在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然 而,对于本领域技术人员来说显而易见的是,本发明可以无需一个或多个这些细节而得以 实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进 行描述。
[0043]本文中所用的术语
[0044]人群属性一一是指某个人群的用户属性,包括年龄、性别、收入水平、教育水平、婚 姻状况、兴趣爱好等。
[0045] 面包肩一一面包肩导航(或称为面包肩路径)是一种显示用户在网站或网络应用 中的位置的一层层指引的导航。在互联网中,面包肩为用户提供一种追踪返回最初访问页 面的方式,可以清晰的为用户指引进入网站内部和首页之间的路线。最简化的方式是,面包 肩就是水平排列的被大于号"〉"隔开的文本链接,这个符号指示该页面相对于链接到它的 页面的深度。
[0046] DMP--DMP(Data_Management Platform)数据管理平台,是把分散的第一、第三 方数据进行整合纳入统一的技术平台,并对这些数据进行标准化和细分,让用户可以把这 些细分结果推向现有的互动营销环境里。在本发明中,DMP是整合了大量cookie信息的DMP, 尤其是整合了在线视频网站的cookiefg息的DMP。
[0047] cookie--指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地 终端上的数据(通常经过加密)。
[0048] UA一一用户代理User Agent,是指浏览器,它的信息包括硬件平台、系统软件、应 用软件和用户个人偏好。
[0049] 节目一一本文中的节目指在线视频网站播出的视频项目,包括但不限于电影、电 视剧、动画片、综艺节目、体育节目、MTV等。在一些情况下,也包括音频或其他可通过互联网 传播的项目。
[0050] 数据清洗一一数据清洗(Data Cleaning)是指发现并纠正数据文件中可识别的错 误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。在本发明中,数据清洗 还包括根据需要过滤出有效数据,例如根据媒体来源过滤出来自在线媒体的广告曝光日 志,根据面包肩文本过滤出涉及节目的广告曝光日志等。
[0051] 以下结合附图1说明本发明的量化节目观看人群属性系统的构成。
[0052]图1是示意地表示本发明涉及的一些实施方式的系统构成的框图。
[0053]如图1所示,量化节目观看人群属性系统1(以下简称系统1)对广告曝光日志进行 处理,分析日志将节目信息与人群属性进行关联,用于量化节目观看人群属性。
[0054]系统1包括:数据采集单元100,数据整理单元200,数据分析单元300,数据存储单 元400。
[0055] 数据采集单元100,通过自动的采集的方式,获取需采集的数据,其包括:日志采集 单元101
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1