一种影视大数据采集方法及系统与流程

文档序号:11139346阅读:2299来源:国知局
一种影视大数据采集方法及系统与制造工艺

本发明涉及信息技术领域,具体涉及一种影视大数据的采集方法及采集系统。



背景技术:

随着云计算和大数据的发展,越老越多的用户选择在多种终端上观看影视作品,所以越来越多的影视公司需要通过影视大数据信息来分析用户的各种情况以开发生产新的影视内容来满足市场的需求。

现有的影视大数据采集一般采用的是网络爬虫技术和图像识别技术。网络爬虫技术是一种按照一定的规则,在互联网上自动智能获取网页信息的程序,利用网络爬虫技术可以对影视相关网站上的信息进行采集;图像识别技术是指利用计算机对电视图像进行分析、处理和理解,以识别图像中所需要的信息。

现有的网络爬虫技术,由于各大网站对于爬虫程序的限定,导致爬虫无法对于海量的网页数据进行快速高效的抓取;而现有的图像识别技术,只能在图片质量比较出色且没有扭曲的情况下才能工作得很好,而很多图片由于光线、所处的位置等诸多原因,无法获得质量合格的图像,导致无法进行图像识别。



技术实现要素:

本发明的目的在于提供一种影视大数据采集方法及系统,该采集系统能够同时在互联网端和电视端进行影视大数据采集,并且针对互联网端和电视端现状,都能很好的进行数据采集,数据采集精准、速度快。

为实现上述目的本发明提供了一种影视大数据采集方法,通过在电视终端设置电视数据采集模块,在互联网终端上设置互联网数据采集模块,将电视终端和互联网终端的影视数据采集至数据采集服务器。

所述电视数据采集模块采集的数据为电视截屏、台标信息等电视影视数据。

所述互联网数据采集模块采集的数据为用户观看行为、视频信息、影视相关的新闻和娱乐等互联网影视数据。

所述的电视数据采集模块采集数据的方法为:电视数据采集模块调用电视终端提供的程序接口,在用户开机并处于直播观看状态时对用户的电视屏幕进行截屏,分析截屏得到的图像的颜色和坐标值,对颜色和坐标值进行检索;通过检索的结果判断电视台台标所在位置,并对截屏得到的图像的此位置进行截取并保存成台标图片;将台标图片通过网络传输至大数据平台。

所述的互联网数据采集模块采集数据的方法为:通过设置采用ssh协议进行通信的master节点与slave节点,master节点控制slave节点进行数据采集,master节点与数据采集服务器通信。

所述的master节点控制slave节点进行数据采集的方法为:master节点首先和所有slave节点进行连接并获取各slave节点中的爬虫进程数,然后选取一个当前进程数小于阈值并且在所有slave节点中进程数最少的slave节点分配数据采集任务。

所述的slave节点在进行数据采集任务时,在多个IP和多个UA信息间进行随机切换。IP和UA的数量取决于所需要采集网站的限制。

所述的slave节点在进行数据采集任务时,会启动一个spider进程对分配的网页进行访问,此进程采用http或https的网络协议获取网页内容,并依据网页中所需元素的xpath位置进行数据采集。

一种影视大数据采集系统,包括数据采集服务器、互联网数据采集模块、电视数据采集模块;数据采集服务器通过互联网与互联网数据采集模块通信,数据采集服务器通过电视网与电视数据采集模块通信。

本发明与现有技术相比,具有以下优点及有益的效果:电视数据采集模块针对不同的型号性能的电视终端均能高效的获得电视影视数据,并且数据采集方式简单,快速精准;互联网数据采集模块能够突破现有网站的限制,针对海量的网页数据进行快速高效的抓取。

附图说明

图1是本发明实施例1的效果图;

图2是本发明实施例2的效果图。

具体实施方式

以下是本发明的具体实施例,对本发明的技术方案做进一步的描述,但是本发明的保护范围并不限于这些实施例。凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。

实施例1

一种影视大数据采集方法,通过在电视终端设置电视数据采集模块,在互联网终端上设置互联网数据采集模块,将电视终端和互联网终端的影视数据采集至数据采集服务器。

电视数据采集模块采集的数据为电视截屏、台标信息等电视影视数据。

互联网数据采集模块采集的数据为用户观看行为、视频信息、影视相关的新闻和娱乐等互联网影视数据。

电视数据采集模块采集数据的方法为:电视数据采集模块调用电视终端提供的程序接口,在用户开机并处于直播观看状态时对用户的电视屏幕进行截屏,分析截屏得到的图像的颜色和坐标值,对颜色和坐标值进行检索;通过检索的结果判断电视台台标所在位置,并对截屏得到的图像的此位置进行截取并保存成台标图片;将台标图片通过网络传输至大数据平台。

互联网数据采集模块采集数据的方法为:通过设置采用ssh协议进行通信的master节点与slave节点,master节点控制slave节点进行数据采集,master节点与数据采集服务器通信。

master节点控制slave节点进行数据采集的方法为:master节点首先和所有slave节点进行连接并获取各slave节点中的爬虫进程数,然后选取一个当前进程数小于阈值并且在所有slave节点中进程数最少的slave节点分配数据采集任务。

slave节点在进行数据采集任务时,在多个IP和多个UA信息间进行随机切换。IP和UA的数量取决于所需要采集网站的限制。

slave节点在进行数据采集任务时,会启动一个spider进程对分配的网页进行访问,此进程采用http或https的网络协议获取网页内容,并依据网页中所需元素的xpath位置进行数据采集。

一种影视大数据采集系统,包括数据采集服务器、互联网数据采集模块、电视数据采集模块;数据采集服务器通过互联网与互联网数据采集模块通信,数据采集服务器通过电视网与电视数据采集模块通信。

实施例2

一种影视大数据采集系统,包括数据采集服务器和电视数据采集模块;数据采集服务器通过电视网与电视数据采集模块通信,如图1所示。

一种影视大数据采集方法,首先将电视数据采集模块安装到智能电视终端,将电视数据采集模块电视网连接到数据采集服务器,电视数据采集模块调用电视终端所提供的程序接口,在用户开机并处于直播观看状态时对用户的电视屏幕进行左上角截屏,并对截屏后的图像进行解析,解析时会分析图像的各个特征值,对这些特征值进行检索,通过检索的结果判断电视台台标所在位置,并对此位置进行截取并保存成图片形式,将这些图片通过网络传输至台标识别服务器,台标识别服务器上保存了一个台标样本库,这个样本库中涵盖了所有电视台的台标样本,将获取的台标图片和这个样本库进行高效地匹配,获取到用户所观看的电视台信息及用户所观看的节目信息、电视台信息、终端信息等;实施例3

一种影视大数据采集系统,包括数据采集服务器和互联网数据采集模块;数据采集服务器通过互联网与互联网数据采集模块通信,如图2所示。

一种影视大数据采集方法,通过设置采用ssh协议进行通信的master节点与slave节点,master节点控制slave节点进行数据采集,master节点与数据采集服务器通信。部署影视大数据采集系统时,启用IP代理并加入随机UA,爬虫服务器5台,其中一台为master节点,4台为slave节点,爬虫服务器上保存了上述网站的URL,在抓取任务开始时,会将这些抓取的URL和抓取任务下发至4台slave节点,下发时会针对每台slave的负载情况进行动态调整,例如其中一台slave的负载较高,抓取任务较重,此时master会把即将下发至这台slave的任务转移一部分至其他负载较低的slave上。Slave节点在抓取时会随机切换自己的IP地址和UA信息,以防止抓取任务被某些网站禁止。主要抓取主流视频网站中用户的观看行为和视频信息,如用户观看了哪些影片、这些影片在网络上的点播量、影片的基本信息(如主演、导演、编剧等)、用户的基本信息(如性别、年龄等);二是影视相关的新闻和娱乐数据,如某一部影片从上映以来的在网络中点击率最高的前10条新闻以及用户在观看这部影片之后的相关评论等。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1