一种可用于iptv全数据分析的系统架构的制作方法

文档序号:7686039阅读:325来源:国知局

专利名称::一种可用于iptv全数据分析的系统架构的制作方法
技术领域
:本发明涉及通讯,互联网和电视领域,尤其涉及IP网络电视上的全数据分析的系统架构的设计方案。
背景技术
:IPTV作为近几年全球迅猛发展的一种新兴业务,其集IP和TV技术的大成于一身,不仅为电视业务重新诠释了内涵,而且为IP技术的发展重新找到了基于应用的原动力。与传统的通过无线或同轴电缆播出电视节目不同,IPTV系统通过宽带IP网络直接向顾客提供高质量的电视节目和视频内容,其本质是一个多媒体,多业务的服务平台,它融合了传统的广播电视业务,互联网上的各种应用,以及新兴的通信业务,为用户提供直播电视,时移电视,点播电视,广播节目预订(PVR),信息浏览与査询,音乐/卡拉0K,互动广告,游戏,通信等多种服务。通过一个单一的机顶盒,将这些业务集成在一起,使用户得到更及时,方便,丰富的体验。IPTV扩展了"看电视"的概念,"看电视"己不再是原来意义上被动地观看,观众可以互动地选择和控制收视内容,享受新的体验,得到个性化的节目内容服务。由于IPTV平台上使用了先进的IT技术,所以虽然比起传统电视来说,IPTV有着节目量大,信息繁多等特点,但IPTV系统还是有一套有效的机制,它能够有能力记录下所有用户的操作行为和点播行为,这对于全面的了解用户的收视心理和对各类节目的喜好程度至关重要,基于这些信息可以清晰的勾绘出一幅用户对于节目的收视反馈信息图,为此,迫切需要提出一种可用于IPTV全数据分析的系统架构。
发明内容本发明的目的是提出一种在灵活的商业模式下的可用于IPTV全数据分析的系统架构的技术方案,更准确、有效地了解用户对于节目的收视情况。为了达到上述目的,本发明的解决方案是提供一种IPTV全数据分析系统架构,包括用于对IPTV系统内全样本的收集系统,对各边缘节点用户信息、用户点播定购信息、用户收视信息等各种信息进行采集的系统,本系统进行的分析是在IPTV领域的全样本数据分析;基于集群式分布运算的星一棒状的分析的拓扑结构;应对灵活的商业合作模式,而产生的灵活可配置的数据采集模式;统一的数据文件采集接口规范。所述的用于对IPTV系统内收集系统各边缘节点用户信息,用户点播信息,用户收视信息等各种信息的采集系统,该数据采集是针对全样本进行的,突出数据的完整性。并最终系统提供关于全样本数据的查询。所述的数据采集是针对全样本进行的,突出数据的完整性,有三方面的含义数据的采集是全天候24小时不间断的而不只是其中的一部分;数据的采集是针对IPTV系统各个边缘节点的,而不只是其中的一部分;数据采集的内容涉及用户数据,节目数据,定购数据等多方面的,而不只是其中某一方面。所述的IPTV数据分析系统的架构中,所使用的分布式运算的方式和星一棒状的分析的拓扑结构。所使用的分布式计算和星一棒状的分析拓扑结构,这种结构的应用所提供的一种低成本,进行大运算量的解决方案。所述的星一棒状结构,包含星状结构和棒状结构两部分。所述的星状结构,具体的含义和实现方式是如图3:中心是中央数据采集服务器,由此发散出落干条线,每条线上的节点就是一个边缘节点的数据采集系统,其中,中央数据采集服务器连接的是边缘节点数据采集服务器,边缘节点采集服务器通过规范统一的数据采集接口从数据源将各种数据(系统各边缘节点用户信息、用户点播定购信息、用户收视信息)收集起来,经过一定的处理,然后通过FTP方式上传中央数据采集服务器。星型结构实际上是反映了数据采集过程中,数据从地方到中央的流向过程。所述的棒状结构,具体的含义和实现方式是如图3:数据到了中央数据采集服务器后,经过一定的检査,就交有中央数据分析服务器,进行入数据库的工作。之后,进行统一的数据分析,其中包括用户信息的跟踪,节目收视情况的跟踪,用户24小时特性分析,用户收视各类节目比例等io多项数据分析工作。各项分析的结果也记录在数据库中以备查询。经过了数据分析,后面就由数据的报表系统将分析的结果整合成相应的以日,周,月,或指定周期的报表,并由展示模块将其呈现出来供数据分析人员查询分析。棒型结构实际上反映的是在中央服务器上,数据被审查,加工,整合,封装直到使用的一系列过程。制定的统一的文件釆集接口的规范以及这套规范中所涉及的文件内容,字段定义和其他格式规范。所述的IPTV数据分析系统的架构中,制定的统一的文件采集接口的规范,包括以下一些内容数据采集时间,各边缘节点数据文件的采集传输方式,数据采集包含的内容以及数据采集文件中各字段的定义。所述的IPTV数据分析系统关于数据采集的规范数据采集采用非实时架构,每天采集一次,时间定在凌晨2点,采集前一天OO:00:00到23:59:59这个时间段里的数据。所述的IPTV数据分析系统关于各边缘节点数据文件的采集传输方式的规范各边缘节点的数据分析服务器每天应在指定的文件夹里通过FTP方式收到一个名为系统运营平台名—yyyymmdd.zip的文件,其中包含的是前一天的数据。(这里,文件名是指前一天的日期)所述的IPTV数据分析系统关于数据采集包含的内容的规范在yyyymmdd.zip文件中,解压縮后应该包含了4个文件,分别是用户收视数据文件,节目单数据文件,用户数据文件,用户定购数据文件。所述的IPTV数据分析系统关于用户收视数据文件内容及各字段的定义规范e)文件名称系统运营平台名—contentviewlog—yyyymmdd.txt9f)数据说明包含用户在前一天的收视数据g)数据字段分隔符"I"h)格式定义<table>tableseeoriginaldocumentpage10</column></row><table>Reserved3保留字段3String40例如07540467506,20070525034050,20070525035034,1,umai:vod/50970000@shanghai.smg,,红表示用户07540467506在2007年5月25日03:40:50到2007年5月25日03:50:34这段时间内收看了Vod类型的节目,节目code是umai:vod/50970000@shanghai.smg节目名是红蜘蛛所述的IPTV数据分析系统关于节目单数据文件内容及各字段的定义规范e)文件名称系统运营平台名—schedule—yyyymmdd.txf)数据说明包含前一天的直播节目单g)数据字段分隔符"I"h)格式定义名称说明是否必须字段数据类型长度(字节)频道号频道IDMInt10频道名频道名称MString160栏目名称栏目名称MString160StartTime开始时间,格式是YYYYMMDDHH24MISSMString14EndTime开始时间,格式是YYYYMMDDHH24MISSMString14MediaCodeSMG统一节目编号MString128Reservedl保留字段1String40Reserved2保留字段2String40Reserved3保留字段3String40暗例如23,新闻综合,。s(27),20070114010000,20070114021500,腿i:schedule/509701刚shanghai.smg,,,表示频道号23(新闻综合频道)在2007年1月14日01:00:00到2007年1月14日02:15:00播放了暗算(27)'节目code为umai:schedule/50970110@shanghai.smg所述的IPTV数据分析系统关于用户数据文件内容及各字段的定义规范i)文件名称系统运营平台名一userinfo—yyyy誦dd.txtj)数据说明包含前一天用户的变更信息,其中这个数据第一次需要提供全量的信息,即发送到当日前一天为止的所有用户的信息。以后每天只需提供前一天用户的增量信息k)数据字段分隔符"i"1)格式定义名称说明是否必须字段数据类型长度(字节)UserID用户IDMString32UserGroup用户组id,多个组之间通过逗号来分隔0:测试用户1:普通用户2:集团用户可扩展MInt8BusinessGroup业务组id,多个组之间通过逗号来分隔0:公众用户1:酒店用户2:党建用户可扩展MInt8DateCreated申请创建用户时间,格式是YYYYMMDDHH24MISSMString14DateActivated用户装机时间,格式是YYYY醒DDHH24MISSMString14Datecancelled用户拆机时间,格式是-YYYYMMDDHH24MISSMString14Status状态类型0:tobeactive,1:Active,2:owefee3:suspended4:terminated,MInt2Pric印lanid价格计划代号MInt8STBID机顶盒ID0String128Areacode区局标识0String16EPGgroupEPG分组编号0String32UserName中文名0String100Telephone电话0String100Address家庭住址0String200Postcode邮编0String20EmailEmail地址0String20012<table>tableseeoriginaldocumentpage13</column></row><table>ProductCodeProductType=1,贝'J为Progr孤Code;ProductType=2贝ij为PackageCode;ProductType=3则为ProductCode;MString128Price购买价格精确到分MInt10Reservedl保留字段1String40Keserved2保留字段2String40Reserved3保留字段3String40例如07540467506,20070525034050,20070525034050,20070625034050,1,红鞋子,1,umai:vod/50970000@shanghai.smg,100,,,表示用户07540467506在2007年5月25R03:40:50定购了名为红鞋子,code为umai:vod/50970000fehanghai.smg的vod节目,定购费用为1元(100分)生效时间为2007年5月25日03:40:50到2007年6月25日03:40:50IPTV用户收视全样本分析是对于所有的电视机用户的收视行为的全面的记录和分析,它是一个以IPTV各区域结点用户信息,收视信息,点播信息等为基础,以査询界面模块为入口,为节目的质量评估和用户行为为分析对象,面向节目引进和用户服务为目的一套统一的系统平台。由丁采用了上述方案,本发明可以进行全样本分析,这种全样本分析的成果可以成为节H部的节目安排和市场部的市场推广的依据,在实际的操作过程中,全样本的分析正显示出它不能取代的的指导意义,甚至将成为IPTV战略决策的重要依据之一。同时,全样本的收视分析可以捕捉每一个用户每一时段的收视行为,从而可以判断某一时段电视机背后的媒体受众是哪一类人,跟踪用户的个人喜好,继而进行个性化的推荐服务,甚至实现广告的定点投放,这样可以根本克服传统广告使用广而告知的宣传模式所造成的针对性不强,效率不卨的弱点,做到有的放矢,既可以有效的投放让用户感兴趣的广告,又尽量少的打扰对此没有兴趣的用户,对于用户,这是一种崭新的收视体验。图l是IPTV数据采集系统结构图。图2是IPTV各类型边缘节点数据格式的统一以及统一化模块示意图。图3是IPTV数据采集分析星一棒状结构图。具体实施例方式以下结合附图所示实施例对本发明作进一步的说明。1.灵活可配置的数据采集模式。首先应该介绍一下,目甜的IPTV运营模式非常灵活,承载原始数据的各类型边缘节点数据源(即rawdatasource),可能来自于IPTV系统各个数据的产生,接受,转发处,数据的详细类型和格式视各数据边缘节点的商业情况和生产条件而定。14基于这个原因,所以在数据采集分析的第一步就是必须在数据源多元化的情况下,通过技术力量,创造出一种灵活可配置的数据采集模式,产生一个数据统一模块,使得数据通过这个模块的时候有统一标准的格式。如图1中所示,我们在每个提供IPTV服务的边缘节点都部署了边缘节点数据釆集服务器,它们的工作是完成对各种不同类型的边缘节点的数据以及其他来源的数据的整合工作,并进行一定的预处理工作,最后上传中央数据采集服务器。从本质上,通过这个模块消除各边缘节点数据源差异的问题,从而达到统一数据采集的目的。数据在经过边缘节点数据采集服务器这一层之后(也就是图l左侧部分),系统各边缘节点的数据应该是一致的。为了能够达到数据采集的目的,与边缘节点数据采集服务器的下行接口可能是多种的,如图l,(视系统各边缘节点情况不同而不同),归纳起来就是边缘节点数据采集服务器将与边缘节点数据源进行对接,从数据源获得系统各边缘节点用户信息、用户点播定购信息、用户收视信息,从而才能完成数据采集的工作。在这个过程中,IPTV数据采集接口规范起着统一格式的作用,通过这个规范我们消除了由于上游平台数据源不同而产生的差异。2.统一的数据文件采集接口规范数据采集过程中,为了提高数据采集的效率和尽量降低数据采集中出现的错误或者遗漏,必须对数据采集的格式加以规范。(如图2是IPTV各类型边缘节点数据格式的统一以及统一化模块示意图)由于无论数据源接口是哪一个,可以肯定的是,数据的最终生产者就是各类IPTV系统运营平台,所以,我们的数据统一工作实际上就是对各类IPTV系统运营平台的数据生产的规范。具体规范摘要如下基本接口内容*数据采集采用非实时架构,每天采集一次,时间定在凌晨2点,采集前一天00:00:00到23:59:59这个时间段里的数据,这样可以把系统压力降到最小。*各边缘节点的数据分析服务器每天应在指定的文件夹里通过FTP方式收到一个名为系统运营平台名—yyyymmdd.zip的文件,其中包含的是前一天的数据。这里,文件名是指前一天的R期*对于这个yyyy誦dd.zip文件,解压缩后应该包含了如下4个文件系统运营平台名—contentviewlog一yyyymmdd.txt系统运营平台名—schedulejyyymmdd.txt系统运营平台名—orderlog—yyyymmdd.txt系统运营平台名—userinfo—yyyymmdd.txt以上四个文件名中的yyyy咖dd的意思与系统运营平台名—yyyymmdd.zip相同,即其中提供的数据是数据提供日期前一天内的相应数据。例如ZTE—contentviewlog—20071231.txt就是包含了ZTE平台用户在2007—12—3100:00:00到2007—12—3123:59:59时间段内的收视数据。具体数据格式摘要如下系统运营平台名—schedulejyyy隱dd.txt文件的内容及字段解释包含前一天的直播节目单。具体字段如下15名称说明是否必须字段数据类型长度(字节)频道号频道IDMInt10频道名频道名称MString160栏目名称栏目名称MString160StartTime开始时间,格式是YYYYMMDDHH24MISSMString14EndTime开始时间,格式是YYYYMMDDHH24MISSMString14CodeSMG统一节目编号MString128Reservedl保留字段1String40Reserved2保留字段2String40Reserved3保留字段3String40例如23,新闻综合,暗算(27),20070114010000,20070114021500,u腿i:schedule/50970110@shanghai.smg,,,表示频道号23(新闻综合频道)在2007年1月14日01:00:00到2007年1月14口02:15:00播放了暗算(27),节目code为umai:schedule/50970110@shanghai.smg其他数据文件的格式与此大致相同,仅内容上有所区别,因此不一一罗列。3.数据采集分析的星一棒状结构如图3,我们的整套数据采集分析的系统架构采用了星—棒状的结构,现在具体介绍如下星型结构部分屮心是中央数据采集服务器,由此发散出落干条线,每条线上的节点就是一个边缘节点的数据采集系统,其中,中央数据采集服务器连接的是边缘节点数据采集服务器,边缘节点采集服务器通过规范统一的数据采集接口从数据源将各种数据(系统各边缘节点用户信息、用户点播定购信息、用户收视信息)收集起来,经过一定的处理,然后通过FTP方式上传中央数据采集服务器。星型结构实际上是反映了数据采集过程中,数据从地方到中央的流向过程。星型结构消除了上游数据源多元的问题,使得灵活的可配置的数据采集方式成为了可能。星型结构承担了大量的预处理预分析的工作,减轻了中央服务器的运算压力,实现了分布式运算的部署,提高了数据采集处理分析的整体效率。星—棒状结构的应用提供了一种低成本,进行大运算量的解决方案。棒型结构部分数据到了中央数据采集服务器后,经过一定的检査,就交有中央数据分析服务器,进行入数据库的工作。之后,进行统一的数据分析,其中包括用户信息的跟踪,节目收视情况的跟踪,用户24小时特性分析,用户收视各类节目比例等10多项数据分析工作。各项分析的结果也记录在数据库中以备査询。经过了数据分析,后面就由数据的报表系统将分析的结果整合成相应的以日,周,月,或指定周期的报表,并由展示模块将其呈现出来供数据分析人员查询分析。棒型结构实际上反映的是在中央服务器上,数据被审査,加工,整合,封装直到使用的一系列过程。棒型结构使得数据在中央各服务器间流转加工的工序更加清晰,审核,分析,査询三个主要功能从逻辑上的分开到物理实现上的分开。使得数据处理更为有效。上述的对实施例的描述是为便于该
技术领域
的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于这里的实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。1权利要求1、一种可用于IPTV全数据分析的系统架构,其特征在于包括用于对IPTV系统内全样本的收集系统,对各类IPTV收视参数进行采集的系统,所述IPTV收视参数包含各边缘节点用户信息、用户点播定购信息、用户收视信息;基于集群式分布运算的星一棒状的分析的拓扑结构;应对灵活的商业合作模式,而产生的灵活可配置的数据采集模式;统一的数据文件采集接口规范。2、如权利要求l中所述的系统架构,其特征在于该数据采集是针对全样本进行的,突出数据的完整性,并最终系统提供关于全样本数据的査询。3、如权利要求2中所述的系统架构,其特征在于该"数据采集是针对全样本进行的,突出数据的完整性"是指数据的采集是全天候24小时不间断的而不只是其中的一部分;数据的采集是针对IPTV系统各个边缘节点的,而不只是其中的一部分;数据采集的内容涉及用户数据,节目数据,定购数据等多方面的,而不只是其中某一方面。4、如权利要求l中所述的系统架构,其特征在于该星一棒状结构,包含反映数据采集过程中,数据从地方到中央的流向过程的星状结构和反映在中央服务器上,数据被审查,加工,整合,封装直到使用的一系列过程的棒状结构两部分。5、如权利要求4中所述的系统架构,其特征在于该星状结构中心是中央数据采集服务器,由此发散出落干条线,每条线上的节点就是一个边缘节点的数据采集系统,其中,中央数据采集服务器连接的是边缘节点数据采集服务器,边缘节点采集服务器通过规范统一的数据采集接口从数据源将各种数据收集起来,经过一定的处理,然后通过FTP方式上传中央数据采集服务器。6、如权利要求4中所述的系统架构,其特征在于该棒状结构数据到了中央数据采集服务器后,经过一定的检査,就交由中央数据分析服务器,进行入数据库的工作;之后,进行统一的数据分析,收集各类IPTV收视参数进行分析工作,所述IPTV收视参数包括用户信息的跟踪、节目收视情况的跟踪、用户24小时特性分析、用户收视各类节目比例多项数据;各项分析的结果也记录在数据库中以备査询;经过了数据分析,后面就由数据的报表系统将分析的结果整合成相应的以日、周、月或指定周期的报表,并由展示模块将其呈现出来供数据分析人员查询分析。7、如权利要求l中所述的系统架构,其特征在于制定的统一的文件采集接口的规范以及这套规范中所涉及的文件内容、字段定义和其他格式规范。8、如权利要求7中所述的系统架构,其特征在于制定的统一的文件采集接口的规范,包括以下内容数据采集时间;各边缘节点数据文件的采集传输方式;数据采集包含的内容以及数据采集文件中各字段的定义。9、如权利要求8中所述的系统架构,其特征在于关于数据釆集的规范数据釆集采用非实时架构,每天釆集一次,时间定在凌晨2点,采集前一天00:00:00到23:59:59这个时间段里的数据。10、如权利要求8中所述的系统架构,其特征在于关于各边缘节点数据文件的采集传输方式的规范各边缘节点的数据分析服务器每天应在指定的文件夹里通过FTP方式收到一个名为系统运营平台名—yyyymmdd.zip的文件,其中包含的是前一天的数据。11、如权利耍求8中所述的系统架构,其特征在于关于数据采集包含的内容的规范在yyyymmdd.zip文件中,解压縮后应该包含了4个文件,分别是用户收视数据文件,节目单数据文件,用户数据文件,用户定购数据文件。12、如权利要求ll中所述的系统架构,其特征在于关于用户收视数据文件内容及各字段的定义规范a)文件名称系统运营平台名—contentviewlog—yyyymmdd.txtb)数据说明包含用户在前一天的收视数据c)数据字段分隔符"i"d)格式定义<table>tableseeoriginaldocumentpage3</column></row><table><table>tableseeoriginaldocumentpage4</column></row><table>13、如权利要求11中所述的系统架构,其特征在于关于节目单数据文件内容及各字段的定义规范a)文件名称系统运营平台名一schedule—yyyy誦dd.txb)数据说明包含前一天的直播节目单c)数据字段分隔符"I"d)格式定义<table>tableseeoriginaldocumentpage4</column></row><table><table>tableseeoriginaldocumentpage5</column></row><table>14、如权利要求11中所述的系统架构,其特征在于关于用户数据文件内容及各字段的定义规范文件名称系统运营平台名一userinfo一yyyymmdd.txt数据说明包含前一天用户的变更信息,其中这个数据第一次需要提供全量的信息,即发送到当日前一天为止的所有用户的信息。以后每天只需提供前一天用户的增量信息数据字段分隔符"I"格式定义<table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage6</column></row><table>15、如权利要求11中所述的系统架构,其特征在于关于用户定购数据文件内容及各字段的定义规范文件名称系统运营平台名—orderlog—yyyyramdd.tx数据说明包含用户在前一天的PPV点播或者服务包在线订购记录数据字段分隔符"I"格式定义<table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table>全文摘要一种可用于IPTV全数据分析的系统架构,包括用于对IPTV系统内全样本的收集各类IPTV收视参数(包含系统各边缘节点用户信息、用户点播定购信息、用户收视信息等各种信息)进行采集的系统;基于集群式分布运算的星-棒状的分析的拓扑结构;应对灵活的商业合作模式,而产生的灵活可配置的数据采集模式;统一的数据文件采集接口规范。本发明全样本分析的成果可以成为节目部的节目安排和市场部的市场推广的依据,同时,根本克服传统广告使用广而告知的宣传模式所造成的针对性不强,效率不高的弱点,做到有的放矢,既可以有效的投放让用户感兴趣的广告,又尽量少的打扰对此没有兴趣的用户;对于用户,这是一种崭新的收视体验。文档编号H04N7/16GK101478663SQ20081004222公开日2009年7月8日申请日期2008年8月29日优先权日2008年8月29日发明者周少毅,胡超晔申请人:百视通网络电视技术发展有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1