一种数据处理方法及装置与流程

文档序号:12183687阅读:178来源:国知局
一种数据处理方法及装置与流程

本发明涉及互联网领域,特别是涉及一种数据处理方法及装置。



背景技术:

随着互联网的发展,人们越来越习惯在移动端或电脑端(personal computer,简称PC)观看网络视频。在观看视频的过程中会通过嵌入网站或应用程序(Application,简称APP)中的软件开发工具包(Software Development Kit,简称SDK)或JavaScript代码向服务器发送用户观看行为数据,用户观看行为数据中通常包含有用户观看的节目ID、播放频道、播放序列号、播放时长等信息,从而使得服务器能够根据用户观看行为数据进行统计和分析获取视频播放情况。

在现有技术中,服务器进行用户观看行为数据的分析方式主要通过预先把接收到的用户观看行为数据进行保存,然后对所保存的用户观看行为数据的播放时间进行解析,以确定查询时间,进而根据所确定的查询时间来分析用户观看行为数据。

例如,通常在统计一次视频直播的平均播放时长时,服务器会把接收到的每一条用户观看行为数据保存下来,以直播的开始时间为起点,以查询数据的时间为终点,把接收到的每个用户的播放时长求和,算出平均播放时长。例如,13点开始统计,在13:30、14:00、14:30分别进行查询计算,则在13:30的时刻是把13:00-13:30的全部播放数据汇总计算,取得累计播放时长;在14:00的时刻是把13:00-14:00的全部播放数据汇总计算,取得累计播放时长,在14:30的时刻是把13:00-14:30的全部播放数据汇总计算,取得累计播放时长。

现有技术存在缺陷:由于每次对视频的播放数据进行查询时,服务器都需要重新从起始时间开始统计计算播放数据,从而浪费了大量的时间导致处理效率低下。



技术实现要素:

有鉴于此,本发明提出了一种数据处理方法及装置,主要目的在于解决每次统计视频的平均播放时长时都需要从起始时间对视频的播放数据进行统计,造成处理效率低下的问题。

依据本发明的第一个方面,本发明提供了一种数据处理方法,该方法主要用于统计服务器一侧,包括:

获得视频的播放信息,视频的播放信息包括:视频播放ID、播放节目ID、视频播放序号SN、视频播放时长、视频播放频道;

根据视频的播放信息及数据字典中的播放信息,确定视频的播放时长增量和累积播放次数;

根据视频的播放时长增量和累积播放次数,计算视频的平均播放时长。

依据本发明的第二个方面,本发明提供了一种数据处理装置,该装置主要用于统计服务器一侧,包括:

获得单元,用于获得视频的播放信息,视频的播放信息包括:视频播放ID、播放节目ID、视频播放序号SN、视频播放时长、视频播放频道;

确定单元,用于根据获得单元获得的视频的播放信息及数据字典中的播放信息,确定视频的播放时长增量和累积播放次数;

计算单元,用于根据确定单元确定的视频的播放时长增量和累积播放次数,计算视频的平均播放时长。

借由上述技术方案,本发明实施例提供的数据处理方法及装置,能够由统计服务器根据每次获得的视频的播放信息并结合其自身的数据字典中记录的播放信息实时确定视频的播放时长增量和累积播放次数,将每次确定的视频的播放时长增量和累积播放次数记录在数据字典中,从而对数据字典中的视频的播放信息进行更新,当需要计算某一视频的平均播放时长时,可以根据数据字典中该视频的播放时长增量和累积播放次数计算该视频的平均播放时长。与现有技术中计算视频的平均播放时长时处理效率低下的缺陷相比,本发明通过实时计算视频的播放时长增量的方式,能够避免每次计算视频的平均播放时长时重复计算之前已经计算过的数据,减少了计算的等待时间,提高了计算视频的平均播放时长的效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的 技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种数据处理方法的流程图;

图2示出了本发明实施例提供的一种数据处理装置的组成框图;

图3示出了本发明实施例提供的一种数据处理装置的组成框图。

具体实施方式

下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

现有的方式在统计一次视频的平均播放时长时,服务器会把接收到的每一条用户观看行为数据保存下来,以播放的开始时间为起点,以查询数据的时间为终点,把接收到的每个用户的播放时长求和,算出平均播放时长。但是每次对视频的播放数据进行查询时,服务器都需要重新从起始时间开始统计计算播放数据,从而浪费了大量的时间导致处理效率低下。

为了解决每次统计视频的平均播放时长时都需要从起始时间对视频的播放数据进行统计,造成处理效率低下的问题,本发明实施例提供了一种数据处理方法,该方法主要应用于统计服务器一侧,如图1所示,该方法包括:

101、获得视频的播放信息。

通常在用户观看视频的过程中,会产生大量的观看行为数据,该观看行为数据包含有大量该视频的播放信息,如视频播放ID、播放节目ID、视频播放序号SN、视频播放时长、视频播放频道等,通过对用户观看行为数 据所包含的信息进行分析,能够得到诸如该视频的平均播放时长、该视频的播放次数、该视频的播放高峰时段等。因此,本发明实施例在计算视频的平均播放时长时,需要执行步骤101获得视频的播放信息。

102、根据视频的播放信息及数据字典中的播放信息,确定视频的播放时长增量和累积播放次数。

在本发明实施例中,数据字典可以具有记录历史视频播放信息的数据表,其中,数据字典通常可以包含各种视频播放信息,如视频播放ID、播放节目ID、视频播放时长、视频播放序号SN、视频播放频道等信息。因此在步骤101中每次获得视频的播放信息之后,就需要结合该数据字典中记录的视频播放信息,通过对视频播放ID、视频播放序号SN、视频播放时长等信息的比对和计算,实时确定视频的播放时长增量和累积播放次数。

103、根据视频的播放时长增量和累积播放次数,计算视频的平均播放时长。

当在步骤102中确定了视频的播放时长增量和累积播放次数后,可以根据该视频的播放时长增量和累积播放次数,通过平均播放时长的计算公式计算视频的平均播放时长。

本发明实施例提供的数据处理方法,能够根据每次获得的视频的播放信息并结合其自身的数据字典中记录的播放信息实时确定视频的播放时长增量和累积播放次数,将每次确定的视频的播放时长增量和累积播放次数记录在数据字典中,从而对数据字典中的视频的播放信息进行更新,当需要计算某一视频的平均播放时长时,可以根据数据字典中该视频的播放时长增量和累积播放次数计算该视频的平均播放时长。与现有技术中计算视频的平均播放时长时处理效率低下的缺陷相比,本发明通过实时计算视频的播放时长增量的方式,能够避免每次计算视频的平均播放时长时重复计算之前已经计算过的数据,减少了计算的等待时间,提高了计算视频的平均播放时长的效率。

为了更好的对上述图1所示的方法进行理解,本发明实施例将针对图1中的各步骤进行详细说明。

由于包含视频播放信息的用户观看行为数据是在客户端产生的,因此 统计服务器获得的视频播放信息的源头为客户端。在本发明实施例中,可以通过不同的方式获得视频的播放信息。

作为一种可选的实施方式,执行主体(即统计服务器,以下均称为统计服务器)可以直接获得客户端产生并发送的用户观看行为数据,该数据的格式可以是客户端软件开发工具所采用的格式或执行主体处理程序提前规定好的格式规范。例如,统计服务器若提前规定的数据格式为json格式,那么统计服务器会根据json格式利用JavaScript eval()函数,即计算字符串函数对json格式的用户观看行为数据{"playid":"024c06ea24a","channel":"cctv1","playtime":14}进行反序列化操作,得到用户观看的视频的播放信息,包括playid:024c06ea24a、channel:cctv1、playtime:14。当然,客户端发送的用户观看行为数据除了上述举例的json格式外,还具有key-value等其他格式,统计服务器会根据预先设定好的格式规范通过调用各个函数对用户观看行为数据进行操作,得到用户观看视频的播放信息。

作为另一种可选的实施方式,本发明实施例提供了接收服务器,由接收服务器接收客户端产生并发送的用户观看行为数据,并通过如上所述的方式从用户观看行为数据中得到视频的播放信息。因此在该实施方式中,统计服务器可以从接收服务器获得视频的播放信息,不需要像上述实施方式那样从用户观看行为数据中获得视频的播放信息。

进一步的,由于客户端产生的用户观看行为数据中包含有大量的视频播放信息,因此统计服务器需要根据需求对获得的视频播放信息进行筛选,在筛选之前要先从视频播放信息中获取视频的播放配置信息,该播放配置信息包括:播放节目ID、播放频道、播放开始时间、播放结束时间等,当该视频的播放配置信息与统计服务器预存储的播放配置信息相匹配时,获得该视频的播放信息。

上述方式是通过统计服务器对获得的视频播放信息进行筛选的,当然,本发明实施例还可以通过接收服务器对视频播放信息进行筛选,同样的,接收服务器从客户端产生的用户观看行为数据中得到视频播放信息后,要先获取该视频的播放配置信息,只有当该视频的播放配置信息与统计服务 器预存储的播放配置信息相匹配时,才会向统计服务器发送该视频的播放信息。因此,与上述统计服务器对获得的视频播放信息进行筛选的实施方式不同,通过本实施方式,统计服务器可以直接从接收服务器获取经过筛选的视频的播放信息。

在上述具有接收服务器的实施方式中,接收服务器可以在得到视频的播放信息后直接将该视频的播放信息发送给统计服务器,当然本发明实施例还可以由统计服务器向接收服务器发送起始标记,提示接收服务器在收到起始标记后开始向统计服务器发送视频的播放信息。当统计服务器在视频的播放开始时间之前向接收服务器发送起始标记,由此可以得到接收服务器发送的该视频的全部播放信息,当统计服务器在视频开始后的某一时间向接收服务器发送起始标记,由此可以得到接收服务器发送的该视频某一时间段内的播放信息。

在本发明实施例中,客户端每次重新播放视频时,系统会为客户端分配一个用户编号(User Identification,简称UID)即本实施例中的视频播放ID,因此当统计服务器接收到某视频的大量播放信息中的视频播放ID相同时,说明这些视频播放信息属于一次连续的视频播放过程,播放次数没有增加;当客户端播放视频终断一段时间后再次播放该视频时,系统会为客户端再分配一个视频播放ID,此时这个新分配的视频播放ID与之前的视频播放ID不同,说明这些视频播放信息属于不同的视频播放过程,播放次数增加1。

基于上述原理,本发明实施例提供了一种实施方式,统计服务器根据获得的视频的播放信息及数据字典中的播放信息确定视频的播放时长增量和累积播放次数。其中,数据字典是本实施例统计服务器中的一种可以访问的记录数据表,其内容可以由统计服务器自动更新。确定视频的播放时长增量和累积播放次数的执行过程如下:

A、统计服务器获取视频的播放信息中的视频播放ID及其对应的视频播放时长T1和视频播放序号SN1

在统计服务器获得视频的播放信息之后,首先要从中获取视频播放ID及其对应的视频播放时长T1和视频播放序号SN1,其中视频播放ID用于判 断该视频的播放信息属于之前的一个视频播放过程,还是属于新的一个视频播放过程;视频播放时长T1用于计算同一个视频播放过程中的播放时长增量或者用于代表新的一个视频播放过程中的播放时长增量;视频播放序号SN1用于代表同一个视频播放过程中的视频播放信息的先后顺序,前一条数据的视频播放信息的视频播放序号小于后一条数据的视频播放信息的视频播放序号。

B、在数据字典中的播放信息中查找该视频播放ID是否存在。

当统计服务器获取到视频播放ID后,需要在数据字典中查找该视频播放ID是否存在,若该视频播放ID不存在于数据字典中,则执行步骤C;若该视频播放ID存在于数据字典中,则执行步骤D。

C、将该视频播放ID及其对应的视频播放时长T1和视频播放序号SN1插入数据字典中,将数据字典中该视频的累积播放次数加1。

由于该视频播放ID不存在于数据字典中,表明这条视频播放信息属于新的一次视频播放过程,该视频的总播放次数增加1次,即该视频的累积播放次数加1,同时将该视频播放ID及其对应的视频播放时长T1和视频播放序号SN1插入数据字典中。

D、获取该视频播放ID在数据字典中对应的视频播放时长T2和视频播放序号SN2;当SN1大于SN2时,由该视频播放ID对应的视频播放时长T1减去该视频播放ID在数据字典中对应的视频播放时长T2,得到该视频的播放时长增量,并根据该视频播放ID对应的视频播放时长T1、视频播放序号SN1及计算得到的该视频的播放时长增量,对数据字典中该视频的播放信息进行更新,其中,可以将计算得到的该视频的播放时长增量累加到数据字典中该视频的累积播放时长增量中;当SN1小于等于SN2时,对数据字典中该视频的播放信息不进行更新,该视频的播放时长增量为0。

由于该视频播放ID存在于数据字典中,表明该视频的播放信息与数据字典中的该视频的播放信息属于同一个视频播放过程,该视频的播放次数不增加,只需要计算这两条视频播放信息之间的播放时长增量,因此需要获取该视频播放ID在数据字典中对应的视频播放时长T2和视频播放序号SN2。由于在同一个视频播放过程中视频播放序号具有大小关系,后一条视 频播放信息的视频播放序号大于前一条视频播放信息的视频播放序号,因此需要将数据字典中的视频播放序号SN2同统计服务器获得的视频播放序号SN1进行比较,当SN1大于SN2时,说明统计服务器获得的该视频的播放信息为同一个视频播放过程中的后一条信息,该视频的播放时长增量可以通过SN1对应的视频播放时长T1减去SN2对应的视频播放时长T2得到。当SN1小于等于SN2时,说明这两条视频播放信息的顺序有误,该视频的播放时长增量为0。

当通过上述实施方式得到视频的播放时长增量和累积播放次数后,根据公式累积播放时长增量/累积播放次数,可以计算视频的平均播放时长。其中,累积播放时长增量是各个播放时长增量之和,由统计服务器计算得到,其可以记录在数据字典中,当然在每次得到视频的播放时长增量时,也可以实时的将视频的播放时长增量累加在数据字典中该视频的累积播放时长增量的字段中,最终统计服务器也可以根据数据字典中该视频的累积播放时长增量和累积播放次数计算出该视频的平均播放时长。

这里需要说明的是,以上各个实施方式中所述的视频包括多个类型的视频,包括但不限于:直播视频、点播视频、回播视频。

本发明实施例通过预设的视频播放配置信息能够对获得的视频播放信息进行过滤,只获得与播放配置信息相匹配的视频播放信息,从而保证了统计服务器能够根据业务需求选择性的获取某些视频的播放信息并计算其平均播放时长。此外,通过将每次计算得到的该视频的播放时长增量实时累加到数据字典中该视频的累积播放时长增量字段中,使得统计服务器能够直接根据数据字典中的累积播放时长增量和累积播放次数计算该视频的平均播放时长,避免了在计算视频的平均播放时长时才对该视频每次的播放时长增量进行求和,提高了计算效率。

进一步的,作为对上述图1所示方法的应用,本发明实施例提供了一种数据处理装置,该装置通常位于统计服务器中,但也可以独立于统计服务器但与统计服务器具有数据交互关系。如图2所示,该装置包括:获得单元21、确定单元22及计算单元23,其中,

获得单元21,用于获得视频的播放信息,视频的播放信息包括:视频 播放ID、播放节目ID、视频播放序号SN、视频播放时长、视频播放频道;

确定单元22,用于根据获得单元21获得的视频的播放信息及数据字典中的播放信息,确定视频的播放时长增量和累积播放次数;

计算单元23,用于根据确定单元22确定的视频的播放时长增量和累积播放次数,计算视频的平均播放时长。

进一步的,获得单元21用于获取视频的播放配置信息;当视频的播放配置信息与预存储的播放配置信息相匹配时,获得视频的播放信息;其中,播放配置信息包括:播放节目ID、播放频道、播放开始时间、播放结束时间。

进一步的,如图3所示,确定单元22包括:

获取模块221,用于获取视频的播放信息中的视频播放ID及其对应的视频播放时长T1和视频播放序号SN1

查找模块222,用于在数据字典中的播放信息中查找视频播放ID是否存在;

更新模块223,用于在视频播放ID不存在于数据字典中时,将视频播放ID及其对应的视频播放时长T1和视频播放序号SN1插入数据字典中,将数据字典中的视频的累积播放次数加1;

获取模块221还用于在视频播放ID存在于数据字典中时,获取视频播放ID在数据字典中对应的视频播放时长T2和视频播放序号SN2

计算模块224,用于当SN1大于SN2时,由视频播放ID对应的视频播放时长T1减去视频播放ID在数据字典中对应的视频播放时长T2,计算视频的播放时长增量;

更新模块223还用于根据视频播放ID对应的视频播放时长T1、视频播放序号SN1及计算出的播放时长增量,对数据字典中的视频的播放信息进行更新。

进一步的,计算单元23用于对视频的播放时长增量进行累加得到累积播放时长增量;由视频的累积播放时长增量除以视频的累积播放次数,计算视频的平均播放时长。

本发明实施例提供的数据处理装置,能够由统计服务器根据每次获得 的视频的播放信息并结合其自身的数据字典中记录的播放信息实时确定视频的播放时长增量和累积播放次数,将每次确定的视频的播放时长增量和累积播放次数记录在数据字典中,从而对数据字典中的视频的播放信息进行更新,当需要计算某一视频的平均播放时长时,可以根据数据字典中该视频的播放时长增量和累积播放次数计算该视频的平均播放时长。与现有技术中计算视频的平均播放时长时处理效率低下的缺陷相比,本发明通过实时计算视频的播放时长增量的方式,能够避免每次计算视频的平均播放时长时重复计算之前已经计算过的数据,减少了计算的等待时间,提高了计算视频的平均播放时长的效率。

此外,本发明实施例通过预设的视频播放配置信息能够对获得的视频播放信息进行过滤,只获得与播放配置信息相匹配的视频播放信息,从而保证了统计服务器能够根据业务需求选择性的获取某些视频的播放信息并计算其平均播放时长。此外,通过将每次计算得到的该视频的播放时长增量实时累加到数据字典中该视频的累积播放时长增量字段中,使得统计服务器能够直接根据数据字典中的累积播放时长增量和累积播放次数计算该视频的平均播放时长,避免了在计算视频的平均播放时长时才对该视频每次的播放时长增量进行求和,提高了计算效率。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本 发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员 应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1