一种异常座位数据处理的方法及装置与流程

文档序号:11287582阅读:418来源:国知局
一种异常座位数据处理的方法及装置与流程

本发明涉及数据分析处理技术领域,尤其涉及一种异常座位数据处理的方法及装置。



背景技术:

近几年,观看电影是人们不可或缺的娱乐活动,电影的票房受到越来越多人的关注,而票房分析为整个电影市场提供了高效准确并且可视化地票房数据服务,通过票房分析既可以为电影从业者提供实时地票房数据监控,以便更好地抢夺关键期市场份额;又可以使电影市场票房数据更加透明化和公开化,为票房监控提供了参考。

票房分析提供的最重要数据就是影片每日实时票房数据。现有技术中,票房数据的统计方式是通过对用户在线购票选座的示意图中被标注为“已售”的座位,即“不可售”座位的数量的统计,可以近似地得到观影人数,然后再根据票价信息和观影人数统计出每部影片的实时票房。

发明人经过研究发现,实际的观影人数并不一定完全等同于“不可售”座位的数量,即用户在线购票选座的示意图中被标注为“已售”的座位中存在异常的座位,即实际上并非是“已售”的座位,例如,影院预留非出售的座位,或者票房造假的座位等。在实际的计算中,这些异常的座位,如果不能被有效识别并处理,那么会造成最终计算出的实时票房数据及其不准确。



技术实现要素:

本发明所要解决的技术问题是,提供一种异常座位数据处理的方法及装置,以尽可能地正确识别清除异常座位数据,从而提高了实时票房数据的准确性。

第一方面,本发明实施例提供了一种异常座位数据处理的方法,该方法包括:

获取目标场次预设时间段内已售座位的数量值和预设数量值区间,所述预设数量值区间是根据均值和标准差确定的,所述均值与标准差是根据所述目标场次对应影厅多个历史场次相同时间段内已售座位的数量值计算得到的;

若所述目标场次预设时间段内已售座位的数量值不在所述预设数量值区间内,则确定所述目标场次为异常场次;

根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为至少两个区域;其中,所述预设点为所述异常场次对应影厅中最适合观看电影的参考点,所述两个区域包括第一区域和第二区域,所述第二区域中各个座位距预设点的距离值均大于所述第一区域中各个座位距预设点的距离值;

若所述第二区域中存在已售的座位,则确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。

优选的,所述预设数量值区间根据拉依达准则确定为(μ-3σ,μ+3σ),所述μ为所述均值,所述σ为所述标准差。

优选的,所述异常场次对应影厅中各个座位距预设点的距离值具体为根据各个座位的坐标值与预设点的坐标值计算出的欧式距离值。

优选的,当根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为第三区域、第四区域和第五区域时,若所述第五区域中存在已售的座位,则确定所述第五区域中已售的座位为异常座位,清除所述异常座位的数据,所述第五区域中各个座位距预设点的距离值均大于所述第四区域中各个座位距预设点的距离值,所述第四区域中各个座位距预设点的距离值均大于所述第三区域中各个座位距预设点的距离值。

优选的,还包括:若所述第四区域中已售的座位的所占比例小于预设值,则确定所述第四区域已售的座位为异常座位;清除所述异常座位的数据,所述第四区域中已售的座位的所占比例是指所述第四区域中已售的座位的数量与所述第四区域中各个座位的总数量的比值。

第二方面,本发明实施例提供了一种异常座位数据处理的装置,该装置包括:

获取单元,用于获取目标场次预设时间段内已售座位的数量值和预设数量值区间,所述预设数量值区间是根据均值和标准差确定的,所述均值与标准差是根据所述目标场次对应影厅多个历史场次相同时间段内已售座位的数量值计算得到的;

确定单元,用于若所述目标场次预设时间段内已售座位的数量值不在所述预设数量值区间内,则确定所述目标场次为异常场次;

划分单元,用于根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为至少两个区域;其中,所述预设点为所述异常场次对应影厅中最适合观看电影的参考点,所述两个区域包括第一区域和第二区域,所述第二区域中各个座位距预设点的距离值均大于所述第一区域中各个座位距预设点的距离值;

确定清除单元,用于若所述第二区域中存在已售的座位,则确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。

优选的,所述预设数量值区间根据拉依达准则确定为(μ-3σ,μ+3σ),所述μ为所述均值,所述σ为所述标准差。

优选的,所述异常场次对应影厅中各个座位距预设点的距离值具体为根据各个座位的坐标值与预设点的坐标值计算出的欧式距离值。

优选的,所述划分单元用于根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为第三区域、第四区域和第五区域时,所述确定清除单元具体用于若所述第五区域中存在已售的座位,则确定所述第五区域中已售的座位为异常座位,清除所述异常座位的数据,所述第五区域中各个座位距预设点的距离值均大于所述第四区域中各个座位距预设点的距离值,所述第四区域中各个座位距预设点的距离值均大于所述第三区域中各个座位距预设点的距离值。

优选的,所述确定清除单元还具体用于若所述第四区域中已售的座位的所占比例小于预设值,则确定所述第四区域已售的座位为异常座位;清除所述异常座位的数据,所述第四区域中已售的座位的所占比例是指所述第四区域中已售的座位的数量与所述第四区域中各个座位的总数量的比值。

与现有技术相比,本发明至少具有以下优点:

采用本发明实施例的技术方案,先通过判断得到获取的目标场次预设时间段内已售座位的数量值不在预设数量值区间内,确定所述目标场次为异常场次;然后根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为至少两个区域,第二区域中各个座位距预设点的距离值均大于第一区域中各个座位距预设点的距离值;最后通过判断得到第二区域中存在已售的座位,确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。由此可见,通过先确定异常场次,再确定异常场次中的异常座位的方式,可以处理绝大部分的异常座位数据,因此近似得到的观影人数的准确度提高,从而提高了计算出的实时票房数据的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例中存在异常座位的用户在线购票选座的示意图;

图2为本发明实施例提供的一种异常座位数据处理的方法的流程示意图;

图3为本发明实施例提供的另一种异常座位数据处理的方法的流程示意图;

图4为本发明实施例提供的一种异常座位数据处理的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

发明人经过研究发现,根据大量数据的统计分析及行业调研,用户在线购票选座的示意图中被标注为“已售”的座位极有可能存在并非是“已售”的异常座位,例如,如图1所示存在异常座位的用户在线购票选座的示意图,可能是基于管理上的考虑会预留或关闭某些座位的销售产生的异常座位,或者不对某网络售票平台开放产生的异常座位,又或者为了票房造假产生的异常座位。由于对用户在线购票选座的示意图中被标注为“已售”的座位的数量进行统计时,这些异常的座位在用户在线购票选座的示意图中标注显示为“已售”,而不能被有效识别并处理,因此近似地得到的观影人数并不准确,进而根据票价信息和观影人数统计出每部影片的实时票房不准确。

为了解决这一问题,在本发明实施例中,先通过判断得到获取目标场次预设时间段内已售座位的数量值不在预设数量值区间内,确定所述目标场次为异常场次;然后根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为至少两个区域,第二区域中各个座位距预设点的距离值均大于第一区域中各个座位距预设点的距离值;最后通过判断得到第二区域中存在已售的座位,确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。由此可见,通过先确定异常场次,再确定异常场次中的异常座位的方式,可以处理绝大部分的异常座位数据,因此近似得到的观影人数的准确度提高,从而提高了计算出的实时票房数据的准确性。

可以理解的是,上述场景仅是本发明实施例提供的一个场景示例,本发明实施例并不限于此场景。

下面结合附图,通过实施例来详细说明本发明实施例中异常座位数据处理的方法及装置的具体实现方式。

示例性方法

参见图2,示出了本发明实施例中一种异常座位数据处理的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:

步骤201:获取目标场次预设时间段内已售座位的数量值和预设数量值区间,所述预设数量值区间是根据均值和标准差确定的,所述均值与标准差是根据所述目标场次对应影厅多个历史场次相同时间段内已售座位的数量值计算得到的。

步骤202:若所述目标场次预设时间段内已售座位的数量值不在所述预设数量值区间内,则确定所述目标场次为异常场次。

根据大量历史数据的统计分析及行业调研,一般情况下,全国每天有大约25万场次左右的排期,而存在异常座位的场次每天只有几千场左右,对每一个场次都直接去识别异常座位不仅耗时长,而且效率又低,因此本实施例首先快速高效地确定出异常场次;然后针对异常场次再进行识别异常座位,最后清理异常座位数据。

由大量历史数据可以得知,一般正常场次在每一个时段内已售座位的数量是平稳增加的;而异常场次在某个或某几个时段内已售座位的数量是可能是突然增加的。可以采用数理统计方法,来区分平上述平稳增加和突然增加,从而快速高效地确定出异常场次,具体的方式可以为判断目标场次预设时间段内已售座位的数量值是否在预设数量值区间内。

在本实施例中,所述预设数量值区间可以根据拉依达准则确定为(μ-3σ,μ+3σ),所述μ为所述均值,所述σ为所述标准差。所述pauta准则,即拉依达准则,是指先假设一组数据只含有随机误差,对其进行计算处理得到均值和标准偏差,按特定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据为异常数据。

例如,随机变量x为某影厅在开场前2小时至开场前1小时时间段内的已售座位的数量值,可以认为同一影厅不同场次之间的售票是近似相互独立的随机事件,那么随机变量x近似地服从正态分布x~n(μ,σ2)。取该影厅最近n场(n≥100)排期在开场前2小时至开场前1小时时间段内的已售座位的数量值,表示为x1,x2,...,xn,根据如下公式计算x1,x2,...,xn这组数据的均值和标准差:

其中,所述μ为均值,所述σ为标准差,所述n为n。

根据特定概率0.9974,可以选取区间(μ-3σ,μ+3σ)为预设数量值区间,那么若所述目标场次预设时间段内已售座位的数量值不在该区间内,即如果|x-μ|>3σ则该目标场次被确定为异常场次,确定异常场次的准确率可以达到约95%。

需要说明的是,上述例子中计算该影厅开场前2小时至开场前1小时时间段内对应的均值和标准差的方法,针对其他时间段(如开场前3小时至2小时,开场前1小时至45分钟等等)的方法也是相同的,只是上述公式中提到的均值和标准差会根据不同影厅和不同时段分别计算。在实际应用中,可以预先选取各个影厅近3个月约500场左右的排期数据,来统计计算并存储每个时间段对应的均值和标准差数据,以便后续使用,这些存储数据可以每周更新一次。

步骤203:根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为至少两个区域;其中,所述预设点为所述异常场次对应影厅中最适合观看电影的参考点,所述两个区域包括第一区域和第二区域,所述第二区域中各个座位距预设点的距离值均大于所述第一区域中各个座位距预设点的距离值。

实际应用中,计算各个座位与预设点的距离,可以先将各个座位等效为各个座位点,那么各个座位与预设点的距离可以等效为计算各个座位点与预设点之间的欧式距离,因此,在本实施例中,所述异常场次对应影厅中各个座位距预设点的距离值具体为根据各个座位的坐标值与预设点的坐标值计算出的欧式距离值。

例如,可以先获取异常场次对应影厅中各个座位的坐标值(xn,yn)和预设点的坐标值(x0,y0),根据计算公式得到异常场次对应影厅中各个座位与预设点之间的欧式距离dn。若预设占比为2:3,则根据异常场次对应影厅中各个座位与预设点之间的欧式距离dn和预设占比2:3,将所述异常场次对应影厅的座位图划分为第一区域和第二区域。

同理,若预设占比为2:3:5,则根据异常场次对应影厅中各个座位与预设点之间的欧式距离dn和预设占比2:3:5,将所述异常场次对应影厅的座位图划分为第三区域、第四区域和第五区域。

步骤204:若所述第二区域中存在已售的座位,则确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。

不论异常座位产生的原因是什么,一般考虑到不影响票务的正常销售,异常座位往往都出现在影厅的边角位置,这样就可以根据各个座位与预设点的距离的远近来识别确定异常座位,即距离预设点距离越远的座位极有可能是异常座位,所以,通过步骤203异常场次对应影厅的座位图被划分为第一区域和第二区域时,第二区域中已售的座位为异常座位,这些异常座位数据应该被清除。

需要说明的是,若异常场次对应影厅的座位图被划分为第三区域、第四区域和第五区域时,考虑到不影响票务的正常销售,异常座位往往都出现在影厅的边角位置,即异常座位出现在第五区域。因此,在本实施例的一些实施方式中,当根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为第三区域、第四区域和第五区域时,若所述第五区域中存在已售的座位,则确定所述第五区域中已售的座位为异常座位,清除所述异常座位的数据,所述第五区域中各个座位距预设点的距离值均大于所述第四区域中各个座位距预设点的距离值,所述第四区域中各个座位距预设点的距离值均大于所述第三区域中各个座位距预设点的距离值。

需要说明的是,在上述异常场次对应影厅的座位图被划分为第三区域、第四区域和第五区域,第五区域中已售的座位数据被清除情况下,根据对用户购票行为的分析,绝大多数用户都会优先选择第一区域的座位;当第一区域的座位基本满员后,才会选择第二区域的座位;而第三区域的座位很少会被选择,所以若第四区域中已售的座位的所占比例低于某个特定的值,那么第四区域中已售的座位也是异常座位。因此,在本实施例的一些实施方式中,例如还可以包括:若所述第四区域中已售的座位的所占比例小于预设值,则确定所述第四区域已售的座位为异常座位;清除所述异常座位的数据,所述第四区域中已售的座位的所占比例是指所述第四区域中已售的座位的数量与所述第四区域中各个座位的总数量的比值。

通过本实施例提供的各种实施方式,先通过判断得到获取的目标场次预设时间段内已售座位的数量值不在预设数量值区间内,确定所述目标场次为异常场次;然后根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为至少两个区域,第二区域中各个座位距预设点的距离值均大于第一区域中各个座位距预设点的距离值;最后通过判断得到第二区域中存在已售的座位,确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。由此可见,通过先确定异常场次,再确定异常场次中的异常座位的方式,可以处理绝大部分的异常座位数据,因此近似得到的观影人数的准确度提高,从而提高了计算出的实时票房数据的准确性。

下面以目标场次开场前2小时至开场前1小时在线座位图上售票情况为例,具体说明常座位数据处理的方法。

参见图3,示出了本发明实施例中另一种异常座位数据处理的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:

步骤301:获取目标场次开场前2小时至开场前1小时内已售座位的数量值和预设数量值区间,所述预设数量值区间是根据均值和标准差确定的,所述均值与标准差是根据所述目标场次对应影厅历史最近500场开场前2小时至开场前1小时内已售座位的数量值计算得到的。

可选的,所述预设数量值区间根据拉依达准则确定为(μ-3σ,μ+3σ),所述μ为所述均值,所述σ为所述标准差。

步骤302:判断目标场次开场前2小时至开场前1小时内已售座位的数量值是否在所述预设数量值区间内,若否,进入步骤303。

步骤303:确定所述目标场次为异常场次。

步骤304:根据所述异常场次对应影厅中各个座位距影厅中心的距离值的大小和预设占比2:3:5,将所述异常场次对应影厅的座位图划分为第一区域、第二区域和第三区域,所述第二区域中各个座位距预设点的距离值均大于所述第一区域中各个座位距预设点的距离值,所述第三区域中各个座位距预设点的距离值均大于所述第二区域中各个座位距预设点的距离值。

可选的,所述异常场次对应影厅中各个座位距预设点的距离值具体为根据各个座位的坐标值与预设点的坐标值计算出的欧式距离值。

步骤305:判断所述第三区域中是否存在已售的座位,若是,进入步骤306。

步骤306:确定所述第三区域中已售的座位为异常座位,清除所述异常座位的数据。

步骤307:判断所述第二区域中已售的座位的数量与所述第二区域中各个座位的总数量的比值是否小于0.5,若是,进入步骤308。

步骤308:确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。

通过本实施例提供的各种实施方式,先通过判断得到获取的目标场次预设时间段内已售座位的数量值不在预设数量值区间内,确定所述目标场次为异常场次;然后根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为第一区域、第二区域和第三区域,第二区域中各个座位距预设点的距离值均大于第一区域中各个座位距预设点的距离值,第三区域中各个座位距预设点的距离值均大于第二区域中各个座位距预设点的距离值;最后通过判断得到第三区域中存在已售的座位,确定所述第三区域中已售的座位为异常座位,清除所述异常座位的数据,若所述第二区域中已售的座位的所占比例小于预设值,则确定所述第二区域已售的座位为异常座位;清除所述异常座位的数据。由此可见,通过先确定异常场次,再确定异常场次中的异常座位的方式,可以处理绝大部分的异常座位数据,因此近似得到的观影人数的准确度提高,从而提高了计算出的实时票房数据的准确性。

示例性设备

参见图4,示出了本发明实施例中一种异常座位数据处理的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:

获取单元401,用于获取目标场次预设时间段内已售座位的数量值和预设数量值区间,所述预设数量值区间是根据均值和标准差确定的,所述均值与标准差是根据所述目标场次对应影厅多个历史场次相同时间段内已售座位的数量值计算得到的;

确定单元402,用于若所述目标场次预设时间段内已售座位的数量值不在所述预设数量值区间内,则确定所述目标场次为异常场次;

划分单元403,用于根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为至少两个区域;其中,所述预设点为所述异常场次对应影厅中最适合观看电影的参考点,所述两个区域包括第一区域和第二区域,所述第二区域中各个座位距预设点的距离值均大于所述第一区域中各个座位距预设点的距离值;

确定清除单元404,用于若所述第二区域中存在已售的座位,则确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。

可选的,所述预设数量值区间根据拉依达准则确定为(μ-3σ,μ+3σ),所述μ为所述均值,所述σ为所述标准差。

可选的,所述异常场次对应影厅中各个座位距预设点的距离值具体为根据各个座位的坐标值与预设点的坐标值计算出的欧式距离值。

可选的,所述划分单元403用于根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为第三区域、第四区域和第五区域时,所述确定清除单元404具体用于若所述第五区域中存在已售的座位,则确定所述第五区域中已售的座位为异常座位,清除所述异常座位的数据,所述第五区域中各个座位距预设点的距离值均大于所述第四区域中各个座位距预设点的距离值,所述第四区域中各个座位距预设点的距离值均大于所述第三区域中各个座位距预设点的距离值。

可选的,所述确定清除单元404还具体用于若所述第四区域中已售的座位的所占比例小于预设值,则确定所述第四区域已售的座位为异常座位;清除所述异常座位的数据,所述第四区域中已售的座位的所占比例是指所述第四区域中已售的座位的数量与所述第四区域中各个座位的总数量的比值。

通过本实施例提供的各种实施方式,先通过判断得到获取的目标场次预设时间段内已售座位的数量值不在预设数量值区间内,确定所述目标场次为异常场次;然后根据所述异常场次对应影厅中各个座位距预设点的距离值的大小和预设占比,将所述异常场次对应影厅的座位图划分为至少两个区域,第二区域中各个座位距预设点的距离值均大于第一区域中各个座位距预设点的距离值;最后通过判断得到第二区域中存在已售的座位,确定所述第二区域中已售的座位为异常座位,清除所述异常座位的数据。由此可见,通过先确定异常场次,再确定异常场次中的异常座位的方式,可以处理绝大部分的异常座位数据,因此近似得到的观影人数的准确度提高,从而提高了计算出的实时票房数据的准确性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1