一种影院票房预测方法及装置与流程

文档序号:11583789阅读:398来源:国知局
一种影院票房预测方法及装置与流程

本发明实施例涉及数据处理技术领域,具体涉及一种影院票房预测方法及装置。



背景技术:

随着近几年电影行业的蓬勃发展,通过数据看电影行业是很多从业人员每日工作的基本内容。随着用户需求日益增加和数据的收集方式也更加多样化和全面化等原因,导致市场竞争越发激烈,票房预测方法的优劣直接影响影片的放映场次、放映数量等。

现有的票房预测方法主要通过收集每个影院每场次的影片票房、观影人次,统计影片放映场次,观影人次等数据,通过固有模型进行计算并预测;或者通过电影制作和发行阶段与当前电影相关的票房影响因素数据进行建模,对票房进行预测;或者通过将影片创作影响因子量化、及影片类型影响因子量化,对电影进行投资风险评估,并计算出没有历史作品的子创作影响因子的票房影响指数。

在实现本发明实施例的过程中,发明人发现现有的方法单从影片相关信息进行预测,预测结果不够准确。



技术实现要素:

由于现有的方法单从影片相关信息进行预测,预测结果不够准确的问题,本发明实施例提出一种影院票房预测方法及装置。

第一方面,本发明实施例提出一种影院票房预测方法,包括:

根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,得到处理后数据;

根据所述处理后数据和预设模型,得到各类城市的票房预测模型;

根据待预测影院所在城市的类型和所述票房预测模型,确定所述待预测影院对应的目标票房预测模型;

获取待预测周边环境数据,并根据所述待预测周边环境数据和所述目标票房预测模型,得到所述待预测影院的票房预测结果。

可选地,所述根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,得到处理后数据,具体包括:

根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行标准化处理,得到各类城市的标准化数据;

对所述标准化数据进行降维处理,得到处理后数据。

可选地,所述对所述标准化数据进行降维处理,得到处理后数据,具体包括:

将所述标准化数据输入若干个降维函数,得到若干个处理后数据;

相应地,所述根据所述处理后数据和预设模型,得到各类城市的票房预测模型,具体包括:

将m个处理后数据分别输入n个预设模型,得到m×n个评测指标;

选择最大的评测指标对应的目标处理后数据和目标预设模型,根据所述目标处理后数据和所述目标预设模型,得到各类城市的票房预测模型;

其中,m和n均为正整数。

可选地,对各类城市的影院历史票房数据进行标准化处理,具体包括:

根据预设比例筛选影院播放的影片版本,并获取所述影片版本放映首周观影人数大于10人的场次以及所述场次播放影厅的总座位数;

根据所述场次、所述总座位数和所述影院历史票房数据,计算得到各影院平均单座票房。

可选地,对各类城市的影院历史票房数据进行标准化处理,具体包括:

根据预设比例筛选影院播放的影片版本,获取所述影片版本放映首周观影人数大于10人的场次,并根据所述场次计算各影院平均单场票房。

可选地,所述评测指标根据预设模型的预测值和真实值确定。

可选地,所述根据所述处理后数据和预设模型,得到各类城市的票房预测模型,具体包括:

根据预设比例,将所述处理后数据划分为训练集数据和测试集数据;

根据所述训练集数据和预设模型,得到各类城市的票房预测模型。

可选地,所述方法还包括:

选择所述目标票房预测模型中系数最大的第一自变量,选择所述第一自变量对应的目标降维函数中系数最大的第二自变量,并根据所述第二自变量对应的目标周边环境数据,确定新影院的地址。

可选地,所述影院周边环境数据包括ktv数据、网吧数据、餐馆数据、美容美发店数据、酒店数据、购物中心数据和健身场馆数据。

第二方面,本发明实施例还提出一种影院票房预测装置,包括:

数据处理模块,用于根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,得到处理后数据;

预测模型计算模块,用于根据所述处理后数据和预设模型,得到各类城市的票房预测模型;

预测模型确定模块,用于根据待预测影院所在城市的类型和所述票房预测模型,确定所述待预测影院对应的目标票房预测模型;

票房预测模型,用于获取待预测周边环境数据,并根据所述待预测周边环境数据和所述目标票房预测模型,得到所述待预测影院的票房预测结果。

可选地,所述数据处理模块具体包括:

标准化处理单元,用于根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行标准化处理,得到各类城市的标准化数据;

降维处理单元,用于对所述标准化数据进行降维处理,得到处理后数据。

可选地,所述降维处理单元具体用于将所述标准化数据输入若干个降维函数,得到若干个处理后数据;

相应地,所述预测模型计算模块具体用于将m个处理后数据分别输入n个预设模型,得到m×n个评测指标;并选择最大的评测指标对应的目标处理后数据和目标预设模型,根据所述目标处理后数据和所述目标预设模型,得到各类城市的票房预测模型;

其中,m和n均为正整数。

可选地,所述数据处理模块具体用于根据预设比例筛选影院播放的影片版本,并获取所述影片版本放映首周观影人数大于10人的场次以及所述场次播放影厅的总座位数;根据所述场次、所述总座位数和所述影院历史票房数据,计算得到各影院平均单座票房。

可选地,所述数据处理模块具体用于根据预设比例筛选影院播放的影片版本,获取所述影片版本放映首周观影人数大于10人的场次,并根据所述场次计算各影院平均单场票房。

可选地,所述预测模型计算模块中所述评测指标根据预设模型的预测值和真实值确定。

可选地,所述预测模型计算模块具体包括:

数据划分单元,用于根据预设比例,将所述处理后数据划分为训练集数据和测试集数据;

模型计算单元,用于根据所述训练集数据和预设模型,得到各类城市的票房预测模型。

可选地,所述装置还包括:

影院地址确定模块,用于选择所述目标票房预测模型中系数最大的第一自变量,选择所述第一自变量对应的目标降维函数中系数最大的第二自变量,并根据所述第二自变量对应的目标周边环境数据,确定新影院的地址。

可选地,所述数据处理模块中所述影院周边环境数据包括ktv数据、网吧数据、餐馆数据、美容美发店数据、酒店数据、购物中心数据和健身场馆数据。

由上述技术方案可知,本发明实施例通过对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,建立各类城市的票房预测模型,使得票房预测模型能够结合不同类型的城市特征以及影院周边环境数据,模型更有针对性,预测结果能够准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种影院票房预测方法的流程示意图;

图2为本发明一实施例提供的一种影院票房预测装置的结构示意图。

具体实施方式

下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种影院票房预测方法的流程示意图,包括:

s101、根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,得到处理后数据。

其中,所述预设规则为数据处理规则,例如降维处理,归一化处理。

城市分类按照最新城市分级,将影院所在的城市划分为一线、新一线、二线、三线、四线、五线、六线。由于五、六线城市多为经济欠发达地区,影院数量与影院周边环境数据都较少,因此将五、六线城市合并分析。

所述影院周边环境数据包括ktv数据、网吧数据、餐馆数据、美容美发店数据、酒店数据、购物中心数据和健身场馆数据等。

所述影院历史票房数据为影院过去放映的影片的票房数据。

所述影院内部设施数据如:放映设备、影厅数量、各厅座位数、3d影厅数量、音频类型等。

具体地,所述影院周边环境数据为影院周边半径3千米范围内的各类数据,数据类别包括中餐馆、小吃快餐店、酒吧、星级酒店、购物中心、超市、商圈、美容、美发、住宅区、ktv、公交站、地铁站、停车场、写字楼、高等院校、健身中心等,共90类。各类别数据特征包括:名称、地址、与影院距离、人均价格、总体评分、评论得分等。

所述影院历史票房数据包括:放映影片编码、影片名称、影片版本、放映影厅、放映日期、放映时间、单场观影人次、单场票房。时间跨度应大于等于1年。

目前对全国影院来说,经过近几年的快速发展,影院全面实现了数字设备的安装,且绝大部分影院已配备3d设备,支持播放立体电影,总的来说,影院内部设施差距相对较小。而影院周边环境数据由于涉及范围较广,且与城市发展相关,差距较大。因此,本实施例作了两次不同的数据分析:单独分析影院周边数据对票房的影响和影院内外部情况结合分析对票房的影响。

进一步地,s101中对各类城市的影院历史票房数据进行标准化处理,具体包括:

根据预设比例筛选影院播放的影片版本,并获取所述影片版本放映首周观影人数大于10人的场次以及所述场次播放影厅的总座位数;

根据所述场次、所述总座位数和所述影院历史票房数据,计算得到各影院平均单座票房。

进一步地,s101中对各类城市的影院历史票房数据进行标准化处理,具体包括:

根据预设比例筛选影院播放的影片版本,获取所述影片版本放映首周观影人数大于10人的场次,并根据所述场次计算各影院平均单场票房。

这两类分析仅在票房数据的处理上略有不同,下面详细说明。

一、单独分析影院周边环境对票房影响

按影片放映版本(即:2d、3d、中国巨幕、imax或imax立体)筛选出80%影院播放的影片与对应版本,获取各影院播放筛选影片对应版本的放映首周且观影人数大于10人的场次以及该场次播放影厅的总座位数,统计各场平均每个座位的票房,即单座票房,最后计算平均各影院平均单座票房作为该影院的票房得分。

二、影院内外部情况结合分析对票房的影响

首先筛选出80%影院播放的影片,获取各影院播放筛选影片所有版本(如2d、3d、中国巨幕、imax或imax立体)的放映首周且观影人数大于10人的场次。计算每家影院上述场次中平均每场的票房作为该影院的票房得分。

在上述处理后,去除各线城市中票房得分后5%的影院,并将票房得分位于前5%的影院票房得分统一设置为一个最高分,即票房得分位于第5%那家影院的票房得分。

s102、根据所述处理后数据和预设模型,得到各类城市的票房预测模型。

其中,所述预设模型为现有的数学模型,包括指数、对数、线性等基本模型的结合。

具体地,将所述处理后数据输入各预测模型,根据计算结果确定各类城市的票房预测模型。

s103、根据待预测影院所在城市的类型和所述票房预测模型,确定所述待预测影院对应的目标票房预测模型。

其中,所述待预测影院为将进行票房预测的影院。

所述目标票房预测模型为待预测影院进行票房预测所采用的票房预测模型。

具体地,根据s102中得到的各类城市不同的票房预测模型,获取待预测影院所在城市对应类型的目标票房预测模型。

s104、获取待预测周边环境数据,并根据所述待预测周边环境数据和所述目标票房预测模型,得到所述待预测影院的票房预测结果。

其中,所述待预测周边环境数据为待预测影院周边的环境数据。

具体地,对待预测周边环境数据进行处理后,输入所述目标票房预测模型,得到所述待预测影院的票房预测结果。

本实施例通过对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,建立各类城市的票房预测模型,使得票房预测模型能够结合不同类型的城市特征以及影院周边环境数据,模型更有针对性,预测结果能够准确。

进一步地,在上述方法实施例的基础上,s101具体包括:

s1011、根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行标准化处理,得到各类城市的标准化数据。

具体地,由于数据类别较多,可对部分相关类别进行合并。如:将歌舞厅、游戏场所、洗浴按摩、休闲广场等合并为休闲娱乐场所;将星级酒店、快捷酒店、公寓式酒店合并为酒店等,原90类数据类别合并为30类数据类别,包括中餐馆、小吃快餐店、酒吧、ktv、休闲娱乐场所、酒店、培训教育、小型生活服务场所、大型生活服务场所、丽人机构、小区、公司、政府机构等。为了评判影院周边各类实体对影院票房影响和与影院距离的关系,计算所有周边数据的密度分布。对于在每一家影院周边类别,分别计算影院周边200米、500米、1千米、2千米、3千米的密度分布。此外,考虑到公交站、地铁站对影院的实际影响,仅计算其在影院周边200米、500米、1千米的密度分布。其中,公交站、地铁站和停车场增加最近公交站/地铁站/停车场到影院距离变量,由于到影院距离对于票房来说是一个负相关的变量,即:到影院距离越小对票房影响越大,而其它变量均为正相关变量,因此采用所有数据里到影院的最大距离即5公里减去“到影院距离”得到一个与票房正相关的变量。经过以上处理后,所有的特征变量共212维。

影院内部设施数据共包含五个维度:影厅数、各影厅座位数、放映设备类型、音频设备类型与3d影厅占比。其中影厅数、各影厅座位数与3d影厅占比为数值数据,无需处理。而放映设备类型则包括2k、4k、imax、巨幕四种类型,音频设备类型包括5.1声道、13.1声道、dts和atmos四种类型,这两个变量需要进行量化。根据经验设置各类型的评分,如表1所示。

表1放映设备与音频设备类型评分

为实现数据之间的可比性和数据的可解释性,首先对数据进行标准化处理,之后再运用最值标准化方法minmaxscaler,通过各个变量类别数据的最大值和最小值对数据进行区间缩放,将数据缩放至0-1区间,即:

而标准化处理一般有两种方法:

标准差标准化standardscaler,通过数据的平均值和标准差对数据进行处理让数据标准化,即:

综合标准化normalizer,分别求出各个变量类别所对应数据的总和,之后以各变量的数据除以该类别的数据的总和,即:

经过综合标准化处理之后的新数据x′ij满足

为了确定采用哪种标准化方法,应用线性回归模型linearregression,即:

对标准化后的数据直接进行回归,得到皮尔逊相关系数得分,选择得分高的无量纲化方法作为最终的无量纲化方法。在无量纲化处理后再采用最值标准化方法minmaxscaler将数据缩放至0-1区间。最值标准化即:

s1012、对所述标准化数据进行降维处理,得到处理后数据。

具体地,由于影院周边数据分析和采集的特征变量过细,数量较多,且有许多指标都是围绕一个变量的评测指标,因此212维特征向量之间存在着多重共线性,其相关性较高。为提高模型预测精准性,分别通过特征选择和特征提取法对212维数据进行降维处理,并将降维后的数据经过线性回归模型,后续进一步通过score1、score2、score3三个评测指标,来确定降维后的维度和降维方法。

具体地,所述评测指标根据预设模型的预测值和真实值确定:

评测指标1(score1):票房预测值与真实值之间的差值与真实值之间的比值,该比值越小说明预测值越接近真实值,预测越准确。

评测指标2(score2):均方根误差,即标准方差,由于所有数据在归一化处理之后均在0-1之间,故可以应用均方根误差对结果进行评估。均方根误差反映了测量数据偏离真实值的程度,均方根误差越小,表示测量精度越高,

评测指标3(score3):皮尔逊相关系数,皮尔逊相关系数可以评估预测值与真实值之间的相关性,其值介于-1和1之间,负值表示负相关,正值表示正相关,皮尔逊相关系数绝对值越大,代表两者的相关性越强,如果皮尔逊相关系数绝对值大于0.8,表明两者之间具有极强的相关性。

进一步地,在上述方法实施例的基础上,s1012具体包括:

将所述标准化数据输入若干个降维函数,得到若干个处理后数据。

相应地,s102具体包括:

s1021、将m个处理后数据分别输入n个预设模型,得到m×n个评测指标。

其中,m和n均为正整数。

s1022、选择最大的评测指标对应的目标处理后数据和目标预设模型,根据所述目标处理后数据和所述目标预设模型,得到各类城市的票房预测模型。

具体地,选择各预设模型中评测指标中score3值最高的预设模型作为目标预设模型,将目标处理后数据输入目标预设模型,得到各类城市的票房预测模型。

进一步地,在上述方法实施例的基础上,s102具体包括:

s1021、根据预设比例,将所述处理后数据划分为训练集数据和测试集数据。

s1022、根据所述训练集数据和预设模型,得到各类城市的票房预测模型。

具体地,在将数据经过模型训练前,需要将数据划分为训练集和测试集,并确定模型预测精准度的评测指标。

通过比较训练模型在测试集上的预测结果与真实值之间的差异大小,确定最终模型的优劣,在评价模型预测精准度时,使用score1、score2、score3三个评测指标进行对比。

随机抽取总数据的10%作为测试集进行测试,剩下90%的数据作为训练集进行训练,将通过训练集训练的模型应用于测试集,对比预测结果和测试集的真实结果,以评估模型拟合的优劣。

为避免模型对数据的依赖,剔除数据对模型造成的影响,通过多次训练模拟取几次测验的均值作为最终的结果,最大程度上避免数据对模型的影响。连续迭代十次,且每一次都随机从总数据中抽样10%的数据作为测试集,得到10组模型与评测指标,最终取这十次模型结果与评测指标的均值作为最终结果。

进一步地,在上述方法实施例的基础上,所述方法还包括:

s105、选择所述目标票房预测模型中系数最大的第一自变量,选择所述第一自变量对应的目标降维函数中系数最大的第二自变量,并根据所述第二自变量对应的目标周边环境数据,确定新影院的地址。

具体地,选择所述目标票房预测模型中系数最大的第一自变量,即为对票房影响最大的因素;由于在降维处理时,该因素是由多个子因素决定,因此选择所述第一自变量对应的目标降维函数中系数最大的第二自变量,即为对票房影响较大的周边环境数据,后续考察新影院的地址时,可根据该周边环境数据(例如购物中心)来确定。

回归分析预测通常用于分析自变量和因变量之间的相关关系,通过建立变量之间的回归方程来表达其间的关系。应用回归模型来做预测分析,将处理过的影院周边数据与影院内备数据作为自变量,影院票房得分作为因变量,将自变量数据代入回归方程模型中,用来预测其因变量的取值。

或者,在确定新影院的地址之前,可以通过选取不同地址获取该地址周边情况,同时结合待建影院将配备的内部设施情况来预测该地址建影院将产生的票房,在哪个地址建影院产生的票房大则选择在哪个地址建影院。通过系数最大的自变量是可以反应周边哪类数据对票房影响较大,哪类影响较小。

图2示出了本实施例提供的一种影院票房预测装置的结构示意图,所述装置包括:数据处理模块201、预测模型计算模块202、预测模型确定模块203和票房预测模型204,其中:

所述数据处理模块201用于根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,得到处理后数据;

所述预测模型计算模块202用于根据所述处理后数据和预设模型,得到各类城市的票房预测模型;

所述预测模型确定模块203用于根据待预测影院所在城市的类型和所述票房预测模型,确定所述待预测影院对应的目标票房预测模型;

所述票房预测模型204用于获取待预测周边环境数据,并根据所述待预测周边环境数据和所述目标票房预测模型,得到所述待预测影院的票房预测结果。

具体地,所述数据处理模块201根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,得到处理后数据;所述预测模型计算模块202根据所述处理后数据和预设模型,得到各类城市的票房预测模型;所述预测模型确定模块203根据待预测影院所在城市的类型,确定所述待预测影院对应的目标票房预测模型;所述票房预测模型204根据待预测周边环境数据和所述目标票房预测模型,得到所述待预测影院的票房预测结果。

本实施例通过对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行处理,建立各类城市的票房预测模型,使得票房预测模型能够结合不同类型的城市特征以及影院周边环境数据,模型更有针对性,预测结果能够准确。

进一步地,在上述装置实施例的基础上,所述数据处理模块201具体包括:

标准化处理单元,用于根据预设规则,分别对各类城市的影院周边环境数据、影院历史票房数据和影院内部设施数据进行标准化处理,得到各类城市的标准化数据;

降维处理单元,用于对所述标准化数据进行降维处理,得到处理后数据。

进一步地,在上述装置实施例的基础上,所述降维处理单元具体用于将所述标准化数据输入若干个降维函数,得到若干个处理后数据;

相应地,所述预测模型计算模块202具体用于将m个处理后数据分别输入n个预设模型,得到m×n个评测指标;并选择最大的评测指标对应的目标处理后数据和目标预设模型,根据所述目标处理后数据和所述目标预设模型,得到各类城市的票房预测模型;

其中,m和n均为正整数。

进一步地,在上述装置实施例的基础上,所述数据处理模块201具体用于根据预设比例筛选影院播放的影片版本,并获取所述影片版本放映首周观影人数大于10人的场次以及所述场次播放影厅的总座位数;根据所述场次、所述总座位数和所述影院历史票房数据,计算得到各影院平均单座票房。

进一步地,在上述装置实施例的基础上,所述数据处理模块201具体用于根据预设比例筛选影院播放的影片版本,获取所述影片版本放映首周观影人数大于10人的场次,并根据所述场次计算各影院平均单场票房。

进一步地,在上述装置实施例的基础上,所述预测模型计算模块202中所述评测指标根据预设模型的预测值和真实值确定。

进一步地,在上述装置实施例的基础上,所述预测模型计算模块202具体包括:

数据划分单元,用于根据预设比例,将所述处理后数据划分为训练集数据和测试集数据;

模型计算单元,用于根据所述训练集数据和预设模型,得到各类城市的票房预测模型。

进一步地,在上述装置实施例的基础上,所述装置还包括:

影院地址确定模块,用于选择所述目标票房预测模型中系数最大的第一自变量,选择所述第一自变量对应的目标降维函数中系数最大的第二自变量,并根据所述第二自变量对应的目标周边环境数据,确定新影院的地址。

进一步地,在上述装置实施例的基础上,所述数据处理模块201中所述影院周边环境数据包括ktv数据、网吧数据、餐馆数据、美容美发店数据、酒店数据、购物中心数据和健身场馆数据。

本实施例所述的影院票房预测装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1