用于特定人群的观影指数评价系统的制作方法

文档序号:10687154阅读:239来源:国知局
用于特定人群的观影指数评价系统的制作方法
【专利摘要】本发明涉及一种可获取特定人群观影评价指数的系统,具体说是一种用于特定人群的观影指数评价系统。通过网络用户的身份信息和属性信息,筛选出目标群体,在通过这些目标群体做出的电影评论,经加权计算获得某一电影的用户观影指数。可用于指导影片的制作、宣传、发行等工作。
【专利说明】
用于特定人群的观影指数评价系统
技术领域
[0001]本发明涉及一种可获取特定人群观影评价指数的系统,具体说是一种用于特定人群的观影指数评价系统。
【背景技术】
[0002]近年来电影市场火爆异常,市场的火爆吸引大量资本进入影视行业,大家的注意也随之而来。为此人们也更多的关注电影市场未来的发展,希望能够迎合市场需要,在当下或者未来分得一杯羹。为此就需要有针对性地搜集、整理各种不同群体的观影数据,以更加细致的数据分析为电影的创作和市场运作提供导向意见。通过近两年购票人群教育文化程度统计可以明显的看出主力观影人群是专科本科及以上学历人群。尤其是在校大学生对未来中国电影市场的发展和中国观影群体习惯的养成具有重要的意义。

【发明内容】

[0003]本发明的目的是为电影工作者提供一种用于特定人群的观影指数评价系统,使其可以指导影片的制作、宣传、发行等工作。
[0004]本发明所述用于特定人群的观影指数评价系统,其特征在于包括:
系统数据库,包括用于存储用户个人信息的用户信息数据库以及用于存储用户的属性信息的用户属性信息数据库,用户信息数据库与用户属性信息数据库之间建立映射关系;非正常用户的过滤器,用于从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库;
数据抓取处理器,用于从电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据,采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户,并将非正常用户从特定群体的用户个人信息库中剔除;
用户筛选处理器,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息,选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户,重复该步骤,直到特定群体的用户个人信息库中的全部用户筛选完毕;然后从网络资源中获取入选特定群体用户的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户;对于特定群体的活跃用户,用户筛选处理器比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库;
样本用户数据库,用于存储经过用户筛选处理器筛选获得的符合单一性判断标准的特定群体的活跃用户信息; 电影评论信息处理器,用于获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,并将全体特定群体的活跃用户的量化信息表存入影评量化信息库;
影评量化信息库,用于存储电影评论信息处理器获得的全体特定群体的活跃用户的量化信息表。
[0005]评价指标生成器,从量化信息库中提取活跃用户的量化信息表制定该用户的观影特征模型,所述量化信息库是符合特定观影群体特征的一组人群以及与之相关的电影评论信息的集合;将该用户的电影评论信息与观影特征模型比对,利用加权算法得到该活跃用户对电影的关注度数值,将量化信息库中全部活跃用户对同一部电影的关注度数值相加,得到特定观影群体对该电影的关注度。
[0006]所述电影评论信息的各种指标包括但不限于类型、演员、导演、国家、制式、日期,所谓指标的量化是指将电影评论中有关上述指标的信息判断为匹配和不匹配两种结果,并将每种结果给与特定的加权值。
[0007]所述电影评论信息至少包括类型、演员、导演、国家、制式、档期几个指标,所述加权算法是用如下公式获得该特定群体的活跃用户对电影的关注度,
A=(2(g+s+r+c+t+d)-(Gg+Ss+Rr+Cc+Tt+Dd))*X,
其中
A是该特定群体的活跃用户对电影的关注度 G表示类型是否匹配,I代表匹配,O代表不匹配^代表权值 S表示演员是否匹配,I代表匹配,O代表不匹配,8代表权值 R表示导演是否匹配,I代表匹配,O代表不匹配,r代表权值 C表示国家是否匹配,I代表匹配,O代表不匹配,c代表权值 T表示格式是否匹配,I代表匹配,O代表不匹配4代表权值 D表示档期是否匹配,I代表匹配,O代表不匹配,d代表权值 X代表电影评价的量化分值,正面评论为I,负面评论为-1,中性评论为O。
[0008]所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种。
[0009]所述用户对任何电影的历史评论数据包括评价对象的名称、评价对象的种类、评价内容、做出评价的时间、评价内容的字符数量、评价的次数。
[0010]所述用户的活动规律是指用户上网时间段的分布规律,以及用户做出评价的时间段的分布规律。
[0011]所述将其对应的多个特定群体的活跃用户合并为一个是指将多个个人信息合并后形成新的个人信息,同时将多个属性信息合并后形成新的属性信息;所述一致性判断标准是指用户个人信息中用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种具有一致性或相关性。
[0012]由于采用上述技术方案,本发明通过网络资源获取大学生等特定观影人群的影评数据,并将该数据分析处理得到这一特定人群对影片的关注度的量化指标,用于指导影片的制作、宣传、发行等工作。
【附图说明】
[0013]图1为本发明一个实施例的数据提取的流程框图。
【具体实施方式】
[0014]如图1所示,本发明所述用于特定人群的观影指数评价系统,其特征在于包括:
系统数据库,包括用于存储用户个人信息的用户信息数据库I以及用于存储用户的属性信息的用户属性信息数据库2,用户信息数据库I与用户属性信息数据库2之间建立映射关系;
所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种。
[0015]非正常用户的过滤器,用于从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库3;
数据抓取处理器,用于从电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库3中每一用户对任何电影的历史评论数据4,采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户5,并将非正常用户从特定群体的用户个人信息库中剔除;正常用户评论电影的信息会有以下特点,对于影片的评分会呈正态分布趋势,各种不同类型的评论相对分散,没有过度集中的情况。僵尸账号和水军账号为代表的非正常用户发帖的目的是将影片炒火或者贬低,评分大都集中在高分区段和低分区段,中性评论很少。使用这样的办法可以过滤掉大部分僵尸和水军账号。
[0016]所述用户对任何电影的历史评论数据4包括评价对象的名称、评价对象的种类、评价内容、做出评价的时间、评价内容的字符数量、评价的次数。
[0017]用户筛选处理器,从网络资源中抓取特定群体的用户个人信息库3中每一用户的社交对象的属性信息6,选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户7,重复该步骤,直到特定群体的用户个人信息库3中的全部用户筛选完毕;任何特定群体的社交对象通常都是以相同类型的用户为主,比如一般大学生账号会对同学、老师、学校等账号进行关注。通过这种方法可以进一步确认用户的身份,剔除虚假账号信息的干扰。然后从网络资源中获取入选特定群体用户7的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户8;所述用户的活动规律是指用户上网时间段的分布规律,以及用户做出评价的时间段的分布规律。特定群体往往具有相对固定的活动规律,例如一般大学生用户由于作息时间的限制,上网时段经常出现在晚间或者休息日。马甲、僵尸、水军账号则更多活动在工作日的时间。
[0018]对于特定群体的活跃用户,用户筛选处理器比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库;
所述将其对应的多个特定群体的活跃用户合并为一个是指将多个个人信息合并后形成新的个人信息,同时将多个属性信息合并后形成新的属性信息;所述一致性判断标准是指用户个人信息中用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种具有一致性或相关性。
[0019]—般普通用户只是一个账号对应一个手机号等个人信息,而多个账号对应一个手机号则很可能属于马甲账号情况,只取其中较合理的一条用户数据即可,重复数据则可以合并处理。
[0020]使用样本用户数据库的信息替换用户个人信息库中的信息,并重复上述步骤,直到无法找到重复账号;
样本用户数据库,用于存储经过用户筛选处理器筛选获得的符合单一性判断标准的特定群体的活跃用户信息;
电影评论信息处理器,用于获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,并将全体特定群体的活跃用户的量化信息表存入影评量化信息库9;
所述电影评论信息的各种指标包括但不限于类型、演员、导演、国家、制式、日期,所谓指标的量化是指将电影评论中有关上述指标的信息判断为匹配和不匹配两种结果,并将每种结果给与特定的加权值。
[0021 ]影评量化信息库,用于存储电影评论信息处理器获得的全体特定群体的活跃用户的量化信息表。
[0022]评价指标生成器,从量化信息库9中提取活跃用户的量化信息表制定该用户的观影特征模型,所述量化信息库9是符合特定观影群体特征的一组人群以及与之相关的电影评论信息的集合;将该用户的电影评论信息与观影特征模型比对,利用加权算法得到该活跃用户对电影的关注度数值,将量化信息库9中全部活跃用户对同一部电影的关注度数值相加,得到特定观影群体对该电影的关注度。
[0023]所述电影评论信息至少包括类型、演员、导演、国家、制式、档期几个指标,类型标签可以采用各种分类标准将电影分为2D电影、3D电影、武打片、言情片、历史题材、音乐片、古装片、动画片等,演员和导演标签分别是演员和导演的姓名,包括中文名和英文名;国家标签是电影制作的国家名称;制式标签则是拍摄电影的数据格式,如宽荧幕、高清晰、HDTV、DTV、PAL制、NTSC制等等;档期标签是电影上映的时间段。
[0024]所述电影评论信息至少包括类型、演员、导演、国家、制式、档期几个指标,所述加权算法是用如下公式获得该特定群体的活跃用户对电影的关注度,
A=(2(g+s+r+c+t+d)-(Gg+Ss+Rr+Cc+Tt+Dd))*X,
其中
A是该特定群体的活跃用户对电影的关注度 G表示类型是否匹配,I代表匹配,O代表不匹配^代表权值 S表示演员是否匹配,I代表匹配,O代表不匹配,8代表权值 R表示导演是否匹配,I代表匹配,O代表不匹配,r代表权值 C表示国家是否匹配,I代表匹配,O代表不匹配,c代表权值 T表示格式是否匹配,I代表匹配,O代表不匹配4代表权值 D表示档期是否匹配,I代表匹配,O代表不匹配,d代表权值
X代表电影评价的量化分值,正面评论为I,负面评论为-1,中性评论为O。当然,也可以采用5分制或者其他量化的评价表达方式。
[0025]此公式的基本思路是,一部电影的一个玮度基本属于如果和用户标签相匹配且评论属于肯定,为影片关注度增加一倍权值的观影指数数值。如果不仅匹配而是正面评论,则增加双倍数值,如果评论属于负面,匹配情况下减去一倍数值,不匹配情况下减去双倍数值。
[0026]通过累加每一个电影的基础量化数值及每一个用户对于电影的数值最后计算出一部电影的特定观影群体的观影指数。
【主权项】
1.用于特定人群的观影指数评价系统,其特征在于包括: 系统数据库,包括用于存储用户个人信息的用户信息数据库(I)以及用于存储用户的属性信息的用户属性信息数据库(2),用户信息数据库(I)与用户属性信息数据库(2)之间建立映射关系; 非正常用户的过滤器,用于从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库(3); 数据抓取处理器,用于从电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库(3)中每一用户对任何电影的历史评论数据(4),采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户(5),并将非正常用户从特定群体的用户个人信息库中剔除; 用户筛选处理器,从网络资源中抓取特定群体的用户个人信息库(3)中每一用户的社交对象的属性信息(6),选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户(7),重复该步骤,直到特定群体的用户个人信息库(3)中的全部用户筛选完毕;然后从网络资源中获取入选特定群体用户(7)的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户(8);对于特定群体的活跃用户,用户筛选处理器比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库; 样本用户数据库,用于存储经过用户筛选处理器筛选获得的符合单一性判断标准的特定群体的活跃用户信息; 电影评论信息处理器,用于获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,并将全体特定群体的活跃用户的量化信息表存入影评量化信息库(9); 影评量化信息库,用于存储电影评论信息处理器获得的全体特定群体的活跃用户的量化信息表。 评价指标生成器,从量化信息库(9)中提取活跃用户的量化信息表制定该用户的观影特征模型,所述量化信息库(9)是符合特定观影群体特征的一组人群以及与之相关的电影评论信息的集合;将该用户的电影评论信息与观影特征模型比对,利用加权算法得到该活跃用户对电影的关注度数值,将量化信息库(9)中全部活跃用户对同一部电影的关注度数值相加,得到特定观影群体对该电影的关注度。2.根据权利要求1所述特定人群的观影指数评价系统,其特征在于:所述电影评论信息的各种指标包括但不限于类型、演员、导演、国家、制式、日期,所谓指标的量化是指将电影评论中有关上述指标的信息判断为匹配和不匹配两种结果,并将每种结果给与特定的加权值。3.根据权利要求2所述用于特定人群的观影指数评价系统,其特征在于:所述电影评论信息至少包括类型、演员、导演、国家、制式、档期几个指标,所述加权算法是用如下公式获得该特定群体的活跃用户对电影的关注度, A=(2(g+s+r+c+t+d)-(Gg+Ss+Rr+Cc+Tt+Dd))*X, 其中 A是该特定群体的活跃用户对电影的关注度 G表示类型是否匹配,I代表匹配,O代表不匹配^代表权值 S表示演员是否匹配,I代表匹配,O代表不匹配,8代表权值 R表示导演是否匹配,I代表匹配,O代表不匹配,r代表权值 C表示国家是否匹配,I代表匹配,O代表不匹配,c代表权值 T表示格式是否匹配,I代表匹配,O代表不匹配4代表权值 D表示档期是否匹配,I代表匹配,O代表不匹配,d代表权值 X代表电影评价的量化分值,正面评论为I,负面评论为-1,中性评论为O。4.根据权利要求1或2所述特定人群的观影指数评价系统,其特征在于:所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种。5.根据权利要求1或2所述特定人群的观影指数评价系统,其特征在于:所述用户对任何电影的历史评论数据(4)包括评价对象的名称、评价对象的种类、评价内容、做出评价的时间、评价内容的字符数量、评价的次数。6.根据权利要求1或2所述特定人群的观影指数评价系统,其特征在于:所述用户的活动规律是指用户上网时间段的分布规律,以及用户做出评价的时间段的分布规律。7.根据权利要求1或2所特定人群的观影指数评价系统,其特征在于:所述将其对应的多个特定群体的活跃用户合并为一个是指将多个个人信息合并后形成新的个人信息,同时将多个属性信息合并后形成新的属性信息;所述一致性判断标准是指用户个人信息中用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种具有一致性或相关性。
【文档编号】G06F17/30GK106055657SQ201610386127
【公开日】2016年10月26日
【申请日】2016年6月3日
【发明人】莫倩, 贾承斌, 蔡锦森, 王果
【申请人】北京网智天元科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1