电视用户画像的构建方法与流程

文档序号:11411339阅读:934来源:国知局

本发明涉及利用用户数据进行用户画像的构建方法,具体涉及一种电视用户画像的构建方法。



背景技术:

随着时代的发展和进步,现在几乎每家每户都会有电视,用户会观看各个类型的电视节目,而随着网络的发展各个类型的视频节目冲击着电视用户。对于电视用户来说,每个类型的电视节目会有许多,而客户端中显示的视频内容有限,用户从大量的视频中逐一选取喜爱的节目比较费时。而对于电视厂商来说,面对差异化的电视用户,如果能够了解用户的喜好,能够为用户推荐其喜欢的电视节目,为用户提供个性化服务,不仅能够很好的留住用户,而且能够吸引更多的用户来关注该电视产品,具有重要意义。

同时语音识别系统已经应用到智能电视中,因此,在采集数据时,会有一类语音数据。语音数据是用户所说的内容,其千遍万化,用户会根据自己的个性或习惯来说自己想看的内容。目前对于语音识别主要是理解用户所说的意图,比如用户说“我想看电影”,通过目前的语义理解能根据关键词“看”和“电影”来识别用户的意图,然而如果用户说“我想看甄嬛传”,目前能够识别到用户“看”的动作,而对于“甄嬛传”到底是什么视频无法区分。



技术实现要素:

本发明克服了现有技术的不足,提供一种电视用户画像的构建方法。

为解决上述的技术问题,本发明采用以下技术方案:

一种电视用户画像的构建方法,所述的方法包括以下步骤:

步骤一、通过数据平台采集电视终端用户的数据并解析分类;将采集的数据分为三类,包括:a类:用户的基本属性数据;b类:直接通过用户点击得到的用户数据;c类:用户通过语音功能观看的电视数据;

步骤二、根据电视用户的行为数据预定义电视用户画像标签;

步骤三、对获取的b类数据进行匹配分类,构建b类数据电视用户画像一级标签;

步骤四、对获取的c类数据进行分类,构建c类数据电视用户画像一级标签;

步骤五、根据b类数据和c类数据分别构建b类数据电视用户画像二级标签和c类数据电视用户画像二级标签;

步骤六、将电视用户画像每类一级标签和二标签进行合并统计,计算每类数据观看的总次数和总时长,以及统计每类数据中二级标签信息的频次;

步骤七、根据统计的数据,分析电视用户的节目类型偏好属性数据,并根据所述偏好属性数据构建电视用户画像标签;

步骤八、将构建的电视用户画像标签更新预定义的电视用户画像标签。

更进一步的技术方案是所述的步骤一包括:对采集的数据通过hadoop中的mapreduce框架解析采集到的源数据,提取用户的信息。

更进一步的技术方案是所述的步骤三包括:

步骤1,定时解析更新媒资平台的数据,并将该数据放到媒资数据库中;

步骤2,当b类数据中有对应的序列号的视频信息时,直接与媒资数据库的数据信息的序列号进行匹配,得到用户观看视频信息的具体信息;当b类数据中仅有具体的名称信息时,根据名称或者名字本身的数据与媒资数据库中数据进行匹配对其进行分类。

更进一步的技术方案是所述的步骤四包括:

步骤a,根据媒资数据库本身的分类标签,分别构造节目类型的用户词典,并定时更新;

步骤b,对于电视中的应用,则根据启动应用的关键词识别为应用的类型。

更进一步的技术方案是所述的步骤四还包括:当至少两种类型的词典同时包含用户所说的内容时,则需对所述至少两种类型词典设定优先级,优先匹配级别高的词典信息。

更进一步的技术方案是所述的步骤五还包括:对电视用户每天所看的内容提取对应的标签,并定时更新,放到数据库中。更进一步的技术方案是所述的步骤六包括:每类信息观看的总次数:

其中,s为该用户观看该类信息的总的次数,s为该用户观看该类信息的一

天内观看的次数;

每类信息观看的总时长:

其中,d为该用户观看该类视频的总的时长,d为该用户观看该类信息中一

天内观看的总时长。

更进一步的技术方案是所述的步骤六还包括:在统计每类信息观看的次数以及时长的同时,对每类信息中的二级标签出现的频次也进行统计。

更进一步的技术方案是所述的步骤六还包括:在统计每类信息观看的次数以及时长的同时,对该电视用户这段时间内使用的语音总次数也进行统计,并与电视用户各类一级标签的次数总和进行比较。

与现有技术相比,本发明实施例的有益效果之一是:本发明通过分析电视用户观看行为数据,通过对采集的不同类型的数据进行类型的抽取,对不同类型的数据从多维度进行分析,赋予不同的权值,得到用户画像标签值,从而了解用户喜好,更好的为用户提供个性化服务。

附图说明

图1为本发明一个实施例的方法流程示意图。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

下面结合附图及实施例对本发明的具体实施方式进行详细描述。

在下面的详细描述中,出于解释的目的描述了许多具体描述以便能够彻底理解所公开的实施方案,然而,很明显一个或多个实施方式可以在不使用这些具体描述的情况下实施,在其他实例中,示意性地显示已知结构和装置,以便简化附图。

如图1所示,根据本发明的一个实施例,本实施例公开一种电视用户画像的构建方法,通过进一步对语音数据具体分类,识别出用户具体观看的视频类型,更好的构建用户画像。

目前由于不同的电视本身所带的功能不同,采集的数据也不同,例如高端智能电视有语音功能,而低端产品则不具有此功能。因此,对于从终端采集的电视用户的数据来说,可以大体分为三类:a类为用户的基本属性数据;b类为直接通过用户点击得到的用户数据;c类为用户通过语音功能观看的电视数据。对于普通用户来说,采集的数据只有ab两类数据,而对于高端产品用户会有abc三类数据。对于a类和b类数据,一般会有一定的规则,因此较容易处理。而对于语音数据即用户所说的语音数据,其千遍万化,用户会根据自己的个性或习惯来说自己想看的内容。

而构建用户画像首先预定于一些用户画像标签,使我们能够更好地分析数据,更有目标地去构建用户画像。

具体的,如图1所示,本实施例电视用户画像的构建方法包括以下步骤:

步骤一、首先通过数据平台采集电视终端用户的数据并解析。对采集的数据通过hadoop中的mapreduce框架解析采集到的源数据,提取用户的信息。对于a类和b类数据,比较规则,可以通过通常的方法直接获取用户观看的视频类型,而c类语音数据则为:我想看甄嬛传,打开应用,我想听刘德华的歌等语音采集数据信息。

步骤二、预定义用户画像标签。首先根据电视用户的行为数据大概设定用户画像的标签,以此更具有针对性的对用户数据进行分析。

步骤三、对获取的b类数据进行匹配得到用户的各个类型一级标签。

step1,首先每天定时解析更新媒资平台的数据即用户观看平台的所有视频信息,并把该视频具体数据放到数据库中,称为媒资数据库。由于该视频数据本身就会具有一定的分类标签,所以根据该平台的分类信息来对视频类数据进行分类,比如电影、电视剧、体育、动漫、综艺等等。

step2,对于b类数据,是从各种源数据进行抽取,数据繁杂,且规则不一致,包括用户点击腾讯客户端视频数据,电视本身的门户海报数据等等。对于直接有对应的序列号(id)的视频信息,可以直接与媒资平台的数据信息的id进行匹配,就会得到用户观看视频信息的具体信息,而对于只有具体的名称信息,根据名称或者名字本身的数据与媒资数据进行匹配对其进行分类。

步骤四、对获取的c类数据进行分类,获取具体的一级标签。

step1,根据媒资平台数据库本身的分类标签,分别构造电影用户词典、电视剧用户词典、动漫词典、体育词典等等,同时利用爬虫技术收集所有演员、歌手、国家、区域构成对应的词典等等,并且每天定时更新这些数据。

step2,对于电视中的应用,比如“打开q小视”,则会根据关键词“打开”识别为意图为应用的类型。当用户说的内容为“我想看甄嬛传”,识别出关键词“看”,能够分析出用户有看视频的意图,但是具体观看的是什么类型的内容无法区分,这种分析只能够对用户的行为进行大致分类。而本文对于具体的内容,即“看”和“打开”后面的具体内容,根据之前构造词典进行分词,对用户动词后面的内容利用中文分词工具并结合词典内容进行分词,将用户信息中的“甄嬛传”提取出来,并与媒资数据库进行关联匹配得到用户的具体观看数据。

step3,当电影和电视剧同时包含用户所说的内容时,就要设定优先级,在此设定电影的优先级高于电视剧,就会优先匹配电影词典中的信息,其他标签也是如此。

步骤五、将b类和c类数据分别获取每个用户的二级标签。

将b类和c类的内容分别进行分类后,获取用户观看信息的具体内容。对于b类数据可以直接匹配媒资数据来获取视频类型的具体信息。如“甄嬛传”电视剧中的演员、导演、年代等。而对于c类语音数据,当用户说的是具体的电视剧名称时,可以根据媒资平台的数据直接获得该电视剧的演员、导演、年代、类型等等,但当用户说的是“我想看周星驰的电影”时,可以根据电影关键字来说明其是电影,而且根据演员词典能够匹配到“周星驰”进而将其放到电影中的演员列表中。对电视用户每天所看的内容提取对应的标签,并定时更新,放到数据库中。

步骤六、将b类和c类的数据中对应的每个用户的每类信息进行合并统计,计算每类信息观看的总次数和总时长,以及统计每类信息中具体的二级标签信息的频次。

每类信息观看的总次数:

其中,s为该用户观看该类信息的总的次数,s为该用户观看该类信息的一天内观看的次数。

每类信息观看的总时长:

其中,d为该用户观看该类视频的总的时长,d为该用户观看该类信息中一天内观看的总时长。

在统计每类信息观看的次数以及时长的同时,对每类信息中的二级标签出现的频次也进行了统计。比如对于电影类信息在计算每个用户观看的电影的个数以及观看的总时长的同时,对电影中的演员,导演,类型等二级标签中每个演员、导演、类型出现的所有次数进行统计。该统计能够在一段时间内反映出该用户喜欢什么样的影视演员,什么类型的电影,可以在以后根据构建的用户画像为该用户推荐该演员参与的影片或者推荐新上映的用户喜欢的类型的电影。比如当电影演员中周星驰的次数最高时,说明该用户非常喜欢周星驰。

在统计每类信息的同时,对该用户这段时间内使用的语音总次数也进行统计,并与用户各类一级标签的次数总和进行比较。这不仅能够反映出该用户对语音功能的偏好,而且能够反映出该用户使用语音功能搜索观看内容的成功率,这也从侧面反映了该用户使用语音功能的趋势。

步骤七、最后综合统计所有用户的各类一级标签,综合考虑每类一级标签的观看次数及时长等信息,例如对于电影一级标签,可以先对所有用户观看电影个数进行汇总,画出“用户数量-电影个数”曲线图,分析用户电影观看的分布比例,设定当用户观看电影的个数大于某个值时(阈值)即为电影达人,更准确的分析用户信息,确定用户偏好,并将用户的基本属性数据添加进来构建用户画像。

步骤八、经过一系列的数据分析,根据提取的用户画像标签来更新预定义的用户画像标签,完善用户画像。

本实施例通过分析电视用户观看行为数据,通过对采集的不同类型的数据进行类型的抽取,对不同类型的数据从多维度进行分析,赋予不同的权值,得到用户画像标签值,从而了解用户喜好,更好的为用户提供个性化服务。

在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”等,指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说,结合任一个实施例描述一个具体特征、结构或者特点时,所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。

尽管这里参照发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外,对于本领域技术人员来说,其他的用途也将是明显的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1