一种基于lda模型的电视用户家庭成员分析方法

文档序号:9755257阅读:464来源:国知局
一种基于lda模型的电视用户家庭成员分析方法
【技术领域】
[0001 ] 本发明设及一种基于LDA(Latent Dirichlet Allocation隐狄利克雷分布)模型 的电视用户家庭成员分析方法,属于智能电视、机器学习领域。
【背景技术】
[0002] 随着互联网时代和大数据时代的到来,智能互联网电视的迅猛发展,人们观看的 电视节目也不仅仅局限于直播电视节目,通过互联网,电视用户可W根据自己的兴趣更方 便快捷的选择更多最新或者热口影片。电影数量级的迅速增长带来的信息过载问题,给用 户带来很多困扰,让用户无法准确高效的获得自己的兴趣影片。互联网规模的迅速增长带 来了信息超载的问题,过量信息同时呈现使得用户无法很便捷快速的获取对自己感兴趣的 部分,使信息使用效率降低。现在的互联网应用中,越来越多智能的推荐系统被开发出来并 获得广大用户的信赖和使用。
[0003] 现在的智能电视推荐系统是基于用户观影历史记录作为推荐依据。但由于智能电 视运样一种由多名用户共享的设备,因为用户类别的不同、各个用户活跃时间段不同,对推 荐的影片和推荐不同类别影片的时间也会有多种不同的需求,如果仅仅根据影片观看历史 记录来推荐影片而不考虑区分电视用户的类别和用户活跃的时间段,可能会出现在某一时 间当一名用户打开电视时推荐的节目是另外一名用户感兴趣的节目。
[0004] 现有的电视智能电视推荐系统,因为没有电视用户家庭成员信息和各家庭成员的 活跃时间段,因此在推荐过程中会有一定的局限性,如果要达到较好的推荐效果,实现更人 性化的推荐,得到用户家庭成员信息和各个成员的活跃时间将对推荐系统有较好的完善, 使推荐结果更加人性化。

【发明内容】

[000引本发明的目的就是为了解决上述问题,提供一种基于LDA模型的电视用户家庭成 员分析方法,LDA模型可W将相当数量的影片训练分类,生成主题,并给出影片在各个主题 上的分布概率,根据影片的概率分布可W推断影片的类别,根据用户观看记录和影片类别, 就能分析用户成员组成。
[0006] 为了实现上述目的,本发明采用如下技术方案:
[0007] -种基于LDA模型的电视用户家庭成员分析方法,包括如下步骤:
[0008] 步骤(1):提取数据库中影片的信息,对影片信息进行分词,所述影片是电影或电 视节目;所述影片信息包括标题、标签和简介;
[0009] 步骤(2):将步骤(1)的分词后的词语作为LDA模型输入向量;通过LDA模型的计算 得到影片所设及的各个主题、分词后的词语在各个主题上的分布概率和影片在各个主题上 的分布概率;一个主题代表一种类型的影片;
[0010] 步骤(3):-天24小时均匀划分为若干时间段,根据用户在的不同时间段内观看的 影片历史记录,对用户进行建模,得到用户特征向量;
[0011] 步骤(4):分析步骤(3)的用户的特征向量,根据用户在各个主题上的概率分布,推 断用户的成员组成,然后结合用户特征向量分析家庭中每名用户活跃的时间段;
[0012] 步骤(5):当电视再次被打开时,根据打开的时间所归属的时间段找到对应的用户 特征向量,根据用户特征向量找出用户偏爱的影片主题,推断出的家庭成员类别,并进行节 目推荐。
[001引所述步骤(1)对影片信息进行分词时保留动词、名次、形容词、副词、时间词和地点 词。
[0014]所述步骤(2):影片m在各个主题上的分布概率计算公式如下:
[0016] 其中,k代表第k个主题,巧^表示影片m生成主题k的次数,a为参数向量。
[0017] 所述步骤(2)中分词后的词语在各个主题中的分布概率计算公式如下:
[0019] 其中t代表词语,4表示第k个主题生成词语t的次数,0为参数向量。
[0020] 所述步骤(2)中各个主题包括:动漫、动画、国产动画、故事、冒险、中国大陆、朋友、 大陆、世界、动画电影、讲述、一起、宝贝、幼儿、童话、生活、快乐、动画片、益智、亲子。
[0021] 所述用户的成员组成包括:老人、儿童、中年男女、青年男女。
[0022] 所述步骤(3)观看的影片的历史记录包括:每个时间段内用户观看过的所有的影 片,每天的设定时间段内每个影片被观看的次数和设定天数的同一个时间段内观看同一个 影片的总次数;
[0023] 所述步骤(3)用户特征向量的计算过程为:通过将设定天数的设定时间段内各个 影片被观看的次数和设定天数的同一个时间段内观看所有影片的总次数的比值与影片在 各个主题上的分布概率进行相乘,得到用户在每个时间段内在各个主题上的概率分布,即 用户特征向量;
[00巧]本发明的有益效果:
[0026] 1影片数量繁多,通过LDA可W把影片归类;
[0027] 2分析出家庭用户组成可W有针对性的对智能电视的推荐系统进行有益的补充;
[0028] 3将一天划分出时间段可W分析各成员习惯的观看时间,在习惯时间内推荐符合 各成员特点的影片。
【附图说明】
[0029] 图1为本发明的方法流程图。
【具体实施方式】
[0030] 下面结合附图与实施例对本发明作进一步说明。
[0031] 家庭成员分析步骤包括:
[0032] 1.将数据库里面的影片信息分词
[0033] 提取数据库中影片的信息(电影标题、电影标签和电影简介),对标题和简介的内 容进行分词操作,保留动词、名次、形容词、副词、时间词、地点词。分词的目的是将分词结果 W特定的格式作为LDA模型的学习输入,作为LDA主题模型的训练输入向量。
[0034] 1.1影片分词前信息
[0035] Title:聪明的一休
[0036] Summary:本片讲述一休用自己的机智和勇气帮助那些贫困的人、教训那些仗势欺 人的人,给人留下了很深的印象。
[0037] Tag:[日本,动漫,日韩动画,幼儿,矢吹公郎,石黒育,一休,藤田淑子,山田俊司, 野田圭一,桂玲子,吉田理保子,聪明,益智,情感,励志]
[003引1.2分词后信息
[0039] title:聪明/
[0040] Summary:讲述/机智/勇气/帮助/贫困/教训/仗势欺人/留下/印象/
[0041 ] Tag:[日本,动漫,日韩动画,幼儿,矢吹公郎,石黒育,一休,藤田淑子,山田俊司, 野田圭一,桂玲子,吉田理保子,聪明,益智,情感,励志]
[0042] 1.3将分词后的影片信息转化为LDA主题模型的学习输入格式
[0043] [日本][动漫][日韩动画][幼儿][矢吹公郎][石黒育][一休][藤田淑子][山田俊 司][野田圭一][桂玲子][吉田理保子][聪明][益智][情感][励志][聪明][讲述][机智] [勇气][贫困][教训][仗势欺人][留下][印象]
[0044] 2. LDA主题模型生成主题
[004引分词所得到的结果作为LDA主题模型的输入向量,LDA根据学习输入向量,进行迭 代运算,生成多个不同的主题,一个主题可W认为代表着某一种类型的影片。同时也会得到 某一部影片在各主题上的分布概率。
[0046]影片m在各主题上的分布概率计算公式如下:
[004引其中k代表第k个主题,巧A表示影片m生成主题k的次数,a为参数向量。 m
[0049]词语在主题中的分布概率计算公式如下:
[0051] 其中t代表词语,4表示第k个主题生成词语t的次数,e为参数向量。
[0052] 2.1主题表
[0053] 表1 19个主题
[0055] 表2主题9动漫动画类中的关键字内容
[0057] 2.2某部影片(聪明的一休)在各主题上的概率分布
[0058] 表3某部影片(聪明的一休)在各主题上的概率分布
[0060] 根据影片的特征向量可W看出《聪明的一休》,主题2、9、11、16的概率分别为 0.1014、0.3333、0.1594、0.1014比在其他主题上的概率大很多,取大于0.1的主题号码;
[0061] 其中,主题2、9、11、16分别代表电视剧、动漫、日本、幼儿主题。
[0062] 3.用户特征向量建模
[0063] 考虑到周末用户观看电视行为变化较大,因此时间段划分只是对于工作日,即对 周一到周五运五天就行时间段划分。提取某一时间段内(0-23小时)用户观看过的视频记 录。例如19点,获取该时间段(19点)用户观看过的所有影片,获取=个月该时间段内各个影 片的观看次数和=个月该时间段内观看所有影片的总次数,将各影片观看次数和观看所有 影片的总次数的比值乘W影片在各主题上的的概率分布,运样就可W得到该用户在该时间 段内在各主题上的概率分布,根据用户在该时间段内的特征向量分析推断用户家庭成员组 成。
[006引因为选取的观看记录是3个月的。比如:
[0066] 设定天数的设定时间段内每个影片被观看的次数是=个月中8点到9点各个影片 被观看的次数,
[0067] 设定天数的同一个时间段内观看所有影片的总次数是=个月中8点到9点全部影 片被播放的次数。
[0068] 如果电视在19点被打开,根据已有的间段内的用户
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1