一种视频用户性别分类方法及其装置制造方法

文档序号:6536887阅读:338来源:国知局
一种视频用户性别分类方法及其装置制造方法
【专利摘要】一种视频用户性别分类方法及其装置,利用视频内容的标签,来分析用户的观看行为,从而判别用户的自然属性。特定属性的用户只会观看其感兴趣内容的视频。通过分析用户观看过的内容,可以预测用户的性别属性。本发明能够自动识别用户的性别,从而了解用户的购买倾向,可以投其所好地投放广告,提高广告投放的价值;能够了解用户感兴趣的视频内容,从而为用户提供个性化的视频推荐;可以减少用户观看不感兴趣广告的数量,提升用户的观看体验。
【专利说明】一种视频用户性别分类方法及其装置
【技术领域】
[0001]本申请涉及视频用的性别分类领域,特别的,涉及一种视频用户性别分类方法及
其装置。
【背景技术】
[0002]视频网站盈利的一个重要的收入来源就是广告收入。而目前视频网站上的视频广告投放常常会遇到这样的问题:如何将某些特定的产品定向投放给特定属性的人群。例如:将化妆品广告投放给年轻女性用户,将游戏推荐给男性用户等。用户属性(性别、年龄、月收入、身份职业、受教育程度等)反映了其作为消费者的基本特点,并直接决定他(她)的购买倾向和消费能力。这就需要广告投放系统能够知道用户的属性。然而,目前视频网站的用户大多不会登陆,用户的属性处于未知状态。因此,如何根据用户的观看行为,来判断用户的属性就成了一个非常重要的问题。
[0003]在用户属性的众多类别中,用户性别是用户属性的重要维度。不同性别的用户对于不同的产品广告的接受度就大不相同。因此,如何准确地预测用户的性别,成为现有技术亟需解决的技术问题。

【发明内容】

[0004]本发明的目的在于提出一种根据用户的观看行为来分类用户性别的方法。根据用户观看行为来分类用户性别的方法,通过分析用户的历史观看信息,得到用户感兴趣的内容,从而利用用户观看的视频内容来预测用户的性别属性。
[0005]为达此目的,本发明采用以下技术方案:
一种视频用户性别分类方法,包括如下步骤:
标签属性提取步骤:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户;
特性标签筛选步骤:根据所得到的标签属性,选择性别区分性显著地标签,作为特性标签,过滤掉没有区分性或者区分性小的标签;
标签特征定义步骤:针对每个特性标签的性别比例,得到所述特性标签的标签特征;观看行为特征提取步骤:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;
性别分类模型训练步骤:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器训练得到性别分类模型;
性别分类预测步骤:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,判定其性别属性。
[0006]优选地,所述标签属性提取步骤,具体包括如下步骤:首先,从带标签的视频库中,提取出每一个视频的所有标签,
然后,利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数,
最后,计算每个标签的男女观看比例,从而得到所述标签属性;
所述特性标签筛选步骤,具体包括如下步骤:
首先,设定充分统计量阈值Nt,性别区分性阈值Pt,
然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述,
最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签;
所述标签特征定义步骤具体为,利用公式(I)定义标签特征Fm,
【权利要求】
1.一种视频用户性别分类方法,包括如下步骤: 标签属性提取步骤:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户; 特性标签筛选步骤:根据所得到的标签属性,选择性别区分性显著地标签,作为特性标签,过滤掉没有区分性或者区分性小的标签; 标签特征定义步骤:针对每个特性标签的性别比例,得到所述特性标签的标签特征;观看行为特征提取步骤:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征; 性别分类模型训练步骤:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器训练得到性别分类模型; 性别分类预测步骤:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,判定其性别属性。
2.根据权利要求1所述的,其特征在于: 所述标签属性提取步骤,具体包括如下步骤: 首先,从带标签的视频库中,提取出每一个视频的所有标签, 然后,利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数,` 最后,计算每个标签的男女观看比例,从而得到所述标签属性; 所述特性标签筛选步骤,具体包括如下步骤: 首先,设定充分统计量阈值Nt,性别区分性阈值Pt, 然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述, 最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签; 所述标签特征定义步骤具体为,利用公式(I)定义标签特征Fm,
3.根据权利要求2所述的视频用户性别分类方法,其特征在于: 所述性别分类模型训练步骤,具体包括:利用已知的一组训练数据於 …,(xp y;}为支持向量,该组训练数据包括P个已知性别用户,对于每个已知性别用户,Xi为已知性别用户的观看行为特征,Λ.为已知性别用户的性别标记,男为I,女为-1,利用支持向量机对函数(I)进行最大化:
4.根据权利要求3所述的视频用户性别分类方法,其特征在于: 在所述特性标签筛选步骤中,充分统计量阈值Nt为30,性别区分性阈值Pt为0.7。
5.根据权利要求4所述的视频用户性别分类方法,其特征在于: 在所述性别分类预测步骤中,分类超平面的偏移常数b可调。
6.一种视频用户性别分类装置,包括如下单元: 标签属性提取单元:利用标定用户的观看记录,以及视频的标签信息,提取每一个标签观看人群的男女构成,将所述标签的男女观众所占比例作为所述视频的标签的标签属性,其中所述标定用户指的是已知性别的用户; 特性标签筛选单元:根据所得到的标签属性,选择性别区分性显著地标签,作为特性标签,过滤掉没有区分性或者区分性小的标签; 标签特征定义单元:针对每个特性标签的性别比例,得到所述特性标签的标签特征;观看行为特征提取单元:根据用户的观看记录,找到该用户一段时间内观看的所有视频,将这些视频对应到其各自的特性标签,利用所述特性标签的标签特征,来获得该用户这段时间内观看行为特征;性别分类模型训练单元:通过已知性别用户以及其在一段时间内观看行为特征,利用分类器训练得到性别分类模型; 性别分类预测单元:对于每一个未知性别用户,利用其一段时间内观看行为特征,结合所述性别分类模型,判定其性别属性。
7.根据权利要求6所述的视频用户性别分类装置,其特征在于: 所述标签属性提取单元,具体为: 首先,从带标签的视频库中,提取出每一个视频的所有标签, 然后,利用有标定的用户一段时间内的观看记录统计每一个标签上的不同性别的观看次数, 最后,计算每个标签的男女观看比例,从而得到所述标签属性; 所述特性标签筛选单元,具体为: 首先,设定充分统计量阈值Nt,性别区分性阈值Pt, 然后,以所述标签的统计量作为统计量表述,以所述标签的男女所占比率的差的绝对值作为标签的区分性表述, 最后,分别将所述统计量表述与所述充分统计量阈值Nt做比较,所述区分性表述与性别区分性阈值Pt做比较,将区分性表述小于性别区分性阈值Pt或者所述统计量表述小于所述充分统计量阈值Nt的标签滤除,剩余的标签作为特性标签; 所述标签特征定义单元具体为,利用公式(I)定义标签特征Ftas,
8.根据权利要求7所述的视频用户性别分类装置,其特征在于: 所述性别分类模型训练单元,具体包括:利用已知的一组训练数据於(xp y;}为支持向量,该组训练数据包括P个已知性别用户,对于每个已知性别用户,Xi为已知性别用户的观看行为特征,Λ.为已知性别用户的性别标记,男为I,女为-1,利用支持向量机对函数(I)进行最大化:
9.根据权利要求8所述的视频用户性别分类装置,其特征在于: 在所述特性标签筛选单元中,充分统计量阈值Nt为30,性别区分性阈值Pt为0.7。
10.根据权利要求9所述的视频用户性别分类装置,其特征在于: 在所述性别分类预测单元中,分类超平面的偏移常数b可调。
【文档编号】G06F17/30GK103729785SQ201410037302
【公开日】2014年4月16日 申请日期:2014年1月26日 优先权日:2014年1月26日
【发明者】房晓宇, 江建博, 朱凯泉, 章岑, 张缓迅, 姚键, 潘柏宇, 卢述奇 申请人:合一信息技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1