一种视频终端用户的兴趣识别方法及装置的制造方法_2

文档序号：9220132阅读：来源：国知局

中的每个视频标识仅在一个组合结果中，操作记录中不能组合成组合结果的视频标识的数量最少。
[0034] 步骤103 :针对每个组合结果中的每个视频标识对应的视频，根据该视频的开始播放时间和结束播放时间，计算该视频在每个设定时间区间中的播放时长。
[0035] 其中，例如，设定时间区间有2个，则视频A在每个设定时间区间中的播放时长分别为视频A在第一个设定时间区间的播放时长，和视频A在第二个设定时间区间的播放时长。
[0036] 步骤104:计算每个组合结果中的所有视频标识对应的视频，在每个设定时间区间的播放时长之和。
[0037] 其中，例如，设定时间区间有2个，组合结果中有视频A的视频标识，以及视频B的视频标识，则"在每个设定时间区间的播放时长之和"为视频A和视频B在第一个设定时间区间的播放时长之和，以及视频A和视频B在第二个设定时间区间的播放时长之和。
[0038] 步骤105 :根据每个组合结果在每个设定时间区间的播放时长之和，构建用户兴趣随时间的变化模型，该用户兴趣随时间的变化模型中包括组合结果对应的预设兴趣模型、设定时间区间和播放时长之和之间的三维对应关系。
[0039] 为便于理解本发明提供的视频终端用户的兴趣识别方法，下面对上述各步骤及优化方案进行详细说明，其中：
[0040] 1)、在步骤101中：指定时间段例如是一天、一个星期或者一个月；设定时间区间可以是均匀划分的时间区间，也可以是根据不同家庭成员的生活作息时间划分的时间区间，具体的，例如当指定时间段时一个星期时，设定时间区间可以划分为以下六个区间：
[0041] (1)、周一至周五黄金时段区间：晚上7:00-晚上11:00。
[0042] (2)、周一至周五晚间新闻时段区间：晚上6:30-晚上7:00。
[0043](3)、周一至周五白天时段区间：上午10:00-下午4:00。
[0044] (4)、周一至周五晨间时段区间：上午7:00-上午9:00。
[0045] (5)、周一至周五夜间时段区间：晚上11:00以后。
[0046] (6)、周六、日白天时段区间：周六、日上午10:00-下午5:00。
[0047] 当然，具体实施时还可以按照家庭用户的生活作息时间划分出其他的预设时间区间，本发明对此不做限定。
[0048] 2)、在步骤102中，在一个实施例中，可以根据以下方法建立预设兴趣模型，该方法包括以下步骤：
[0049] 步骤A1 :获取至少两个视频终端中的每个视频终端的预设时长内的用户行为记录，所述用户行为记录中包括：终端标识、播放过的各视频的视频标识。
[0050] 其中，在一个实施例中，预设时长可以是一天、一个星期、一个月等，当然为了能够全面的收集视频终端用户的用户行为记录，以便于收集更多的样本信息用于识别用户的兴趣，预设时长可以根据实际需要设置的长一些。
[0051] 步骤A2 :根据用户行为记录中的终端标识以及视频标识，构造与所述视频终端集合对应的全局特征矩阵；其中，全局特征矩阵中各元素的取值为0或1，元素取值为0时，表示该元素对应终端标识对应的视频终端未播放过该元素对应视频标识对应的视频；元素取值为1时，表示该元素对应终端标识对应的视频终端播放过该元素对应视频标识对应的视频。
[0052] 其中，例如终端标识分别为stbpstb2、stb3;视频标识分别为propro2、pro4、 pro5，若各终端标识对应的视频终端播放过的视频如表1所示，其中，表1中"1"表示终端标识对应的视频终端播放过视频标识对应的视频；"0"表示终端标识对应的视频终端未播放过视频标识对应的视频。
[0053] 表1视频终端播放的视频一览表示例
[0054]

[0055] 那么，根据表1所示的情况，若以终端标识为列，视频标识为行，则组成的全局特征矩阵D如公式（1)所示：
[0056]
[0057] 步滕A3 :对所还全周特祉矩阵进灯聚类，获得至少一个聚类结果；其中，每个聚类结果表示至少n个终端标识和至少m个视频标识的对应关系，该对应关系用于表示所述至少n个终端标识对应的视频终端均播放过所述至少m个视频标识对应的视频，其中，n、m均为大于0的整数。
[0058] 其中，在一个实施例中，步骤A3中得到的聚类结果可以用〈％，V2>表示，其中，％为至少n个视频终端的标识的集合），V2为至少m个视频标识的集合〈VV2>表示％中的每个视频终端均播放过，V2中的每个视频。例如，Vi中有终端标识分别为stbpstb2、stbj9 3个视频终端，V2中有视频标识分别为pro^pro2、pro4、pro；^ 4个视频；那么stbnstb2、 stb3中的每一个视频终端均播放过上述4个视频。
[0059] 通过步骤A3,每一个聚类结果表示一个预设兴趣模型，即表示一类家庭成员所喜爱的一类视频。由此，执行步骤A3后，从全局上将家庭内部的家庭成员的兴趣划分出的不同的类别。
[0060] 其中，在一个实施例中，还可以根据其他的方法构建用户的兴趣模型。例如，采用问卷调查的方法，本发明对此不做限定。
[0061] 3)、其中，在一个实施例中，当所述全局特征矩阵中每一个行号对应一个终端标识时，上述步骤A3,具体包括以下步骤：
[0062] 步骤B1 :针对所述全局特征矩阵的每一个元素，由该元素的值、以及该元素所在的行号和列号，组成一个三元组；并，删除元素的值为〇的三元组。
[0063] 其中，例如，全局特征矩阵行号为i、列号为j的元素的值为V时，则该元素的三元组为<i，j，V〉。步骤B1中删除元素的值为0的三元组，即删除V值为0的三元组。
[0064] 其中，在一个实施例中，步骤B1可具体执行为：记全局特征矩阵的第i行、第j列的值V为一个三元组<i，j，v>，其中，i表示行号、j表示列号，V表示全局特征矩阵的元素的值；以行号为关键字key，将具有相同key的三元组中元素的值为0的三元组删除。这样，以行号为key时，删除元素的值为0的三元组的操作可以以行号为单位分布在不同的计算机上执行，可以实现并行操作，提高聚类的效率，以达到能够快速处理大量数据的目的。
[0065] 步骤B2 :对于剩余的每个三元组，将该三元组视为一个待配对单位，将该三元组的列号视为配对标识，将具有不同配对标识的待配对单位两两配为一对，生成以配对后的待配对标识为key、以行号为值的二元组。
[0066] 其中，例如三元组〈ip1，Vi>，〈ipj2,v2>，<i3,j3,v3>将配对标识两两进行配对得到的二元组分别为：
[0067] (1)、〈〈i，j2>，：其中〈1，j2> 为key，行号h为值；
[0068] (2)、〈〈i，j3>，：其中〈1，j3> 为key，行号h为值；
[0069] (3)、<〈j2,j3>，Q:其中 <j2,j3> 为key，行号h为值。
[0070] 需要说明的是，在本发明实施例中，将具有相同列号集合的二元组视为具有同一 key的二元组。例如，由两个列号组成二元组的key时，作为key的〈jpj2>，与作为key的 <j2, ]\>是同一个key;若由三个或者三个以上的列号组成二元组的key时，列号的顺序不受限制，只要key中包括的列号相同即可视为同一key。
[0071] 其中，在一个实施例中，可以对属于同一行号的剩余三元组执行步骤B2的操作，这样步骤B2操作可以分布在不同的计算机上执行，从而实现并行操作，提高聚类的效率，以达到能够快速处理大量数据的目的。
[0072] 步骤B3 :取出所有key相同的二元组组成二元组集合。
[0073] 步骤B4 :针对每个二元组集合，若该二元组集合中的二元组个数小于n，则删除该二元组集合。
[0074] 步骤B5 :对于执行步骤B4后剩余的每个二元组集合，将该二元组集合中的每个二元组进行倒置，得到以行号为key、以配对后的配对标识为值的倒置二元组；以及，当该二元组集合中包括至少m个列号时，将该二元组集合作为一个聚类结果。
[0075]

完整全部详细技术资料下载

当前第2页1 2 3 4 5