一种用户画像的生成方法及装置与流程

文档序号：17468597发布日期：2019-04-20 05:40阅读：303来源：国知局

本发明涉及数据处理技术领域，特别是涉及一种用户画像的生成方法及装置。

背景技术：

随着互联网的迅速发展，网络视频已经成为人们获取视频信息和娱乐信息的主要来源之一。并且视频数量在快速增长，各大视频网站或者客户端为了提高用户的体验效果，往往会根据视频用户的喜爱程度对用户进行相应的视频推荐。向用户推荐视频信息时采用的关键技术之一是建立用户画像，用户画像又称用户角色，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。我们在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。

现有技术方案虽然可以满足视频类型有单一喜好的用户需求，但随着用户对观看视频的需求更为多样，无法实在推荐到用户真正喜好的视频内容，不能满足用户复杂的视频需求，用户往往可能浪费更多时间在浏览和观看自己并不感兴趣的视频内容，降低了用户的使用体验，进而必将影响视频应用或网站的推广。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用户画像的生成方法及装置。

依据本发明的一方面，提供了一种用户画像的生成方法，包括：

获取多个视频账户的视频点击行为信息，依据所述视频点击行为信息确定各视频账户的用户表示，所述用户表示用于标识视频账户行为特征；

基于所述用户表示按照预设聚类算法对所述多个视频账户进行聚类，获取聚类后各类视频账户的历史点击视频对应的视频标题；

提取各类视频账户的历史点击视频对应的视频标题中的关键词，从提取的关键词中选取符合预设条件的关键词，依据所述符合预设条件的关键词生成相应类别视频账户的用户画像。

可选地，所述视频点击行为信息包括：视频账户所属用户点击过的视频对应的标题。

可选地，获取多个视频账户的视频点击行为信息，包括：

收集多个视频账户的历史视频数据，从收集到历史视频数据中解析出视频标题；

获取解析到的视频标题并将其作为所述多个视频账户的视频点击行为信息。

可选地，依据所述视频点击行为信息确定各视频账户的用户表示，包括：

将所述多个视频账户对应的视频标题进行分词处理，得到多个词语单元；

统计各视频账户对应的词语单元出现的频率，将出现频率大于指定频率阈值的词语单元作为相应视频账户的用户表示。

可选地，提取各类视频账户的历史点击视频对应的视频标题中的关键词，包括：

将各类视频账户的历史点击视频对应的视频标题进行分词操作，得到多个词语单元；

从所述分词操作得到的多个词语单元中提取出与视频特征有关的多个关键词。

可选地，从提取的关键词中选取符合预设条件的关键词，依据所述符合预设条件的关键词生成相应类别视频账户的用户画像，包括：

对于任一类视频账户，统计与其对应的各关键词的出现频率；

选取出现频率大于预设频率值的关键词，依据选取出的关键词生成所述任一类视频账户的用户画像。

可选地，从提取的关键词中选取符合预设条件的关键词，依据所述符合预设条件的关键词生成相应类别视频账户的用户画像，包括：

对于任一类视频账户，统计与其对应的各关键词的出现频率；

基于统计出的关键词的出现频率，对所述任一类视频账户对应的多个关键词进行排序；

选取排名大于预设排名的关键词，依据选取出的关键词生成所述任一类视频账户的用户画像。

可选地，所述方法还包括：

当监测到任意视频账户的登录操作时，确定所述任意视频账户所属视频账户类别；

获取所述任意视频账户所属视频账户类别的用户画像，为所述任意视频账户推荐与获取到的用户画像相关的视频数据。

可选地，所述方法还包括：

获取多个视频账户未点击视频的视频标题，基于获取的未点击视频的视频标题为各视频账户添加用户标签；

当监测到任意视频账户的登录操作时，确定所述任意视频账户所属视频账户类别；

获取所述任意视频账户的用户标签，分析所述用户标签中是否存在与确定的视频账户类别中其他视频账户的用户表示相匹配的用户标签；

若是，将与其他视频账户的用户表示相匹配的用户标签相关的视频数据推荐给所述任意账户。

可选地，所述预设聚类算法包括k-means聚类算法。

依据本发明的另一方面，还提供了一种用户画像的生成装置，包括：

第一确定模块，适于获取多个视频账户的视频点击行为信息，依据所述视频点击行为信息确定各视频账户的用户表示，所述用户表示用于标识视频账户行为特征；

聚类模块，适于基于所述用户表示按照预设聚类算法对所述多个视频账户进行聚类，获取聚类后各类视频账户的历史点击视频对应的视频标题；

生成模块，适于提取各类视频账户的历史点击视频对应的视频标题中的关键词，从提取的关键词中选取符合预设条件的关键词，依据所述符合预设条件的关键词生成相应类别视频账户的用户画像。

可选地，所述视频点击行为信息包括：视频账户所属用户点击过的视频对应的标题。

可选地，所述第一确定模块还适于：

收集多个视频账户的历史视频数据，从收集到历史视频数据中解析出视频标题；

获取解析到的视频标题并将其作为所述多个视频账户的视频点击行为信息。

可选地，所述第一确定模块还适于：

将所述多个视频账户对应的视频标题进行分词处理，得到多个词语单元；

统计各视频账户对应的词语单元出现的频率，将出现频率大于指定频率阈值的词语单元作为相应视频账户的用户表示。

可选地，所述生成模块还适于：

将各类视频账户的历史点击视频对应的视频标题进行分词操作，得到多个词语单元；

从所述分词操作得到的多个词语单元中提取出与视频特征有关的多个关键词。

可选地，所述生成模块还适于：

对于任一类视频账户，统计与其对应的各关键词的出现频率；

选取出现频率大于预设频率值的关键词，依据选取出的关键词生成所述任一类视频账户的用户画像。

可选地，所述生成模块还适于：

对于任一类视频账户，统计与其对应的各关键词的出现频率；

基于统计出的关键词的出现频率，对所述任一类视频账户对应的多个关键词进行排序；

选取排名大于预设排名的关键词，依据选取出的关键词生成所述任一类视频账户的用户画像。

可选地，所述装置还包括：

第二确定模块，适于当监测到任意视频账户的登录操作时，确定所述任意视频账户所属视频账户类别；

第一推荐模块，适于获取所述任意视频账户所属视频账户类别的用户画像，为所述任意视频账户推荐与获取到的用户画像相关的视频数据。

可选地，所述装置还包括：

添加模块，适于获取多个视频账户未点击视频的视频标题，基于获取的未点击视频的视频标题为各视频账户添加用户标签；

第三确定模块，适于当监测到任意视频账户的登录操作时，确定所述任意视频账户所属视频账户类别；

分析模块，适于获取所述任意视频账户的用户标签，分析所述用户标签中是否存在与确定的视频账户类别中其他视频账户的用户表示相匹配的用户标签；

第二推荐模块，适于，若所述分析模块分析所述用户标签中存在与确定的视频账户类别中其他视频账户的用户表示相匹配的用户标签，将与其他视频账户的用户表示相匹配的用户标签相关的视频数据推荐给所述任意账户。

可选地，所述预设聚类算法包括k-means聚类算法。

依据本发明的另一方面，还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行上文任意实施例所述的用户画像的生成方法。

依据本发明的另一方面，还提供了一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行上文任意实施例所述的用户画像的生成方法。

在本发明实施例中，获取多个视频账户的视频点击行为信息，依据视频点击行为信息确定各视频账户的用户表示，用户表示用于标识视频账户行为特征。基于用户表示按照预设聚类算法对多个视频账户进行聚类，获取聚类后各类视频账户的历史点击视频对应的视频标题。提取各类视频账户的历史点击视频对应的视频标题中的关键词，从提取的关键词中选取符合预设条件的关键词，依据符合预设条件的关键词生成相应类别视频账户的用户画像。由此，本发明实施例通过利用用户点击过的视频的标题，可以快速地确定出能够体现用户特点和爱好的用户表示。利用用户表示对不同的视频账户进行聚类，且依据用户点击过的视频的标题作为相应类别视频账户的用户画像，以在后续用户想要观看视频时，可以基于用户对应的用户画像来为其推荐更加符合用户兴趣爱好的视频，不仅节约了用户从大量视频内容中查找自己感兴趣的视频的时间，还有效地提高了用户的视频观看体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的用户画像的生成方法的流程示意图；

图2示出了根据本发明一个实施例的聚类算法的流程示意图；

图3示出了根据本发明一个实施例的用户画像的生成装置的结构示意图；

图4示出了根据本发明另一个实施例的用户画像的生成装置的结构示意图；

图5示出了根据本发明又一个实施例的用户画像的生成装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决上述技术问题，本发明实施例提供了一种用户画像的生成方法，该方法可以应用于视频app，也可以用于视频网站。这里视频app可以是通常的视频软件，如360影视大全、优酷视频等，也可以是短视频app，如快视频、抖音短视频等。图1示出了根据本发明一个实施例的用户画像的生成方法的流程示意图。参见图1，该方法至少包括步骤s102至步骤s106。

步骤s102，获取多个视频账户的视频点击行为信息，依据视频点击行为信息确定各视频账户的用户表示，用户表示用于标识视频账户行为特征。

步骤s104，基于用户表示按照预设聚类算法对多个视频账户进行聚类，获取聚类后各类视频账户的历史点击视频对应的视频标题。

步骤s106，提取各类视频账户的历史点击视频对应的视频标题中的关键词，从提取的关键词中选取符合预设条件的关键词，依据符合预设条件的关键词生成相应类别视频账户的用户画像。

本发明实施例通过利用用户点击过的视频的标题，可以快速地确定出能够体现用户特点和爱好的用户表示。利用用户表示对不同的视频账户进行聚类，且依据用户点击过的视频的标题作为相应类别视频账户的用户画像，以在后续用户想要观看视频时，可以基于用户对应的用户画像来为其推荐更加符合用户兴趣爱好的视频，不仅节约了用户从大量视频内容中查找自己感兴趣的视频的时间，还有效地提高了用户的视频观看体验。

参见上文步骤s102，在本发明一实施例中，视频点击行为信息可以包括视频账户所属用户点击过的视频对应的标题，当然，还可以包含其他的视频相关信息，如视频的内容简介、视频类型等等，本发明实施例对此不做具体的限定。

例如，视频点击行为信息可以包括视频账户所属用户点击过的视频对应的标题，那么，在获取多个视频账户的视频点击行为信息时，可以基于用户的视频账户来获取。具体的，首先，收集多个视频账户的历史视频数据。然后，从收集到历史视频数据中解析出视频标题。最后，获取解析到的视频标题并将其作为多个视频账户的视频点击行为信息。

继续参见上文步骤s102，在本发明一实施例中，若视频点击行为信息为视频账户所属用户点击过的视频对应的标题时，依据视频点击行为信息确定各视频账户的用户表示的过程中，可以先对多个视频账户对应的视频标题进行分词处理，以得到多个词语单元。进而，统计各视频账户对应的词语单元出现的频率，依据统计结果选取出现频率大于指定频率阈值的词语单元，并将选取出的词语单元作为相应视频账户的用户表示。在该实施例中，需要说明的是，由于一些词语，如介词、连词、助词、语气词等虚词本身没有实在的意义，因此，在分词处理后可以将这些词语去除。在统计词语的出现频率时，不考虑这些没有实在意义的词语。

例如，假设指定频率阈值为30％。获取到的视频账户a所属用户点击过的视频对应的视频标题包括“酸菜鱼的烹饪方法”、“糖醋排骨的烹饪过程”、“拔丝红薯的烹饪技巧”。那么，通过对视频标题“酸菜鱼的烹饪方法”进行分词处理后，得到的词语包括“酸菜鱼”、“烹饪”、“方法”。对视频标题“糖醋排骨的烹饪过程”进行分词处理后，得到的词语包括“糖醋排骨”、“烹饪”、“过程”。对“拔丝红薯的烹饪技巧”分词处理后，得到的词语包括“拔丝”、“红薯”、“烹饪”、技巧。通过统计得到“烹饪”出现的频率约为33％，大于指定频率阈值30％，此时，可以将“烹饪”作为视频账户a的用户表示。

参见上文步骤s104，在本发明一实施例中，预设聚类算法可以采用k-means聚类算法。由于传统的聚类方法在数据的聚类过程中会存在一些问题，一个是数据的更新问题，另一个是聚类的中心点不可控，当其在聚类过程中迭代到一定程度时，最后的聚类结果是否符合要求、中心点是否准确均无法判断，因此，也会影响最终的聚类结果的准确性。因此，面对这些问题本发明实施例在聚类的过程中引入了纯度计算，以对聚类结果进行监督，从而在优化待处理数据聚类过程的同时，可以提升聚类结果的准确性。参见图2，本发明方案的聚类算法可以包括如下步骤s1-s4。

步骤s1，获取包括多个聚类对象的待处理数据以及上述待处理数据的指定目标类别数。

在该步骤中，聚类对象为多个视频账户，而聚类对象的待处理数据为视频账户的用户表示。

步骤s2，依据各聚类对象的类别属性将待处理数据中的各聚类对象进行分类，获得指定目标类别数的聚类类别。

在该步骤中，可优先采用k-means聚类算法对各聚类对象进行分类。具体过程包括步骤s2-1至步骤s2-5。

s2-1，基于指定目标类别数随机初始化待处理数据的各聚类中心。

s2-2，计算上述待处理数据中每个聚类对象到各聚类中心的距离，并以最小距离将各聚类对象分类到对应的聚类中心所在的聚类类别。

对于待处理数据中的各聚类对象来讲，可以看做是一个多维空间中的多个数据点，在初始聚类时，由于已经获知指定目标类别数如k(k可以为自然数，根据不同需求进行设置)，即待处理数据需要分为k类，因此，可先基于该指定目标类别数随机初始化待处理数据的各聚类中心，选取k个聚类对象作为初始聚类中心，再对于其他的聚类对象计算到每个所选取聚类中心的距离，进而将各聚类对象分类到与其距离最近的聚类中心。

一般情况下，对多个聚类对象进行聚类时，需要进行多次迭代处理才能达到最优效果，因此，在上述步骤s2-2之后，还可以包括：

s2-3，计算各聚类类别的新聚类中心；

s2-4，获取每个聚类对象到新聚类中心的距离，并以最小距离将各聚类对象分类到对应的新聚类中心所属的聚类类别；

s2-5，迭代计算各聚类类别的新聚类中心指定次数，直至各聚类类别的新聚类中心的变化距离在预设范围内。

在上述步骤s2-3计算各聚类类别的新聚类中心时，由于在上述步骤s2-2已经对各聚类对象聚类以获得指定目标类别数的聚类类别，因此，在对任一聚类类别时，可计算该聚类类别的均值，即计算与各聚类对象向量长度相同的聚类对象作为该新聚类中心，其他聚类类别做同样的数据处理。

在确认出指定目标类别数的新聚类中心之后，再计算各聚类对象到新聚类中心的距离，以最小距离将各聚类对象分类到对应的新聚类中心所属聚类类别。重复上述步骤s2-3～s2-4，迭代计算各聚类类别的新聚类中心指定次数，直至各聚类类别的新聚类中心的变化距离在预设范围内，该预设距离可根据不同的应用需求进行设置，本发明不做限定。

在本发明实施例中，执行完一次新聚类中心的选取时，即可对新的聚类类别的纯度进行计算，或是在聚类指定次数之后计算聚类类别的纯度。

步骤s3，计算各聚类类别的纯度。

在该步骤中，计算各聚类类别的纯度的过程中，对于任一聚类类别，可以先基于该聚类类别的所有聚类对象筛选出指定比例的第一聚类对象。然后，分别获取与各第一聚类对象相邻的预设数量的第二聚类对象。最后，基于第二聚类对象的类别属性计算聚类类别的纯度。

在实际计算各聚类类别的纯度时还可以结合knn(k-nearestneighbor，邻近算法)方法通过以下公式计算各聚类类别的纯度：

该公式中，purityi表示聚类类别i的纯度；classi表示聚类类别i；knny表示样本y的k近邻；num(x)表示在聚类类别i中所有聚类对象取k近邻的聚类对象总数；num(x∈classi)表示聚类对象总数中属于聚类类别i的聚类对象数。

本发明实施例的聚类算法还可以应该在其他的场景中，如对视频、图片、音频、文本等进行聚类，待处理数据可以为多媒体数据，如图片、音频以及视频等数据，还可以是文本数据，对于多媒体数据以及文本数据来讲，可以先提取其中的数据特征，进而基于各多媒体数据的数据特征在同一多维向量空间中相应地数据坐标点，进而基于各数据坐标点进行聚类。

步骤s4，结合各聚类类别的纯度确认待处理数据的最终聚类类别。

该步骤中，可以结合各聚类类别的纯度确认待处理数据的最终聚类类别，并输出各最终聚类类别的聚类中心，在本发明优选实施例中，步骤s4可以具体包括以下步骤：

s4-1，判断各聚类类别的新聚类中心的迭代计算次数是否达到最大迭代次数；

s4-2，若各聚类类别的新聚类中心的迭代计算次数没有达到最大迭代次数，则筛选出纯度大于预设的初始筛选纯度的第一聚类类别；

s4-3，保存并输述第一聚类类别的聚类中心。

参见上文步骤s106，在本发明一实施例中，在对视频账户进行聚类之后，每一类的视频账户都可能包含了很多的视频账户，而每个视频账户也可能点击过很多的视频内容。因此，为了后续能够更加准确的体现出各类视频账户的用户画像，在提取每一类视频账户的历史点击视频对应的视频标题中的关键词时，可以有选择性的提取视频标题中最能体现视频特征的关键词。具体的提取过程是，首先对各类视频账户的历史点击视频对应的视频标题进行分词操作，得到多个词语单元。然后，从分词操作得到的多个词语单元中提取出与视频特征有关的多个关键词。

在本发明实施例中，当提取出视频标题的关键词之后，还会进一步地依据提取的关键词生成相应类别视频账户的用户画像。对于依据提取关键词生成相应类别视频账户的用户画像的方式，本发明实施例以两种方式分别进行介绍。

方式一

首先，对于聚类出的任一类视频账户，可以统计与该类视频账户中所有视频账户对应的各关键词的出现频率。然后，选取出现频率大于预设频率值的关键词。最后，依据选取出的关键词生成任一类视频账户的用户画像。由于选取出的出现频率大于预设频率值的关键词可能包含有多个，因此，任一类的视频账户对应的用户画像可以由多个关键词进行描述。

方式二

首先，对于聚类出的任一类视频账户，统计与该类视频账户中所有视频账户对应的各关键词的出现频率。然后，基于统计出的关键词的出现频率，对任一类视频账户对应的多个关键词进行排序。最后，选取排名大于预设排名的关键词，依据选取出的关键词生成任一类视频账户的用户画像。例如，依据排序结果，可以选取排名位于前5的关键词，进而利用这5个关键词作为相应类别视频账户的用户画像。

本发明实施例生成用户画像的目的就是为了能够为用户推荐更加符合用户需求、满足用户兴趣爱好的视频，以提高用户的视频观看体验。

在本发明一实施例中，通过实时监测用户的视频账户是否进行了登录操作，可以及时为用户推荐视频数据。在实时监测过程中，当监测到任意视频账户的登录操作时，先确定任意视频账户所属视频账户的类别，然后，基于该任意视频账户所属类别获取相应视频账户类别的用户画像，从而为任意视频账户推荐与获取到的用户画像相关的视频数据。

该实施例中，由于用户画像是基于符合预设条件的关键词生成的，因此，在为视频账户推荐与其对应的用户画像相关的视频数据时，也就是推荐与用户画像对应的关键词相关的视频数据。

在本发明一实施例中，在为用户推荐视频时，不仅要基于用户点击过的视频对应的视频标题为用户推荐相关的视频，还需要了解用户没有点击过的视频。通过为用户推荐用户未点击过的、但用户很有可能感兴趣的视频，可以扩展用户的视频观看范围和类型，让用户更加广泛地了解其他视频。由于属于同一类视频账户中的各个视频账户之间有着一定的共同视频爱好，如点击过相似或相同的视频。因此，为用户推荐用户自身未点击过，但是与其属于同一类别的其他用户点击过的视频可以很好的达到上述的目的。

具体的实现过程是，首先，获取多个视频账户未点击视频的视频标题，基于获取的未点击视频的视频标题为各视频账户添加用户标签。然后，当监测到任意视频账户的登录操作时，确定任意视频账户所属视频账户类别。进而，获取任意视频账户的用户标签，分析用户标签中是否存在与确定的视频账户类别中其他视频账户的用户表示相匹配的用户标签，若是，将与其他视频账户的用户表示相匹配的用户标签相关的视频数据推荐给任意账户。

该实施例中，基于获取的未点击视频的视频标题为各视频账户添加用户标签时，可以参见上文生成用户表示的过程，即通过对视频标题进行分词处理，以将出现频率较大的词语作为用户标签。

例如，基于视频账户a未点击视频的视频标题，为视频账户a添加的用户标签包括“化妆”、“眼线”。当监测到视频账户a的登录操作时，确定出视频账户a属于第一类视频账户，且第一类视频账户中还包括视频账户b，视频账户b的用户表示包括“化妆”。因此，视频账户a的用户标签“化妆”与视频账户b的用户表示包括“化妆”相匹配，从而，可以将与“化妆”相关的视频推荐给视频账户a。

实际上，视频账户a的用户标签中的标签词语可以不需要与视频账户b的任一个用户表示的内容完全一致。例如，若视频账户a的用户标签包括“眼线”，而视频账户b的用户表示包括“化妆”，通过语义分析可知，“眼线”和“化妆”相关，因此，也可以将与“化妆”、“眼线”相关的视频推荐给视频账户a。从而可以让视频账户a更加广泛地了解其他视频数据，而且，推荐给视频账户a的其他视频很有可能也恰恰是视频账户a感兴趣的视频。

基于同一发明构思，本发明实施例还提供了一种用户画像的生成装置，图3示出了根据本发明一个实施例的用户画像的生成装置的结构示意图。参见图3，用户画像的生成装置300包括第一确定模块310、聚类模块320、生成模块330。

现介绍本发明实施例的用户画像的生成装置300的各组成或器件的功能以及各部分间的连接关系：

第一确定模块310，适于获取多个视频账户的视频点击行为信息，依据视频点击行为信息确定各视频账户的用户表示，用户表示用于标识视频账户行为特征；

聚类模块320，与第一确定模块310耦合，适于基于用户表示按照预设聚类算法对多个视频账户进行聚类，获取聚类后各类视频账户的历史点击视频对应的视频标题；

生成模块330，与聚类模块320耦合，适于提取各类视频账户的历史点击视频对应的视频标题中的关键词，从提取的关键词中选取符合预设条件的关键词，依据符合预设条件的关键词生成相应类别视频账户的用户画像。

在本发明一实施例中，视频点击行为信息包括：视频账户所属用户点击过的视频对应的标题。

在本发明一实施例中，第一确定模块310还适于，收集多个视频账户的历史视频数据，从收集到历史视频数据中解析出视频标题，获取解析到的视频标题并将其作为多个视频账户的视频点击行为信息。

在本发明一实施例中，第一确定模块310还适于，将多个视频账户对应的视频标题进行分词处理，得到多个词语单元。统计各视频账户对应的词语单元出现的频率，将出现频率大于指定频率阈值的词语单元作为相应视频账户的用户表示。

在本发明一实施例中，生成模块330还适于，将各类视频账户的历史点击视频对应的视频标题进行分词操作，得到多个词语单元。从分词操作得到的多个词语单元中提取出与视频特征有关的多个关键词。

在本发明一实施例中，生成模块330还适于，对于任一类视频账户，统计与其对应的各关键词的出现频率。选取出现频率大于预设频率值的关键词，依据选取出的关键词生成任一类视频账户的用户画像。

在本发明一实施例中，生成模块330还适于，对于任一类视频账户，统计与其对应的各关键词的出现频率。基于统计出的关键词的出现频率，对任一类视频账户对应的多个关键词进行排序。选取排名大于预设排名的关键词，依据选取出的关键词生成任一类视频账户的用户画像。

在本发明一实施例中，预设聚类算法可以包括k-means聚类算法。

本发明实施例还提供了另一种用户画像的生成装置，图4示出了根据本发明另一个实施例的用户画像的生成装置的结构示意图。参见图4，用户画像的生成装置300包括第一确定模块310、聚类模块320、生成模块330、第二确定模块340、第一推荐模块350。

第二确定模块340，适于当监测到任意视频账户的登录操作时，确定任意视频账户所属视频账户类别；

第一推荐模块350，与生成模块330和第二确定模块340分别耦合，适于获取任意视频账户所属视频账户类别的用户画像，为任意视频账户推荐与获取到的用户画像相关的视频数据。

本发明实施例还提供了又一种用户画像的生成装置，图5示出了根据本发明又一个实施例的用户画像的生成装置的结构示意图。参见图5，用户画像的生成装置300除了包括上述各模块之外，还可以包括添加模块360、第三确定模块370、分析模块380、第二推荐模块390。

添加模块360，适于获取多个视频账户未点击视频的视频标题，基于获取的未点击视频的视频标题为各视频账户添加用户标签。

第三确定模块370，与生成模块330耦合，适于当监测到任意视频账户的登录操作时，确定任意视频账户所属视频账户类别。

分析模块380，与添加模块360和第三确定模块370耦合，适于获取任意视频账户的用户标签，分析用户标签中是否存在与确定的视频账户类别中其他视频账户的用户表示相匹配的用户标签。

第二推荐模块390，与分析模块380耦合，适于若分析模块380分析用户标签中存在与确定的视频账户类别中其他视频账户的用户表示相匹配的用户标签，将与其他视频账户的用户表示相匹配的用户标签相关的视频数据推荐给任意账户。

本发明还提供了一种计算机存储介质，计算机存储介质存储有计算机程序代码，当计算机程序代码在计算设备上运行时，导致计算设备执行上文任意实施例的用户画像的生成方法。

本发明还提供了一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当计算机程序代码被处理器运行时，导致计算设备执行上文任意实施例的用户画像的生成方法。

根据上述任意一个优选实施例或多个优选实施例的组合，本发明实施例能够达到如下有益效果：

获取多个视频账户的视频点击行为信息，依据视频点击行为信息确定各视频账户的用户表示，用户表示用于标识视频账户行为特征。基于用户表示按照预设聚类算法对多个视频账户进行聚类，获取聚类后各类视频账户的历史点击视频对应的视频标题。提取各类视频账户的历史点击视频对应的视频标题中的关键词，从提取的关键词中选取符合预设条件的关键词，依据符合预设条件的关键词生成相应类别视频账户的用户画像。由此，本发明实施例通过利用用户点击过的视频的标题，可以快速地确定出能够体现用户特点和爱好的用户表示。利用用户表示对不同的视频账户进行聚类，且依据用户点击过的视频的标题作为相应类别视频账户的用户画像，以在后续用户想要观看视频时，可以基于用户对应的用户画像来为其推荐更加符合用户兴趣爱好的视频，不仅节约了用户从大量视频内容中查找自己感兴趣的视频的时间，还有效地提高了用户的视频观看体验。

所属领域的技术人员可以清楚地了解到，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom)、随机存取存储器(ram)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，所述程序指令可以存储于一计算机可读取存储介质中，当所述程序指令被计算设备的处理器执行时，所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

本发明还提供了a1、一种用户画像的生成方法，包括：

获取多个视频账户的视频点击行为信息，依据所述视频点击行为信息确定各视频账户的用户表示，所述用户表示用于标识视频账户行为特征；

基于所述用户表示按照预设聚类算法对所述多个视频账户进行聚类，获取聚类后各类视频账户的历史点击视频对应的视频标题；

a2、根据a1所述的方法，其中，所述视频点击行为信息包括：

视频账户所属用户点击过的视频对应的标题。

a3、根据a2所述的方法，其中，获取多个视频账户的视频点击行为信息，包括：

收集多个视频账户的历史视频数据，从收集到历史视频数据中解析出视频标题；

获取解析到的视频标题并将其作为所述多个视频账户的视频点击行为信息。

a4、根据a3所述的方法，其中，依据所述视频点击行为信息确定各视频账户的用户表示，包括：

将所述多个视频账户对应的视频标题进行分词处理，得到多个词语单元；

统计各视频账户对应的词语单元出现的频率，将出现频率大于指定频率阈值的词语单元作为相应视频账户的用户表示。

a5、根据a1-a4任一项所述的方法，其中，提取各类视频账户的历史点击视频对应的视频标题中的关键词，包括：

将各类视频账户的历史点击视频对应的视频标题进行分词操作，得到多个词语单元；

从所述分词操作得到的多个词语单元中提取出与视频特征有关的多个关键词。

a6、根据a5所述的方法，其中，从提取的关键词中选取符合预设条件的关键词，依据所述符合预设条件的关键词生成相应类别视频账户的用户画像，包括：

对于任一类视频账户，统计与其对应的各关键词的出现频率；

选取出现频率大于预设频率值的关键词，依据选取出的关键词生成所述任一类视频账户的用户画像。

a7、根据a5所述的方法，其中，从提取的关键词中选取符合预设条件的关键词，依据所述符合预设条件的关键词生成相应类别视频账户的用户画像，包括：

对于任一类视频账户，统计与其对应的各关键词的出现频率；

基于统计出的关键词的出现频率，对所述任一类视频账户对应的多个关键词进行排序；

选取排名大于预设排名的关键词，依据选取出的关键词生成所述任一类视频账户的用户画像。

a8、根据a1-a4任一项所述的方法，其中，还包括：

当监测到任意视频账户的登录操作时，确定所述任意视频账户所属视频账户类别；

获取所述任意视频账户所属视频账户类别的用户画像，为所述任意视频账户推荐与获取到的用户画像相关的视频数据。

a9、根据a1-a4任一项所述的方法，其中，还包括：

获取多个视频账户未点击视频的视频标题，基于获取的未点击视频的视频标题为各视频账户添加用户标签；

当监测到任意视频账户的登录操作时，确定所述任意视频账户所属视频账户类别；

获取所述任意视频账户的用户标签，分析所述用户标签中是否存在与确定的视频账户类别中其他视频账户的用户表示相匹配的用户标签；

若是，将与其他视频账户的用户表示相匹配的用户标签相关的视频数据推荐给所述任意账户。

a10、根据a1-a4任一项所述的方法，其中，所述预设聚类算法包括k-means聚类算法。

b11、一种用户画像的生成装置，包括：

聚类模块，适于基于所述用户表示按照预设聚类算法对所述多个视频账户进行聚类，获取聚类后各类视频账户的历史点击视频对应的视频标题；

b12、根据b11所述的装置，其中，所述视频点击行为信息包括：

视频账户所属用户点击过的视频对应的标题。

b13、根据b12所述的装置，其中，所述第一确定模块还适于：

收集多个视频账户的历史视频数据，从收集到历史视频数据中解析出视频标题；

获取解析到的视频标题并将其作为所述多个视频账户的视频点击行为信息。

b14、根据b13所述的装置，其中，所述第一确定模块还适于：

将所述多个视频账户对应的视频标题进行分词处理，得到多个词语单元；

统计各视频账户对应的词语单元出现的频率，将出现频率大于指定频率阈值的词语单元作为相应视频账户的用户表示。

b15、根据b11-b14任一项所述的装置，其中，所述生成模块还适于：

将各类视频账户的历史点击视频对应的视频标题进行分词操作，得到多个词语单元；

从所述分词操作得到的多个词语单元中提取出与视频特征有关的多个关键词。

b16、根据b15所述的装置，其中，所述生成模块还适于：

对于任一类视频账户，统计与其对应的各关键词的出现频率；

选取出现频率大于预设频率值的关键词，依据选取出的关键词生成所述任一类视频账户的用户画像。

b17、根据b15所述的装置，其中，所述生成模块还适于：

对于任一类视频账户，统计与其对应的各关键词的出现频率；

基于统计出的关键词的出现频率，对所述任一类视频账户对应的多个关键词进行排序；

选取排名大于预设排名的关键词，依据选取出的关键词生成所述任一类视频账户的用户画像。

b18、根据b11-b14任一项所述的装置，其中，还包括：

第二确定模块，适于当监测到任意视频账户的登录操作时，确定所述任意视频账户所属视频账户类别；

第一推荐模块，适于获取所述任意视频账户所属视频账户类别的用户画像，为所述任意视频账户推荐与获取到的用户画像相关的视频数据。

b19、根据b11-b14任一项所述的装置，其中，还包括：

添加模块，适于获取多个视频账户未点击视频的视频标题，基于获取的未点击视频的视频标题为各视频账户添加用户标签；

第三确定模块，适于当监测到任意视频账户的登录操作时，确定所述任意视频账户所属视频账户类别；

b20、根据b11-b14任一项所述的装置，其中，所述预设聚类算法包括k-means聚类算法。

c21、一种计算机存储介质，所述计算机存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行a1-a10任一项所述的用户画像的生成方法。

d22、一种计算设备，包括：处理器；存储有计算机程序代码的存储器；当所述计算机程序代码被所述处理器运行时，导致所述计算设备执行a1-a10任一项所述的用户画像的生成方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗玄;黄君实;陈强
技术所有人：北京奇虎科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。