基于用户画像的数据处理方法及装置与流程

文档序号：15448852发布日期：2018-09-14 23:41阅读：152来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及数据处理技术领域，具体而言，涉及一种基于用户画像的数据处理方法及装置。

背景技术：

随着互联网时代的来临，数字营销已经在很多企业中有运用。为了提高投放广告的效率，一般采用根据用户的特征来进行推广。这就需要对所有用户的的特征进行确定，这种方式直接影响了广告投放的速度。

技术实现要素：

本申请的主要目的在于提供一种基于用户画像的数据处理方法，以解决广告投放效率低的技术问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基于用户画像的数据处理方法。

根据本申请的基于用户画像的数据处理方法包括：

获取用户数据；

对所述用户数据进行群组划分，根据所述群组对应的群组标签得到个人画像；

根据所述群组标签计算不同用户的相似度；

根据所述相似度将不同用户进行群体划分，根据所述群体对应的群体标签得到群体画像。

进一步，所述对所述用户数据进行群组划分，根据所述群组对应的群组标签得到个人画像，包括：

根据所述用户数据获取确定用户身份的唯一标识符；

根据所述唯一标识符去除所述个人画像中相同的群组标签。

进一步，所述方法还包括：

在对所述用户数据进行群组划分前，对所述用户数据进行数据清洗，以去除无用的数据。

进一步，所述方法还包括：

在根据所述特征标签计算不同用户的相似度前，判断所述用户数据是否发生变化；

如果发生变化，则重新对用户数据进行细粒度划分。

进一步，所述根据所述相似度将不同用户进行群体划分，包括：

将所述相似度与预设相似度阈值范围进行比较，判断所述相似度所在相似度阈值范围对应的群体。

为了实现上述目的，根据本申请的另一方面，提供了一种生成用户画像的数据处理装置。

根据本申请的生成用户画像的数据处理装置包括：

用户数据获取单元，用于获取用户数据；

个人画像生成单元，用于对所述用户数据进行群组划分，根据所述群组对应的群组标签得到个人画像；

相似度计算单元，用于根据所述群组标签计算不同用户的相似度；

群体画像生成单元，用于根据所述相似度将不同用户进行群体划分，根据所述群体对应的群体标签得到群体画像。

进一步，所述个人画像生成单元，包括：

用户确定模块，用于根据所述用户数据获取确定用户身份的唯一标识符；

标签过滤模块，用于根据所述唯一标识符去除所述个人画像中相同的群组标签。

进一步，所述装置还包括：

数据清洗单元，用于在对所述用户数据进行群组划分前，对所述用户数据进行数据清洗，以去除无用的数据。

进一步，所述装置还包括：

重划分判断单元，用于在根据所述特征标签计算不同用户的相似度前，判断所述用户数据是否发生变化；

重划分处理单元，用于如果发生变化，则重新获取用户数据并进行群组划分。

进一步，所述群体画像生成单元，包括：

相似度比较模块，用于将所述相似度与预设相似度阈值范围进行比较，判断所述相似度所在相似度阈值范围对应的群体。

在本申请实施例中，采用生成个人画像的方式，通过对不同的个人画像间相似度的计算，达到了对不同用户进行群体划分的目的，从而实现了用户进行划分的技术效果，进而解决了提高广告投放效率的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请所述基于用户画像的数据处理方法一个实施例的流程示意图。

图2为本申请中生成个人画像一个实施例的流程示意图；以及

图3为本申请所述基于用户画像的数据处理装置一个实施例的框图结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本申请提供了一种基于用户画像的数据处理方法。

该方法包括s101～s104。

s101、获取用户数据。

具体地，所述用户数据可以是利用网络爬虫技术抓取的，同时还可以通过人工录入进行补充。本申请采用接入api接口的方式，通过调用api接口获取用户数据，需要说明的是，本申请中，获取用户数据后将其存储与数据库中。具体地，网络爬虫爬取的用户数据的来源包括各类网站平台，如百度、购票网站、视频网站、购物网站等，爬虫通过调用api接口将用户在该平台的注册信息、注册的设备信息，以及在该网站的操作行为，如浏览信息、页面浏览时间、购买信息、购物车产品、点击链接等信息。具体实施时，网络爬虫可以包括larbin、nutch、heritrix、websphinx、mercator、polybo等。具体地，获取所述用户数据库可以通过设置数据库进行存储，通过该数据库为生成个人画像提供数据源。

s102、对所述用户数据进行群组划分，根据所述群组对应的群组标签得到个人画像。

本申请中，本申请采用聚类算法实现对所述用户数据的群组划分。具体地，在预先设置群组，并设置不同群组对应的标签后，首先指定k-means算法中初始的k值后，采用随机选择方式，对所述用户数据库进行分析，得到群组对应的标签。具体地，每个用户数据对应的标签可以采用json格式进行存储，从而为前端页面可视化转换提供基础。本申请中，k-means算法是输入聚类个数k，以及包含n个数据对象的数据库，输出满足误差的平方和(sse)最小标准k个聚类的一种算法，对各个指标进行统计分析之后，根据用户在其中的分布，得出相关的统计标签。k-means算法需要先确定k的初始值。关于k的取值存在几种可能：1、可以选择k值的可能区间，通过测试k的不同取值，并对区间内各个值进行聚类，通过比较协方差，确定类之间的显著性差异，从而来检查簇的类型信息，并最终确定合适的k值；2、也可先随意定义一个值v，可知当k取v、2v时，这二次聚类之间反应簇内聚度的指标减少值很低，则说明k取值应该在v和v/2之间，如果在该范围内进行二分查找，则在2log2v次的聚类当中，通过log2v次的聚类操作，就可以找到最佳的k值。

进一步，在一些实施例中，该步骤在对所述用户数据进行群组划分前，对所述用户数据进行数据清洗，以去除无用的数据。本申请中，数据清洗是指发现并纠正所述用户数据中可识别的错误，包括检查数据一致性，处理无效值和缺失值等。本申请通过数据清洗的步骤，提高对所述用户数据库进行群组划分的质量。

s103、根据所述群组标签计算不同用户的相似度。

具体地，可以通过判断不同用户间相同的群组标签在所有群组标签中所占的比例来确定相似度。如用户a的群组标签包括s1、s2、s3、s4和s5，而用户b的群组标签s1、s2、s3、s4和s6，那么用户a与用户b间相同的群组标签有4个，那么相同的群组标签在用户a的群组标签中所占的比例为4/5，那么，用户a与用户b的相似度为80％。

在一些实施例中，所述方法还包括：在根据所述特征标签计算不同用户的相似度前，判断所述用户数据是否发生变化；如果发生变化，则重新对所述用户数据进行群组划分。

应用中，所述用户数据一般是通过网络爬虫爬取的，而同一用户的用户数据可能发生变化，如地理位置，点击链接、购买信息、访问页面及其访问时间等。因此，具体实施时，所述用户数据一般是按照预设的时间进行抓取的。同样地，同一用户在不同网站的注册信息可能存在相同的，如性别信息。本申请通过判断所述用户数据是否发生变化来确保对所述用户数据进行群组划分的准备性。

s104、根据所述相似度将不同用户进行群体划分，根据所述群体对应的群体标签得到群体画像。

在一些实施例中，该步骤中所述根据所述相似度将不同用户进行群体划分，包括：将所述相似度与预设相似度阈值范围进行比较，判断所述相似度所在相似度阈值范围对应的群体。如相似度为50％，该相似度值在相似度阈值范围[45,60]的范围内，而该范围对应的群体是青年女性。需要说明的是，划分的群体可能是一个名词，也可能是包括群体特性的标签，如爱美食、微博控等。

本申请所述的方法可以应用在不同的数据库，以便根据群体画像进行用户选择。本实施例总所述方法应用在广告推送领域，按照不同广告针对的群体进行推送，从而提高广告推送的效率，防止无效广告对用户的骚扰问题。

本申请通过所述个人画像的生成，将负责的用户数据以群组标签的方式进行表示，这种标签化的处理方便了不同用户中间相似度的计算，从而加快群体画像的生成，起到对用户进行群体划分的目的，最终针对性的对感兴趣的用户群体进行广告投放，提高了广告投放的效率。

图2为本申请中得到个人画像一个实施例的流程示意图。

所述方法包括s201～s202。

s201、根据所述用户数据获取确定用户身份的唯一标识符；具体地，唯一标识符可以是设备mac、用户ip地址、注册号等。

s202、根据所述唯一标识符去除所述个人画像中相同的群组标签。

应用时，同一个用户的用户数据可能存在相同的部分，如当用户数据包括性别时，那么该用户数据中则可能存在多个相同的群组“性别”。本申请通过去重处理，保证了生成用户的个人画像的运行速度。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述基于用户画像的数据处理方法的装置，如图3所示，该装置包括：

用户数据获取单元10，用于获取用户数据；

个人画像生成单元20，用于对所述用户数据进行细粒度划分，得到个人画像，所述个人画像为标记有特征标签的数据；

相似度计算单元30，用于根据所述特征标签计算不同用户的相似度；

群体画像生成单元40，用于根据所述相似度将不同用户进行群体划分，得到群体画像，所述群体画像为具有相同特征标签的用户。

本申请所述的装置是应用的本申请所述的方法，具体可以应用在云端。具体地，本实施例中所述用户数据获取单元可也是设置的数据库，如dmp数据库。具体实施时，可以将用户数据获取单元应用在云端，而所述所述个人画像生成单元、所述相似度计算单元及所述群体画像生成单元则可以应用在本地，在本地调用远端的数据库来实现个人画像以及群体画像的生成。

进一步，所述个人画像生成单元，包括：

用户确定模块，用于根据所述用户数据获取确定用户身份的唯一标识符；

标签过滤模块，用于根据所述唯一标识符去除所述用户画像中相同的特征标签。

进一步，所述装置还包括：

数据清洗单元，用于在对所述用户数据进行细粒度划分前，对所述用户数据进行数据清洗，以去除无用的数据。

进一步，所述装置还包括：

重划分判断单元，用于在根据所述特征标签计算不同用户的相似度前，判断所述用户数据是否发生变化；

重划分处理单元，用于如果发生变化，则重新对用户数据进行细粒度划分。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾海川;毛靖翔;汪晓俊;杨桠清;王云朋
技术所有人：杭州米趣网络科技有限公司
我是此专利的发明人

上一篇：一种全降解塑料制备技术设备的制作方法
上一篇：粮食转运用抑尘斗的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。