用户属性预测方法、装置、计算机设备及存储介质与流程

文档序号：22881162发布日期：2020-11-10 17:43阅读：114来源：国知局

本发明涉及预测技术领域，特别涉及用户属性预测方法、装置、计算机设备及存储介质。

背景技术：

传统移动应用程序(mobileapplication，简称mobileapp、apps)，或手机应用程序、移动应用程序、手机app等，是指设计给智能手机、平板电脑和其他移动设备上运行的应用程序。随着移动互联网的发展以及智能电子设备的普及，人们随身携带的电子设备上几乎都安装上了app，这些app为人们日常的工作生活提供了极大的便利。

对于不同特点的人群而言，其所偏好的app也各不相同，例如男性可能偏好新闻类、军事类、运动类的app，女性可能偏好购物类、亲子类、美妆类的app，青少年可能偏好游戏类、学习类的app，所以基于用户所安装的app实际上是可以预测用户的属性的，但现有技术还不具有这一功能，或者准确性还不够高。

技术实现要素：

本发明的目的是提供用户属性预测方法、装置、计算机设备及存储介质，旨在解决现有用户属性预测方法准确性不足的问题。

第一方面，本发明实施例提供一种基于app的用户属性预测方法，其中，包括：

收集包含用户app安装列表以及用户属性的用户日志，并过滤异常日志；

对用户app安装列表中基于不同用户属性的各app安装频次进行统计，计算基于不同用户属性的app安装频次的差值，获取差值超过预设阈值的app并作为分类app，依据所述分类app构建稀疏矩阵，得到特征数据；

利用所述特征数据对分类模型进行训练，得到训练好的分类模型；

获取目标用户的app安装列表，从中筛选出分类app，并将所述分类app送入所述分类模型进行预测，得到目标用户的属性。

第二方面，本发明实施例提供一种基于app的用户属性预测装置，其中，包括：

收集单元，用于收集包含用户app安装列表以及用户属性的用户日志，并过滤异常日志；

特征提取单元，用于对用户app安装列表中基于不同用户属性的各app安装频次进行统计，计算基于不同用户属性的app安装频次的差值，获取差值超过预设阈值的app并作为分类app，依据所述分类app构建稀疏矩阵，得到特征数据；

模型训练单元，用于利用所述特征数据对分类模型进行训练，得到训练好的分类模型；

用户属性预测单元，用于获取目标用户的app安装列表，从中筛选出分类app，并将所述分类app送入所述分类模型进行预测，得到目标用户的属性。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的基于app的用户属性预测方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于app的用户属性预测方法。

本发明实施例提供了用户属性预测方法、装置、计算机设备及存储介质，方法包括：收集包含用户app安装列表以及用户属性的用户日志，并过滤异常日志；对用户app安装列表中基于不同用户属性的各app安装频次进行统计，计算基于不同用户属性的app安装频次的差值，获取差值超过预设阈值的app并作为分类app，依据所述分类app构建稀疏矩阵，得到特征数据；利用所述特征数据对分类模型进行训练，得到训练好的分类模型；获取目标用户的app安装列表，从中筛选出分类app，并将所述分类app送入所述分类模型进行预测，得到目标用户的属性。通过本发明实施例，可以实现基于用户所安装的app，对用户属性进行高效率的预测，并且预测准确率高。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于app的用户属性预测方法的流程示意图；

图2为本发明实施例提供的一种基于app的用户属性预测装置的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种基于app的用户属性预测方法的流程示意图，该方法包括步骤s101～s104：

s101、收集包含用户app安装列表以及用户属性的用户日志，并过滤异常日志；

s102、对用户app安装列表中基于不同用户属性的各app安装频次进行统计，计算基于不同用户属性的app安装频次的差值，获取差值超过预设阈值的app并作为分类app，依据所述分类app构建稀疏矩阵，得到特征数据；

s103、利用所述特征数据对分类模型进行训练，得到训练好的分类模型；

s104、获取目标用户的app安装列表，从中筛选出分类app，并将所述分类app送入所述分类模型进行预测，得到目标用户的属性。

在所述步骤s101中，首先收集训练数据。具体的，可以收集多个用户的app安装列表信息，同时为了达到训练效果，还需要收集已确定的用户属性信息。

本发明实施例中，所述属性可以是性别、年龄或爱好。所以本发明实施例可以用来根据用户所安装的app来预测用户的性别、年龄或者爱好等等，当然，还可以根据需要来预测其他属性。

在一实施例中，所述步骤s101包括：

收集包含用户app安装列表以及用户属性的用户日志；

按区域对所述用户日志进行划分，得到不同区域的用户日志；

对不同区域的用户日志进行过滤。

本发明实施例可以通过flume(日志收集系统)收集用户日志，然后将用户日志发送到kafka(一种高吞吐量的分布式发布订阅消息系统)，经spark-streaming(大规模流式数据处理)落地到s3文件夹。

本发明实施例中，还可以通过spark计算框架，将收集到的用户日志分成不同区域，并且过滤掉不同区域的收集异常的用户日志。这样做的好处是，本发明实施例可以对分区进行预测，因为不同区域的用户其app使用习惯可能完全不同，例如国内南方和北方，或者国内和国外等等，本发明可以针对不同区域的用户进行针对性的预测，所以需要预先将用户日志按区域进行划分。例如后续的实施例中均可以以区域为国外的数据进行处理，假设用户属性为性别，那么可以实现对海外用户性别进行预测的功能。

在所述步骤s102中，需要对用户app安装列表中基于不同用户属性的各app安装频次进行统计，这样可以筛选出有代表性的app，根据这些app来进行模型训练和预测。

在一实施例中，所述步骤s102包括：

对所有用户的app安装列表中的app进行分类统计，获取基于每一用户属性的各app安装频次；

计算基于不同用户属性的各app安装频次的差值；

获取所述差值超过预设阈值的app并作为分类app。

本实施例中，对所有用户的app安装列表的app进行分类统计，由于之前已经获取了用户的属性，所以本实施例是针对属性的不同进行分类统计，例如假设用户属性为性别，那么此步骤需要统计各个app中男性的安装频次，女性的安装频次，这样就可以获取基于每一用户属性的各app安装频次。

然后计算出不同用户属性的app安装频次的差值。例如用户属性为性别，app1男性安装频次为a1，女性安装频次为b1，所以基于用户性别的app1安装频次的差值为a1-b1，又或者app2男性安装频次为a2，女性安装频次为b2，所以基于用户性别的app2安装频次的差值为a2-b2，以此类推，该差值可以取绝对值。

一般来说，如果一个app在不同用户属性下的安装频次差值越大，则越说明该app能够表征用户的属性，即能够代表不同属性用户的特点。所以本发明实施例就是选择这样差值超过预设阈值的app作为分类app，作为后续训练的数据。

在一实施例中，所述获取所述差值超过预设阈值的app并作为分类app，包括：

将基于不同用户属性的各app安装频次的差值进行归一化，得到相差比例；

将所述相差比例超过预设阈值的app作为分类app。

在本实施例中，由于不同app由于其热度的不同，其差值可能呈现出巨大的差异，例如一个热门流行的app可能安装频次上亿，而一个普通的app可能安装频次几百万，所以统计到的差值可能成几何级的差距。本发明实施例为了更好的进行比较，所以将基于不同用户属性的各app安装频次的差值进行归一化，得到相差比例。

归一化的方式可以是将该差值除以相应app总的安装频次。例如，用户属性为性别，男性和女性针对app1的安装频次差值为100万，而app1总的安装频次为200万。男性和女性针对app2的安装频次差值为180万，而app2总的安装频次为200万，男性和女性针对app3的安装频次差值为200万，而app3总的安装频次为5000万。

从上可知，app1安装频次的相差比例为0.5，app2安装频次的相差比例为0.9，app3安装频次的相差比例为0.04。假如阈值为0.6，那么满足条件的app为app2，即将app2作为分类app。从上可知，即使app3的安装频次差值较大，但由于其安装基数较高，所以总的来说，相差比例更小，所以不将其作为分类app。

需说明的是，如前所述，不同app的安装基数差别巨大，所以本发明实施例不仅可以将基于不同用户属性的各app安装频次的差值进行归一化，得到相差比例，还可以在确定分类app时，为app的安装总频次设置一个总阈值，例如某一个app其虽然不同属性的用户安装频次相差比例较大，但由于基数较小，所以其参考价值并不大，故本发明实施例可以为app的安装总频次设置一个总阈值，只有app的安装总频次超过该总阈值，才进一步考虑其差值或者后续的相差比例等条件。

本发明实施例中，最终所筛选出的分类app具有强属性标识作用，其可以表征用户的属性。

在一实施例中，所述步骤s102包括：

根据分类app对应的相差比例计算分类app的权重，其中相差比例越高，权重越大，相差比例越低，权重越小；

依据所述分类app的权重构建稀疏矩阵，得到特征数据。

本实施例中，对于分类app而言，如果其相差比例越高，代表其更能代表用户属性，所以本发明会为相差比例高的分类app分配较高的权重，为相差比例低的分类app分配较小的权重。

在确定各分类app的权重之后，可以依据分类app的权重构建稀疏矩阵，从而得到特征数据。构建稀疏矩阵的方式是基于自然语言处理进行切割，从而构建稀疏矩阵。例如，本发明实施例可以采用word2vec构建稀疏矩阵。

在所述步骤s103中，需要利用所述特征数据对分类模型进行训练。该分类模型可以采用多分类模型或者lr模型，所述lr模型是一个二分类模型，其是将多分类任务拆分成若干个二分类任务，然后对每个二分类任务训练一个模型，最后将多个模型的结果进行集成以获得最终的分类结果。

在一实施例中，所述步骤s103包括：

将所述特征数据进行划分，得到训练样本集和测试样本集；

利用所述训练样本集对分类模型进行训练，得到训练好的分类模型；

利用所述测试样本集对训练好的分类模型进行测试。

即在本实施例中，可以对特征数据进行划分，例如按照训练样本集和测试样本集为8:2的比例进行划分，得到训练样本集和测试样本集，然后利用训练样本集对分类模型进行训练，然后利用测试样本集对分类模型进行测试，从而使最终的分类模型收敛。

在所述步骤s104中，当需要预测目标用户的属性时，可以先获取目标用户的app安装列表，从中筛选出分类app，即需要确定该目标用户安装了哪些分类app，然后将所述分类app送入所述分类模型进行预测，从而得到目标用户的属性，例如预测目标用户的性别、年龄或者爱好等等。

请参阅图2，其为本发明实施例提供的一种基于app的用户属性预测装置的示意性框图，如图所示，所述基于app的用户属性预测装置200包括：

收集单元201，用于收集包含用户app安装列表以及用户属性的用户日志，并过滤异常日志；

特征提取单元202，用于对用户app安装列表中基于不同用户属性的各app安装频次进行统计，计算基于不同用户属性的app安装频次的差值，获取差值超过预设阈值的app并作为分类app，依据所述分类app构建稀疏矩阵，得到特征数据；

模型训练单元203，用于利用所述特征数据对分类模型进行训练，得到训练好的分类模型；

用户属性预测单元204，用于获取目标用户的app安装列表，从中筛选出分类app，并将所述分类app送入所述分类模型进行预测，得到目标用户的属性。

上述装置实施例的内容与上述方法实施例的内容相对应，关于上述装置实施例的具体细节可参照前述方法实施例的描述，此处不再赘述。

通过本发明实施例的装置，可以实现基于用户所安装的app，对用户属性进行高效率的预测，并且预测准确率高。

本发明实施例提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的基于app的用户属性预测方法。

本发明实施例提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于app的用户属性预测方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵星;林肯
技术所有人：深圳墨世科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。