对用户分类的方法和装置与流程

文档序号:19745254发布日期:2020-01-21 18:16阅读:来源:国知局

技术特征:

1.一种对用户分类的方法,所述方法包括:

获取目标用户在预设历史时间周期内安装的各应用的应用标识构成的标识集合、所述各应用的名字分词后得到的分词集合,和所述各应用的类别标签构成的标签集合;

将所述标识集合、所述分词集合和所述标签集合输入预先训练的神经网络模型,其中,所述神经网络模型包括嵌入层、注意力层和分类层;

在所述嵌入层,获取所述标识集合中各应用标识分别对应的第一嵌入向量,获取所述分词集合中各分词分别对应的第二嵌入向量,获取所述标签集合中各类别标签分别对应的第三嵌入向量;

在所述注意力层,根据预先确定的应用标识权重向量,确定各应用标识对应的各第一权重,并基于各第一权重对各所述第一嵌入向量进行加权处理得到第四嵌入向量;根据预先确定的分词权重向量,确定各分词对应的各第二权重,并基于各第二权重对各所述第二嵌入向量进行加权处理得到第五嵌入向量;根据预先确定的类别标签权重向量,确定各类别标签对应的各第三权重,并基于各第三权重对各所述第三嵌入向量进行加权处理得到第六嵌入向量;

在所述分类层,根据所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量,确定所述目标用户对应的用户类别。

2.如权利要求1所述的方法,其中,所述确定各应用标识对应的各第一权重,包括:

基于各所述第一嵌入向量和所述应用标识权重向量的点积,确定各第一权重。

3.如权利要求1所述的方法,其中,所述各应用标识以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各应用标识分别对应的第一嵌入向量。

4.如权利要求1所述的方法,其中,所述各分词以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各分词分别对应的第二嵌入向量。

5.如权利要求1所述的方法,其中,所述各类别标签以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各类别标签分别对应的第三嵌入向量。

6.如权利要求1所述的方法,其中,所述神经网络模型采用如下方式训练:

获取第一时间周期内的样本数据,所述第一时间周期包括第一子时间周期和第二子时间周期,所述第一子时间周期在所述第二子时间周期之前;

采用所述第一子时间周期中第一预设比例的样本数据对所述神经网络模型进行训练,采用所述第一子时间周期中所述第一预设比例的样本数据之外的样本数据对训练后的所述神经网络模型进行测试,以及采用所述第二子时间周期中的样本数据对训练后的所述神经网络模型进行验证。

7.如权利要求1所述的方法,其中,所述用户类别包括:正常还款用户和逾期还款用户;所述神经网络模型根据样本数据进行训练,所述样本数据包括:样本输入和样本标签;

所述样本标签采用如下方式确定:

对于逾期还款的时间小于或等于预设时间阈值的用户确定该用户的样本标签为正常还款用户;

对于逾期还款的时间大于所述预设时间阈值的用户确定该用户的样本标签为逾期还款用户。

8.如权利要求1所述的方法,其中,所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量通过如下方式确定:

在训练所述神经网络模型的过程中,通过反向回传更新所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量,在所述神经网络模型训练结束后得到确定的所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量。

9.如权利要求1所述的方法,其中,所述分类层包括映射子层和分类子层;在所述映射子层,对所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量进行融合,得到综合嵌入向量;在所述分类子层,利用softmax函数对所述综合嵌入向量进行分类,得到所述目标用户的用户类别。

10.一种对用户分类的装置,所述装置包括:

获取单元,用于获取目标用户在预设历史时间周期内安装的各应用的应用标识构成的标识集合、所述各应用的名字分词后得到的分词集合,和所述各应用的类别标签构成的标签集合;

输入单元,用于将所述获取单元获取的所述标识集合、所述分词集合和所述标签集合输入预先训练的神经网络模型,其中,所述神经网络模型包括嵌入层、注意力层和分类层;

嵌入单元,用于在所述嵌入层,获取所述输入单元输入的所述标识集合中各应用标识分别对应的第一嵌入向量,获取所述输入单元输入的所述分词集合中各分词分别对应的第二嵌入向量,获取所述输入单元输入的所述标签集合中各类别标签分别对应的第三嵌入向量;

注意力单元,用于在所述注意力层,根据预先确定的应用标识权重向量,确定各应用标识对应的各第一权重,并基于各第一权重对所述嵌入单元获取的各所述第一嵌入向量进行加权处理得到第四嵌入向量;根据预先确定的分词权重向量,确定各分词对应的各第二权重,并基于各第二权重对所述嵌入单元获取的各所述第二嵌入向量进行加权处理得到第五嵌入向量;根据预先确定的类别标签权重向量,确定各类别标签对应的各第三权重,并基于各第三权重对所述嵌入单元获取的各所述第三嵌入向量进行加权处理得到第六嵌入向量;

分类单元,用于在所述分类层,根据所述注意力单元得到的所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量,确定所述目标用户对应的用户类别。

11.如权利要求10所述的装置,其中,所述注意力单元,具体用于基于各所述第一嵌入向量和所述应用标识权重向量的点积,确定各第一权重。

12.如权利要求10所述的装置,其中,所述输入单元,具体用于将所述各应用标识以one-hot编码的形式输入所述神经网络模型;

所述嵌入单元,具体用于根据所述输入单元输入的该one-hot编码确定所述各应用标识分别对应的第一嵌入向量。

13.如权利要求10所述的装置,其中,所述输入单元,具体用于将所述各分词以one-hot编码的形式输入所述神经网络模型;

所述嵌入单元,具体用于根据所述输入单元输入的该one-hot编码确定所述各分词分别对应的第二嵌入向量。

14.如权利要求10所述的装置,其中,所述输入单元,具体用于将所述各类别标签以one-hot编码的形式输入所述神经网络模型;

所述嵌入单元,具体用于根据所述输入单元输入的该one-hot编码确定所述各类别标签分别对应的第三嵌入向量。

15.如权利要求10所述的装置,其中,所述神经网络模型采用如下方式训练:

获取第一时间周期内的样本数据,所述第一时间周期包括第一子时间周期和第二子时间周期,所述第一子时间周期在所述第二子时间周期之前;

采用所述第一子时间周期中第一预设比例的样本数据对所述神经网络模型进行训练,采用所述第一子时间周期中所述第一预设比例的样本数据之外的样本数据对训练后的所述神经网络模型进行测试,以及采用所述第二子时间周期中的样本数据对训练后的所述神经网络模型进行验证。

16.如权利要求10所述的装置,其中,所述用户类别包括:正常还款用户和逾期还款用户;所述神经网络模型根据样本数据进行训练,所述样本数据包括:样本输入和样本标签;

所述样本标签采用如下方式确定:

对于逾期还款的时间小于或等于预设时间阈值的用户确定该用户的样本标签为正常还款用户;

对于逾期还款的时间大于所述预设时间阈值的用户确定该用户的样本标签为逾期还款用户。

17.如权利要求10所述的装置,其中,所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量通过如下方式确定:

在训练所述神经网络模型的过程中,通过反向回传更新所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量,在所述神经网络模型训练结束后得到确定的所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量。

18.如权利要求10所述的装置,其中,所述分类层包括映射子层和分类子层;所述分类单元,具体用于在所述映射子层,对所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量进行融合,得到综合嵌入向量;在所述分类子层,利用softmax函数对所述综合嵌入向量进行分类,得到所述目标用户的用户类别。

19.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项的所述的方法。

20.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项的所述的方法。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1