用户生命周期的识别方法、装置、终端设备和存储介质与流程

文档序号:30065987发布日期:2022-05-18 00:57阅读:138来源:国知局
用户生命周期的识别方法、装置、终端设备和存储介质与流程

1.本技术涉及人工智能技术领域,提供一种用户生命周期的识别方法、装置、终端设备和存储介质。


背景技术:

2.用户生命周期本质上是用户的一种分类方法论,是按照用户在产品中的阶段进行的类别划分,其反映了用户从接触产品到离开产品的整个过程。从技术层面上看,用户生命周期可以理解成一个用户标签,标签值包括引入期用户、成长期用户和流失期用户,等等。
3.目前,通常基于用户购买产品的数据(例如交易时间和交易频率等),按照设定的逻辑规则来识别用户生命周期。例如,若检测到用户最近1年内都没有购买产品的记录,则识别用户生命周期为流失期;若检测到用户最近3个月的交易频率增加,则识别用户生命周期为成长期,等等。然而,采用这种简单逻辑的方式识别得到的用户生命周期的准确率较低。


技术实现要素:

4.有鉴于此,本技术提出一种用户生命周期的识别方法、装置、终端设备和存储介质,能够提高识别用户生命周期的准确率。
5.第一方面,本技术实施例提供了一种用户生命周期的识别方法,包括:
6.获取目标用户的第一交易特征数据以及时间边界参数,所述第一交易特征数据包括训练集数据和测试集数据,所述时间边界参数为一个以上的用于划分各个用户生命周期阶段的时间形式参数;
7.基于所述训练集数据构建svm模型,所述svm模型的决策边界根据所述时间边界参数确定;
8.将所述测试集数据输入所述svm模型进行分类,并根据所述分类的结果确定所述目标用户的用户生命周期。
9.在本技术实施例提出的用户生命周期的识别方法中,首先获取用户的交易特征数据以及时间边界参数,该交易特征数据包含训练集数据和测试集数据两部分;然后,基于该训练集数据构建svm模型,且该svm模型的决策边界根据该时间边界参数确定;接着,将测试集数据输入该svm模型进行分类,并根据该分类的结果确定该目标用户的用户生命周期。上述过程将支持向量机svm模型运用在用户生命周期的识别中,基于svm模型的高精度分类结果,能够在一定程度上提高识别用户生命周期的准确率。
10.在本技术实施例的一种实现方式中,所述时间边界参数可以通过以下方式获取:
11.获取所有用户的第二交易特征数据;
12.从所述第二交易特征数据中选取出n个样本数据,n为所述时间边界参数的数量;
13.根据所述n个样本数据包含的特征参数分别将所述n个样本数据转换为向量的形式,得到n个特征向量;
14.将所述n个特征向量的坐标确定为n个初始聚类中心;
15.分别计算所述第二交易特征数据中除所述n个样本数据之外的其它数据的特征向量与每个所述初始聚类中心之间的距离;
16.将每个所述其它数据分别划分到与各自的特征向量之间的距离最近的所述初始聚类中心对应的簇中;
17.针对每个所述初始聚类中心对应的簇,计算该簇中包含的所有特征向量的坐标的平均值,并将所述平均值确定为该簇更新后的聚类中心;
18.重复上述迭代更新聚类中心的操作,直至达到设定的迭代次数或者各个聚类中心迭代更新时的位置变化幅度小于设定阈值,此时获得n个最终聚类中心以及每个簇包含的特征向量;
19.根据所述n个最终聚类中心以及每个簇包含的特征向量,确定各个所述时间边界参数。
20.进一步的,所述根据所述n个最终聚类中心以及每个簇包含的特征向量,确定各个所述时间边界参数,可以包括:
21.根据所述n个最终聚类中心以及每个簇包含的特征向量所形成的区域,采用几何特征计算的方式绘制各个所述区域之间的边界线;
22.针对每个所述边界线,使用设定的加权系数对该边界线对应的特征向量的各个坐标分量执行加权求和操作,得到该边界线对应的时间边界参数。
23.在本技术实施例的一种实现方式中,所述基于所述训练集数据构建svm模型,可以包括:
24.获取设定的用户生命周期类别的数量m;
25.基于所述训练集数据构建个子svm模型,其中,每个所述子svm模型用于完成所述m个用户生命周期类别中的两个类别的分类,每个所述子svm模型的决策边界根据一个所述时间边界参数确定。
26.进一步的,所述将所述测试集数据输入所述svm模型进行分类,并根据所述分类的结果确定所述目标用户的用户生命周期,可以包括:
27.将所述测试集数据分别输入所述个子svm模型,得到每个所述子svm模型的分类结果;
28.根据每个所述子svm模型的分类结果,统计得到每个所述用户生命周期类别的得票数量,其中,任意的一个用户生命周期类别的得票数量和所述个子svm模型中分类结果为该用户生命周期类别的子svm模型的数量相同;
29.将所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别,确定为所述目标用户当前所处的用户生命周期。
30.更进一步的,所述将所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别,确定为所述目标用户当前所处的用户生命周期,可以包括:
31.若所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别为1个,则将所述得票数量最高的用户生命周期类别确定为所述目标用户当前所处的用户生命周期;
32.若所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别为2个,则
获取用于分类所述2个得票数量最高的用户生命周期类别的子svm模型的目标分类结果,并将所述目标分类结果指向的用户生命周期类别确定为所述目标用户当前所处的用户生命周期。
33.在本技术实施例的一种实现方式中,所述获取目标用户的第一交易特征数据,可以包括:
34.从指定数据库中查找所述目标用户的所有历史交易数据;
35.对所述历史交易数据进行预处理操作;
36.按照设定的控制逻辑,从预处理操作后的所述历史交易数据中提取出所述第一交易特征数据。
37.第二方面,本技术实施例提供了一种用户生命周期的识别装置,包括:
38.数据获取模块,用于获取目标用户的第一交易特征数据以及时间边界参数,所述第一交易特征数据包括训练集数据和测试集数据,所述时间边界参数为一个以上的用于划分各个用户生命周期阶段的时间形式参数;
39.svm模型构建模块,用于基于所述训练集数据构建svm模型,其中,所述svm模型的决策边界根据所述时间边界参数确定;
40.用户生命周期识别模块,用于将所述测试集数据输入所述svm模型进行分类,并根据所述分类的结果确定所述目标用户的用户生命周期。
41.第三方面,本技术实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本技术实施例第一方面提出的用户生命周期的识别方法。
42.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本技术实施例第一方面提出的用户生命周期的识别方法。
43.第五方面,本技术实施例提供了一种计算机程序产品,当该计算机程序产品在终端设备上运行时,使得该终端设备执行如本技术实施例第一方面提出的用户生命周期的识别方法。
44.上述第二方面至第五方面所能实现的有益效果,可以参照上述第一方面的相关说明。
附图说明
45.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
46.图1是本技术实施例提供的一种用户生命周期的识别方法的一个实施例的流程图;
47.图2是本技术实施例在获取时间边界参数的过程中,划分形成的4个簇的示意图;
48.图3是对图2所示的4个簇进行区域边界划分的示意图;
49.图4是本技术实施例提供的一种用户生命周期的识别装置的一个实施例的结构
图;
50.图5是本技术实施例提供的一种终端设备的示意图。
具体实施方式
51.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
52.用户生命周期的识别本质上是一种用户分类的方法论,是按照用户在产品中的阶段进行的划分,其反映了用户从接触产品到离开产品的整个过程。从技术层面上看,可以理解成一个用户标签,标签值有新用户,成长期用户,流失期用户,等等。准确地识别用户生命周期可以进行精细化运营,为公司决策层的精准施策提供技术支持。
53.目前,通常基于用户购买产品的数据,按照设定的逻辑规则来识别用户生命周期。然而,采用这种简单逻辑的方式识别得到的用户生命周期的准确率较低,故如何提高识别用户生命周期的准确率成为本领域技术人员所要考虑的问题。
54.有鉴于此,本技术实施例提出一种用户生命周期的识别方法,通过将支持向量机svm模型运用在用户生命周期的识别中,能够有效提高识别用户生命周期的准确率。关于该用户生命周期的识别方法的具体说明和技术实现细节,可以参见下文所述的方法实施例。
55.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
56.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
57.应当理解,本技术实施例提供的用户生命周期的识别方法的执行主体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)、大屏电视等各种类型的终端设备或者服务器,本技术实施例对该终端设备和服务器的具体类型不作任何限制。这里的服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
58.请参阅图1,本技术实施例中一种用户生命周期的识别方法的一个实施例包括:
59.101、获取目标用户的第一交易特征数据以及时间边界参数,所述第一交易特征数
据包括训练集数据和测试集数据,所述时间边界参数为一个以上的用于划分各个用户生命周期阶段的时间形式参数;
60.首先,获取目标用户的交易特征数据(用第一交易特征数据表示)以及时间边界参数。其中,目标用户可以是当前需要识别用户生命周期的任意用户。时间边界参数是一个以上的用于划分各个阶段用户生命周期的时间形式的参数,该时间边界参数一般可以按照业务环境的需求合理设置,例如可以包括:形成边界(1个月)、活跃边界(3个月)、沉睡边界(6个月)或者流失边界(1年),等等。用户生命周期的各个阶段(标签)可以包括:形成期、适应期、成长期、稳定期、衰退期、沉睡期、准流失期和流失期,等等。第一交易特征数据一般可以是目标用户具有的所有历史交易数据中,可用于分析用户生命周期的那部分数据,例如可以包括:交易时间、交易频率和交易金额等数据。将整个交易特征数据划分为训练集数据和测试集数据两部分,具体可以按照2:8的比例划分(即训练集数据20%,测试集数据80%)。其中,训练集数据用于训练支持向量机svm模型,而测试集数据作为svm模型的输入,用于识别对应的用户生命周期。
61.在本技术实施例的一种实现方式中,所述获取目标用户的第一交易特征数据,可以包括:
62.(1)从指定数据库中查找所述目标用户的所有历史交易数据;
63.(2)对所述历史交易数据进行预处理操作;
64.(3)按照设定的控制逻辑,从预处理操作后的所述历史交易数据中提取出所述第一交易特征数据。
65.该指定数据库可以存储所有用户的历史交易数据,首先从该指定数据库中查找目标用户的所有历史交易数据,然后对查找到的历史交易数据进行预处理操作。这里的预处理操作可以包括中位数填充和去除离散值等操作,例如,某一天的交易金额数据缺失,则可以使用目标用户的交易金额中位数(平均交易金额)对缺失的交易金额数据进行填充;某个交易数据具有明显的离散性,属于偶发的数据没有实质表征意义,则可以对该交易数据进行去除。对于预处理操作后的历史交易数据,可以按照设定的控制逻辑(一般可以根据业务逻辑需求设定)从中提取出可用于分析用户生命周期的交易特征数据。例如,可以从预处理操作后的历史交易数据中提取出交易时间、交易频率和交易金额等数据,作为交易特征数据。
66.在本技术实施例的一种实现方式中,所述时间边界参数可以通过以下方式获取:
67.(1)获取所有用户的第二交易特征数据;
68.(2)从所述第二交易特征数据中选取出n个样本数据,n为所述时间边界参数的数量;
69.(3)根据所述n个样本数据包含的特征参数分别将所述n个样本数据转换为向量的形式,得到n个特征向量;
70.(4)将所述n个特征向量的坐标确定为n个初始聚类中心;
71.(5)分别计算所述第二交易特征数据中除所述n个样本数据之外的其它数据的特征向量与每个所述初始聚类中心之间的距离;
72.(6)将每个所述其它数据分别划分到与各自的特征向量之间的距离最近的所述初始聚类中心对应的簇中;
73.(7)针对每个所述初始聚类中心对应的簇,计算该簇中包含的所有特征向量的坐标的平均值,并将所述平均值确定为该簇更新后的聚类中心;
74.(8)重复上述迭代更新聚类中心的操作,直至达到设定的迭代次数或者各个聚类中心迭代更新时的位置变化幅度小于设定阈值,此时获得n个最终聚类中心以及每个簇包含的特征向量;
75.(9)根据所述n个最终聚类中心以及每个簇包含的特征向量,确定各个所述时间边界参数。
76.对于上述步骤(1),获取的是所有用户(可包含目标用户)的交易特征数据,交易特征数据中可以包含交易时间、交易频率和交易金额等特征参数。在实际操作中,可以从各个用户的历史交易数据中提取出这些交易特征数据。
77.对于上述步骤(2),从所有用户的交易特征数据中选取出n个样本数据,n为所要获取的时间边界参数的数量。假设所要获取的时间边界参数为4个(即n=4),分别为:形成边界、活跃边界、沉睡边界和流失边界,则选取的4个样本数据可以依次为:1.明显处于形成期的用户的样本数据;2.明显处于活跃期的用户的样本数据;3.明显处于沉睡期的用户的样本数据;4.明显处于流失期的用户的样本数据。
78.对于上述步骤(3),将每个样本数据都转换为向量的形式,从而得到n个特征向量,例如,某个样本数据包含的特征参数为“交易时间=a,交易频率=b,交易金额=c”,则可以将该样本数据表示为(a,b,c)的特征向量的形式。在实际操作中,还可以根据业务理解将a、b和c分别乘以不同的系数,得到的结果作为特征向量的坐标。
79.对于上述步骤(4)-(8),采用k-means聚类方法,首先将该n个特征向量的坐标确定为n个初始聚类中心;然后,分别计算所有用户的交易特征数据中除所述n个样本数据之外的其它数据的特征向量和每个所述初始聚类中心之间的距离;假设总共有x个其它数据,则将该x个其它数据分别转换为特征向量,然后计算每个特征向量和每个初始聚类中心之间的距离,并将该x个其它数据分别划分到与各自的特征向量之间的距离最近的所述初始聚类中心对应的簇中(具体是将x个其它数据的特征向量分别划分到对应的簇);例如,4个簇分别为a、b、c和d,若某个其它数据的特征向量和簇c对应的初始聚类中心的距离最近,则将该其它数据的特征向量划入簇c;接下来,针对每个簇都计算簇内包含的所有特征向量的坐标的平均值,并基于该平均值更新簇的聚类中心;最后,不断重复上述迭代更新聚类中心的操作,直至达到设定的迭代次数或者各个簇的聚类中心的位置变化幅度小于设定阈值,此时能够得到4个最终聚类中心,以及每个簇包含的所有特征向量。如图2所示,为最终形成的4个簇的示意图,每个簇都对应一个最终聚类中心(类似于圆心),以及包含大量的特征向量(对应于图2中的各个数据点)。
80.对于上述步骤(9),根据n个最终聚类中心,以及每个簇包含的特征向量进行计算,可以得到每个簇所形成区域的边界,进而确定对应的时间边界参数。
81.具体的,上述步骤(9)可以包括:
82.(9.1)根据所述n个最终聚类中心以及每个簇包含的特征向量所形成的区域,采用几何特征计算的方式绘制各个所述区域之间的边界线;
83.(9.2)针对每个所述边界线,使用设定的加权系数对该边界线对应的特征向量的各个坐标分量执行加权求和操作,得到该边界线对应的时间边界参数。
84.如图3所示,为对图2所示的4个簇进行区域边界划分的示意图。在图3中,通过4个簇的最终聚类中心以及簇与簇之间的临界点,采用几何特征计算的方式可以确定4个切线(即边界线),每个切线对应的特征向量可以表示为(x,y,z),其中x表示交易时间分量,y表示交易频率分量,z表示交易金额分量。然后,使用设定的加权系数w1、w2和w3进行坐标分量的加权求和操作,即x*w
1+
y*w
2+
z*w3=r(最终结果),这里的r即为一个时间边界参数,显然4个边界线可以得到4个不同的时间边界参数,例如可以分别为:形成边界、活跃边界、沉睡边界和流失边界。另外,各个加权系数可以根据业务场景需求设置,例如在某个业务场景中,交易时间的重要性最高,交易金额的重要性最低,则可以设置w1为0.6,w2为0.3,w3为0.1。
85.102、基于所述训练集数据构建svm模型,所述svm模型的决策边界根据所述时间边界参数确定;
86.svm模型即支持向量机,其是一种可以在立体空间找出一个超平面,从而解决复杂二分类问题的一种算法。在步骤102中,根据该训练集数据构建相应的svm模型,由于svm模型的基础是解决二分类问题,而用户生命周期的识别本质上属于一种多分类(例如若有8个生命周期阶段则为八分类问题,即识别目标用户当前的用户生命周期属于哪个生命周期阶段),因此需要对svm算法进行一定的改造,使其适用于多分类问题。具体的,所述基于所述训练集数据构建svm模型,可以包括:
87.(1)获取设定的用户生命周期类别的数量m;
88.(2)基于所述训练集数据构建个子svm模型,其中,每个所述子svm模型用于完成所述m个用户生命周期类别中的两个类别的分类,每个所述子svm模型的决策边界根据一个所述时间边界参数确定。
89.例如,如果设定用户生命周期类别的数量为8类:即形成期、适应期、成长期、稳定期、衰退期、沉睡期、准流失期和流失期,则可以基于训练集数据构建个子svm模型,用a-h分别指代上述8个用户生命周期类别,则第一个子svm模型可以用于分类(a,b)、第二个子svm模型可以用于分类(a,c)、第三个子svm模型可以用于分类(a,d),以此类推,遍历所有可能的二分类组合。而针对某个子svm模型,其决策边界可以根据一个时间边界参数确定,例如,用于分类准流失期和流失期的子svm模型,其决策边界可以根据时间边界参数“流失边界”确定。每个子svm模型基于各自的决策边界对测试集数据进行分类,从而得到相应的分类结果。
90.寻找决策边界是svm算法的核心,svm算法利用决策边界对测试集数据进行二分类,从而得到分类结果。在本技术实施例的一种实现方式中,某个子svm模型的决策边界可以通过以下方式确定:
91.(1)获取预设的决策边界表达式,所述决策边界表达式具有待确定参数;
92.(2)将所述训练集数据以及选取的一个所述时间边界参数代入所述决策边界表达式,从而计算出所述待确定参数;
93.(3)将确定所述待确定参数后的所述决策边界表达式对应的直线确定为该子svm模型的决策边界。
94.以二维线性空间为例,决策边界表达式可以表示为:y=ax+b,其中a和b是待确定参数,需要根据训练集数据以及选取的一个时间边界参数计算得到a和b的数值,进而将确
定a和b后的表达式对应的直线作为该子svm模型的决策边界。具体的,可以先将选取的一个时间边界参数(是一个数值)作为参数a,然后将训练集数据(x,y)代入y=ax+b,即可求解得到另一个未知参数b。在实际操作中,x的取值可以是各个交易特征参数的加工值,例如可以是某个训练集数据包含的各个交易特征参数的加权求和数值,而y的取值则可以是0或者1(表示已知的二分类结果)。
95.103、将所述测试集数据输入所述svm模型进行分类,并根据所述分类的结果确定所述目标用户的用户生命周期。
96.在构建svm模型之后,可以将测试集数据输入该svm模型进行分类,从而获得相应的分类结果(偏向于哪个生命周期类别),最后可以根据该分类结果确定该目标用户的用户生命周期,即最终分类结果对应的类别标签所指代的用户生命周期,例如可以是形成期、适应期、成长期、稳定期、衰退期、沉睡期、准流失期和流失期中的任意一个。
97.在本技术实施例的一种实现方式中,若在步骤102中构建了个子svm模型,则步骤103可以包括:
98.(1)将所述测试集数据分别输入所述个子svm模型,得到每个所述子svm模型的分类结果;
99.(2)根据每个所述子svm模型的分类结果,统计得到每个所述用户生命周期类别的得票数量,其中,任意的一个用户生命周期类别的得票数量和所述个子svm模型中分类结果为该用户生命周期类别的子svm模型的数量相同;
100.(3)将所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别,确定为所述目标用户当前所处的用户生命周期。
101.每个子svm模型用于分辨测试集数据偏向于两个用户生命周期类别中的哪一类,在上述例子中,用a-h分别指代上述8个用户生命周期类别,则第一个子svm模型可以用于分类(a,b),即可以分辨测试集数据偏向于a还是偏向于b;第二个子svm模型可以用于分类(a,c),即可以分辨测试集数据偏向于a还是偏向于c,以此类推。若某个子svm模型基于测试集数据获得的分类结果为某个类别,则该类别的得票数量+1,也即某个类别的得票数量和该个子svm模型中分类结果为该类别的子svm模型的数量相同。最后,统计得票数量最高的一个用户生命周期类别,即为识别得到的该目标用户当前所处的用户生命周期。
102.进一步的,所述将所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别,确定为所述目标用户当前所处的用户生命周期,可以包括:
103.(1)若所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别为1个,则将所述得票数量最高的用户生命周期类别确定为所述目标用户当前所处的用户生命周期;
104.(2)若所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别为2个,则获取用于分类所述2个得票数量最高的用户生命周期类别的子svm模型的目标分类结果,并将所述目标分类结果指向的用户生命周期类别确定为所述目标用户当前所处的用户生命周期。
105.在某些情况下,有可能出现两个用户生命周期类别的得票数量相同且最高,此时可以获取用于分类该两个类别的子svm的分类结果,以该分类结果为准。例如,类别a和类别
b的得票数量最高且相同,则获取用于分类(a,b)的子svm模型的分类结果,若该分类结果为偏向a,则将目标用户的用户生命周期确定为a;若该分类结果为偏向b,则将目标用户的用户生命周期确定为b。
106.在本技术实施例提出的用户生命周期的识别方法中,首先获取用户的交易特征数据以及时间边界参数,该交易特征数据包含训练集数据和测试集数据两部分;然后,基于该训练集数据构建svm模型,且该svm模型的决策边界根据该时间边界参数确定;接着,将测试集数据输入该svm模型进行分类,并根据该分类的结果确定该目标用户的用户生命周期。上述过程将支持向量机svm模型运用在用户生命周期的识别中,基于svm模型的高精度分类结果,能够在一定程度上提高识别用户生命周期的准确率。
107.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
108.对应于上文实施例所述的用户生命周期的识别方法,图4示出了本技术实施例提供的一种用户生命周期的识别装置的结构框图,为了便于说明,仅示出了与本技术实施例相关的部分。
109.参照图4,该装置包括:
110.数据获取模块401,用于获取目标用户的第一交易特征数据以及时间边界参数,所述第一交易特征数据包括训练集数据和测试集数据,所述时间边界参数为一个以上的用于划分各个用户生命周期阶段的时间形式参数;
111.svm模型构建模块402,用于基于所述训练集数据构建svm模型,其中,所述svm模型的决策边界根据所述时间边界参数确定;
112.用户生命周期识别模块403,用于将所述测试集数据输入所述svm模型进行分类,并根据所述分类的结果确定所述目标用户的用户生命周期。
113.在本技术实施例的一种实现方式中,所述数据获取模块可以包括:
114.交易特征数据获取单元,用于获取所有用户的第二交易特征数据;
115.样本数据选取单元,用于从所述第二交易特征数据中选取出n个样本数据,n为所述时间边界参数的数量;
116.向量转换单元,用于根据所述n个样本数据包含的特征参数分别将所述n个样本数据转换为向量的形式,得到n个特征向量;
117.初始聚类中心确定单元,用于将所述n个特征向量的坐标确定为n个初始聚类中心;
118.距离计算单元,用于分别计算所述第二交易特征数据中除所述n个样本数据之外的其它数据的特征向量与每个所述初始聚类中心之间的距离;
119.其它数据划分单元,用于将每个所述其它数据分别划分到与各自的特征向量之间的距离最近的所述初始聚类中心对应的簇中;
120.聚类中心更新单元,用于针对每个所述初始聚类中心对应的簇,计算该簇中包含的所有特征向量的坐标的平均值,并将所述平均值确定为该簇更新后的聚类中心;
121.重复迭代单元,用于重复上述迭代更新聚类中心的操作,直至达到设定的迭代次数或者各个聚类中心迭代更新时的位置变化幅度小于设定阈值,此时获得n个最终聚类中
心以及每个簇包含的特征向量;
122.时间边界参数确定单元,用于根据所述n个最终聚类中心以及每个簇包含的特征向量,确定各个所述时间边界参数。
123.进一步的,所述时间边界参数确定单元可以包括:
124.边界线绘制子单元,用于根据所述n个最终聚类中心以及每个簇包含的特征向量所形成的区域,采用几何特征计算的方式绘制各个所述区域之间的边界线;
125.时间边界参数确定子单元,用于针对每个所述边界线,使用设定的加权系数对该边界线对应的特征向量的各个坐标分量执行加权求和操作,得到该边界线对应的时间边界参数。
126.在本技术实施例的一种实现方式中,所述svm模型构建模块可以包括:
127.类别数量获取单元,用于获取设定的用户生命周期类别的数量m;
128.子svm模型构建单元,用于基于所述训练集数据构建个子svm模型,其中,每个所述子svm模型用于完成所述m个用户生命周期类别中的两个类别的分类,每个所述子svm模型的决策边界根据一个所述时间边界参数确定。
129.进一步的,所述用户生命周期识别模块可以包括:
130.分类结果获取单元,用于将所述测试集数据分别输入所述个子svm模型,得到每个所述子svm模型的分类结果;
131.得票数量统计单元,用于根据每个所述子svm模型的分类结果,统计得到每个所述用户生命周期类别的得票数量,其中,任意的一个用户生命周期类别的得票数量和所述个子svm模型中分类结果为该用户生命周期类别的子svm模型的数量相同;
132.用户生命周期确定单元,用于将所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别,确定为所述目标用户当前所处的用户生命周期。
133.更进一步的,所述用户生命周期确定单元可以包括:
134.第一用户生命周期确定子单元,用于若所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别为1个,则将所述得票数量最高的用户生命周期类别确定为所述目标用户当前所处的用户生命周期;
135.第二用户生命周期确定子单元,用于若所述m个用户生命周期类别中所述得票数量最高的用户生命周期类别为2个,则获取用于分类所述2个得票数量最高的用户生命周期类别的子svm模型的目标分类结果,并将所述目标分类结果指向的用户生命周期类别确定为所述目标用户当前所处的用户生命周期。
136.在本技术实施例的一种实现方式中,所述数据获取模块可以包括:
137.历史交易数据获取单元,用于从指定数据库中查找所述目标用户的所有历史交易数据;
138.数据预处理单元,用于对所述历史交易数据进行预处理操作;
139.交易特征数据提取单元,用于按照设定的控制逻辑,从预处理操作后的所述历史交易数据中提取出所述第一交易特征数据。
140.本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1表示的任意一种用户生
命周期的识别方法。
141.本技术实施例还提供一种计算机程序产品,当该计算机程序产品在服务器上运行时,使得服务器执行实现如图1表示的任意一种用户生命周期的识别方法。
142.图5是本技术一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个用户生命周期的识别方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至403的功能。
143.示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
144.所述终端设备5可以是智能手机、笔记本、掌上电脑及云端终端设备等计算设备。所述终端设备5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备5还可以包括输入输出设备、网络接入设备、总线等。
145.所述处理器50可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
146.所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
147.需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
148.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的
单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
149.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。
150.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
151.以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1