一种标签的生成方法及系统与流程

文档序号:21203383发布日期:2020-06-23 19:35阅读:192来源:国知局
一种标签的生成方法及系统与流程

本发明涉及计算机领域,具体涉及一种标签的生成方法及系统。



背景技术:

在电商的会员体系中,会经常使用到会员的基础信息,具体会使用到一种标签系统,通过各种标签来将用户的信息分解并存储在数据库中,以用户性别为例,传统的电商都是人工录取用户性别,或者注册信息识别,然后将性别标签维护成初始结果,并落入离线表,几乎不会再改动。

如此就带来了诸多不便,比如由于是人工录入的数据,有错误的可能性与风险大大提升;如果使用会员的注册信息,则会有隐私相关的问题,导致很多缺失值;同时电商的购物行为,并不一定和实际的性别相符,也会导致误差。因此迫切需要一个解决方案来对电商用户的基础信息标签进行预测和优化,提升标签的完整性和准确性。



技术实现要素:

本发明的实施例提供一种标签的生成方法及系统,解决了便于对电商用户的基础信息标签进行预测和优化的问题。

为达到上述目的,本发明的实施例采用如下技术方案:

第一方面,本发明的实施例提供一种标签的生成方法,所述方法包括:

获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;

根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;

根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;

使用训练后的逻辑回归分类模型进行预测,生成标签。

结合第一方面,作为本发明实施例的第一种可实现方案,所述获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗,具体包括:

获取用户行为和日志信息,过滤处理成用户的基本信息和行为特征数据;

将所述用户的基本信息和行为特征数据进行清洗,去除空值、重复值和异常值;

将所述用户的基本信息和行为特征数据进行预处理。

结合第一方面的第一种可实现方案,作为本发明实施例的第二种可实现方案,所述根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征,具体包括:

通过预设特征的方式,选择逻辑回归分类模型使用的特征。

结合第一方面的第一种可实现方案,作为本发明实施例的第三种可实现方案,所述根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征,具体包括:

根据所述用户的基本信息和行为特征数据,通过使用gbdt算法,计算得到每个特征的特征重要度;

根据所述特征重要度,选择特征重要度高的特征作为逻辑回归分类模型使用的特征。

结合第一方面的第一种可实现方案,作为本发明实施例的第四种可实现方案,所述根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练,具体包括:

预设所述逻辑回归分类模型的超参数至少一个;

根据所述选择的特征和逻辑回归分类模型,将所述特征作为逻辑回归分类模型的参数,结合预处理后的用户基本信息,将所述预设的超参数一一代入训练,得到训练后的逻辑回归分类模型;

比较不同超参数训练后的逻辑回归分类模型,选择最优的模型和超参数,得到最优逻辑回归分类模型。

第二方面,本发明的实施例还提供一种标签的生成系统,所述系统包括:

清洗模块,用于获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;

选择模块,用于根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;

训练模块,用于根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;

生成模块,用于使用训练后的逻辑回归分类模型进行预测,生成标签。

结合第二方面,作为本发明实施例的第一种可实现方案,所述清洗模块,具体包括:

过滤单元,用于获取用户行为和日志信息,过滤处理成用户的基本信息和行为特征数据;

清洗单元,用于将所述用户的基本信息和行为特征数据进行清洗,去除空值、重复值和异常值;

预处理单元,用于将所述用户的基本信息和行为特征数据进行预处理。

结合第二方面的第一种可实现方案,作为本发明实施例的第二种可实现方案,所述选择模块,进一步包括:

预设单元,用于通过预设特征的方式,选择逻辑回归分类模型使用的特征。

结合第二方面的第一种可实现方案,作为本发明实施例的第三种可实现方案,所述选择模块,进一步包括:

计算单元,用于根据所述用户的基本信息和行为特征数据,通过使用gbdt算法,计算得到每个特征的特征重要度;

选择单元,用于根据所述特征重要度,选择特征重要度高的特征作为逻辑回归分类模型使用的特征。

结合第二方面的第一种可实现方案,作为本发明实施例的第四种可实现方案,所述训练模块,具体包括:

设置单元,用于预设所述逻辑回归分类模型的超参数至少一个;

训练单元,用于根据所述选择的特征和逻辑回归分类模型,将所述特征作为逻辑回归分类模型的参数,结合预处理后的用户基本信息,将所述预设的超参数一一代入训练,得到训练后的逻辑回归分类模型;

调优单元,用于比较不同超参数训练后的逻辑回归分类模型,选择最优的模型和超参数,得到最优逻辑回归分类模型。

本发明实施例提供的一种标签的生成方法及系统,解决了便于对电商用户的基础信息标签进行预测和优化的问题。相比于现有技术,在本发明实施中,通过对数据进行清洗预处理,然后放入逻辑回归分类模型中进行训练,最后再使用训练好的逻辑回归分类模型进行预测,实现了可以每天计算预测新注册的用户,优化更新老用户的错误信息,同时当用户购物性别因为换人使用而设备账号不变的情况,也可以及时的更新用户的性别标签,使得标签的准确性和完整性大大提高。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例的标签的生成方法的流程框图;

图2为图1中步骤s130的流程框图;

图3为本发明实施例的标签的生成系统的结构框图;

图4为本发明另一实施例的标签的生成系统的结构框图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的提前下所获得的实施例,都应属于本发明保护的范围。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

在现有的电商会员体系中,现有的会员的基础信息,具体会涉及到一种标签系统,通过各种标签来将用户的信息分解并存储在数据库中,以用户性别为例,传统的电商都是人工录取用户性别,或者注册信息识别,然后将性别标签维护成初始结果,并落入离线表,几乎不会再改动。

这样的现有技术有着很大缺陷,比如由于往往是人工录入的数据,有着手工录入错误的可能性;而如果调用会员的注册信息,则会有隐私相关的问题,导致很多地方的值缺失;同时用户的购物行为代表的性别,并不一定和注册的性别相符,这也会导致在推荐等营销方面造成误差。因此迫切需要一个解决方案来对电商用户的基础信息标签进行预测和优化,提升标签的完整性和准确性。

本发明实施例中,提供一种标签的生成方法及系统,解决了便于对电商用户的基础信息标签进行预测和优化的问题。实现了可以每天计算预测新注册的用户,优化更新老用户的错误信息,同时当用户购物性别因为换人使用而设备账号不变的情况,也可以及时的更新用户的性别标签,使得标签的准确性和完整性大大提高。

图1示出了根据本发明一个实施例的标签的生成方法的流程图。参见图1,本实施例的标签的生成方法方法包括步骤s110至步骤s140。

步骤s110、获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;

步骤s120、根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;

步骤s130、根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;

步骤s140、使用训练后的逻辑回归分类模型进行预测,生成标签。

需要说明的是,通过本发明的实施例得到的逻辑回归分类模型,可以根据实际工作环境中,每日提供的不同用户信息和要求,重新进行训练,达到最优的预测效率,得到预测结果。

上述实施例中,通过提供一种标签的生成方法,解决了便于对电商用户的基础信息标签进行预测和优化的问题。实现了可以每天计算预测新注册的用户,优化更新老用户的错误信息,同时当用户购物性别因为换人使用而设备账号不变的情况,也可以及时的更新用户的性别标签,大大提高了标签的准确性和完整性。

其中,步骤s110,具体包括:

s1101获取用户行为和日志信息,过滤处理成用户的基本信息和行为特征数据;

s1102将所述用户的基本信息和行为特征数据进行清洗,去除空值、重复值和异常值;

s1103将所述用户的基本信息和行为特征数据进行预处理。

在实际操作过程中,数据的获取会主要使用到hadoop组件的hive处理离线数据,所述离线数据包括用户的基本信息和购物行为数据,例如预测用户性别时,需要用到用户的购物兴趣偏好数据;hive会每日定时的从上游的流量表、搜索表、加购和订单表中抽取行为或者日志数据,将常用的特征数据存放到hive表中,还有一部分实时特征数据,利用spark+kafka进行处理,获取得到实时的特征数据,与离线数据合并,以供下游数据清洗使用。数据清洗则是将获取的离线数据和实时数据进行清洗处理,比如利用spark编写数据清洗方法,包括缺失值填充和异常值删除等方法,将数据变成模型可以识别的dataframe格式,并且以用户id为主键,去除重复项。然后进行预处理工作,也是数据转换工作,包括特征的归一化,特征选择和特征组合,one-hot编码等,这里除了常用的特征转换方法,也利用了gbdt算法处理连续特征转换成离散特征,同时可以计算出转换后的所有特征权重,提供给特征选择作为参考。如此将数据整理完成,也为后续的选择特征建立模型做了充分的准备。

其中,所述步骤s120,具体包括:

通过预设特征的方式,选择逻辑回归分类模型使用的特征。

在本实施例中,也可以不参考步骤s110中最后预处理中提供的特征权重,通过人工设定的方式,根据以往选择的或是比较重点关注的特征,选择建立模型所需要的特征进行训练。

优选的,所述步骤s120,进一步包括:

s1201根据所述用户的基本信息和行为特征数据,通过使用gbdt算法,计算得到每个特征的特征重要度;

s1202根据所述特征重要度,选择特征重要度高的特征作为逻辑回归分类模型使用的特征。

在本实施例中,选择参考步骤s110中最后预处理中提供的特征权重,根据gbdt模型计算的特征权重,对特征进行筛选,然后删除相关系数太小的特征,最后选择特征作为后续步骤中,训练逻辑回归分类模型所需的特征;也可以利用皮尔逊相关系数计算特征的相关性,然后去除相似特征;或是利用pca对特征进行降维以达到特征选择的目标。特征选择的目的,就是为了让模型训练更加快速和准确。

其中,所述步骤s130,具体包括:

s1301预设所述逻辑回归分类模型的超参数至少一个;

s1302根据所述选择的特征和逻辑回归分类模型,将所述特征作为逻辑回归分类模型的参数,结合预处理后的用户基本信息,将所述预设的超参数一一代入训练,得到训练后的逻辑回归分类模型;

s1303比较不同超参数训练后的逻辑回归分类模型,选择最优的模型和超参数,得到最优逻辑回归分类模型。

在实际操作过程中,对逻辑回归分类模型进行训练,需要将处理好的数据和特征作为训练的数据和参数,使用lr逻辑回归分类模型,在本地进行多次的训练,然后对比不同模型和参数,得到效率和准确度最高的模型。同时,在多次训练的过程中,可以对需要调整的超参数进行预设至少一个值,然后利用pipeline管道对模型进行封装调用,再利用cv交叉验证的方法,对模型中涉及的超参数进行比较,对比训练结果,最后输出效果最好的模型和所有调参的参数值,为实际生产环境中的各个标签的预测使用。

以具体实施中预测用户性别标签为例,首先,通过使用hadoop组件的hive每日定时从上游的流量表、搜索表、加购和订单表中抽取行为或者日志数据,将常用的特征数据存放到hive表中,还有一部分实时特征数据,利用spark+kafka进行处理,获取得到实时的特征数据,与离线数据合并,以供下游数据清洗使用。然后将获取到的离线数据和实时数据,进行简单清洗处理,利用spark编写数据清洗方法,主要有缺失值填充,异常值删除等方法,将数据变成模型可以识别的dataframe格式,同时以用户id为主键,去除重复项。再对特征进行归一化、特征组合和one-hot编码等特征转换处理的方法,同时也利用gbdt算法处理连续特征转换成离散特征,并计算出转换后的所有特征权重。然后对特征进行选择,根据gbdt算法计算出的每个特征的权重大小,删除相关系数太小的特征,然后将选择出的特征作为逻辑回归分类模型的参数。然后将处理好的数据和特征作为训练数据,对lr逻辑回归分类模型进行训练,对需要调整的超参数进行预设至少一个值,然后利用pipeline管道对模型进行封装调用,再利用cv交叉验证的方法,对模型中涉及的超参数进行比较,对比训练结果,最后输出效果最好的模型和所有调参的参数值,形成可以使用的预测模型。最后,将整个过程的方法和模型打成jar包发布到生成环境,每日定时训练,并将训练后的模型保存到生产环境的hdfs地址中,再将每日新获取的用户和需要更新的用户,将其跟购物性别有关的数据进行处理和预测,得到新的购物性别的预测结果,最后将结果更新到购物性别的标签。

本发明实施例提供的一种标签的生成方法及系统,解决了便于对电商用户的基础信息标签进行预测和优化的问题。相比于现有技术,在本发明实施中,通过对数据进行清洗预处理,然后放入逻辑回归分类模型中进行训练,最后再使用训练好的逻辑回归分类模型进行预测,实现了可以每天计算预测新注册的用户,优化更新老用户的错误信息,同时当用户购物性别因为换人使用而设备账号不变的情况,也可以及时的更新用户的性别标签,使得标签的准确性和完整性大大提高。

基于同一发明构思,本发明实施例还提供了一种标签的生成系统,图3示出了根据本发明一个实施例的标签的生成系统的系统框架图。如图3所示,包括:

清洗模块100,用于获取用户的基本信息和行为特征数据,并对所述用户的基本信息和行为特征数据进行清洗;

选择模块200,用于根据所述清洗后的用户的基本信息和行为特征数据,选择逻辑回归分类模型的特征;

训练模块300,用于根据所述逻辑回归分类模型的特征,对逻辑回归分类模型进行训练;

生成模块400,用于使用训练后的逻辑回归分类模型进行预测,生成标签。

上述实施例中,通过提供一种标签的生成方法及系统,解决了便于对电商用户的基础信息标签进行预测和优化的问题。实现了可以每天计算预测新注册的用户,优化更新老用户的错误信息,同时当用户购物性别因为换人使用而设备账号不变的情况,也可以及时的更新用户的性别标签,大大提高了标签的准确性和完整性。

需要说明的是,通过本发明的实施例得到的逻辑回归分类模型,可以根据实际工作环境中,每日提供的不同用户信息和要求,重新进行训练,达到最优的预测效率,得到预测结果。

其中,所述清洗模块100,如图4所示,具体包括:

过滤单元101,用于获取用户行为和日志信息,过滤处理成用户的基本信息和行为特征数据;

清洗单元102,用于将所述用户的基本信息和行为特征数据进行清洗,去除空值、重复值和异常值;

预处理单元103,用于将所述用户的基本信息和行为特征数据进行预处理。

在实际操作过程中,数据的获取会主要使用到hadoop组件的hive处理离线数据,所述离线数据包括用户的基本信息和购物行为数据,例如预测用户性别时,需要用到用户的购物兴趣偏好数据;hive会每日定时的从上游的流量表、搜索表、加购和订单表中抽取行为或者日志数据,将常用的特征数据存放到hive表中,还有一部分实时特征数据,利用spark+kafka进行处理,获取得到实时的特征数据,与离线数据合并,以供下游数据清洗使用。数据清洗则是将获取的离线数据和实时数据进行清洗处理,比如利用spark编写数据清洗方法,包括缺失值填充和异常值删除等方法,将数据变成模型可以识别的dataframe格式,并且以用户id为主键,去除重复项。然后进行预处理工作,也是数据转换工作,包括特征的归一化,特征选择和特征组合,one-hot编码等,这里除了常用的特征转换方法,也利用了gbdt算法处理连续特征转换成离散特征,同时可以计算出转换后的所有特征权重,提供给特征选择作为参考。如此将数据整理完成,也为后续的选择特征建立模型做了充分的准备。

其中,所述选择模块200,具体包括:

预设单元201,用于通过预设特征的方式,选择逻辑回归分类模型使用的特征。

在本实施例中,也可以不参考步骤s110中最后预处理中提供的特征权重,通过人工设定的方式,根据以往选择的或是比较重点关注的特征,选择建立模型所需要的特征进行训练。

优选的,所述选择模块200,进一步包括:

计算单元202,用于根据所述用户的基本信息和行为特征数据,通过使用gbdt算法,计算得到每个特征的特征重要度;

选择单元203,用于根据所述特征重要度,选择特征重要度高的特征作为逻辑回归分类模型使用的特征。

在本实施例中,选择参考步骤s110中最后预处理中提供的特征权重,根据gbdt模型计算的特征权重,对特征进行筛选,然后删除相关系数太小的特征,最后选择特征作为后续步骤中,训练逻辑回归分类模型所需的特征;也可以利用皮尔逊相关系数计算特征的相关性,然后去除相似特征;或是利用pca对特征进行降维以达到特征选择的目标。特征选择的目的,就是为了让模型训练更加快速和准确。

其中,所述训练模块300,具体包括:

设置单元301,用于预设所述逻辑回归分类模型的超参数至少一个;

训练单元302,用于根据所述选择的特征和逻辑回归分类模型,将所述特征作为逻辑回归分类模型的参数,结合预处理后的用户基本信息,将所述预设的超参数一一代入训练,得到训练后的逻辑回归分类模型;

调优单元303,用于比较不同超参数训练后的逻辑回归分类模型,选择最优的模型和超参数,得到最优逻辑回归分类模型。

在实际操作过程中,对逻辑回归分类模型进行训练,需要将处理好的数据和特征作为训练的数据和参数,使用lr逻辑回归分类模型,在本地进行多次的训练,然后对比不同模型和参数,得到效率和准确度最高的模型。同时,在多次训练的过程中,可以对需要调整的超参数进行预设至少一个值,然后利用pipeline管道对模型进行封装调用,再利用cv交叉验证的方法,对模型中涉及的超参数进行比较,对比训练结果,最后输出效果最好的模型和所有调参的参数值,为实际生产环境中的各个标签的预测使用。

本发明实施例提供的一种标签的生成系统,解决了便于对电商用户的基础信息标签进行预测和优化的问题。实现了可以每天计算预测新注册的用户,优化更新老用户的错误信息,同时当用户购物性别因为换人使用而设备账号不变的情况,也可以及时的更新用户的性别标签,大大提高了标签的准确性和完整性。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。本领域技术人员可以理解,可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1