基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备与流程

文档序号:13072824阅读:308来源:国知局
基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备与流程

本发明属于网络信息技术领域,尤其涉及一种基于用户画像行为分析的应用推荐方法,一种基于用户画像行为分析的应用推荐系统,一种计算机可读储存介质,以及一种计算机设备。



背景技术:

近年来,随着移动互联网行业的高速发展,互联网承载的信息量也随之呈现出爆发式增长。各类移动互联网信息载体,为用户提供多样化的获取信息内容的方式,但也随之带来信息过载的困扰,用户从主动搜索互联网内容变为被动地接收大量互联网订阅和推送等信息,同时也使得用户获取信息的成本相应增加。在具体的业务场景下,结合用户的行为习惯进行分析,提供符合用户喜好的内容和服务成为了核心的需求,为解决用户需求,互联网领域的推荐方法和系统应运而生。

当前,ios和android两大移动系统平台的应用数量已经超过百万级别的规模。庞大的应用规模带来了应用市场的经济繁荣,其中游戏应用收入占据了应用市场大部分的收入。应用市场给用户提供种类丰富应用选择的同时,也带来了应用选择的困扰。因此,为用户提供符合其个性化需求的应用推荐服务,既可以提升用户体验,又可以增加平台收益。

目前比较广泛应用的应用推荐方法主要有协同过滤推荐、基于内容的推荐以及隐语义模型推荐等。协同过滤推荐方法主要被应用于电商行业,它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻用户对物品评价的加权评价值来预测目标用户对特定物品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。但是,这种推荐方法针对的是具有历史记录数据的用户。特别地,当用户为新用户时,由于并不存在历史操作数据,此时为用户进行产品推荐存在一定困难。基于内容的推荐方法,则通过相关的特征属性刻画用户和物品,该方法基于用户和物品特征,学习用户兴趣,从而根据用户跟物品的兴趣匹配程度进行推荐。但基于内容的推荐方法需要人工抽取有意义的特征,要求尽可能刻画用户对物品的喜好程度。隐语义模型推荐,其核心思想就是通过隐含特征联系用户兴趣和物品。该模型的实现过程一般包含三个部分,首先将物品映射到隐含分类,其次确定用户对隐含分类的兴趣,最后选择用户感兴趣的分类中的物品推荐给用户。这类方法基于用户行为数据的统计,再进行自动聚类,找出潜在的主题或分类。

然而,上述模型的数据源都比较单一,在不同的上下文环境中,会有稳定性不佳,泛化能力差的缺点,使应用推荐结果的准确度下降。



技术实现要素:

基于此,本发明的目的在于,提供一种基于用户画像行为分析的应用推荐方法、一种基于用户画像行为分析的应用推荐系统、一种计算机可读储存介质以及一种计算机设备,能够提高应用推荐的稳定性及泛化能力,为用户提供个性化的应用推荐。

本发明通过以下方案实现:

一种基于用户画像行为分析的应用推荐方法,包括如下步骤:获取客户端上报的用户行为日志,并存储在服务器基础数据库中;通过构建特征采集器,对用户画像数据、原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范的且符合数学建模要求的特征向量;调用多个预设的基础推荐模型分别对所述特征向量进行运算,获得各个基础推荐模型下相应用户的初步应用推荐列表,以及相应用户对所述初步应用推荐列表中各种应用的下载概率;将各个所述基础推荐模型得到的下载概率作为新的特征向量输入,并以实际下载所述应用与否作为融合推荐模型的标签,训练预先设置的融合推荐模型;调用所述融合推荐模型对用户的新增特征向量进行处理,获得对相应用户的最终应用推荐列表。

本发明的基于用户画像行为分析的应用推荐方法,通过对用户历史行为日志的多维度分析,对日志进行特征提取构建用户画像数据仓库。加入融合推荐模型,整合了各个基础推荐模型的学习结果,提高了推荐算法的稳定性和泛化能力,推荐的应用与用户的需求匹配度高。

在本发明的一个实施例中,所述用户行为日志数据包括用户应用安装列表、设备信息、游戏登录时间、游戏充值和消费信息。

通过对用户行为日志数据的全面采集,能够更准确地把握用户的兴趣,提高对用户对用户推荐应用的准确性。

在本发明的一个实施例中,对所述用户画像数据、所述原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范且符合数学建模要求的特征向量的步骤包括:

对所述用户画像数据、所述原始应用列表数据以及所述用户行为日志数据进行采样,获取各种采样数据,其中,所述采样数据包括:数值数据、文本数据、时序数据和枚举数据;

对时序数据按照不同的时间单位分离成各个基础运算模型所需的维度;对数值数据进行z-score标准化处理;对文本数据进行语义分析;对枚举分类数据,采用独热编码进行处理;

对处理后的各项数据进行特征提取,并对提取到的特征向量进行降维处理;

生成具有统一规范且符合数学建模要求的特征向量,包括:用户特征向量、应用特征向量、行为特征向量和交互特征向量。

通过构建特征采集器对所述用户画像数据、所述原始应用列表数据以及所述用户行为日志数据进行采样,获取数值数据、文本数据、时序数据和枚举数据,并对每种数据从不同维度进行拓展,可以提高推荐算法的稳定性和泛化能力。

在本发明的一个实施例中,调用多个预设的基础推荐模型分别对所述特征向量进行运算,获得各个基础推荐模型下相应用户的初步应用推荐列表,以及相应用户对所述初步应用推荐列表中各种应用的下载概率的步骤包括:

采用k折交叉验证法对每个基础推荐模型进行训练,在训练阶段,每个基础推荐模型采用网格搜索法进行参数调优,得到最优参数,并生成各个用户在各个基础推荐模型下的初步应用推荐列表,以及用户对所述初步应用推荐列表中各种应用的下载概率。

通过基础推荐模型分别对用户的所述特征向量进行运算,获取初步应用推荐列表,以及其中各种应用的下载概率,可以对第二层的融合推荐模型进行有效训练。结合所有基础推荐模型的结果,相当于多个基础推荐模型都有参与推荐,推荐结果更加准确。

在本发明的一个实施例中,采用k折交叉验证法对每个基础推荐模型进行训练包括以下步骤:

将各个基础推荐模型的训练样本集划分成k个大小相同且内容互斥的子集;

进行k次迭代,每次迭代均采用k-1个子集的并集作为训练集,余下的子集作为测试集,将得到的k组训练集和测试集进行所述基础推荐模型的训练。

通过对各个基础推荐模型采用k折交叉验证法进行训练,提高单个基础推荐模型的泛化能力。

在本发明的一个实施例中,采用滑动窗口法对所述用户画像数据、所述原始应用列表数据以及所述用户行为日志数据进行采样,获取采样数据;在调用多个预设的基础推荐模型分别对所述特征向量进行运算的步骤中,所述基础推荐模型采用的机器学习方法包括:逻辑回归、自适应增强、支持向量机和随机森林,并且还包括长短期记忆网络的学习方法;且采用长短期记忆网络进行训练时,在采样的滑动窗口每滑动一次的数据集的基础上,将该数据集作为相应的基础推荐模型的输入,对所述基础推荐模型采用反向传播算法的训练算法进行训练。

在基础推荐模型生成初步应用推荐列表的过程中,考虑时序的因素,由于滑动窗口法采集的样本特征跨越了一定的时间周期,能学习到时序上的依赖关系,本发明创新性地引入长短记忆网络(lstm),学习用户行为的时序关系,得到个性化推荐模型,该模型能够更好地刻画用户对物品的喜好程度,所推荐游戏应用与用户的需求匹配度高。

在本发明的一个实施例中,反向传播算法包括:

前向计算每个神经元的输出值;

反向计算每个神经元的误差项值,包括两个方向,其中一个方向为将误差项沿时间的反向传播,另一个方向为将误差项向上一层传播;

根据相应的误差项,计算每个权重的梯度。

通过反向传播算法可以有效地对建立的长短期记忆网络进行训练,获得准确的模型数据。

在本发明的一个实施例中,还提供一种应用推荐的系统,包括:

行为数据获取模块,用于获取客户端上报的用户行为日志,并存储在服务器基础数据库中;

特征提取模块,用于通过构建特征采集器,对用户画像数据、原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范的且符合数学建模要求的特征向量;

基础模型运算模块,用于调用多个预设的基础推荐模型分别对所述特征向量进行运算,获得各个基础推荐模型下相应用户的初步应用推荐列表,以及相应用户对所述初步应用推荐列表中各种应用的下载概率;

融合推荐模型模块,用于将各个所述基础推荐模型得到的的下载概率作为新的特征向量输入,并以实际下载所述应用与否作为融合推荐模型的标签,训练预先设置的融合推荐模型;

融合推荐模型运算模块,调用所述融合推荐模型对用户的新增特征向量进行处理,获得对相应用户的最终应用推荐列表。

本发明的基于用户画像行为分析的应用推荐系统,行为数据获取模块获取用户行为日志数据,特征提取模块通过构建特征采集器,对用户画像数据、原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范的特征向量;基础模型运算模块采用多个基础推荐模型先对所述特征向量进行处理,获得初步应用推荐列表,以及用户对所述初步应用推荐列表中各种应用的下载概率,融合推荐模型模块训练获得融合推荐模型,融合推荐模型运算模块调用所述融合推荐模型处理获得用户的应用推荐列表。通过对用户历史行为日志的多维度分析,对日志进行特征提取构建用户画像数据仓库。加入融合推荐模型,整合了各个基础推荐模型的学习结果,提高了推荐算法的稳定性和泛化能力,推荐的应用与用户的需求匹配度高。

在本发明的一个实施例中,还提供一种计算机可读储存介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上述任意一项所述的基于用户画像行为分析的应用推荐方法的步骤。

在本发明的一个实施例中,还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述任意一项的基于用户画像行为分析的应用推荐方法的步骤。

本发明在传统基于用户画像行为分析的应用推荐方法的基础上,结合游戏平台应用环境的特点,提出了一种基于用户画像行为分析的应用推荐方法,该方法基于用户画像数据仓库技术进行结构化特征提取,同时融入了集成学习架构和循环神经网络算法,能够较好地提高用户个性化推荐服务的效果,提升游戏平台用户的体验。

本发明一是处理原始特征数据建模框架,即构建特征采集器,使其具备能将不同类型的原始数据特征处理成规范化的并可进行数学模型训练的特征向量的功能,其中原始数据可以是数值数据、文本数据、时序数据、枚举数据等;二是融合推荐模型,即将多个单一分类器进行融合,使模型获得比单一分类器更加优越的泛化性能,从而生成推荐。由于推荐系统面临的应用场景的多样性,在不同的场景下,单一的推荐算法得到的预测可能会存在泛化能力不佳的情况,因此本发明提供的多个推荐算法的组合策略尤为重要。融合推荐模型是构建并结合多个推荐算法的优势,取长补短,组合形成一个强大的推荐框架。另外,用户的行为习惯可能会受到时间序列因素的影响而发生变化,因此在时序行为特征上,本发明在融合推荐模型第一层的基础预测算法加入了长短期记忆网络(lstm)来处理时序数据,将多个推荐算法预测结果作为新的特征,训练第二层的预测算法,得到最终的游戏应用列表。

因此对用户的时序行为起到有效的处理。用户时序行为,即用户消费产品的时序信息隐藏着数据变化的规则,利用这些规则可挖掘用户与产品之间的联系。而时序行为对预测用户是否点击下载相应的应用具有重要的作用。用户点击查看某个类别的应用之后,很可能继续点击查看同样类别的应用。近年来,由于循环神经网络(recurrentneuralnetworks,rnn)具有序列建模的能力,从而在自然语言处理、图像识别、语音识别等领域迅速得到大量应用。例如,谷歌利用rnn实现了机器翻译质量的大幅度提升,rnn得到越来越多的关注,rnn也开始尝试运用在推荐领域中。

本发明提出了一种自动化的特征采集器,即可对数值数据、文本数据、时序数据、枚举数据等进行清洗,处理成规范化的格式,从而提取出特征向量的一种装置。

本发明提出了融合推荐模型,在应用推荐系统的应用层面,提出了长短期记忆网络(lstm)来挖掘时序行为特征,从而通过时序信息分析用户与产品的潜在关系。

附图说明

图1为本发明实施例中基于用户画像行为分析的应用推荐方法的流程图;

图2为本发明实施例中采用滑动窗口法进行数据采集的原理示意图;

图3为本发明实施例中构建的特征采集器的原理示意图;

图4为本发明实施例中构建的融合推荐模型的原理示意图;

图5为本发明实施例中基于用户画像行为分析的应用推荐系统的结构示意图。

具体实施方式

请参阅图1,其为本发明实施例中基于用户画像行为分析的应用推荐方法的流程图,所述基于用户画像行为分析的应用推荐方法,包括如下步骤:

s101,获取客户端上报的用户行为日志,并存储在服务器基础数据库中;

s102,通过构建特征采集器,对用户画像数据、原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范的且符合数学建模要求的特征向量;

s103,调用多个预设的基础推荐模型分别对所述特征向量进行运算,获得各个基础推荐模型下相应用户的初步应用推荐列表,以及相应用户对所述初步应用推荐列表中各种应用的下载概率;

s104,将各个所述基础推荐模型得到的下载概率作为新的特征向量输入,并以实际下载所述应用与否作为融合推荐模型的标签,训练预先设置的融合推荐模型;

s105,调用所述融合推荐模型对用户的新增特征向量进行处理,获得对相应用户的最终应用推荐列表。

本发明的基于用户画像行为分析的应用推荐方法,通过构建特征采集器,对用户画像数据、原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范的特征向量,并采用多个基础推荐模型先对所述特征向量进行处理,获得初步应用推荐列表,以及用户对所述初步应用推荐列表中各种应用的下载概率,从而训练获得融合推荐模型,调用所述融合推荐模型处理获得用户的应用推荐列表。通过对用户历史行为日志的多维度分析,对日志进行特征提取构建用户画像数据仓库。加入融合推荐模型,整合了各个基础推荐模型的学习结果,提高了推荐算法的稳定性和泛化能力,推荐的应用与用户的需求匹配度高。

在本发明的一个实施例,步骤s101中,所述用户行为日志数据包括用户应用安装列表、设备信息、游戏登录时间、游戏充值和消费信息。

客户端可获取并上报用户行为日志,上报日志包括用户应用安装列表、设备信息、游戏登录时间、游戏充值和消费等信息,并将其存储在服务器基础数据库中。

通过对用户历史行为日志的多维度分析,构建用户画像数据仓库,可以提高推荐算法的泛化能力。

在本发明的一个实施例,步骤s102中,对所述用户画像数据、所述原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范且符合数学建模要求的特征向量的步骤包括:

对所述用户画像数据、所述原始应用列表数据以及所述用户行为日志数据进行采样,获取各种采样数据,其中,所述采样数据包括:数值数据、文本数据、时序数据和枚举数据;

对时序数据按照不同的时间单位分离成各个基础运算模型所需的维度;对数值数据进行z-score标准化处理;对文本数据进行语义分析;对枚举分类数据,采用独热编码进行处理;

对处理后的各项数据进行特征提取,并对提取到的特征向量进行降维处理;

生成具有统一规范且符合数学建模要求的特征向量,包括:用户特征向量、应用特征向量、行为特征向量和交互特征向量。

通过构建特征采集器对所述用户画像数据、所述原始应用列表数据以及所述用户行为日志数据进行采样,获取数值数据、文本数据、时序数据和枚举数据,并对每种数据从不同维度进行拓展,可以提高推荐算法的稳定性和泛化能力。

根据步骤s101获取的上报数据,本步骤s102可进行特征采集器的构建。特征采集器,主要是对原始的用户画像数据、原始的应用列表数据、客户端上报的数据进行数据清洗,处理成规范化的格式,从而提取出数据特征向量的一种装置。本发明中构建的特征采集器是可自定义以及泛化到多种数据应用场景的,基于输入数据源,将数据源转化可进行数学模型训练的特征向量,其中数据源可以是数值数据、文本数据、时序数据、枚举数据等。

构建特征采集器的步骤具体如下:

(1)编写输入数据源的接口,使用该接口可传入基础数据;

(2)将数值数据、文本数据、时序数据、枚举数据等处理为规范化的特征向量;

(3)编写输出特征向量的接口,使用该接口可获取规范化的特征向量。

其中,上述数据处理的方法包括数据预处理、量纲化、特征二值化、缺失值替换等。

本发明在数据上报层面记录的原始时序日志类数据中,建立了一种通用的特征提取方法。

本发明中定义并使用了用户特征(fuser)、应用特征(fapp)、行为特征(fact)和交互特征(finter),其中:

用户特征(fuser)包括用户注册时长、注册时间、年龄、性别、设备系统、活跃度和消费能力指数等;

应用特征(fapp)包括游戏应用类别、上架时间、上架时长、启动次数、用户粘度和充值订单数等;

行为特征(fact)包括点击游戏应用详情页,点击时间,是否订阅游戏应用,是否下载游戏应用,是否加入游戏小组和游戏评价等;

交互特征(finter)即两两特征之间或者多个特征之间组合的方式生成交互特征,包括用户和游戏应用、用户和游戏类别、游戏应用和游戏类别等。

优选地,在特征处理中,对所述四类采样数据加入时间、计数、比值等不同维度来拓展,进而衍生为如近n天订单数、近n天活跃用户、近n天日均新增用户、近n天日均消费金额等(n=1、2、3、5、7、15等),数据处理的方法包括数据预处理、量纲化、特征二值化、缺失值替换。

具体的,在步骤s102的特征构建过程中,对时间戳类如注册时间、上架时间等特征,将时间分离成月、星期、日、小时等多个模型所需要的维度;对数值类型,如年龄、活跃度、启动次数等特征,为减少数值对算法的干扰,对其进行z-score标准化处理;对文本类型特征,如游戏评价,主要是采用情感分析,评估该游戏应用的受欢迎程度并作为其特征;对分类类型的数据特征,如游戏应用类别、用户性别等,采用了独热编码(one-hotencoding)的处理方式。

基于上述特征构建和特征处理上,在特征提取以及降维处理中,采用惩罚项的特征选择法,选取了逻辑回归(logisticregression,lr)模型计算出各个特征的权值系数,过滤低于阈值系数的特征项。

在一种优选实施例中,采用滑动窗口法进行数据采样,选取一个时间区间内的样本数据作为特征,下一个时间段内的样本数据作为标签,以标签所在的时长滑动到下一个时间段进行下一次采样。如图2所示。

本发明中,数据源经数据特征采集器处理后,可生成四类特征向量,即用户特征、应用特征、行为特征和交互特征。具体框架流程图如图3所示。

在一种优选实施例中,本发明将处理后的特征向量存储在特征数据库中,所述特征数据库采用关系型数据库和非关系型数据库结合的方式。

在构建好数据特征采集器后,需要将处理后的特征向量存储在数据库中。具体的,本发明使用了关系型数据库以及非关系型数据库,包括mongodb、mysql、redis数据库。其中mongodb与mysql用来存储每日离线数据特征,融合推荐模型是根据每日离线特征向量进行更新维护;redis则用来实时存储当前日期新增的特征向量,推荐系统可对用户进行实时的个性化推荐。

在本发明的一个实施例中,步骤s103包括:

采用k折交叉验证法对每个基础推荐模型进行训练,在训练阶段,每个基础推荐模型采用网格搜索法进行参数调优,得到最优参数,并生成各个用户在各个基础推荐模型下的初步应用推荐列表,以及用户对所述初步应用推荐列表中各种应用的下载概率。

利用推荐算法模块,从用户基础特征,历史行为和应用特征等,对每个样本数据生成游戏应用列表。具体的,给定用户,从数据库获取应用列表和用户历史行为等特征向量进行拼接,即[fuser,fapp,fact,finter],判定用户是否会下载,从转化为分类问题,计算用户下载游戏的概率p(y=1|fuser,fapp,fact,finter),即为用户可能下载的游戏应用的概率大小。

在一种优选实施例中,基础推荐模型主要采用机器学习的方法,其中包括以下两个或以上的组合:组合逻辑回归(lr)、自适应增强(adaptiveboosting,adaboost)、支持向量机(supportvectormachine,svm)和随机森林(randomforest,rf)和长短期记忆网络(lstm)。本发明提出的方法模型的流程是基础数据经过特征采集器后,得到输出特征向量,将特征向量输入给分类器训练,从而得到待推荐的游戏内容和服务。

通过基础推荐模型分别对用户的所述特征向量进行运算,获取初步应用推荐列表,以及其中各种应用的下载概率,可以对第二层的融合推荐模型进行有效训练。结合所有基础推荐模型的结果,相当于多个基础推荐模型都有参与推荐,推荐结果更加准确。

推荐系统需要面对的应用场景往往存在比较大的差异,在不同的场景下,单一推荐算法得到的预测可能会存在泛化性能不佳的情况,同时也不能很好地处理多种场景下推荐问题,合理利用模型的融合算法可以比单一模型算法有明显的效果提升,因此融合多个推荐算法的组合策略尤为重要。

在本发明的一个实施例中,采用k折交叉验证法对每个基础推荐模型进行训练的步骤包括:

将各个基础推荐模型的训练样本集划分成k个大小相同且内容互斥的子集;

进行k次迭代,每次迭代均采用k-1个子集的并集作为训练集,余下的子集作为测试集,将得到的k组训练集和测试集进行所述基础推荐模型的训练。

通过采用k折交叉验证法,可以更好地利用数据特征训练来调参,提高单个基础推荐模型分类器的泛化性能。

本发明中,使用的基学习算法(baselearningalgorithm)主要有逻辑回归(lr)、自适应增强(adaboost)、支持向量机(svm)、随机森林(rf)和长短期记忆网络(lstm)分类器。其中在lr模型中,用户下载游戏应用的概率模型为:

式中,y={0,1}为分类数据,p为对应y中该分类的概率,w为权重矩阵,x为特征向量,b为偏置项。

在训练阶段,每个基础推荐模型的分类器方法采用网格搜索法进行参数调优,得到最优参数,并对每个用户生成待推荐游戏应用列表以及对应的下载概率。

在本发明的一个实施例中,采用滑动窗口法对所述用户画像数据、所述原始应用列表数据以及所述用户行为日志数据进行采样,获取采样数据;在调用多个预设的基础推荐模型分别对所述特征向量进行运算的步骤中,所述基础推荐模型采用的机器学习方法包括:逻辑回归、自适应增强、支持向量机和随机森林,并且还包括长短期记忆网络的学习方法;且采用长短期记忆网络进行训练时,在采样的滑动窗口每滑动一次的数据集的基础上,将该数据集作为相应的基础推荐模型的输入,对所述基础推荐模型采用反向传播算法的训练算法进行训练。

推荐系统的算法会面临时序特征处理的问题,比如用户的长短期兴趣会发生变化,本发明中在融合推荐模型上创新性地加入了长短期记忆网络(lstm)用于拟合时序行为信息,来学习时序上的依赖关系。

在基础推荐模型生成初步应用推荐列表的过程中,考虑时序的因素,由于滑动窗口法采集的样本特征跨越了一定的时间周期,能学习到时序上的依赖关系,引入长短记忆网络(lstm),学习用户行为的时序关系,得到个性化推荐模型,该模型能够更好地刻画用户对物品的喜好程度,所推荐游戏应用与用户的需求匹配度高。

在基础推荐模型生成待初步应用推荐列表中,考虑时序的因素,由于滑动窗口法采集的样本特征跨越了一定的时间周期,为了能学习到时序上的依赖关系,在算法策略层针对滑动窗口采样的数据集加入了长短期记忆网络(lstm)进行训练,即在每滑动一次的数据集的基础上,将该数据集作为模型的输入,模型的训练算法主要是反向传播算法。

在本发明的一个实施例中,反向传播算法包括:

前向计算每个神经元的输出值;

反向计算每个神经元的误差项值,包括两个方向,其中一个方向为将误差项沿时间的反向传播,另一个方向为将误差项向上一层传播;

根据相应的误差项,计算每个权重的梯度。

通过反向传播算法可以有效地对建立的长短期记忆网络进行训练,获得准确的模型数据。

所述反向传播算法,主要计算步骤为:

(1)前向计算每个神经元的输出值,即ft,it,ct,ot,ht五个向量的值,ft表示forgetgate遗忘门在t时刻的状态输出,it表示inputgate输入门在t时刻的状态输出,ct表示在t时刻的状态值,ot表示outputgate输出门在t时刻的状态输出,ht表示在t时刻长短期记忆网络(lstm)模型的输出;

(2)反向计算每个神经元的误差项δ值,包括两个方向,其中一个方向是沿时间的反向传播,即从当前t时刻开始,计算每个时刻的误差项,另一个方向是将误差项向上一层传播;

(3)根据相应的误差项,计算每个权重的梯度。

该模型可以定义为:

ft=σ(wf*[ht-1,xt]+bf)

it=σ(wi*[ht-1,xt]+bi)

ot=σ(wo*[ht-1,xt]+bo)

ht=ot*tanh(ct)

其中,σ函数表示sigmoid层,tanh函数为tanh层,其表达是分别为:

在长短期记忆网络(lstm)中,其相对循环神经网络(rnn)的优势在于能够将信息持久化,该模型通过gatemechanism(门的机制),即inputgate、forgetgate、outputgate来进行运算,其中forgetgate表示上一时刻的ct-1有多少保留到当前时刻ct,inputgate表示当前时刻的输入xt有多少保存到ct中,outputgate用来控制ct有多少输出到当前时刻的输出值ht,它们均通过sigmoid层将向量的值压缩为0或者1,这里0表示剔除输入值,1表示让输入值通过并参与到后续的运算中,具体步骤为:

(1)forgetgate的sigmoid层决定哪些信息要从ct中剔除,forgetgate会根据[ht-1,xt],即在上一时刻的输出ht-1和滑动到当前时刻t的样本特征连接而成的向量(包括用户特征、应用特征、行为特征和交互特征)作为t时刻的特征输入;

(2)inputgate的sigmoid层和tanh层决定要更新哪些信息。具体的,inputgate的sigmoid层决定要更新哪些信息,tanh层会计算一个新的和ct-1的值组合起来获得第t次更新的ct;

(3)sigmoid层的outputgate决定将输出的ht,即将ct通过tanh层处理之后(使得输出值在-1到1之间)与outputgate的sigmoid层的输出ot相乘,得到最终结果。

对于步骤s104,将各个所述基础推荐模型得到的初步应用推荐列表,以及相应用户对所述初步应用推荐列表中各种应用的下载概率作为新的特征向量输入,并以实际下载所述应用与否作为融合推荐模型的标签,训练预先设置的融合推荐模型;

融合阶段是对s103生成的初步应用推荐列表进行第二次融合推荐,生成最终应用推荐列表。本发明的融合推荐模型是可以针对多种的业务场景进行最优模型选择并融合,充分地运用了不同模型学习到不同特征的优点。本发明中融合推荐模型处理的具体步骤是:

(1)对每个基础模型进行预测,给每个用户生成推荐,推荐结果包括用户的待推荐应用列表以及对应的下载概率;

(2)将上一步基础模型输出的下载概率作为特征输入,实际下载游戏与否作为融合推荐模型的标签,训练融合推荐模型,并评估融合推荐模型预测效果;

(3)根据上述两个步骤生成融合推荐模型,对每个用户进行推荐,生成最终的应用推荐列表。

在融合阶段,为了避免过拟合的风险,步骤s104中使用步骤s103中未使用的样本数据来产生训练样本,该集成学习的融合推荐模型的原理框架如图4所示。同时在当前业务场景下,基于产品和运营规则,在最终生成的应用推荐列表中,还可设置一些剔除规则,例如过滤因时间衰减因素导致将下架的应用,过滤掉该部分不符合条件的推荐结果;也可加入一些用于调节控制的规则,如设定一定时间内下载量最多的应用,或者在运营规则之内的游戏应用等。

在本发明的一个实施例中,还提供一种基于用户画像行为分析的应用推荐系统,如图5所示,所述基于用户画像行为分析的应用推荐系统包括:

行为数据获取模块10,用于获取客户端上报的用户行为日志,并存储在服务器基础数据库中;

特征提取模块20,用于通过构建特征采集器,对用户画像数据、原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范的且符合数学建模要求的特征向量;

基础模型运算模块30,用于调用多个预设的基础推荐模型分别对所述特征向量进行运算,获得各个基础推荐模型下相应用户的初步应用推荐列表,以及相应用户对所述初步应用推荐列表中各种应用的下载概率;

融合推荐模型模块40,用于将各个所述基础推荐模型得到的下载概率作为新的特征向量输入,并以实际下载所述应用与否作为融合推荐模型的标签,训练预先设置的融合推荐模型;

融合推荐模型运算模块50,调用所述融合推荐模型对用户的新增特征向量进行处理,获得对相应用户的应用推荐列表。

本发明的基于用户画像行为分析的应用推荐系统,行为数据获取模块获取用户行为日志数据,特征提取模块通过构建特征采集器,对用户画像数据、原始应用列表数据以及所述用户行为日志数据进行数据采集、清洗、标准化处理以及特征组合和提取,获得统一规范的特征向量;基础模型运算模块采用多个基础推荐模型先对所述特征向量进行处理,获得初步应用推荐列表,以及用户对所述初步应用推荐列表中各种应用的下载概率,融合推荐模型模块训练获得融合推荐模型,融合推荐模型运算模块调用所述融合推荐模型处理获得用户的应用推荐列表。通过对用户历史行为日志的多维度分析,对日志进行特征提取构建用户画像数据仓库。加入融合推荐模型,整合了各个基础推荐模型的学习结果,提高了推荐算法的稳定性和泛化能力,推荐的应用与用户的需求匹配度高。

本发明提出的基于用户画像行为分析的应用推荐方法及系统,可划分为以下5个模块:客户端、服务器、数据库、特征采集器和推荐算法模块。客户端可获取用户行为日志并上报,上报日志内容包括用户应用安装列表、设备信息、游戏登录时间、游戏充值和消费等信息,并将其存储在服务器基础数据库中;特征采集器则执行数据清洗、标准化、特征组合与提取等功能,将上报数据以及原始的用户画像数据库的样本数据处理成规范化的特征向量,并将其存储在特征数据库中;推荐算法模块会调用特征数据库中的特征进行建模,并提供接口给服务器调用。当用户使用客户端向服务端发生请求时,服务器会调用推荐算法模块,给客户端返回游戏应用的内容和服务。

在本发明的一个实施例中,还提供一种计算机可读储存介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现上述任意一项所述的基于用户画像行为分析的应用推荐方法的步骤。

在本发明的一个实施例中,还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的基于用户画像行为分析的应用推荐方法的步骤。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1