一种金融标签的构建方法、装置及计算设备与流程

文档序号:13447241阅读:268来源:国知局
一种金融标签的构建方法、装置及计算设备与流程

本发明涉及数据处理技术领域,尤其涉及一种金融标签的构建方法、装置及计算设备。



背景技术:

用户标签是根据用户的社会属性、生活习惯和消费行为等信息而抽象出一个标签化的用户画像模型。该模型可以被广泛应用在精准营销、用户及行业分析和个性化服务等领域。目前已公开的标签构建方法主要通过过滤用户的web浏览日志,提取关键字段作为标签标识,并通过判断该标识所属的标签类别为用户打上标签。同时通过综合评价标签出现的时间和频次等信息计算用户在该标签下的兴趣度,并将其作为用户标签的权重。

现有技术中的标签方法仅以用户的行为日志作为确定标签的依据,即基于用户在互联网上的浏览行为对用户进行标签。首先这种基于浏览行为的标签构建方法会产生大量的语义冗余的文本标签,这使得在标签过程中很难从海量的、带有信息冗余的标签体系中找出有针对性的标签用于分析。此外,由于金融和支付行业的特殊性,许多常用的标签无法从用户的行为日志中直接获取。因此,仅根据用户的行为日志进行标签的方法往往无法标示出用户的消费特征,准确性较低。



技术实现要素:

本申请提供一种金融标签的构建方法、装置及计算设备,用以解决现有技术中对用户进行标签的方法无法标示出用户的消费特征,准确性低的问题。

本发明实施例提供的一种金融标签的构建方法,包括:

获取参考用户的交易数据以及行为日志;

根据所述参考用户的交易数据,构建消费评分矩阵,所述消费评分矩阵中的一个元素为所述参考用户在一个交易维度上的消费评分;

根据所述参考用户的行为日志,建立所述参考用户的向量空间模型,所述向量空间模型中包括所述参考用户的多个行为数据,每个行为数据对应所述参考用户的行为日志中的一个词语;

针对所述参考用户的一个行为数据,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,根据所述行为数据和映射的交易维度的消费评分,确定所述参考用户的综合评分;

根据所述参考用户的综合评分,确定所述参考用户的金融标签。

可选的,所述根据所有参考用户的交易数据,构建消费评分矩阵,包括:

针对每个参考用户,利用所述参考用户的交易数据,计算所述参考用户在不同交易维度的消费状况;根据所述消费状况,计算所述参考用户在每个交易维度的消费评分;

利用所有参考用户在每个交易维度的消费评分,构建消费评分矩阵。

可选的,利用以下公式计算所述参考用户在一个交易维度的消费评分:

其中,score为所述用户在一个交易维度的消费评分,θ为所述交易维度的权重;ω为所述参考用户在所述交易维度的消费笔数和消费金额的加权平均值;υ为所有参考用户在所述交易维度的消费均值,σ为所有参考用户在所述交易维度的方差;为所述参考用户在所述交易维度的消费金额与所述参考用户的所有消费金额之和的比值。

可选的,所述根据所有参考用户的交易数据,构建消费评分矩阵之后,还包括:

采用矩阵分解的方法,对所述消费评分矩阵中的残缺值进行补全。

可选的,所述采用矩阵分解的方法,对所述消费评分矩阵中的残缺值进行补全,包括:

随机生成第一参数行向量和第二参数行向量,所述第一参数行向量的元素个数与所述消费评分矩阵的行数相等,所述第二参数行向量的元素个数与所述消费评分矩阵的列数相等;

根据所述第一参数行向量和所述第二参数行向量,计算所述消费评分矩阵的误差;

根据所述误差更新所述第一参数行向量和所述第二参数行向量,并重复步骤根据所述第一参数行向量和所述第二参数行向量,计算所述消费评分矩阵的误差,直至所述误差收敛;

根据所述第一参数行向量和所述第二参数行向量确定补全后的消费评分矩阵。

可选的,所述将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,包括:

针对所述参考用户的一个交易维度,计算所述交易维度与所述行为数据对应的词语的相似度;

从所述参考用户的所有交易维度中,确定与所述行为数据对应的词语的相似度最高的交易维度;

将所述行为数据对应的词语映射到所述相似度最高的交易维度上。

可选的,所述参考用户的数量为多个;

所述根据所述参考用户的综合评分,确定所述参考用户的金融标签,包括:

根据业务规则和参考用户的背景资料,从所有参考用户中确定属于同一类标签的参考用户;

根据属于同一类标签的参考用户的综合评分,确定该类标签的预测模型;

根据各类标签的预测模型,得到综合标签分类模型;

根据所述参考用户的综合评分和所述综合标签分类模型,确定所述参考用户的金融标签。

可选的,所述根据所述行为数据和映射的交易维度的消费评分,确定所述参考用户的综合评分之后,还包括:

确定形成综合评分矩阵的历史时间,所述综合评分矩阵为所有参考用户的综合评分组成;

根据所述历史时间和当前时间,计算所述当前时间之下,衰减后的综合评分矩阵;

根据以下公式计算所述衰减后的综合评分矩阵,

其中,α为衰减因子,t为当前时间,t为历史时间,m(t)为历史时间下的综合评分矩阵,m(t)为当前时间下的综合评分矩阵,m’(t)为所述衰减后的综合评分矩阵。

一种金融标签的构建装置,包括:

获取单元,用于获取参考用户的交易数据以及行为日志;

交易处理单元,用于根据所述参考用户的交易数据,构建消费评分矩阵,所述消费评分矩阵中的一个元素为所述参考用户在一个交易维度上的消费评分;

文本处理单元,用于根据所述参考用户的行为日志,建立所述参考用户的向量空间模型,所述向量空间模型中包括所述参考用户的多个行为数据,每个行为数据对应所述参考用户的行为日志中的一个词语;

组合计算单元,用于针对所述参考用户的一个行为数据,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,根据所述行为数据和映射的交易维度的消费评分,确定所述参考用户的综合评分;

标签单元,用于根据所述参考用户的综合评分,确定所述参考用户的金融标签。

可选的,所述交易处理单元,具体用于:

针对每个参考用户,利用所述参考用户的交易数据,计算所述参考用户在不同交易维度的消费状况;根据所述消费状况,计算所述参考用户在每个交易维度的消费评分;

利用所有参考用户在每个交易维度的消费评分,构建消费评分矩阵。

可选的,所述交易处理单元,具体用于利用以下公式计算所述参考用户在一个交易维度的消费评分:

其中,score为所述用户在一个交易维度的消费评分,θ为所述交易维度的权重;ω为所述参考用户在所述交易维度的消费笔数和消费金额的加权平均值;υ为所有参考用户在所述交易维度的消费均值,σ为所有参考用户在所述交易维度的方差;为所述参考用户在所述交易维度的消费金额与所述参考用户的所有消费金额之和的比值。

可选的,所述交易处理单元,还用于:

采用矩阵分解的方法,对所述消费评分矩阵中的残缺值进行补全。

可选的,所述交易处理单元,具体用于:

随机生成第一参数行向量和第二参数行向量,所述第一参数行向量的元素个数与所述消费评分矩阵的行数相等,所述第二参数行向量的元素个数与所述消费评分矩阵的列数相等;

根据所述第一参数行向量和所述第二参数行向量,计算所述消费评分矩阵的误差;

根据所述误差更新所述第一参数行向量和所述第二参数行向量,并重复步骤根据所述第一参数行向量和所述第二参数行向量,计算所述消费评分矩阵的误差,直至所述误差收敛;

根据所述第一参数行向量和所述第二参数行向量确定补全后的消费评分矩阵。

可选的,所述组合计算单元,具体用于:

针对所述参考用户的一个交易维度,计算所述交易维度与所述行为数据对应的词语的相似度;

从所述参考用户的所有交易维度中,确定与所述行为数据对应的词语的相似度最高的交易维度;

将所述行为数据对应的词语映射到所述相似度最高的交易维度上。

可选的,所述参考用户的数量为多个;

所述标签单元,具体用于:

根据业务规则和参考用户的背景资料,从所有参考用户中确定属于同一类标签的参考用户;

根据属于同一类标签的参考用户的综合评分,确定该类标签的预测模型;

根据各类标签的预测模型,得到综合标签分类模型;

根据所述参考用户的综合评分和所述综合标签分类模型,确定所述参考用户的金融标签。

可选的,所述组合计算单元,还用于:

确定形成综合评分矩阵的历史时间,所述综合评分矩阵为所有参考用户的综合评分组成;

根据所述历史时间和当前时间,计算所述当前时间之下,衰减后的综合评分矩阵;

根据以下公式计算所述衰减后的综合评分矩阵,

其中,α为衰减因子,t为当前时间,t为历史时间,m(t)为历史时间下的综合评分矩阵,m(t)为当前时间下的综合评分矩阵,m’(t)为所述衰减后的综合评分矩阵。

一种计算设备,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行:获取参考用户的交易数据以及行为日志;根据所述参考用户的交易数据,构建消费评分矩阵,所述消费评分矩阵中的一个元素为所述参考用户在一个交易维度上的消费评分;根据所述参考用户的行为日志,建立所述参考用户的向量空间模型,所述向量空间模型中包括所述参考用户的多个行为数据,每个行为数据对应所述参考用户的行为日志中的一个词语;针对所述参考用户的一个行为数据,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,根据所述行为数据和映射的交易维度的消费评分,确定所述参考用户的综合评分;根据所述参考用户的综合评分,确定所述参考用户的金融标签。

本发明实施例中,从所有用户中任选部分用户作为参考用户,获取参考用户的交易数据和行为日志。根据参考用户的交易数据,构建消费评分矩阵,其中,消费评分中的一个元素为参考用户在一个交易维度上的消费评分。同时,根据参考用户的行为日志,建立参考用户的向量空间模型,该向量空间模型中包括参考用户的多个行为数据,每个行为数据对应参考用户的行为日志中的一个词语。本发明实施例不仅以用户的行为日志作为标签构建的依据,还参考了用户的交易数据,并将两者进行融合。具体来说,针对参考用户的一个行为数据,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,并根据行为数据和映射的交易维度的消费评分,确定该参考用户的综合评分。最后,根据该综合评分,确定参考用户的综合评分。本发明实施例通过对用户的行为喜好和交易情况进行综合评价,建立能准确描述用户金融偏好和消费特征的标签,解决了根据用户的行为日志进行标签的方法往往无法标示出用户的消费特征的问题。且与现有技术相比,本发明实施例通过对行为日志和交易数据进行融合,构建用户的特征,由于所有用户的消费评分数据均由用户的交易明细和行为日志综合决定,这种方式降低了传统方法中依据计算行为日志的文本之间相似度造成的累计误差,增加了标签建立的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种金融标签的构建方法的流程示意图;

图2为本发明具体实施例中建立标签的方法的流程示意图;

图3为本发明实施例提供的一种金融标签的构建装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1示例性示出了本发明实施例提供的一种金融标签的构建方法的流程示意图。如图1所示,本发明实施例提供的金融标签的构建方法,包括以下步骤:

步骤101、获取参考用户的交易数据以及行为日志。

步骤102、根据所述参考用户的交易数据,构建消费评分矩阵,所述消费评分矩阵中的一个元素为所述参考用户在一个交易维度上的消费评分。

步骤103、根据所述参考用户的行为日志,建立所述参考用户的向量空间模型,所述向量空间模型中包括所述参考用户的多个行为数据,每个行为数据对应所述参考用户的行为日志中的一个词语。

步骤104、针对所述参考用户的一个行为数据,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,根据所述行为数据和映射的交易维度的消费评分,确定所述参考用户的综合评分。

步骤105、根据所述参考用户的综合评分,确定所述参考用户的金融标签。

本发明实施例中,从所有用户中任选部分用户作为参考用户,获取参考用户的交易数据和行为日志。根据参考用户的交易数据,构建消费评分矩阵,其中,消费评分中的一个元素为参考用户在一个交易维度上的消费评分。同时,根据参考用户的行为日志,建立参考用户的向量空间模型,该向量空间模型中包括参考用户的多个行为数据,每个行为数据对应参考用户的行为日志中的一个词语。本发明实施例不仅以用户的行为日志作为标签构建的依据,还参考了用户的交易数据,并将两者进行融合。具体来说,针对参考用户的一个行为数据,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,并根据行为数据和映射的交易维度的消费评分,确定该参考用户的综合评分。最后,根据该综合评分,确定参考用户的综合评分。本发明实施例通过对用户的行为喜好和交易情况进行综合评价,建立能准确描述用户金融偏好和消费特征的标签,解决了根据用户的行为日志进行标签的方法往往无法标示出用户的消费特征的问题。且与现有技术相比,本发明实施例通过对行为日志和交易数据进行融合,构建用户的特征,由于所有用户的消费评分数据均由用户的交易明细和行为日志综合决定,这种方式降低了传统方法中依据计算行为日志的文本之间相似度造成的累计误差,增加了标签建立的准确度。

本发明实施例中,为参考用户建立标签是基于参考用户的交易数据和行为日志,因此,首先需要获取参考用户的交易数据,并进行处理。

上述步骤102,所述根据所有参考用户的交易数据,构建消费评分矩阵,包括:

针对每个参考用户,利用所述参考用户的交易数据,计算所述参考用户在不同交易维度的消费状况;根据所述消费状况,计算所述参考用户在每个交易维度的消费评分;

利用所有参考用户在每个交易维度的消费评分,构建消费评分矩阵。

具体来说,获取参考用户的交易数据,并根据交易数据计算每个参考用户的消费状况,消费状况可以是参考用户的消费笔数或消费金额等。为了使计算更有针对性,本发明实施例中根据交易数据统计参考用户在不同交易维度的消费状况。具体为5个交易维度,分别是交易地理、交易时间段、交易金额段、交易渠道和交易商户类型。之后,根据参考用户的消费状况计算其在每个交易维度的消费评分,参考用户在一个交易维度的消费评分可以利用以下公式计算:

其中,score为所述用户在一个交易维度的消费评分,θ为所述交易维度的权重;ω为所述参考用户在所述交易维度的消费笔数和消费金额的加权平均值;υ为所有参考用户在所述交易维度的消费均值,σ为所有参考用户在所述交易维度的消费方差;为所述参考用户在所述交易维度的消费金额与所述参考用户的所有消费金额之和的比值。

例如,计算用户a在交易时间段为交易商户类型为化妆品的消费评分。由公式1,θ为化妆品的权重,该值可根据相应的交易维度的业务情况来确定。ω为用户a在化妆品上的消费笔数和消费金额的加权平均值。υ为所有参考用户在化妆品上的消费均值。σ为所有参考用户在化妆品上的消费方差。为用户a在化妆品上的消费金额与用户a的所有消费金额之和的比值。

利用公式1,可以计算出一个参考用户在每个交易维度的消费评分,并根据所有参考用户的消费评分构建消费评分矩阵。

由于部分参考用户的交易行为频度较低,导致这些参考用户在许多维度有未交易的情况,会形成大量消费评分的残缺值。因此,步骤102,所述根据所有参考用户的交易数据,构建消费评分矩阵之后,还包括:

采用矩阵分解的方法,对所述消费评分矩阵中的残缺值进行补全。

具体来说,所述采用矩阵分解的方法,对所述消费评分矩阵中的残缺值进行补全,包括:

随机生成第一参数行向量和第二参数行向量,所述第一参数行向量的元素个数与所述消费评分矩阵的行数相等,所述第二参数行向量的元素个数与所述消费评分矩阵的列数相等;

根据所述第一参数行向量和所述第二参数行向量,计算所述消费评分矩阵的误差;

根据所述误差更新所述第一参数行向量和所述第二参数行向量,并重复步骤根据所述第一参数行向量和所述第二参数行向量,计算所述消费评分矩阵的误差,直至所述误差收敛;

根据所述第一参数行向量和所述第二参数行向量确定补全后的消费评分矩阵。

通常我们用评分矩阵mr×n表示所有参考用户在各个维度的消费评分,残缺值由0代替。其中1≤r≤r表示用户索引,即共有r个参考用户,1≤n≤n表示交易维度索引,即每个用户有n个交易维度。ψ(r)表示用户参数向量,ψ(n)为维度参数向量。我们希望找到合适的参数向量ψ(r)和ψ(n)使得mr×n=ψ(r)t·ψ(n)。具体方法如下:

步骤一、输入评分矩阵mr×n,并随机初始化生成用户参数向量ψ(r)和维度参数向量ψ(n)。其中,用户参数向量为第一参数向量,维度参数向量为第二参数向量,由于用户参数向量的元素个数等于该参考用户的交易维度个数,因此用户参数向量的元素个数与评分矩阵mr×n的行数相等。相应的,维度参数向量的元素个数与评分矩阵mr×n的列数相等。

步骤二、计算评分矩阵mr×n中非零元素与ψ(r)t·ψ(n)的误差,即计算εr×n=mr×n-ψ(r)t·ψ(n)……公式2。

步骤三、根据误差更新参数向量ψ(r)和ψ(n),计算公式为:

ψ(r)=ψ(r)+α[εr×n·ψ(n)-λr·ψ(r)]……公式3,

ψ(n)=ψ(n)+α[εr×n·ψ(r)-λn·ψ(n)]……公式4。

其中,α和λ均为学习更新速率,α为整体速率,其数值通常为0.05。因为用户参数向量ψ(r)往往是一个较长的向量,维度参数向量ψ(n)往往较短,为了区别两个向量的更新速率,引入参数λ。其中λr为用户向量ψ(r)的更新速率,通常小于α,λn为用户向量ψ(r)的更新速率,通常大于α。

步骤四、重复步骤二和步骤三,直至误差矩阵εr×n稳定,误差矩阵εr×n稳定是指上次计算所得误差矩阵与当前误差矩阵的每个元素之差的绝对值的均值小于某个固定值。

步骤五、输出补全后的完整的评分矩阵

本发明实施例中,除了以参考用户的交易数据作为标签构建的依据并进行处理,还参考了用户的交易数据。进一步,步骤104,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,包括:

针对所述参考用户的一个交易维度,计算所述交易维度与所述行为数据对应的词语的相似度;

从所述参考用户的所有交易维度中,确定与所述行为数据对应的词语的相似度最高的交易维度;

将所述行为数据对应的词语映射到所述相似度最高的交易维度上。

具体来说,需要对参考用户的行为数据进行处理,这里的处理方式与现有的针对用户的文本数据的处理方法相似。对同一参考用户的浏览信息、评论、行为日志等日志信息进行收集、清洗和过滤,将该参考用户的所有日志信息聚合成该参考用户对应的文档,利用tf-idf(termfrequency–inversedocumentfrequency,信息检索数据挖掘的常用加权技术)建立该参考用户的文本向量空间模型,文本向量空间模型中包括该参考用户的各个行为词语以及对应的行为数据。

之后,将参考用户的行为数据与交易维度进行融合。通过计算相似度的方法将参考用户的行为数据映射在交易维度上,可以利用知网和新闻分类语料库计算参考用户行为词语与交易维度的相关度,具体可以将语料库学习出来的相似度与基于知网计算的相似度进行组合作为最后的相似度。将新闻分类映射到交易维度可以是利用加权运算,其中加权的权重为交易维度与行为词语的文本相似度。

例如,通过参考用户的交易数据计算出该参考用户在交易维度“餐饮”上的初始的消费评分为score餐饮=0.1,则将该参考用户所有与“餐饮”相似的行为词语(例如“烤鱼”)对应的行为数据加权在餐饮的消费评分上,具体公式可以为:

score总=score餐饮+s×score烤鱼……公式6

其中,score烤鱼为根据tfidf算法算出的“烤鱼”的评分,s为“烤鱼”与“餐饮”的文本相似度。

考虑到参考用户的消费状况是一种时序数据,会随着时间的变化而变化,因此,需要对参考用户的综合评分进行衰减。所述根据所述行为数据和映射的交易维度的消费评分,确定所述参考用户的综合评分之后,还包括:

确定形成综合评分矩阵的历史时间,所述综合评分矩阵为所有参考用户的综合评分组成;

根据所述历史时间和当前时间,计算所述当前时间之下,衰减后的综合评分矩阵;

根据以下公式计算所述衰减后的综合评分矩阵,

其中,α为衰减因子,t为当前时间,t为历史时间,m(t)为历史时间下的综合评分矩阵,m(t)为当前时间下的综合评分矩阵,m’(t)为所述衰减后的综合评分矩阵。

最后,根据综合评分矩阵为用户建立标签,主要是考虑如何建立分类器。由于建立标签是一种统计数据,所以建立分类器所依据的参考用户的数量为多个,这里参考用户的数量越多,最终建立的分类器越准确。

所述根据所述参考用户的综合评分,确定所述参考用户的金融标签,包括:

根据业务规则和参考用户的背景资料,从所有参考用户中确定属于同一类标签的参考用户;

根据属于同一类标签的参考用户的综合评分,确定该类标签的预测模型;

根据各类标签的预测模型,得到综合标签分类模型;

根据所述参考用户的综合评分和所述综合标签分类模型,确定所述参考用户的金融标签。

具体来说,根据业务规则和参考用户的背景资料,将所有的参考用户建立标签。例如,可以为参考用户建立的标签体系,主要分为以下四大类:(1)人口属性:例如性别,年龄,消费水平等。(2)状态属性:例如卡额度是否需要提升,是否有房,是否有车,是否有小孩等。(3)交易属性:例如是否经常输错密码,是否经常余额不足等。(4)金融及消费偏好:例如理财、保险、数码、取现爱好者、云闪付达人等。对于人口属性和状态属性两类标签,我们通过业务知识和参考用户的客观背景资料共同构建。以人口属性中的性别标签为例,50%的数据的由业务规则决定,例如参考用户如果在“烟酒”、“男装”等维度消费较频繁,则认为该参考用户为男性。若参考用户在”化妆品”、“美容”等维度消费较频繁,则认为是女性。训练集中50%的数据由参考用户的背景资料中获得。对于消费偏好类标签,我们通过验证参考用户在一个月内是否在该维度消费来作为验证集合。

根据参考用户的标签,从综合评分矩阵的所有参考用户中选出多个参考用户,作为训练样本加入训练集中,并根据训练样本的数量确定所述训练集中每个训练样本的权值;将所有训练样本随机划分为k组,将每组中权值最大的训练样本作为测试样本;根据所述测试样本确定分类器;利用所述分类器对所有训练样本进行分类,并与训练样本的标签相对比,确定所述分类器的误差率以及分类器权重;根据所述分类器权重对所有训练样本的权值进行更新,并重复步骤将所有训练样本随机划分为k组,直至确定的分类器个数大于阈值;将所有分类器进行线性加权,确定综合分类器;利用所述综合分类器对所有参考用户进行分类,根据分类结果将部分参考用户作为训练样本加入所述训练集中,并重复步骤根据训练样本的数量确定所述训练集中每个训练样本的权值,直至所述训练集中的训练样本不再变化;将训练样本不再变化的综合分类器作为金融分类器,为所述待分类用户建立金融标签。

下面以具体实施例对上述建立标签的流程进行详细描述,如图2所示,具体步骤包括:

步骤201、初始化。从所有参考用户中选出n个作为训练样本加入训练集t中,假设训练集t={(x1,y1),(x2,y2),……(xn,yn)},其中,yn为第n个参考用户,xn为第n个参考用户在综合评分矩阵中对应的向量。初始化训练集中各训练样本的权值,所有的权重w都赋值为

步骤202、随机采样构建分类器。将所有训练样本随机划分为k组,将k组中权值w最大的训练样本作为测试样本,将测试样本训练得到分类器gi。

步骤203、权重更新。利用分类器gi对训练集t中的每个训练样本进行分类。将每一个训练样本的分类与该训练样本的标签相对比,计算每一个训练样本的误差,从而统计分类器gi的误差率ei,并根据下列公式计算分类器gi的权重

其中当误差率ei≤0.5时,分类器权重即分类器误差率越小其权重越大。

步骤204、判断确定的分类器个数是否大于阈值,若是,执行步骤206;否则执行步骤205。

步骤205、利用下述公式对训练样本权重进行更新,之后执行步骤202。

其中δj为二值函数,当gi对训练样本x分类正确时δj为1,否则δj为0。

步骤206、将所有分类器进行线性加权,得到综合分类器

步骤207、利用步骤205得到的综合分类器对所有参考用户进行分类,根据分类结果将得分较高的参考用户加入训练集中。

步骤208、判断训练集中的训练样本是否变化,若是,则执行步骤201,否则执行步骤209。

步骤209、将训练样本不再变化的综合分类器作为金融分类器,利用金融分类器为待分类用户建立金融标签,并将金融分类器的准确率作为标签的权重。

本发明实施例通过对用户的行为数据和交易数据进行融合,构建中间层特征数据,利用机器学习方法对用户标签进行学习,得到用户标签的置信度。与现有技术相比,本发明中所有参考用户的交易数据均由参考用户的交易明细计算得到,降低了传统方法由于计算文本之间相似度造成的累计误差,使得最终生成的标签有较高的准确度。同时,相对于传统的根据频繁字段生成标签的方法,本发明实施例由业务规则直接建立标签体系,在标签生成的过程中均可验证其正确性,这样,生成的标签更具针对性。此外,本发明实施例避免了传统方法将标签出现频次作为标签权重的方式,而是通过构造训练数据的方式,利用机器学习算法计算标签置信度,并将此作为标签权重。这大大方便了标签的后续使用,标签的使用者可以通过选择相应的置信度来获得目标人群。

图3示例性示出了本发明实施例提供的一种金融标签的构建装置的结构示意图。

如图3所示,本发明实施例提供的一种金融标签的构建装置,包括:

获取单元301,用于获取参考用户的交易数据以及行为日志;

交易处理单元302,用于根据所述参考用户的交易数据,构建消费评分矩阵,所述消费评分矩阵中的一个元素为所述参考用户在一个交易维度上的消费评分;

文本处理单元303,用于根据所述参考用户的行为日志,建立所述参考用户的向量空间模型,所述向量空间模型中包括所述参考用户的多个行为数据,每个行为数据对应所述参考用户的行为日志中的一个词语;

组合计算单元304,用于针对所述参考用户的一个行为数据,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,根据所述行为数据和映射的交易维度的消费评分,确定所述参考用户的综合评分;

标签单元305,用于根据所述参考用户的综合评分,确定所述参考用户的金融标签。

可选的,所述交易处理单元302,具体用于:

针对每个参考用户,利用所述参考用户的交易数据,计算所述参考用户在不同交易维度的消费状况;根据所述消费状况,计算所述参考用户在每个交易维度的消费评分;

利用所有参考用户在每个交易维度的消费评分,构建消费评分矩阵。

可选的,所述交易处理单元302,具体用于利用以下公式计算所述参考用户在一个交易维度的消费评分:

其中,score为所述用户在一个交易维度的消费评分,θ为所述交易维度的权重;ω为所述参考用户在所述交易维度的消费笔数和消费金额的加权平均值;υ为所有参考用户在所述交易维度的消费均值,σ为所有参考用户在所述交易维度的方差;为所述参考用户在所述交易维度的消费金额与所述参考用户的所有消费金额之和的比值。

可选的,所述交易处理单元302,还用于:

采用矩阵分解的方法,对所述消费评分矩阵中的残缺值进行补全。

可选的,所述交易处理单元,具体用于:

随机生成第一参数行向量和第二参数行向量,所述第一参数行向量的元素个数与所述消费评分矩阵的行数相等,所述第二参数行向量的元素个数与所述消费评分矩阵的列数相等;

根据所述第一参数行向量和所述第二参数行向量,计算所述消费评分矩阵的误差;

根据所述误差更新所述第一参数行向量和所述第二参数行向量,并重复步骤根据所述第一参数行向量和所述第二参数行向量,计算所述消费评分矩阵的误差,直至所述误差收敛;

根据所述第一参数行向量和所述第二参数行向量确定补全后的消费评分矩阵。

可选的,所述组合计算单元304,具体用于:

针对所述参考用户的一个交易维度,计算所述交易维度与所述行为数据对应的词语的相似度;

从所述参考用户的所有交易维度中,确定与所述行为数据对应的词语的相似度最高的交易维度;

将所述行为数据对应的词语映射到所述相似度最高的交易维度上。

可选的,所述参考用户的数量为多个;

所述标签单元305,具体用于:

根据业务规则和参考用户的背景资料,从所有参考用户中确定属于同一类标签的参考用户;

根据属于同一类标签的参考用户的综合评分,确定该类标签的预测模型;

根据各类标签的预测模型,得到综合标签分类模型;

根据所述参考用户的综合评分和所述综合标签分类模型,确定所述参考用户的金融标签。

可选的,所述组合计算单元304,还用于:

确定形成综合评分矩阵的历史时间,所述综合评分矩阵为所有参考用户的综合评分组成;

根据所述历史时间和当前时间,计算所述当前时间之下,衰减后的综合评分矩阵;

根据以下公式计算所述衰减后的综合评分矩阵,

其中,α为衰减因子,t为当前时间,t为历史时间,m(t)为历史时间下的综合评分矩阵,m(t)为当前时间下的综合评分矩阵,m’(t)为所述衰减后的综合评分矩阵。

本发明实施例提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(personaldigitalassistant,pda)等。该计算设备可以包括中央处理器(centerprocessingunit,cpu)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(liquidcrystaldisplay,lcd)、阴极射线管(cathoderaytube,crt)等。

存储器可以包括只读存储器(rom)和随机存取存储器(ram),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于金融标签的构建方法的程序。

处理器通过调用存储器存储的程序指令,处理器用于按照获得的程序指令执行:获取参考用户的交易数据以及行为日志;根据所述参考用户的交易数据,构建消费评分矩阵,所述消费评分矩阵中的一个元素为所述参考用户在一个交易维度上的消费评分;根据所述参考用户的行为日志,建立所述参考用户的向量空间模型,所述向量空间模型中包括所述参考用户的多个行为数据,每个行为数据对应所述参考用户的行为日志中的一个词语;针对所述参考用户的一个行为数据,将所述行为数据对应的词语映射到所述消费评分矩阵中所述参考用户的一个交易维度上,根据所述行为数据和映射的交易维度的消费评分,确定所述参考用户的综合评分;根据所述参考用户的综合评分,确定所述参考用户的金融标签。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1