识别可信交易的方法和装置与流程

文档序号:15096577发布日期:2018-08-04 14:43阅读:308来源:国知局

本说明书涉及数据处理技术领域,尤其涉及一种识别可信交易的方法和装置。



背景技术:

伴随着消费金融市场上消费信贷产品的井喷式涌现及其产品功能的不断完善、准入人群的不断扩大、授信额度的不断提高,使用消费信贷产品进行线上、线下的消费支付成为越来越流行的支付方式和支付趋势。消费信贷产品先消费、后支付的属性,可以有效缓解用户的短时资金压力、帮助个人累积良好的信用记录。

然而,恶意套现的存在却对这一良性循环形成了极大的威胁。套现买家伙同套现中介、套现卖家形成了众多的套现闭环网络,套现买家通过虚假交易将信用额度套现并支付一定的手续费给套现中介与套现卖家。套现不仅会影响买家个人的信用记录而且手续费的存在往往会降低买家的还款意愿,形成逾期甚至老赖的情况。及时识别出套现交易对消费信贷业务的开展、对整个消费信贷市场的良性发展都有着重要的意义。



技术实现要素:

有鉴于此,本说明书提供一种识别可信交易的方法,包括:

采用待判定交易的至少一个特征信息,生成待判定交易的表征向量;

计算待判定交易的表征向量与可信向量集合的可信相似度、与非可信向量集合的非可信相似度;所述可信向量集合包括若干个可信交易样本向量,所述非可信向量集合包括若干个非可信交易样本向量,所述交易样本向量根据交易样本集中样本的所述特征信息生成;

基于可信相似度和非可信相似度,确定待判定交易是否为可信交易。

本说明书还提供了一种识别可信交易的装置,包括:

表征向量生成单元,用于采用待判定交易的至少一个特征信息,生成待判定交易的表征向量;

相似度计算单元,用于计算待判定交易的表征向量与可信向量集合的可信相似度、与非可信向量集合的非可信相似度;所述可信向量集合包括若干个可信交易样本向量,所述非可信向量集合包括若干个非可信交易样本向量,所述交易样本向量根据交易样本集中样本的所述特征信息生成;

裁决单元,用于基于可信相似度和非可信相似度,确定待判定交易是否为可信交易。

本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述识别可信交易的方法所述的步骤。

本说明书提供的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述识别可信交易的方法所述的步骤。

由以上技术方案可见,本说明书的实施例中,按照交易样本集中样本的特征信息生成交易样本向量,分别将可信交易样本和非可信交易样本的交易样本向量组成可信向量集合和非可信向量集合,根据待判定交易的表征与可信向量集合的可信相似度、与非信息向量集合的非可信相似度来确定待判定交易是可信交易还是非可信交易,从而实现了基于交易本身的特征来进行可信交易识别,在应用于套现交易时,基于少量的历史交易信息即可准确识别,无需等待大量的历史交易数据积累后进行套现闭环的发现,能够及时跟上业务发展的变化,提高了消费信贷业务的安全性。

附图说明

图1是本说明书实施例中一种识别可信交易的方法的流程图;

图2是本说明书应用示例中一种识别套现交易的流程示意图;

图3是运行本说明书实施例的设备的一种硬件结构图;

图4是本说明书实施例中一种识别可信交易的装置的逻辑结构图。

具体实施方式

本说明书的实施例提出一种新的识别可信交易的方法,采用交易样本集中样本的特征信息生成交易样本向量,将若干个可信交易样本向量和若干个非可信交易样本向量分别组成可信向量集和非可信向量集,对待判定交易,按照其特征信息得到表征向量,分别计算表征向量与可信向量集的可信相似度和非可信向量集的非可信相似度,并根据可信相似度和非可信相似度来识别待判定交易是否为可信交易。本说明书的实施例采用交易的特征信息,基于少量交易样本数据即可准确的进行可信交易识别,能够紧密跟随业务的发展快速识别出新的非可信交易,在应用于套现交易时不需要大量历史交易数据的积累来进行套现闭环的发现,使得消费信贷业务更加安全。

本说明书的实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本、服务器等设备;还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。

本说明书的实施例中,采用已知是否属于可信交易的若干个历史交易来作为交易样本,组成交易样本集。其中,非可信交易可以是套现交易、欺诈交易、虚假交易等非法或者其他不安全的交易中的一种到多种,可信交易是非可信交易以外的其他交易。可信交易样本属于可信交易样本集,非可信交易样本属于非可信交易样本集。为描述简便,本说明书的实施例中,交易样本集可以是可信交易样本集或非可信交易样本集,也可以是可信交易样本集和非可信交易样本集的合集。

交易样本的历史记录通常包括各种交易信息,可以将这些交易信息中对识别可信交易有贡献的信息作为特征信息,特征信息可以是一个到多个。可以根据实际应用场景中所记录的交易信息、交易的具体特点等因素,来决定将哪个或哪些交易信息来作为特征信息,本说明书的实施例不做限定。例如,在识别套现交易时,可以将商品名称、商品价格、交易场景信息等作为特征信息;在识别欺诈交易时,可以将商品名称、商户、交易场景等作为特征信息。

基于交易样本集,可以将交易样本集中的每个交易样本转换为对应的交易样本向量,交易样本向量根据交易样本集中样本的特征信息生成,即以向量的形式来描述对应交易样本的特征信息。可以采用各种以向量描述信息的形式来生成交易样本向量,例如现有的各种词向量技术、各种数据编码技术等,本说明书的实施例不做限定。以下举例说明。

在一种实现方式中,对某个特征信息,可以根据交易样本集中所有样本的该特征信息,将某一个样本的该特征信息映射为稠密向量或稀疏向量;在得到该样本每个特征信息的稠密向量或稀疏向量后,采用其各个特征信息的稠密向量或稀疏向量构建出该样本的交易样本向量。

上述实现方式中,对于所有可能取值为有限数量、以及在离散化后所有可能取值为有限数量的特征信息,可以将该特征信息映射为维度等于所有可能取值的稀疏向量。例如,交易场景特征信息具有4个可能的取值:A1、A2、A3和A4,则可以以一个4维向量来表达交易场景特征信息,每一维对应一个可能的取值;对一个特定样本的交易场景特征信息,可以表达为对应于其取值的维度为1、其他维度为0的4维向量;如交易场景为A2可以表达为向量{0,1,0,0},交易场景为A3可以表达为向量{0,0,1,0}。再如,对交易价格、用户年龄等特征信息,可以将价格的值域空间划分为几个取值区间,将每个取值区间作为一个可能取值后,再表达为维度等于所有可能取值的稀疏向量。

一些文本形式的特征信息,如可以由商户自由输入的商品名称或商品描述信息,常常有无限的可能取值范围。将这样的特征信息采用稀疏向量来表达会导致交易样本向量的维度过大,不仅会极大的减慢运算速度,还会降低识别的准确度,对这样的文本特征信息可以采用稠密向量来描述。

具体而言,可以将交易样本集中所有样本的该文本特征信息中的每个单词映射为一个k(k为自然数)维词向量,统计每个单词在所有样本中的词频;设某个样本的文本特征信息包括t(t为自然数)个单词,按照每个单词映射而得的k维向量、与根据该单词的词频确定的权重,生成该文本特征信息的k维稠密向量。其中,对文本特征信息进行分词所采用的分词技术、词向量映射技术、权重的确定方式均不做限定,以下举例说明。

例如,假设将商品名称特征信息以稠密向量来描述。对一个交易样本集中的所有样本,将每个样本的商品名称进行分词后,将每个单词wp采用Word2Vec(将词转换为向量)技术转换为一个k维向量,如式1所示。wp的在交易样本集中的词频为countwp。

wp=(vp,1,vp,2,...,vp,k) 式1

设第i个样本的商品名称good_titlei划分为t个单词w1,w2,…,wt,则good_titlei如式2所示:

则good_titlei转换而得的k维稠密向量vec_good_titlei如式3所示:

在将某个样本的特征信息映射为对应的稠密向量或稀疏向量后,对只有一个特征信息的应用场景,可以将该特征信息的稠密向量或稀疏向量作为该样本的交易样本向量。对有两个或两个以上特征信息的应用场景,可以采用某种方式将每个特征信息的稠密向量或稀疏向量综合为一个交易样本向量,使得交易样本向量能够体现所有特征信息的影响;例如,可以将样本每个特征信息的稠密向量或稀疏向量拼接后生成该样本的交易样本向量。

在为交易样本集中每个样本生成交易样本向量后,将可信交易样本向量生成的交易样本向量组成可信向量集合,将非可信交易样本生成的交易样本向量组成非可信向量集合。在待判定交易发生时,即可采用可信向量集合和非可信向量集合来识别该待判定交易是否是可信交易。

本说明书的实施例中,识别可信交易的方法的流程如图1所示。

步骤110,采用待判定交易的至少一个特征信息,生成待判定交易的表征向量。

本说明书的实施例中,待判定交易的特征信息即是用来生成交易样本向量时样本的特征信息。可以根据交易样本集中样本转换为交易样本向量的具体方式,来确定生成待判定交易表征向量的方式,待判定交易的特征信息与某个样本的特征信息越相近,其表征向量与该样本的交易样本向量的距离就越近。

仍以上述将特征信息映射为稠密向量或稀疏向量的实现方式为例,可以基于交易样本集中的所有样本,生成某个特征信息的稠密向量索引集或稀疏向量索引集;在待判定交易发生后,根据待判定交易的该特征信息在稠密向量索引集或稀疏向量索引集中的查询结果,生成待判定交易的表征向量。

其中,稀疏向量索引集中包括每个该特征信息的可能取值与稀疏向量的对应关系;稠密向量索引集中包括特征信息或特征信息的组成部分与映射所得的向量的对应关系,以文本特征信息为例,稠密向量索引集中可以包括所有样本的单词与k维向量的对应关系,对待判定交易的该文本特征信息,可以先在稠密向量索引集中查找到该文本特征信息的每个单词对应的k维向量,再基于这些k维向量,采用与计算交易样本中文本特征信息的稠密向量相同的方式,得到待判定交易的该文本特征信息的k维稠密向量。类似的,采用与生成样本的交易样本向量相同的方式,由特征信息的稀疏向量和/或稠密向量得到其表征向量。

在一些应用场景中,随着业务的发展,可能出现待判定交易的特征信息在稠密向量索引集或稀疏向量索引集中查询不到对应的索引项的情况。这种情形下,可以为稠密向量索引集和/或稀疏向量索引集设置默认值,当未能查询到索引项时,以默认值作为查询结果,来生成待判定交易的表征向量。

步骤120,计算待判定交易的表征向量与可信向量集合的可信相似度、与非可信向量集合的非可信相似度。

可信相似度用来衡量表征向量与可信向量集合的接近程度,类似的非可信相似度用来衡量表征向量与非可信向量集合的接近程度。可以根据实际应用场景的需要,来选择以计算可信相似度和非可信相似度的具体算法,本说明书的实施例不做限定。以下举例说明。

例如,可以将表征向量与可信向量集合的重心之间的距离作为可信相似度,将表征向量与非可信向量集合的重心之间的距离作为非可信相似度,可以采用各种现有的算法来确定向量集合重心,同样向量之间的距离也可以采用各种向量之间的距离定义,如欧式距离、曼哈顿距离、切比雪夫距离等。

表征向量与某个向量集合的接近程度可以通过表征向量与该向量集合中全部或部分元素(即集合中的向量)之间的距离来度量。在一种实现方式中,可以先确定可信向量集合中与待判定交易表征向量的第一距离最近的m(m为自然数)个可信交易样本向量,再将待判定交易的表征向量与上述m个可信交易样本向量的第二距离作为可信相似度;类似的,确定非可信向量集合中与待判定交易表征向量的第一距离最近的n(n为自然数)个非可信交易样本向量,将待判定交易的表征向量与上述n个非可信交易样本向量的第二距离作为非可信相似度。其中,第一距离可以是Jensen–Shannon散度、欧式距离、曼哈顿距离、夹角余弦、切比雪夫距离、或汉明距离等;所述第二距离可以是L-P范数(P为自然数),即各级L范数。

上述实现方式中,以第一距离为Jensen–Shannon散度为例,设vecnew为待判定交易的表征向量,vecs为可信向量集或非可信向量集中的交易样本向量,则基于式4可以得出表征向量与交易样本向量的Jensen–Shannon散度JSD(vecnew||vecs):

式4中,

假设采用式4计算得出可信向量集中与表征向量的Jensen–Shannon散度最小的m个可信交易样本向量分别为:直到采用式4计算得出非可信向量集中与表征向量的Jensen–Shannon散度最小的n个非可信交易样本向量分别为:直到在以L2范数作为第二距离时,分别由式5和式6可以计算得出可信相似度dnew-pos和非可信相似度dnew-neg:

如前所述,本说明书的实施例中,交易样本集可以是可信交易样本集或非可信交易样本集,也可以是可信交易样本集和非可信交易样本集的合集。在交易样本集是可信交易和非可信交易样本集的合集的实现方式中,采用全部样本(包括可信交易样本和非可信交易样本)来生成每个样本的交易样本向量;在步骤110中也采用全部样本来生成某个特征信息的稠密向量索引集或稀疏向量索引集,并通过查询稠密向量索引集或稀疏向量索引集来生成待判定交易的一个表征向量;在步骤120中,采用该表征向量来计算可信相似度和非可信相似度。

在另一种实现方式中,可以以交易样本集为可信交易样本集,根据可信交易样本集样本的特征信息来生成每个可信交易样本的交易样本向量,以交易样本集为非可信交易样本集,根据非可信交易样本集样本的特征信息来生成每个非可信交易样本的交易样本向量。在步骤110中,基于可信交易样本集中的所有样本,生成某个特征信息的可信稠密向量索引集或可信稀疏向量索引集;根据待判定交易的特征信息在可信稠密向量索引集或可信稀疏向量索引集中的查询结果,生成待判定交易的可信表征向量;基于非可信交易样本集中的所有样本,生成某个特征信息的非可信稠密向量索引集或非可信稀疏向量索引集;根据待判定交易的特征信息在非可信稠密向量索引集或非可信稀疏向量索引集中的查询结果,生成待判定交易的非可信表征向量。在步骤120中,采用待判定交易的可信表征向量来计算与可信向量集合的可信相似度(式4和式5中的vecnew为待判定交易的可信表征向量),采用待判定交易的非可信表征向量来计算与非可信向量集合的非可信相似度(式4和式6中的vecnew为待判定交易的非可信表征向量)。

步骤130,基于可信相似度和非可信相似度,确定待判定交易是否为可信交易。

可以根据实际应用场景的需要,来确定根据表征向量的可信相似度和非可信相似度做出待判定交易是否可信的决策的具体方式,本说明书的实施例不做限定。例如,可以在可信相似度超过非可信相似度时,将待判定交易作为可信交易,否则将待判定交易作为非可信交易。

再如,可以基于可信相似度和非可信相似度计算待判定交易为可信交易的概率、以及待判定交易为不可信交易的概率中的至少一个,再按照待判定交易为可信交易的概率、待判定交易为不可信交易的概率中的一个或两个来确定待判定交易是否为可信交易。以下为一个具体的示例:设待判定交易表征向量的可信相似度为dnew-pos,非可信相似度为dnew-neg,则可以采用式7和式8分别计算待判定交易为可信交易的概率Ppos和待判定交易为不可信交易的概率Pneg:

在得出Ppos和Pneg后,可以基于Ppos和Pneg来进行可信交易的识别,也可以采用Ppos和Pneg与其他的业务参数一起进行可信交易的识别。

可见,本说明书的实施例中,采用交易样本集中样本的特征信息生成交易样本向量,将若干个可信交易样本向量和若干个非可信交易样本向量分别组成可信向量集和非可信向量集,根据待判定交易的表征与可信向量集合的可信相似度、与非信息向量集合的非可信相似度来确定待判定交易是可信交易还是非可信交易,从而能够采用交易的特征信息,基于少量交易样本数据来准确的进行可信交易识别,在应用于套现交易时,基于少量的历史交易信息即可准确识别,无需等待大量的历史交易数据积累后进行套现闭环的发现,能够紧密跟随业务的发展快速识别出新的套现交易,使得消费信贷业务更加安全。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书的一个应用示例中,某个线上消费信贷服务系统为线下交易提供信贷服务。由于套现用户的支用不良率和逾期率可达正常用户的数倍至数十倍,该服务系统希望能够在线下交易完成前,识别出套现交易并拒绝信贷服务。该服务系统采用图2所示的流程进行套现交易识别。

在该服务系统的历史线下信贷交易记录中,将经过资金回流确认或人工确认,认定为套现交易(一种非可信交易)的多个交易记录作为非可信交易样本,构成非可信交易样本集;将认定为非套现交易(一种可信交易)的多个交易记录作为可信交易样本,构成可信交易样本集。

由于套现交易经常以礼品卡、餐饮服务等作为交易的商品,并且常常以高于该商品常规价格的价格成交,因此,本应用示例中采用交易信息中的商品名称、商品价格和交易场景作为特征信息。其中,交易场景有数个可能的取值,商品价格在以预定的若干个价格区间离散化后可能的取值数量也有限,因此采用稀疏向量来表达这两个特征信息。商品名称通常是文本形式,采用稠密向量来表达。

以可信交易样本集为范围,对其中所有样本的商品名称进行分词,采用word2vec技术将所有样本商品名称中出现的每个单词映射为一个k1(k1为自然数)维词向量;对一个包括t个单词的样本,采用以k1代替k后的式3计算得出该样本商品名称的稠密向量。以可信交易样本集为范围,统计其中所有样本的交易场景的可能取值的数量,假设为r1(r1为自然数),采用OneHot Encoder技术按照某个样本的交易场景的取值将该样本交易场景映射为一个r1维的稀疏向量。以可信交易样本集为范围,设商品价格采用y1(y1为自然数)个价格区间进行离散化,采用OneHot Encoder技术按照某个样本的商品价格所在的价格区间将该样本商品价格映射为一个y1维的稀疏向量。将一个样本的稠密向量和两个稀疏向量按预定次序拼接为一个(k1+r1+y1)维的向量,作为该样本的交易样本向量。将所有可信交易样本集中每个样本的交易样本向量组合为可信向量集。以可信交易样本集为范围,生成包括所有样本商品名称中出现过的所有单词与该单词映射而成的k1维词向量、以及该单词词频的对应关系的可信稠密向量索引集。以可信交易样本集为范围,生成交易场景的可信稀疏向量索引集(包括交易场景的每个可能取值与稀疏向量的对应关系),以及商品价格的可信稀疏向量索引集(包括商品价格的每个可能的取值区间与稀疏向量的对应关系)。

以非可信交易样本集为范围,对其中所有样本的商品名称进行分词,采用word2vec技术将所有样本商品名称中出现的每个单词映射为一个k2(k2为自然数)维词向量;对一个包括t个单词的样本,采用以k2代替k后的式3计算得出该样本商品名称的稠密向量。以非可信交易样本集为范围,统计其中所有样本的交易场景的可能取值的数量,假设为r2(r2为自然数),采用OneHot Encoder技术按照某个样本的交易场景的取值将该样本交易场景映射为一个r2维的稀疏向量。以非可信交易样本集为范围,设商品价格采用y2(y2为自然数)个价格区间进行离散化,采用OneHot Encoder技术按照某个样本的商品价格所在的价格区间将该样本商品价格映射为一个y2维的稀疏向量。将一个样本的稠密向量和两个稀疏向量按预定次序拼接为一个(k2+r2+y2)维的向量,作为该样本的交易样本向量。将所有非可信交易样本集中每个样本的交易样本向量组合为非可信向量集。以非可信交易样本集为范围,生成包括所有样本商品名称中出现过的所有单词与该单词映射而成的k2维词向量、以及该单词词频的对应关系的非可信稠密向量索引集。以非可信交易样本集为范围,生成交易场景的非可信稀疏向量索引集(包括交易场景的每个可能取值与稀疏向量的对应关系),以及商品价格的非可信稀疏向量索引集(包括商品价格的每个可能的取值区间与稀疏向量的对应关系)。

在该服务系统收到进行在线信贷支付的交易请求时,将该交易请求作为待判定交易,提取其商品名称、商品价格和交易场景信息。将商品名称分词后,查询每个单词在可信稠密向量索引集中对应的k1维词向量和词频(如果未查询到则以默认值作为查询结果),采用以k1代替k后的式3计算得出商品名称的可信稠密向量。分别以待判定交易的商品价格和交易场景查询商品价格可信稀疏向量索引集和交易场景可信稀疏向量索引集(如果未查询到则以默认值作为查询结果),得到两个可信稀疏向量,将上述三个向量按预定次序拼接为待判定交易的可信表征向量。

查询商品名称每个单词在非可信稠密向量索引集中对应的k2维词向量和词频(如果未查询到则以默认值作为查询结果),采用以k2代替k后的式3计算得出商品名称的非可信稠密向量。分别以待判定交易的商品价格和交易场景查询商品价格非可信稀疏向量索引集和交易场景非可信稀疏向量索引集(如果未查询到则以默认值作为查询结果),得到两个非可信稀疏向量,将上述三个向量按预定次序拼接为待判定交易的非可信表征向量。

以待判定交易的可信表征向量为vecnew,分别以可信向量集中每个向量作为vecs,采用式4计算得出可信表征向量与可信向量集中每个交易样本向量的Jensen–Shannon散度,确定Jensen–Shannon散度值最小的m个交易样本向量。以待判定交易的可信表征向量为vecnew,采用式5计算得到待判定交易的可信相似度。

以待判定交易的非可信表征向量为vecnew,分别以非可信向量集中每个向量作为vecs,采用式4计算得出非可信表征向量与非可信向量集中每个交易样本向量的Jensen–Shannon散度,确定Jensen–Shannon散度值最小的n个交易样本向量。以待判定交易的非可信表征向量为vecnew,采用式6计算得到待判定交易的非可信相似度。

采用式7和式8,分别计算待判定交易为可信交易的概率Ppos和待判定交易为不可信交易的概率Pneg,并依据Ppos、Pneg和其他的业务参数来对待判定交易是套现交易还是非套现交易做出裁决。

与上述流程实现对应,本说明书的实施例还提供了一种识别可信交易的装置。该装置均可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过所在设备的CPU(Central Process Unit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图3所示的CPU、内存以及存储器之外,识别可信交易的装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。

图4所示为本说明书实施例提供的一种识别可信交易的装置,包括表征向量生成单元、相似度计算单元和裁决单元,其中:表征向量生成单元用于采用待判定交易的至少一个特征信息,生成待判定交易的表征向量;相似度计算单元用于计算待判定交易的表征向量与可信向量集合的可信相似度、与非可信向量集合的非可信相似度;所述可信向量集合包括若干个可信交易样本向量,所述非可信向量集合包括若干个非可信交易样本向量,所述交易样本向量根据交易样本集中样本的所述特征信息生成;裁决单元用于基于可信相似度和非可信相似度,确定待判定交易是否为可信交易。

一种实现方式中,所述交易样本向量根据交易样本集中样本的所述特征信息生成,包括:根据交易样本集中所有样本的某个特征信息,将样本的所述特征信息映射为稠密向量或稀疏向量;采用各个特征信息的稠密向量或稀疏向量构建所述样本的交易样本向量。

上述实现方式中,所述特征信息包括:文本特征信息;所述根据交易样本集中所有样本的某个特征信息,将样本的所述特征信息映射为稠密向量,包括:将交易样本集中所有样本的某个文本特征信息中的每个单词映射为一个k维向量;对所述文本特征信息包括t个单词的样本,由每个单词对应的k维向量和所述单词的权重生成所述文本特征信息的k维稠密向量;所述单词的权重根据所述单词在所有样本中的词频确定;k和t为自然数。

上述实现方式中,所述特征信息包括至少两项;所述采用各个特征信息的稠密向量或稀疏向量构建所述样本的交易样本向量,包括:将样本每个特征信息的稠密向量或稀疏向量拼接后生成所述样本的交易样本向量。

上述实现方式中,所述表征向量生成单元具体用于:基于交易样本集中的所有样本,生成某个特征信息的稠密向量索引集或稀疏向量索引集;根据待判定交易的所述特征信息在稠密向量索引集或稀疏向量索引集中的查询结果,生成待判定交易的表征向量。

可选的,所述待判定交易的所述特征信息在稠密向量索引集或稀疏向量索引集中的查询结果,包括:当待判定交易的所述特征信息在稠密向量索引集或稀疏向量索引集中未查询到对应的索引项时,以默认值作为查询结果。

可选的,所述交易样本向量根据交易样本集中样本的所述特征信息生成,包括:根据可信交易样本集样本的所述特征信息生成可信交易样本向量,根据非可信交易样本集样本的所述特征信息生成非可信交易向量;所述表征向量生成单元具体用于:基于可信交易样本集中的所有样本,生成某个特征信息的可信稠密向量索引集或可信稀疏向量索引集;根据待判定交易的所述特征信息在可信稠密向量索引集或可信稀疏向量索引集中的查询结果,生成待判定交易的可信表征向量;基于非可信交易样本集中的所有样本,生成某个特征信息的非可信稠密向量索引集或非可信稀疏向量索引集;根据待判定交易的所述特征信息在非可信稠密向量索引集或非可信稀疏向量索引集中的查询结果,生成待判定交易的非可信表征向量;所述相似度计算单元具体用于:采用待判定交易的可信表征向量计算与可信向量集合的可信相似度,采用待判定交易的非可信表征向量计算与非可信向量集合的非可信相似度。

一个例子中,所述相似度计算单元具体用于:确定可信向量集合中与待判定交易表征向量的第一距离最近的m个可信交易样本向量,将待判定交易的表征向量与所述m个可信交易样本向量的第二距离作为可信相似度;确定非可信向量集合中与待判定交易表征向量的第一距离最近的n个非可信交易样本向量,将待判定交易的表征向量与所述n个非可信交易样本向量的第二距离作为非可信相似度;m和n为自然数。

上述例子中,所述第一距离包括:Jensen–Shannon散度、欧式距离、曼哈顿距离、夹角余弦、切比雪夫距离、或汉明距离;

所述第二距离包括:L-P范数,P为自然数。

可选的,所述裁决单元具体用于:基于可信相似度和非可信相似度计算待判定交易为可信交易的概率和/或待判定交易为不可信交易的概率,按照待判定交易为可信交易的概率和/或待判定交易为不可信交易的概率确定待判定交易是否为可信交易。

可选的,所述特征信息包括:商品名称、商品价格和交易场景;所述可信交易包括:非套现交易;所述非可信交易包括:套现交易。

本说明书的实施例提供了一种计算机设备,该计算机设备包括存储器和处理器。其中,存储器上存储有能够由处理器运行的计算机程序;处理器在运行存储的计算机程序时,执行本说明书实施例中识别可信交易的方法的各个步骤。对识别可信交易的方法的各个步骤的详细描述请参见之前的内容,不再重复。

本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中识别可信交易的方法的各个步骤。对识别可信交易的方法的各个步骤的详细描述请参见之前的内容,不再重复。

以上所述仅为本说明书的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1