基于异质网络表征学习的线上交易多主体行为建模方法与流程

文档序号:17792532发布日期:2019-05-31 20:29阅读:276来源:国知局
基于异质网络表征学习的线上交易多主体行为建模方法与流程

本发明属于互联网金融技术领域,特别涉及基于异质网络表征学习的线上交易多主体行为建模方法



背景技术:

随着移动互联网的兴起,各种传统的金融业务逐渐转至线上。随着互联网金融和电子商务迅速发展,网络在线交易将带来大量的电子交易数据,同时伴随着在线支付欺诈交易数量也大量增加。攻击者通过窃取用户账户,盗取个人隐私信息,甚至恶意攻击服务器等方式来完成欺诈。为保障用户和公司业务安全,需要建立切实有效的网络交易欺诈检测系统。

目前基于主体建模方法的传统网络交易欺诈检测系统通常针对交易卡号建立关于交易卡号级别的个体模型,交易卡号级别的模型往往由于一个交易卡号对应数据量过少或者缺失信息过多,而不能够有效地建立个体级别的行为模型,无法解决互联网在线交易场景下的反欺诈任务。

传统的解决数据缺失与数据量少的方法(如:协同过滤、张量分解等方法)往往时间复杂度过高,不适合于互联网金融场景下的大量数据,所以亟需一个可以快速高效的网络支付欺诈检测方法来解决这些问题。

通过分析交易数据的特征,发现卡号级别交易数据往往受到现实场景的限制,而无法有效描述自己的行为模式。因此,如何解决交易卡号级别的个体模型的缺陷是需要研究的问题。同时,有些交易卡号仅仅拥有异常的交易记录甚至没有历史交易数据,没有关于交易卡号的正常样本数据则无法对其建立个体级别的模型,如何将建模主体的概念进行推广以实现针对不同的主体均带有充分的历史数据,才能实现在不同情况下准确全面地检测欺诈交易的发生,这对模型的适应性和鲁棒性都提出了挑战。

本发明中参考了如下资料。

[1]fut,leewc,leiz.hin2vec:exploremeta-pathsinheterogeneousinformationnetworksforrepresentationlearning[c]//proceedingsofthe2017acmonconferenceoninformationandknowledgemanagement.acm,2017:1797-1806.

[2]dongy,chawlanv,swamia.metapath2vec:scalablerepresentationlearningforheterogeneousnetworks[c]//proceedingsofthe23rdacmsigkddinternationalconferenceonknowledgediscoveryanddatamining.acm,2017:135-144.

[3]huangz,mamoulisn.heterogeneousinformationnetworkembeddingformetapathbasedproximity[j].arxivpreprintarxiv:1701.05291,2017.

[4]shangj,qum,liuj,etal.meta-pathguidedembeddingforsimilaritysearchinlarge-scaleheterogeneousinformationnetworks[j].arxivpreprintarxiv:1610.09769,2016.

[5]choik,kimg,suhy.classificationmodelfordetectingandmanagingcreditloanfraudbasedonindividual-levelutilityconcept[j].acmsigmisdatabase:thedatabaseforadvancesininformationsystems,2013,44(3):49-67.

[6]rodrigueza,laioa.clusteringbyfastsearchandfindofdensitypeaks[j].science,2014,344(6191):1492-1496.

[7]perozzib,al-rfour,skienas.deepwalk:onlinelearningofsocialrepresentations[c]//proceedingsofthe20thacmsigkddinternationalconferenceonknowledgediscoveryanddatamining.acm,2014:701-710.



技术实现要素:

本发明实施例提供基于异质网络表征学习的线上交易多主体建模方法,借助关联图谱技术将原始数据表示为异质网络形式,并借助异质网络表征学习将交易记录中缺失的信息填充,并提出多主体的行为建模方案,实现了从多个建模主体角度检测欺诈交易,提高拦截欺诈交易的准确性和模型的鲁棒性。

本发明实施例之一,一种基于异质网络表征学习的线上交易多主体行为建模方法,首先建立个体正常交易行为模型,当个体行为与正常行为模型偏离程度超过一个预设值,则判断该个体有交易欺诈的风险。

该建模方法包括步骤:

步骤1,利用关联图谱将原始线上交易数据表示为异质网络,并利用异质网络表征学习对异质网络化的交易数据中缺失的信息进行数据补充,用于建立个体行为模型;

步骤2,利用多主体行为建模,建立多个不同维度主体的行为模型,综合多个主体行为模型获得判别结果,预测交易异常的可能性。

所述建模方法获取交易数据中交易卡号,结合多个交易类型属性数据,建立多主体行为模型。该方法并不以交易卡号为基础,而是多个主体的地位相等。本方法摆脱了传统的以卡号为主的建模思想,引入其他多个主体,综合判断。

在互联网金融中,反欺诈体系建设的难点在于如何区分正常行为和欺诈行为。本发明借助带标签数据的训练样本建立正常行为的模型分布,同时认定偏离正常行为过大的交易为欺诈交易。由于个体的交易数据往往能够反映其行为模式,分析个体行为与其行为模型的偏离程度,可用于检测欺诈交易。

本发明首先利用关联图谱技术将原始的数据表示为异质网络形式,然后结合交易数据将关联图谱形成带权重的异质信息网络,并借助异质网络表征学习将原始数据映射到统一的向量空间,解决了不同属性类型数据之间的计算障碍,同时将交易记录中的缺失值和数据量进行填充,克服建立个体模型在数据上的障碍。

为了解决部分主体仅仅拥有异常的交易记录甚至没有历史交易数据的情况,本发明提出从不同主体的建立行为模型方案,将主体从交易卡号推广到到其他交易属性,设计出一种多主体行为建模方法,解决了传统欺诈检测方法对信息量少的主体的乏力情况,为互联网金融信息化时代网络支付安全问题的解决提供了新的思路和解决方法。

本发明克服了基于主体建模方法的传统欺诈检测方法的不足,利用异质网络表征学习增加对不良数据(数据缺失值多或数据量少)的处理能力,同时提出多主体行为建模方法解决了传统模型无法处理的情况,对检测欺诈交易、拦截欺诈交易和保护用户和企业的资金安全有更好的保障。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1是根据本发明实施例的基于交易数据构建用于异质网络表征学习的方法示意图。

图2是根据本发明实施例的基于异质网络表征学习的线上交易多主体行为建模方法系统示意图。

具体实施方式

根据一个或者多个实施例,如图1和2所示,一种基于异质网络表征学习的线上交易多主体行为建模方法,该建模方法包括2个步骤,

步骤1,利用关联图谱将数据网络化表示,并利用异质网络表征学习对网络化数据进行数据填充,用于建立主体行为模型;

步骤2,利用多主体行为建模方法,建立多个不同维度主体的行为模型和综合多个主体行为模型的判别结果,预测交易异常的可能性。

所述步骤1,利用关联图谱将数据网络化表示和异质网络表征学习将网络化数据进行数据填充,该步骤的输入包括:用户网络支付交易的原始交易数据,调节权重的超参数α、β,异质网络表征学习方法参数;输出包括:填充后的完整交易数据。步骤1的过程如下:

步骤1.1,根据用户当笔交易原始数据字段筛选有用字段(如表3可利用原始字段所示),进行数据预处理:

将连续的值离散化,如交易时间、交易金额等字段的值进行离散化表示;

利用关联图谱描述数据中的关联信息,如某属性a在交易单号为x的交易中出现,某属性b在交易单号为x的交易中也出现过,则属性a和属性b则通过交易单号x相互关联;

将离散化后的交易数据中任意一个取值视做网络中的节点,如:交易金额离散化为一天中四个时间段,网络中则对应四个节点;

将相互关联的属性对视为网络中一条边,如属性a与属性b相互关联,则在关联图谱中节点a和节点b之间存在边。

由此形成一个交易记录构成的关联图谱。

步骤1.2,在所构建的关联图谱中,设定正常交易数据产生的边带有正值权重,异常交易数据产生的边带有负值权重;

一条多次出现的边的权重是其每次出现的权重之和,当权重之和小于或等于零时,在网络中删除这条边;

根据公式(1)对权重之和进行变换,缩小权重之间的巨大差异。

通过上述步骤,得到一个带有权重的异质信息网络,执行步骤1.4。

x表示一条边所对应的权重值,s(x)表示经变换后的权重值。调节权重的超参数α、β的根据需调节的权重比值设定,α影响权重的缩放程度,β影响权重值小时的权重的缩放程度,如α可设为1.8,β可设为5。公式(1)为

步骤1.3,基于步骤1.2中所构建的带权重的异质信息网络,利用异质网络表征学习方法得到网络中节点的向量表示。

本步骤中,采用现有的异质网络表征学习方法hin2vec来学习网络中节点的向量表示。方法hin2vec学习向量表示的主要参数如表2所示。参数的设定与网络的结构有关,可参考文献[1]。将步骤1.3中的异质信息网络作为hin2vec算法的输入,可以得到网络中节点对应的向量表示。

步骤1.4,基于步骤1.3中的节点向量表示,一笔交易数据可以转化为向量空间中对应的若干节点,即向量空间中节点的组合可表示一笔交易数据。因此针对向量空间中所有节点重新组合,可以得到所有可能发生的交易数据。例如,交易数据含有3个字段,每种字段分别有5、8、10种可取值,因此在向量空间中可重组5*8*10=400种可能出现的交易数据。将上述重组后的交易数据作为算法输出。

表3可利用原始字段

表4hin2vec主要参数

所述步骤2,建立多主体的行为模型和综合多个主体行为模型进行判别,输入包括:填充后用于行为建模的交易数据,待建模的主体对应字段,超参数w、n0,待检测交易数据。输出包括:交易数据是否异常。步骤2的过程如下:

步骤2.1,一条含有n个字段的交易数据可以对应向量空间中n个向量,计算任意两个向量之间的欧式距离集合{d1,···,dk},其中集合的大小面对向量v1=(v1,1,····,v1,dim)、向量v2=(v2,1,····,v2,dim),其欧式距离的计算如公式(2)所示。

因此,一条交易记录可用欧氏距离集合{d1,…,dk}表示,定义一条交易记录的凝聚度c为公式(3),超参数w={w0,…,wk}可以通过对训练数据进行回归分析得到。

步骤2.2,选择交易卡号为主体,针对所有交易卡号建立行为模型。

设定其个体行为模型是一个能够描述该卡号所有可能出现的交易记录及其对应概率的离散分布,该分布的大小为除交易卡号外所有其他交易属性可取值数目的积。当分布过于庞大时,计算的开销将会无法承受,对此可选择针对部分字段进行聚类处理,划分在同一个簇中的节点均使用簇心节点代替,即在向量空间中相似的同一类型节点被视为一个节点。

针对选定的主体g,其所有可能出现的交易记录集合为tg,t为tg中的一种情况,ct是t所对应的凝聚度,可以得到情况t在分布中对应的概率pt,如公式(4),是归一化函数。

对tg中每一种情况计算其概率,可以得到以g为主体的个体行为模型pg。

步骤2.3,针对以g为主体的个体行为模型pg,计算其对应的信息熵hg。信息熵hg的计算如公式(5)所示。hg表示模型pg的可信程度,hg值越大,主体g对应的个体模型行为越不稳定,pg越不准确。

步骤2.4,对待检测的交易数据集t中的每一条t,计算其异常值得分scoret,g(表示主体g对应的交易记录t的异常得分),如公式(6),超参数n0为偏置项,负责调整个体行为模型中当前交易记录t之外的其他记录对得分的影响程度,n0越大,其他记录对得分的影响程度越低。

步骤2.5,依次选取输入的待建模主体对应字段,用其代替步骤2.2中的交易卡号字段,循环执行步骤2.2至步骤2.4,返回不同主体对交易的判断结果集合gi表示不同的主体,

如输入的泛化主体对应字段为商户编号和发卡地编号,返回的判断结果集合应为此时g1、g2、g3分别对应主体交易考号、商户编号和发卡地编号。

步骤2.6,针对不同的主体分别设定阈值区间thresholdg,将得分scoret,g属于阈值期间的交易标签设置labelt,g=0,否则设置labelt,g=0,

如公式(7)所示,labelt,g=1表示主体g判断交易t为异常交易。

综合考虑多个主体判断结果对应的labelt,g,判断交易的异常与否。

综合考虑多个主体判断结果的方案需要视具体情况制定,如加权制(每个结果占一定比例,所有结果加权后的总分作为最终结果)、投票制(规定判断为异常的主体达到一定数量方才视交易记录为异常交易)、一票否决制(只要某一主体判断结果为异常,即视该笔交易为异常交易)等方案。

为例,根据阈值区间thresholdg与公式(7)得到判断结果集合利用一票否决制可以得到最终的多主体结果

根据一个或者多个实施例,如图2所示。一种基于异质网络表征学习的线上交易多主体行为分析系统。该系统通过对个体的交易行为数据的分析,分析预测个体交易行为是否有异常情况存在的风险程度,可以用于互联网金融网络交易的反欺诈检测。

基于异质网络表征学习的线上交易多主体行为分析系统包括:异质网络生成模块、网络表征学习模块、缺失信息填充模块、多主体行为建模模块,

异质网络生成模块,根据b2c交易数据和c2c交易数据生成异质信息网络;

网络表征学习模块,将异质信息网络的输出,接入hin2vec算法模块,得到网络中节点向量表示;

缺失信息填充模块,根据交易数据网络表征学习模块得到的向量填充原始交易数据中缺失的信息,将含有缺失值或未出现的交易记录用不同属性对应的向量表示;

多主体行为建模模块,

对于交易卡号主体模型计算分布熵,获得第一单一主体判断结果,

对于第二主体分布模型计算分布熵,获得第二单一主体判断结果,

对于第三主体分布模型计算分布熵,获得第三单一主体判断结果,

以此类推,获得多个单一主体判断结果,最后合成多个主体模型判断结果。

本实施例通过在真实互联网金融银行交易数据集上进行检测证明,将对交易的检测视为一种二分类任务,采用分类任务中的评价指标评价方法的性能。实验对比了在打扰率(误拦截率)为1%,0.5%,0.1%和0.05%时的召回率(拦截率),并由此来评价系统的性能。打扰率为将正常交易记录检测为异常交易记录的数量与所有正常交易数量的比值,召回率为正确预测到的异常交易数量与所有异常交易数量的比值。经实验证明,该方法在相同数据集和指标下的表现优于先前的研究,并且有着较好的鲁棒性。

应理解,在本发明实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1