一种虚假交易的识别方法和装置与流程

文档序号:14451564阅读:267来源:国知局

本公开涉及网络技术领域,特别涉及一种虚假交易的识别方法和装置。



背景技术:

在电子商务快速发展的过程中,加强对电子商务中的风险控制也极为重要,以通过风险控制尽量规避一些影响正常业务的事件或者用户,最终形成一个专业和真实的良好购物环境。在电商风控中,其中一种风控即为对虚假交易的打击。虚假交易是一种不真实的买卖行为,这类交易的目的可能是为了赚取奖励金或者红包套现等交易之外的目的,虚假交易是一种不道德的行为,电子商务网站查到后一般会做出严厉的处罚。

对虚假交易的风控,可以使用识别模型来识别一笔交易是否是虚假交易,例如,相关技术中可以使用交易特征模型来识别虚假交易。但是,有一类虚假交易,经常发生在亲朋好友之间或者在同一用户的大小账号之间,并且,交易金额较小,交易频次比较正常,其交易特征和正常的交易没有比较明显的区别,此时很难用常规的交易特征模型识别到此类虚假交易。



技术实现要素:

有鉴于此,本公开提供一种虚假交易的识别方法和装置,以提高虚假交易识别的准确率。

具体地,本说明书一个或多个实施例是通过如下技术方案实现的:

第一方面,提供一种虚假交易的识别方法,所述方法包括:

确定发生交易的买家账号和卖家账号;

分别获取每个账号在预设时间段内的设备登录数据;

根据所述设备登录数据,分别构造每个账号对应的设备向量,所述设备向量中的每一个向量分量对应设备集合中的一个设备,所述向量分量的取值用于表示所述账号对所述设备使用的活跃度,所述设备集合是所述买家账号和卖家账号在所述预设时间段内登录过的设备并集;

计算所述买家账号和卖家账号对应的两个设备向量之间的相似度值;

若所述相似度值在预设的风险数值范围内,则确定所述买家账号和卖家账号之间进行的交易为虚假交易。

第二方面,提供一种虚假交易的识别装置,所述装置包括:

账号确定模块,用于确定发生交易的买家账号和卖家账号;

数据获取模块,用于分别获取每个账号在预设时间段内的设备登录数据;

向量构造模块,用于根据所述设备登录数据,分别构造每个账号对应的设备向量,所述设备向量中的每一个向量分量对应设备集合中的一个设备,所述向量分量的取值用于表示所述账号对所述设备使用的活跃度,所述设备集合是所述买家账号和卖家账号在所述预设时间段内登录过的设备并集;

相似计算模块,用于计算所述买家账号和卖家账号对应的两个设备向量之间的相似度值;

虚假识别模块,用于在所述相似度值在预设的风险数值范围内时,则确定所述买家账号和卖家账号之间进行的交易为虚假交易。

第三方面,提供一种虚假交易的识别设备,所述识别设备包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行指令时实现以下步骤:

确定发生交易的买家账号和卖家账号;

分别获取每个账号在预设时间段内的设备登录数据;

根据所述设备登录数据,分别构造每个账号对应的设备向量,所述设备向量中的每一个向量分量对应设备集合中的一个设备,所述向量分量的取值用于表示所述账号对所述设备使用的活跃度,所述设备集合是所述买家账号和卖家账号在所述预设时间段内登录过的设备并集;

计算所述买家账号和卖家账号对应的两个设备向量之间的相似度值;

若所述相似度值在预设的风险数值范围内,则确定所述买家账号和卖家账号之间进行的交易为虚假交易。

本说明书一个或多个实施例的虚假交易的识别方法和装置,通过根据买卖家使用过的设备并集构造特征向量,全面评价了买卖双方的设备关系,并且,向量的取值体现了用户对不同设备的使用情况,这样通过计算向量的相似性,能够很好的体现了买卖双方的设备强弱关系,进而使得根据设备关系得到的虚假交易识别更加准确。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种虚假交易的识别系统的结构;

图2为本说明书一个或多个实施例提供的一种虚假交易识别方法的流程;

图3为本说明书一个或多个实施例提供的一种虚假交易识别方法的流程;

图4为本说明书一个或多个实施例提供的一种虚假交易的识别装置的结构;

图5为本说明书一个或多个实施例提供的一种虚假交易的识别装置的结构。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。

虚假交易可以是一种为了交易之外的其他目的而进行的交易,比如,为了赚取奖励金或者红包套现等。其中,有一种类型的虚假交易的特点是,交易的双方(买家和卖家)在账号登录过的设备方面,存在至少一个相同的设备,并且在账号登录设备的活跃度上也具有一定程度的相似性。

举例一个场景如下:假设存在两个账号即账号a和账号b,账号a的用户a和账号b的用户b是比较亲密的关系,如室友、家人等。用户a有一个手机,用户b有两个手机,并且,用户a和用户b经常互换使用各自的手机,用户a的账号a在这三个手机上都登录过,用户b的手机在两个手机上(一个用户b的手机和一个用户a的手机)登录过。则在这个场景中,用户a和用户b具有较强的设备关系,该较强设备关系包括:两人的账号登录过的设备中存在多个共同设备;并且,各自对不同设备的使用(登录)活跃度上具有一定的相似性。

基于上述类型的虚假交易在设备关系上存在的上述特点,本说明书一个或多个实施例提供了一种虚假交易的识别方法,以识别出上述类型的虚假交易。

图1示例了一种虚假交易的识别系统,需要说明的是,图1只是一种架构实施的示例,但具体实施中并不局限于此。比如,图1中的分开独立的各个设备也可以是位于同一台物理设备上,或者,图1中存储在同一设备的多种数据也可以是分别存储在不同的设备。

如图1所示,假设用户11和用户12使用手机进行了一笔交易,与这笔交易相关的数据可以被采集并存储到服务器13中。例如,可以包括交易明细数据131和操作日志数据132。其中的交易明细数据131可以包括发生交易的买家账号和卖家账号,而操作日志数据132可以包括上述的买家账号和卖家账号所登录设备的设备标识(例如,ip地址、mac地址、wifimac等)、登录设备的登录日期(例如,2013年12月1日)。

请继续参见图1,服务器14可以是一个负责进行虚假交易识别计算的设备。该服务器14可以根据服务器13中存储的上述交易明细数据131和操作日志数据132,计算在识别虚假交易时需要用到的一些参数,比如,两个账号之间的设备关系的强弱,具体的计算过程在后续详述。并且,服务器14还可以将计算结果进行存储,例如,存储设备关系较强的账号对(如,账号a和账号b)。虚假交易识别模块15可以在发生一笔交易时,通过查询服务器14的计算结果来判断这笔交易是否是虚假交易。

上述图1示例的系统架构,可以是一种离线式应用的例子,由服务器14提前计算好识别依据的数据,以备后续直接根据该数据进行虚假交易的识别。在其他的例子中,也可以应用于在线识别,那么服务器14可以在接收到一笔待识别的交易时,实时的进行识别相关的计算,并得到识别结果。

如下结合图1,以离线应用的虚假交易识别方法为例,描述如何进行虚假交易的识别。其中,该方法可以主要由图1中的服务器14执行。服务器14也可以称为虚假交易的识别设备,该设备可以包括处理器、存储器、以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器通过执行所述指令,以实现本说明书一个或多个实施例的虚假交易识别方法。

请结合图2示例的流程图,该流程图可以描述服务器14执行的处理过程,该处理过程可以由服务器14定期执行,比如,可以每天执行一次,以每天更新服务器14存储的计算结果,使得虚假交易识别的依据更加准确。该流程包括:

在步骤200中,确定发生交易的买家账号和卖家账号。

例如,以当前时间(今天)为例,服务器14可以由服务器13中获取上一天得到的交易明细数据,该交易明细数据是历史存储的交易数据。并由交易明细数据中获取发生过交易的两个账号,比如,买家账号a和卖家账号b。

在步骤202中,根据账号,获取该账号在预设时间段内的设备登录数据。

例如,预设时间段可以是60天,当然具体实施中也可以对预设时间段的时长进行变更。所述的60天可以是由步骤200中交易明细数据的获取日期往前推得到,即由上一天开始往前计60天。

本步骤中的设备登录数据,可以是服务器14由服务器13中存储的操作日志数据中得到,操作日志数据还可以包括所述设备登录数据之外的其他数据。比如,设备登录数据可以包括:账号登录某个设备的设备标识,该设备标识可以用ip地址、mac地址等唯一标识设备的信息表示;设备登录数据还可以包括账号登录某个设备的登录如期,比如,于2017年11月11日登录该设备。

本步骤中可以分别获取到发生交易的买家账号和卖家账号的设备登录数据。

在步骤204中,根据设备登录数据,统计得到每个账号对应的设备列表。

例如,设备列表中可以包括所述账号在所述预设时间段内登录过的所有设备,包括至少一个设备。比如,买家账号在预设时间段内可能登录过三个设备,卖家账号在预设时间段内可能登录过两个设备。这里统计的买家账号和卖家账号对应的预设时间段可以是同一时间段。

示例性的,买家账号对应的设备列表可以是[s1、s2、s3]。卖家账号对应的设备列表可以是[t1、t2]。

此外,为了后续步骤中的计算,本步骤除了统计设备列表之外,还可以根据设备登录数据统计得到其他一些参数,如下的表1所示:

表1统计参数示例(以一个账号为例,且都在预设时间段内统计)

在步骤206中,将买家和卖家账号对应的设备列表中的所有设备求并集,得到一个设备集合,并且根据该集合确定设备向量中包括的各个向量分量。

本步骤中,可以对两个设备列表求并集得到设备集合。

例如,仍以上述的两个列表[s1、s2、s3]和[t1、t2]为例,将这两个列表求并集后得到的集合是[s1、s2、s3、t1、t2]。该集合是买家账号和卖家账号在所述预设时间段内登录过的设备并集。

此外,根据上述集合,确定后续步骤要对应每个账号构造的设备向量,该向量中包括的向量分量的数量是5,且每一个向量分量对应设备集合中的一个设备。例如,该向量是(x1,x2,x3,x4,x5),其中的x1至x5都是向量分量,x1可以对应设备s1,x2可以对应设备s2,x3可以对应设备x3,等。

在步骤208中,计算每个账号对应设备集合中每个设备的设备使用参数,并将该参数作为向量分量的取值。

上述的向量分量的取值,可以是一个用于表示账号对设备使用的活跃度的数值,比如,买家账号a对应的向量中,其中的向量分量x1的取值,可以是账号a对设备s1使用活跃度的表示数值。

本步骤中,向量分量的取值可以用设备使用参数表示。该设备使用参数可以按照如下的公式(1)计算得到,该公式可以是根据tf-idf(termfrequency-inversedocumentfrequency,词频-逆文档频率)算法计算:

在上述的公式(1)中,设备x是向量分量对应的设备,比如,在计算向量分量x1的取值时,公式中的设备x即为x1对应的设备s1。并且,上述公式中的设备x的tf-idf值即为x1的取值,设备x的登录天数即为账号在设备x上的登录天数和,即为上述表1中的设备登录天数;公式中的用户所有设备登录天数之和即为表1中的参数-登录天数和,设备x的用户数即为表1中的参数-设备用户数。

本例子中,可以将设备登录天数和登录天数和的比值,称为登录频度参数,即公式(1)中的前半部分的比值,登录频度参数可以表示一个账号是否经常登录某个设备。可以将公式(1)中的后半部分的比值即称为设备归属权重,可以衡量设备归属于账号的用户的程度,比如,设备用户数比较小时,归属程度较高,设备用户数较大时,归属程度较低。

此外,需要说明的是,上述的公式(1)只是一个计算设备使用参数的示例,实际实施中并不局限于此。比如,还可以使用账号对设备的登录频次来表示登录活跃程度,设备归属权重的计算也可以采用其他方式,例如还可以增加考虑设备的具体形态,通常手机对于用户的归属程度会较高,而电脑等其他形态设备对于用户的归属程度会稍低,也可以将其他因素体现在公式的计算中。

在步骤210中,计算买家账号和卖家账号的两个设备向量之间的相似度值。

本步骤中,计算向量相似度的方法很多,比如,余弦相似度、欧氏距离等。

以余弦相似度为例,可以按照如下的公式(2)进行计算:

其中,公式(2)中的e可以是买家账号对应的向量,f可以是卖家账号对应的向量。

在步骤212中,若相似度值在预设的风险数值范围内,则确定所述买家账号和卖家账号之间进行的交易为虚假交易。

例如,以余弦相似度的计算为例,可以设定一个阈值,若步骤210中得到的数值高于该阈值,可以认为两个向量很相似,这两个向量对应的两个账号之间发生的交易可以被确认为虚假交易;否则,认为不是虚假交易。这个例子中,高于阈值的数值范围即为风险数值范围。此外,在其他的计算方式中,可以根据具体方式的特点来确定风险数值范围。

可以继续结合图1来看,经过上述图2的流程处理,服务器14可以确定账号a和账号b之间具有很强的设备关系,两个账号对应的两个向量之间的相似度值很高,那么服务器14可以存储这个计算结果。比如,服务器14可以存储账号a和账号b之间的对应关系,表示这两个账号之间后续发生的交易都被判定为虚假交易;还可以存储账号c和账号d之间的对应关系,这两个账号之间后续发生的交易也将被判定为虚假交易。例如,虚假交易识别模块15可以在接收到一笔待识别的交易时,查询服务器14存储的上述计算结果。若计算结果中包括该交易对应的买家账号和卖家账号,且两个账号在存储的计算结果中具有对应关系,则可以确定该笔待识别交易是虚假交易。

在其他在线识别虚假交易的例子中,服务器14也可以进行实时识别。比如,在接收到一笔实时发生的交易时,获取该交易的买家账号和卖家账号。并按照上述图2所示的流程,基于账号,获取这两个账号在预设时间段内的设备登录数据,并根据设备登录数据构造向量来进行相似度判断。

本例子的虚假交易的识别方法,通过根据买卖家使用过的设备并集构造特征向量,全面评价了买卖双方的设备关系,并且,向量的取值体现了用户对不同设备的使用情况,这样通过计算向量的相似性,能够很好的体现了买卖双方的设备强弱关系,进而使得根据设备关系得到的虚假交易识别更加准确。

通过图2所示的流程描述可以看到,本说明书一个或多个实施例的虚假交易识别方法,在于判断发生过交易的两个账号之间的设备关系的强弱,其中,这个设备关系的表示方式可以是根据两个账号登录的设备并集来构造设备向量,且向量分量的取值用账号对设备的使用活跃度表示;设备关系的强弱可以用向量之间的相似度来量化,这种方式能够符合所要识别的虚假交易的双方设备关系特点,并且上述方式对这种设备关系特点的描述更加准确,从而使得对虚假交易的识别结果也更加准确。而图2中所提到过的构造向量的具体处理步骤或者设备使用参数的计算方式,都仅仅是一个示例,并不限制在实际实施中的处理。比如,设备使用参数的计算可以用设备形态衡量权重。

如下图3示出了本说明书一个或多个实施例的识别方法的处理过程,包括:

在步骤300中,确定发生交易的买家账号和卖家账号;

在步骤302中,分别获取每个账号在预设时间段内的设备登录数据。

在步骤304中,根据所述设备登录数据,分别构造每个账号对应的设备向量。所述设备向量中的每一个向量分量对应设备集合中的一个设备,所述向量分量的取值用于表示所述账号对所述设备使用的活跃度,所述设备集合是所述买家账号和卖家账号在所述预设时间段内登录过的设备并集。

在步骤306中,计算所述买家账号和卖家账号对应的两个设备向量之间的相似度值。

在步骤308中,若所述相似度值在预设的风险数值范围内,则确定所述买家账号和卖家账号之间进行的交易为虚假交易。

为了实现上述的识别方法,本说明书一个或多个实施例还提供了一种虚假交易的识别装置,该装置可以应用于服务器14。如图4所示,该装置可以包括:账号确定模块41、数据获取模块42、向量构造模块43、相似计算模块44和虚假识别模块45。

账号确定模块41,用于确定发生交易的买家账号和卖家账号;

数据获取模块42,用于分别获取每个账号在预设时间段内的设备登录数据;

向量构造模块43,用于根据所述设备登录数据,分别构造每个账号对应的设备向量,所述设备向量中的每一个向量分量对应设备集合中的一个设备,所述向量分量的取值用于表示所述账号对所述设备使用的活跃度,所述设备集合是所述买家账号和卖家账号在所述预设时间段内登录过的设备并集;

相似计算模块44,用于计算所述买家账号和卖家账号对应的两个设备向量之间的相似度值;

虚假识别模块45,用于在所述相似度值在预设的风险数值范围内时,则确定所述买家账号和卖家账号之间进行的交易为虚假交易。

在一个例子中,所述设备登录数据,包括:所述账号登录设备的设备标识、所述账号登录设备的登录日期。

在一个例子中,如图5所示,该装置中的向量构造模块43可以包括:

列表确定子模块431,用于根据设备登录数据,分别得到每个账号对应的设备列表,所述设备列表包括:所述账号在预设时间段内登录过的至少一个设备;

集合确定子模块432,用于求取买家账号和卖家账号分别对应的设备列表的并集,得到设备集合,并根据所述设备集合确定设备向量包括的各个向量分量;

参数计算子模块433,用于根据所述设备登录数据,分别计算每个账号对应所述设备集合中每一个设备的设备使用参数;

向量生成子模块434,用于将设备使用参数作为对应设备的向量分量的取值。

在一个例子中,参数计算子模块433,具体用于:

根据所述设备登录数据,统计所述账号在所述设备登录的天数,得到设备登录天数;

累计所述账号在所述设备列表中的所有设备登录的登录天数和;

将所述设备登录天数和登录天数和的比值,作为登录频度参数;

根据所述登录频度参数和设备归属权重,得到所述设备使用参数,所述设备归属权重用于衡量所述设备归属于所述账号的用户的程度。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述方法实施例所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。

例如,对应于上述方法,本说明书一个或多个实施例同时提供一种虚假交易的识别设备,该设备例如可以是服务器14。该设备可以包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行指令时用于实现如下步骤:

确定发生交易的买家账号和卖家账号;

分别获取每个账号在预设时间段内的设备登录数据;

根据所述设备登录数据,分别构造每个账号对应的设备向量,所述设备向量中的每一个向量分量对应设备集合中的一个设备,所述向量分量的取值用于表示所述账号对所述设备使用的活跃度,所述设备集合是所述买家账号和卖家账号在所述预设时间段内登录过的设备并集;

计算所述买家账号和卖家账号对应的两个设备向量之间的相似度值;

若所述相似度值在预设的风险数值范围内,则确定所述买家账号和卖家账号之间进行的交易为虚假交易。

上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于服务端设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1