一种刷单识别方法及装置,电子设备与流程

文档序号:11231657阅读:297来源:国知局
一种刷单识别方法及装置,电子设备与流程

本申请涉及计算机技术领域,特别是涉及一种刷单识别方法及装置,电子设备。



背景技术:

刷单是商户付款请人假扮顾客或商户自己,用以假乱真的购物方式提高网店的排名和销量获取销量及好评吸引顾客的一种方法。由于商户的刷单的行为会提高商户排名,导致普通用户获取到的商户信息不真实,因此,急需对刷单行为进行检测,并采取相应处理方式。现有技术中,对刷单行为检测的方法主要包括:agent-based发帖机器人检测与识别和基于用户可信身份(如:电话、银行账号、支付宝等)的账户识别。agentbased适用于ip地址、地理位置、发送内容雷同、信息集中等特性的刷单行为,如刷单机器人。而基于可信用评估的方法对于专业刷单的个体用户识别效果较好,而对于商户自主刷单的行为识别准确度较差,对于商户雇佣草根用户(grassroot)的进行刷单行为识别准确度也较差。

可见,现有技术中的刷单识别方法至少存在:对刷单行为的识别覆盖面有限,识别准确率低的问题。



技术实现要素:

本申请提供一种刷单识别方法,解决现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。

为了解决上述问题,第一方面,本申请实施例提供了一种刷单识别方法,包括:

获取商户的用户行为特征;

通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;

其中,所述用户行为特征至少包括用户群体行为特征。

第二方面,本申请实施例提供了一种刷单识别装置,包括:

特征获取模块,用于获取商户的用户行为特征;

识别模块,用于通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;

其中,所述用户行为特征至少包括用户群体行为特征。

第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现本申请实施例所述的刷单识别方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请实施例所述刷单识别方法的步骤。

本申请实施例公开的刷单识别方法,通过获取商户的用户行为特征,然后,通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别,其中,所述用户行为特征至少包括用户群体行为特征,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例一刷单识别方法的流程图;

图2是本申请实施例二刷单识别方法的流程图;

图3是本申请实施例三刷单识别方法的流程图;

图4是本申请实施例四刷单识别装置的结构图之一;

图5是本申请实施例四刷单识别装置的结构图之二;

图6是本申请实施例四刷单识别装置的结构图之三。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

实施例一

本申请公开的一种刷单识别方法,如图1所示,该方法包括:步骤100和步骤110。

步骤100,获取商户的用户行为特征。

具体实施时,可以根据一段时间内待识别商户的所有用户的行为日志获取待识别商户的用户行为特征。所述用户行为特征可以只包括:用户群体行为特征,其中,所述用户群体行为特征可以只包括:行为模式特征或者评论维度分布特征,还可以既包括行为模式特征,又包括评论维度分布特征。其中,所述行为模式特征为描述预设第一行为的描述值的分布概率;所述评论维度分布特征为评论维度的分布概率。

步骤110,通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别。

将获取的某一商户的用户行为特征输入至预先训练好的刷单识别模型,对所述商户的行为模式特征进行刷单识别,即可以确定该商户是否为刷单商户。

所述刷单识别模型根据从一定数量的刷单行为样本和正常行为样本提取的用户行为特征训练得到。从所述样本中提取的用户行为特征的结构与提取的待识别商户的用户行为特征的结构相同;从所述样本中提取用户行为特征的方法,与提取待识别商户的用户行为特征的方法相同。根据从所述样本中提取的用户行为特征训练刷单识别模型的具体方法可以参考现有技术。

本申请实施例公开的刷单识别方法,通过获取商户的用户行为特征,然后通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别,其中,所述用户行为特征至少包括用户群体行为特征,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。

实施例二

本实施例公开的一种刷单识别方法,如图2所示,该方法包括:步骤200至步骤230。

步骤200,基于训练样本获取每个商户的用户行为特征。

其中,所述训练样本包括:正常行为样本和刷单行为样本。

具体实施时,预先选择一定数量的用户行为样本,并对所述样本进行手工标定,设置刷单行为标签或正常行为标签。选择的样本可以为一段时间内某一品类下所有商户的所有用户的用户行为日志,也可以为一段时间内某一品类下某一个或某几个商户的所有用户的用户行为日志。为了训练得到的识别模型更准确,优选的,选择的样本为一段时间内某一品类下所有商户的所有用户的用户行为日志。日志涉及的用户行为包括:注册、搜索、筛选、下单、支付、验证、评论中的至少一项。优选的,日志涉及的用户行为涵盖:注册、搜索、筛选、下单、支付、验证、评论中的所有项。

在训练刷单识别模型之前,首先需要获取每个商户的用户行为特征。所述用户行为特征包括:用户群体行为特征,其中,所述用户群体行为特征包括:行为模式特征和/或评论维度分布特征。群体行为特征用于表示群体趋同性和协同性行为。例如,对于刷单商户,其刷单用户的商户访问入口、订单操作路径、搜索关键词、页面访问时间间隔、评论信息等,都具有趋同性和协同性。具体实施时,所述用户群体行为特征可以只包括:行为模式特征或者评论维度分布特征,还可以既包括行为模式特征,又包括评论维度分布特征。本实施例以所述用户群体行为特征既包括行为模式特征,又包括评论维度分布特征为例,说明用户群体行为特征的获取方法。

以o2o平台为例,o2o是垂直类信息网站,用户对于商户的寻找和发现,往往依赖了搜索引擎、筛选、推荐和其他模块入口。为了购买商品或消费,用户的行为往往表现出差异化的入口特性和选购路径;例如:用户a:打开app→点击“美食频道”模块→选择对应商圈(地理限制条件)→进入到第二页→选择某商户p→完成下单;用户b:打开app→输入搜索关键字“term”→选择某个排序位置为n的商户信息→完成下单。对于某个商户而言,正常消费用户并非对商户的进入路径存在多样性(差异性)。但对于刷单用户而言,商户需告知其访问路径,因此较容易造成刷单用户的局部路径相似(如:访问入口拥堵)的涌现特性。因此,对于刷单用户群体,可提取用户在查找商户、进入商户页面、设置筛选条件、搜索、翻页、下单等行为的特征,对用户的行为进行描述。具体实施时,首先根据用户在某一品类商户页面的可能行为定义预设第一行为,如:预设第一行为包括:翻页。针对不同的预设第一行为,根据实际需求确定该预设第一行为的描述值。如第一预设行为“翻页”的描述值为:不翻页、翻1页、翻2页、翻2页以上。

具体实施时,若所述用户群体行为特征包括行为模式特征,则所述获取商户的用户行为特征包括:确定训练样本中该商户的每条用户行为日志所记录的所有预设第一行为;对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。

具体实施时,首先根据实际需求,穷举所有用户的行为,如“搜索”,“翻页”,“点击排在第n位的项目”,“筛选条件”等。用户在商户页面的行为存在多种,行为的步骤也是多种多样,在本申请中,以用户的预设第一行为包括:“搜索”,“翻页”,“点击排位”,“筛选条件”为例说明访问路径分布频率的提取过程。

对于“搜索”行为,其主要关联因素为搜索关键词。如对于海底捞商户,经常被搜索的关键词为“海底捞”,“海底捞火锅”,“知名火锅”等,因此,可以将“搜索”行为的描述值设置为“海底捞”,“海底捞火锅”,“知名火锅”。基于用户行为日志样本,对这些描述值的出现频次进行统计,并除以所有“搜索”行为的总次数,则可以得到:“海底捞”搜索占比为0.35,“海底捞火锅”占比为0.43,”知名火锅”占比为0.12,其他搜索关键词都划分为单独的一类,作为第四类描述值,占比为:0.10。所有类别的占比总和为1。则“搜索”行为的描述值的分布概率,例如:{0.35,0.43,0.12,0.10}。

对于“翻页”行为,其主要关联因素为翻页的次数与频度,即用户进入商户的页面之后到下单为止翻页的次数,因此确定“翻页”行为的描述值为:不翻页、翻1页、翻2页、翻2页以上。对于所有用户,根据用户行为日志样本中的日志统计用户翻页行为的次数,可以得到不翻页的用户占比,和翻页的用户占比。例如:不翻页的用户占比为0.3,翻一页的用户占比为0.33,翻两页的用户占比为0.23,翻页次数多过2页的用户的占比为0.15。因此,“翻页”这一行为的特征分布概率,例如:{0.3,0.33,0.23,0.15}。

对于“点击排位”行为,其主要关联因素为点击某一排位的次数。因为页面中存在的商户条目有限,通常是10个或15个左右,本实施例中以页面显示5个条目为例,说明“点击排位”行为的特征提取过程,因此,将“点击排位”行为的描述值确定为:点击第1位、点击第2位、点击第3位、点击第4位、点击第5位。基于用户行为日志样本,分别获取用户点击排位为1至5的搜索结果的次数,然后,将每个点击次数除以总点击次数,可以得到用户分别点击排位在第1位到第5位的搜索结果的点击概率分布,例如:{0.5,0.25,0.14,0.09,0.02}。

对于“筛选条件”行为,筛选条件是指用户选择了哪些约束条目,例如“按照评分排序”,“3公里范围内”,“按照购买数量排序”等,本实施例中以这三个条目为例,不符合这三个条目的条件都标记为第四类。因此,将“筛选条件”行为的描述值确定为:“按照评分排序”、“3公里范围内”、“按照购买数量排序”和其他。由此,基于用户行为日志样本,可以获得所有筛选条件的点击次数,并除以用户下单的次数,则可以得到第一类到第四类筛选条件的点击概率分布,例如:{0.4,0.2,0.1,0.3}。

然后,通过前述获得的每种预设第一行为对应的描述值,确定每一条用户行为日志中所记录的第一预设行为的描述值。例如,某个用户的用户行为日志为:搜索“海底捞”,翻了两页,点击了排位第三的搜索结果,无其他筛选条件,最后下单。则提取到该条用户行为日志的记录的第一预设行为包括:搜索,搜索行为的描述值为:海底捞;翻页,翻页行为的描述值为:翻页2次;点击排位,点击排位行为的描述值为:点击的排位为第3位。则得到该条用户行为日志所记录的所有预设第一行为的分布概率,例如:{0.35,0.23,0.14,0.00}。

根据某个时间段内某一商户的所有用户的用户行为日志确定该商户的行为模式特征。将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值。具体实施时,对于每一个商户,该商户的所有用户的每一条用户行为日志中相应第一预设行为的分布概率进行累加,得到该商户的相应第一预设行为的总体分布概率。以某一商户一天内总共有2个用户为例,一个用户的行为样本为:搜索“海底捞”,翻了两页,点击了排位第三的搜索结果,无其他筛选条件,最后下单,则该条用户行为日志所记录的所有预设第一行为的分布概率为:{0.35,0.23,0.14,0.00};另一个用户只有搜索没有其他行为,搜索关键词为“知名火锅”,则该条用户行为日志所记录的所有预设第一行为的分布概率为:{0.12,0.0,0.0,0.0}。将2条用户行为日志相应预设第一行为的分布概率累加,得到该商户相应预设第一行为的总体分布概率,例如:{0.47,0.23,0.14,0.00}。将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值,以本实施例的得到的数据为例,商户的行为模式特征为一个4维特征向量,将0.47作为商户的行为模式特征的第一维特征值、将0.23作为商户的行为模式特征的第二维特征值、将0.14作为商户的行为模式特征的第三维特征值、将0.00作为商户的行为模式特征的第一维特征值,可以得到该商户的行为模式特征为:{0.47,0.23,0.14,0.00}。

采用上述方法,获取训练样本内每个商户的行为模式特征以及待识别商户的行为模式特征。具体实施时,基于此思想,还可以采用现有技术中以及后续发展的技术中的其他方法获取商户的某一行为的分布概率,本申请在此不再赘述。商户的评论维度分布特征将作为群体用户行为特征的一部分。

商户的行为模式特征将作为群体用户行为特征的一部分。

现有技术中,基于评论内容的刷单检测方法通常是利用评论内容的“有限集”特征,然而在实际o2o环境中,刷单用户更多表现为真实人,用户的评论内容往往难以探测和排查。因此,本申请具体实施时,提取的评论维度分布特征包括评论维度和各评论维度对应的分布概率。所述评论维度分布特征为评论维度的分布概率。若所述用户群体行为特征包括评论维度分布特征,则所述获取商户的用户行为特征包括:确定训练样本中该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。确定商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,包括:将每条评论涉及的评论维度的分布概率设置为预先通过对训练样本进行分析获得的相应评论维度的分布概率;将每条评论不涉及的评论维度的分布概率设置为零。所述评论维度可以根据商户所在品类人为确定,也可以通过对训练样本进行聚类获得。

以通过对训练样本进行聚类获得评论维度为例,首先,获取训练样本中某一品类下所有商户的所有用户的评论内容作为聚类数据,通过现有技术中的点聚类方法对所述聚类数据进行聚类,获取多个聚类中心,每个聚类中心对应一个评论维度。以评论内容为:口味不错,环境很好,服务态度好,上菜速度快,菜量也很大为例,聚类运算后,将得到:口味、环境、服务态度和速度四个评论维度。

对所述训练样本进行分析,确定每个所述评论维度的分布概率时,将训练样本中某一某品类下所有商户的所有用户的评论分别进行分析,统计聚类得到的各个评论维度出现的次数,并进一步得出聚类得到的各评论维度出现的概率,即各个评论维度的分布概率。例如:所有评论口味的评论内容的出现概率为0.73,评论环境的评论内容出现的概率为0.43,评论服务的评论内容出现的概率为0.21,评论速度的评论内容出现的概率为0.10。则可以得到该品类的评论维度的分布概率为:{口味:0.73,环境:0.43,服务:0.21,速度:0.10}。

然后,初始化每条评论涉及的维度与聚类得到的评论维度相同,并初始化各评论维度的初始值为0。然后,确定每条所述评论涉及的评论维度,对于该条评论涉及的评论维度,将该评论维度的分布概率设置为预先统计分析得到的该评论维度的分布概率。以评论内容为:口味不错,环境很好,服务态度好为例,该条评论涉及的评论维度包括:口味、环境和服务,则该条评论的评论维度分布概率为:{口味:0.73,环境:0.43,服务:0.21,速度:0}。具体实施时,评论维度分布概率还可以表示为按照有一定的评论维度顺序排列的一组分布概率,如:{0.73,0.43,0.21,0}。

最后,将某一商户一段时间内所有评论的单一评论维度分布概率的平均值作为该商户的相应评论维度的评论维度分布概率。如某商户1天内有两条评论,通过以上方法对该商户的两条评论分别确定各评论维度的分布概率。第一条评论涉及到了口味和环境,则第一条评论的评论维度的分布概率为:{0.73,0.43,0.00,0.00};第二条评论涉及到了服务态度两次,则第二条评论的评论维度的分布概率为:{0.00,0.00,0.42,0.00}。然后将每个评论维度的分布概率求均值,则得到了对应这个商户的该评论维度的总体分布概率,在本实施例中,该商户的评论维度的总体分布概率为:{0.73/2,0.43/2,0.42/2,0.00/2},即该商户的评论维度的总体分布概率为{0.365,0.215,0.21,0.00}。将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。以本实施例的得到的数据为例,商户的评论维度分布特征为一个4维特征向量,将0.365作为商户的评论维度分布特征的第一维特征值。

采用上述方法,获取训练样本内每个商户的评论维度分布特征以及待识别商户的评论维度分布特征。具体实施时,基于此思想,还可以采用现有技术中以及后续发展的技术中的其他方法获取商户的评论维度分布概率,本申请在此不再赘述。商户的评论维度分布特征将作为群体用户行为特征的一部分。

步骤210,基于获取的所述用户行为特征训练刷单识别模型。

具体实施时,用户训练刷单识别模型的用户行为特征包括:行为模式特征和/或评论维度分布特征。

将通过前述步骤提取的训练样本中某一品类下所有商户的用户行为特征分别组成一条n维特征向量,作为训练svm分类器、lr模型或者gbdt模型的输入数据,训练刷单识别模型。如果某一品类下有1000个商户的训练样本,则本步骤中可以获取1000条n维特征向量。训练样本中包含正样本(即刷单商户样本)和负样本(即非刷单商户样本),不同特征向量还需要设置样本标签。具体实施时,得到的特征向量通常包括:样本标签、特征编码和特征值对,格式举例如下:

11:0.25,2:0.20,3:0.30,4:0.25,5:0.30,6:0.10,…,16:0.0;

01:0.0,2:0.00,3:0.00,4:0.00,5:0.00,6:0.00,…,16:0.00。

其中,第一列的1或0用户表示本条特征向量是正样本(即刷单用户样本)还是负样本(即非刷单用户样本),第二列为n对特征向量编码和向量值。具体实施时,可以预设n个维度特征的排列顺序,每条特征向量的格式可以简化为第一列为样本标签,第二列为特征值序列,格式如下:

10.25,0.20,0.30,0.25,0.30,0.10,…,0.0;

00.0,0.00,0.00,0.00,0.00,0.00,…,0.00。

其中,n个维度的特征可以为:n维行为模式特征,或n维评论维度分布特征,或a维行为模式特征和b维评论维度分布特征,其中,a+b=n。

根据多条特征向量训练刷单识别模型的具体方法参见现有技术,此处不再赘述。

步骤220,获取待识别商户的用户行为特征。

在对商户进行识别时,获取某一商户一段时间内,如近1周的所有用户的用户行为日志,所述用户行为日志包括评论日志。

具体实施时,获取商户的所有用户行为特征包括:获取商户的行为模式特征;和/或获取商户的评论维度分布特征。获取商户的行为模式特征包括:确定预设时间段内该商户的每条用户行为日志所记录的所有预设第一行为;对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。

具体实施时,获取商户的评论维度分布特征包括:确定预设时间段内该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。

基于获取的所述用户行为日志,按照获取训练样本的用户行为特征相同的方法,获取待识别商户的用户行为特征,具体参见步骤200,此处不再赘述。

步骤230,通过所述刷单识别模型,对所述待识别商户的行为模式特征进行刷单识别。

将获取的某一商户的用户行为特征输入至预先训练好的刷单识别模型,对所述商户的行为模式特征进行刷单识别,即可以确定该商户是否为刷单商户。

本申请实施例公开的刷单识别方法,通过基于训练样本获取每个商户的用户行为特征,然后基于获取的所述用户行为特征训练刷单识别模型,并通过所述刷单识别模型,对获取的所述商户的行为模式特征进行刷单识别,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。通过确定预设第一行为,并基于预设第一行为的行为提取部分行为模式特征,使得针对不同品类选择有代表性的用户行为进行特征提取,可以有效提高识别准确率。通过对训练样本进行聚类以确定需要关注的评论维度,既保证了评论维度的覆盖度,又不增加运算量。

实施例三

本实施例公开的一种刷单识别方法,如图3所示,该方法包括:步骤300至步骤340。

步骤300,基于训练样本获取商户的用户群体行为特征。

其中,所述训练样本包括:正常行为样本和刷单行为样本。

具体实施时,预先选择一定数量的用户行为样本,并对所述样本进行手工标定,设置刷单行为标签或正常行为标签。选择的样本可以为一段时间内某一品类下所有商户的所有用户的用户行为日志,也可以为一段时间内某一品类下某一个或某几个商户的所有用户的用户行为日志。为了训练得到的识别模型更准确,优选的,选择的样本为一段时间内某一品类下所有商户的所有用户的用户行为日志。日志涉及的用户行为包括:注册、搜索、筛选、下单、支付、验证、评论中的至少一项。优选的,日志涉及的用户行为包括:注册、搜索、筛选、下单、支付、验证、评论中的所有项。

在训练刷单识别模型之前,首先需要获取商户的用户行为特征。所述用户行为特征包括:用户群体行为特征,其中,所述用户群体行为特征包括:行为模式特征和/或评论维度分布特征。群体行为特征用于表示群体趋同性和协同性行为。例如,对于刷单商户,其刷单用户的商户访问入口、订单操作路径、页面访问时间间隔、评论信息等,都具有趋同性和协同性。

获取用户群体行为特征的具体方法参见实施例二,此处不再赘述。

步骤310,基于所述训练样本获取商户的用户个体行为特征。

所述用户个体行为特征描述用户预设第二行为的时间和空间分布特征,可以体现表示商户的用户被预测为刷单用户的概率。基于所述训练样本获取商户的用户个体行为特征包括子步骤s1至s4。

s1,基于所述训练样本获取每个用户的预设第二行为的时间分布概率和空间分布概率,作为个体行为时空特征。

对于每个品类的训练样本,基于所述训练样本获取每个用户的预设第二行为的时间分布概率,包括:基于训练样本,分别确定所有用户的每个预设第二行为的时间分布区间及每个所述时间分布区间的分布概率;对于每个用户,将该用户的行为分别映射到确定的所述每个预设第二行为的时间分布区间;确定映射成功的所述预设第二行为的时间分布区间的分布概率为当前用户的相应行为的时间分布概率。

鉴于同品类的商户的用户消费行为存在相似的时间分布特性,因此,选取某一品类(c)下商户的所有商户(p)的用户的训练样本进行特征提取。确定某一个用户与商户的关联行为,即预设第二行为,并构建用户行为随时间变化的函数fp=fb(t),其中,t为时间变量,可选特定时间间隔(如半小时或一小时)计算每日0时到24时对应用户行为的频率分布。所述预设第二行为包括:注册、搜索、筛选、下单、支付、验证、评论。通常,对于某特定品类的商户而言,他们的用户行为如售卖、点击等存在一定时间特征,如:外卖在中午集中,电影查询高峰发生于下午4-5点左右。因此,用户行为随时间变化的函数反映了用户行为在不同时间的分布趋势。具体实施时,所述预设第二行为至少包括:分别针对该品类(如:餐饮、娱乐)下的每个商户,如p1,对所有在该商户页面的当日内的消费用户构建相应的用户行为随时间变化的函数

下面以用户的下单行为为例,具体说明预设第二行为的时间分布概率的获取过程。

首先,基于训练样本,分别确定某一品类下所有用户的每个预设第二行为的时间分布区间及每个所述时间分布区间的分布概率。以下单行为为例,首先收集某品类下所有商户的所有用户的预设第二行为(“下单”)的时间;然后,将每日24时划分为均等n个时间片段,分别对不同时间片段统计“下单”行为的频次,并将该频次除以总次数,获得每个时间片段内的“下单”行为分布概率。其中,n个时间片段对应n个时间分布区间;每个时间片段内的“下单”行为分布概率为所述时间分布区间的分布概率。得到的时间分布区间及每个所述时间分布区间的分布概率举例如下:t下单={(时段1,分布概率1),(时段2,分布概率2),…(时段n,分布概率n)}。其中,得到的不同时段的分布概率的和为1。按照前述方法,分别得到某一品类下所有用户的注册、搜索、筛选、下单、支付、验证、评论行为的时间分布区间及每个所述时间分布区间的分布概率t注册、t搜索、t筛选、t下单、t支付、t验证、t评论。

然后,对于每个用户,将该用户的行为分别映射到确定的所述每个预设第二行为的时间分布区间,并确定映射成功的所述预设第二行为的时间分布区间的分布概率为当前用户的相应行为的分布概率。以当前用户的“下单”时间为9点为例,首先确定当前用户的“下单”时间对应的时间分布区间。若当前用户的“下单”时间对应在第二个时间段内,则当前用户的“下单”时间对应的时间分布区间2,当前用户的“下单”行为的时间分布概率为时间分布区间2的下单行为分布概率,即分布概率2。若当前用户的“支付”行为发生在第n个时间段,则可以得到当前用户的“支付”行为的时间分布概率为分布概率n。对于当前用户没有发生的行为,如“注册”、“搜索”、“筛选”、“验证”、“评论”,则当前用户的该行为的时间分布概率为0。按照前述方法,分别得到每个用户的预设第二行为的时间分布概率,举例如下:{注册:0.15,搜索:0.05,筛选:0.30,下单:0.10,支付:0.20,验证:0.74,评论:0.43}。具体实施时,可以将各预设第二行为以不同的编码代替。或者,预设各预设第二行为的排列顺序,以顺序号作为不同预设第二行为的标识。

经过前述操作,将提取到每个用户的预设第二行为的时间分布概率。

o2o领域中,每个商户由于主营的业务特性,往往会导致其对应的消费呈现出局部时间高峰、其他时间平缓甚至趋零的特性。例如,餐饮类别的商户,每天中午12和晚上6点处于下单高峰期;电影主要集中在下午4点以后到晚上8点;酒店和其它品类的商户也存在自由的一些时间分布特性。相反,刷单行为,往往通过发帖、群公告或其他的媒体平台进行宣传,刷单用户的购买、消费以及评论时间往往未能进行有效的约束,特别是刷单行为本身具有“抢单”特性(即:水军个体为了更快的获得回报,往往不会也不愿遵循商户适宜的消费区间)。因此,刷单用户则较容易表现出违背常规的购买、查询和消费时间,通过对用户行为的时间特征进行分析,可以有效地识别刷单用户。

对于每个品类的训练样本,基于所述训练样本获取每个用户的预设第二行为的空间分布概率,包括:基于训练样本,分别确定所有用户的每个预设第二行为的空间分布区间及每个所述空间分布区间的分布概率;对于每个用户,将该用户的行为分别映射到确定的所述每个预设第二行为的空间分布区间;确定映射成功的所述预设第二行为的空间分布区间的分布概率为当前用户的相应行为的分布概率。

设全体用户集合可表示为设商户p的消费群体的由两部分用户构成,分别是:a)定向消费居民区的用户uc(p);b)距离商户地理位置间隔为ud(p,n),n∈r+的用户,ud(p,n)表示以p为中心周边n距离内的出现过的用户;令u(p)为商户的全部消费用户,则

s.t.dm=argmax(|lt(u)-l(p)|),

其中,σ表示少量异地消费和帮助他人买单的用户;lt(u)表示用户t时刻的地理位置,l(p)表示商户坐标;故dm为消费用户的相对最大距离范围。因此,每个商户的消费群体,包含的三部分为定向居民区域用户,周边dm范围内用户和其他用户。基于统计结果,大多品类的下商户的σ的占比<<0.05,在训练模型时可以忽略不计。通过对dm设置约束,对用户和商户的最大距离进行求和或积分,可使得所有最大消费距离内的用户行为都能够包含。

以下单行为为例,首先收集某品类(c)下所有商户的所有用户的预设第二行为(“下单”)的地点与该商户之间的最大消费距离划分为m个距离区间,如划分为6个距离区间,分别为:500m,1km,3km,5km,10km,以上,并分别对不同距离区间统计“下单”行为的频次,并将该频次除以总次数,获得每个距离区间内的“下单”行为分布概率。其中,m个距离区间对应m个空间分布区间;每个距离区间内的“下单”行为分布概率为对应的空间分布区间的分布概率。得到的空间分布区间及每个所述空间分布区间的分布概率举例如下:d下单={(距离区间1,分布概率1),(距离区间2,分布概率2),…(距离区间n,分布概率n)}。其中,得到的不同距离区间分布概率的和为1。按照前述方法,分别得到某一品类下所有用户的注册、搜索、筛选、下单、支付、验证、评论行为的空间分布区间及每个所述空间分布区间的分布概率d注册、d搜索、d筛选、d下单、d支付、d验证、d评论。

然后,对于每个用户,将该用户的行为分别映射到确定的所述每个预设第二行为的空间分布区间,并确定映射成功的所述预设第二行为的空间分布区间的分布概率为当前用户的相应行为的空间分布概率。以当前用户的“下单”地点距离商户1km为例,首先确定当前用户的“下单”地点对应的空间分布区间。若当前用户的“下单”地点对应在第二个距离区间内,则当前用户的“下单”地点对应的距离区间2,当前用户的“下单”行为的空间分布概率为距离区间2的下单行为分布概率,即分布概率2。若当前用户的“支付”行为发生在第n个距离区间,则可以得到当前用户的“支付”行为的空间分布概率为分布概率n。对于当前用户没有发生的行为,如“注册”、“搜索”、“筛选”、“验证”、“评论”,则当前用户的该行为的空间分布概率为0。按照前述方法,分别得到每个用户的预设第二行为的空间分布概率,举例如下:{注册:0.10,搜索:0.15,筛选:0.10,下单:0.15,支付:0.05,验证:0.45,评论:0.0}。具体实施时,可以将各预设第二行为以不同的编码代替。或者,预设各预设第二行为的排列顺序,以顺序号作为不同预设第二行为的标识。

经过前述操作,将提取到每个用户的预设第二行为的空间分布概率。

在o2o环境下,用户的消费是线上线下的联动行为,受限于一定的活动能力;同时,对于个体商户而言,其适用的消费群体也存在一定的地理区域的约束,如每个用户的常驻小区和工作区域。其中,虽有一些例外,如帮助家人购买和消费的情况,但是,从总体而言,单个商户适用的消费人群还是存在一定地域的局限和相对稳定的距离分布。因此,通过对用户行为的空间特征进行分析,可以有效地识别刷单用户。

具体实施时,还可以采用现有技术中以及后续发展的其他技术确定每个用户的预设第二行为的时间分布概率和空间分布概率,本申请对此不作限定。

s2,基于所述每个用户的预设第二行为的时间分布概率和空间分布概率训练个体刷单预测模型。

将每个用户的预设第二行为的时间分布概率和空间分布概率按照一定的顺序进行排列,构成一个多维的特征向量,作为个体行为时空特征,将获得的每个用户的作为个体行为时空特征作为个体刷单预测模型的训练数据。最后,采用训练svm、lr模型或dt模型的方法训练个体刷单预测模型。其中,多维的特征向量的维度数量等于预设第二行为数量的二倍。

基于所述每个用户的作为个体行为时空特征训练个体刷单预测模型可以采用现有技术,此处不再赘述。

s3,通过所述个体刷单预测模型对每个用户的作为个体行为时空特征,获得每个用户的预测得分。

将每个用户的预设第二行为的作为个体行为时空特征,即时间分布概率和空间分布概率,输入至训练好的个体刷单预测模型进行刷单用户预测,可以得到每个用户是刷单用户的预测得分。

s4,对于每个商户,对所述每个用户的预测得分进行分布概率计算,得到用户个体行为特征。

根据所述商户的所有用户的预测得分,获取该商户的用户个体行为特征包括:对所有用户的预测得分进行归一化之后,将归一化后的预测得分平均划分为预设数量的得分级别;对于每个商户,将该商户的用户归一化后的预测得分在每个得分级别的分布比例作为该商户的用户个体行为特征。例如:可将所有用户的预测结果的分数归一化后,落入0-1的闭集区间内,由此可将0-1按照0.1为步长,划分为10个得分级别。然后,将某个商户的所有用户或某天的用户或某一时段的用户的预测得分对应落入相应得分级别,得到每个得分级别的用户数量,每个得分级别的用户数量除以所有得分级别的用户数量综合的结果作为每个得分等级的分布比例。将所有得分级别的分布比例作为该商户的用户个体行为特征。以得分等级为10为例,商户的用户个体行为特征表现如下:

{1:0.10,2:0.08,3:0.01,4:0.02,5:0.05,6:0.04,7:0.20,8:0.31,9:0.09,10:0.10},其中,“:”前的数字1至10表示得分等级,“:”后的数字表示该得分等级的分布比例,各得分等级的分布比例求和后数值应为1。具体实施时,用户个体行为特征还可以通过按照一定顺序排列的得分等级的分布比例表示,如:{0.10,0.08,0.01,0.02,0.05,0.04,0.20,0.31,0.09,0.10}。

具体实施时,还可以采用其他方法根据所述商户的所有用户的预测得分,获取该商户的用户个体行为特征,用户个体行为特征的维度的数量也可以设定为其他数值,本申请对此不作限定。

步骤320,基于获取的所述用户群体行为特征和用户个体行为特征训练刷单识别模型。

将每个商户的用户群体行为特征和用户个体行为特征按照一定顺序进行排列后,作为一条训练数据,用于训练刷单识别模型。如果训练样本中有1000个商户的数据,则本步骤将生成1000条训练数据用于训练刷单识别模型。

基于获取的所述用户群体行为特征和用户个体行为特征训练刷单识别模型的具体实施方式参见现有技术,此处不再赘述。

步骤330,分别获取待识别商户的用户群体行为特征和用户个体行为特征。

在对商户进行识别时,获取待识别商户一段时间内,如近1周的所有用户的用户行为日志。按照获取训练样本的个体用户行为特征相同的方法,获取商户的用户行为特征,包括:分别根据预设时间段内该商户的每个用户的用户行为日志,确定所述每个用户的预设第二行为的时间分布概率和空间分布概率,作为个体行为时空特征;通过预先训练的刷单用户预测模型对每个用户的个体行为时空特征进行识别,得到每个用户的预测得分;对所述每个用户的预测得分进行分布概率计算,得到用户个体行为特征。

按照获取训练样本的用户群体行为特征相同的方法,获取该商户的行为模式特征和评论维度分布特征,作为该商户的用户群体行为特征。

具体实施时,获取商户的行为模式特征包括:确定预设时间段内该商户的每条用户行为日志所记录的所有预设第一行为;对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。

具体实施时,获取商户的评论维度分布特征包括:确定预设时间段内该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。

获取商户的评论维度分布特征和行为模式特征的具体方法参见实施例二的相关步骤,此处不再赘述。

步骤340,通过所述刷单识别模型,基于获取的所述待识别商户的用户群体行为特征和用户个体行为特征,对所述待识别商户进行刷单识别。

将获取的某一商户的一段时间内的用户群体行为特征和用户个体行为特征输入至预先训练好的刷单识别模型,对所述商户的行为模式进行刷单识别,即可以确定该商户是否为刷单商户。

本申请实施例公开的刷单识别方法,通过基于所述训练样本获取商户的用户群体行为特征和用户个体行为特征,基于获取的所述用户群体行为特征和用户个体行为特征训练刷单识别模型,分别获取待识别商户的用户群体行为特征和用户个体行为特征,通过所述刷单识别模型,基于获取的所述待识别商户的用户群体行为特征和用户个体行为特征,对所述待识别商户进行刷单识别,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。通过确定预设第一行为,并基于预设第一行为的行为提取部分行为模式特征,使得针对不同品类选择有代表性的用户行为进行特征提取,可以有效提高识别准确率。通过对训练样本进行聚类以确定需要关注的评论维度,既保证了评论维度的覆盖度,又不增加运算量。通过结合群体用户行为特征和各体用户行为特征对商户的行为进行识别,进一步提高了识别准确率。

实施例四

本实施例公开的一种刷单识别装置,如图4所示,所述装置包括:

特征获取模块400,用于获取商户的用户行为特征;

识别模块410,用于通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别;

其中,所述用户行为特征至少包括用户群体行为特征。

具体实施时,所述用户群体行为特征包括:行为模式特征和/或评论维度分布特征,其中,所述行为模式特征为描述预设第一行为的描述值的分布概率;所述评论维度分布特征为评论维度的分布概率。

可选的,若所述用户群体行为特征包括行为模式特征,如图5所示,则所述特征获取模块400包括:

用户行为确定单元4001,用于确定预设时间段内该商户的每条用户行为日志所记录的所有预设第一行为;

行为分布概率确定单元4002,用于对于每条用户行为日志所记录的所有预设第一行为,将每种预设第一行为的描述值的分布概率作为相应预设第一行为的分布概率;

第一总体分布概率确定单元4003,用于对于每种预设第一行为,根据所有所述用户行为日志所记录的该预设第一行为的分布概率,确定该预设第一行为的总体分布概率;

行为模式特征确定单元4004,用于将每种所述预设第一行为的总体分布概率作为该商户的行为模式特征相应维度的特征值;

其中,每种预设第一行为对应至少一个描述值,每种预设第一行为对应的描述值根据实际需求确定,每种预设第一行为的每个描述值的分布概率为通过对训练样本进行分析获得。

可选的,所述预设第一行为至少包括:翻页。

可选的,若所述用户群体行为特征包括评论维度分布特征,则所述特征获取模块400包括:

评论维度及概率确定单元4005,用于确定预设时间段内该商户的每条评论涉及的评论维度,以及所述评论维度的分布概率,其中,所述评论维度的分布概率为通过对训练样本进行分析获得;

第二总体分布概率确定单元4006,用于对于涉及的每个评论维度,根据所有评论在该评论维度的分布概率确定该评论维度的总体分布概率;

评论维度分布特征确定单元4007,用于将每个评论维度的总体分布概率作为该商户的评论维度分布特征相应维度的特征值。

可选的,所述用户行为特征还包括:用户个体行为特征,所述用户个体行为特征为描述用户预设第二行为的时间和空间分布特征。

可选的,如图6所示,所述特征获取模块400还包括:

个体时空特征获取单元4008,用于分别根据预设时间段内该商户的每个用户的用户行为日志,确定所述每个用户的预设第二行为的时间分布概率和空间分布概率,作为个体行为时空特征;

预测得分获取单元4009,用于通过预先训练的刷单用户预测模型对每个用户的个体行为时空特征进行识别,得到每个用户的预测得分;

用户个体行为特征生成单元4010,用于对所述每个用户的预测得分进行分布概率计算,得到用户个体行为特征。

可选的,所述预设第二行为包括以下至少一项:注册、搜索、筛选、下单、支付、验证、评论。

本申请实施例公开的刷单检测装置,通过获取商户的用户行为特征,然后通过预先训练的刷单识别模型,基于所述用户行为特征对所述商户进行刷单识别,其中,所述用户行为特征至少包括用户群体行为特征,解决了现有技术中对刷单行为的识别覆盖面有限,识别准确率低的问题。通过基于群体用户行为特征对刷单商户进行识别,充分考虑了刷单商户的用户行为的群体趋同性和协同性,相对于基于用户身份信息或地理位置、评论内容一致性等信息对刷单商户进行识别具有更高的准确率。通过确定预设第一行为,并基于预设第一行为的行为提取部分行为模式特征,使得针对不同品类选择有代表性的用户行为进行特征提取,可以有效提高识别准确率。通过对训练样本进行聚类以确定需要关注的评论维度,既保证了评论维度的覆盖度,又不增加运算量。通过结合群体用户行为特征和各体用户行为特征对商户的行为进行识别,进一步提高了识别准确率。

相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一至实施例三所述的刷单识别方法。所述电子设备可以为pc机、移动终端、个人数字助理、平板电脑等。

本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一至实施例三所述的刷单识别方法的步骤。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种刷单识别方法、装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1