用户数据可视化方法及系统与流程

文档序号:14911406发布日期:2018-07-10 23:31阅读:320来源:国知局

本申请涉及计算机处理技术领域,特别是涉及一种用户数据可视化方法及系统。



背景技术:

在线欺诈已经是众人熟知的当今互联网黑暗面了,它每年都会在世界范围内造成不可估量的损失。2015年,互联网犯罪投诉中心接到了全世界范围内的百万级别的关于欺诈问题的投诉,而网上欺诈每年也会在世界范围内造成几十亿的经济损失,欺诈用户通常而言会从帮忙推销某个具体商品,或者散布垃圾信息中得到报酬。在互联网金融中,欺诈用户利用假身份来申请贷款、用他们盗取的信用卡购买商品、甚至进行洗钱等非法活动。因此,在互联网商业场景中,找到合适的反欺诈算法变得越发关键,这一需求也与日俱增。

尽管如今有很多方法来识别互联网上的欺诈,但是受所构建的欺诈事件检测系统的限制,所筛选出的对应欺诈嫌疑人的数据的可信性需要后续大量的人力验证,例如,平台监管人员需逐个排查验证。这使得欺诈事件检测系统中比如算法参数的修订、数据特征优先级的设计、算法模型选取等,不仅需要算法专家的软件设计,更需要领域专家的参与。因此,提高欺诈识别算法的透明度能有效改进欺诈事件检测准确率,以如何实现数据的可视化为本领域亟待解决的问题。



技术实现要素:

鉴于以上所述现有技术的缺点,本申请的目的在于提供一种用户数据可视化方法及系统,用于解决现有技术中欺诈识别算法可视化的问题。

为实现上述目的及其他相关目的,本申请的第一方面提供一种用户数据可视化方法,应用于一欺诈事件检测系统中,所述可视化方法包括以下步骤:获取一个群组的数据集,所述数据集的数据特征包括用户信息、IP地址、事件类型、事件发起源、事件响应方、及事件发生时间;其中,所述数据集的数据特征被确定为不同的决策优先级;显示一个决策树图形以表征所述群组中所有用户的属性测试过程,其中:显示所述决策树图形根节点的第一优先级的数据特征及其决策值域;显示所述决策树图形每一叶节点表征的至少一个用户的最终属性;显示所述决策树图形每一非叶节点表征的多个用户的当前属性、当前优先级的数据特征及其决策值域;以及显示对应所述决策树图形中的根节点或每一非叶节点的决策路径,该些决策路径用不同颜色、形状或粗细的线条进行表征。

本申请第二方面提供一种计算机设备,包括:处理器;在所述处理器上执行的呈现引擎,所述呈现引擎用于执行如上任一项所述的用户数据可视化方法。

本申请第三方面提供一种用户数据可视化系统,包括:获取模块,用于获取一个群组的数据集,所述数据集的数据特征包括用户信息、IP地址、事件类型、事件发起源、事件响应方、及事件发生时间;其中,所述数据集的数据特征被确定为不同的决策优先级;以及显示模块,用于显示一个决策树图形以表征所述群组中所有用户的属性测试过程,其中,显示所述决策树图形根节点的第一优先级的数据特征及其决策值域;显示所述决策树图形每一叶节点表征的至少一个用户的最终属性;显示所述决策树图形每一非叶节点表征的多个用户的当前属性、当前优先级的数据特征及其决策值域;以及显示对应所述决策树图形中的根节点或每一非叶节点的决策路径,该些决策路径用不同颜色、形状或粗细的线条进行表征。

本申请在第四方面提供一种客户端,通过网络连接一服务端,其特征在于,所述客户端基于发送请求以登录所述服务端执行上述任一项所述的用户数据可视化方法的步骤。

本申请在第五方面提供一种服务器,通过网络连接一客户端,其特征在于,所述服务器基于所述客户端执行请求的操作,向所述客户端发送上述任一项所述的用户数据可视化方法的过程并通过所述客户端显示执行结果。

本申请在第六方面提供一种浏览器,通过网络连接一服务端,其特征在于,所述浏览器基于发送请求以登录所述服务端执行所述任一项所述的用户数据可视化方法的步骤。

本申请在第七方面提供一种计算机可读存储介质,存储有数据可视化计算机程序,其特征在于,所述数据可视化计算机程序被执行时实现上述任一项所述用户数据可视化方法的步骤。

如上所述,本申请的用户数据可视化方法及系统,具有以下有益效果:通过将欺诈事件检测过程中所确定群组用户分组过程、数据特征分布、分类列表等方式予以呈现,实现了将欺诈事件检测期间所分群组以多种关系界面进行展示,有利于领域专家和算法专家对欺诈事件检测系统的检测算法进行评估和修订。

附图说明

图1显示为本申请在一实施例中的用户数据可视化方法流程图。

图2显示为本申请所提供的一种实施方式以获取一个群组数据集的流程图。

图3显示为本申请在一实施例中显示的包含多个群组的界面。

图4显示为本申请在一实施例中显示的一个群组用户决策树图形的示意图。

图5显示为本申请在一实施例中显示决策树图形中还包括分类至各节点的用户数量的显示界面。

图6显示为本申请在一实施例中显示左侧为目标用户在时间轴上的操作日志、在右侧显示群组决策树图形的界面示意图。

图7显示为本申请在一实施例中显示的一个群组的数据集的列表界面示意图。

图8显示为本申请在一实施例中显示的一个群组中注册时间维度的信息熵在网络集群中的特征分布的界面示意图。

图9显示为本申请在一实施例中显示所述群组的数据集的特征分布的界面的流程图。

图10显示为本申请在一实施例中显示多个群组在集群中分布的步骤流程图。

图11显示为本申请在一实施例中显示多个群组在集群中分布界面。

图12显示为本申请计算机设备在一实施例中的架构示意图。

图13显示为本申请所提供的用户数据可视化系统的模块结构示意图。

具体实施方式

以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效。

在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。

再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

在欺诈事件检测技术中,领域专家为欺诈事件识别的核心技术提供数据分类的经验和分类结果准确性的需求,但算法架构本身及算法中的参数并不是他们所熟知的。领域专家由于无从得到检测期间对数据分类的方式,当利用欺诈事件检测系统得到欺诈事件检测结果时,领域专家除了对检测结果进行验证之外,无从判断所得到的检测结果的准确性。为了提高欺诈事件检测系统的准确性,本申请提供一种应用于欺诈事件检测系统的用户数据可视化方法,将欺诈事件检测系统中经分类得到的群组及其数据集以可视化的方式展示给算法专家和领域专家,使得不同的领域专家或算法专家通过多种交互式手段来探索各种欺诈行为,并能够根据欺诈特点对欺诈检测算法进行灵活的修改。

所述用户数据可视化方法主要由计算机设备来执行。所述计算机设备可以是以下合适的计算机设备,诸如手持计算机设备、平板计算机设备、笔记本计算机、桌上型计算机,服务器等。计算机设备包括显示器、输入装置、输入/输出(I/O)端口、一个或多个处理器、存储器、非易失性存储设备、网络接口、以及电源等。所述的各种部件可包括硬件元件(例如芯片和电路)、软件元件(例如存储指令的有形非暂态计算机可读介质)、或者硬件元件和软件元件的组合。此外,需注意,各种部件可被组合成更少的部件或者被分离成附加部件。例如,存储器和非易失性存储设备可被包括在单个部件中。所述计算机设备可单独执行所述可视化方法,或与其他计算机设备配合执行。在一些实施方式中,计算机设备执行可视化方法并将相应的可视化界面予以展示。例如,计算机设备包含处理器、显示器,其中,在所述处理器上执行呈现引擎(或显示引擎),所述呈现引擎用于执行所述的用户数据可视化方法并通过显示器予以显示,在此,所述呈现引擎包括但不限于能够解析基于程序语言开发的用于界面显示的软件及硬件,如XML、HTML等脚本语言、C语言等。在又一些实施方式中,一台计算机设备执行可视化方法并将相应的可视化界面提供给另一台计算机设备予以展示。例如,客户端基于用户的请求操作向服务端发起请求并登录所述服务端,服务端执行可视化方法以形成相应的界面数据,并将所述界面数据反馈给客户端,由客户端的浏览器或定制的应用程序按照相应界面数据显示相应图示。

所述可视化方法可应用于欺诈事件检测系统。所述欺诈事件检测系统可包含一个或多个计算机设备中的软件和硬件。为了向领域专家提供一个组作为一个欺诈群组做了什么,以及算法专家所提出的“同一个组的用户是否都有相同的行为习惯”。本申请从群组用户的分组过程方面提供一种可视化方法。请参阅图1,显示为本申请在一实施例中的用户数据可视化方法流程图。如图所示,所述用户数据可视化方法包括以下步骤:

在步骤S11中,获取一个群组的数据集。所述数据集的数据特征至少包括用户信息、IP地址、事件类型、事件发起源、事件响应方、及事件发生时间。所述用户信息指能够表征用户身份的信息,例如,用户ID、唯一的用户昵称、证件号等。所述用户信息还包括:手机号码、邮箱、ID号、性别、用户所使用的用户设备编号、注册时间等。所述IP地址表示同一用户信息在网络中产生事件时所对应的计算机设备的IP地址或IP地址分段或IP地址分组。所述事件类型是记录在网络操作日志中表示用户行为事件的类型,其包括但不限于:网络用户之间进行的关注、点赞、评论、馈赠等社交行为,或者网络用户进行登录、登出、更新状态、注册、修改信息等操作行为中的至少一者。同一用户信息可对应至少一个事件类型,每个事件类型对应事件发起源、事件响应方和事件发生时间。例如,同一用户信息可对应多个点赞事件类型,每个点赞事件类型对应各自事件发起源、事件响应方和事件发生时间。所述事件发起源是指发起一个事件类型的用户信息等。所述事件响应方包括所发起的事件类型的目标用户信息等。

在此,所收集用户的群组分组是基于所收集的成员集群依据数据特征而确定的。在欺诈事件检测系统中预设有参与欺诈时间的群组成员的检测算法(如无监督检测算法)。所述检测算法为了准确地分类群组成员,基于所收集成员的所有数据特征的决策优先级对所有成员进行逐级分类。不同的欺诈事件对应不同决策优先级的检测算法。

在一些实施方式中,所述检测算法依据所有成员的数据特征的相似度来进行决策分类。具体地,请参阅图2,显示为本申请所提供的一种实施方式以获取一个群组数据集的流程图,如图所示,所述步骤S11进一步包括:

步骤S111,获取由多个网络用户组成集群的操作日志;在不同的实施例中,所述集群是能够获取到的所有网络用户组成的一个集群,所述集群中的网络用户来自同一网站或者不同的网站,也或者来自不同的网络渠道,比如可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等或其适当组合,也可以是移动电话的移动通信网络等。

步骤S112,从所述多个网络用户的操作日志中确定至少一个数据特征,并分析所述操作日志中至少一组数据特征的相似度以确定所述群组;在具体的实施例中,针对网络欺诈行为必然会在网络中留下用户使用数据的特点,欺诈事件检测系统中收集来自至少一个网站的多个网络用户的操作日志,通过分析所述操作日志中至少一个数据特征的相似度,对产生相应操作日志的用户进行分组,得到群组及群组在操作日志中的数据集。

在某些实施例中,位于一个群组的数据集中包括但不限用户信息、IP地址、事件类型、事件发起源、事件响应方,及事件发生时间中的至少二者数据特征。其中,所述用户信息如手机号码、邮箱、ID号、身份证号、性别、用户所使用的用户设备编号、注册时间等。其中,同一用户信息可对应至少一个事件类型,每个事件类型对应事件发起源、事件响应方和事件发生时间。所述事件特征包括但不限于:网络用户之间进行的关注、点赞、评论、馈赠(或者称之为送礼)等社交行为,或者网络用户进行登录、登出、更新状态、注册、修改信息等操作行为中的至少一者。例如,同一用户信息可对应多个点赞事件类型,每个点赞事件类型对应各自事件发起源、事件响应方和事件发生时间。

步骤S113,获取所述群组的数据集。在一些实施例中,所述数据集可获取自一存放有各群组及其数据集的数据库,所述数据库例如配置于一远端的存储服务器上,或者配置于本地的计算机设备中的存储装置中,则所获取的一个群组的数据集可基于用户的输入操作从数据库中提取而获取。例如,所述欺诈事件检测系统利用无监督检测算法得到多个群组,用户通过选择界面选择其中一个群组,则获取相应群组的数据集。

具体地,所述欺诈事件检测系统先对操作日志中所有数据在同一类数据特征的相似度进行计算,其中,所述相似度可利用信息熵予以衡量,例如,所述欺诈事件检测系统分别利用用户信息计算IP使用量或最大IP使用量维度的信息熵,利用事件类型计算操作类型维度的信息熵,利用注册时间维度的信息熵或者操作时间计算不良操作维度的信息熵;藉由上述的计算,再利用无监督检测方式对所得到的各信息熵进行检测并划分得到多个群组。其中,所述无监督检测方式举例包括采用基于稠密子图的算法、或者基于向量空间的算法等。本申请所提供的可视化方法所呈现的各群组用于反映欺诈事件所使用的共享资源、用户关系等,来让使用所述欺诈事件检测系统的用户更清晰地确定所述无监督检测算法中的分类策略是否合理。其中,所述共享资源包括但不限于共用的IP、邮箱等,用户关系包括但不限于:用户关注、交互关系等。

在一种实施例中,所述可视化方法还包括显示至少一个群组界面的步骤,所述群组界面中的群组大小以显示的几何图形大小进行表征。请参阅图3,显示为本申请在一实施例中显示的包含多个群组的界面,如图所示,界面中显示有11个群组,用来表征该些群组的几何图形为圆形,所述的11个群组皆位于一个最大虚线圆内,在所述虚线圆内,比如所述虚线圆用来表征一个有N个网络用户组成的集群,例如标号为0的群组为正常群组,在一个较小虚线圆内有标号为1-10的大小不同的10个群组,圆形的尺寸与群组的成员数量成正比,即,大的群组表示成员数量较多,小的群组表示成员数量较少,又如标号为1-10的群组为异常群组。在不同的实施例中,所述群组的所述几何图形可以是任意形状。几何图形的颜色可随机设置,或与群组的数量或群组的成员数量相关。例如,预设有N种颜色,所述欺诈事件检测系统随机地将不同颜色对应到表征各群组的几何图形上。又如,所述欺诈事件检测系统根据预设的颜色顺序,按照成员数量由小到大的顺序依次对应表征各群组的几何图形上。当用户操作所述显示界面而选中一个几何图形时,所述欺诈事件检测系统获取一个群组的数据集。

在一个优选实施例中,所述显示至少一个群组界面中还可以包括显示群组信息的信息栏,当用户选择所述群组界面中的一个群组时,在界面的一侧以视窗或者文本框的方式显示所述群组的基本信息,所述基本信息例如为:群组编码、成员数量、用于确定所述群组最优选的数据特征,群组属性(比如正常群组或异常群组)等信息。

为了展示所分群组的决策过程,欺诈事件检测系统在分组之后执行步骤S12,以树状结构的形式将对应检测算法中按照决策优先级的数据特征而分类得到出的群组用户的分组过程予以显示,由此领域专家和/或算法专家通过可视化界面来解决相应检测算法中的不足和缺陷。

在步骤S12中,显示一个决策树图形以表征所述群组中所有用户的属性测试过程。其中,所述用户的属性可包含正常用户(Normal)和异常用户(Abnormal),或者包含正常用户(Normal)、欺诈角色A(Abnormal A)、欺诈角色B(Abnormal B)等。在显示界面中,本步骤以树状结构自树的根节点经由决策路径或各非叶节点直至每个叶节点来表征欺诈事件检测系统利用检测算法自最高优先级直至最低优先级逐级分类而得到的同一群组各用户属性的过程。其中,在显示界面中显示以下图示:所述决策树图形根节点的第一优先级的数据特征及其决策值域;所述决策树图形每一叶节点表征的至少一个用户的最终属性;所述决策树图形每一非叶节点表征的多个用户的当前属性、当前优先级的数据特征及其决策值域;以及对应所述决策树图形中的根节点或每一非叶节点的决策路径,该些决策路径用不同颜色、形状或粗细的线条进行表征。由所述决策树图形可见,被分入每个叶节点的用户被确定检测为正常用户或异常用户最终属性,被分入每个非叶节点的用户需继续分类直至被分配到确定的叶节点以确定相应用户的最终属性(即正常用户和异常用户)。

其中,决策树的决策结果是依据逐级分析各用户数据特征的原始取值与相应决策值阈的关系而分类得到的。例如,所述欺诈事件检测系统中的某选定用户,通过对决策树剪枝之后,依据优先级由高到低分别利用最大IP使用量、该用户在社交网络中的出度(out_degree)和用户信息计算IP使用量对所有用户进行分组决策。其中,所述无监督检测算法方式举例包括采用基于稠密子图的算法、或者基于向量空间的算法等。本申请所提供的可视化方法所呈现的各群组用于反映欺诈事件所使用的共享资源、用户关系等,来让使用所述欺诈事件检测系统的用户更清晰地确定所述无监督检测算法中的分类策略是否合理。其中,所述共享资源包括但不限于共用的IP、邮箱等,用户关系包括但不限于:用户关注、交互关系等。

请参阅图4,其显示为一个群组用户决策树图形的示意图。如图所示,该决策树图形的根节点显示了优先级最高的数据特征为最大IP使用量,并用最大IP使用量来衡量群组用户的属性分类,即当一个用户所对应的最大IP使用量(max_IP_used_be_used_amount)≤80.5时,将相应用户沿“蓝”色决策路径分类至第一个非叶节点,反之,则将相应用户沿“黄”色决策路径分类至第一个叶节点。第一个非叶节点按照事件发起源为第二优先级的数据特征继续对所获取的各用户进行分类判断,即利用事件发起源来衡量当前所获取的各用户的属性分类,当一个用户所对应的用事件发起源在社交网络中的出度(out_degree)≤711.0时,将相应用户沿“蓝”色决策路径分类至第二个叶节点,反之,则将相应用户沿“黄”色决策路径分类至第二个非叶节点。第二个非叶节点按照IP使用量为第三优先级的数据特征继续对所获取的各用户进行分类判断,即利用IP使用量来衡量当前所获取的各用户的属性分类,当一个用户所对应的用IP使用量(IP_used_amount)≤870.0时,将相应用户沿“蓝”色决策路径分类至第三个叶节点,反之,则将相应用户沿“黄”色决策路径分类至第四个叶节点。其中,用“蓝”色表示在当前分优先级的非叶节点所分类的属性为“正常用户”的决策路径,“黄”色表示在当前优先级下所分类的属性为“异常用户”的决策路径。其中,每个非叶节点中用户衡量相应信息的值域,如图中所示的80.5、711.0和870.0等,均为对应当前优先级数据特征的决策值域。

在不同的实施例中,在显示时还可以用不同形状的线条来表征决策路径的不同,比如用实线表征决策出的用户属性为正常用户,用虚线表征决策出的用户属性为异常用户,再或者,用直线表征决策出的用户属性为正常用户,用曲线表征决策出的用户属性为异常用户,更或者,粗细的线条来表征决策路径的不同,比如用细线条表征决策出的用户属性为正常用户,用粗线条表征决策出的用户属性为异常用户等等。

为了更清晰地看到每一非叶节点和叶节点所获取的用户数量,在显示一个决策树图形以表征所述群组中所有用户的属性测试过程中,在所述决策树图形中的根节点还显示群组用户数量(即根节点给定的样本量),以及在所述决策树图形的每一非叶节点中还显示当前属性的用户数量(即当前非叶节点获得的样本量)。请参阅图5,其显示出的决策树图形中还包括分类至各节点的用户数量的显示界面,其中,根节点中显示的sample_size为根节点给定的样本量,即群组成员总数,其他非叶节点显示的sample_size为当前非叶节点获得的样本量,叶节点中显示的sample_size表示被上一级分类至自身节点的用户数量。

需要说明的是,根据欺诈事件的种类、无监督检测算法的设计不同,在检测操作日志中各的群组决策分类过程中,各数据特征优先级、每个优先级的决策值域、上下级相邻优先级关系、各级决策路径等都可能不同。甚至为了更快速地得到操作日志中各用户的群组决策结果,所使用的无监督检测算法在训练时可根据收敛情况对所选用的数据特征进行截选,即当训练的检测算法已达到收敛条件时,剩余的数据特征将会被剪枝处理,所剪枝处理的数据特征将不被显示在决策树图形的显示界面上。或者,所获取的群组中所有用户在检测算法中前若干级的分类中已经被确定为,则剩余的数据特征会被剪枝处理,显示模块仅显示包含所有决策路径和各决策路径所连接的各节点的决策树图形。当利用本申请所述的可视化方法将一个群组的分类决策过程予以显示时,领域专家和算法专家更易于评价该检测算法的准确性。

在所述决策树图形的显示界面中,或者在基于所获取的操作指令而跳转的另一显示界面中,所述可视化方法还包括:确定所述群组中的一个用户作为目标用户;以及在所述决策树图形的一侧显示一时间轴,用以呈现所述目标用户在所述时间轴上的操作日志的步骤。

在此,当领域专家或算法专家点击一个叶节点并由叶节点的弹出窗中选中一个以用户链接时,在决策树图形的旁边将相应用户在时间轴的操作日志予以显示。请参阅图6,其显示为左侧为目标用户在时间轴上的操作日志、在右侧显示群组决策树图形的界面示意图。如图所示的时间轴自上而下标记操作日志中依时间顺序的时序节点,每个时序节点旁显示相应时间点所对应的操作日志中的事件类型(如event_type)、事件产生时间(如timestamp)、用户信息(如user_id)、IP地址(如完整的IP地址或IP分段)、事件响应方(如target_user)、事件内容(如comment_id、comment_lenth、amount、object_id、target_video等)、事件类型(如event_type)等等。通过显示群组中每个用户在时间轴上的操作历史,能够让领域专家及算法专家详细查核所检测出位于同一群组的用户属性的准确性,以及同一群组中分属正常用户和异常用户的共性关系,进而确认检测算法的不足和缺陷。

在另一些实施方式中,领域专家和算法专家不仅关心群组的成员属性分类过程,还关心所分配的群组是否合理,这需要他们能够查看每个群组中的详细数据特征,并从另一种维度开查看用于分类群组而构建的各数据特征的优选次序。所述可视化方法可包含显示一个群组的数据集的界面的步骤。所显示的数据集以列表方式予以显示,由此为用户显示同一群组中数据特征的详细信息。为提高所述群组数据集分类准确性,所述界面中所显示的列表可依据欺诈事件检测系统分类时所依据的分类优先级将一个群组中的数据特征列表逐列展示。例如,请参阅图7,显示本申请在一实施例中显示的一个群组的数据集的列表界面示意图。在所述列表界面示意图中,所显示的一个群组的数据集是按照数据特征的相似性为优先级由高到低的顺序排序而得的。当第一优先级中的数据特征相似性相同时,按照第二优先级的数据特征进行排序,在图7所示的实施例中,所述优先级由高向低的顺序为:IP地址、事件发起源(source)、事件响应方(target)、事件类型(event_type)及事件发生时间(timestamp)。在本实施例中,将表格的抬头(表头)用不同列的重要性进行编码,如果一个特征的取值越集中,那么这个特征就越重要。在本申请提供的一实施例中,所述欺诈事件检测系统是通过计算每个特征的信息熵来代表这一特性。如果信息熵越低,那么意味着一致性就越高。然后所述欺诈事件检测系统将特征按照信息熵递增的顺序进行排序,最终将低信息熵的列表头顺序靠前来提示户的注意,当然,不同的实施情况下,还可以依据将显示的表格中的列表头进行颜色渲染,比如最终将低信息熵的列表头的颜色渲染为最深来提示户的注意该列所表征的数据特征最为重要,以此类推进行颜色渲染该列所表征的其他数据特征,进而得到图中所示的数据集列表界面。该列表界面可承接在显示多个群组界面的步骤之后,或步骤S12之前或之后,再或者基于用户选择该列表界面的选择操作而显示。

在某些实施例中,为更进一步表征所获取的群组的数据集是否能够反映欺诈事件的特性,还需要从其他维度进行展示。例如,通过比对正常用户的网络操作数据和群组数据集来进一步确认所检测的欺诈事件的准确性。为此,所述可视化方法还包括:显示所述群组的数据集的特征分布的界面的步骤。其中,所述特征分布界面可展示以各数据类型在整体网络中的分布,所述的整体网络是相对的,比如由多个网络用户组成一个集群,则可以通过界面显示该集群中某一个群组中的某一个数据特征的分布,请参阅图3,比如图3中最大虚线圆表示一个由多个网络用户组成集群,该集群中有11个群组,分别是编号为0-10的群组,从中选择一个群组进行信息展示。

在一些实施例中,特征分布界面可展示的数据类型例如为:平均操作时间间隔维度的信息熵(average operation interval entropy),IP地址使用量维度的信息熵(IP used amount entropy),性别维度的信息熵(sex entropy),电子邮件维度的信息熵(email entropy),注册时间维度的信息熵(reg time entropy),操作次数维度的信息熵(operation times entropy),设备数量维度的信息熵(device amount entropy),操作类型维度的信息熵(operation type entropy),所使用IP被他人使用的最大量的信息熵(max IP used be used amount entropy)等等。。在图8所示的实施例中,以注册时间维度的信息熵为数据特征为例进行展示,即图8显示为一个群组中注册时间(注册时段)维度的信息熵在网络集群中的特征分布。为了有效比对所获取的群组数据集与正常用户的网络操作数据的特征分布差异,请参阅图9,其显示为显示所述群组的数据集的特征分布的界面的流程图,如图所示,包括以下步骤:

在步骤S211中,选择一个所述群组,并从所述群组的数据集中确定至少一个数据特征。在一个实施例中,比如选择图3中标号为2的群组,并从所述标号为2的群组中的数据集中确定一个为用户信息的数据特征,比如所述用户信息为注册时间。

在步骤S212中,统计所述确定的至少一个数据特征在所述群组及集群中的特征分布。在本实施例中,统计所述为注册时间的数据特征在所述群组中的特征分布,以及统计所述为注册时间的数据特征在所述整个集群中的特征分布。

在步骤S213中,显示所述特征分布的直方图及对应所述直方图在整个集群直方图中的分布对比图。在本实施例中,基于对所述数据特征的编码,显示所述为注册时间的数据特征在所述群组中特征分布的直方图,以及显示所述为注册时间的数据特征在所述整个集群中特征分布的直方图。如图8所示,在所述界面D中,图(a)显示为所选标号为2的群组中注册时间的特征分布缩略图,对应所述缩略图的放大,则为界面D中最下侧的放大图(d),由所述放大图可以看出,在该群组中,自8月1日至8月31日的一个月中,该群组成员进行注册操作的时间集中在8月5日、8月6日,8月11日,8月12日,以及8月16日这5天,而在所述界面D中图(c)表征为所述集群中注册用户在8月份内进行注册操作的时间分布的直方图,从该图(c)可以看出,所述集群中注册用户在8月份内的注册分布具有一定的规律,在界面D中图(b)表征为将图(d)和图(c)进行重合叠加来展示为注册时间的数据特征在所述整个集群中和选择的群组中的差别。为了能够使得用户能够知道不同特征之间的区别和联系,本申请提供的实施例中将这个柱状图以三层形式进行呈现,用户通过点击其中一个缩略图后,页面将滚动到经过归一化的分布对比图。当然,在具体的应用中,所述数据特征的缩略图还可能有多个,每个代表不同的数据特征。

在一些实施例中,还可以通过对直方图进行颜色渲染以区分或强调某个数据特征在所述群组及整个集群中特征分布,或者动态显示(比如闪烁的方式)以区分或强调某个数据特征在所述群组及整个集群中特征分布。

在一些实施例中,为了进一步分析一个网络集群中的多个群组之间的差异,所述用户数据可视化方法还包括显示多个群组的数据集的特征分布的界面的步骤,请参阅图10及图11,图10显示为本申请在一个实施例中显示多个群组在集群中分布的步骤流程图,图11显示为本申请在一个实施例中显示多个群组在集群中分布界面E,如图所示,所述步骤包括:

在步骤S311中,由多个网络用户组成的集群中确定多个群组,分别用不同形状、图标、标签和/或颜色表征所述多个群组的不同;在一个实施例中,比如选择图3中标号0、1和2的3个群组,其中,标号为0的群组用“”色表示,标号为1的群组用“红”色表示,标号为2的群组用“蓝”色表示。

在步骤S312中,从所述多个群组的数据集中确定至少一个数据特征;在本实施例中,从所述这3个群组的数据集中确定一个数据特征,比如IP地址。

在步骤S313中,基于所述至少一个数据特征分析各该群组中每两个网络用户之间的相对信息熵作为度量所述每两个网络用户之间的相似程度;在本实施例中,基于所述IP地址分析标号0、1和2的3个群组中每两个网络用户之间的相对信息熵(IP使用量维度的信息熵,IP used amount entropy)作为度量所述每两个网络用户之间的相似程度。比如,采用数据降维的方法t-SNE(t-分布邻域嵌入算法)并用两个用户之间的相对熵来作为度量这些网络用户距离的指标。

在步骤S314中,输出显示界面,在所述界面中,用形状、图标、和/或标签表征网络用户,用不同颜色表征所述多个群组的不同,用显示的距离表征每一群组中两个网络用户之间的相似程度。在本实施例中,呈如图11所示的界面E,用圆点表征网络用户,“绿”色表示标号为0的群组,用“红”色表示标号为1的群组,用“蓝”色表示标号为2的群组,其中,用“蓝”色表示标号为2的群组中的用户距离比较短,该群组成簇状分布,用“红”色表示标号为1的群组中的用户距离也比较短,该群组成簇状分布,用“绿”色表示随机抽样的正常用户的分布,正常用户之间的距离较远,分布更为分散。藉此可以认为,一个群组如果是稠密的一簇,其被认为是一个欺诈组的可能性越大。比如图11所示的实施例中,该用“绿”色表示的群组呈较为分散的分布,则表示为该“绿”色群组为正常群组,其中的“绿”点表示的用户也为正常用户。相反的,用“红”色表示的群组(即标号为1的群组)以及用“蓝”色表示的群组(即标号为2的群组)呈成簇状分布,则表示为该“红”和“蓝”色群组为异常群组,其中,用“红”点及“蓝”点表示的用户为异常用户。在一实施例中,使用所述可视化系统的用户可交互式地通过鼠标悬浮来查看每个群组中用户的具体信息及特征取值。

在其他的实施例中,在输出的界面中,也可以用例如为形状、图标、和/或标签表征网络用户,比如形状为三角形、矩形等几何图形,比如图标为笑脸或哭脸、骷髅头像、强盗头像等图标,比如标签用文字或者具有明确区分的符号等。

本申请的用户数据可视化方法通过将欺诈事件检测过程中所确定群组用户分组过程、数据特征分布、分类列表等方式予以呈现,实现了将欺诈事件检测期间所分群组以多种关系界面进行展示,有利于领域专家和算法专家对欺诈事件检测系统的检测算法进行评估和修订。

本申请还提供一种计算机设备,所述计算机设备可以是以下合适的计算机设备,诸如手持计算机设备、平板计算机设备、笔记本计算机、桌上型计算机,服务器等。计算机设备包括显示器、输入装置、输入/输出(I/O)端口、一个或多个处理器、存储器、非易失性存储设备、网络接口、以及电源等。所述的各种部件可包括硬件元件(例如芯片和电路)、软件元件(例如存储指令的有形非暂态计算机可读介质)、或者硬件元件和软件元件的组合。此外,需注意,各种部件可被组合成更少的部件或者被分离成附加部件。例如,存储器和非易失性存储设备可被包括在单个部件中。所述计算机设备可单独执行所述可视化方法,或与其他计算机设备配合执行。

请参阅图12,显示为本申请计算机设备在一实施例中的架构示意图,如图所示,在本实施方式中,所述计算机设备1包括一个或多个处理器11以及在所述处理器1上执行的呈现引擎12,用以执行上述可视化方法并将相应的可视化界面予以展示。例如,计算机设备包含处理器11、显示器以及在所述处理器11上执行的呈现引擎12,其中,在所述处理器11上执行的呈现引擎(或显示引擎),所述呈现引擎12用于执行上述实施例中描述的用户数据可视化方法并通过显示器予以显示,执行所述用户数据可视化方法的实施过程的描述参阅针对图1至图11的描述。在具体的实施状态下,所述呈现引擎例如为被存储在本地计算机设备的存储器上或者远程存储服务器上,所述呈现引擎包括但不限于能够解析基于程序语言开发的用于界面显示的软件及硬件,如XML、HTML等脚本语言、C语言等。在又一些实施方式中,一台计算机设备执行可视化方法并将相应的可视化界面提供给另一台计算机设备予以展示。例如,客户端基于用户的请求操作向服务端发起请求并登录所述服务端,服务端执行可视化方法以形成相应的界面数据,并将所述界面数据反馈给客户端,由客户端的浏览器或定制的应用程序按照相应界面数据显示相应图示。

本申请还提供一种客户端,所述客户端通过网络连接一服务端,在本实施例中,所述客户端例如为web客户端,所述客户端例如为web服务端,所述web客户端基于发送web业务请求以登录所述web服务端执行上述实施例中描述的用户数据可视化方法并通过显示器予以显示,执行所述用户数据可视化方法的实施过程的描述参阅针对图1至图11的描述。

本申请还提供一种服务器,通过网络连接一客户端,在本实施例中,所述客户端例如为web客户端,所述客户端例如为web服务端,所述web服务器基于web客户端执行请求的操作,向所述客户端发送执行上述实施例中描述的用户数据可视化方法并通过显示器予以显示,执行所述用户数据可视化方法的实施过程的描述参阅针对图1至图11的描述。

本申请还提供一种浏览器,通过网络连接一服务端,所述浏览器基于发送请求以登录所述服务端执行上述实施例中描述的用户数据可视化方法并通过显示器予以显示,执行所述用户数据可视化方法的实施过程的描述参阅针对图1至图11的描述。在本实施例中,所述浏览器例如为网页浏览器,包括但不限于QQ浏览器、Internet Explorer浏览器、Firefox浏览器、Safari浏览器,Opera浏览器、Google Chrome浏览器、百度浏览器、搜狗浏览器、猎豹浏览器、360浏览器、UC浏览器、傲游浏览器、世界之窗浏览器等。

本申请还提供一种用户数据可视化系统,所述用户数据可视化系统可包含一个或多个计算机设备中的软件和硬件,并将欺诈事件检测系统所检测的群组的数据集进行可视化。为了向领域专家提供一个一个组作为一个欺诈群组做了什么,以及算法专家所提出的“同一个组的用户是否都有相同的行为习惯”。本申请从群组成员关系上提供一种用户数据可视化系统。请参阅图13,其显示为本申请所提供的用户数据可视化系统的模块结构示意图。如图所示,所述用户数据可视化系统3包括获取模块31和显示模块32。

所述获取模块31用于获取一个群组的数据集。所述数据集的数据特征至少包括用户信息、IP地址、事件类型、事件发起源、事件响应方、及事件发生时间。所述用户信息指能够表征用户身份的信息,例如,用户ID、唯一的用户昵称、证件号等。所述用户信息还包括:手机号码、邮箱、ID号、性别、用户所使用的用户设备编号、注册时间等。所述IP地址表示同一用户信息在网络中产生事件时所对应的计算机设备的IP地址或IP地址分段或IP地址分组。所述事件类型是记录在网络操作日志中表示用户行为事件的类型,其包括但不限于:网络用户之间进行的关注、点赞、评论、馈赠(或者称之为送礼)等社交行为,或者网络用户进行登录、登出、更新状态、注册、修改信息等操作行为中的至少一者。同一用户信息可对应至少一个事件类型,每个事件类型对应事件发起源、事件响应方和事件发生时间。例如,同一用户信息可对应多个点赞事件类型,每个点赞事件类型对应各自事件发起源、事件响应方和事件发生时间。所述事件发起源是指发起一个事件类型的用户信息等。所述事件响应方包括所发起的事件类型的目标用户信息等。

在此,所收集用户的群组分组是基于所收集的成员集群依据数据特征而确定的。在欺诈事件检测系统中预设有参与欺诈时间的群组成员的检测算法(如无监督检测算法)。所述检测算法为了准确地分类群组成员,基于所收集成员的所有数据特征的决策优先级对所有成员进行逐级分类。不同的欺诈事件对应不同决策优先级的无监督检测算法。

在一些实施方式中,所述检测算法依据所有成员的数据特征的相似度来进行决策分类。具体地,请参阅图2,显示为本申请所提供的一种实施方式以获取一个群组数据集的流程图,如图所示,所述获取模块可从基于以下步骤所得到的多个群组数据集中获取一个群组的数据集:

步骤S111,获取由多个网络用户组成集群的操作日志;在不同的实施例中,所述集群是能够获取到的所有网络用户组成的一个集群,所述集群中的网络用户来自同一网站或者不同的网站,也或者来自不同的网络渠道,比如可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等或其适当组合,也可以是移动电话的移动通信网络等。

步骤S112,从所述多个网络用户的操作日志中确定至少一个数据特征,并分析所述操作日志中至少一组数据特征的相似度以确定所述群组;在具体的实施例中,针对网络欺诈行为必然会在网络中留下用户使用数据的特点,欺诈事件检测系统中收集来自至少一个网站的多个网络用户的操作日志,通过分析所述操作日志中至少一个数据特征的相似度,对产生相应操作日志的用户进行分组,得到群组及群组在操作日志中的数据集。

在某些实施例中,位于一个群组的数据集中包括但不限用户信息、IP地址、事件类型、事件发起源、事件响应方,及事件发生时间中的至少二者数据特征。其中,所述用户信息如手机号码、邮箱、ID号、身份证号、性别、用户所使用的用户设备编号、注册时间等。其中,同一用户信息可对应至少一个事件类型,每个事件类型对应事件发起源、事件响应方和事件发生时间。所述事件特征包括但不限于:网络用户之间进行的关注、点赞、评论、馈赠等社交行为,或者网络用户进行登录、登出、更新状态、注册、修改信息等操作行为中的至少一者。例如,同一用户信息可对应多个点赞事件类型,每个点赞事件类型对应各自事件发起源、事件响应方和事件发生时间。

步骤S113,获取所述群组的数据集。在一些实施例中,所述数据集可获取自一存放有各群组及其数据集的数据库,所述数据库例如配置于一远端的存储服务器上,或者配置于本地的计算机设备中的存储装置中,则所获取的一个群组的数据集可基于用户的输入操作从数据库中提取而获取。例如,所述欺诈事件检测系统利用无监督检测算法得到多个群组,用户通过选择界面选择其中一个群组,则获取相应群组的数据集。

具体地,所述欺诈事件检测系统先对操作日志中所有数据在同一类数据特征的相似度进行计算,其中,所述相似度可利用信息熵予以衡量,例如,所述欺诈事件检测系统分别利用用户信息计算IP使用量或最大IP使用量维度的信息熵,利用事件类型计算操作类型维度的信息熵,利用注册时间维度的信息熵或者操作时间计算不良操作维度的信息熵;藉由上述的计算,再利用无监督检测方式对所得到的各信息熵进行检测并划分得到多个群组。其中,所述无监督检测方式举例包括采用基于稠密子图的算法、或者基于向量空间的算法等。本申请所提供的可视化方法所呈现的各群组用于反映欺诈事件所使用的共享资源、用户关系等,来让使用所述欺诈事件检测系统的用户更清晰地确定所述无监督检测算法中的分类策略是否合理。其中,所述共享资源包括但不限于共用的IP、邮箱等,用户关系包括但不限于:用户关注、交互关系等。

在一种实施例中,所述用户数据可视化系统中的显示模块32可以显示至少一个群组界面,所述群组界面中的群组大小以显示的几何图形大小进行表征。请参阅图3,显示为本申请在一实施例中显示的包含多个群组的界面,如图所示,界面中显示有11个群组,用来表征该些群组的几何图形为圆形,所述的11个群组皆位于一个最大虚线圆内,在所述虚线圆内,比如所述虚线圆用来表征一个有N个网络用户组成的集群,例如标号为0的群组为正常群组,在一个较小虚线圆内有标号为1-10的大小不同的10个群组,圆形的尺寸与群组的成员数量成正比,即,大的群组表示成员数量较多,小的群组表示成员数量较少,又如标号为1-10的群组为异常群组。在不同的实施例中,所述群组的所述几何图形可以是任意形状。几何图形的颜色可随机设置,或与群组的数量或群组的成员数量相关。例如,预设有N种颜色,所述欺诈事件检测系统随机地将不同颜色对应到表征各群组的几何图形上。又如,所述欺诈事件检测系统根据预设的颜色顺序,按照成员数量由小到大的顺序依次对应表征各群组的几何图形上。当用户操作所述显示界面而选中一个几何图形时,所述欺诈事件检测系统获取一个群组的数据集。

在一个优选实施例中,所述显示至少一个群组界面中还可以包括显示群组信息的信息栏,当用户选择所述群组界面中的一个群组时,在界面的一侧以视窗或者文本框的方式显示所述群组的基本信息,所述基本信息例如为:群组编码、成员数量、用于确定所述群组最优选的数据特征,群组属性(比如正常群组或异常群组)等信息。

为了展示所分群组的决策过程,欺诈事件检测系统在分组之后,显示模块32以树状结构的形式将对应检测算法中按照决策优先级的数据特征而分类得到出的群组用户的分组过程予以显示,由此领域专家和/或算法专家通过可视化界面来解决相应检测算法中的不足和缺陷。

所述显示模块32用于显示一个决策树图形以表征所述群组中所有用户的属性测试过程。其中,所述用户的属性可包含正常用户(Normal)和异常用户(Abnormal),或者包含正常用户(Normal)、欺诈角色A(Abnormal A)、欺诈角色B(Abnormal B)等。在显示界面中,所述显示模块32以树状结构自树的根节点经由决策路径或各非叶节点直至每个叶节点来表征欺诈事件检测系统利用检测算法自最高优先级直至最低优先级逐级分类而得到的同一群组各用户属性的过程。其中,在显示界面中显示以下图示:所述决策树图形根节点的第一优先级的数据特征及其决策值域;所述决策树图形每一叶节点表征的至少一个用户的最终属性;所述决策树图形每一非叶节点表征的多个用户的当前属性、当前优先级的数据特征及其决策值域;以及对应所述决策树图形中的根节点或每一非叶节点的决策路径,该些决策路径用不同颜色、形状或粗细的线条进行表征。由所述决策树图形可见,被分入每个叶节点的用户被确定检测为正常用户或异常用户最终属性,被分入每个非叶节点的用户需继续分类直至被分配到确定的叶节点以确定相应用户的最终属性(即正常用户和异常用户)。

其中,决策树的决策结果是依据逐级分析各用户数据特征的原始取值与相应决策值阈的关系而分类得到的。例如,所述欺诈事件检测系统中的某选定用户,通过对决策树剪枝之后,依据优先级由高到低分别利用最大IP使用量、该用户在社交网络中的出度(out_degree)和用户信息计算IP使用量对所有用户进行分组决策。其中,所述无监督检测算法方式举例包括采用基于稠密子图的算法、或者基于向量空间的算法等。本申请所提供的可视化方法所呈现的各群组用于反映欺诈事件所使用的共享资源、用户关系等,来让使用所述欺诈事件检测系统的用户更清晰地确定所述无监督检测算法中的分类策略是否合理。其中,所述共享资源包括但不限于共用的IP、邮箱等,用户关系包括但不限于:用户关注、交互关系等。

请参阅图4,其显示为一个群组用户决策树图形的示意图。如图所示,该决策树图形的根节点显示了优先级最高的数据特征为最大IP使用量,并用最大IP使用量来衡量群组用户的属性分类,即当一个用户所对应的最大IP使用量(max_IP_used_be_used_amount)≤80.5时,将相应用户沿“蓝”色决策路径分类至第一个非叶节点,反之,则将相应用户沿“黄”色决策路径分类至第一个叶节点。第一个非叶节点按照事件发起源为第二优先级的数据特征继续对所获取的各用户进行分类判断,即利用事件发起源来衡量当前所获取的各用户的属性分类,当一个用户所对应的用事件发起源在社交网络中的出度(out_degree)≤711.0时,将相应用户沿“蓝”色决策路径分类至第二个叶节点,反之,则将相应用户沿“黄”色决策路径分类至第二个非叶节点。第二个非叶节点按照IP使用量为第三优先级的数据特征继续对所获取的各用户进行分类判断,即利用IP使用量来衡量当前所获取的各用户的属性分类,当一个用户所对应的用IP使用量(IP_used_amount)≤870.0时,将相应用户沿“蓝”色决策路径分类至第三个叶节点,反之,则将相应用户沿“黄”色决策路径分类至第四个叶节点。其中,用“蓝”色表示在当前分优先级的非叶节点所分类的属性为“正常用户”的决策路径,“黄”色表示在当前优先级下所分类的属性为“异常用户”的决策路径。其中,每个非叶节点中用户衡量相应信息的值域,如图中所示的80.5、711.0和870.0等,均为对应当前优先级数据特征的决策值域。

在不同的实施例中,在显示时还可以用不同形状的线条来表征决策路径的不同,比如用实线表征决策出的用户属性为正常用户,用虚线表征决策出的用户属性为异常用户,再或者,用直线表征决策出的用户属性为正常用户,用曲线表征决策出的用户属性为异常用户,更或者,粗细的线条来表征决策路径的不同,比如用细线条表征决策出的用户属性为正常用户,用粗线条表征决策出的用户属性为异常用户等等。

为了更清晰地看到每一非叶节点和叶节点所获取的用户数量,在显示一个决策树图形以表征所述群组中所有用户的属性测试过程中,在所述决策树图形中的根节点还显示群组用户数量(即根节点给定的样本量),以及在所述决策树图形的每一非叶节点中还显示当前属性的用户数量(即当前非叶节点获得的样本量)。请参阅图5,其显示出的决策树图形中还包括分类至各节点的用户数量的显示界面,其中,根节点中显示的sample_size为根节点给定的样本量,即群组成员总数,其他非叶节点显示的sample_size为当前非叶节点获得的样本量,叶节点中显示的sample_size表示被上一级分类至自身节点的用户数量。

需要说明的是,根据欺诈事件的种类、无监督检测算法的设计不同,在检测操作日志中各的群组决策分类过程中,各数据特征优先级、每个优先级的决策值域、上下级相邻优先级关系、各级决策路径等都可能不同。甚至为了更快速地得到操作日志中各用户的群组决策结果,所使用的无监督检测算法在训练时可根据收敛情况对所选用的数据特征进行截选,即当训练的检测算法已达到收敛条件时,剩余的数据特征将会被剪枝处理,所剪枝处理的数据特征将不被显示在决策树图形的显示界面上。或者,所获取的群组中所有用户在检测算法中前若干级的分类中已经被确定为,则剩余的数据特征会被剪枝处理,显示模块32仅显示包含所有决策路径和各决策路径所连接的各节点的决策树图形。当利用本申请所述用户数据可视化系统将一个群组的分类决策过程予以显示时,领域专家和算法专家更易于评价该检测算法的准确性。

在所述决策树图形的显示界面中,或者在基于所获取的操作指令而跳转的另一显示界面中,所述显示模块32还用于确定所述群组中的一个用户作为目标用户;以及在所述决策树图形的一侧显示一时间轴,用以呈现所述目标用户在所述时间轴上的操作日志。

在此,当领域专家或算法专家点击一个叶节点并由叶节点的弹出窗中选中一个以用户链接时,在决策树图形的旁边将相应用户在时间轴的操作日志予以显示。请参阅图6,其显示为左侧为目标用户在时间轴上的操作日志、在右侧显示群组决策树图形的界面示意图。如图所示的时间轴自上而下标记操作日志中依时间顺序的时序节点,每个时序节点旁显示相应时间点所对应的操作日志中的事件类型(如event_type)、事件产生时间(如timestamp)、用户信息(如user_id)、IP地址(如完整的IP地址或IP分段)、事件响应方(如target_user)、事件内容(如comment_id、comment_lenth、amount、object_id、target_video等)、事件类型(如event_type)等等。通过显示群组中每个用户在时间轴上的操作历史,能够让领域专家及算法专家详细查核所检测出位于同一群组的用户属性的准确性,以及同一群组中分属正常用户和异常用户的共性关系,进而确认检测算法的不足和缺陷。

在另一些实施方式中,领域专家和算法专家不仅关心群组的成员属性分类过程,还关心所分配的群组是否合理,这需要他们能够查看每个群组中的详细数据特征,并从另一种维度开查看用于分类群组而构建的各数据特征的优选次序。所述可视化方法还用于显示一个群组的数据集的界面。所显示的数据集以列表方式予以显示,由此为用户显示同一群组中数据特征的详细信息。为提高所述群组数据集分类准确性,所述界面中所显示的列表可依据欺诈事件检测系统分类时所依据的分类优先级将一个群组中的数据特征列表逐列展示。例如,请参阅图7,显示本申请在一实施例中显示的一个群组的数据集的列表界面示意图。在所述列表界面示意图中,所显示的一个群组的数据集是按照数据特征的相似性为优先级由高到低的顺序排序而得的。当第一优先级中的数据特征相似性相同时,按照第二优先级的数据特征进行排序,在图7所示的实施例中,所述优先级由高向低的顺序为:IP地址(IP地址的分段或分组)、事件发起源(source)、事件响应方(target)、事件类型(event_type)及事件发生时间(timestamp)。在本实施例中,将表格的抬头(表头)用不同列的重要性进行编码,如果一个特征的取值越集中,那么这个特征就越重要。在本申请提供的一实施例中,所述欺诈事件检测系统是通过计算每个特征的信息熵来代表这一特性。如果信息熵越低,那么意味着一致性就越高。然后所述欺诈事件检测系统将特征按照信息熵递增的顺序进行排序,最终将低信息熵的列表头顺序靠前来提示户的注意,当然,不同的实施情况下,还可以依据将显示的表格中的列表头进行颜色渲染,比如最终将低信息熵的列表头的颜色渲染为最深来提示户的注意该列所表征的数据特征最为重要,以此类推进行颜色渲染该列所表征的其他数据特征,进而得到图中所示的数据集列表界面。该列表界面可承接在显示多个群组界面的步骤之后,或步骤S12之前或之后,再或者基于用户选择该列表界面的选择操作而显示。

在某些实施例中,为更进一步表征所获取的群组的数据集是否能够反映欺诈事件的特性,还需要从其他维度进行展示。例如,通过比对正常用户的网络操作数据和群组数据集来进一步确认所检测的欺诈事件的准确性。为此,所述显示模块32还用于显示所述群组的数据集的特征分布的界面。其中,所述特征分布界面可展示以各数据类型在整体网络中的分布,所述的整体网络是相对的,比如由多个网络用户组成一个集群,则可以通过界面显示该集群中某一个群组中的某一个数据特征的分布,请参阅图3,比如图3中最大虚线圆表示一个由多个网络用户组成集群,该集群中有11个群组,分别是编号为0-10的群组,从中选择一个群组进行信息展示。

在一些实施例中,特征分布界面可展示的数据类型例如为:平均操作时间间隔维度的信息熵(average operation interval entropy),IP地址使用量维度的信息熵(IP used amount entropy),性别维度的信息熵(sex entropy),电子邮件维度的信息熵(email entropy),注册时间维度的信息熵(reg time entropy),操作次数维度的信息熵(operation times entropy),设备数量维度的信息熵(device amount entropy),操作类型维度的信息熵(operation type entropy),所使用IP被他人使用的最大量的信息熵(max IP used be used amount entropy)等等。。在图8所示的实施例中,以注册时间维度的信息熵为数据特征为例进行展示,即图8显示为一个群组中注册时间(注册时段)的信息熵在网络集群中的特征分布。为了有效比对所获取的群组数据集与正常用户的网络操作数据的特征分布差异,请参阅图9,其显示为显示所述群组的数据集的特征分布的界面的流程图,如图所示,用户可视化系统执行以下步骤以便显示模块32将所产生的各图示显示在相应界面上:

在步骤S211中,选择一个所述群组,并从所述群组的数据集中确定至少一个数据特征。在一个实施例中,比如选择图3中标号为2的群组,并从所述标号为2的群组中的数据集中确定一个为用户信息的数据特征,比如所述用户信息为注册时间。

在步骤S212中,统计所述确定的至少一个数据特征在所述群组及集群中的特征分布。在本实施例中,统计所述为注册时间的数据特征在所述群组中的特征分布,以及统计所述为注册时间的数据特征在所述整个集群中的特征分布。

在步骤S213中,显示所述特征分布的直方图及对应所述直方图在整个集群直方图中的分布对比图。在本实施例中,基于对所述数据特征的编码,显示所述为注册时间的数据特征在所述群组中特征分布的直方图,以及显示所述为注册时间的数据特征在所述整个集群中特征分布的直方图。如图8所示,在所述界面D中,图(a)显示为所选标号为2的群组中注册时间的特征分布缩略图,对应所述缩略图的放大,则为界面D中最下侧的放大图(d),由所述放大图可以看出,在该群组中,自8月1日至8月31日的一个月中,该群组成员进行注册操作的时间集中在8月5日、8月6日,8月11日,8月12日,以及8月16日这5天,而在所述界面D中图(c)表征为所述集群中注册用户在8月份内进行注册操作的时间分布的直方图,从该图(c)可以看出,所述集群中注册用户在8月份内的注册分布具有一定的规律,在界面D中图(b)表征为将图(d)和图(c)进行重合叠加来展示为注册时间的数据特征在所述整个集群中和选择的群组中的差别。为了能够使得用户能够知道不同特征之间的区别和联系,本申请提供的实施例中将这个柱状图以三层形式进行呈现,用户通过点击其中一个缩略图后,页面将滚动到经过归一化的分布对比图。当然,在具体的应用中,所述数据特征的缩略图还可能有多个,每个代表不同的数据特征。

在一些实施例中,还可以通过对直方图进行颜色渲染以区分或强调某个数据特征在所述群组及整个集群中特征分布,或者动态显示(比如闪烁的方式)以区分或强调某个数据特征在所述群组及整个集群中特征分布。

在一些实施例中,为了进一步分析一个网络集群中的多个群组之间的差异,所述显示模块32还用于显示多个群组的数据集的特征分布的界面,请参阅图10及图11,图10显示为所述显示模块32在一个实施例中显示多个群组在集群中分布的步骤流程图,图11显示为本申请在一个实施例中显示多个群组在集群中分布界面E,如图所示,所述步骤包括:

在步骤S311中,由多个网络用户组成的集群中确定多个群组,分别用不同形状、图标、标签和/或颜色表征所述多个群组的不同;在一个实施例中,比如选择图3中标号0、1和2的3个群组,其中,标号为0的群组用“绿”色表示,标号为1的群组用“红”色表示,标号为2的群组用“蓝”色表示。

在步骤S312中,从所述多个群组的数据集中确定至少一个数据特征;在本实施例中,从所述这3个群组的数据集中确定一个数据特征,比如IP地址。

在步骤S313中,基于所述至少一个数据特征分析各该群组中每两个网络用户之间的相对信息熵作为度量所述每两个网络用户之间的相似程度;在本实施例中,基于所述IP地址分析标号0、1和2的3个群组中每两个网络用户之间的相对信息熵(IP使用量维度的信息熵,IP used amount entropy)作为度量所述每两个网络用户之间的相似程度。比如,采用数据降维的方法t-SNE(t-分布邻域嵌入算法)并用两个用户之间的相对熵来作为度量这些网络用户距离的指标。

在步骤S314中,输出显示界面,在所述界面中,用形状、图标、和/或标签表征网络用户,用不同颜色表征所述多个群组的不同,用显示的距离表征每一群组中两个网络用户之间的相似程度。在本实施例中,呈如图11所示的界面E,用圆点表征网络用户,“绿”色表示标号为0的群组,用“红”色表示标号为1的群组,用“蓝”色表示标号为2的群组,其中,用“蓝”色表示标号为2的群组中的用户距离比较短,该群组成簇状分布,用“红”色表示标号为1的群组中的用户距离也比较短,该群组成簇状分布,用“绿”色表示表示随机抽样的正常用户的分布,正常用户之间的距离较远,分布更为分散。藉此可以认为,一个群组如果是稠密的一簇,其被认为是一个欺诈组的可能性越大。比如图11所示的实施例中,该用“绿”色表示的群组呈较为分散的分布,则表示为该“绿”色群组为正常群组,其中的“绿”点表示的用户也为正常用户。相反的,用“红”色表示的群组(即标号为1的群组)以及用“蓝”色表示的群组(即标号为2的群组)呈成簇状分布,则表示为该“红”和“蓝”色群组为异常群组,其中,用“红”点及“蓝”点表示的用户为异常用户。在一实施例中,使用所述可视化系统的用户可交互式地通过鼠标悬浮来查看每个群组中用户的具体信息及特征取值。

在其他的实施例中,在输出的界面中,也可以用例如为形状、图标、和/或标签表征网络用户,比如形状为三角形、矩形等几何图形,比如图标为笑脸或哭脸、骷髅头像、强盗头像等图标,比如标签用文字或者具有明确区分的符号等。

本申请的用户数据可视化系统通过将欺诈事件检测过程中所确定群组用户分组过程、数据特征分布、分类列表等方式予以呈现,实现了将欺诈事件检测期间所分群组以多种关系界面进行展示,有利于领域专家和算法专家对欺诈事件检测系统的检测算法进行评估和修订。

需要说明的是,所述用户数据可视化系统中的所有模块可被配置在单一计算机设备上。或所述用户数据可视化系统中的各模块被分别配置在用户侧的客户端以及网络侧的服务器上,且客户端与服务器网络连接。例如,用户数据可视化系统的获取模块安装在服务器中,显示模块安装在客户端内,所述客户端基于发送请求以登录所述服务端,所述服务器基于所述客户端执行请求的操作向所述客户端运行所述用户数据可视化系统,并通过客户端显示相应界面。所述客户端包括但不限于:配置在用户终端的浏览器或专用客户端软件的界面、以及用于执行显示界面程序的硬件等。

还需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请的部分或全部可借助软件并结合必需的通用硬件平台来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可包括其上存储有机器可执行指令的一个或多个机器可读介质,这些指令在由诸如计算机、计算机网络或其他电子设备等一个或多个机器执行时可使得该一个或多个机器根据本申请的实施例来执行操作。机器可读介质可包括,但不限于,软盘、光盘、CD-ROM(紧致盘-只读存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。

本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是,本领域技术人员可以理解,上述部分组件可以是可编程逻辑器件,包括:可编程阵列逻辑(Programmable Array Logic,PAL)、通用阵列逻辑(Generic Array Logic,GAL)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)中的一种或多种,本申请对此不做具体限制。

上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1