数据处理方法及装置、电子设备和计算机可读存储介质与流程

文档序号:20781083发布日期:2020-05-19 21:14阅读:116来源:国知局
数据处理方法及装置、电子设备和计算机可读存储介质与流程

本公开涉及计算机技术领域,具体而言,涉及一种数据处理方法及装置、电子设备和计算机可读存储介质。



背景技术:

在相关技术中,用于训练分类模型的训练数据集中的样本的标签均采用人工标注,需要耗费大量的人力物力,效率低下,成本较高,且人工标注过程中容易出现错误。

因此,需要一种新的数据处理方法及装置、电子设备和计算机可读存储介质。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。



技术实现要素:

本公开实施例提供一种数据处理方法及装置、电子设备和计算机可读存储介质,能够自动识别用于训练分类模型的训练数据集中的样本的类别,自动为训练样本打上标签。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

本公开实施例提供一种数据处理方法,所述方法包括:获取对象的特征信息;根据所述对象的特征信息,获得特征的相关度;根据所述特征的相关度对所述对象进行聚类处理,获得聚类结果;将所述聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:n,n为数据不均衡倍率且为大于1的正整数;基于所述少数类样本和所述多数类样本,对所述少数类样本进行扩散,获得合成少数类样本;根据所述少数类样本、所述多数类样本和所述合成少数类样本对分类模型进行训练。

本公开实施例提供一种数据处理装置,所述装置包括:特征信息获取单元,用于获取对象的特征信息;特征相关度获得单元,用于根据所述对象的特征信息,获得特征的相关度;聚类结果获得单元,用于根据所述特征的相关度对所述对象进行聚类处理,获得聚类结果;样本类别确定单元,用于将所述聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:n,n为数据不均衡倍率;少数类样本合成单元,用于基于所述少数类样本和所述多数类样本,对所述少数类样本进行扩散,获得合成少数类样本;分类模型训练单元,用于根据所述少数类样本、所述多数类样本和所述合成少数类样本对分类模型进行训练。

本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的数据处理方法。

本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的数据处理方法。

在本公开的一些实施例所提供的技术方案中,一方面,根据获取的对象的特征信息,获得特征的相关度,并根据特征的相关度对对象进行聚类处理,获得聚类结果,将聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:n,n为数据不均衡倍率且为大于1的正整数,从而可以实现样本的类别的自动化识别,识别效率高且成本较低,在工业上具备良好的可操作性;另一方面,还同时基于少数类样本和多数类样本,对少数类样本进行扩散,获得合成少数类样本,通过增加少数类样本的方式可以解决数据的类别不均衡问题,确保少数类样本的信息不被覆盖,进而可以根据少数类样本、多数类样本和合成少数类样本对分类模型进行训练,提高训练完成后的分类模型的分类准确度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了可以应用本公开实施例的数据处理方法或数据处理装置的示例性系统架构的示意图;

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;

图3示意性示出了根据本公开的一实施例的数据处理方法的流程图;

图4示意性示出了根据本公开的另一实施例的数据处理方法的流程图;

图5示出了图3中所示的步骤s320在一实施例中的处理过程示意图;

图6示出了图3中所示的步骤s330在一实施例中的处理过程示意图;

图7示出了图3中所示的步骤s330在另一实施例中的处理过程示意图;

图8示出了图3中所示的步骤s350在一实施例中的处理过程示意图;

图9示出了图3中所示的步骤s350在另一实施例中的处理过程示意图;

图10示意性示出了根据本公开的又一实施例的数据处理方法的流程图;

图11示意性示出了根据本公开的再一实施例的数据处理方法的流程图;

图12示意性示出了根据本公开的再一实施例的数据处理方法的流程图;

图13示意性示出了根据本公开的一实施例的数据处理装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的数据处理方法或数据处理装置的示例性系统架构100的示意图。

如图1所示,系统架构100可以包括终端设备101、102,网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102通过网络103与服务器104交互,以接收或发送消息等。其中,终端设备101、102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器104可以是提供各种服务的服务器,例如对用户利用终端设备101、102所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。

服务器104可例如获取对象的特征信息;服务器104可例如根据所述对象的特征信息,获得特征的相关度;服务器104可例如根据所述特征的相关度对所述对象进行聚类处理,获得聚类结果;服务器104可例如将所述聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:n,n为数据不均衡倍率且为大于1的正整数;服务器104可例如基于所述少数类样本和所述多数类样本,对所述少数类样本进行扩散,获得合成少数类样本;服务器104可例如根据所述少数类样本、所述多数类样本和所述合成少数类样本对分类模型进行训练。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器104可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示,计算机系统200包括中央处理单元(cpu,centralprocessingunit)201,其可以根据存储在只读存储器(rom,read-onlymemory)202中的程序或者从储存部分208加载到随机访问存储器(ram,randomaccessmemory)203中的程序而执行各种适当的动作和处理。在ram203中,还存储有系统操作所需的各种程序和数据。cpu201、rom202以及ram203通过总线204彼此相连。输入/输出(input/output,i/o)接口205也连接至总线204。

以下部件连接至i/o接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(crt,cathoderaytube)、液晶显示器(lcd,liquidcrystaldisplay)等以及扬声器等的输出部分207;包括硬盘等的储存部分208;以及包括诸如lan(localareanetwork,局域网)卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至i/o接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入储存部分208。

特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(cpu)201执行时,执行本申请的方法和/或装置中限定的各种功能。

需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom(erasableprogrammablereadonlymemory,可擦除可编程只读存储器)或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf(radiofrequency,射频)等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3或图4或图5或图6或图7或图8或图9或图10或图11或图12所示的各个步骤。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本公开实施例提供的技术方案涉及人工智能技术的机器学习技术等方面,下面通过具体的实施例进行举例说明。

图3示意性示出了根据本公开的一实施例的数据处理方法的流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行,例如如图1中的终端设备101、102和/或服务器104。在下面的举例说明中,以服务器104为执行主体进行示例说明。

如图3所示,本公开实施例提供的数据处理方法可以包括以下步骤。

在步骤s310中,获取对象的特征信息。

本公开实施例中,对象可以根据不同的分类场景,具有不同的含义,例如,若需要识别用户的不同类别,则对象可以是用户;再例如,若需要识别商品的不同类别,则对象可以是商品,本公开对此不做限定。

相应的,当对象的含义和适应的分类场景发生变化时,对象的特征信息随之改变。例如,若需要识别用户的情感倾向,则特征信息是可以用于辅助识别用户的情感倾向的任意相关信息,如用户发表的评论信息、用户的点赞、分享行为信息等;再例如,若需要识别商品的所属商品类别,则特征信息是可以用于辅助识别商品的所属商品类别的任意相关信息,如商品的名称、型号、出产厂商等信息。

在步骤s320中,根据所述对象的特征信息,获得特征的相关度。

例如,可以参考下面图5中的方法,获得特征信息对应的特征的相关度。

在步骤s330中,根据所述特征的相关度对所述对象进行聚类处理,获得聚类结果。

例如,可以参考下面图6和图7中的方法,获得对象的聚类结果。

在步骤s340中,将所述聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:n,n为数据不均衡倍率且为大于1的正整数。

例如,可以预先设定一个数据不均衡倍率n,n的取值可以根据实际场景进行设置,如n=100,或者100000等。数据不均衡倍率是指原始的训练数据集中的少数类样本数量和多数类样本数量之间的比值,其中少数类样本是指训练数据集中数量较少的类别,多数类样本是指训练数据集中数量较多的类别,以用户的情感倾向二分类为例,假设训练数据集中情感倾向为负面的对象数量为100,情感倾向为正面的对象数量为10000,则情感倾向为负面的对象的类别为少数类样本,情感倾向为正面的对象的类别为多数类样本,此时训练数据集的数据不均衡倍率n=100。

在步骤s350中,基于所述少数类样本和所述多数类样本,对所述少数类样本进行扩散,获得合成少数类样本。

在实际应用中,原始的训练数据集中,不同类别的样本数量基本不相等,也就是数据不均衡或者类别不均衡,若直接将原始的训练数据集用于训练分类模型,很难学习到少数类样本的数据分布和样本特征,从而容易导致少数类样本分类不准,进而降低分类模型的分类效果。

相关技术中,解决数据不均衡有两种方法,一种是过采样,另一种是欠采样。过采样是保持多数类样本数量不变,多次从少数类样本中有放回的采样数据,减少不同类别的样本数量差异。但是,相关技术中的过采样通过保持多数类样本不变,重复对少数类样本进行有放回的采样,很容易造成过拟合问题。欠采样是保持少数类样本不变,通过对多数类样本削减部分样本来达到类别均衡。而欠采样当类别不均衡比例过大时,严重削减多数类样本的数量,会造成样本信息的丢失。

本实施例中,同时基于少数类样本和多数类样本,对少数类样本进行扩散,获得合成少数类样本,其中合成少数类样本是增加的新的少数类样本,以使原始不均衡的数据趋于类别均衡。合成少数类样本可以是在少数类样本和少数类样本之间,也可以是少数类样本和多数类样本之间,进而避免了传统的盲目随机增加少数类样本而增加模型噪音的风险,进而使分类模型更稳定有效。

在步骤s360中,根据所述少数类样本、所述多数类样本和所述合成少数类样本对分类模型进行训练。

本公开实施例中,将增加的新的合成少数类样本加入至原始的训练数据集,以更新训练数据集,并以更新后的训练数据集来训练分类模型。其中,分类模型是运用数理逻辑方法和数学语言构建的数学模型,是让计算机从已有的数据中学习出新的知识,也就是根据训练数据集进行系统的学习,比如如何对评论、新闻或作品等进行分类、如何优化分类结果等。训练的过程就是利用训练数据集中的训练样本并结合训练样本所对应的类别标签,即根据已有的数据确定模型参数的过程。

本公开实施例中,用增加的合成少数类样本更新原始的训练数据集,再以更新后的训练数据集,即多个已经标注的少数类样本、多数类样本以及新增加的合成少数类样本,作为训练样本训练分类模型。更新后的训练数据集由于增加了合成少数类样本,因而类别分布趋于均衡,从而降低总体样本的分类错误率,并使整体分类性能增强。也就是说,训练出的分类模型能够简单的部署,进而快速得到精确度高的分类结果。

由于分类模型,以降低总体样本的分类错误率为目标来训练分类模型,要求数据在各个类别的分布是均匀的,而相关技术中的过采样方法是随机、多次从少数类样本中进行有放回的采样,即生成的新样本位于两个少数类样本中间的任一位置,因而仅仅扩充了样本,并没有改变少数类样本的分布特征,从而对分类边界的影响较小,还容易导致样本重叠的问题,进而使分类模型的效果得不到提升。而本实施例,增加的合成少数类样本,不限于只增加少数类样本和少数类样本之间的样本,还考虑到少数类样本和多数类样本之间的关系,进而在扩大样本数量的同时,还扩大了少数类样本的边界。

本公开实施例中,分类模型可以用于任意的分类场景,例如可应用到商品的评论,还可应用到生物医学上的诊断等,具体可根据实际应用,设计相应的分类类别,进而训练各种不同的分类模型。例如可为rf(randomforest,随机森林)模型、gbdt(gradientboostingdecisiontree,梯度提升树)模型、神经网络模型、深度学习模型等中的任意一种或者多种的组合。这里的分类模型可以是二分类模型,也可以是多分类模型。

在下面的举例说明中,以二分类的rf模型为例进行举例说明,但本公开的保护范围并不限定于此。

其中,rf模型是利用多个决策树进行训练并预测的一种集成学习算法,rf模型使用了cart(classificationandregressiontree,分类回归树)决策树作为弱学习器。rf模型的输入为训练数据集d={(x1,y1),(x2,y2),...(xm,ym)}、弱分类器迭代次数t,xi为第i个样本的特征信息,yi为第i个样本的类别标签,例如少数类样本的类别标签假设为0,多数类样本的类别标签假设为1,但本公开并不限定于此,i为大于或等于1且小于或等于m的正整数,m为大于或等于1的正整数,t为大于或等于1的正整数,输出为最终的强分类器f(x),具体地:

对于t=1,2...,t,t为大于或等于1且小于或等于t的正整数:

对训练数据集进行第t次随机采样,共采集m次,得到包含m个样本的采样集dm;

用采样集dm训练第m个决策树模型gm(x),在训练决策树模型的节点的时候,在节点上所有的样本特征中选择一部分样本特征,在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分。t个弱学习器投出最多票数的类别或者类别之一为最终的预测类别。

rf模型可以进行并行训练,可以提高训练的速度和效率。同时,由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。此外,由于采用了随机采样,训练出的分类模型的方差小,泛化能力强。且rf模型对部分特征的缺失不敏感。

本公开实施方式提供的数据处理方法,一方面,根据获取的对象的特征信息,获得特征的相关度,并根据特征的相关度对对象进行聚类处理,获得聚类结果,将聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:n,n为数据不均衡倍率,从而可以实现样本的类别的自动化识别,识别效率高且成本较低,在工业上具备良好的可操作性;另一方面,还同时基于少数类样本和多数类样本,对少数类样本进行扩散,获得合成少数类样本,通过增加少数类样本的方式可以解决数据的类别不均衡问题,确保少数类样本的信息不被覆盖,进而可以根据少数类样本、多数类样本和合成少数类样本对分类模型进行训练,提高训练完成后的分类模型的分类准确度。

图4示意性示出了根据本公开的另一实施例的数据处理方法的流程图。

如图4所示,与上述实施例相比,本公开实施例所提供的方法的不同之处在于,在上述步骤320之前,所述方法还可以进一步包括以下步骤。

在步骤s410中,根据所述对象的特征信息,获得所述特征的方差。

例如,以某个特征信息对应的特征为例,假设一共有n(n为大于或等于1的正整数)个对象,则该特征有n个特征值,假设这n个特征值分别为(10,5,6,8,9,…),根据以下方差的计算公式:

计算这个特征的n个特征值的方差,h是这n个特征值的均值。

在步骤s420中,若所述特征的方差小于方差阈值,则过滤方差小于所述方差阈值的特征。

方差阈值的取值可以根据实际需求进行设置。例如,方差阈值可以设置为1。参照上述类似的方法,可以计算出特征集合中所有特征的方差。若某个特征的方差小于1,则把这个特征从特征集合中剔除,即方差小于方差阈值的特征被过滤。

图5示出了图3中所示的步骤s320在一实施例中的处理过程示意图。需要说明的是,若本公开实施例中,在步骤s320之前还包括上述图4实施例中的步骤,则图5中处理的特征是指经过上述方差阈值过滤后剩余的其他特征。

如图5所示,本公开实施例中,上述步骤s320可以进一步包括以下步骤。

在步骤s321中,根据所述对象的特征信息,获得特征与特征之间的相关性。

例如,可以利用皮尔逊相关系数计算任意两个特征x与特征y之间的相关性p(x,y),计算公式如下:

其中,上述公式中,xj表示特征x的第j个特征值,yj表示特征y的第j个特征值,这里假设特征x和特征y均是n维向量,即每个特征均有n个特征值,n为大于或等于1的正整数,表示特征x的均值,表示特征y的均值。

需要说明的是,本公开实施例并不限于采用上述公式(2)计算两个特征之间的相关性。

在步骤s322中,基于特征与特征之间的相关性,获得所述特征的平均相关性。

例如,可以采用以下公式计算任意一个特征x的平均相关性rel(x):

其中,上述公式中,假设特征集合中一共有q个特征,q为大于或等于1的正整数,fq表示特征集合中的第q个特征。

在步骤s323中,根据所述特征的平均相关性确定所述特征的相关度。

本公开实施例中,可以将任意一个特征x的相关度定义为特征x与整个特征集合中的全部特征之间的平均相关性,即特征x的相关度等于rel(x)。但本公开并不限定于此,例如,特征x的相关度还可以是特征x的平均相关性的开方,即再例如,特征x的相关度还可以是特征x的平均相关性的平方,即rel(x)2等等。

图6示出了图3中所示的步骤s330在一实施例中的处理过程示意图。

如图6所示,本公开实施例中,上述步骤s330可以进一步包括以下步骤。

在步骤s331中,根据所述特征的相关度,对所述特征进行降序排列,获得有序特征序列。

将特征集合中的每个特征,按照其对应的rel(x)从大到小进行降序排列,输出一个有序特征序列。

需要说明的是,这里是根据特征的相关度进行降序排列进行举例说明,但在其他的实施例中,也可以根据特征的相关度进行升序排列,只是在下面的步骤中选取特征用于聚类时,可以选取后m1个特征或者后m2个特征。

在步骤s332中,从所述有序特征序列中选取前m1个特征,m1为大于或等于1的正整数。

本公开实施例中,可以从全部对象中随机选取预定比例的对象作为训练样本,预定比例例如可以取值为1:3,但本公开并不限定于此,预定比例的取值可以根据实际场景进行调整,甚至也可以直接将全部对象作为训练样本。

然后,先从有序特征序列中选取排序后的前m1个特征,例如m1取值假设为10,但本公开并不限定于此,可以根据实际需要进行自主设定。

在步骤s333中,基于所述前m1个特征对所述对象进行聚类处理。

例如,可以基于前10个特征对选取出的训练样本进行k-均值聚类(k-meansclustering),以二分类的分类模型为例,k的取值可以为2。若为三分类的分类模型,k的取值可以为3,其他以此类推。需要说明的是,本公开对具体的聚类算法并不限于k-均值聚类。

k-均值聚类是一种迭代求解的聚类分析算法,其步骤是随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个训练样本,聚类的聚类中心会根据聚类中已有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小等等。

在步骤s334中,若基于所述前m1个特征对所述对象进行聚类处理后,占比少的对象数量与占比多的对象数量的比值为1:n,则将基于所述前m1个特征对所述对象进行聚类处理后的结果作为所述聚类结果。

例如,还是以二分类的分类模型为例,若基于前10个特征对训练样本进行聚类处理后,可以获得两个聚类,其中一个聚类中的对象数量较少,则该对象数量较少的聚类中的对象称之为少数类样本,另一个聚类中的对象数量较多,则该对象数量较多的聚类中的对象称之为多数类样本,且满足少数类样本数量与多数类样本数量之间的比值为1:n,n为上述数据不均衡倍率,此时可以停止继续选取更多的特征进行聚类,直接将基于前10个特征的两个聚类作为聚类结果,例如将少数类样本打上“0”的类别标签,将多数类样本打上“1”的类别标签,但本公开并不限定于此。

图7示出了图3中所示的步骤s330在另一实施例中的处理过程示意图。

如图7所示,本公开实施例中,上述步骤s330可以进一步包括以下步骤。

在步骤s335中,若基于所述前m1个特征对所述对象进行聚类处理后,占比少的对象数量与占比多的对象数量的比值不为1:n,则从所述有序特征序列中选取前m2个特征,m2为大于m1的正整数。

例如,若基于有序特征序列中的前10个特征对训练样本进行2-均值聚类处理后,少数类样本与多数类样本的比值不等于1:n,则此时可以采取步进的策略,每次按顺序增加有序特征序列中的一个新特征,重新对训练样本进行聚类处理,如m2=11,即选取有序特征序列中的前11个特征。

当然,这里每次递增的特征数量不限于一个,也可以是两个、三个或者更多个。同时,每次增加的特征数量可以相等,也可以不等,例如第一次选取前10个特征,第二次选取前13个特征,第三次选取前18个特征,等等。

在步骤s336中,基于所述前m2个特征对所述对象进行聚类处理。

例如,基于前11个特征对训练样本重新进行2-均值聚类处理,获得新的两个聚类。其中新的两个聚类中的一个聚类中的对象数量较少,则该对象数量较少的聚类中的对象称之为少数类样本,另一个聚类中的对象数量较多,则该对象数量较多的聚类中的对象称之为多数类样本。

在步骤s337中,若基于所述前m2个特征对所述对象进行聚类处理后,占比少的对象数量与占比多的对象数量的比值为1:n,则将基于所述前m2个特征对所述对象进行聚类处理后的结果作为所述聚类结果。

例如,若基于前11个特征对训练样本进行重新聚类后,获得的两个新的聚类满足少数类样本数量与多数类样本数量的比值等于1:n,则将该新的两个聚类作为聚类结果,对该新的两个聚类中的少数类样本打上“0”的类别标签,将多数类样本打上“1”的类别标签,但本公开并不限定于此。若基于前11个特征对训练样本进行重选聚类后,获得的两个新的聚类满足少数类样本数量与多数类样本数量的比值不满足1:n,则可以继续从有序特征序列中选取前12个特征对训练样本进行重新聚类,以此进行迭代处理,直至某一次聚类处理后的两个聚类满足少数类样本数量与多数类样本数量的比值等于1:n,停止迭代,至此可以完成训练样本中的各个对象的类别标签的自动识别。

本公开实施例提供的数据处理方法,设计了一套基于统计分析量化各特征的差异,从而自动化构建高质量的用于自动化确定训练样本的类别标签的方法,解决了相关技术中需要大量人工标注训练样本的问题,能够实现各种业务场景下训练样本的类别标签的自动化标注,在工业上具备良好的可操作性。

图8示出了图3中所示的步骤s350在一实施例中的处理过程示意图。本公开实施例中,由于训练样本集中的少数类样本在整体训练样本中占比较少,这里采用smote(syntheticminorityoversamplingtechnique,合成少数类过采样技术)进行少数类样本的扩散,以解决训练数据集中的类别不均衡问题。

如图8所示,本公开实施例中,上述步骤s350可以进一步包括以下步骤。

在步骤s351中,从所述少数类样本中确定目标少数类样本。

假设训练数据集中一共有d个少数类样本,d*n个多数类样本,d为大于或等于1的正整数。并假设d个少数类样本中的第i1个少数类样本xi1作为目标少数类样本,i1为大于或等于1且小于或等于d的正整数。

在步骤s352中,获得所述目标少数类样本的近邻样本。

对于第i1个少数类样本xi1,例如以欧氏距离为标准计算它到训练数据集中所有训练样本(包括少数类样本和多数类样本)的距离,选取距离第i1个少数类样本xi1最近的k1个样本作为第i1个少数类样本xi1的k1个近邻样本(可能全部是少数类样本,可能全部是多数类样本,可能部分是少数类样本,另一部分是多数类样本),k1为大于或等于1的正整数,k1的取值可以根据实际场景进行选取。

在步骤s353中,根据所述近邻样本与所述目标少数类样本之间的距离,获得所述近邻样本的距离权重。

将样本a的k1个近邻样本与第i1个少数类样本xi1的距离由近到远进行升序排序,假设由近到远,k1个近邻样本与第i1个少数类样本xi1之间的距离分别为j1,j2,…,jk1,即j1<j2<...<jk1,基于扩散少数类样本靠近少数类边界,距离越近被合成概率越大的原则,假设第j1个近邻样本xij(near)的距离权重为dj1,j1为大于或等于1且小于或等于k1的正整数,则确定第i1个少数类样本xi1的k1个近邻样本的距离权重满足d1>d2>...>dk1,因此,这里可以设置每个近邻样本的距离与距离权重成反比,例如第j个近邻样本xij(near)的距离权重为:dj1=1/jj1,其中jj1为第j1个近邻样本与第i1个少数类样本xi1之间的距离。

在步骤s354中,根据所述近邻样本的样本类别,获得所述近邻样本的类别权重。

对第i1个少数类样本xi1的k1个近邻样本,若第j1个近邻样本xij(near)的类别标签为多数类样本,即与第i1个少数类样本xi1的类别标签不同,则该近邻样本xij(near)的类别权重可以为一个预置常数sj1,例如sj1=1;若第j1个近邻样本xij(near)的类别标签为少数类样本,即与第i1个少数类样本xi1的类别标签相同,则该近邻样本xij(near)的类别权重可以为一个预置常数sj1与另一个大于0的常数δ之和,例如sj1′=sj1+δ,若sj1=1,则sj1′=1+δ。

在步骤s355中,根据所述近邻样本的距离权重和类别权重,获得所述近邻样本的组合权重。

综合第j1个近邻样本xij(near)的距离权重dj1和类别权重sj1或sj1′得到第i1个少数类样本xi1的第j1个近邻样本xij(near)的组合权重wij(near)。在一些实施例中,可以是距离权重和类别权重之和为组合权重。在另一些实施例中,可以是距离权重和类别权重的乘积为组合权重,例如与第i1个少数类样本xi1对应的第j1个近邻样本xij(near)的组合权重为:wij(near)=dj1×sj1。

在步骤s356中,根据所述数据不均衡倍率n和所述近邻样本的组合权重,确定所述目标少数类样本与所述近邻样本之间的合成少数类样本数量。

本公开实施例中,若为了使得更新后的训练数据集(即在原始的训练数据集中加入合成少数类样本之后的训练数据集),少数类样本与多数类样本的数量为1:1,则可以根据数据不平衡倍率n,确定原始的训练数据集中的第i1个少数类样本xi1需要在k1个近邻样本的范围内共插值(n-1)个合成少数类样本点,具体的,可以根据每个近邻样本的组合权重分别插值,例如第i1个少数类样本xi1对应第j1个近邻样本xij(near)的组合权重,需要插值的合成少数类样本数量nj1为:

参照上述方法,对每个少数类样本进行类似的扩散,获得每个少数类样本与其对应的近邻样本之间需要插值的合成少数类样本数量。需要说明的是,本公开并不限定更新后的训练数据集中的少数类样本与多数类样本的数量之比为1:1,可以根据实际情况进行调整,此时可以相应的调整每个少数类样本的k1个近邻样本的范围内插值的合成少数类样本的数量。

图9示出了图3中所示的步骤s350在另一实施例中的处理过程示意图。

如图9所示,本公开实施例中,上述步骤s350可以进一步包括以下步骤。

在步骤s357中,若所述近邻样本为少数类样本,则在所述近邻样本和所述目标少数类样本之间插入所述合成少数类样本。

本公开实施例中,在上述图8的实施例中,确定每个少数类样本的k1近邻样本需要插值的合成少数类样本数量后,接下来确定合成少数类样本的插值位置的范围,假设在原始的第i1个少数类样本xi1和其第j1个近邻样本xij(near)之间插值,若xij(near)的类别标签为少数类样本,则新插值的合成少数类样本xi2在两个同类别点范围之间,即xi2=xi1+ε1*(xij(near)-xi1),其中,ε1∈(0,1),即可以在第i1个少数类样本xi1和其第j1个近邻样本xij(near)的连线之间的任意一个位置插入合成少数类样本xi2。

在步骤s358中,若所述近邻样本为多数类样本,则在所述近邻样本和所述目标少数类样本之间并靠近所述目标少数类样本的位置插入所述合成少数类样本。

若xij(near)的类别标签为多数类样本,则新插值的合成少数类样本xi2趋近原始的第i1个少数类样本xi1,在两个不同类别点范围之间,即xi2=xi1+ε2*(xij(near)-xi1),其中,ε2∈(0,0.5),即可以在第i1个少数类样本xi1和其第j1个近邻样本xij(near)的连线之间且靠近第i1个少数类样本xi1的任意一个位置插入合成少数类样本xi2。

相关技术中的smote方法,是用选取的目标少数类样本与其他的距离该目标少数类样本最近的少数类样本结合产生合成少数类样本。

由于每个少数类样本有k1个近邻样本,为使数据达到类均衡、插值的样本不重叠并扩大少数类边界,需要对d*k1个近邻样本进行有机筛选。具体地,根据数据不均衡倍率n,确定少数类样本需要在k1个近邻样本的范围内共插值(n-1)个样本,然后根据每个近邻样本的组合权重,求取对应组合权重的合成少数类样本数量。在确定少数类样本对应的各个近邻样本需要插值样本的合成少数类样本数量后,确定插值的合成少数类样本的位置范围。进一步地,插值的合成少数类样本可以是两个同为少数类的样本之间,对应的近邻样本的类别标签为少数类样本,ε1的取值为0至1。插值的合成少数类样本还可以是少数类与多数类的样本之间,因为近邻样本的类别标签可能为多数类或少数类,若为多数类,则ε2的取值为0至0.5,从而使合成的样本为两个少数类样本之间的任一位置,和/或合成的样本为少数类样本与多数类样本之间,且趋近于少数类样本的某一位置,进而使插值的合成少数类样本趋近于对应的目标少数类样本,从而扩大少数类边界。也就是说,通过改进原始不均衡的训练数据集,实现少数类样本和多数类样本之间如何合理插值得到新样本,从而平衡训练数据集,并得到更为可靠、稳定、精确度高的分类模型。

本公开实施例提供的数据处理方法,综合考虑少数类样本的分布特性以及其近邻样本的分布特征,根据不同区域的样本有不同程度影响的分布特点,对近邻样本设置自适应的合成策略,从而有效提高分类模型的分类效果。利用改进后的smote解决训练数据集中少数类样本数量太少的问题,可以确保少数类样本的信息不被覆盖,较大地提高了基于更新后的训练数据集训练的分类模型的分类准确率。

图10示意性示出了根据本公开的又一实施例的数据处理方法的流程图。

如图10所示,与上述实施例相比,本公开实施例所提供的方法的不同之处在于,在上述步骤350之前,所述方法还可以进一步包括以下步骤中的至少一项。

在步骤s1010中,若所述特征中的缺失值数量大于缺失阈值,则过滤缺失值数量大于所述缺失阈值的特征。

在实际应用中,会因为某些原因(例如,信息暂时无法获取;信息被遗漏;某个或某些属性不可用;某些信息被认为是不重要的;获取这些信息的代价太高;系统实时性要求较高,在要求得到这些信息前需要迅速做出判断或决策等)导致部分数据缺失,只能观测到一部分数据,这部分缺失的数据称之为缺失值。例如,可以设定缺失阈值等于训练数据集中的样本数据量×0.4(本公开并不限定于此),若某个特征的特征值缺失的数量超过该缺失阈值,则可以过滤掉这个特征,反之,若某个特征的特征值缺失的数量未超过该缺失阈值,则可以保留这个特征在特征集合中。

在步骤s1020中,若所述特征为单值特征,则过滤所述单值特征。

本公开实施例中,单值特征是指某个特征的全部特征值均相同,例如性别这个特征,一共采集了10000个用户,均为男性,则将这个特征从特征集合中剔除。

在步骤s1030中,舍弃所述特征中的异常值。

异常值是指根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果的特征值。本公开实施例中,可以划定特征的特征值的取值范围,若某个特征值超过这个取值范围,则认为这个特征值是异常值,将这个异常的特征值舍弃;也可以根据特征分布,舍弃特征数值太大的异常值,例如将特征的全部特征值按照从大到小进行降序排列,舍弃排的前面的千分之一(这个数值可以根据实际情况进行选择,例如万分之一,百万分之一等)的异常值。

在步骤s1040中,对缺失值数量小于或等于所述缺失阈值的特征中的缺失值进行填充处理。

对特征集合中剩余的特征的缺失值进行填充处理,例如,若某特征为连续型特征,则可以用该特征中的全部没缺失的特征值的均值来填充该特征的缺失值。连续型特征是指特征的特征值的可能取值是无限的。若某特征为离散型特征,则可以用一个预设常数来填充该特征的缺失值。离散型特征是指特征的特征值从有限个中选择。该预设常数可以是该有限个之外的一个常数c,利用该有限个之外的常数c来填充离散型特征的缺失值,可以告知计算机系统,这是一个特殊类别。但本公开并不限于用均值或者预设常数来填充缺失值,例如,还可以用众数来填充缺失值,其中众数是指特征的特征值中出现次数最多的那个特征值。

在步骤s1050中,对所述特征进行衍生处理。

特征衍生是指通过对原始的特征进行变换处理,如特征平方、特征加减、特征开方、特征开3次根等,衍生出新的特征。

在步骤s1060中,若所述特征为连续型特征,则对所述连续型特征进行离散化处理。

例如,可以对连续型特征进行分箱离散化,分箱的方式可以是等频分箱、等距分箱、卡方分箱等中的任意一种。

在步骤s1070中,若所述特征离散型特征,则对所述离散型特征进行独热(one-hot)编码处理。

在步骤s1080中,利用卡方检验对所述特征进行选择,选取预设维度的特征。

本公开实施例中,可以利用卡方检验进行特征选择,选择与分类模型进行分类识别相关度比较大的前预设维度特征,例如这里选择了前200个特征,作为最终的特征集合。

需要说明的是,上述步骤s1010-s1080之间的顺序并不限于上述举例,步骤s1010-s1080可以任意的调整执行先后顺序,例如先对异常值进行舍弃,再进行缺失值的处理;例如先对连续型特征进行离散化处理,再进行单值特征的过滤等等。

在一些实施例中,上述步骤s1010-s1080可以在步骤s340和步骤s350之间执行,即通过聚类获取一批训练样本后,对训练样本的特征进行数据预处理和特征选择,然后再基于数据预处理和特征选择后的预设维度的特征进行少数类样本的扩散,获得合成类少数类样本,这样在获取训练样本的过程中,是基于原始的训练数据集中的特征进行相关度的计算,可以更加好地反应出数据本身的特点,避免数据预处理过程中引入的数据噪音,例如特征衍生会引入一些变换后的特征。

在另一些实施例中,上述步骤s1010-s1080也可以在步骤s310和步骤s320之间执行,即先对获取的特征信息进行数据预处理和特征选择,然后,基于数据预处理和特征选择后的预设维度的特征进行方差的计算、相关度的计算,先进行数据预处理和特征选择,可以降低后续获取训练样本的计算量,提高运算速度。

本公开实施例设计了一套较完善的针对训练数据集的数据特点的特征预处理和特征选择方法,提高了特征对模型的贡献程度,在保证分类准确率的前提下,降低了分类模型训练过程的数据量,提高了模型训练的速度和效率。

下面以分类模型为随机森林模型、且待识别对象为待识别用户,分类模型用于识别金融kol(keyopinionleader,关键意见领袖)用户和非金融kol用户为例进行举例说明。

其中,kol是营销学上的概念,通常被定义为:拥有更多、更准确的产品信息,且为相关群体所接受或信任,并对该群体的购买行为有较大影响力的人。与“意见领袖”不同的是,关键意见领袖通常是某行业或领域内的权威人士,在信息传播中,他们不依赖其自身活跃度,也容易被承认和识别出来。第一是持久介入特征:kol对某类产品较之群体中的其他人有着更为长期和深入的介入,因此对产品更了解,有更广的信息来源、更多的知识和更丰富的经验。第二是人际沟通特征:kol较常人更合群和健谈,他们具有极强的社交能力和人际沟通技巧,且积极参加各类活动,善于交朋结友,喜欢高谈阔论,是群体的舆论中心和信息发布中心,对他人有强大的感染力。第三是性格特征:kol观念开放,接受新事物快,关心时尚、流行趋势的变化,愿意优先使用新产品,是营销学上新产品的早期使用者。

金融kol指在金融领域上尤其是理财投资、交易行为方面,具有更高价值的用户。

金融kol的识别和挖掘对金融领域相关应用具有非常重要的意义,通过挖掘金融领域的高潜力和传播力较强的用户,能够指导金融产品和相关业务的运营和投放,更有针对性的对目标用户群体进行推广,达到事半功倍的效果。例如,在理财投资和融资贷款领域,挖掘产品的目标客户对增强客户群体之间的传播效应、提高产品的pv(pageview,页面访问量)、uv(uniquevisitor,访问用户数)有显著作用,该部分用户的挖掘对于理财产品的推广运营和销售具有更大的意义;在金融资讯和论坛,对金融kol的发掘和引导,可以有效地带动行情趋势和舆论方向。因此,准确有效地识别挖掘金融kol用户群体,对投资理财和金融事件都起着至关重要的作用。

由此可知,金融kol用户群体的挖掘,在金融应用如金融产品运营方面具有非常高的价值。相关技术中,挖掘识别金融kol用户的方法主要是:基于用户关系网络扩展目标用户群体和基于一般分类模型生成目标挖掘模型得到分类概率两种。

其中,基于用户关系网络的方法,首先通过获取目标用户群体的画像特征,通过画像特征构建种子用户面向其他用户的关系网络,并且计算其他用户与种子用户的关系程度信息,根据关系程度信息提取条件匹配的其他用户作为目标用户。

基于一般分类模型的方法,则通过多个维度特征获取所有用户的历史数据,然后进行训练建立用于进行用户预测的多个挖掘模型,并基于多个挖掘模型确定目标挖掘模型,通过目标挖掘模型从所有用户中确定目标用户。

上述相关技术中用于kol挖掘的方法,至少存在以下问题:

1、构建机器学习模型的训练样本的类别标签大部分依赖人工,或者较简单粗暴的通过设定阈值和规则来划分,没有很好地量化用于kol用户识别的各个特征的差异和价值,也没有很好地实现训练样本的类别标签自动化识别。

2、关系网络构建的方法,在对用户关系链进行建模过程中,需要面临非常庞大的网络节点和复杂的节点关系,搭建和训练网络过程非常耗时。

3、对于kol用户识别这个任务,kol用户群体的数量通常远小于非kol用户,而相关技术中的kol分类方法没有很好地解决这个问题,同时特征处理上没有很好地解决异常值和缺失值的问题。

图11示意性示出了根据本公开的再一实施例的数据处理方法的流程图。

如图11所示,与上述实施例相比,本公开实施例所提供的方法的不同之处在于,所述方法还可以进一步包括以下步骤。

在步骤s1110中,获取待识别对象的特征信息。

例如,待识别用户的特征信息可以包括与识别是否金融kol用户相关的任何信息,如理财信息、社交信息等。

在步骤s1120中,通过所述分类模型对所述待识别对象的特征信息进行处理,获得所述待识别对象的识别结果,所述识别结果为金融关键意见领袖或者非金融关键意见领袖。

例如,将待识别用户的特征信息输入至上述训练好的分类模型中,该分类模型自动输出该待识别用户是否为金融kol的识别结果。

图12示意性示出了根据本公开的再一实施例的数据处理方法的流程图。本公开实施例提供了一种结合改进的smote和rf模型的金融kol用户挖掘方案。

如图12所示,本公开实施例提供的数据处理方法可以包括以下步骤。

在步骤s1210中,获取用户的社交、理财信息,构建用户的特征。

例如,采集用户在社交产品、理财产品上的历史数据,包括但不限于最近m(m为大于或等于1的正整数)天内红包、转账、支付的收发人数、收发笔数、收发金额,社交评论发表条数、发送接收信息比、关注人数、互动次数、受邀回答问题次数等。根据这些采集的历史数据,构建用户的特征。例如,假设m取值分别为7天(一周)、15天(半个月)、30天(一个月)、90天(三个月)、180天(半年)、365天(一年),则构建的初始的特征集合可以包括以下特征:特征1为最近7天内红包的收发人数,特征2为最近7天内红包的收发笔数,特征3为最近7天内红包的收发金额,特征4为最近7天内转账的收发人数,特征5为最近7天内转账的笔数,特征6为最近7天内转账的金额,特征7为最近7天内支付的收发人数,特征8为最近7天内支付的笔数,特征9为最近7天内支付的金额,特征10为最近7天内的社交评论发表条数,特征11为最近7天内的发送接收信息比,特征12为最近7天内的关注人数(即这个用户被多少人关注),特征13为最近7天内的互动次数,特征14为最近7天内的受邀回答问题次数;特征15为最近15天内红包的收发人数,特征16为最近15天内红包的收发笔数,特征17为最近15天内红包的收发金额,特征18为最近15天内转账的收发人数,特征19为最近15天内转账的笔数,特征20为最近15天内转账的金额,特征21为最近15天内支付的收发人数,特征22为最近15天内支付的笔数,特征23为最近15天内支付的金额,特征24为最近15天内的社交评论发表条数,特征25为最近15天内的发送接收信息比,特征26为最近15天内的关注人数(即这个用户被多少人关注),特征27为最近15天内的互动次数,特征28为最近15天内的受邀回答问题次数;等等,即预先构建了大量的特征,若一共采集了p个用户的各个特征的特征值,则这p个用户的各个特征形成一个初始的特征集合。

在步骤s1220中,量化各个特征之间的差异,对特征进行排序打分,获取一批训练样本。

本公开实施例中,基于统计分析量化特征差异,对分析得到的重要特征进行打分排序以召回(通过数据过滤)一批训练样本,用于形成原始的训练数据集,自动识别训练数据集中各个训练样本的类别标签。

取服从长尾分布(是重尾分布的一个子类型,又称为齐普夫定律)的特征集合,基于统计分析方法量化各个特征之间的差异,基于最大区分度原则,提取重要特征,并基于最大相关度原则,根据提取的重要特征的重要性程度进行综合排序打分,输出一个有序特征序列,具体步骤可以包括:

1、计算特征集合中所有特征的方差。方差越大的特征越有用,假设设定方差阈值为1,方差小于该1的特征被过滤。

2、利用上述公式(2)计算特征之间的相关性。并利用上述公式(3)计算特征的相关度。

选取预定比例的样本(用户)作为训练样本,如1:3,然后先从有序特征序列中选取排序后的前m1个特征,m1可设为10,对训练样本在这些特征维度上进行k-means聚类,k选取为2,采用步进的策略每次按顺序增加有序特征序列中的一个新特征,重新进行聚类,直到类别小的一类占整体样本数的比例为金融kol在全部用户中的预设占比,例如可设为1/100,即数据不均衡倍率n=100。至此迭代完成,将该小的类别作为金融kol的类别标签。

在步骤s1230中,对数据进行预处理和进行特征选择。

数据预处理和特征选择的具体过程可以参照上述步骤s1010-s1080。

在步骤s1240中,利用smote进行金融kol用户扩散,更新训练数据集。

由于金融kol用户群体在整体用户群体中占比较少,本公开实施例利用改进的smote进行金融kol用户扩散,来解决类别不均衡的问题。具体实现过程可以参照上述图8和图9实施例。将新插入的合成少数类样本添加到原始的训练数据集中,即增加了少数类样本,使得更新后的训练数据集中的少数类样本与多数类样本一样多。

在步骤s1250中,利用更新后的训练数据集,训练rf模型。

预先构建rf模型的损失函数,将训练数据集中的训练样本的特征信息输入至rf模型,rf模型输出该训练样本的预测类别,根据训练样本的类别标签(例如为金融kol用户,则类别标签为0,不为金融kol用户,则类别标签为1)和预测类别,计算损失函数,优化模型参数以使损失函数的值最小化,迭代执行直至满足停止条件,如达到预定的迭代次数,或者损失函数的大小满足预设值。

在步骤s1260中,获取待识别用户的社交、理财信息,获得待识别用户的特征。

获取当前待识别用户的社交、理财信息,据此构建待识别用户的特征。

在步骤s1270中,将待识别用户的特征输入至rf模型,输出待识别用户是否为金融kol用户的识别结果。

经过步骤s1240扩散了金融kol用户后,训练rf模型,然后将待识别用户的特征输入至训练好的rf模型,会自动输出该待识别用户是否为金融kol用户的识别结果。

本公开实施方式提供的数据处理方法,公开了一种结合改进的smote和rf模型进行金融kol用户挖掘的方案,涉及金融高端用户挖掘。一方面,基于用户信息通过统计分析量化各特征的差异,从而自动化识别训练样本的类别标签,解决了以往方法需要大量人工标注训练样本的问题,减少了人工标注,能够实现业务场景下金融kol用户的自动化识别,在工业上具备良好的可操作性。另一方面,设计了一套较完善的针对金融kol数据特点的预处理和特征选择的方法,在异常值、缺失值等特征处理环节上更为完善,提高了特征对模型的贡献程度。此外,针对金融领域用户特征和kol挖掘的特点,还利用改进的smote进行kol用户人群的扩散,解决金融kol用户群体与普通用户群体数量差异较大,从而导致传统分类方法对kol识别少数类样本的特征不够明显的问题,然后结合rf模型建模输出待识别用户是否为金融kol用户的分类结果。

本公开实施方式提供的数据处理方法,可以广泛应用于金融相关的关键意见领袖挖掘领域,例如在选股的新闻资讯场景中,通过挖掘金融事件的意见领袖能够更好地了解行业观点和市场行情,从而有效地分析未来趋势和走向,甚至做一些引导和监督;在理财产品的运营投放场景中,通过挖掘对产品具有传播力和影响力的目标用户人群,能够更好地精准投放以及进行用户人群的扩散,提高产品的活跃量,刺激增长。对于金融kol的识别和挖掘,都属于本公开的应用场景。对比相关技术中的金融kol用户挖掘方法,本公开实施例首次提出了在金融kol识别过程中,利用改进的smote扩散金融kol样本人群,设计了一套基于统计分析无监督构造kol类别标签后泛化的系统,有较高的参考价值和实践意义。整体上本公开实施例提供的方法,在金融kol识别上具备良好的可操作性、创新性和流程完备性,具有较高的工业应用价值和指导意义。

图13示意性示出了根据本公开的一实施例的数据处理装置的框图。

如图13所示,本公开实施方式提供的数据处理装置1300可以包括:特征信息获取单元1310、特征相关度获得单元1320、聚类结果获得单元1330、样本类别确定单元1340、少数类样本合成单元1350以及分类模型训练单元1360。

其中,特征信息获取单元1310可以用于获取对象的特征信息。特征相关度获得单元1320可以用于根据所述对象的特征信息,获得特征的相关度。聚类结果获得单元1330可以用于根据所述特征的相关度对所述对象进行聚类处理,获得聚类结果。样本类别确定单元1340可以用于将所述聚类结果中占比少的对象作为少数类样本,将所述聚类结果中占比多的对象作为多数类样本,少数类样本数量与多数类样本数量的比值为1:n,n为数据不均衡倍率且为大于1的正整数。少数类样本合成单元1350可以用于基于所述少数类样本和所述多数类样本,对所述少数类样本进行扩散,获得合成少数类样本。分类模型训练单元1360可以用于根据所述少数类样本、所述多数类样本和所述合成少数类样本对分类模型进行训练。

在示例性实施例中,在特征相关度获得单元1320之前,数据处理装置1300还可以包括:特征方差获得单元,可以用于根据所述对象的特征信息,获得所述特征的方差;方差特征过滤单元,可以用于若所述特征的方差小于方差阈值,则过滤方差小于所述方差阈值的特征。

在示例性实施例中,特征相关度获得单元1320可以包括:特征相关性获得单元,可以用于根据所述对象的特征信息,获得特征与特征之间的相关性;平均相关性获得单元,可以用于基于特征与特征之间的相关性,获得所述特征的平均相关性;相关度确定单元,可以用于根据所述特征的平均相关性确定所述特征的相关度。

在示例性实施例中,聚类结果获得单元1330可以包括:特征排序单元,可以用于根据所述特征的相关度,对所述特征进行降序排列,获得有序特征序列;第一特征选取单元,可以用于从所述有序特征序列中选取前m1个特征,m1为大于或等于1的正整数;第一聚类单元,可以用于基于所述前m1个特征对所述对象进行聚类处理;第一结果获得单元,可以用于若基于所述前m1个特征对所述对象进行聚类处理后,占比少的对象数量与占比多的对象数量的比值为1:n,则将基于所述前m1个特征对所述对象进行聚类处理后的结果作为所述聚类结果。

在示例性实施例中,聚类结果获得单元1330还可以包括:第二特征选取单元,可以用于若基于所述前m1个特征对所述对象进行聚类处理后,占比少的对象数量与占比多的对象数量的比值不为1:n,则从所述有序特征序列中选取前m2个特征,m2为大于m1的正整数;第二聚类单元,可以用于基于所述前m2个特征对所述对象进行聚类处理;第二结果获得单元,可以用于若基于所述前m2个特征对所述对象进行聚类处理后,占比少的对象数量与占比多的对象数量的比值为1:n,则将基于所述前m2个特征对所述对象进行聚类处理后的结果作为所述聚类结果。

在示例性实施例中,少数类样本合成单元1350可以包括:目标样本确定单元,可以用于从所述少数类样本中确定目标少数类样本;近邻样本获得单元,可以用于获得所述目标少数类样本的近邻样本;距离权重获得单元,可以用于根据所述近邻样本与所述目标少数类样本之间的距离,获得所述近邻样本的距离权重;类别权重获得单元,可以用于根据所述近邻样本的样本类别,获得所述近邻样本的类别权重;组合权重获得单元,可以用于根据所述近邻样本的距离权重和类别权重,获得所述近邻样本的组合权重;样本合成数量单元,可以用于根据所述数据不均衡倍率n和所述近邻样本的组合权重,确定所述目标少数类样本与所述近邻样本之间的合成少数类样本数量。

在示例性实施例中,少数类样本合成单元1350还可以包括:第一样本插入单元,可以用于若所述近邻样本为少数类样本,则在所述近邻样本和所述目标少数类样本之间插入所述合成少数类样本;第二样本插入单元,可以用于若所述近邻样本为多数类样本,则在所述近邻样本和所述目标少数类样本之间并靠近所述目标少数类样本的位置插入所述合成少数类样本。

在示例性实施例中,在少数类样本合成单元1350之前,数据处理装置1300还可以包括以下中的至少一项:缺失特征过滤单元、单值特征过滤单元、异常值处理单元、缺失值填充单元、特征衍生单元、特征离散化处理单元、特征编码单元、特征选择单元。

缺失特征过滤单元可以用于若所述特征中的缺失值数量大于缺失阈值,则过滤缺失值数量大于所述缺失阈值的特征。单值特征过滤单元可以用于若所述特征为单值特征,则过滤所述单值特征。异常值处理单元可以用于舍弃所述特征中的异常值。缺失值填充单元可以用于对缺失值数量小于或等于所述缺失阈值的特征中的缺失值进行填充处理。特征衍生单元可以用于对所述特征进行衍生处理。特征离散化处理单元可以用于若所述特征为连续型特征,则对所述连续型特征进行离散化处理。特征编码单元可以用于若所述特征离散型特征,则对所述离散型特征进行独热编码处理。特征选择单元可以用于利用卡方检验对所述特征进行选择,选取预设维度的特征。

在示例性实施例中,所述分类模型可以为随机森林模型。其中,数据处理装置1300还可以包括:待识别对象信息获取单元,可以用于获取待识别对象的特征信息;识别结果获得单元,可以用于通过所述分类模型对所述待识别对象的特征信息进行处理,获得所述待识别对象的识别结果,所述识别结果为金融关键意见领袖或者非金融关键意见领袖。

本公开实施例提供的数据处理装置中的各个单元的具体实现可以参照上述数据处理方法中的内容,在此不再赘述。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1