数据处理方法及其设备与流程

文档序号:11620608阅读:147来源:国知局
本申请涉及计算机软件
技术领域
:,特别涉及一种数据处理方法及其设备。
背景技术
::目前,随着互联网的快速发展,各种形式的在线交易不断涌现。为了安全、预测等各种目的,可通过历史交易数据和预定训练模型对交易数据进行处理,基于处理结果对相应算法进行验证。例如,可通过交易数据的异常告警算法对交易数据进行实时监控并基于监控结果生成告警数据,随后,根据商家反馈或数据跟踪,对相应告警数据进行打标签(简称“打标”),若告警正确,则打标为“+”,若告警错误,则打标为“—”,然后对交易数据进行打标。由此可以看出,现有方法中并未对打标后的数据进行利用和管理。技术实现要素:本发明的主要目的在于提供一种,旨在解决以上提到的问题。本申请实施例提供一种数据处理方法,所述方法包括:从源数据集中提取与算法对应的训练数据集;通过所述算法对训练数据集进行处理,生成结果数据集;根据反馈信息对结果数据集打标签,生成打标数据集;将打标数据集按照源数据集的存储方式存储为验证数据集。本申请另一实施例提供一种数据处理设备,所述设备包括:提取模块,从源数据集中提取与算法对应的训练数据集;第一生成模块,通过所述算法对训练数据集进行处理,生成结果数据集;第二生成模块,根据反馈信息对结果数据集打标签,生成打标数据集;存储模块,将打标数据集按照源数据集的存储方式存储为验证数据集。本申请实施例采用的上述至少一个技术方案通过利用反馈信息对结果数据集进行打标签并将打标数据集作为验证数据集对算法进行迭代训练,从而能够对算法进行优化,提高算法的性能。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出根据本发明的示例性实施例的数据处理方法的流程图;图2示出根据本发明的另一示例性实施例的数据处理方法的流程图;图3示出在监控平台下利用根据本发明的数据处理方法的监控系统的框架图;图4示出根据本发明的示例性实施例的数据处理设备的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面将参照图1详细说明根据本发明的算法评价方法。如图1所示,在步骤s110,从源数据集中提取与算法对应的训练数据集。应注意,所述源数据集是指按照预定存储格式存储在同一路径下的数据集。所述源数据集可能被存储在同一存储器中,也可根据需求以分布式地方式存储在多个存储器中。此外,源数据集包括从多种数据库中获取的数据集。在从多种数据库中获取数据集之后,将数据集按照预定存储格式存储,所述预定存储格式包括将数据集与所述源数据集所在仓库的名称(即,根据算法需要创建的数据仓库的名称)和数据表名称(与所述数据集对应)对应地存储,并且可通过由数据仓库名称和数据表名称构成数据集的url直接获取数据表并利用该url快速查询数据集。以上所述的多种数据库可包括mysql数据库、hbase数据库和odps数据库,其中,mysql数据源是开放源代码的关系型数据库,hbase数据库是非结构化数据的分布式存储系统,odps数据库是开放数据处理服务(opendataprocessingservice),是基于阿里巴巴集团完全自主知识产权的云计算平台构建的数据存储于分析平台,适用于实时性要求不高的海量数据(tb/pb级别)的离线处理。可选地,可根据sql(structuredquerylanguage,结构化查询语言)从mysql数据库、hbase数据库和odps数据库中提取数据集,并将提取的数据集构成源数据集。所述源数据集按照每列与特征对应的数据表形式存储,这种数据格式便于根据需求按列提取对应的特征数据。数据表(table)是一种数据存储单元,它在逻辑上由行和列组成的二维结构,每行代表一条记录,每列代表一种属性,拥有相同数据类型和名称的一个字段;一条记录可以包含一个或多个列,各个列的名称和类型构成这种表的表模式(schema)。一个数据仓库中可包含多个表。具体来说,源数据集中的数据可按照每列的特征生成各种类型的数据表,当根据算法需要特定特征的数据时,可仅提取与各个特征对应的数据。在可选实施例中,在从源数据集中提取数据集之后,对数据集进行数据清洗。数据清洗是一个减少数据错误和不一致的过程,主要任务是检测并删除或改正交易数据。例如,可通过编写sql从数据库中提取数据集,随后,对该数据集进行数据清洗,保存数据清洗后的数据集。在可选实施例中,可在执行步骤s110之前,确定与应用场景对应的算法。所述应用场景包括监控异常数据、交易预测、数据挖掘等场景,可根据需要预先设置应用场景,并将应用场景与相应算法进行关联,例如,可将应用场景与相应算法对应地存储在关系表中,如此,在确定应用场景的情况下,可启动相应的算法,并且可根据需要添加相应场景及其对应的算法,例如,可根据需要添加数据分析场景以及与数据分析场景对应的分析算法。由于不同的算法对应的训练集不同,所以在确定算法的情况下,根据算法确定与算法对应的训练数据集,例如,在对交易平台进行异常监控或交易预测的算法中,所述训练数据集是指交易数据。然后,在步骤s120,通过所述算法对训练数据集进行处理,生成结果数据集。然后,在步骤s130,根据反馈信息,对结果数据集进行打标签,生成打标数据集,所述反馈信息是指对计算结果进行反馈的信息。例如,在数据异常监控算法的情况下,反馈信息包括商家反馈的信息(例如,交易异常)或者根据异常提示进行数据跟踪获得的信息。对结果数据集打标签的方式有很多,比如,如果根据反馈信息确定算法结果正确,则对结果数据集打“+”标签,如果根据反馈信息确定算法结果不正确,则对结果数据打“-”标签,由此可得到打标数据集,或者可根据需要对算法结果正确的交易数据打标签“ture”,对算法结果错误的交易数据打标签“false”。应注意,对结果数据集进行打标签仅用于对结果数据集中的各种情况进行区别标识。在步骤s140,将打标数据集按照源数据集的存储方式存储为验证数据集。所述验证数据集是用于对算法进行验证的数据集。具体来说,可将打标数据集转换为与源数据集的数据表的形式相同的数据表;将转换后的数据表作为验证数据集存储到所述源数据集所在的数据仓库中。所述验证数据集对应的数据表的名称可不同于与训练数据集对应的数据表的名称,由此,根据本发明的方法可根据数据表的名称调用不同的数据集。由于验证数据集是已经过验证的数据集,所以能够通过根据算法对验证数据集进行迭代训练而优化算法。在可选实施例中,可调用验证数据集中的数据对所述算法的性能进行评价。具体来说,可通过验证数据集所在的仓库名称和验证数据集中的数据表格,利用程序指令(例如,odps可执行的sql语句),调用验证数据集中的相关数据,得到评价结果。例如,在通过准确度对算法进行评价的情况下,可将所述验证数据集中的打“+”标签的数据与全部交易数据进行比较,从而达到准确度。应注意,不同的算法评价指标不同,可预先将算法与评价指标关联起来,当选择某一算法时,可调用与该算法对应的评价指标。本发明的数据处理方法,可通过利用反馈信息对结果数据集进行打标签并将打标数据集作为验证数据集对算法进行迭代训练,从而能够对算法进行优化,提高算法的性能。更进一步地,本发明的数据处理方法可通过利用验证数据集对算法进行评价,从而能够直观且量化地评价算法的性能。此外,本发明的数据处理方法还可对不同场景下的不同算法进行评估,兼容性强。图2示出根据本发明的另一示例性实施例的数据处理方法的流程图。如图2所示,所述应用场景为商店门户监控。根据所述应用场景,确定算法为异常数据监控算法。然后根据算法提取对应的训练数据集,通过算法对训练数据集进行处理,从而生成结果数据集,所述结果数据集包括通过算法获得的异常数据。随后,通过反馈信息,对结果数据集进行打标签,具体来说,可通过商家反馈,对结果数据进行处理,当商家反馈存在异常情况时,则相对应的数据集打标签为“+”。例如,根据商户反馈的时间确定与该时间对应的交易,并将于该交易相关的交易数据打标签为“—”,或者,在获得结果数据集后,对结果数据集相关的交易进行跟踪,并根据跟踪结果,将与交易正常对应的交易数据打标签为“+”,将与交易异常对应的交易数据打标签为“-”。随后,将打标数据集按照源数据集的方式转换为验证数据集。例如,在源数据集以数据表的形式存储在odps中根据所述算法创建的数据仓库中的情况下,将打标数据集按照odps的存储方式,将打标数据集以数据表的形式存储在odps中根据算法所创建的数据仓库中。由此,可根据仓库名称和与打标数据集对应的数据表的名称对训练数据集进行处理,例如,可通过sql指令调用、查询或更改训练数据集。接下来,如图2所述,可利用sql指令调用验证数据集中的数据,对该算法进行评价。应清楚,评价指标是由研发人员或用户根据算法预先设置,不同的算法,训练指标可能不同。例如,在通过误报率对算法进行评价的情况下,验证数据集中打“-”标签的数据为误报的情况,将标记为“-”的交易数量与总交易数量相比即可得到误报率。还存在这样一种情况,交易存在异常,但是并未检测出来,这种通过是通过商家反馈获得的数据,这种交易数据可打标签为“else”(仅示例的目的),在用“漏报率”进行评价的情况下将可将标签为“else”的交易数量与总交易数量相比即可得到“漏报率”。此外,相同应用场景可能对应不同的算法,这取决于应用场景与算法的关联表。在同一应用场景对应不同算法的情况下,在选定应用场景的情况下,还需要确定所需的算法。为了更清楚地明白本发明的发明构思,以下将参照图3描述了在监控平台下利用根据本发明的数据处理方法的监控系统的框架图。如图3所述,可对监控平台上的交易情况进行规则监控和智能监控。所述规则监控是指利用监控规则的组合对交易情况进行监控,例如,单天商户交易金额>0并且交易金额<=交易基线*2,所述业务数据(也可称为“交易数据”)包括商户交易数据、门户交易数据等。此外,还可以选择对交易数据进行智能监控。如图3所述,在对交易数据进行打标的情况下,在进行智能监控时,所述系统可包括应用模块、管理模块和优化模块,其中,应用模块可包括根据输入场景提供与场景适配的算法;判定算法输出结果;提供报警响应等。管理模块可包括对应用场景、算法及其训练模型所涉及的数据进行管理。优化模块可包括对所选定的算法的训练、迭代和评价。图4示出根据本发明的示例性实施例的数据处理设备的框图。数据处理设备包括提取模块410、生成模块420、打标模块430和存储模块440。本领域普通技术人员将理解:图4中的数据处理设备仅示出了与本示例性实施例相关的组件,还可包括除了图4中示出的组件之外的通用组件。提取模块410从源数据集中提取与算法对应的训练数据集,其中,源数据是将从多种数据库中提取的数据集进行数据清洗后的数据集,在从多种数据库中获取数据集之后,将数据集按照预定存储格式存储,所述预定存储格式包括将数据集与所述源数据集所在仓库的名称(即,根据算法需要创建的数据仓库的名称)和数据表名称(与所述数据集对应)对应地存储,并且可通过由数据仓库名称和数据表名称构成数据集的url直接获取数据表并利用该url快速查询数据集。可选地,在提取模块410进行提取操作之前,数据处理设备可利用确定模块(未示出)确定与选择的应用场景对应的算法,从而提取模块410可从源数据集中提取与算法对应的训练数据集,此外,数据处理设备还包括存储模块(未示出),存储模块可预先将应用场景和与应用场景对应的算法进行关联存储。第一生成模块420通过所述算法对训练数据集进行处理,生成结果数据集。随后,第二生成模块430根据反馈信息对结果数据集打标签,生成打标数据集。所述反馈信息是指对计算结果进行反馈的信息。例如,在数据异常监控算法的情况下,反馈信息包括商家反馈的信息(例如,交易异常)或者根据异常提示进行数据跟踪获得的信息。对结果数据集打标签的方式有很多,比如,如果根据反馈信息确定算法结果正确,则对结果数据集打“+”标签,如果根据反馈信息确定算法结果不正确,则对结果数据打“-”标签,由此可得到打标数据集,或者可根据需要对算法结果正确的交易数据打标签“ture”,对算法结果错误的交易数据打标签“false”。应注意,对结果数据集进行打标签仅用于对结果数据集中的各种情况进行区别标识。存储模块440将打标数据集按照源数据集的存储方式存储为验证数据集。具体来说,存储模块440将打标数据集转换为与源数据集的数据表的形式相同的数据表;将转换后的数据表作为验证数据集存储到所述源数据集所在的数据仓库中。所述验证数据集对应的数据表的名称可不同于与训练数据集对应的数据表的名称,由此,根据本发明的方法可根据数据表的名称调用不同的数据集。由于验证数据集是已经过验证的数据集,所以能够通过根据算法对验证数据集进行迭代训练而优化算法。可选地,所述数据处理设备还包括评价模块(未示出),评价模块可调用验证数据集中的数据对所述算法的性能进行评价。具体来说,可通过验证数据集所在的仓库名称和验证数据集中的数据表格,利用程序指令(例如,odps可执行的sql语句),调用验证数据集中的相关数据,得到评价结果。例如,在通过准确度对算法进行评价的情况下,可将所述验证数据集中的打“+”标签的数据与全部交易数据进行比较,从而达到准确度。应注意,不同的算法评价指标不同,可预先将算法与评价指标关联起来,当选择某一算法时,可调用与该算法对应的评价指标。本发明的数据处理设备,可通过利用反馈信息对结果数据集进行打标签并将打标数据集作为验证数据集对算法进行迭代训练,从而能够对算法进行优化,提高算法的性能。更进一步地,本发明的数据处理设备可通过利用验证数据集对算法进行评价,从而能够直观且量化地评价算法的性能。此外,本发明的数据处理设备还可对不同场景下的不同算法进行评估,兼容性强。上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1