数据处理方法、系统和装置与流程

文档序号：26101481发布日期：2021-07-30 18:12阅读：54来源：国知局

本公开涉及数据处理技术领域，具体涉及大数据、数据库、流处理等技术领域，尤其涉及一种数据处理方法、系统和装置、电子设备、计算机可读介质以及计算机程序产品。

背景技术：

随着移动互联网的发展，数据的时效性对企业的精细化越来越重要。但是移动互联网的使用场景是不稳定的，在多种不确定的因素下，手机应用发生崩溃或者卡顿的情况随时可能发生。而手机应用的崩溃、卡顿等行为对用户体验造成了负面的影响。因此，各个手机厂商都会对用户的应用的崩溃行为进行实时的监测。

同时，各应用厂商为了防止他人可通过反编译的技术手段获得项目的源码，通常会对商业项目的源码进行混淆，从而避免了源码的泄露。因此，同样也增加了自身对内核的崩溃的解析难度。

技术实现要素：

提供了一种数据处理方法、系统和装置、电子设备、计算机可读介质以及计算机程序产品。

根据第一方面，提供了一种数据处理方法，该方法包括：实时接收反混淆请求；解析反混淆请求，得到崩溃地址和映射文件信息；基于映射文件信息，从键值数据库中得到多类地址索引区间；从多类地址索引区间中选取与崩溃地址对应的地址索引区间；基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据。

根据第二方面，又提供了一种数据处理方法，该方法包括：获取映射文件；对映射文件中各类数据按类进行分组，得到包括多类数据的信息组；为信息组中每类数据赋值不同类的地址索引区间，各类地址索引区间中地址索引与各类数据的地址相对应，得到多类地址索引区间和与多类地址索引区间中每个地址索引区间对应的数据；将多个地址索引区间和与地址索引区间中每个地址索引区间对应的数据发送给键值数据库。

根据第三方面，提供了一种数据采集系统，该系统包括：实时流处理单元和键值数据库；实时流处理单元用于实时接收反混淆请求；解析反混淆请求，得到崩溃地址和映射文件信息；基于映射文件信息，从键值数据库中得到多类地址索引区间；从多类地址索引区间中选取与崩溃地址对应的地址索引区间；基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据。

根据第四方面，提供了一种数据处理装置，该装置包括：接收单元，被配置成实时接收反混淆请求；解析单元，被配置成解析反混淆请求，得到崩溃地址和映射文件信息；得到单元，被配置成基于映射文件信息，从键值数据库中得到多类地址索引区间；选取单元，被配置成从多类地址索引区间中选取与崩溃地址对应的地址索引区间；反混淆单元，被配置成基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据；键值数据库用于存储映射文件的多个地址索引区间和与地址索引区间中每个地址索引区间对应的数据，且每个地址索引区间中的地址索引与数据的地址相对应。

根据第五方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面任一实现方式描述的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第二方面任一实现方式描述的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面或第二方面任一实现方式描述的方法。

本公开的实施例提供的数据处理方法和装置，首先，实时接收反混淆请求；其次，解析反混淆请求，得到崩溃地址和映射文件信息；再次，基于映射文件信息，从键值数据库中得到多类地址索引区间；从次，从多类地址索引区间中选取与崩溃地址对应的地址索引区间；最后，基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据。由此，由键值数据库存储多个地址索引区间和与各个索引区间对应的数据，在解析到崩溃地址时，获取与映射文件信息对应的多个地址索引区间，再从键值数据库查询与崩溃地址对应的数据，无需存储所有与反混淆相关数据，提高了反混淆解析的速度，保证了反混淆的实时效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开数据处理方法的一个实施例的流程图；

图2是根据本公开数据处理方法的另一个实施例的流程图；

图3是根据本公开数据处理系统的一个实施例的结构示意图；

图4是根据本公开数据处理系统的另一个实施例的结构示意图；

图5是根据本公开数据处理装置的实施例的结构示意图；

图6是用来实现本公开实施例的数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

传统的用户的应用中集成有检测应用崩溃的软件开发包，当用户的应用发生崩溃(该崩溃可以内核级别崩溃或者应用级别崩溃)时，通过软件开发包对崩溃日志进行采集后，将崩溃日志发送给内核解析服务器，内核解析服务器对崩溃日志进行解析，得到崩溃错误信息，该崩溃错误信息即为反混淆后的崩溃位置的数据。

内核解析服务预先在应用发版时，保存与业务(例如播放内核、浏览内核等)相关的映射文件到磁盘上，当有崩溃日志或崩溃文件上报时通过查询映射文件对其进行反混淆，但反混淆的解析速度在15s左右，同时，对磁盘映射文件的解析消耗了大量内核、cpu。在日均千万级别的内核崩溃下，性能无法满足要求。

图1示出了根据本公开数据处理方法的一个实施例的流程100，上述数据处理方法包括以下步骤：

步骤101，实时接收反混淆请求。

本实施例中，反混淆请求是一种进行混淆后的编码进行解析得到源码的请求，该反混淆请求可以包括：映射文件信息、崩溃编码，其中，映射文件信息可以包括：映射文件名和/或映射文件版本号；可选地，反混淆请求还可以包括：应用的产品线，崩溃发生时间，用户的id。

本实施例中，映射文件是一种对应关系文件，该对应关系是指硬盘上文件的位置与应用的进程逻辑地址空间中一块大小相同的区域之间的一一对应。这种对应关系是逻辑上的概念，物理上是不存在的，原因是进程的逻辑地址空间本身就是不存在的。在内存映射的过程中，并没有实际的数据拷贝，文件没有被载入内存，只是逻辑上被放入了内存，具体到代码，就是建立并初始化了相关的数据结构，这个过程由系统调用mmap()函数实现，mmap()函数的功能是将文件直接映射到用户空间，所以中断处理函数根据映射文件的映射关系，直接将文件从硬盘拷贝到用户空间，可以只进行一次数据拷贝。

本实施例中，反混淆请求可以是由用户的客户端服务器发送的请求，具体地，用户在使用应用的过程中，应用发生崩溃，装载应用的客户终端将该应用的混淆后的崩溃编码发送给客户端服务器，客户端服务器将当前发生崩溃的应用、应用对应的映射文件名和崩溃编码等打包之后，以报文的形式(即得到的反混淆请求)发送给数据处理方法运行于其上的执行主体，此时执行主体得到报文之后，对报文字段进行etl解析(extract-transform-load，将数据从来源端经过抽取、交互转换、加载至目的端的过程)，得到反混淆请求的内容。

数据处理方法运行于其上的执行主体可以通过多种方式得到反混淆请求，例如，执行主体直接从客户端服务器实时获取反混淆请求，或者通过订阅消息系统，将客户端服务器以日志形式落盘在另一个消息系统的消息拉取到本地。

步骤102，解析反混淆请求，得到崩溃地址和映射文件信息。

本实施例中涉及的映射文件可以只有一版，还可以有多个版本。当映射文件只有一版时，反混淆请求包括：映射文件名以及崩溃编码，崩溃编码可以是执行主体与客户端服务器通过双方认可的编码方式得到编码，执行主体在得到崩溃编码之后，对崩溃编码进行解码，得到二进制数组流，基于预设的映射文件，得到与二进制数据组流对应的崩溃地址，本实施例中，崩溃地址为应用在崩溃后实际的崩溃位置，该崩溃位置对应映射文件中的实际地址，通过该实际地址可以确定源码(即崩溃地址对应的数据)。

当映射文件有多个版本时，反混淆请求包括：映射文件版本号、映射文件名以及崩溃编码，崩溃编码可以是执行主体与客户端服务器通过双方认可的编码方式得到编码，执行主体在得到崩溃编码之后，对崩溃编码进行解码，得到二进制数组流，基于预设的、与映射文本版本号相同的映射文件，得到与二进制数据组流对应的崩溃地址。

需要说明的是，由于映射文件名和映射文件版本号一般具有固定格式，执行主体在得到反混淆请求，通过解析反混淆请求对应报文，将报文字段中的数据与预设的映射文件名格式和/或映射文件版本号格式进行匹配，一旦匹配成功，得到映射文件信息。

步骤103，基于映射文件信息，从键值数据库中得到多类地址索引区间。

本实施例中，键值数据库预先存储有与映射文件信息对应的多类地址索引区间，每类地址索引区间还与映射文件中的数据相对应，即在键值数据库中，每类地址索引区间包括至少一个地址索引，每个地址索引属于键值数据库中的键，每个地址索引对应的数据属于键值数据库中的值。

进一步地，键值数据库中的每个地址索引与各类数据的地址相对应，列如，地址索引可以与各类数据的地址相同，地址索引还可以是代表各类数据的地址的数值或符号。需要说明的是，各类数据的地址可以是应用的源码对应的实际地址。

本实施例中，映射文件中数据的种类可以基于映射文件记载的内容不同而不同，例如，一种映射文件包括的数据：函数数据、行号数据、公共类数据等不同种类的数据；则在键值数据库中，对应函数数据预设有一类地址索引区间，对应行号数据预设有另一类地址索引区间，对应公共类数据预设有第三类地址索引区间。

步骤104，从多类地址索引区间中选取与崩溃地址对应的地址索引区间。

本实施例中，映射文件中任意一个数据均具有实际的地址，由上述可知，崩溃地址为通过映射文件得到应用的崩溃位置对应的一个实际地址，该实际地址对应的地址索引区间也是固定的。

本实施例中，执行主体中可以预先存储有各类地址索引区间的地址索引与该类地址索引区间对应的数据的地址，即地址索引区间与地址之间的对应关系，在得到所有种类的地址索引区间和崩溃地址之后，可以基于地址索引区间与地址之间的对应关系，确定崩溃地址在那类地址索引区间中，并选取崩溃地址对应的地址索引区间，得到选取的地址索引区间。

步骤105，基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据。

本实施例中，键值数据库预先存储有与映射文件信息对应的多类地址索引区间，每类地址索引区间还与映射文件中数据相对应，即在键值数据库中，每类地址索引区间包括至少一个地址索引，每个地址索引属于键值数据库中的键，每个地址索引对应的数据属于键值数据库中的值。

在得到选取的地址索引区间之后，查询键值数据库中与该地址索引区间相同的区间，进一步地，再在键值数据库的该地址索引区间中查询与崩溃地址对应的数据。相对于在键值数据库的全部的地址索引区间对应的所有数据中查询与崩溃地址对应的数据，本实施例查询的数据量较小，减少了查询数据的消耗时间。

本实施例提供的数据处理方法运行于其上的执行主体可以采用以实时流框架为主体的实时流处理单元执行本实施例的数据处理方法，已达到对天级数千万级别的应用崩溃进行实时的反混淆。

本公开的实施例提供的数据处理方法，首先，实时接收反混淆请求；其次，解析反混淆请求，得到崩溃地址和映射文件信息；再次，基于映射文件信息，从键值数据库中得到多类地址索引区间；从次，从多类地址索引区间中选取与崩溃地址对应的地址索引区间；最后，基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据。由此，由键值数据库存储多个地址索引区间和与各个索引区间对应的数据，在解析到崩溃地址时，获取与映射文件信息对应的多个地址索引区间，再从键值数据库查询与崩溃地址对应的数据，无需存储所有与反混淆相关数据，提高了反混淆解析的速度，保证了反混淆的实时效果。

在本实施例的一些可选实现方式中，上述解析反混淆请求，得到崩溃地址，包括：基于反混淆请求，得到反混淆编码；对反混淆编码进行二进制数组解析，得到二进制数组流；将二进制数组流发送给内核解析服务器，得到内核解析服务器反馈的崩溃地址。

本可选实现方式中，反混淆编码为一种表征应用崩溃位置的崩溃编码，通过反混淆编码可以确定应用实际的崩溃地址，进一步，反混淆请求还包括：映射文件信息，映射文件是指示二进制数组流与实际地址的文件，在得到二进制数组流，查询映射文件可以得到崩溃地址。

本可选实现方式中，内核解析服务器对映射文件进行解析，得到映射文件中各种数据的地址，当接收到数据处理方法运行于其上的执行主体发送的二进制数组流之后，将二进制数组流转换为地址堆栈，进一步可以确定地址堆栈中的地址，该地址即为崩溃地址。需要说明的是，内核解析服务器可以预先将数据处理所涉及到的所有映射文件解析，得到多类映射文件中的各种数据的地址，从而在将二进制数组流转换地址堆栈之后，查询预先的地址堆栈与地址的对应关系，得到崩溃地址。

可选地，解析反混淆请求，得到崩溃地址和映射文件信息，可以包括：基于反混淆请求，得到反混淆编码；对反混淆编码进行二进制数组解析，得到二进制数组流；基于反混淆请求，得到映射文件信息；基于映射文件信息，得到与二进制数组流对应的映射文件，基于与二进制数组流对应的映射文件，得到与二进制数组流对应的地址堆栈，进一步，确定该地址堆栈中存储值，该存储值即为崩溃地址。

本可选实现方式中，通过内核解析服务器得到崩溃地址，可以减少数据处理方法运行于其上的执行主体的工作量，并且将映射文件的解析工作预先在内核解析服务器中完成，可以进一步帮助执行主体提高了数据反混淆的速度。

在本实施例的一些可选实现方式中，上述数据处理方法还可以包括：将崩溃地址对应的数据写入应用数据库中。

本可选实现方式中，应用数据库的类型可以根据数据存储需求而设置，例如，应用数据库采用elasticsearch、mongodb、redis等非关系型数据库。elasticsearch是功能非常强大的全文搜索引擎，通过elasticsearch可以快速的查询到崩溃地址对应的数据。mongodb是一个高性能、开源、无模式的文档型数据库，可以为应用提供可扩展的高性能数据存储。redis是开源、遵守bsd(berkeleysoftwaredistribution，伯克利软件发行版)协议的高性能键值数据库，支持数据的持久化，可以将内存中数据保存在磁盘中，重启的时候可以再次加载进行使用。

可选地，在反馈请求包括：应用的产品线、崩溃发生时间、用户的id时，将反馈请求中的应用的产品线、崩溃发生时间、用户的id与崩溃地址对应的数据一起写入应用数据库中。通过将反馈请求中除映射文件信息、崩溃编码写入应用数据库中，可以便于在应用数据库中详细记录反混淆的应用的信息。

本可选实现方式中，将崩溃地址对应的数据写入应用数据库中，可以通过应用数据库将崩溃地址对应的数据展示在应用平台中，以便于操作人员(研发者或质检者)通过应用平台的后端查询崩溃地址对应的数据，分析反混淆请求发送方在应用崩溃或者内核崩溃的原因。

图2示出了根据本公开数据处理方法的另一个实施例的流程图200，上述数据处理方法包括以下步骤：

步骤201，获取映射文件。

本实施例中，映射文件是一种对应关系文件，该对应关系是指硬盘上文件的位置与应用的进程逻辑地址空间中一块大小相同的区域之间的一一对应。

本实施例中，映射文件可以是应用在发版时产生的文件，通过映射文件可以查询到应用中所有数据对应的实际地址，进一步，基于映射文件还可以通过反编译手段得到应用的所有源码。

步骤202，对映射文件中各类数据按类进行分组，得到包括多类数据的信息组。

本实施例中，对于不同的映射文件，得到信息组不同，例如，一种映射文件分为5个部分，包括：文件名称记录，函数记录，行号记录，公共类记录以及堆栈地址记录。为了寻找映射文件中数据与地址索引区间的对应关系，将上述文件名称记录，函数记录，行号记录，公共类记录四类数据分为四组，每组数据各自独立，得到包括该四组数据的信息组。

需要说明的是，在对映射文件中各类数据分组时，可以并列执行各类数据的拆分，通过并列执行各类数据的拆分，提高了数据分组的效率。

步骤203，为信息组中每类数据赋值不同类的地址索引区间，各类地址索引区间中地址索引与各类数据的地址相对应，得到多类地址索引区间和与多类地址索引区间中每个地址索引区间对应的数据。

本实施例中，针对不同类数据，可以通过为各类数据分配不同范围的数值，得到各类数据的不同类的地址索引区间，以上述文件名称记录，函数记录，行号记录，公共类记录四类信息组为例，文件名称记录对应的地址索引区间为1～20000；函数记录对应的地址索引区间为20000～40000；行号记录对应的地址索引区间为40000～80000；公共类记录对应的地址索引区间为80000～100000。

步骤204，将多个地址索引区间和与地址索引区间中每个地址索引区间对应的数据发送给键值数据库。

本实施例中，键值数据库可以采用redis数据库，redis数据库支持数据各种不同方式排序，并且redis数据库中的数据都是缓存在内存中，保证了数据访问效率，在键值数据库中存储多个地址索引区间以及各个地址索引区间对应的数据，可以实时从键值数据库提取需求的数据，保证了数据提取的实时性。

本实施例中，多个地址索引区间中每个地址索引区间下面还可以划分为多个地址索引值或者多个子地址区间，例如，地址索引区间1～20000中的子地址区间包括：1～100,100～200。进一步地，每个地址索引值对应的数据或者每个子地址区间对应的数据，可以根据数据的类型具有不同表示形式。例如，子地址区间20000～30000对应的数据为函数funca。子地址区间30000～40000对应的数据为funb。子地址区间40000～50000对应第100行等。

本实施例提供的数据处理方法，在得到映射文件之后，对各类数据按类进行分组，得到包括多类数据的数据组，并为各类数据分配地址索引区间，相对于为一个数据分配一个地址，采用地址索引区间中的地址索引便可以得到地址，提高了数据统计效果，保证了数据梳理的可靠性。

在本实施例的一些可选实现方式中，上述数据处理方法还包括：接收二进制数组流；将二进制数组流转换成地址堆栈；查询地址堆栈中的存储值，得到崩溃地址。

本可选实现方式中，二进制数组流可以是实时流处理单元通过解析反混淆请求得到的，其中反混淆请求是在应用崩溃后向实时流处理单元反馈的崩溃位置、映射文件信息等。

本可选实现方式中，地址堆栈是一整行，地址是该整行中存储的一个值，地址堆栈中存储有地址，查询到的地址堆栈的存储值即为崩溃地址。

本可选实现方式提供的得到崩溃地址的方法由内核解析服务器执行，为实时流处理单元解放了地址堆栈解析的工作，提高了实时流处理单元在处理数据时的速度，保证了数据反混淆的效率和速度。

进一步参考图3，作为对上述各图所示方法的实现，本公开提供了数据处理系统的一个实施例，该系统实施例与图1所示的方法的实施例相对应。如图3所示，本实施例提供的数据处理系统300包括：实时流处理单元301和键值数据库302。其中，实时流处理单元301用于实时接收反混淆请求；解析反混淆请求，得到崩溃地址和映射文件信息；基于映射文件信息，从键值数据库中得到多类地址索引区间；从多类地址索引区间中选取与崩溃地址对应的地址索引区间；基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据。上述键值数据库302用于存储映射文件的多个地址索引区间和与地址索引区间中每个地址索引区间对应的数据，且每个地址索引区间中的地址索引与数据的地址相对应。

本实施例中，实时流处理单元可以采用大数据中的实时流处理框架，该实时流处理框架，例如structuredstreaming或flinkstorm等，实时流处理单元实时收集业务系统产生的数据，交由实时流处理框架进行数据清洗，统计，入库，并可以通过可视化的方式对统计结果进行实时的展示。采用本实施例提供的数据处理系统可以对天级数千万级别的应用崩溃进行实时的反混淆。

实时流处理单元有一个工作进程用来分配资源，工作进程是资源分配的最小单位。每个工作进程中又包含多个执行器，执行器是用来真正执行任务的组件，包含一个工作线程和发送线程。每个执行器都有自己的接收队列和发送队列。1.每个工作进程都有一个单独的接受线程监听接收端口。工作接收线程将收到的消息通过任务编号传递给对应的执行器(一个或则多个)接收队列。工作接收线程将每个从网络上传来的消息发送到相应的执行器的接收队列中。执行器接收队列存放工作进程或者工作进程内部其他执行器发送过来的消息。2.执行器工作线程从接收队列中拿出数据，然后调用信息处理方法，并发送处理后的信息到执行器的发送队列。3.执行器的发送线程从发送队列中获取消息，按照消息目的地址选择发送到工作进程的传输队列中或者其他执行器的接收队列中。

在本实施例的一些可选实现方式中，上述实时流处理单元301包括：工作进程和至少一个执行器；其中，上述工作进程控制至少一个执行器的部分执行器存储从键值数据库中得到的多个地址索引区间。上述工作进程控制部分执行器之外的执行器解析反混淆请求并查询数据。

本可选实现方式中，工作进程控制执行器将原始崩溃编码的md5值和经过内核解析服务服务器解析后的崩溃地址映射保存在执行器的内存中，由于用户的崩溃完全很大概率是崩溃在相同的代码处，因此可能有相同的崩溃内容。当相同崩溃重复出现时，将崩溃编码解析为崩溃地址(耗费时间约1-2s)将忽略，直接从缓存中拿即可，因此实时流处理单元301的反混淆时间降低为ms级别。

在本实施例的一些可选实现方式中，上述系统300还包括：内核解析服务器(图中未示出)。上述内核解析服务器用于获取映射文件；对映射文件中各类数据按类进行分组，得到包括多类数据的信息组；为信息组中每类数据赋值不同类的地址索引区间，各类地址索引区间中地址索引与各类数据的地址相对应，得到多类地址索引区间和与地址索引区间中每个地址索引区间对应的数据；将多个地址索引区间和与地址索引区间中每个地址索引区间对应的数据发送给键值数据库302。

在本实施例的一些可选实现方式中，上述实时流处理单元用于基于反混淆请求，得到反混淆编码；对反混淆编码进行二进制数组解析，得到二进制数组流，将二进制数组流发送给内核解析服务器。内核解析服务器用于基于映射文件，查询得到崩溃地址，并将崩溃地址反馈给实时流处理单元。

在本实施例的一些可选实现方式中，上述实时流服务器用于基于反混淆请求，得到反混淆编码；对反混淆编码进行二进制数组解析，得到二进制数组流；基于反混淆请求，得到映射文件信息；基于映射文件信息，得到与二进制数组流对应的映射文件，基于与二进制数组流对应的映射文件，得到与二进制数组流对应的地址堆栈，进一步，确定该地址堆栈中存储值，该存储值即为崩溃地址。

在本实施例的一些可选实现方式中，上述系统300还包括：应用数据库(图中未示出)。上述应用数据库用于存储崩溃地址对应的数据。

进一步，参照图4所示，是本公开提供的数据处理系统的另一个实施例的结构示意图，本实施例提供的数据处理系统400包括：实时流处理单元401，键值数据库402，应用数据库403，内核解析服务器404。

在本实施例中，实时流处理单元401可以是以sparkstruturedstreaming为核心的分布式实时流处理系统，如图4所示，在实时流处理单元401具有多个执行器；键值数据库402采用redis数据库，如图4所示的redis；应用数据库403采用elasticsearch数据库，在图4中简称为es；内核解析服务器404可以采用web服务器，该web服务器用于获取应用的映射文件(如图4中的映射文件)，对映射文件中各类数据按类进行分组，得到信息组，为信息组中每类数据赋值不同类的地址索引区间，各类地址索引区间中地址索引与各类数据的地址相对应，将多个地址索引区间和与地址索引区间中每个地址索引区间对应的数据发送给键值数据库。

用户终端将全量用户的崩溃数据上报到客户端服务器，客户端服务器将该崩溃数据以日志形式落盘，并将落盘日志写入kafka消息系统，实时流处理单元可通过订阅消息系统接收kafka消息系统发送的反混淆请求，并将反混淆请求拉到本地进行处理。此时，经过对反混淆请求进行解析，得到崩溃地址和映射文件信息，基于映射文件信息，从键值数据库402得到多类地址索引区间，从多类地址索引区间中选取与崩溃地址对应的地址索引区间，基于选取的地址索引区间，从键值数据库402中查询与崩溃地址对应的数据。最后将与崩溃地址对应的数据写入到应用数据库403中，应用数据库403与性能平台连接，操作人员通过性能平台的后端查询应用数据库403中的数据。

本实施例中，内核解析服务器404可以将二进制数组翻译成崩溃地址，二进制数组流是实时流处理单元401通过解析反混淆请求得到，内核解析服务器404翻译崩溃地址，耗费时间约为1-2s，同时由于只需要翻译崩溃地址，因此消耗的cpu和内存均很低。若内核解析服务器404不对映射文件进行各类数据分组，采用传统的反混淆算法得到崩溃地址对应数据，耗费的时间约在15s左右，同时消耗大量cpu和内存。

实践中，采用图4所示的实施例进行反混淆处理耗费的时间为ms级。大幅度的提升了单位时间内对于应用崩溃时的反混淆速率，同时保证了反混淆的准确性(99.5％以上)。最终达到了用较少的资源实现全量用户的反混淆，大幅度提升了对问题的快速感知能力以及数据的分析能力。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了数据处理装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图5所示，本实施例提供的数据处理装置500包括：接收单元501，解析单元502，得到单元503，选取单元504，反混淆单元505。其中，上述接收单元501，可以被配置成实时接收反混淆请求。上述解析单元502，可以被配置成解析反混淆请求，得到崩溃地址和映射文件信息。上述得到单元503，可以被配置成基于映射文件信息，从键值数据库中得到多类地址索引区间。上述选取单元504，可以被配置成从多类地址索引区间中选取与崩溃地址对应的地址索引区间。上述反混淆单元505，可以被配置成基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据。

在本实施例中，数据处理装置500中：接收单元501，解析单元502，得到单元503，选取单元504，反混淆单元505的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述解析单元502包括：得到模块(图中未示出)，解析模块(图中未示出)，发送模块(图中未示出)。其中，上述得到模块被配置成基于反混淆请求，得到反混淆编码。上述解析模块被配置成对反混淆编码进行二进制数组解析，得到二进制数组流。上述发送模块被配置成将二进制数组流发送给内核解析服务器，得到内核解析服务器反馈的崩溃地址。

在本实施例的一些可选的实现方式中，上述装置500还包括：写入单元(图中未示出)。上述写入单元被配置成将崩溃地址对应的数据写入应用数据库中。

本公开的实施例提供的数据处理装置，首先，接收单元501实时接收反混淆请求；其次，解析单元502解析反混淆请求，得到崩溃地址和映射文件信息；再次，得到单元503基于映射文件信息，从键值数据库中得到多类地址索引区间；从次，选取单元504从多类地址索引区间中选取与崩溃地址对应的地址索引区间；最后，反混淆单元505基于选取的地址索引区间，从键值数据库中查询崩溃地址对应的数据。由此，由键值数据库存储多个地址索引区间和与各个索引区间对应的数据，在解析到崩溃地址时，获取与映射文件信息对应的多个地址索引区间，再从键值数据库查询与崩溃地址对应的数据，无需存储所有与反混淆相关数据，提高了反混淆解析的速度，保证了反混淆的实时效果。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序，来执行各种适当的动作和处理。在ram603中，还可存储设备600操作所需的各种程序和数据。计算单元601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

设备600中的多个部件连接至i/o接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如数据处理方法。例如，在一些实施例中，数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由rom602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram603并由计算单元601执行时，可以执行上文描述的数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭阳;杨浩;封磊;严海林;廖伟达;芦华楠
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种石膏建材生产下料码垛转移系统及控制系统的制作方法
上一篇：运动图构建和车道级路线规划的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。