一种行为数据的获取方法和装置与流程

文档序号:11156241阅读:413来源:国知局
一种行为数据的获取方法和装置与制造工艺

本发明涉及计算机技术领域,尤其涉及一种行为数据的获取方法和装置。



背景技术:

现有技术中,为获取用户在终端上使用应用程序产生的行为数据主要采用以下三种方法:

方法一:开发人员在各自的应用程序中本地记录用户行为的日志数据,按照约定协议上传日志数据;

方法二:将专业的移动应用统计分析平台公司发布的软件开发工具包(SDK,Software Development Kit)在开发阶段集成到应用程序的代码中,帮助移动应用开发商统计和分析流量来源、内容使用、用户属性和行为数据,以便移动应用开发商利用获取的信息和数据进行产品、运营、推广策略的决策;

方法三:在各种网站系统生成的超文本标记语言(HTML,HyperText Markup Language)网页中采用插码方式,即在HTML页面中植入javascript代码,用户通过终端的应用程序、浏览器等访问网页即触发对应的事件,记录用户的行为、时间等信息,将记录的信息实时或定期提交到服务器端进行统计分析。

上述三种行为数据的获取方法,分别具有以下缺点:

方法一:碎片化情况严重,无法适用于通用的情况,且在终端上定制实施日志采集会影响应用程序的正常业务使用,带来数据本地管理复杂、隐私问题等一系列问题。

方法二:需在开发应用程序的过程中集成移动应用统计分析平台公司提供的SDK,并按要求在研发阶段额外添加记录用户行为数据的代码;另外,SDK通常需要在本地保存用户行为数据,而许多终端安装的第三方安全类助手软件可能将数据认定为不安全代码和信息,对其进行拦截或删除,从而导致部分行为数据无法采集;

方法三:HTML页面插码方式需在业务系统中进行额外插码开发工作,容易被用户在第三方浏览器查看到采集信息的源码,因产生隐私泄露的担忧而不愿意继续访问该类网站。



技术实现要素:

有鉴于此,本发明实施例期望提供一种行为数据的获取方法和装置,防止行为数据被拦截,保证行为数据中包含的用户隐私的安全。

为达到上述目的,本发明的技术方案是这样实现的:

本发明实施例提供了一种行为数据的获取方法,所述方法包括:

获取日志数据,所述日志数据携带有标签信息;

根据预设的匹配规则对所述日志数据的标签信息进行特征匹配,对不符合所述预设的匹配规则的日志数据进行分割处理;对符合所述预设的匹配规则的日志数据进行分类;确定需加密的相应类别的日志数据,根据设定的加密算法对需加密的相应类别的日志数据进行加密;

输出包含加密处理后的所有日志数据。

上述方案中,所述标签信息,包括以下信息的至少一种:时间戳、应用标识、当前网络信息、日志级别、终端地址信息、接口标识;

所述符合预设的匹配规则,包括以下规则的至少之一:

所述日志数据的时间戳在设定时间段内;

所述日志数据的应用标识与设定的应用标识相同;

根据所述日志数据的当前网络信息确定的网络标识与设定的网络标识相同;

所述日志数据的终端地址信息与设定的全球定位系统GPS地理标识相同;

所述日志数据的日志级别与设定的日志级别相同;

所述日志数据对应的接口标识与设定的接口标识相同。

上述方案中,所述对符合预设的匹配规则的日志数据进行分类;包括:

根据所述符合预设的匹配规则的日志数据所携带的标签信息,对所述符合预设的匹配规则的日志数据进行分类,确定分类后的所述日志数据的类别。

上述方案中,所述输出包含加密处理后的所有日志数据;包括:

根据所述日志数据的类别确定所述日志数据对应的一个或多个输出模式,根据所述输出模式输出加密后的日志数据和不需加密的日志数据。

上述方案中,所述日志数据还携带有输出配置信息;

所述输出包含加密处理后的所有日志数据,还包括:

根据所述输出配置信息确定所述日志数据的输出模式,根据所述输出模式输出分割处理后的日志数据。

本发明实施例提供了一种行为数据的获取装置,所述装置包括:日志代理模块、特征匹配模块、日志处理模块、日志分拣模块和日志输出器;其中,

所述日志代理模块,用于获取日志数据,所述日志数据携带有标签信息;

所述特征匹配模块,用于根据预设的匹配规则对所述日志数据的标签信息进行特征匹配;

所述日志处理模块,用于对不符合所述预设的匹配规则的日志数据进行分割处理;

所述日志分拣模块,用于对符合所述预设的匹配规则的日志数据进行分类;确定需加密的相应类别的日志数据,根据设定的加密算法对需加密的相应类别的日志数据进行加密;

所述日志输出器,用于输出包含加密处理后的所有日志数据。

上述方案中,所述标签信息,包括以下信息的至少一种:时间戳、应用标识、当前网络信息、日志级别、终端地址信息、接口标识;

所述符合预设的匹配规则,包括以下规则的至少之一:

所述日志数据的时间戳在设定时间段内;

所述日志数据的应用标识与设定的应用标识相同;

根据所述日志数据的当前网络信息确定的网络标识与设定的网络标识相同;

所述日志数据的终端地址信息与设定的全球定位系统GPS地理标识相同;

所述日志数据的日志级别与设定的日志级别相同;

所述日志数据对应的接口标识与设定的接口标识相同。

上述方案中,所述日志分拣模块,具体用于:根据所述符合预设的匹配规则的日志数据所携带的标签信息,对所述符合预设的匹配规则的日志数据进行分类,确定分类后的所述日志数据的类别。

上述方案中,所述日志输出器,具体用于:根据所述日志数据的类别确定所述日志数据对应的一个或多个输出模式,根据所述输出模式输出加密后的日志数据和不需加密的日志数据。

上述方案中,所述日志数据还携带有输出配置信息;

所述日志输出器,还用于根据所述输出配置信息确定所述日志数据的输出模式,根据所述输出模式输出分割处理后的日志数据。

与现有技术相比,本发明提供的行为数据的获取方法和装置,获取日志数据,所述日志数据携带有标签信息;根据预设的匹配规则对所述日志数据的标签信息进行特征匹配,对不符合所述预设的匹配规则的日志数据进行分割处理;对符合所述预设的匹配规则的日志数据进行分类;确定需加密的相应类别的日志数据,根据设定的加密算法对需加密的相应类别的日志数据进行加密;输出包含加密处理后的所有日志数据。本发明实施例提供的方法和装置,通过对标签信息进行匹配、根据标签信息进行日志数据的分类,实现对应用程序执行过程中产生的日志数据按照指定的规则进行加密,减少用户行为数据隐私泄露风险,且无需插入额外的代码,不改变现有的日志整体管理机制。

附图说明

图1为现有技术中的行为数据的获取装置的结构示意图;

图2为本发明实施例提供的行为数据的获取方法的流程示意图;

图3为本发明实施例提供的行为数据的获取装置的结构示意图;

图4为本发明实施例提供的行为数据的获取系统的结构示意图。

具体实施方式

本发明实施例中,获取日志数据,所述日志数据携带有标签信息;根据预设的匹配规则对所述日志数据的标签信息进行特征匹配,对不符合所述预设的匹配规则的日志数据进行分割处理;对符合所述预设的匹配规则的日志数据进行分类;确定需加密的相应类别的日志数据,根据设定的加密算法对需加密的相应类别的日志数据进行加密;输出包含加密处理后的所有日志数据。

在结合实施例对本发明再作进一步详细的说明之前,对现有技术中行为数据的获取装置进行说明。

目前研发人员在开发应用程序的时候,可以使用日志生成模块来进行应用程序的日志记录,以log4j等系统为例,在开发应用的工程中引入log4j开发包,使用标准接口生成日志,具体包括:加入log4j-XXX.jar到工程中的lib,配置log4j.properties文件,设置相关属性等步骤。

应用程序可以设置日志数据的输出目的地,如:本地终端存储、管道输出、云平台系统、图形用户界面(GUI,Graphical User Interface)组件、套接口服务器、事件记录器等;也可以设置每一条日志的输出格式;还可以设置每一条日志数据的级别。

图1为现有技术中行为数据的获取装置的结构示意图,如图1所示,所述装置包括:日志采集接口、日志处理模块和日志输出器;其中,

应用程序通过应用程序编程接口(API,Application Programming Interface)将需要记录的日志数据提交给所述日志采集接口;

所述日志采集接口将用户传递过来的日志数据传递给日志处理模块;

所述日志处理模块根据一定的规则对日志数据进行内容分割、缓存等操作,所述日志数据携带有如时间戳、日志级别等标签(Tag)信息;

所述日志处理模块将日志数据提交给日志输出器,由所述日志输出器根据配置信息选择:管道输出、数据流、内存块、持久化存储等方式进行输出。

下面结合实施例对本发明再作进一步详细的说明。

图2为本发明实施例提供的行为数据的获取方法的流程示意图;如图2所示,所述行为数据的获取方法,包括:

步骤101:获取日志数据,所述日志数据携带有标签信息;

具体地,终端通过数据采集接口从每个应用程序,如:应用程序一、应用程序二等,获得所述应用程序生成的日志数据。

所述终端为获取各个应用程序的日志数据的终端,可以包括:计算机、服务器等。

具体地,所述日志数据携带有的标签信息,包括以下信息的至少一种:时间戳、应用标识(ID)、本地终端信息、当前网络信息、终端地址信息、日志级别、接口标识等;其中,

所述时间戳,表示生成日志数据的时间;

所述应用标识,作为应用程序的唯一标识,根据所述应用标识可以确定对应的应用程序;

所述日志级别,可以依次包括:debug、info、warn、error、fatel五个等级;其中,debug表明细粒度信息事件对调试应用程序有帮助;info表明信息在粗粒度级别突出强调应用程序的运行过程;warn表明会出现潜在错误的情形;error指出虽然发送错误事件,但不影响系统的继续运行;fatal指出每个严重的错误事件将会导致应用程序退出。

所述本地终端信息,可以包括:终端的厂家、型号等;

所述终端地址信息,表示应用程序产生日志数据时所处的位置;

所述当前网络信息,可以包括:网络标识,如采用无线网络(wifi)、移动数据等;所述移动数据,包括:通过通用分组无线服务技术(GPRS,General Packet Radio Service)、时分同步码分多址(TD-SCDMA,Time Division-Synchronous Code Division Multiple Access)、高速下行分组接入(HSDPA,High Speed Downlink Packet Access)、长期演进(LTE,Long Term Evolution)等移动通信技术使用相关数据增值业务产生的数据。

步骤102:根据预设的匹配规则对所述日志数据的标签信息进行特征匹配,对不符合所述预设的匹配规则的日志数据进行分割处理;对符合所述预设的匹配规则的日志数据进行分类;确定需加密的相应类别的日志数据,根据设定的加密算法对需加密的相应类别的日志数据进行加密;

具体地,所述分割处理,包括日志内容分割和缓存等;所述日志内容分割,可以运用日志分割工具,如:cronolog等,根据日志数据的时间、大小等进行分割。

具体地,所述符合预设的匹配规则,包括以下规则的至少之一:

所述日志数据的时间戳在设定时间段内;

所述日志数据的应用标识与设定的应用标识相同;

根据所述日志数据的当前网络信息确定的网络标识与设定的网络标识相同;

所述日志数据的终端地址信息与设定的全球定位系统(GPS,Global Positioning System)地理标识相同;

所述日志数据的日志级别与设定的日志级别相同;

所述日志数据对应的接口标识与设定的接口标识相同。

通过预设的匹配规则,可以选择特定的日志数据,例如:根据所述时间戳,选择时间段如:每天19:00-22:00的日志数据;根据所述应用标识,可以采集应用程序名称为com.cmcc.cmri.ots的数据;根据所述网络标识,可以采集终端网络环境在wifi下的数据;根据所述终端地址信息,可以采集北京市内的数据;根据所述日志级别,可以采集日志级别为高于info的数据;还可以根据所述接口标识,采集异常接口,如:crash类接口的数据,从而获得应用程序发生异常时的日志数据。当日志数据符合如上任一个或多个的匹配规则的时候,即可以认为符合预设的匹配规则。

具体地,所述对符合预设的匹配规则的日志数据进行分类,包括:

根据所述符合预设的匹配规则的日志数据所携带的标签信息,对所述符合预设的匹配规则的日志数据进行分类,确定分类后的所述日志数据的类别。

所述类别,包括:用户行为类、终端信息类、网络信息类、应用信息类等。

这里,基于标签信息确定对应的类别,一个类别的日志可以包含一个或多个标签信息;例如:可以将网络标识、终端地址信息、本地终端信息等归属到终端信息类,所有符合以上任一标签的日志数据均归为终端信息类。

确定所述日志数据的类别后,进一步确定所述类别是否需要加密,对于需加密的类别进一步确定对应的设定的加密算法和密钥,根据设定的加密算法对需加密的相应类别的日志数据进行加密。这里,运用先分类再针对性加密的方法,对于部分与隐私关系不大的日志数据,可以设置为不加密明文保存和传输;对于涉及用户隐私的某一类日志数据,可以针对性的单独加密并传输,避免被第三方安全应用软件截取。

步骤103:输出包含加密处理后的所有日志数据。

具体地,所述输出包含加密处理后的所有日志数据,包括:

根据所述日志数据的类别确定所述日志数据对应的一个或多个输出模式,根据所述输出模式输出加密后的日志数据和不需加密的日志数据。所述输出模式,包括:本地终端存储、管道输出、云平台系统等。

这里,可以预设有一个日志输出匹配规则,所述日志输出匹配规则根据日志数据的分类来指定,可以为每一个类别指定一到多个输出模式。例如,所述日志输出匹配规则可以包括:终端信息类的日志数据仅在本地管道输出,用户行为类的日志数据除在本地终端存储外同时还上报到云平台系统等。所述云平台系统,用于对日志数据进行解密、分析等操作。

以上所述标签信息、所述标签信息对应的预设的匹配规则、所述标签信息对应的类别等可以是根据行为数据分析需要预先设定并保存。

需要说明的是,在传统模式下的模块,通过应用程序的日志配置文件决定该部分日志数据的输出模式,即所述日志数据还携带有输出配置信息,如管道输出、本地终端存储等。

这里,所述输出包含加密处理后的所有日志数据,包括:

对于不符合所述预设的匹配规则的日志数据,获取所述日志数据的输出配置信息;根据所述输出配置信息确定所述日志数据的输出模式,根据所述输出模式输出分割处理后的日志数据。

图3为本发明实施例提供的行为数据的获取装置的结构示意图;如图3所示,所述行为数据的获取装置,包括:日志代理模块、特征匹配模块、日志处理模块、日志分拣模块和日志输出器;其中,

所述日志代理模块,用于获取日志数据,所述日志数据携带有标签信息;

具体地,所述标签信息,包括以下信息的至少一种:时间戳、应用标识、当前网络信息、日志级别、终端地址信息、接口标识、本地终端信息等;

所述特征匹配模块,用于根据预设的匹配规则对所述日志数据的标签信息进行特征匹配;

具体地,所述符合预设的匹配规则,包括以下规则的至少之一:

所述日志数据的时间戳在设定时间段内;

所述日志数据的应用标识与设定的应用标识相同;

根据所述日志数据的当前网络信息确定的网络标识与设定的网络标识相同;

所述日志数据的终端地址信息与设定的GPS地理标识相同;

所述日志数据的日志级别与设定的日志级别相同;

所述日志数据对应的接口标识与设定的接口标识相同。

这里,可以根据所述时间戳,选择时间段如:每天19:00-22:00的数据;根据所述应用标识,可以采集应用程序名称为com.cmcc.cmri.ots的数据;根据所述网络标识,可以采集终端网络环境在wifi下的数据;根据所述终端地址信息,可以采集北京市内的数据;根据所述日志级别,可以采集日志级别为高于info的数据;还可以根据所述接口标识,采集异常接口,如:crash类接口的数据,从而获得应用程序发生异常时的日志数据。

所述日志处理模块,用于对不符合所述预设的匹配规则的日志数据进行分割处理;

具体地,所述日志处理模块,具体用于运用日志分割工具,如:cronolog等,根据日志数据的时间、大小等进行日志内容分割,及缓存等。

所述日志分拣模块,用于对符合所述预设的匹配规则的日志数据进行分类;确定需加密的相应类别的日志数据,根据设定的加密算法对需加密的相应类别的日志数据进行加密;

具体地,所述日志分拣模块,具体用于:根据所述符合预设的匹配规则的日志数据所携带的标签信息,对所述符合预设的匹配规则的日志数据进行分类,确定分类后的所述日志数据的类别。

所述日志输出器,用于输出包含加密处理后的所有日志数据。

具体地,所述日志输出器,具体用于:根据所述日志数据的类别确定所述日志数据对应的一个或多个输出模式,根据所述输出模式输出加密后的日志数据和不需加密的日志数据。所述输出模式,包括:本地终端存储、管道输出、云平台系统等。

所述日志数据还携带有输出配置信息;所述日志输出器,还用于根据所述输出配置信息确定所述日志数据的输出模式,根据所述输出模式输出分割处理后的日志数据。

这里,所述标签信息、所述预设的匹配规则、所述标签信息对应的类别、所述类别是否加密、所述类别的加密算法和密钥等信息可以预先设置并保存在所述采集装置中。

图4为本发明实施例提供的行为数据的获取系统的结构示意图,如图4所示,所述行为数据的获取系统,包括:数据采集接口、日志代理模块、特征匹配模块、日志处理模块、日志分拣模块、日志输出器、日志特征库;其中,

所述数据采集接口,用于从各个应用程序中获得相应的日志数据,并将所述日志数据发送给日志代理模块;

具体地,所述数据采集接口,可以重载现有的日志采集接口,从而使得采集系统对应用程序透明,避免被第三方安全类助手软件发现、拦截或删除。

所述日志代理模块,用于获取日志数据,所述日志数据携带有标签信息;

具体地,所述标签信息,包括以下信息的至少一种:时间戳、应用标识、当前网络信息、日志级别、终端地址信息、接口标识、本地终端信息等;

相应地,所述符合预设的匹配规则,包括以下规则的至少之一:

所述日志数据的时间戳在设定时间段内;

所述日志数据的应用标识与设定的应用标识相同;

根据所述日志数据的当前网络信息确定的网络标识与设定的网络标识相同;

所述日志数据的终端地址信息与设定的GPS地理标识相同;

所述日志数据的日志级别与设定的日志级别相同;

所述日志数据对应的接口标识与设定的接口标识相同。

所述特征匹配模块,用于从日志特征库中获取预设的匹配规则,根据所述预设的匹配规则对所述日志数据的标签信息进行特征匹配;

所述日志处理模块,用于对不符合所述预设的匹配规则的日志数据进行分割处理;

所述日志分拣模块,用于对符合所述预设的匹配规则的日志数据进行分类;确定需加密的相应类别的日志数据,根据设定的加密算法对需加密的相应类别的日志数据进行加密;

所述日志输出器,用于输出包含加密处理后的所有日志数据;

具体地,所述日志数据还携带有输出配置信息;

所述日志输出器,具体用于根据所述日志数据的类别确定所述日志数据对应的一个或多个输出模式,根据所述输出模式输出加密后的日志数据和不需加密的日志数据;及,根据所述输出配置信息确定所述日志数据的输出模式,根据所述输出模式输出分割后的日志数据。

所述日志特征库,用于保存预设的匹配规则、所述标签信息对应的类别、所述类别是否加密、所述类别的加密算法和密钥等预设的信息。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1