一种自动化的应用数据收集、存储管理系统

文档序号:24642154发布日期:2021-04-13 13:36阅读:66来源:国知局
一种自动化的应用数据收集、存储管理系统

1.本发明涉及应用数据收处理技术领域,特别是涉及一种自动化的应用数据收集、存储管理系统。


背景技术:

2.目前,市面上各类型应用种类繁多,终端数据如何快速收集是企业中遇到的很大问题。大多数企业花费大量的资金和时间来构建联机事务处理oltp的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。企业如何通过各种技术手段,把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。etl是主要的一个技术手段。要想做etl,首先需要收集数据,快速高效的收集各类型应用中的数据,可以便于后续将数据进行各种变形和转换,才能构造出易于分析和理解的数据。在无法直接读取数据存储的情况下如无法访问数据库时,要想进行数据收集,常见的采集方法包括爬虫等,但是爬虫只能针对web服务。相比于web数据源的结构相对清晰、数据较容易获取,本发明重点面对的各类软件与应用想获取数据难度相对大得多。对于各种应用程序,常见的人工摘录等方法耗时耗力。而在应用中埋点的方法,只适合于拥有程序源码并获得修改权限的情况下,局限性很大。本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:现有的程序数据收集方法局限性较大,无法适应不同的应用场景。同时缺少一种自动化的数据收集方法,也缺少对收集数据的存储与管理。


技术实现要素:

3.本发明的目的是针对现有技术中存在的技术缺陷,而提供一种自动化的应用数据收集、存储管理系统,既可以支持ios、安卓等移动设备中的应用也可以支持电脑端的应用。
4.为实现本发明的目的所采用的技术方案是:
5.一种自动化的应用数据收集、存储管理系统,包括:
6.数据收集模块,数据预处理模块,数据存储模块;
7.所述数据收集模块,用于通过页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图;
8.所述数据预处理模块,用于根据预定义的模板抽取控件中的信息,对于截取的图片通过文字定义并识别的方式进行文字识别,以及进行数据清洗、去重;
9.所述数据存储模块,用于按预定存储规则对收集的清洗去重后的数据存储。
10.所述自动化的应用数据收集、存储管理系统,还包括数据管理模块,提供对所述数据收集模块,数据预处理模块,数据存储模块的状态监控与服务调用,实时监控数据收集模块实时的服务情况,数据收集速度,实时监控数据存储模块的数据存储状况与容量,对数据收集服务进行启动暂停停止管理。
11.其中,所述数据预处理模块在文字识别时,首先对图像进行预处理,通过图像处理判定文字所在区域,之后使用神经网络模型进行文字识别。
12.其中,所述数据存储模块采用自底向上的三级数据存储:第一级数据存储包括各个收集终端首先在本地存储原始数据并进行预处理,第二级数据存储包括各个类型终端分别收集对应的第一级中存储的数据进行统一存储,第三级数据存储包括收集第二级存储中的所有数据进行统一存储。
13.其中,所述数据收集模块的页面自动化遍历,是借助测试框架操作终端配合深度优先遍历算法进行页面遍历,遍历的过程中获取句柄、控件信息并进行数据截图,同时生成相应功能过程图;在页面遍历过程中,每次行为会触发记录控件中的信息并截图,通过此方式完成数据收集;对收集的数据建立索引进行优化。
14.进一步的,在页面自动化遍历中,还可结合测试框架操作封装的数据接口,直接进行相关的操作脚本编写。
15.其中,所述数据收集模块的用户行为跟踪,包括监听用户对于每个控件或者具体屏幕坐标位置进行的具体操作,并输出用户详细行为的过程文件;之后,分析用户对于哪些控件与位置进行操作、分别做了什么样的操作,并抽取仿真时对控制及各个位置进行操作的顺序关系,输出脚本供仿真操作使用;最后通过仿真自动模拟使用者采集数据使用的行为模式,按顺序完整操作用户界面各页面,规则化获取软件使用者操作界面、完成数据页面截图同时保存控件中的信息。
16.其中,所述具体操作包括点击、输入、拖动。
17.其中,所述监听用户操作在侦测到控件事件发生的同时,获取当前操作的控件,控件信息包括控件类型、控件种类名称、编号、控件所在位置坐标、控件名称,并收集操作窗口的句柄信息。
18.本发明针对各个类型应用程序的自动化数据收集处理,针对ios、安卓等移动设备上的应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端应用的数据采集效率可以节省时间10倍以上。
附图说明
19.图1为本发明的自动化的应用数据收集、存储管理系统的原理图;
20.图2所示为自动化的应用数据收集、存储管理系统的数据收集处理流程图;
21.图3所示为自动化的应用数据收集、存储管理系统的架构图;
22.图4所示为数据收集时的页面自动化遍历过程的流程图;
23.图5所示为跟踪屏幕中具体坐标位置操作的流程图。
24.图6所示为监听用户操作的流程图。
具体实施方式
25.以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
26.如图1-6所示,本发明自动化的应用数据收集、存储管理系统,包括:数据收集模块,数据预处理模块,数据存储模块,数据管理模块。
27.其中,数据收集模块收集数据时,采用页面自动化遍历以及用户行为跟踪的方式收集应用的数据,得到控件信息与数据截图:
28.本发明中,所述页面自动化遍历,是对于移动应用,借助测试框架(如airtest)操作终端,配合深度优先遍历算法进行页面遍历,遍历的过程中获取句柄、控件信息并进行数据截图,同时生成相应功能过程图。其中,在页面遍历过程中,每次行为会触发记录控件中的信息并截图,通过此方式完成数据收集。数据收集结果根据文件名可使用哈希表或者b树做索引以优化检索效率。
29.具体过程是,通过xpath页面抽取元素与控件,根据设定的相关规则对控件进行筛选,最终深度优先遍历得到路径记录与重定向以及弹窗(安装过程,权限,app提示)等,然后获取句柄、控件信息并进行数据截图,同时生成相应功能过程图。
30.此外,还可结合测试框架(如airtest)操作封装的数据接口,直接进行相关的操作脚本编写。
31.需要说明的是,所述自动页面遍历对于常见移动端如ios、安卓或者电脑端应用等。
32.本发明中,所述用户行为跟踪的具体步骤如下:
33.首先,监听用户对于每个控件或者屏幕中具体坐标位置进行的具体操作,并输出用户详细行为的过程文件,其中常见的具体操作包括点击、输入、拖动等。
34.之后,分析用户对于哪些控件与位置进行操作、分别做了什么样的操作,并抽取仿真时对控件以及各个位置进行操作的顺序关系,输出脚本供仿真操作使用。该具体过程是,将采集的过程记录读入后,进行脚本生成判断。先将所有的记录读入后,存成多维元组,进而以要生成简单有向图模型进行脚本的判定函数运行顺序与循环判断。对于按照行读入的数据来说,可较为容易的获取函数之间的调用关系,从而生成对应的控件操作有向图。
35.最后,利用仿真模块自动模拟使用者采集数据使用的行为模式,按顺序完整操作用户界面各页面,规则化获取软件使用者操作界面、完成数据页面截图同时保存控件中的信息。
36.需要说明的是,本发明中,所述监听用户操作在侦测到控件事件发生的同时,可以通过inspect、ui automation、airtest等工具获取当前操作的控件,控件信息包括:控件类型、控件种类名称、编号、控件所在位置坐标、控件名称等五项性质,并收集操作窗口的句柄信息。
37.本发明中,所述的数据预处理模块,根据预定义的模板,收集控件中得到的信息数据。对于截取的图片可通过文字定义并识别的方式抽取其中的文字。
38.其中的文字识别功能首先需要对图像进行预处理操作,通过图像处理可以判定文字所在区域,之后使用设计的神经网络模型进行文字识别。
39.本发明中,进一步的,所述数据预处理模块还包括数据清洗、数据整合功能,其中数据清洗包括脏数据去除、重复数据去重等算法。
40.本发明中,所述数据存储模块包括自底向上的三级的数据存储装置,第一级数据存储包括各个收集终端首先在本地存储原始数据并进行预处理,第二级数据存储包括各个类型终端分别收集对应的第一级中存储的数据进行统一存储,第三级数据存储包括收集第二级存储中的所有数据进行统一存储。通过三级存储机制有效提高数据收集时的写入效率,并方便组织管理,同时通过主库备库提供了容灾机制。
41.本发明中,所述数据管理模块,提供对所述数据收集模块,数据预处理模块,数据
存储模块的状态监控与服务调用,可以实时监控数据收集模块实时的服务情况,数据收集速度等,可以实时监控数据存储模块的数据存储状况与容量,可以对数据收集服务进行启动暂停停止管理等。
42.本发明提供一种针对各个类型应用程序的自动化数据收集系统,同时提供了可拓展的多层次数据收集存储管理服务,在针对ios、安卓等移动设备上的应用数据收集效率与传统人工方法比可以节省时间20倍以上,针对电脑端应用的数据采集效率可以节省时间10倍以上。
43.以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1