一种数据分析方法及系统与流程

文档序号:12177210阅读:244来源:国知局
一种数据分析方法及系统与流程

本发明涉及数据处理领域,更具体地,涉及一种数据分析方法及系统。



背景技术:

试验会产生很多数据,不同类型的试验产生的数据格式不统一。对于数据量庞大、来源不同且格式不统一的数据,其处理和分析过程难度较大。试验的效果很大程度依赖于事后的数据处理和分析,能否最大限度地将试验所得的数据,通过合理、科学、规范的手段进行处理和分析,直接影响到试验的效果和价值。

目前没有科学、规范化的数据分析方法对试验数据进行处理和分析,导致试验数据处理及分析难度大,数据分析结论缺乏说服力的问题。



技术实现要素:

有鉴于此,本发明提供了一种数据分析方法及系统,合理、科学、规范地对试验数据进行处理和分析。具体的技术方案如下:

一种数据分析方法,所述方法包括:

接收多个数据文件,所述多个数据文件中包含原始数据;

接收并解析用户处理指令,根据所述用户处理指令对所述多个数据文件中的原始数据进行预处理,得到一个符合预设格式的待分析文件;所述待分析文件中包含与所述用户处理指令相对应的数据,且所有数据都处于相同的采样周期内;

接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组;

接收并解析用户计算指令,在预设算法库中选取与所述用户计算指令相对应的算法,并按照所述算法对各个所述试验点数据组进行计算;

对各个所述试验点的计算结果进行合并,并生成包括与所述算法相对应的数据分析图和/或数据分析表的分析报告。

优选的,所述接收并解析用户处理指令,根据所述用户处理指令对所述多个数据文件中的原始数据进行预处理,得到一个符合预设格式的待分析文件,包括:

接收并解析用户处理指令,得到各个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式,并得到一个统一的起始时间、终止时间和采样率;

根据各个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式对各个所述数据文件的原始数据进行读取与处理,得到各个规范化数据文件;

设置各个所述规范化数据文件的时间序列号,并将各个所述规范化数据文件中的时间参数转换为预设格式的时间参数;

根据所述统一的起始时间、终止时间和采样率,确定一个唯一的采样周期;

根据线性插值法,计算并得到所述采样周期中每个时刻的数据值;

将所述采样周期中的每个时刻的数据值写入各个相应的规范化数据文件中,并删除所述采样周期外的数据,生成各个同一采样周期的规范化数据文件;

读取各个所述同一采样周期的规范化数据文件中的列表头与所述列表头的参数值,并生成一个参数列表;

接收用户在所述参数列表里选择的多个参数,并从各个所述同一采样周期的规范化数据文件中抽取所述多个参数对应的数据,写入到一个待分析文件中。

优选的,所述接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组,包括:

接收并解析用户选择指令,得到一个或多个时间段与一个或多个参数范围;

将各个所述时间段内且符合各个所述参数范围的数据组确定为试验点数据组。

优选的,所述方法还包括:

接收用户上传的算法包,并将所述算法包保存到所述预设算法库中。

优选的,所述方法还包括:

将所述分析报告按用户选定的文件格式和保存路径进行输出。

一种数据分析系统,所述系统包括:

接收单元,用于接收多个数据文件,所述多个数据文件中包含原始数据;

预处理单元,用于接收并解析用户处理指令,根据所述用户处理指令对所述多个数据文件中的原始数据进行预处理,得到一个符合预设格式的待分析文件;所述待分析文件中包含与所述用户处理指令相对应的数据,且所有数据都处于相同的采样周期内;

选取单元,用于接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组;

计算单元,用于接收并解析用户计算指令,在预设算法库中选取与所述用户计算指令相对应的算法,并按照所述算法对各个所述试验点数据组进行计算;

生成单元,用于对各个所述试验点的计算结果进行合并,并生成包括与所述算法相对应的数据分析图和/或数据分析表的分析报告。

优选的,所述预处理单元包括:

第一解析子单元,用于接收并解析用户处理指令,得到各个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式,并得到一个统一的起始时间、终止时间和采样率;

处理子单元,用于根据各个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式对各个所述数据文件的原始数据进行读取与处理,得到各个规范化数据文件;

设置子单元,用于设置各个所述规范化数据文件的时间序列号,并将各个所述规范化数据文件中的时间参数转换为预设格式的时间参数;

第一确定子单元,用于根据所述统一的起始时间、终止时间和采样率,确定一个唯一的采样周期;

计算子单元,用于根据线性插值法,计算并得到所述采样周期中每个时刻的数据值;

生成子单元,用于将所述采样周期中的每个时刻的数据值写入各个相应的规范化数据文件中,并删除所述采样周期外的数据,生成各个同一采样周期的规范化数据文件;

读取子单元,用于读取各个所述同一采样周期的规范化数据文件中的列表头与所述列表头的参数值,并生成一个参数列表;

写入子单元,用于接收用户在所述参数列表里选择的多个参数,并从各个所述同一采样周期的规范化数据文件中抽取所述多个参数对应的数据,写入到一个待分析文件中。

优选的,所述选取单元包括:

第二解析子单元,用于接收并解析用户选择指令,得到一个或多个时间段与一个或多个参数范围;

第二确定子单元,用于将各个所述时间段内且符合各个所述参数范围的数据组确定为试验点数据组。

优选的,所述系统还包括:

保存单元,用于接收用户上传的算法包,并将所述算法包保存到所述预设算法库中。

优选的,所述系统还包括:

输出单元,用于将所述分析报告按用户选定的文件格式和保存路径进行输出。

相对于现有技术,本发明的有益效果如下:

本发明提供的数据分析方法及系统,接收并解析用户处理指令,将不同来源、不同形式的数据文件进行预处理,得到一个符合预设格式的待分析文件,并且可以根据用户的具体需要选择需要分析的参数,所有数据都处于相同的采样周期内,使待分析的数据时间同步;再接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组,在预设算法库中选取与所述用户计算指令相对应的算法,并按照所述算法对各个所述试验点数据组进行计算,具有多种算法的预设算法库满足了对数据不同的计算分析需求,最后对各个所述试验点的计算结果进行合并,并生成包括与所述算法相对应的数据分析图和/或数据分析表的分析报告。基于本发明的技术方案,可以合理、科学、规范的对试验数据进行处理和分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种数据分析方法流程图;

图2为本发明实施例公开的一种数据分析方法的又一方法流程图;

图3为本发明实施例公开的一种数据分析方法的又一方法流程图;

图4为本发明实施例公开的一种数据分析系统的结构示意图;

图5为本发明实施例公开的另一种数据分析系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明实施例公开了一种数据分析方法,所述方法具体包括以下步骤:

步骤S101:接收多个数据文件,所述多个数据文件中包含原始数据;

需要说明的是,系统接收的多个数据文件可以为不同格式的数据文件,所述原始数据可以为人工记录的试验环境数据,如天气情况等,需要人工将所述原始数据录入文件并上传系统,所述原始数据还可以为设备自动采集的数据,这些数据自动生成数据文件,可以直接上传至系统。

步骤S102:接收并解析用户处理指令,根据所述用户处理指令对所述多个数据文件中的原始数据进行预处理,得到一个符合预设格式的待分析文件;所述待分析文件中包含与所述用户处理指令相对应的数据,且所有数据都处于相同的采样周期内;

具体的,人工录入的数据文件或不同设备采集并生成的数据文件对数据的存储的规范不同,给后续对数据的分析造成了很大的困难,为此,本发明实施例提供的数据分析方法为用户提供了图形化交互界面,使用户对上传的每个数据文件进行格式的规范化设置,系统自动对每个数据文件进行预处理,得到一个符合预设格式的待分析文件。

对数据文件的预处理包括:数据文件格式的规范化、数据文件中数据的时间同步以及根据用户需要对数据文件中的参数进行抽取。

需要说明的是,利用该步骤生成的待分析文件可以进行绘图,通过图形曲线对试验数据进行初步查看,

步骤S103:接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组;

需要说明的是,在对试验数据进行分析时往往只需要对特定时间段内的数据进行分析,即对试验点数据组进行分析。系统提供一个可视化界面,使用户输入特定的过滤条件,对待分析文件中的数据进行时间维度的分割,得到一个或多个试验点数据组。

步骤S104:接收并解析用户计算指令,在预设算法库中选取与所述用户计算指令相对应的算法,并按照所述算法对各个所述试验点数据组进行计算;

具体的,系统有一个预设算法库,用户可以在所述预设算法库中选择合适的算法,系统按照所述算法对各个所述试验点数据组进行计算。

步骤S105:对各个所述试验点的计算结果进行合并,并生成包括与所述算法相对应的数据分析图和/或数据分析表的分析报告。

具体的,在对各个所述试验点数据组计算完成后,系统提供结果的多种展示方式,包括数据分析图和/或数据分析表,且所述数据分析图和/或数据分析表的分析结果与用户选择的算法相对应。

本发明提供的数据分析方法,接收并解析用户处理指令,将不同来源、不同形式的数据文件进行预处理,得到一个符合预设格式的待分析文件,并且可以根据用户的具体需要选择需要分析的参数,所有数据都处于相同的采样周期内,使待分析的数据时间同步;再接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组,在预设算法库中选取与所述用户计算指令相对应的算法,并按照所述算法对各个所述试验点数据组进行计算,具有多种算法的预设算法库满足了对数据不同的计算分析需求,最后对各个所述试验点的计算结果进行合并,并生成包括与所述算法相对应的数据分析图和/或数据分析表的分析报告。基于本发明的技术方案,可以合理、科学、规范的对试验数据进行处理和分析。

请参阅图2,所述方法中所述接收并解析用户处理指令,根据所述用户处理指令对所述多个数据文件中的原始数据进行预处理,得到一个符合预设格式的待分析文件,包括以下步骤:

步骤S201:接收并解析用户处理指令,得到各个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式,并得到一个统一的起始时间、终止时间和采样率;

具体的,系统为用户提供一个可视化界面,用户对每一个数据文件进行设置,使系统得到每个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式,并得到一个统一的起始时间、终止时间和采样率;

步骤S202:根据各个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式对各个所述数据文件的原始数据进行读取与处理,得到各个规范化数据文件;

具体的,系统根据用户的设置,自动对各个数据文件中的原始数据进行处理和读取,得到各个规范化的数据文件,便于后续分析处理。

步骤S203:设置各个所述规范化数据文件的时间序列号,并将各个所述规范化数据文件中的时间参数转换为预设格式的时间参数;

可以理解的是,每个规范化数据文件中都有一列参数表示时间,将这一列的序号作为该规范化数据文件的时间序列号,且各个规范化数据文件中的时间参数的格式可能不同,将各个规范化数据文件中的时间参数转换为预设格式的时间参数,方便与后续的比较。

所述预设格式为根据实际需要的任何一种时间参数格式。

步骤S204:根据所述统一的起始时间、终止时间和采样率,确定一个唯一的采样周期;

需要说明的是,由于数据来源可能不同,导致各个规范化数据文件存在着采样率不同或起止时间不同等问题,因此,本发明实施例提供了时间同步的设置,用户设置起始时间、终止时间和采样率,系统根据用户的设置自动确定一个唯一的采样周期。

步骤S205:根据线性插值法,计算并得到所述采样周期中每个时刻的数据值;

可以理解的是,由于不同规范化数据文件中的采样率可能不同,同一采样周期中,采样率高的数据文件中的数据比采样率低的数据文件中多,不利于后续的分析。

步骤S206:将所述采样周期中的每个时刻的数据值写入各个相应的规范化数据文件中,并删除所述采样周期外的数据,生成各个同一采样周期的规范化数据文件;

本发明实施例提供的数据分析方法,利用线性插值法计算并得到所述采样周期中每个时刻的数据值,将所述采样周期中的每个时刻的数据值写入各个相应的规范化数据文件中,使各个规范化数据文件中的采样率相同,便于后续的比较分析,其中所述线性插值法是数学、计算机图形学等领域广泛使用的一种简单插值方法,在此不再赘述。

步骤S207:读取各个所述同一采样周期的规范化数据文件中的列表头与所述列表头的参数值,并生成一个参数列表;

具体的,在各个规范化数据文件中,每一列代表一个类型的参数,读取各个规范化数据文件中的列表头可以得到一个参数列表。

步骤S208:接收用户在所述参数列表里选择的多个参数,并从各个所述同一采样周期的规范化数据文件中抽取所述多个参数对应的数据,写入到一个待分析文件中。

具体的,根据用户需要,在所述参数列表里选择多个参数,并从各个所述同一采样周期的规范化数据文件中抽取所述多个参数对应的数据,写入到一个待分析文件中,实现了对各个数据文件的规范化处理、时间同步以及参数抽取。

优选的,所述步骤S103:接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组,具体执行过程如下:

接收并解析用户选择指令,得到一个或多个时间段与一个或多个参数范围;

将各个所述时间段内且符合各个所述参数范围的数据组确定为试验点数据组。

具体的,本发明实施例提供了两种对试验点数据组的选择途径:数据选段和逻辑选段。

在数据选段中,用户通过可视化界面,确定各个试验点数据的时间范围,输入起始时间和终止时间,将该时间段内的数据保存为试验点数据。

在逻辑选段是对数据选段的增强,用户可以在可视化界面中,选择参数的取值范围,例如:设置速度的范围、高度的范围或温度的范围等。

系统对满足上述条件范围的数据进行过滤,得到各个试验点数据组。

请参阅图3,所述方法还包括:

步骤S106:接收用户上传的算法包,并将所述算法包保存到所述预设算法库中。

可以理解的是,本发明提供的数据分析方法适用于现有的任何一种试验数据的分析,但是对试验数据分析的算法却很难穷尽,所以,在实际应用中,用户可能在预设算法库中找不到对实验数据对应的算法,这个时候,用户可以上传对应的算法包,将所述算法包保存到预设算法库中,然后从预设算法库中选择该算法进行计算分析。

步骤S106是对上述实施例的补充,使本发明的技术方案更加完整。

步骤S107:将所述分析报告按用户选定的文件格式和保存路径进行输出。

需要说明的是,本发明实施例提供了多种文件格式供用户选择,文件格式包括:Word、PDF、EXCEL等常用的文件格式。用户选择文件格式后选择合适的保存路径,系统根据用户选定的文件格式和保存路径进行输出。

基于上述实施例公开的一种数据分析方法,请参阅图4,本发明实施例对应公开了一种数据分析系统,包括:

接收单元101,用于接收多个数据文件,所述多个数据文件中包含原始数据;

预处理单元102,用于接收并解析用户处理指令,根据所述用户处理指令对所述多个数据文件中的原始数据进行预处理,得到一个符合预设格式的待分析文件;所述待分析文件中包含与所述用户处理指令相对应的数据,且所有数据都处于相同的采样周期内;

选取单元103,用于接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组;

计算单元104,用于接收并解析用户计算指令,在预设算法库中选取与所述用户计算指令相对应的算法,并按照所述算法对各个所述试验点数据组进行计算;

生成单元105,用于对各个所述试验点的计算结果进行合并,并生成包括与所述算法相对应的数据分析图和/或数据分析表的分析报告。

本发明实施例提供的数据分析系统,接收并解析用户处理指令,将不同来源、不同形式的数据文件进行预处理,得到一个符合预设格式的待分析文件,并且可以根据用户的具体需要选择需要分析的参数,所有数据都处于相同的采样周期内,使待分析的数据时间同步;再接收并解析用户选择指令,依据所述用户选择指令,在所述待分析文件中选取一个或多个试验点数据组,在预设算法库中选取与所述用户计算指令相对应的算法,并按照所述算法对各个试验点数据组进行计算;最后对各个试验点的计算结果进行合并,并生成包括与该算法相对应的数据分析图和/或数据分析表的分析报告。基于本发明的技术方案,实现合理、科学、规范的对试验数据进行处理和分析。

请参阅图5,所述预处理单元102包括:

第一解析子单元108,用于接收并解析用户处理指令,得到各个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式,并得到一个统一的起始时间、终止时间和采样率;

处理子单元109,用于根据各个所述数据文件的有效数据的起始行、跳过的行号、列分隔符与数据读取方式对各个所述数据文件的原始数据进行读取与处理,得到各个规范化数据文件;

设置子单元110,用于设置各个所述规范化数据文件的时间序列号,并将各个所述规范化数据文件中的时间参数转换为预设格式的时间参数;

第一确定子单元111,用于根据所述统一的起始时间、终止时间和采样率,确定一个唯一的采样周期;

计算子单元112,用于根据线性插值法,计算并得到所述采样周期中每个时刻的数据值;

生成子单元113,用于将所述采样周期中的每个时刻的数据值写入各个相应的规范化数据文件中,并删除所述采样周期外的数据,生成各个同一采样周期的规范化数据文件;

读取子单元114,用于读取各个所述同一采样周期的规范化数据文件中的列表头与所述列表头的参数值,并生成一个参数列表;

写入子单元115,用于接收用户在所述参数列表里选择的多个参数,并从各个所述同一采样周期的规范化数据文件中抽取所述多个参数对应的数据,写入到一个待分析文件中。

所述选取单元103包括:

第二解析子单元116,用于接收并解析用户选择指令,得到一个或多个时间段与一个或多个参数范围;

第二确定子单元117,用于将各个所述时间段内且符合各个所述参数范围的数据组确定为试验点数据组。

请参阅图5,所述数据分析系统还包括:

保存单元106,用于接收用户上传的算法包,并将所述算法包保存到所述预设算法库中。

输出单元107,用于将所述分析报告按用户选定的文件格式和保存路径进行输出。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1