一种数据自动统计分析方法与流程

文档序号:12034771阅读:492来源:国知局

本发明涉及数据处理领域,特别涉及一种数据自动统计分析方法。



背景技术:

目前,在分析企业经营数据方面,仍然由数据分析师进行分析,撰写经营分析报告。经营分析报告的水准严重依赖于数据分析师的水平。因此需要一种不受数据分析师水平影响的数据统计分析方法,能够对企业经营数据进行处理,生成经营分析报告。

随着深度学习的流行,越来越多的领域开始引入深度学习用以对任务进行自动化处理。然而对于分析企业经营数据而言,深度学习仍面临较多的问题。这些问题包括:

样本数太少,难以生成有效的神经网络;

神经网络的训练需要标注的数据,即已有的企业经营数据和经营分析报告,这些数据的数量限制了神经网络的训练速度,更难以进行自主学习,让神经网络一直进行训练,提升自身对企业经营数据的分析的能力。



技术实现要素:

为解决以上问题,本发明提供一种数据自动统计分析方法。

本发明提供的一种数据自动统计分析方法,通过数据输入模块、数据处理模块、神经网络训练模块、数据输出模块实现,包括:

数据输入模块向数据处理模块发送企业经营数据;

数据处理模块,包括预处理模块、神经网络,在收到数据输入模块传来的企业经营数据后,通过预处理模块对企业经营数据进行预处理,得到预处理过的企业经营数据,并将预处理过的企业经营数据发给神经网络,由神经网络得到经营数据分析结果,并将经营数据分析结果发送至数据输出模块,其中,所述预处理包括对数据类别的统一分类和对数据的归一化处理;

神经网络训练模块,用于对神经网络进行训练;

数据输出模块在接收到经营数据分析结果后,将其按预设的模式生成并输出经营分析报告。

优选的,所述神经网络,为卷积神经网络。

优选的,所述神经网络训练模块,包括:

标记数据库,包括现实中的企业经营数据,预处理过的企业经营数据及所对应的经营分析报告;

数据生成模块,用于根据标记数据库中的内容,通过局部扰动的方法生成新的数据,所述新的数据包括新的企业经营数据,新的预处理过的企业经营数据及所对应的新的经营分析报告,所述新的数据和标记数据库中的数据组成训练集用来训练神经网络;

神经网络评估模块,包括测试集,用于对训练过的神经网络进行评估测试。

优选的,

训练神经网络时,使用dropout机制,在训练过程中随机禁止一半的神经元被修改。

优选的,

所述神经网络的激活函数为relu激活函数。

优选的,所述经营数据分析结果,为由评价指标及其评价值组成的矢量,所述评价指标包括:安全性指标、流动性指标、收益性指标、生产性指标和成长性指标。

优选的,

所述神经网络的成本函数为:

其中,c(θ)为成本函数;θ为待学习的参数;m为用来训练神经网络的数据总量,即由数据生成模块生成的新的数据和标记数据库中的数据之和;n为训练出来的结果的维度数量,即所述经营数据分析结果的评价指标的个数;i为用来训练神经网络的数据个数标识;j为训练出来的结果的维度标识;αj为各维度的权重系数,用于调整不同维度的数值的数量级的差异,即不同评价指标的评价值之间的差异,为预设的正实数;xi表示第i个用来训练神经网络的数据;hθ(xi)j为xi在参数θ的情况下训练出的结果在第j个维度下的值;yij为xi对应的训练集中的观测结果在第j个维度下的值,即训练集中第i个经营分析报告的第j个评价指标的评价值。

优选的,所述神经网络训练模块,还包括:

优化用神经网络,用于对数据处理模块中的神经网络的层数和节点数,数据生成模块中的所述局部扰动的方法的扰动参数进行优化,优化目标为使所述神经网络在测试集上的成本函数达到极小值。

优选的,

优化用神经网络对数据生成模块进行优化,得到优化过的数据生成模块;

优化过的数据生成模块生成更多的新的数据;

用标记数据库中的数据和所述更多的新的数据对所述卷积神经网络进行训练,生成新的卷积神经网络。

本发明的一些有益效果可以包括:

本发明提供的一种数据自动统计分析方法,对企业经营数据的分析不受数据分析师水平影响。还能够解决深度学习中训练样本数太少的问题,生成有效的神经网络;而且还可以在一定的有监督学习的基础上,实现自主学习,让神经网络进行持续的训练,提升对企业经营数据的分析的能力。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例中一种数据自动统计分析方法的流程图;

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

图1为本发明实施例中一种数据自动统计分析方法的流程图。如图1所示,该方法通过数据输入模块、数据处理模块、神经网络训练模块、数据输出模块实现,包括:

步骤s101、数据输入模块向数据处理模块发送企业经营数据;

步骤s102、数据处理模块,包括预处理模块、神经网络,在收到数据输入模块传来的企业经营数据后,通过预处理模块对企业经营数据进行预处理,得到预处理过的企业经营数据,并将预处理过的企业经营数据发给神经网络,由神经网络得到经营数据分析结果,并将经营数据分析结果发送至数据输出模块,其中,所述预处理包括对数据类别的统一分类和对数据的归一化处理;

步骤s103、神经网络训练模块,用于对神经网络进行训练;

步骤s104、数据输出模块在接收到经营数据分析结果后,将其按预设的模式生成并输出经营分析报告。

依据本发明提供的方法,通过使用神经网络对从企业经营数据得到经营分析报告进行训练,得到根据企业经营数据获取经营分析报告的方法。由于训练需要多个不同的企业经营数据和经营分析报告来进行,受单个企业经营数据和经营分析报告的影响小,因此可以不受单个数据分析师水平影响。

在本发明的一个实施例中,神经网络,为卷积神经网络。卷积神经网络与其他常用的神经网络相比,由于卷积层的卷积核共享权值,不仅可以大大降低神经网络中的参数的数量,还方便容易实现并行学习。不仅降低了神经网络的复杂度,还能方便加速神经网络的学习。

在本发明的一个实施例中,神经网络训练模块,包括:

标记数据库,包括现实中的企业经营数据,预处理过的企业经营数据及所对应的经营分析报告;

数据生成模块,用于根据标记数据库中的内容,通过局部扰动的方法生成新的数据,所述新的数据包括新的企业经营数据,新的预处理过的企业经营数据及所对应的新的经营分析报告,所述新的数据和标记数据库中的数据组成训练集用来训练神经网络;局部扰动的方法的实现为,对标记数据库中的企业经营数据,预处理过的企业经营数据及所对应的经营分析报告中的数据值,乘以一个实数作为系数,这个实数是由1加上一个随机数得到,随机数的绝对值较小,一般不大于10%,对于标记数据库中的一个数据值(由多个数值组成,包括企业经营数据,预处理过的企业经营数据及所对应的经营分析报告的所有数值),可以整体乘以这个系数,也可以每个数值分别乘以不同的系数。

神经网络评估模块,包括测试集,用于对训练过的神经网络进行评估测试。

依据本发明提供的方法,通过使用数据生成模块生成新的数据,增加了训练的数据量,从而解决训练样本过小导致的神经网络的过拟合问题,从而能够生成有效的神经网络。

在本发明的一个实施例中,训练神经网络时,使用dropout机制,在训练过程中随机禁止一半的神经元被修改。相当于对不同的神经网络取平均的效果,因此可以改善过拟合的问题。

在本发明的一个实施例中,神经网络的激活函数为relu激活函数。和使用其他激活函数相比,使用relu激活函数的训练速度更快。

在本发明的一个实施例中,经营数据分析结果,为由评价指标及其评价值组成的矢量,所述评价指标包括:安全性指标、流动性指标、收益性指标、生产性指标和成长性指标。在本发明的另一个实施例中,评价指标包括:总资本利润率、销售利润率、成本利润率、产值利润率、资金利润率、销售费用与销售额比率、销售额增长率、产值增长率、人员增长率、总资本增长率、利润增长率、利息负担率、流动资金利用率、固定资金利用率、自有资金率、固定资本比率、固定资金周转率、应收帐款周转率、盘存资产周转率、流动资金周转率、总资本周转率、全员劳动生产率,通过使用与常用评价指标相同的数据,可以避免不同类型数据之间的转换对数据精度的损失,从而更准确的实现神经网络的有监督学习。

在本发明的一个实施例中,神经网络的成本函数为:

其中,c(θ)为成本函数;θ为待学习的参数;m为用来训练神经网络的数据总量,即由数据生成模块生成的新的数据和标记数据库中的数据之和;n为训练出来的结果的维度数量,即所述经营数据分析结果的评价指标的个数;i为用来训练神经网络的数据个数标识;j为训练出来的结果的维度标识;αj为各维度的权重系数,用于调整不同维度的数值的数量级的差异,即不同评价指标的评价值之间的差异,为预设的正实数;xi表示第i个用来训练神经网络的数据;hθ(xi)j为xi在参数θ的情况下训练出的结果在第j个维度下的值;yij为xi对应的训练集中的观测结果在第j个维度下的值,即训练集中第i个经营分析报告的第j个评价指标的评价值。

依据本发明提供的方法,通过对各维度的权重的调节,使各数据在同一数量级上,能够避免神经网络的学习速度变慢甚至不收敛的情况。

在本发明的一个实施例中,神经网络训练模块,还包括:

优化用神经网络,用于对数据处理模块中的神经网络的层数和节点数,数据生成模块中的所述局部扰动的方法的扰动参数进行优化,优化目标为使所述神经网络在测试集上的成本函数达到极小值。通过使用优化用神经网络对神经网络和数据生成模块进行优化,能够避免因为初始值设置不合理导致神经网络效果不好,数据生成偏差过大的问题。

在本发明的一个实施例中,

优化用神经网络对数据生成模块进行优化,得到优化过的数据生成模块;

优化过的数据生成模块生成更多的新的数据;

用标记数据库中的数据和所述更多的新的数据对所述卷积神经网络进行训练,生成新的卷积神经网络。

依据本发明提供的方法,通过优化后的数据生成模块生成新的数据,可以实现对神经网络进行持续的训练,通过生成训练数据达到一种自主学习的效果,提升对企业经营数据的分析的能力。

本发明提供的一种数据自动统计分析方法,对企业经营数据的分析不受数据分析师水平影响。还能够解决深度学习中训练样本数太少的问题,生成有效的神经网络;而且还可以在一定的有监督学习的基础上,实现自主学习,让神经网络进行持续的训练,提升对企业经营数据的分析的能力。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1