结构化数据统计分析与报告智能生成系统的制作方法

文档序号:33505120发布日期:2023-03-17 23:51阅读:75来源:国知局
结构化数据统计分析与报告智能生成系统的制作方法

1.本发明涉及报告生成技术领域,尤其涉及结构化数据统计分析与报告智能生成系统。


背景技术:

2.结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业erp、财务系统;医疗his数据库;教育一卡通;政府行政审批;其他核心数据库等。报告使用范围很广。按照上级部署或工作计划,每完成一项任务,一般都要向上级写报告,反映工作中的基本情况、工作中取得的经验教训、存在的问题以及今后工作设想等,以取得上级领导部门的指导。
3.现有的报告生成过程中,通常都是将数据输入预设的报告模板中,根据报告模板填入对应的数据,从而生成按照报告模板进行设计的报告样式,例如,公开号为cn104657138b的现有文件1中公开了一种基于脚本的报告生成系统及方法,该系统就是将多个数据来源的数据输入定义好的报告模板中生成想要的报告样式,再例如,公开号为cn102929854a的现有文件2中公开了一种基于wams动态数据的自动报告生成系统,该系统也只是将动态变化的数据写入报告模板中;上述技术方案都是根据报告模板输出报告,对于报告的内容有效性不能进行分析,生成的报告会存在很多无效的信息,例如,动态数据如果保持稳定,则每次更新的报告内容基本相同,浪费了数据处理资源,同时,现有的技术都是基于用户需要的前提下将数据输入后对应生成报告,缺乏对数据库内的数据进行主动分析并智能筛选生成报告的方法或系统。


技术实现要素:

4.针对现有技术存在的不足,本发明目的是提供结构化数据统计分析与报告智能生成系统,用于解决现有的报告生成方法不具备数据主动筛选的能力,导致报告生成后的数据有效性较低的问题,具体通过对存储数据库内的数据进行预筛选,提取初步的有效数据,在报告生成时进一步进行条件筛选,能够提高最终生成报告的数据有效性。
5.为了实现上述目的,本发明提供结构化数据统计分析与报告智能生成系统,所述智能生成系统包括存储数据库、数据分析模块、数据提取模块、报告分类设定模块以及报告生成模块;所述数据分析模块用于对存储数据库内的数据进行初步分析,并对初步分析后的数据进行信息标记;所述数据提取模块配置有提取模板,所述数据提取模块根据提取模块提取对应信息标记的数据;所述报告分类设定模块用于对报告的信息填写栏进行分类,设置填写栏的有效填写区间,根据填写栏的有效填写区间对提取的数据进行筛选;所述报告生成模块用于将筛选后的数据生成报告。
6.进一步地,所述存储数据库配置有数据存储策略,所述数据存储策略包括:设置结
构化平行表单,根据结构化平行表单将数据对应填写后进行存储。
7.进一步地,所述结构化平行表单配置有表单增加子策略,所述表单增加子策略包括:对结构化平行表单内的填写项设置字数阈值和内存阈值,当填写项的填写字数大于等于字数阈值或填写内存大于等于内存阈值时,输出表单填写更新信号;对结构化平行表单的生成时长设置时长阈值,当结构化平行表单的生成时长大于等于时长阈值时,输出表单时长更新信号;当接收到表单填写更新信号或表单时长更新信号时,生成新的结构化平行表单,根据新的结构化平行表单进行数据存储。
8.进一步地,所述数据分析模块配置有数据分析策略,所述数据分析策略包括:通过一组表单选取方法按照结构化平行表单的生成前后顺序依次选取,将选取的每一组结构化平行表单分别进行标记,依次标记为bdi,其中,i设置为1或2;当i为1时,bd1表示一组结构化平行表单中生成时间靠前的结构化平行表单,当i为2时,bd2表示一组结构化平行表单中生成时间靠后的结构化平行表单。
9.进一步地,所述一组表单选取方法包括:对前后生成的两个结构化平行表单进行查重比对,得到表单重复比例,将第一次比对的前后生成的两个结构化平行表单分别标记为第一结构化平行表单和第二结构化平行表单;当表单重复比例大于等于第一比例阈值时,选取下一个结构化平行表单与第一结构化平行表单进行查重比对,直至得到的表单重复比例小于第一比例阈值时,将第一结构化平行表单与当前比对的结构化平行表单设置为一组结构化平行表单。
10.进一步地,所述数据提取模块配置有提取模板设置策略,所述提取模板设置策略包括:对每一组结构化平行表单中的两个结构化平行表单进行存储内容筛选;对结构化平行表单的每一个填写项的填写字数和填写内存进行获取,根据填写有效性计算公式计算得到填写有效比例;所述有效性计算公式配置为:;其中,ybl为填写有效比例,st为当前填写项内的填写字数,sy为当前填写项内的字数阈值,ct为当前填写项内的填写内存,cy为当前填写项内的内存阈值,b1为有效参考比例,k1为比例转换系数,α为有效计算底数,b1、k1以及α均为常数,b1的取值范围为0.5-0.8之间,k1的取值大于或等于4,α的取值范围为1-1.5之间;将得到的结构化平行表单的所有填写项的填写有效比例求取平均值,并设定为表单填写比例,当表单填写比例小于等于第一填写比例阈值时,将筛选的结构化平行表单设置为无效表单;当一组结构化平行表单中存在至少一个无效表单时,标记为无效组结构化平行表单;当一组结构化平行表单中不存在无效表单时,标记为有效组结构化平行表单;每获取第一数量的有效组结构化平行表单,按照表单重复比例由小到大将第一数量的有效组结构化平行表单进行排序,提取排序前第一有效比例的有效组结构化平行表单。
11.进一步地,所述有效性计算公式中,b1设置为0.5,k1设置为4,α设置为1.2,有效性
计算公式还配置为:。
12.进一步地,所述报告分类设定模块配置有报告分类设定策略,所述报告分类设定策略包括:将报告的信息填写栏设置为定性填写栏和定量填写栏;其中,定性填写栏包括定性特征,所述定性特征包括字数特征和内存特征,所述定量填写栏包括定量特征,所述定量特征包括相同特征和差异特征;将提取的第一有效比例的有效组结构化平行表单中单个的表单逐一进行定性特征和定量特征的提取,将提取后的信息生成初步报告参考表单。
13.进一步地,将提取的第一有效比例的有效组结构化平行表单中单个的表单逐一进行定性特征和定量特征的提取包括:对定性特征设置有效填写区间;其中,定性特征的有效填写区间的设置方法包括:对字数特征设置有效字数区间,对内存特征设置有效内存区间;将有效组结构化平行表单中单个的表单中属于定性特征的填写项进行获取,并将填写项中的字数特征在有效字数区间且内存特征在有效内存区间内的填写项保留,并设定为定性填写参考项;将属于同一有效组结构化平行表单中的两个表单对应获取的定性填写参考项进行查重比对,得到定性重复比例,将定性重复比例小于第一定性重复阈值的两组定性填写参考项进行保留,并设定为有效定性填写项;对定量特征进行差异选取,其中,定量特征的差异选取方法包括:将属于同一有效组结构化平行表单中的两个表单对应的定量特征进行获取,当获取的两个定量特征相同时,则标记为相同特征;当获取的两个定量特征不相同时,则标记为差异特征;将属于差异特征的两个定量特征的填写项设定为有效定量填写项;将提取后的信息生成初步报告参考表单包括:获取每一组有效组结构化平行表单中的有效定性填写项的数量和有效定量填写项的数量之和,设定为有效项数量;提取有效项数量最多的有效组结构化平行表单作为初步报告参考表单,将初步报告参考表单对应的有效组结构化平行表单的前后两组表单分别设定为基础参照表单和对比参照表单。
14.进一步地,所述报告生成模块配置有报告生成策略,所述报告生成策略包括:设置若干基础填写栏和若干对比填写栏;若干基础填写栏和若干对比填写栏竖向设置,且填写类型按照横向相互对应;若干基础填写栏用于填写基础参照表单的数据,若干对比填写栏用于填写对比参照表单的数据。
15.本发明的有益效果:本发明通过数据分析模块能够对存储数据库内的数据进行初步分析,并对初步分析后的数据进行信息标记;通过数据提取模块能够根据提取模块提取对应信息标记的数据;该方法能够对存储数据库进行初步有效性数据的筛选,为报告的生成缩小数据填写范围;本发明通过报告分类设定模块能够对报告的信息填写栏进行分类;通过数据筛选模块设置填写栏的有效填写区间,根据填写栏的有效填写区间对提取的数据进行筛选;最
后通过报告生成模块能够将筛选后的数据生成报告,该方法能够将有效的对比数据加入到报告中,使生成的报告的数据具备比对性,从而提高报告生成的数据有效性。
16.本发明附加方面的优点将在下面的具体实施方式的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
17.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的和优点将会变得更明显:图1为本发明的智能生成系统的原理框图;图2为本发明的报告的填写栏设置示意图。
具体实施方式
18.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
19.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
20.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
21.请参阅图1所示,本发明提供一种结构化数据统计分析与报告智能生成系统,具体通过对存储数据库内的数据进行预筛选,提取初步的有效数据,在报告生成时进一步进行条件筛选,能够提高最终生成报告的数据有效性,能够解决现有的报告生成方法不具备数据主动筛选的能力,导致报告生成后的数据有效性较低的问题。
22.具体地,智能生成系统包括存储数据库、数据分析模块、数据提取模块、报告分类设定模块、数据筛选模块以及报告生成模块。
23.存储数据库内存储的数据采用结构化数据统计方法进行统计存储;存储数据库配置有数据存储策略,数据存储策略包括如下步骤:步骤s1,设置结构化平行表单,根据结构化平行表单将数据对应填写后进行存储。在步骤s1中,结构化平行表单的设置目的在于,能够将存储的数据根据结构化平行表单进行预分类存储,不属于结构化平行表单内填写项的数据则按照现有的结构化数据统计方法正常进行存储,结构化平行表单能够将生产报告中所需的数据进行一个粗略统计,此处的统计数据比较全面,数据量也较大,因此需要后续的筛选方法进行逐一筛选后生成报告。
24.结构化平行表单配置有表单增加子策略,表单增加子策略包括如下步骤:步骤s11,对结构化平行表单内的填写项设置字数阈值和内存阈值,当填写项的填写字数大于等于字数阈值或填写内存大于等于内存阈值时,输出表单填写更新信号;步骤s11中的字数阈值和内存阈值可以较后续的有效字数区间和有效内存区间相对大一些,能够保证筛选的范围相对宽泛。筛选的过程也是逐步缩小的过程。
25.步骤s12,对结构化平行表单的生成时长设置时长阈值,当结构化平行表单的生成时长大于等于时长阈值时,输出表单时长更新信号;步骤s12时的时长阈值具体根据报告应用的领域中的数据更新效率进行设置,如果数据更新的效率快,则对应的时长阈值设置较
小,如果数据更新的效率慢,则对应的时长阈值设置较大,通常情况下,时长阈值可以按照24个小时作为标准。
26.步骤s13,当接收到表单填写更新信号或表单时长更新信号时,生成新的结构化平行表单,根据新的结构化平行表单进行数据存储。步骤s13中,可以根据优先原则进行表单更新,是存储数据满了或者时长到了都可以触发表单更新,其中,存储数据满了表示为填写项的填写字数大于等于字数阈值或填写内存大于等于内存阈值时,时长到了具体表示为生成时长大于等于时长阈值时。
27.数据分析模块用于对存储数据库内的数据进行初步分析,并对初步分析后的数据进行信息标记;数据分析模块配置有数据分析策略,数据分析策略包括如下步骤:步骤s2,通过一组表单选取方法按照结构化平行表单的生成前后顺序依次选取,将选取的每一组结构化平行表单分别进行标记,依次标记为bdi,其中,i设置为1或2;当i为1时,bd1表示一组结构化平行表单中生成时间靠前的结构化平行表单,当i为2时,bd2表示一组结构化平行表单中生成时间靠后的结构化平行表单。步骤s2中,选取的两组表单能够为后续的报告生成提供两组比对数据。
28.其中,一组表单选取方法包括如下步骤:步骤s21,对前后生成的两个结构化平行表单进行查重比对,得到表单重复比例,将第一次比对的前后生成的两个结构化平行表单分别标记为第一结构化平行表单和第二结构化平行表单;步骤s21中,在进行查重比对过程中具体采用现有的文献查重方法进行文字查重比对,表单重复比例表示两个表单的相同内容的比例。
29.步骤s22,当表单重复比例大于等于第一比例阈值时,选取下一个结构化平行表单与第一结构化平行表单进行查重比对,直至得到的表单重复比例小于第一比例阈值时,将第一结构化平行表单与当前比对的结构化平行表单设置为一组结构化平行表单。步骤s22中,通过步骤s22的选取方法能够选取两个差异性较大的表单作为一组结构化平行表单,具体的第一比例阈值可以设置为50%。
30.数据提取模块配置有提取模板,数据提取模块根据提取模块提取对应信息标记的数据;数据提取模块配置有提取模板设置策略,提取模板设置策略包括如下步骤:步骤s31,对每一组结构化平行表单中的两个结构化平行表单进行存储内容筛选;步骤s32,对结构化平行表单的每一个填写项的填写字数和填写内存进行获取,根据填写有效性计算公式计算得到填写有效比例;有效性计算公式配置为:;其中,ybl为填写有效比例,st为当前填写项内的填写字数,sy为当前填写项内的字数阈值,ct为当前填写项内的填写内存,cy为当前填写项内的内存阈值,b1为有效参考比例,k1为比例转换系数,α为有效计算底数,b1、k1以及α均为常数,b1的取值范围为0.5-0.8之间,k1的取值大于或等于4,α的取值范围为1-1.5之间;步骤s33,将得到的结构化平行表单的所有填写项的填写有效比例求取平均值,并设定为表单填写比例,当表单填写比例小于等于第一填写比例阈值时,将筛选的结构化平行表单设置为无效表单;具体设置时,b1设置为0.5,k1设置为4,α设置为1.2,有效性计算公
式还配置为:。例如,在具体实施时,st为20,sy为30,ct为12mb,cy为20mb,在求取过程中,选取小数位后两位进行四舍五入的求取方式,求得填写有效比例为1.11;第一填写比例阈值通常按照正常填写能够有效利用的比例进行设置,第一填写比例阈值设置为1;1.11》1,对应的结构化平行表单不属于无效表单。
31.步骤s34,当一组结构化平行表单中存在至少一个无效表单时,标记为无效组结构化平行表单;当一组结构化平行表单中不存在无效表单时,标记为有效组结构化平行表单;步骤s34中,当存在无效表单时,表示该表单中的填写项填写不全或者填写内容较少。
32.步骤s35,每获取第一数量的有效组结构化平行表单,按照表单重复比例由小到大将第一数量的有效组结构化平行表单进行排序,提取排序前第一有效比例的有效组结构化平行表单;具体实施时,步骤s35中,第一有效比例设置为30%,第一数量设置为10,则从中选取3组作为有效组结构化平行表单。
33.报告分类设定模块用于对报告的信息填写栏进行分类,设置填写栏的有效填写区间,根据填写栏的有效填写区间对提取的数据进行筛选;报告分类设定模块配置有报告分类设定策略,报告分类设定策略包括如下步骤:步骤s31,将报告的信息填写栏设置为定性填写栏和定量填写栏;其中,定性填写栏包括定性特征,定性特征包括字数特征和内存特征,定量填写栏包括定量特征,定量特征包括相同特征和差异特征;步骤s31中,定性特征在具体实施时可以设置为备注栏信息、介绍栏信息等,在备注栏信息和介绍栏信息中,通常通过数字描述进行展示,定量特征在具体实施时可以设置为姓名栏信息、体征参数栏信息等,该处信息往往十分明确,可以很好地进行比对识别;步骤s32,将提取的第一有效比例的有效组结构化平行表单中单个的表单逐一进行定性特征和定量特征的提取,对定性特征设置有效填写区间,对定量特征进行差异选取;步骤s32中,根据定性特征和定量特征的特性,对定性特征可以采用字数和内存进行粗略化的比对,对于定量特征可以进行精准化的比对。
34.步骤s33,将提取后的信息生成初步报告参考表单。
35.其中,定性特征的有效填写区间的设置方法包括如下步骤:步骤s3211,对字数特征设置有效字数区间,对内存特征设置有效内存区间;步骤s3212,将有效组结构化平行表单中单个的表单中属于定性特征的填写项进行获取,并将填写项中的字数特征在有效字数区间且内存特征在有效内存区间内的填写项保留,并设定为定性填写参考项;在步骤s3212中,在一些报告中通常会对字数和内存大小有要求,因此先设置有效字数区间和有效内存区间进行初步筛选,将不符合标准的数据进行剔除。
36.步骤s3213,将属于同一有效组结构化平行表单中的两个表单对应获取的定性填写参考项进行查重比对,得到定性重复比例,将定性重复比例小于第一定性重复阈值的两组定性填写参考项进行保留,并设定为有效定性填写项。将符合标准的数据保留后,对于定性数据采用查重比对可以有效地识别两组数据的相似度,具体设置时,第一定性重复阈值可以设置为50%。
37.其中,定量特征的差异选取方法包括如下步骤:步骤s3221,将属于同一有效组结构化平行表单中的两个表单对应的定量特征进行获取,当获取的两个定量特征相同时,则标记为相同特征;当获取的两个定量特征不相同时,则标记为差异特征;将属于差异特征的两个定量特征的填写项设定为有效定量填写项;在进行定量特征比对时,采用精准比对。
38.步骤s3222,将提取后的信息生成初步报告参考表单包括:获取每一组有效组结构化平行表单中的有效定性填写项的数量和有效定量填写项的数量之和,设定为有效项数量;当两个表单中的有效项数量较多时,表示两个表单的重复性越小,越具备比对价值,为报告的生产提供的比对数据越具备有效性。
39.步骤s3223,提取有效项数量最多的有效组结构化平行表单作为初步报告参考表单,将初步报告参考表单对应的有效组结构化平行表单的前后两组表单分别设定为基础参照表单和对比参照表单。
40.请参阅图2所示,报告生成模块用于将筛选后的数据生成报告;报告生成模块配置有报告生成策略,报告生成策略包括如下步骤:步骤s41,设置若干基础填写栏和若干对比填写栏;若干基础填写栏和若干对比填写栏竖向设置,且填写类型按照横向相互对应;通常情况下若干基础填写栏和若干对比填写栏按照竖向进排列,便于生产报告后进行左右数据比对。
41.步骤s42,若干基础填写栏用于填写基础参照表单的数据,若干对比填写栏用于填写对比参照表单的数据。
42.工作原理:本发明通过数据分析模块能够对存储数据库内的数据进行初步分析,并对初步分析后的数据进行信息标记;通过数据提取模块能够根据提取模块提取对应信息标记的数据;对存储数据库进行初步有效性数据的筛选,为报告的生成缩小数据填写范围;再通过报告分类设定模块能够对报告的信息填写栏进行分类;通过数据筛选模块设置填写栏的有效填写区间,根据填写栏的有效填写区间对提取的数据进行筛选;最后通过报告生成模块能够将筛选后的数据生成报告,使生成的报告中的数据具备比对价值,增强报告的数据有效性。
43.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
44.以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1