一种对话式交互数据分析报告系统的制作方法

文档序号:32434802发布日期:2022-12-06 17:38阅读:25来源:国知局
一种对话式交互数据分析报告系统的制作方法

1.本发明涉及一种对话式交互数据分析报告系统。涉及的原始语音先经输入模块转化为文本,再经语音识别调动数据搜索引擎,启动分析路径进行数据分析,生成分析报告及数据可视化展示,实现数据分析结果的自动化、形象化展示。


背景技术:

2.数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大程度上开发数据的功能,发挥数据的作用。传统数据分析流程是通过需求分析、人工数据提取、手动数据分析、得出分析结论。而数据分析的自动生成流程则有基于埋点分析和漏斗分析的分析报表生成方案和基于国网指标体系的通用电力企业数据分析系统。基于埋点分析和漏斗分析方案是基于分析人员预设置的埋点分析配置信息,确定埋点的分析信息和分析指标,如时间粒度、待分析时间范围等,然后通过数据查询和报表生成程序,生成数据分析报表。基于国网指标体系的通用电力企业数据分析系统是将源数据通过数据接入模块存储到系统存储模块,利用计算机软件进行数据分析,将最终的数据分析报告展示出来。
3.随着人机交互对话系统(cn109829052a、cn108877797a、cn109192205b、202011359592)和数据分析报告自动生成系统(cn201610138023.8)的开发,缩短了数据分析时间和自动化数据分析,但对于复杂的数据分析系统,不仅需要数据分析,而且需要数据挖掘和预测。
4.本发明完善了现有技术的不足,通过对话方式,经语音识别调动数据搜索引擎,启动分析路径进行数据分析和数据挖掘,生成分析报告及数据多样化展示。


技术实现要素:

5.本发明由输入模块、解析模块、分析模块、报告模块四部分组成,如图1(对话式交互数据分析报告系统架构图)所示。
6.第一步:输入模块。本步骤的目的是采集数据分析人员的分析需求,系统通过采集分析人员的语音输入,获取数据分析需求关键信息,并确保用户语音信息的及时及完整性输入,包括:(1)用户语音输入需要分析的内容,系统将用户输入的模拟语音信息转换为数字语音信息,然后将语音信息发送至文本转换模块;(2)文本转换模块接收到语音信息,采用预先设置的算法将语音信息转换为文本信息,传递给文本解析系统。
7.第二步:解析模块。本步骤的目的是解析语音转换系统发送的数据分析需求文本,从中获取分析关键词,匹配数据分析规则。本发明所提供的系统采用关键词算法,将数据分析需求文本中的关键信息提取成有一定顺序的词语,通过和预设值的实际业务场景关键词,应用电子表格软件(excel)里的纵向查找函数(vlookup)进行模糊匹配,获取需要分析的内容、相关联数据源表名称、相关字段名称等信息。其中各子模块的功能如图2(最优分析路径选择过程)所示,具体为:(1)语音文本转换模块:将输入语音信息识别转换为文本信
息,方便后台进行识别;语音识别模块:关联语音库信息,进行语音文本识别,获取关键有用信息;数据地图搜索引擎:关联数据库中所有元数据,启动引擎搜索语音文本中对应的所有数据信息;分析路径生成模块:利用大数据分析技术,科学化进行分析,识别最佳数据分析路径,减少数据搜索及生成时长。数据分析语句生成模块:系统根据分析路径,自动生成数据分析的最佳技术语句。(2)语义识别模块:语义分析技术是人工智能的一个分支,是自然语言处理的几个核心任务之一,目前已经实现了集词法分析、句子理解、意图分类及句子以度量的一体化语义理解算法体系。该模块采用深度学习技术中在自然语言处理方面最有效的循环神经网络技术(rnns),能够对任何长度的序列数据进行处理,实现词向量表达、语句合法性检查、词性标注等,配合语义库进行实际业务场景的深度理解,精确高效的分析出实际需求,为数据分析自动化生成系统提供强有力的支撑。(3)语义库的构建:语义库是业务知识融合库,库中包含了从业务数据库根据一定规则导入进来的数据所构建核心基础表,将业务信息及对应业务指标以一定的规则输入语义库,搭建出一个专业的业务知识融台库。语义库的构建包括业务模型和数据模型,与其它语义库业务回复不同,其主要配合语义识别模块理解语义下的深层信息,实现数据分析的直观化展示,与现有语音识别转文本存在本质的不同。由语义解析后生成sql的过程,目前采用的是计算机编程语言 (fython)脚本生成,后续可优化调整为算法提高分析语句生成效率,生成sql的过程已经涵盖了分析路径的选择,可在每个节点进行最优分析路径的选择。(4)分析路径生成模块:预先设置固定的分析路径,如拆解、归纳等,通过语义识别模块对语义进行分析判断后,根据实际需求及数据实现智能化判别分析路径,选择最佳分析路径,实现最优化判别。(5)数据分析语句生成模块:提取关键词之后,使用rnns中实现的词性标注算法,利用事先制定好的规则对具有多个词性的词进行消岐,最后保留一个正确的词性,如该词是名词,到表或列的词义库找对应的表信息或列信息,组成查询语句;如该词是时间词或条件词,即到时间词库和条件词库中找对应的语法格式;如条件表达大于多少时,取对应的大于号“>”,最后组合条件语句。sql语句拼凑完成后执行,根据查询结果进行显示。
8.第三步:分析模块。本步骤的目的是根据步骤二的解析结果,执行对应结算程序,得到可视化结果。其中各子模块功能如下。数据分析执行模块:执行技术语句,生成对应数据分析结果;数据可视化引擎:使用大数据可视化引擎(dhageney)等工具,识别最佳展示方式,将分析结果进行可视化展示,实现最优展示结果。
9.第四步:报告模块。本步骤的目的是用分析报告引擎,进行统计和数据挖掘工作,生成最终的数据分析报告。首先清洗各项指标数据,进行数据挖掘分析,深层次挖掘潜在业务逻辑,然后通过数据建模预测未来数据走势,最后输出数据分析报告。其中的数据分析报告包括三部分内容,一是数据常规统计分析,二是数据波动归因分析,三是对预测未来数据走势。数据统计分析可以是由数据库中直接提取的字段数据,或是通过计算生成的各项业务指标数据。比如,可以是将业务数据按时间刻度、业务类别、地理区域进行整体统计、描述性分析展示,也可以是数据的同比、环比变化率的分析。常规分析中,基于所配置的分析信息,生成数据查询代码。具体内容包括,基于分析关键字确定数据源表位置及数据字段名,基于分析时间信息确定数据查询时间限定,最后调用数据查询引擎执行生成的sql语句获取数据。基于分析指标所配置的计算公式,将查询的数据进行计算,获得各项指标的值,基于所配置的图表信息设置,将上述值列出不同的图表类型。
具体实施方式
10.为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施方式对本发明作详细的描述,但不限定本发明的实施范围。
11.实施例1
12.在移动通信某企业的结算业务数据分析部署该系统,应用服务器采用主从式部署,机器型号 (huawei2288hv5 4214cpu*2单电sr430c 32g内存4t硬盘*2),业务数据模型30个,数据量千万级,语音输入设备采用ps-318台式有线话筒,语义库收集业务相关语义147万条词条,元数据库搜索生成3567 个常用数据。第一步,用语音输入设备辅入业务分析需求(如:请查询今年结算的收入及支出情况);第二步,系统对该条输入进行语义解析,理解为查询年度结算收入表中收入金额字段支出表中支出金额字段;第三步,向数据库提交查询请求,以柱图加表格的形式展示并保存为中间结果;第四步,生成演示文档(ppt) 或便携式文档(pdf)格式报告。
13.性能测试:数据分析平均反馈时间20-25s,语音语义正确解析率98.5%,计算公式:正确转成文本的语音条数/语音输入总条数*100%,语义词条正确匹配率87%(随语义库词条量增加而增加),计算公式:正确匹配词条数/总解析词条数*100%。
14.实施例2
15.在移动通信某企业的社会渠道酬金业务数据分析部署该系统,应用服务器采用主从式部署,机器型号 (huawei2288hv5 4214cpu*2单电sr430c 32g内存4t硬盘*2),业务数据模型55个,数据量千万级,语音输入设备采用ps-318台式有线话筒,语义库收集业务相关语义20万条词条,元数据库搜索生成5776 个常用数据。第一步,用语音输入设备输入业务分析需求(如:请查询本年度社会渠道酬金和业务量情况);第二步,系统对该条输入进行语义解析,理解为:查询年度社会渠道酬金汇总表中酬金金额字段和业务办理量字段:第三步,向数据库提交查询请求,以柱图加表格的形式展示并保存为中间结果;第四步,生成 ppt或pdf格式报告。
16.性能测试:数据分析平均反馈时间20-25s,语音语义正确解析率95.1%,计算公式:正确转成文本的语音条数/语音输入总条数*100%;语义词条正确匹配率89%(随语义库词条量增加而增加),计算公式:正确匹配词条数/总解析词条数*100%。
附图说明
17.图1,对话式交互数据分析报告系统架构图
18.图2,最优分析路径选择过程。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1