一种通过语音交互实现数据可视化的方法与流程

文档序号:11677714阅读:296来源:国知局
本发明涉及计算机领域,特别涉及一种通过语音交互实现数据可视化的方法。
背景技术
::数据的可视化可以有效的帮助用户更直观的了解信息的整体情况、变化的趋势、不同数据间的对比以及帮助用户分析因果关系等。数据可视化常常用于处理各种数据之间的关系,不同的数据关系、不同的数据用途常常会使用不同类型的显示方式,比如信息图,柱状图,饼状图,曲线等等。从当前手机的指纹解锁,虹膜解锁,人脸识别解锁等技术的流行,以及传统的密码解锁、图案解锁等技术的应用的比重降低,可以清晰看出用户极致体验的核心是“用最少的交互,获得期望的结果”。这也是为什么近年来苹果“siri”,百度“语音搜索”越来越普及的根本原因。17年2月gartner发布2017年商业智能和分析平台魔力象限报告,对行业领导者tableau,微软,qlik可视化工具,包括老牌的ibmcognos数据可视化工具进行了分析,这些工具都需要用户先进行手工操作,然后系统根据用户输入进行可视化展示,往往需要经过5-6个操作步骤。而国内主流的bpd,魔镜等可视化工具也需要用户手工定义后,才能进行可视化展现。对主流的数据可视化工具实现进行了分析,可视化然后系统根据用户的输入,展示相关的图表。现有的数据可视化的实现方法是使用数据库的标准语言对数据库中的数据进行处理,通过手工进行数据的选取和显示的配置,一般都需要用户定义分析维度、分析指标、分析范围和展现方式,需要用户了解可视化工具或者数据库的语言甚至是数据存储的格式,不仅提高了用户的使用门槛,还需要用户花费较多的时间进行数据可视化处理,造成人力上的浪费。因此需要一种通过语音交互实现数据可视化的方法,可以降低用户进行数据可视化处理的门槛,节约进行数据可视化处理的时间。技术实现要素:本发明提供一种通过语音交互实现数据可视化的方法,用以解决目前的数据可视化的实现方法门槛较高,相对费时的情况,本发明提高的方法能降低用户进行数据可视化处理的门槛,节约进行数据可视化处理的时间。本发明提供一种通过语音交互实现数据可视化的方法,包括:数据可视化需求模块向数据检索模块发送检索需求;数据检索模块根据所述检索需求在数据库中检索数据元素,并将检索到的数据元素发送至数据处理模块;数据处理模块根据检索需求或所述检索到的数据元素确定视觉特征,并将所述检索到的数据元素映射到所述视觉特征上得到显示文档框架;渲染模块根据所述显示文档框架输出显示。优选的,所述数据可视化需求模块向数据检索模块发送检索需求,包括步骤:数据可视化需求模块接收来自用户的绘制请求,所述绘制请求为用户通过麦克风输入的语音信息;数据可视化需求模块通过语音识别功能将所述语音信息识别为文字信息;数据可视化需求模块将所述文字信息进行自然语言处理,生成数据库查询语句、或者生成数据库查询语句和显示格式语句的组合;数据可视化需求模块将数据库查询语句或数据库查询语句和显示格式语句的组合确定为检索需求发送至数据检索模块。优选的,所述数据可视化需求模块将所述绘制请求进行自然语言处理,包括:数据可视化需求模块对绘制请求进行分词;所述分词所用的方法为基于统计的方法进行分词,包括:人工调高在所述基于统计的方法中常用词的词频,其中常用词为数据处理中常用的名词,包括:时间名词,人口名词,地理名词,经济名词;根据人工调高常用词词频后的数据进行分词及后续的自然语言处理。优选的,所述人工调高在所述基于统计的方法中常用词的词频,可实施为:人工选取用于数据可视化的语句形成第一语料库;将公开语料库设为第二语料库;将第一语料库中的每一个语句复制同样份数,使复制后的第一语料库中的语句数与第二语料库中的语句数的比值高于预设的阈值;将第二语料库和复制后的第一语料库进行合并,得到第三语料库;使用第三语料库进行词频统计并进行数据平滑。优选的,所述后续的自然语言处理,包括:信息抽取,包括命名实体识别、共指关系确定、场景模板填充,用于将所述文字信息生成结构化的数据库查询语句、或者生成结构化的数据库查询语句和显示格式语句的组合。优选的,所述数据处理模块根据检索需求或所述检索到的数据元素确定视觉特征,包括:数据处理模块检查检索需求中是否存在显示格式语句;当检索需求中存在显示格式语句时,数据处理模块根据检索需求确定视觉特征;否则数据处理模块根据所述检索到的数据元素确定视觉特征。优选的,所述视觉特征,包括:图形样式、颜色数量、颜色种类、图形尺寸中的一种或多种。优选的,所述图形样式,包括:柱状图,饼状图,连续曲线、散点图。优选的,所述数据处理模块根据所述检索到的数据元素确定视觉特征,包括:数据处理模块对检索到的数据元素进行类型分析;数据处理模块将检索到的数据元素的类型与预置的模板进行匹配并计算其匹配度;当所述匹配度低于于预设的阈值时,数据处理模块将预置的标准模板设为当前数据元素的视觉特征;否则,数据处理模块将与检索到的数据元素的类型匹配度最高的模板设为当前数据元素的视觉特征。优选的,所述将检索到的数据元素与预置的模板中的数据元素进行匹配并计算模板的匹配度,包括:数据处理模块根据检索到的数据元素与预置的模板中的数据元素的维度、数量和类型,使用第一公式计算检索到的数据元素与模板的匹配度,所述第一公式为:其中,m为检索到的数据元素与模板的匹配度;c为检索到的数据元素与预置的模板中的数据元素的类型的匹配度,其值为0到1的正数,当检索到的数据元素与预置的模板中的数据元素的类型完全一样时,其值为1;i为检索到的数据元素的数量;j为预置的模板中的数据元素的数量;k为检索到的数据元素的维度;j为预置的模板中的数据元素的维度;n和p为预设的维度调整参数,均为大于1的实数。本发明的一些有益效果可以包括:本发明提供的一种通过语音交互实现数据可视化的方法,提高了对数据可视化处理的灵活性,降低了用户进行数据可视化处理的门槛,能够节约进行数据可视化处理的时间。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。附图说明附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:图1为本发明实施例中一种通过语音交互实现数据可视化的方法的流程图;具体实施方式以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。图1为本发明实施例中一种通过语音交互实现数据可视化的方法的流程图。该方法由数据可视化的实现系统来实现,该系统包括数据可视化需求模块、数据检索模块、数据处理模块、渲染模块;如图1所示,该实现方法包括以下步骤s101-s104:s101:数据可视化需求模块向数据检索模块发送检索需求;s102:数据检索模块根据所述检索需求在数据库中检索数据元素,并将检索到的数据元素发送至数据处理模块;s103:数据处理模块根据检索需求或所述检索到的数据元素确定视觉特征,并将所述检索到的数据元素映射到所述视觉特征上得到显示文档框架;s104:渲染模块根据所述显示文档框架输出显示。依据本发明提供的方法,通过使用数据可视化需求模块进行处理取代直接使用数据库的标准语言对数据库中的数据进行处理,提高了对数据可视化处理的灵活性,降低了用户进行数据可视化处理的门槛,能够节约进行数据可视化处理的时间。在本发明的一个实施例中,数据可视化需求模块向数据检索模块发送检索需求,包括步骤:数据可视化需求模块接收来自用户的绘制请求,所述绘制请求为用户通过麦克风输入的语音信息;数据可视化需求模块通过语音识别功能将所述语音信息识别为文字信息;数据可视化需求模块将所述文字信息进行自然语言处理,生成数据库查询语句、或者生成数据库查询语句和显示格式语句的组合;数据可视化需求模块将数据库查询语句或数据库查询语句和显示格式语句的组合确定为检索需求发送至数据检索模块。在本发明的一个实施例中,数据可视化需求模块接收来自用户的绘制请求为:“把最近一个月的各个地区的农村人口情况按柱图展示。”数据可视化需求模块将所述绘制请求进行自然语言处理,生成数据库查询语句和显示格式语句的组合,其中数据库查询语句为“sql语句【select地区,sum(农村人口)from人口表where日期=‘2017-02’】”,显示格式语句为“柱状图”。数据可视化需求模块将数据库查询语句和显示格式语句的组合确定为检索需求“【select地区,sum(农村人口)from人口表where日期=‘2017-02’】;柱状图”发送至数据检索模块。依据本发明提供的方法,通过使用自然语言处理的方式生成数据库的标准语言用以对数据库中的数据进行处理,提高了对数据可视化处理的灵活性,降低了用户进行数据可视化处理的门槛,能够节约进行数据可视化处理的时间。在本发明的一个实施例中,数据可视化需求模块将所述绘制请求进行自然语言处理,包括:数据可视化需求模块对绘制请求进行分词;所述分词所用的方法为基于统计的方法进行分词,包括:人工调高在所述基于统计的方法中常用词的词频,其中常用词为数据处理中常用的名词,包括:时间名词,人口名词,地理名词,经济名词;根据人工调高常用词词频后的数据进行分词及后续的自然语言处理。在本发明的一个实施例中,人工调高在所述基于统计的方法中常用词的词频,词频可以调高数百倍甚至更高,其中常用词为数据处理中常用的名词,包括:时间名词,人口名词,地理名词,经济名词;比如“去年”、“上个月”、“人数”、“人口”、“区域”、“地区”、”gdp”“人均收入”“通胀指数”等,同时还检测可能误输入的名词,并将其转化为正确的名词。在增加常用词词频的同时,降低其他词的词频。然后根据词频调整过的数据进行分词及后续的自然语言处理。依据本发明提供的方法,通过对词频的调整,可以提高自然语言处理的准确度,更准确地使用自然语言处理的方式生成数据库的标准语言用以对数据库中的数据进行处理,提高了对数据可视化处理的灵活性,降低了用户进行数据可视化处理的门槛,能够节约进行数据可视化处理的时间。在本发明的一个实施例中,人工调高在所述基于统计的方法中常用词的词频,可实施为:人工选取用于数据可视化的语句形成第一语料库;将公开语料库设为第二语料库;将第一语料库中的每一个语句复制同样份数,使复制后的第一语料库中的语句数与第二语料库中的语句数的比值高于预设的阈值;将第二语料库和复制后的第一语料库进行合并,得到第三语料库;使用第三语料库进行词频统计并进行数据平滑。依据本发明提供的方法,同时使用公开语料库和针对数据可视化的语料库,不仅可以合理的针对数据可视化这一应用场景对词频进行调整,还能避免词频数据平滑时因为语料库中的数据太少而容易出现的问题,如一些常用词被识别为非常用词的情况,能够达到比单纯使用公开语料库更好的效果,提高了后续自然语言处理的准确性,为提高对数据可视化处理的灵活性,降低用户进行数据可视化处理的门槛打下基础。在本发明的一个实施例中,后续的自然语言处理,包括:信息抽取,包括命名实体识别、共指关系确定、场景模板填充,用于将所述文字信息生成结构化的数据库查询语句、或者生成结构化的数据库查询语句和显示格式语句的组合。在本发明的一个实施例中,命名实体识别包括对维度:地区,类型等、指标:人口数,收入等、分析范围:今天、最近一周、最近一个月等、显示格式:表格,柱图,散点图,趋势图,饼状图等的识别;共指关系确定包括读取当前的时间,根据当前的时间点和分析范围,如最近一周,确定所要检索的数据库中的数据范围。最后根据场景模型填充生成结构化的数据库查询语句和显示格式语句的组合。依据本发明提供的方法,使用自然语言处理中的信息抽取技术,实现了从文本数据到结构化的数据库查询语音的转换,为提高对数据可视化处理的灵活性,降低用户进行数据可视化处理的门槛打下基础。在本发明的一个实施例中,数据处理模块根据检索需求或所述检索到的数据元素确定视觉特征,包括:数据处理模块检查检索需求中是否存在显示格式语句;当检索需求中存在显示格式语句时,数据处理模块根据检索需求确定视觉特征;否则数据处理模块根据所述检索到的数据元素确定视觉特征。依据本发明提供的方法,使用数据处理模块检查检索需求中是否存在显示格式语句,来判定用户对显示格式的设定,当用户没有设定显示格式时,数据处理模块通过检索到的数据元素来确定如何显示这些数据,降低了用户进行数据可视化处理的门槛,能够节约进行数据可视化处理的时间。其中,显示格式语句为“柱状图”、“饼状图”、“连续曲线”、“散点图”、“三种颜色”、“红色、黄色、蓝色、绿色”“三种颜色&饼状图”这种限制显示格式的语句。在本发明的一个实施例中,视觉特征,包括:图形样式、颜色数量、颜色种类、图形尺寸中的一种或多种。依据本发明提供的方法,可以实现对数据可视化进行功能更丰富的控制,降低了用户进行数据可视化处理的门槛,能够节约进行数据可视化处理的时间。在本发明的一个实施例中,图形样式,包括:柱状图,饼状图,连续曲线、散点图。依据本发明提供的方法,使用不同的图形样式,可以适应不同维度、数量和类型的数据元素的显示,可以提高适用数据可视化的数据元素的范围,降低了用户进行数据可视化处理的门槛,能够节约进行数据可视化处理的时间。在本发明的一个实施例中,数据处理模块根据所述检索到的数据元素确定视觉特征,包括:数据处理模块对检索到的数据元素进行类型分析;数据处理模块将检索到的数据元素的类型与预置的模板进行匹配并计算其匹配度;当所述匹配度低于预设的阈值时,数据处理模块将预置的标准模板设为当前数据元素的视觉特征;否则,数据处理模块将与检索到的数据元素的类型匹配度最高的模板设为当前数据元素的视觉特征。依据本发明提供的方法,可以在用户忘记、不知道如何设定或者不会设定数据元素的视觉特征时,依据检索到的数据元素的自身的特性,如数据的维度、数量和类型,设定一个适当的视觉特征,从而降低了用户进行数据可视化处理的门槛,节约了用户进行数据可视化处理的时间。在本发明的一个实施例中,将检索到的数据元素与预置的模板中的数据元素进行匹配并计算模板的匹配度,包括:数据处理模块根据检索到的数据元素与预置的模板中的数据元素的维度、数量和类型,使用第一公式计算检索到的数据元素与模板的匹配度,所述第一公式为:其中,m为检索到的数据元素与模板的匹配度;c为检索到的数据元素与预置的模板中的数据元素的类型的匹配度,其值为0到1的正数,当检索到的数据元素与预置的模板中的数据元素的类型完全一样时,其值为1;i为检索到的数据元素的数量;j为预置的模板中的数据元素的数量;k为检索到的数据元素的维度;j为预置的模板中的数据元素的维度;n和p为预设的维度调整参数,均为大于1的实数。在本发明的一个实施例中,数据处理模块根据检索到的数据元素与预置的模板中的数据元素的维度、数量和类型,使用第一公式计算检索到的数据元素与模板的匹配度,所述第一公式为:其中,m为检索到的数据元素与模板的匹配度;c为检索到的数据元素与预置的模板中的数据元素的类型的匹配度,当检索到的数据元素与预置的模板中的数据元素的类型完全一样时,其值为1,当检索到的数据元素与预置的模板中的数据元素的类型不完全一样时,其值为0.2;i为检索到的数据元素的数量;j为预置的模板中的数据元素的数量;k为检索到的数据元素的维度;j为预置的模板中的数据元素的维度;n和p为预设的维度调整参数,n和p分别为3和2。在本发明的另一个实施例中,建立了检索到的数据元素与预置的模板中的数据元素的类型的匹配度的关系,首先通过统计检索到的数据元素与预置的模板中的数据元素的类型在训练集中的相似程度得到相似度s,然后为使c为0-1之间的实数,令c=max(s,0)。在该实施例中,检索到的数据元素为1维且数量很多的经济数据,匹配到的模板为连续曲线模板,因此可以设定该检索到的数据元素以连续曲线的方式进行显示。依据本发明提供的方法,可以在用户忘记、不知道如何设定或者不会设定数据元素的视觉特征时,依据检索到的数据元素的自身的特性,如数据的维度、数量和类型,设定一个适当的视觉特征,如数据为1维的经济数据且数量很多时,检索到的数据元素与使用连续曲线模板的匹配度最高,数据为2维的销量数据且数量很多时,检索到的数据元素与使用连续曲面模板的匹配度最高,数据为1维的占有率数据且数量较少时,检索到的数据元素与使用饼状图模板的匹配度最高,通过这种处理,可以降低用户进行数据可视化处理的门槛,节约了用户进行数据可视化处理的时间。本发明提供的一种通过语音交互实现数据可视化的方法,提高了对数据可视化处理的灵活性,降低了用户进行数据可视化处理的门槛,能够节约进行数据可视化处理的时间。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1