一种多维度数据提取与文本生成的方法、装置及存储介质与流程

文档序号:20113111发布日期:2020-03-17 19:26阅读:236来源:国知局

本发明涉及一种多维度数据提取与文本生成的方法、装置及存储介质,属于计算机软件应用领域。



背景技术:

传统的数据分析报告撰写需要分析师对基础数据手动进行加减乘除等多维度比较运算,然后再对数据结果进行筛选,最后基于筛选出的数据进行文本撰写,重复此类操作,最终得到一份数据分析报告。这种方式需要大量的人工参与,容易出现人工错误,一份数据分析报告撰写耗时长,而且对分析师的专业要求较高。



技术实现要素:

本发明所要解决的是数据分析报告撰写人工参与流程过多、耗时长、人工容易犯错、人工成本过大的问题,提供一种多维度数据提取与文本生成的方法、装置及存储介质。

本发明的目的是通过以下技术方案来实现的:

一种多维度数据提取的方法,包括:

定义数据提取标签和数据提取标签的使用格式;

定义好数据提取标签及其使用格式后,通过标签数据解析器对标签进行数据解析;数据解析后得到多维度数据。

作为优选方式,数据提取标签包括维度标签和数据标签,其中,

维度标签:时间标签(time)、地域标签(area)、数据类型标签(type);

数据标签:值标签(value)、环比增长贡献率标签(mom)、同比增长贡献率标签(yoy)、地域占比标签(vov)。

作为优选方式,定义数据提取标签的使用格式:

格式一:{"time":"2019年1月","area":"四川","type":"value"};

格式二:{"time":"2019年1月","area":"四川","type":"mom"};

格式三:{"time":"2019年1月","area":"四川","type":"yoy"};

格式四:{"time":"2019年1月","area":"四川","type":"vov"}。

作为优选方式,数据解析如下:

解析一:value标签=当前时间地域对应的交易额的值;

解析二:mom标签=当前时间地域对应的交易额的环比增长贡献率值,计算公式(v1当前月地域值–v2上个月地域值)/v2上个月地域值;

解析三:yoy标签=当前时间地域对应的交易额的同比增长贡献率值,计算公式(v1当前月地域值–v2去年同月地域值)/v2去年同月地域值;

解析四:vov标签=当前时间地域对应的交易额在上级地域的占比,计算公式(v1当前月地域值–v2当前月上级地域值)/v2当前月上级地域值。

一种多维度数据文本生成的方法,定义数据提取标签,数据提取标签包括维度标签和数据标签,其中,

维度标签:时间标签(time)、地域标签(area)、数据类型标签(type);

数据标签:值标签(value)、环比增长贡献率标签(mom)、同比增长贡献率标签(yoy)、地域占比标签(vov);

定义数据提取标签的使用格式:

格式一:{"time":"2019年1月","area":"四川","type":"value"};

格式二:{"time":"2019年1月","area":"四川","type":"mom"};

格式三:{"time":"2019年1月","area":"四川","type":"yoy"};

格式四:{"time":"2019年1月","area":"四川","type":"vov"};

定义好数据提取标签及其使用格式后,通过标签数据解析器对标签进行数据解析:

解析一:value标签=当前时间地域对应的交易额的值;

解析二:mom标签=当前时间地域对应的交易额的环比增长贡献率值,计算公式(v1当前月地域值–v2上个月地域值)/v2上个月地域值;

解析三:yoy标签=当前时间地域对应的交易额的同比增长贡献率值,计算公式(v1当前月地域值–v2去年同月地域值)/v2去年同月地域值;

解析四:vov标签=当前时间地域对应的交易额在上级地域的占比,计算公式(v1当前月地域值–v2当前月上级地域值)/v2当前月上级地域值;

数据解析后得到多维度数据;

根据多维度数据进行单标签文本翻译,翻译后的文本即为数据分析报告需要的文本内容。作为优选方式,实现单标签文本翻译的格式如下:

格式一:值标签(value):翻译成xx时间yy地域的交易额为zz;

格式二:环比增长贡献率标签(mom):翻译成xx时间yy地域交易额环比增长zz;

格式三:同比增长贡献率标签(yoy):翻译成xx时间yy地域交易额同比增长zz;

格式四:地域占比标签(vov):翻译成xx时间yy地域的交易额占上级地域zz;

其中,xx和yy表示根据维度标签中的时间标签和地域标签填写的内容;zz表示根据数据标签填写的内容。

作为优选方式,包括多标签组合文本翻译,其过程如下:

(1)将维度标签按照时间、地域分组;

(2)遍历每个分组,按照固定的格式填入数据标签值。

作为优选方式,设置多标签翻译优先级,翻译时按照标签的优先级进行文本翻译,并在每个分组之间加入过渡词。

一种多维度数据文本生成的装置:

数据提取标签定义模块:用于定义数据提取标签;

数据使用格式模块:用于限定数据提取标签的使用格式;

标签数据解析器:用于对标签进行数据解析;

单标签文本翻译模块:用于将解析后的标签数据翻译成单标签文本;

多标签组合文本翻译模块:将维度标签按照时间、地域分组,遍历每个分组,按照固定的格式填入数据标签值。

一种计算机可读存储介质,所述计算机程序被处理器执行如上述方法中任意一项方法。

本发明的有益效果是:

本发明将人工处理的流程进行配置化程序处理,避免了人工参与,并且与人工相比较,程序最大的优点是重复执行而不出错、高效、可拓展。

具体实施方式

下面进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。

实施例一

一种多维度数据提取的方法,包括:

定义数据提取标签和数据提取标签的使用格式,对于数据的提取事先定义好标签和格式,提取效率和准确度得到极大的提高;

定义好数据提取标签及其使用格式后,通过标签数据解析器对标签进行数据解析;数据解析后得到多维度数据,通过标签数据解析器可以使得输出的内容更加规范,避免出错。

标签数据解析器:

原理:

1.利用json化工具(如阿里巴巴的fastjson)将表达式(比如{"time":"2019年1月","area":"四川","type":"value"})json化。

2.提取表达式中的各个固有的属性(time,area,type)对应的属性值。

3.根据数据类型标签-type调用对应的解析方法(会将各个属性的信息传入解析方法中)并返回解析后的数据。

解析方法:每一个解析方法对应一个数据类型标签-type,具体如下:

1.value对应的解析方法:根据传入的时间地域维度直接获取数据库中存储的对应维度的值并返回数据。

2.mom对应的解析方法:根据传入的时间地域维度直接获取数据库中存储的对应维度的值v1、及相同地域当前时间的上一个月对应的值v2、按照公式进行计算并返回计算结果数据。

3.yoy对应的解析方法:根据传入的时间地域维度直接获取数据库中存储的对应维度的值v1、及相同地域当前时间的上一年对应的值v2、按照公式进行计算并返回计算结果数据。

4.vov对应的解析方法:根据传入的时间地域维度直接获取数据库中存储的对应维度的值v1、及上级地域相同时间的值v2、按照公式进行计算并返回计算结果数据。

数据提取标签包括维度标签和数据标签,其中,

维度标签:时间标签(time)、地域标签(area)、数据类型标签(type);

数据标签:值标签(value)、环比增长贡献率标签(mom)、同比增长贡献率标签(yoy)、地域占比标签(vov)。本发明的维度标签是单标签或者多标签组合文本比不可少的内容,再结合数据标签,可以保证数据的完整性,规范化输出,报告生成效率以及阅读效率都将大大提高。

定义数据提取标签的使用格式:

格式一:{"time":"2019年1月","area":"四川","type":"value"};

格式二:{"time":"2019年1月","area":"四川","type":"mom"};

格式三:{"time":"2019年1月","area":"四川","type":"yoy"};

格式四:{"time":"2019年1月","area":"四川","type":"vov"}。

将必备项进行规范化输出,效率得到提高。

数据解析如下:

解析一:value标签=当前时间地域对应的交易额的值;

解析二:mom标签=当前时间地域对应的交易额的环比增长贡献率值,计算公式(v1当前月地域值–v2上个月地域值)/v2上个月地域值;

解析三:yoy标签=当前时间地域对应的交易额的同比增长贡献率值,计算公式(v1当前月地域值–v2去年同月地域值)/v2去年同月地域值;

解析四:vov标签=当前时间地域对应的交易额在上级地域的占比,计算公式(v1当前月地域值–v2当前月上级地域值)/v2当前月上级地域值。

根据提取到的内容,自动计算上述数据,避免人工计算干预,不易出错,正确率极高。

实施例二

一种多维度数据文本生成的方法,定义数据提取标签,数据提取标签包括维度标签和数据标签,其中,

维度标签:时间标签(time)、地域标签(area)、数据类型标签(type);

数据标签:值标签(value)、环比增长贡献率标签(mom)、同比增长贡献率标签(yoy)、地域占比标签(vov);

定义数据提取标签的使用格式:

格式一:{"time":"2019年1月","area":"四川","type":"value"};

格式二:{"time":"2019年1月","area":"四川","type":"mom"};

格式三:{"time":"2019年1月","area":"四川","type":"yoy"};

格式四:{"time":"2019年1月","area":"四川","type":"vov"};

定义好数据提取标签及其使用格式后,通过标签数据解析器(其原理参见以上所述)对标签进行数据解析:

解析一:value标签=当前时间地域对应的交易额的值;

解析二:mom标签=当前时间地域对应的交易额的环比增长贡献率值,计算公式(v1当前月地域值–v2上个月地域值)/v2上个月地域值;

解析三:yoy标签=当前时间地域对应的交易额的同比增长贡献率值,计算公式(v1当前月地域值–v2去年同月地域值)/v2去年同月地域值;

解析四:vov标签=当前时间地域对应的交易额在上级地域的占比,计算公式(v1当前月地域值–v2当前月上级地域值)/v2当前月上级地域值;

数据解析后得到多维度数据;

根据多维度数据进行单标签文本翻译,翻译后的文本即为数据分析报告需要的文本内容。

实现单标签文本翻译的格式如下:

格式一:值标签(value):翻译成xx时间yy地域的交易额为zz;

格式二:环比增长贡献率标签(mom):翻译成xx时间yy地域交易额环比增长zz;

格式三:同比增长贡献率标签(yoy):翻译成xx时间yy地域交易额同比增长zz;

格式四:地域占比标签(vov):翻译成xx时间yy地域的交易额占上级地域zz;

其中,xx和yy表示根据维度标签中的时间标签和地域标签填写的内容;zz表示根据数据标签填写的内容。

包括多标签组合文本翻译,其过程如下:

(1)将维度标签按照时间、地域分组;

分组时,时间和地域的优先级设置:

1.时间及地域属于基础数据,在数据库中存储着其优先级顺序,程序根据数据库配置中的优先级对其升序排序;

2.在一般的业务场景,只会出现一个时间多个地域、多个时间一个地域。在这种情况下只会涉及到对单一维度排序,根据数据库中的基础数据配置中的优先级升序排序;

3.若出现多个时间,多个地域。在当前的业务场景,按照时间优先级升序排序,若时间相同再按照地域优先级升序排序。

(2)遍历每个分组,按照固定的格式填入数据标签值。

设置多标签翻译优先级,翻译时按照标签的优先级进行文本翻译,并在每个分组之间加入过渡词。如2019年1月四川交易额为10亿元,同比增长33.58%,在全国中占比23.66%。同时(过渡词),北京交易额为20亿元,在全国中占比45.22%。

实施例三

相应于方法实施例,本实施例提供了一种多维度数据文本生成的装置。

数据提取标签定义模块:用于定义数据提取标签;

数据使用格式模块:用于限定数据提取标签的使用格式;

标签数据解析器:用于对标签进行数据解析;

单标签文本翻译模块:用于将解析后的标签数据翻译成单标签文本;

多标签组合文本翻译模块:将维度标签按照时间、地域分组,遍历每个分组,按照固定的格式填入数据标签值。

由于本实施例所介绍的装置为实施本发明实施例中一种多维度数据文本生成的方法所采用的装置,故而本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的装置的具体实施方式以及各种变化形式,所以在此对于装置如何实现本发明实施例中的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明的保护范围。

实施例四

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下内容:

定义数据提取标签,数据提取标签包括维度标签和数据标签,其中,

维度标签:时间标签(time)、地域标签(area)、数据类型标签(type);

数据标签:值标签(value)、环比增长贡献率标签(mom)、同比增长贡献率标签(yoy)、地域占比标签(vov);

定义数据提取标签的使用格式:

格式一:{"time":"2019年1月","area":"四川","type":"value"};

格式二:{"time":"2019年1月","area":"四川","type":"mom"};

格式三:{"time":"2019年1月","area":"四川","type":"yoy"};

格式四:{"time":"2019年1月","area":"四川","type":"vov"};

定义好数据提取标签及其使用格式后,通过标签数据解析器(原理同上)对标签进行数据解析:

解析一:value标签=当前时间地域对应的交易额的值;

解析二:mom标签=当前时间地域对应的交易额的环比增长贡献率值,计算公式(v1当前月地域值–v2上个月地域值)/v2上个月地域值;

解析三:yoy标签=当前时间地域对应的交易额的同比增长贡献率值,计算公式(v1当前月地域值–v2去年同月地域值)/v2去年同月地域值;

解析四:vov标签=当前时间地域对应的交易额在上级地域的占比,计算公式(v1当前月地域值–v2当前月上级地域值)/v2当前月上级地域值;

数据解析后得到多维度数据;

根据多维度数据进行单标签文本翻译,翻译后的文本即为数据分析报告需要的文本内容。实现单标签文本翻译的格式如下:

格式一:值标签(value):翻译成xx时间yy地域的交易额为zz;

格式二:环比增长贡献率标签(mom):翻译成xx时间yy地域交易额环比增长zz;

格式三:同比增长贡献率标签(yoy):翻译成xx时间yy地域交易额同比增长zz;

格式四:地域占比标签(vov):翻译成xx时间yy地域的交易额占上级地域zz;

其中,xx和yy表示根据维度标签中的时间标签和地域标签填写的内容;zz表示根据数据标签填写的内容。

多标签组合文本翻译,其过程如下:

(1)将维度标签按照时间、地域分组(分组原理同上);

(2)遍历每个分组,按照固定的格式填入数据标签值。

设置多标签翻译优先级,翻译时按照标签的优先级进行文本翻译,并在每个分组之间加入过渡词。如2019年1月四川交易额为10亿元,同比增长33.58%,在全国中占比23.66%。同时(过渡词),北京交易额为20亿元,在全国中占比45.22%。

本发明大大减少了数据分析报告撰写的人工成本与时间成本,避免由于人为疏忽而导致的错误,规范了报告的文本内容。

本领域的所属技术人员清楚,本发明的实施例可以为方法、装置、或计算机程序的产品。因此,本发明可采用完全硬件实施例、完全软件实施例或软硬件结合的实施例形式。而且,本发明可采用在一个或多个其中含有计算机程序代码的存储介质(包括磁盘存储器、cd-rom、光学存储器)上实施的计算机程序产品。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1