字符流格式转换的方法和装置与流程

文档序号:11514855阅读:314来源:国知局
本发明涉及计算机
技术领域
:,特别地涉及一种字符流格式转换的方法和装置。
背景技术
::随着数据量的增大,数据批处理的需求也在逐步增加。目前,主流的可以进行快速数据分析的大数据查询引擎例如:impala、shark、stinger和presto等,一般都不支持数据存储。为了进行海量数据的快速分析,可以先将数据转换处理并存储到数据仓库中,之后使用大数据查询引擎从数据仓库中读取数据并进行快速的数据分析。hive作为一款基于hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,能将通用的sql语句转换为mapreduce任务运行,并且其数据存储在hadoop分布式文件系统hdfs(hadoopdistributedfilesystem)上,完美解决了海量数据存储的问题。因此hive数据仓库在数据存储方面得到了广泛应用。目前,hive中数据的存储格式例如textfile、sequencefile、rcfile、orcfile(optimizedrowcolumnarfile)等等。其中,orc格式可以高效地存储hive数据,并可以规避其他文件格式存在的缺陷,使用orc文件格式可以提升hive读、写与处理数据的性能。尤其是,一些数据查询引擎,例如presto,其针对优化行列文件orcfile格式hive表的查询做了大量优化,因此presto对orc格式文件的查询性能和稳定性都远高于其他格式的数据表。然而,初始的用户数据多以非orc的格式存在,因此将用户数据转换成orc格式的数据成为一个必不可少的步骤。目前通用的将用户数据转换成orc格式数据的流程如图1所示,主要过程如下:1、通过编写一个map/reduce应用程序,将用户数据读取成字符流,并将字符流存储为txt格式的文本文件;2、新建两个字段相同的hive表tablea_txt和tablea_orc用于存储读取的字符流,其中tablea_txt种数据存储格式为文本文件txt,tablea_orc中数据存储格式为优化行列文件orc;3、先将txt文件直接保存到tablea_txt,然后通过设置筛选条件,将刚才保存到tablea_txt的数据插入到tablea_orc中,完成整个数据的转换操作。在实现本发明的过程中,发明人发现现有技术存在如下技术问题:1、现有技术方案的过程比较冗长,自动化难度高,且将用户数据读取成字符流之后的操作需要有开发人员介入,效率较低;2、在进行数据格式转换的过程中会有临时的txt文件产生,并且需要提前建立两个表,而最终数据查询引擎使用的只有一个表,因此浪费了存储空间。技术实现要素:有鉴于此,本发明实施例提供一种字符流格式转换的方法和装置,能够提高业务数据字符流转换成orc格式数据流的效率,提升了存储空间的利用率,节省了存储空间。为实现上述目的,根据本发明实施例的一个方面,提供了一种字符流格式转换的方法。一种字符流格式转换的方法,包括:获取字符流和对应的转换模板,其中,所述转换模板定义了所述字符流格式转换的对应结构,且所述转换模板根据所述对应结构中包含的字段的名称和类型来定义;根据所述转换模板,将所述字符流转换成具有所述对应结构的格式的数据流。可选地,将所述字符流转换成具有所述对应结构的格式的数据流的步骤包括:遍历获取的所述字符流,按照所述转换模板中定义的字段顺序,依次存入链表中;利用对应的序列化函数将所述链表中保存的所述字符流序列化成所述对应结构的格式的数据流。可选地,所述对应结构是orc格式的结构。可选地,所述转换模板包括以“struct<>”包裹的字符串,且所述字符串顺序地包含所述对应结构的每个字段的名称和类型。可选地,若所述业务数据为文本文件,则利用map/reduce的文本读取方式,将所述文本文件读取为字符流。可选地,若所述业务数据为数据库文件,则通过map/reduce程序调用所述数据库提供的数据库连接接口逐行读取所述数据库中的数据,并输出成字符流。可选地,若所述业务数据为kafka消息系统中存储的文件,则以所述kafka消息系统的每个分区作为处理单元,通过map/reduce程序调用所述kafka消息系统的消息读取接口,并行地读取所述每个分区的数据并输出成字符流。可选地,将所述字符流转换成具有所述对应结构的格式的数据流的步骤之后,还包括:将所述数据流保存到对应的存储目录。根据本发明实施例的另一方面,提供了一种字符流格式转换的装置。一种字符流格式转换的装置,包括:数据获取模块,用于获取字符流和对应的转换模板,其中,所述转换模板定义了所述字符流格式转换的对应结构,且所述转换模板根据所述对应结构中包含的字段的名称和类型来定义;数据转换模块,用于根据所述转换模板,将所述字符流转换成具有所述对应结构的格式的数据流。可选地,所述数据转换模块还用于:遍历获取的所述字符流,按照所述转换模板中定义的字段顺序,依次存入链表中;利用对应的序列化函数将所述链表中保存的所述字符流序列化成所述对应结构的格式的数据流。可选地,所述对应结构是orc格式的结构。可选地,所述转换模板包括以“struct<>”包裹的字符串,且所述字符串顺序地包含所述对应结构的每个字段的名称和类型。可选地,若所述业务数据为文本文件,则利用map/reduce的文本读取方式,将所述文本文件读取为字符流。可选地,若所述业务数据为数据库文件,则通过map/reduce程序调用所述数据库提供的数据库连接接口逐行读取所述数据库中的数据,并输出成字符流。可选地,若所述业务数据为kafka消息系统中存储的文件,则以所述kafka消息系统的每个分区作为处理单元,通过map/reduce程序调用所述kafka消息系统的消息读取接口,并行地读取所述每个分区的数据并输出成字符流。可选地,还包括数据保存模块,用于:在将所述字符流转换成具有所述对应结构的格式的数据流之后,将所述数据流保存到对应的存储目录。根据本发明实施例的又一方面,提供了一种字符流格式转换的终端设备。一种字符流格式转换的终端设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的字符流格式转换的方法。根据本发明实施例的再一方面,提供了一种计算机可读介质。一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的字符流格式转换的方法。上述发明中的一个实施例具有如下优点或有益效果:通过map/reduce程序将业务数据对应的字符流根据定义的转换模版进行格式转换,可以简化将字符流转化成orc格式数据流的过程,从而极大的提高了业务数据转换成orc格式hive表数据的效率,降低了人工参与导致错误的风险;另外,在字符流格式转换过程中,不会产生多余的临时数据,直接存储为orc格式的hive表数据,从而提升了存储空间的利用率,节省了存储空间。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本发明,不构成对本发明的不当限定。其中:图1是现有的将用户数据转换成orc格式数据的流程示意图;图2是根据本发明实施例的字符流格式转换的方法的主要步骤示意图;图3是根据本发明一个实施例的字符流获取过程示意图;图4是根据本发明另一个实施例的字符流获取过程示意图;图5是根据本发明又一个实施例的字符流获取过程示意图;图6是根据本发明实施例的字符流转换过程示意图;图7是根据本发明实施例的字符流格式转换的装置的主要模块示意图;图8是本发明实施例可以应用于其中的示例性系统架构图;图9是适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。具体实施方式以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。为了简化将字符流转换成orc格式hive表数据的过程,并同时实现转换过程的自动化执行,本发明通过map/reduce程序来执行业务数据的读取和orc格式的转换。图2是根据本发明实施例的字符流格式转换的方法的主要步骤示意图。如图2所示,本发明的字符流格式转换的方法主要包括如下的步骤s21至步骤s22。步骤s21:获取字符流和对应的转换模板,其中,转换模板定义了字符流格式转换的对应结构,且转换模板根据对应结构中包含的字段的名称和类型来定义。业务数据的来源通常多种多样,包括普通的文本文件,传统的数据库(如mysql、oracle、sqlserver等),以及例如kafka的高吞吐、分布式、基于发布订阅的消息系统。对于不同来源的业务数据,采用不同的方法将业务数据读取为字符流。若业务数据为文本文件,则利用map/reduce的文本读取方式,将文本文件读取为字符流。若业务数据为数据库文件,则通过map/reduce程序调用数据库提供的数据库连接接口逐行读取数据库中的数据,并输出成字符流。若业务数据为kafka消息系统中存储的文件,则以kafka消息系统的每个分区作为处理单元,通过map/reduce程序调用kafka消息系统的消息读取接口,并行地读取每个分区的数据并输出成字符流。以个人信息表person为例,该表的结构如表1所示。表1字段名称数据类型说明idint(整型)id号namestring(字符型)名称scoreint(整型)分数birthstring(字符型)出生年月个人信息表person中保存的数据内容例如表2所示。表2idnamescorebirth1zhangsan861988-012lisi991988-083wangwu721988-01下面分别以普通文本、传统数据库、kafka为数据来源介绍字符流的获取过程。图3是根据本发明一个实施例的字符流获取过程示意图。如图3所示,对于普通的文本文件,可以利用map/reduce的文本读取方式,直接将这些文件读取为字符流。图4是根据本发明另一个实施例的字符流获取过程示意图。对于传统的数据库,可以根据其提供的jdbc接口,通过map/reduce程序直接调用这些jdbc接口来逐行读取数据库中的数据,并输出成字符流。图5是根据本发明又一个实施例的字符流获取过程示意图。对于kafka消息系统,读取稍微复杂一些,kafka的每个主题topic相当于传统数据库中的一个表,主题topic下的每个消息message都相当于传统数据库表中的一行数据,这些消息message会根据某个或某几个字段的不同而被区分到不同的分区partition中,kafka本身提供了读取这些消息message的消费接口,为了高效地将这些消息message转换成字符流,可以每个分区partition作为处理单元,通过map/reduce程序来调用kafka的消费接口,并行地读取每个分区partition的数据,然后输出成字符流。根据以上所述,通过编写相应的map/reduce程序,将列与列之间用逗号分隔,行与行之间用分号分隔,即可得到表2对应的输出的字符流为:“1,zhangsan,86,1988-01;2,lisi,99,1988-08;3,wangwu,72,1988-01”。根据本发明一个实施例的技术方案,通过转换模版实现字符流格式的转换。其中,转换模板定义了字符流格式转换的对应结构,且转换模板根据对应结构中包含的字段的名称和类型来定义。本发明实施例中,对应结构是orc格式的结构,并且,转换模板包括以“struct<>”包裹的字符串,且字符串顺序地包含对应结构的每个字段的名称和类型。由于用户业务的差别,保存数据的表的结构各不相同,要完成字符流到orc格式数据的转换,首先需要明确该表的字段内容,不同结构的表需要定义不同的模板串,并且,模板串的内容是一个以“struct<>”包裹的字符串,包含表中每个字段的名称和类型。仍然以如表1所示的个人信息表person为例。个人信息表person中包含了4个字段,分别是:id、name、score和birth,对应的字段的数据类型分别是:int(整型)、string(字符型)、int(整型)和string(字符型)。那么,个人信息表person转换成orc格式数据时,对应的转换模板串即:“struct<id:int,name:string,score:int,birth:string>”。根据以上所介绍的方法,即可得到业务数据对应的字符流和对应的转换模版。步骤s22:根据转换模板,将字符流转换成具有对应结构的格式的数据流。根据本发明的实施例,步骤s22在将字符流转换成具有对应结构的格式的数据流时,可以按照以下的步骤具体执行:步骤s221:遍历获取的字符流,按照转换模板中定义的字段顺序,依次存入链表中;步骤s222:利用对应的序列化函数将链表中保存的字符流序列化成对应结构的格式的数据流。下面结合附图介绍本发明实施例的字符流转换过程。图6是根据本发明实施例的字符流转换过程示意图。由于orc格式的标准是hive定义的,因此在格式转换的过程中,会用到hive已经封装好的类和方法,例如:orcserde类、objectinspector类等。其中,orcserde类实现了对orc格式数据的序列化和反序列化;objectinspector类能够将前面实施例中定义的模板串封装成对象并实例化,以便orcserde类可以识别。下面以前面介绍的实施例中获取的字符流和转换模板为例,介绍将字符流转换成orc格式数据的实现过程。其中,获取到的字符流为:“1,zhangsan,86,1988-01;2,lisi,99,1988-08;3,wangwu,72,1988-01”,转换模板串为:“struct<id:int,name:string,score:int,birth:string>”。首先,初始化orcserde对象和objectinspector对象。在初始化objectinspector对象时需要传入上节中定义的转换模板串。然后,按行遍历获取的字符流,并按照模板串定义的字段顺序,依次放入在内存新建的链表中。例如:将前面获取到的字符流“1,zhangsan,86,1988-01;2,lisi,99,1988-08;3,wangwu,72,1988-01”放入链表中得到:1,zhangsan,86,1988-01→2,lisi,99,1988-08→3,wangwu,72,1988-01。最后,调用orcserde对象定义好的序列化函数serialize(),并传入前述的链表和objectinspector对象作为参数,字符流便会被序列化成orc格式的数据流。在步骤s22中将所述字符流转换成具有所述对应结构的格式的数据流之后,还可以将数据流保存到对应的存储目录。本发明的实施例中,通过调用map/reduce程序的写操作,将所述优化行列格式的数据流保存到优化行列文件的存储目录。调用hdfs系统的写操作函数contest.write(),将orc格式的数据写入到hdfs上orc表对应的目录,例如:个人信息表person对应的orc表为person_orc,该表对应的hdfs目录为:hdfs://…/person_orc/。根据前面所述的步骤s21至步骤s22,即可实现将字符流根据转换模版转换成orc格式的数据流。使用本发明实施例所提出的技术方案后会极大的提高字符流转换成orc格式hive表数据的效率,且整个转换过程都通过map/reduce程序实现,降低了人工参与导致错误的风险;另外,传统的转换方法会产生两份不必要的临时数据(txt文本,和txt格式的hive表数据),而本发明实施例的技术方案可以将字符流直接存储为orc格式的hive表数据,至少节省了2/3的存储空间。以上描述的整个转换过程,均可以一个map/reduce的应用程序来实现。在具体实现过程中,可以通过编写一个shell脚本,定时地去执行这个实现了orc格式转换的map/reduce应用程序,从而实现自动将字符流转换成orc格式的数据流。例如:根据前面介绍的步骤,假设orc格式转换的map/reduce程序为txt2orc.jar,可以通过指令:“hadoopjartxt2orc.jar”来实现shell脚本txt2orc.sh对这个map/reduce程序的调用。为了达到定时执行的目的,可以将shell脚本txt2orc.sh写到linux系统的定时执行配置文件中,如:024***/temp/txt2orc.sh,以使每天的24:00执行orc格式转换的map/reduce程序。图7是根据本发明实施例的字符流格式转换的装置的主要模块示意图。如图7所示,本发明的字符流格式转换的装置70主要包括数据获取模块71和数据转换模块72。数据获取模块71用于获取字符流和对应的转换模板,其中,所述转换模板定义了所述字符流格式转换的对应结构,且所述转换模板根据所述对应结构中包含的字段的名称和类型来定义;数据转换模块72用于根据所述转换模板,将所述字符流转换成具有所述对应结构的格式的数据流。根据本发明的实施例,数据转换模块72还可以用于:遍历获取的所述字符流,按照所述转换模板中定义的字段顺序,依次存入链表中;利用对应的序列化函数将所述链表中保存的所述字符流序列化成所述对应结构的格式的数据流。本发明实施例中,所述对应结构是orc格式的结构。根据本发明实施例的技术方案,转换模板包括以“struct<>”包裹的字符串,且所述字符串顺序地包含所述对应结构的每个字段的名称和类型。其中,若所述业务数据为文本文件,则利用map/reduce的文本读取方式,将所述文本文件读取为字符流。若所述业务数据为数据库文件,则通过map/reduce程序调用所述数据库提供的数据库连接接口逐行读取所述数据库中的数据,并输出成字符流。若所述业务数据为kafka消息系统中存储的文件,则以所述kafka消息系统的每个分区作为处理单元,通过map/reduce程序调用所述kafka消息系统的消息读取接口,并行地读取所述每个分区的数据并输出成字符流。根据本发明的实施例,字符流格式转换的装置70还可以包括数据保存模块(图中未示出),用于:在将所述字符流转换成具有所述对应结构的格式的数据流之后,将所述数据流保存到对应的存储目录。例如:可以通过调用map/reduce程序的写操作,将所述优化行列格式的数据流保存到优化行列文件的存储目录。图8示出了可以应用本发明实施例的字符流格式转换的方法或字符流格式转换的装置的示例性系统架构800。如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备801、802、803通过网络804与服务器805交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息等,仅为示例)反馈给终端设备。需要说明的是,本发明实施例所提供的字符流格式转换的方法一般由服务器805执行,相应地,字符流格式转换的装置一般设置于服务器805中。应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。下面参考图9,其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图9所示,计算机系统900包括中央处理单元(cpu)901,其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。在ram903中,还存储有系统900操作所需的各种程序和数据。cpu901、rom902以及ram903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。以下部件连接至i/o接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(cpu)901执行时,执行本发明的系统中限定的上述功能。需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据获取模块和数据转换模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据获取模块还可以被描述为“用于获取字符流和对应的转换模板的模块,其中,所述转换模板定义了所述字符流格式转换的对应结构,且所述转换模板根据所述对应结构中包含的字段的名称和类型来定义”。作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取字符流和对应的转换模板,其中,所述转换模板定义了所述字符流格式转换的对应结构,且所述转换模板根据所述对应结构中包含的字段的名称和类型来定义;根据所述转换模板,将所述字符流转换成具有所述对应结构的格式的数据流。根据本发明实施例的技术方案,通过map/reduce程序将业务数据对应的字符流根据定义的转换模版进行格式转换,可以简化将字符流转化成orc格式数据流的过程,从而极大的提高了业务数据转换成orc格式hive表数据的效率,降低了人工参与导致错误的风险;另外,在字符流格式转换过程中,不会产生多余的临时数据,直接存储为orc格式的hive表数据,从而提升了存储空间的利用率,节省了存储空间。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1