数据处理方法及装置与流程

文档序号：11620630阅读：212来源：国知局

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法及装置。

背景技术：

随着对核心竞争力的深入认识与调整，客户服务的能力已经成为企业最核心的价值之一，客户服务中心应运而生。客户服务中心是又称为呼叫中心(callcenter)或电话营销(telemarketing)，它基于cti(computertelephonyintegration,即计算机电话集成)技术充分利用通信网和计算机网的多项功能集成并与企业连为一体的一个完整的综合信息服务系统。客户服务中心是企业与客户间交流的直接窗口，在交流过程中产生的用于信息交互的数据对于整个企业的销售、调度、管理、人员考核、增值起到非常重要的统一协调作用。

因此，为了有效利用交流过程中产生的信息交互的数据，需要将该数据进行处理，以便于利用该数据进行数据分析，挖掘该数据中的有效信息。

在现有技术中，对于该交流过程中产生的信息交互的数据，通常是按照该数据在信息交互的时间先后顺序，将该数据统一处理。但是，在数据处理过程中，并未收集图像和语音数据，并且，在数据处理过程中，通常使用的方法是各数据独立存储，分散管理，会形成“数据孤岛”，不利于数据处理和利用。

针对上述相关技术对多种类型的数据进行统一处理导致数据处理效率较低的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种数据处理方法及装置，以至少解决相关技术对多种类型的数据进行统一处理导致数据处理效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：获取待处理数据，其中，所述待处理数据为用于反映目标对象的工单信息的数据，所述待处理数据的数据类型至少包括目标数据类型；确定所述目标数据类型对应的目标数据划分方式；按照所述目标数据划分方式对数据类型为所述目标数据类型的数据进行数据划分。

进一步地，所述目标数据类型包括以下至少之一：图像格式数据；语音格式数据；结构化文本格式数据。

进一步地，在所述目标数据类型为所述图像格式数据的情况下，所述目标数据划分方式为按照几何形状对所述图像格式数据进行切分的方式；在所述目标数据类型为所述语音格式数据的情况下，所述目标数据划分方式为将数据量低于预定阈值的所述语音格式数据进行合并的方式；在所述目标数据类型为所述结构化文本格式数据的情况下，所述目标数据划分方式为将所述结构化文本格式数据对应的数据表进行拆分的方式。

进一步地，在所述目标数据类型为所述语音格式数据的情况下，其中，所述按照所述目标数据划分方式对数据类型为所述目标数据类型的数据进行数据划分包括：获取所述语音格式数据的数据量；判断所述语音格式数据的数据量是否低于预定阈值；在所述语音格式数据的数据量低于所述预定阈值的情况下，则将所述语音格式数据确定为待合并语音格式数据；将所述待合并语音格式数据进行合并处理。

进一步地，所述将所述待合并语音格式数据进行合并处理包括：对所述待合并语音格式数据执行以下合并操作，得到语音格式数据块，直至所述语音格式数据块的数据量不低于所述预定阈值，其中，所述待合并语音格式数据在执行所述合并操作时标记为当前语音格式数据：将所述当前语音格式数据合并至所述语音格式数据块；判断所述语音格式数据块的数据量是否低于所述预定阈值；在所述语音格式数据块的数据量低于所述预定阈值的情况下，将下一个语音格式数据确定为所述当前语音格式数据。

进一步地，在所述按照所述目标数据划分方式对数据类型为所述目标数据类型的数据进行数据划分之后，所述方法还包括：将数据类型为所述目标数据类型的数据进行划分后得到的目标数据块存储在目标数据库。

进一步地，在所述将数据类型为所述目标数据类型的数据进行划分后得到的目标数据块存储在目标数据库之后，所述方法还包括：在所述目标数据库中为数据类型为所述目标数据类型的数据设置目标索引方式。

根据本发明实施例的另一方面，还提供了一种数据处理装置，包括：获取单元，用于获取待处理数据，其中，所述待处理数据为用于反映目标对象的工单信息的数据，所述待处理数据的数据类型至少包括目标数据类型；确定单元，用于确定所述目标数据类型对应的目标数据划分方式；划分单元，用于按照所述目标数据划分方式对数据类型为所述目标数据类型的数据进行数据划分。

进一步地，所述目标数据类型包括以下至少之一：图像格式数据；语音格式数据；结构化文本格式数据。

进一步地，图像划分模块，用于在所述目标数据类型为所述图像格式数据的情况下，所述目标数据划分方式为按照几何形状对所述图像格式数据进行切分的方式；语音划分模块，用于在所述目标数据类型为所述语音格式数据的情况下，所述目标数据划分方式为将数据量低于预定阈值的所述语音格式数据进行合并的方式；文本划分模块，用于在所述目标数据类型为所述结构化文本格式数据的情况下，所述目标数据划分方式为将所述结构化文本格式数据对应的数据表进行拆分的方式。

进一步地，在所述目标数据类型为所述语音格式数据的情况下，其中，所述划分单元包括：获取模块，用于获取所述语音格式数据的数据量；判断模块，用于判断所述语音格式数据的数据量是否低于预定阈值；确定模块，用于在所述语音格式数据的数据量低于所述预定阈值的情况下，则将所述语音格式数据确定为待合并语音格式数据；合并模块，用于将所述待合并语音格式数据进行合并处理。

进一步地，所述合并模块包括：对所述待合并语音格式数据执行以下合并操作，得到语音格式数据块，直至所述语音格式数据块的数据量不低于所述预定阈值，其中，所述待合并语音格式数据在执行所述合并操作时标记为当前语音格式数据：合并子模块，用于将所述当前语音格式数据合并至所述语音格式数据块；判断子模块，用于判断所述语音格式数据块的数据量是否低于所述预定阈值；确定子模块，用于在所述语音格式数据块的数据量低于所述预定阈值的情况下，将下一个语音格式数据确定为所述当前语音格式数据。

进一步地，在所述划分单元之后，所述装置还包括：存储模块，用于将数据类型为所述目标数据类型的数据进行划分后得到的目标数据块存储在目标数据库。

进一步地，在所述存储模块之后，所述装置还包括：索引模块，用于在所述目标数据库中为数据类型为所述目标数据类型的数据设置目标索引方式。

在本发明实施例中，获取用于反映目标对象的工单信息的待处理数据，以及该待处理数据对应的目标数据类型，并根据获取的待处理数据的目标数据类型确定该目标数据类型对应的目标数据划分方式，再将数据类型为目标数据类型的数据按照目标数据划分方式进行数据划分。采用本发明，按照多种类型的数据对应的数据划分方式，将各种类型的数据分别处理，达到了对不同种类型的数据进行不同的处理的目的，从而实现了提高数据处理效率的技术效果，进而解决了相关技术对多种类型的数据进行统一处理导致数据处理效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据处理方法的流程图；

图2是根据本发明实施例的一种可选的hadoop集群环境示意图；

图3(a)是根据本发明实施例的一种可选的水平切分图像格式数据的示意图；

图3(b)是根据本发明实施例的一种可选的竖直切分图像格式数据的示意图；

图3(c)是根据本发明实施例的一种可选的矩形块切分图像格式数据的示意图；

图3(d)是根据本发明实施例的一种可选的不规则切分图像格式数据的示意图；

图4是根据本发明实施例的一种可选的语音格式数据合并方式的示意图；

图5是根据本发明实施例的一种可选的图像格式数据的索引方式的示意图；

图6是根据本发明实施例的一种可选的工单信息的数据的存储的示意图；

图7是根据本发明实施例的一种可选的数据处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种数据处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的数据处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤s102，获取待处理数据，其中，待处理数据为用于反映目标对象的工单信息的数据，待处理数据的数据类型至少包括目标数据类型；

步骤s104，确定目标数据类型对应的目标数据划分方式；

步骤s106，按照目标数据划分方式对数据类型为目标数据类型的数据进行数据划分。

通过上述步骤，获取用于反映目标对象的工单信息的待处理数据，以及该待处理数据对应的目标数据类型，并根据获取的待处理数据的目标数据类型确定该目标数据类型对应的目标数据划分方式，再将数据类型为目标数据类型的数据按照目标数据划分方式进行数据划分。采用本发明，按照多种类型的数据对应的数据划分方式，将各种类型的数据分别处理，达到了对不同种类型的数据进行不同的处理的目的，从而实现了提高数据处理效率的技术效果，进而解决了相关技术对多种类型的数据进行统一处理导致数据处理效率较低的技术问题。

在步骤s102提供的方案中，待处理数据是用于反映目标对象的工单信息的数据。工单信息是企业中的传输工作指令或者工作内容的信息，例如，企业通过客户服务中心与客户进行交流，在交流过程中会产生即用交流的数据信息，该数据信息可以是客户语音文件、出错界面截图、工单描述文本、客户反馈文本等多种数据信息，则该数据信息即为工单信息的数据，发出该工单信息的数据的对象即为目标对象。

在一种可选的实施例中，待处理数据至少包括目标数据类型，该目标数据类型可以是某种预定格式数据，例如，该目标数据类型可以是图像格式数据，该目标数据类型可以是结构化文本格式数据，该目标数据类型可以是语音格式数据。

在步骤s104提供的方案中，不同的目标数据类型对应着不同的目标数据划分方式，通过目标数据的类型，可以确定该目标数据对应的目标数据划分方式。例如，在目标数据的类型是图像格式数据的情况下，可以该图像格式数据对应的目标数据划分方式是水平切分。

在步骤s106提供的方案中，将数据类型为目标数据类型的数据按照该目标数据类型对应的目标数据划分方式，对目标数据类型的数据进行数据划分。

作为一种可选的实施例，目标数据类型可以包括以下至少之一：图像格式数据；语音格式数据；结构化文本格式数据。采用本发明，按照待处理数据的格式确定目标数据类型，可以使目标数据类型包括图像格式数据，语音格式数据，以及结构化文本格式数据，不同格式的数据具有不同的数据特性，因此，不同格式的数据对应的处理方式也不同，按照数据的格式确定目标数据类型可以包括图像格式数据；语音格式数据；结构化文本格式数据，从而可以针对不同的格式设置对应的划分方式，便于对不同目标数据类型的数据确定与对应的数据目标划分方式。

作为一种可选的实施例，在目标数据类型为图像格式数据的情况下，目标数据划分方式为按照几何形状对图像格式数据进行切分的方式；在目标数据类型为语音格式数据的情况下，目标数据划分方式为将数据量低于预定阈值的语音格式数据进行合并的方式；在目标数据类型为结构化文本格式数据的情况下，目标数据划分方式为将结构化文本格式数据对应的数据表进行拆分的方式。采用本发明，可以根据不同的目标数据类型，确定不同的数据处理方式，便于对不同类型的数据进行处理，从而提高数据的处理效率。

可选地，在目标数据类型为图像格式数据的情况下，可以将图像格式数据通过水平切分、竖直切分、矩形块切分、或者不规则切分等方式，将图像格式的数据划分为多个几何形状的数据，从而将一个信息容量较大的数据划分为多个信息容量较小的数据，方便数据的处理。

可选地，在目标数据类型为结构化文本格式数据的情况下，可以将该结构化文本格式数据存入对应的数据表中，再将与该结构化文本格式数据对应的数据表进行拆分，得出多个子数据表，从而将一个信息容量较大的数据划分为多个信息容量较小的数据，方便数据的处理。

作为一种可选的实施例，在目标数据类型为语音格式数据的情况下，其中，按照目标数据划分方式对数据类型为目标数据类型的数据进行数据划分可以包括：获取语音格式数据的数据量；判断语音格式数据的数据量是否低于预定阈值；在语音格式数据的数据量低于预定阈值的情况下，则将语音格式数据确定为待合并语音格式数据；将待合并语音格式数据进行合并处理。采用本发明，通过判断语音格式数据的数据量，将数据量低于预定阈值的语音格式数据进行合并处理，得到数据量高于预定阈值的语音格式数据，可以实现对数据量较小的语音格式数据的整合，减少了语音格式数据的个数，方便数据的处理。

作为一种可选的实施例，将待合并语音格式数据进行合并处理可以包括：对待合并语音格式数据执行以下合并操作，得到语音格式数据块，直至语音格式数据块的数据量不低于预定阈值，其中，待合并语音格式数据在执行合并操作时标记为当前语音格式数据：将当前语音格式数据合并至语音格式数据块；判断语音格式数据块的数据量是否低于预定阈值；在语音格式数据块的数据量低于预定阈值的情况下，将下一个语音格式数据确定为当前语音格式数据。采用本发明，通过将数据量低于预定阈值的语音格式数据合并为数据量高于预定阈值的语音格式数据，实现对数据量较小的语音格式数据的整合，减少了语音格式数据的个数，方便数据的处理。

作为一种可选的实施例，在按照目标数据划分方式对数据类型为目标数据类型的数据进行数据划分之后，该实施例还可以包括：将数据类型为目标数据类型的数据进行划分后得到的目标数据块存储在目标数据库。采用本发明，按照目标数据类型对应的目标数据划分方式，将目标数据类型的数据进行数据划分之后，得到目标数据块，在将该目标数据块存储在目标数据库中，方便数据的处理。

可选地，将划分后得到的目标数据块存储在目标数据库，可以根据目标数据块对应的目标数据类型确定目标数据块对应的目标数据库，将目标数据块存储在对应的目标数据库中。

作为一种可选的实施例，在将数据类型为目标数据类型的数据进行划分后得到的目标数据块存储在目标数据库之后，该实施例还可以包括：在目标数据库中为数据类型为目标数据类型的数据设置目标索引方式。采用本发明，可以根据存储在目标数据库的目标数据块对应的目标数据类型，设置对应的目标索引方式，有针对性地使用特定的目标索引方式查询目标数据块，可以提高索引的速度。

本发明还提供了一种优选实施例，该优选实施例提供了一种应用在多元异构工单大数据分布式存储与分析平台的数据处理方法。

在企业中，随着业务的不断开展，工单数量呈几何级数倍增，客户服务中心积累了大量的工单信息数据，包括客户语音文件、出错界面截图、工单描述文本、客户反馈文本等多源异构的数据信息。这些数据可以被作为主要数据源，为数据分析提供数据支撑。例如，通过分析客户反馈文本信息和处理工单总数，可以对客服人员的服务质量进行客观评价，评定客服人员能力等级，起到非常重要的统一协调作用。

但是，若工单信息的数据缺乏统一的采集和存储的标准及规范，针对该数据的研究便会采用各自独立存储、分散管理的方式，从而形成“数据孤岛”，不利于数据处理，以及数据的利用。

针对的工单信息的数据采用各自独立存储、分散管理的方式，导致数据处理效率低，数据利用度较低等问题，可以根据多源异构工单信息的数据具有海量性、异构性、复杂性、以及动态性的特点，进行数据处理。具体过程如下：

1、根据多源异构工单信息的数据的特点，在hadoop集群环境上建立工单信息的数据的融合存储模型；

2、在融合存储模型的基础上，为每类数据建立合适的索引方式，提高数据查询的效率；

3、基于融合存储模型，以及对应的索引方式进行数据分析，并在web端界面上直观显示数据分析结果。

需要要说明的是，hadoop是一个开源的分布式系统基础架构，提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序,充分利用集群的计算功能进行高速运算和存储。

图2是根据本发明实施例的一种可选的hadoop集群环境示意图，如图2所示，该集群环境可以包括：服务器端和web端，其中，在服务器端hadoop集群可以包括一台主服务器与多台副服务器，主服务器与副服务器通过网络连接；在web端界面上显示工单类型统计分析、工单事由统计分析、模块故障次数排行、客户接单量排行、以及客服服务排行等分析结果。

作为一种可选的实施例，数据处理的具体方式如下：

(1)可以在linux下搭建基于hdfs分布式文件的hadoop集群环境，将工单信息的数据按照数据格式进行分类。

需要说明的是，linux是一个性能稳定的多用户网络操作系统。hdfs，全称hsdoopdistributedfilesystem，中文名称为分布式文件系统，是一种被设计成适合运行在通用硬件上的分布式文件系统。

可选地，将工单信息的数据按照数据格式进行分类，可以分为wav格式的语音格式数据、jpg格式的图像格式数据、结构化文本格式数据。

(2)在海量数据并行计算中，数据块的划分是并行化处理的重要部分，数据块划分的方式、数据分块的大小与并行计算效率有着密切联系。为了提升工单数据的检索速率，针对不同类型的工单信息的数据可以采用不同的数据块划分方式。

1)划分jpg格式的图像格式数据。

图3(a)是根据本发明实施例的一种可选的水平切分图像格式数据的示意图，如图3(a)所示，对于jpg格式的图像数据，可以采用水平切分的方式对图像进行切分。

图3(b)是根据本发明实施例的一种可选的竖直切分图像格式数据的示意图，如图3(b)所示，对于jpg格式的图像数据，可以采用竖直切分的方式对图像进行切分。

图3(c)是根据本发明实施例的一种可选的矩形块切分图像格式数据的示意图，如图3(c)所示，对于jpg格式的图像数据，可以采用矩形块切分的方式对图像进行切分。

图3(d)是根据本发明实施例的一种可选的不规则切分图像格式数据的示意图，如图3(d)所示，对于jpg格式的图像数据，可以采用不规则切分的方式对图像进行切分。

2)划分wav格式的语音格式数据。

wav语音文件通常比较小，若客户通话时间不足5分钟，相应的语音格式数据的数据量不足5m。hadoop集群利用namenode主节点存储集群中数据块的信息元数据，存储不足5m的“小文件”时，namenode节点的运行压力急剧上升。因此，采用数据合并策略将wav语音“小文件”进行合并。

需要说明的是，namenode是管理系统文件的命名空间，它维护着文件系统树及整棵树内所有的文件和目录。

图4是根据本发明实施例的一种可选的语音格式数据合并方式的示意图，如图4所示，编号1至7为低于阈值的语音格式数据，其中，图形的高度表示语音格式数据的数据量，将编号为1、2、以及3的语音文件合并，将编号为5和6的语音文件合并，将编号为4和7的语音文件合并，均可组成数据量高于阈值的语音格式数据块。

可选地，将语音格式数据块的合并信息、对应工单号等元数据信息存入hbase数据库中。

需要说明的是，hbase，全称hadoopdatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。

3)划分结构化文本格式数据。

对于结构化工单信息数据，直接将其存入hbase数据库生成数据表，对数据表进行拆分，然后以hfile文件形式存储到hdfs上。

需要说明的是，hfile是hbase存储数据的文件组织形式。

(3)进行hdfs下的分片索引研究，为每一类数据构建合适的索引方式。

图5是根据本发明实施例的一种可选的图像格式数据的索引方式的示意图，如图5所示，对于图像格式数据，尝试面向影像金字塔的四叉树空间索引，以block(数据库中的最小存储和处理单位)逐层索引，其中，数据中包括多个block，每个block按照层级顺序依次编号，例如，第n层(leveln)，block编号为b0；第n+1层(leveln+1)，block编号为b01、b02、b03、b04。

可选地，对于结构化工单数据，可以在hbase数据库中建立多级索引，如可以对工单编号进行索引之前，先进行以地区为基准的索引，然后进行以系统为基准的索引，再进行以模块为基准的索引，形成工单信息的3级索引，以提高索引的速度。

(4)通过对工单信息的数据进行分析，实现工单类型统计、工单事由统计、模块故障次数排行、客服接单量排行、客服服务排行等数据分析，并在web端展示分析结果。

图6是根据本发明实施例的一种可选的工单信息的数据的存储的示意图，如图6所示，hdfs客户端读取数据块的请求，并将该请求发送至hdfs，hdfs根据该请求hbase中获取数据块名，并在节点命名中获取数据块所在数据节点，然后通过hdfs访问接口从多个数据节点中读取所请求数据块，在读取完成后hdfs访问接口向hdfs客户端发出关闭连接的指示。

如图6所述，在hdfs中记录有工单信息的数据的多个格式类型，如语音格式数据、图像格式数据、结构化文本格式数据，其中，图像格式数据包括出错界面截图，语音格式数据包括客户问询语音和客服服务语音，结构化文本格式数据包括工单文本信息以及根据数据表生成的工单文本信息。

如图6所述，在hbase中记录有工单信息的数据的多个格式类型的信息，如语音格式数据、图像格式数据、结构化文本格式数据，其中，图形格式的数据包括数据块信息、所处行列号、以及对应工单号等信息；结构化文本格式数据包括数据子表信息、以及字表编号等信息；语音格式数据中包括语音分块信息、语音块编号、以及对应工单号等信息。

如图6所述，每个数据块节点中包括数据块和副本，每个数据块均为数据库中的最小存储和处理单位。

根据本发明实施例，还提供了一种数据处理装置实施例，需要说明的是，该数据处理装置可以用于执行本发明实施例中的数据处理方法，本发明实施例中的数据处理方法可以在该数据处理装置中执行。

图7是根据本发明实施例的一种可选的数据处理装置的示意图，如图7所示，该装置可以包括：获取单元71，用于获取待处理数据，其中，待处理数据为用于反映目标对象的工单信息的数据，待处理数据的数据类型至少包括目标数据类型；确定单元73，用于确定目标数据类型对应的目标数据划分方式；划分单元75，用于按照目标数据划分方式对数据类型为目标数据类型的数据进行数据划分。

需要说明的是，该实施例中的获取单元71可以用于执行本申请实施例中的步骤s102，该实施例中的确定单元73可以用于执行本申请实施例中的步骤s104，该实施例中的划分单元75可以用于执行本申请实施例中的步骤s106。上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

通过上述实施例，获取用于反映目标对象的工单信息的待处理数据，以及该待处理数据对应的目标数据类型，并根据获取的待处理数据的目标数据类型确定该目标数据类型对应的目标数据划分方式，再将数据类型为目标数据类型的数据按照目标数据划分方式进行数据划分。采用本发明，按照多种类型的数据对应的数据划分方式，将各种类型的数据分别处理，达到了对不同种类型的数据进行不同的处理的目的，从而实现了提高数据处理效率的技术效果，进而解决了相关技术对多种类型的数据进行统一处理导致数据处理效率较低的技术问题。

作为一种可选的实施例，目标数据类型可以包括以下至少之一：图像格式数据；语音格式数据；结构化文本格式数据。

作为一种可选的实施例，图像划分模块，用于在目标数据类型为图像格式数据的情况下，目标数据划分方式为按照几何形状对图像格式数据进行切分的方式；语音划分模块，用于在目标数据类型为语音格式数据的情况下，目标数据划分方式为将数据量低于预定阈值的语音格式数据进行合并的方式；文本划分模块，用于在目标数据类型为结构化文本格式数据的情况下，目标数据划分方式为将结构化文本格式数据对应的数据表进行拆分的方式。

作为一种可选的实施例，在目标数据类型为语音格式数据的情况下，其中，划分单元可以包括：获取模块，用于获取语音格式数据的数据量；判断模块，用于判断语音格式数据的数据量是否低于预定阈值；确定模块，用于在语音格式数据的数据量低于预定阈值的情况下，则将语音格式数据确定为待合并语音格式数据；合并模块，用于将待合并语音格式数据进行合并处理。

作为一种可选的实施例，合并模块可以包括：对待合并语音格式数据执行以下合并操作，得到语音格式数据块，直至语音格式数据块的数据量不低于预定阈值，其中，待合并语音格式数据在执行合并操作时标记为当前语音格式数据：合并子模块，用于将当前语音格式数据合并至语音格式数据块；判断子模块，用于判断语音格式数据块的数据量是否低于预定阈值；确定子模块，用于在语音格式数据块的数据量低于预定阈值的情况下，将下一个语音格式数据确定为当前语音格式数据。

作为一种可选的实施例，在划分单元之后，该实施例还可以包括：存储模块，用于将数据类型为目标数据类型的数据进行划分后得到的目标数据块存储在目标数据库。

作为一种可选的实施例，在存储模块之后，该实施例还可以包括：索引模块，用于在目标数据库中为数据类型为目标数据类型的数据设置目标索引方式。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨柳;何伟;胡红艳;索娟;李雅洁;高阳;马斌;李志刚;王天军
技术所有人：国网新疆电力公司信息通信公司;国家电网公司
我是此专利的发明人

上一篇：对个人信息进行地理编码的制造方法与工艺
上一篇：使用用户行为历史来个性化赞助搜索广告布局的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。