一种数据处理方法、装置和用于数据处理的装置与流程

文档序号：22967363发布日期：2020-11-19 21:41阅读：104来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及计算机技术领域，尤其涉及一种数据处理方法、装置和用于数据处理的装置。

背景技术：

随着计算机技术的发展，手机、平板电脑等终端得到了广泛的应用，相应的终端提供的功能越来越丰富，常见的功能包括：多媒体功能、即时通讯功能等。

以多媒体功能为例，终端不仅可以支持音频的播放，还可以支持音频的录制，例如，终端可以对用户演唱的歌曲进行录音，以便于后续播放该用户演唱的歌曲。

目前，终端录制的音频通常表达形式陈旧且效果乏味，因此无法满足用户的特定娱乐需求。

技术实现要素：

本发明实施例提供一种数据处理方法、装置和用于数据处理的装置，可以改变文本中分词的表达形式，进而增强音频数据的娱乐效果。

为了解决上述问题，本发明实施例公开了一种数据处理方法，包括：

针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性包括：时间属性、位置属性和语言属性；

依据所述分词的属性，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以得到所述分词对应的第二音频单元；所述第一音频单元的处理包括：重复处理、拉伸处理、频率处理和声道处理中的至少一种；

依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

另一方面，本发明实施例公开了一种数据处理装置，包括：

分词及属性确定模块，用于针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性包括：时间属性、位置属性和语言属性；

音频单元处理模块，用于依据所述分词的属性，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以得到所述分词对应的第二音频单元；所述第一音频单元的处理包括：重复处理、拉伸处理、频率处理和声道处理中的至少一种；以及

第二音频数据确定模块，用于依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

再一方面，本发明实施例公开了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性包括：时间属性、位置属性和语言属性；

依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的数据处理方法。

本发明实施例包括以下优点：

本发明实施例对第一音频数据对应文本中分词对应的第一音频单元执行如下处理中的至少一种：重复处理、拉伸处理、频率处理和声道处理，改变文本中分词的表达形式，进而增强音频数据的娱乐效果。

并且，本发明实施例在第一音频单元的处理过程中考虑分词的属性，上述属性可以包括：时间属性、位置属性和语言属性，因此可以提高第一音频单元的处理过程与语言学规律之间的匹配度，进而可以增强第一音频单元的处理效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种数据处理方法的应用环境的示意；

图2是本发明的一种数据处理方法实施例一的步骤流程图；

图3是本发明的一种数据处理方法实施例二的步骤流程图；

图4是本发明的一种数据处理装置实施例的结构框图；

图5是本发明的一种用于数据处理的装置800的框图；及

图6是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对相关技术中终端录制的音频通常样式陈旧且效果乏味的技术问题，本发明实施例提供了一种数据处理方案，该方案具体包括：针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性包括：时间属性、位置属性和语言属性；依据所述分词的属性，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以得到所述分词对应的第二音频单元；所述第一音频单元的处理包括：重复处理、拉伸处理、频率处理和声道处理中的至少一种；依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

本发明实施例中，音频可以指人耳可以听到的声音频率在预设频率范围内的声波，预设频率范围可以包括：20hz(赫兹)～20khz等。

音频数据可以指声波数据。音频数据可以包括：模拟音频数据、或者数字音频数据。其中，数字音频数据可用于表示二进制形式的音频数据。可以在数字音频数据与模拟音频数据之间进行转换，例如，可以将作为模拟音频数据的音频文件转换为数字音频数据；或者，可以将依据数字音频数据转换得到的模拟音频数据输出至音频输出设备，由该音频输出设备进行模拟音频数据的播放。

本发明实施例为了增强音频数据的娱乐效果，对第一音频数据进行处理，以得到第二音频数据。对第一音频数据进行处理的粒度具体为：第一音频数据对应文本的分词在第一音频数据中对应的第一音频单元，对第一音频单元进行处理，可以得到处理后的第二音频单元，进而依据第二音频单元得到第二音频数据。

上述第一音频单元的处理具体可以包括：重复处理、拉伸处理、频率处理和声道处理中的至少一种。

其中，重复处理可用于对某分词对应的第一音频单元进行至少一次重复，以改变分词的表达形式，进而增强音频数据的娱乐效果。例如，第一音频数据对应的文本a包括：“areyouok”，针对文本a中的任一分词对应的第一音频单元进行重复，以提供新颖的表达形式。

拉伸处理可用于对某分词对应的第一音频单元的时长信息进行拉伸，也即可以增加第一音频单元的时长信息。由于可以通过增加时长信息、改变分词的表达形式，故可以增强音频数据的娱乐效果。

频率处理可用于对某分词对应的第一音频单元的时长信息进行频率调整。频率是每秒经过一给定点的声波数量，频率的单位可以为赫兹。频率可以影响音调，音调可以指声音的高低。上述频率处理可以调整第一音频单元的音调，故可以改变分词的表达形式，故可以增强音频数据的娱乐效果。

声道处理可用于设置第一音频单元的声道参数。声道可以指声音的传播通道，声道可以反映声音在空间中的传播变化，故可以影响声音的播放效果。上述声道处理可以实现立体声音变化效果。本发明实施例的声道可以包括：至少两个声道，声音在不同声道之间的传播可以实现立体声音变化效果。例如，声道可以包括：左声道和右声道，左声道和右声道能够分别播出相同或不同的声音，产生从左到右或从右到左等的立体声音变化效果。除了左声道和右声道之外，声道还可以包括：中声道、后声道等。

综上，本发明实施例对分词对应的第一音频单元执行如下处理中的至少一种：重复处理、拉伸处理、频率处理和声道处理中，可以改变分词的表达形式，进而增强音频数据的娱乐效果。

本发明实施例适用的场景可以包括：多媒体场景等。第一音频数据可以与多媒体内容相应，多媒体内容可以包括：音频或者视频等。本发明实施例对第一音频数据进行处理，以得到第二音频数据，可以改变第一音频数据对应分词的表达形式，进而增强音频数据的娱乐效果。

本发明实施例提供的数据处理方法可应用于图1所示的应用环境中，如图1所示，客户端100与服务器200位于有线或无线网络中，通过该有线或无线网络，客户端100与服务器200进行数据交互。

可选地，客户端100可以运行在设备上，例如，客户端100可以为设备上运行的app(应用程序，application)，如多媒体处理app、即时通讯app、输入法app、或者操作系统自带的app等，本发明实施例对于客户端所对应的具体app不加以限制。可选地，上述客户端100可以提供问答功能，该问答功能可以响应于用户的操作，快速提供答案。

可选地，上述设备可以包括屏幕，上述屏幕可用于显示内容，上述内容可以包括：ui(用户界面，userinterface)等。上述设备具体可以包括但不限于：智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准音频层面3，movingpictureexpertsgroupaudiolayeriii)播放器、mp4(动态影像专家压缩标准音频层面4，movingpictureexpertsgroupaudiolayeriv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、智能音箱等等。可以理解，本发明实施例对于具体的设备不加以限制。

在本发明的一种实施例中，客户端可以接收用户上传或录制的第一音频数据，并向用户提供第一音频数据对应的第二音频数据，其中，可由客户端或服务器对第一音频数据进行处理。

方法实施例一

参照图2，示出了本发明的一种数据处理方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤201、针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性具体可以包括：时间属性、位置属性和语言属性；

步骤202、依据所述分词的属性，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以得到所述分词对应的第二音频单元；所述第一音频单元的处理具体可以包括：重复处理、拉伸处理、频率处理和声道处理中的至少一种；

步骤203、依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

图2所示方法实施例的至少一个步骤可由客户端或服务器执行，可以理解，本发明实施例对于图2所示方法实施例的具体执行主体不加以限制。

在步骤201中，第一音频数据可以为用户上传的音频数据，或者，第一音频数据可以为用户录制的音频数据，或者，第一音频数据可以为多媒体库中存储的音频数据，可以理解，本发明实施例对于具体的第一音频数据不加以限制。需要说明的是，第一音频数据对应的表达形式可以包括：说话形式和/或演唱形式，例如，用户可以说出一段文本，或者，用户可以唱出一段文本，本发明实施例对于具体的第一音频数据不加以限制。

本发明实施例可以采用语音识别技术，确定该第一音频数据对应的文本。如果将该第一音频数据记作s，对s进行一系列处理后得到与之相对应的语音特征序列o，记作o＝{o1，o2，…，oi，…，ot}，其中oi是第i(i为自然数)个语音特征，t为语音特征总个数。第一音频数据s对应的句子可看作是由许多词组成的一个词串，记作w＝{w1，w2，…，wn}。语音识别的过程就是根据已知的语音特征序列o，求出最可能的词串w’，w’可用于表征该第一音频数据对应的语音识别结果、也即该第一音频数据对应对应的文本，n可以为自然数。

具体来说，语音识别是一个模型匹配的过程，在这个过程中，可以首先根据人的语音特点建立语音模型，通过对输入的第一音频数据的分析，抽取所需的特征，来建立语音识别所需的模板；对用户的第一音频数据进行识别的过程即是将第一音频数据的特征与所述模板比较的过程，最后确定与的特征与匹配的最佳模板，从而获得语音识别结果。具体的语音识别算法，可采用基于统计的隐含马尔可夫模型的训练和识别算法，也可采用基于神经网络的训练和识别算法、基于动态时间归整匹配的识别算法等等其他算法，本发明实施例对于具体的语音识别过程不加以限制。

在实际应用中，可以采用分词方法，确定所述文本对应的分词，分词方法，可以将句子切分成一个一个单独的词，是将连续的句子按照一定的规范重新组合成词序列的过程。分词方法具体可以包括：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等，可以理解，本发明实施例对于具体的分词方法不加以限制。

分词的属性可以包括：时间属性、位置属性和语言属性。

其中，时间属性可用于表征表达分词所花费的时间。可以通过分词对应的第一音频单元的时长信息来表征上述时间属性。可以理解，第一音频单元的时长信息可以包括：整个分词对应第一音频单元的时长信息、或者分词的部分音节对应第一音频单元的时长信息。以分词为“ok”为例，“ok”的部分音节可以包括：“o”对应的音节、或者“k”对应的音节。

位置属性可以指分词在句子中的位置，如句首位置、句中位置或者句尾位置等。

语言属性可以反映语言学的规律。所述语言属性包括：词性、和/或、句子成分。词性可以包括：动词、名词、或者语气词等。句子成分可以包括：主语、谓语、宾语等。当然，词性和句子成分只是作为语言属性的可选实施例，实际上，本领域技术人员可以根据实际应用需求，采用其他语言属性，例如，语言属性还可以包括：实体属性等，其中，实体可以指客观存在并可相互区别的事物，实体可以是具体的人、事、物,也可以是抽象的概念或联系。

步骤202中，第一音频数据可以指完整的文本对应的音频数据；第一音频单元可以为第一音频数据的一部分，也即，文本中分词在第一音频数据中对应的部分音频数据。

本发明实施例可以依据所述分词的属性，对所述分词在所述第一音频数据中对应的第一音频单元进行处理。在实际应用中，可以针对全部分词或者部分分词对应的第一音频单元进行处理。其中，可以不针对一个分词对应的第一音频单元进行处理，或者，可以一个分词对应的第一音频单元可以对应一种或多种处理。

在本发明的一种可选实施例中，步骤202对所述分词在所述第一音频数据中对应的第一音频单元进行处理，具体可以包括：依据所述分词的属性，确定目标分词；所述目标分词对应的属性符合预置条件；对所述目标分词在所述第一音频数据中对应的第一音频单元进行处理。

本发明实施例可以确定属性符合预置条件的目标分词，并针对目标分词对应的第一音频单元进行处理。

可选地，不同的处理可以对应相同或不同的预置条件。以重复处理或者拉伸处理为例，其对应的预置条件可以包括如下属性中的至少一种：句首位置、句尾位置、语气词、主语等。

重复处理可用于对某分词对应的第一音频单元进行至少一次重复，具体的重复次数可由本领域技术人员根据实际应用需求确定。

拉伸处理可用于对某分词对应的第一音频单元的时长信息进行拉伸。拉伸后的时长信息可由本领域技术人员根据实际应用需求确定。可选地，拉伸处理可以将时长信息更新为预设时长值，或者，拉伸处理可以将时长信息更新为原始时长值的预设倍数，如1.5倍、2倍、3倍等。

可选地，可以对整个分词对应第一音频单元的时长信息进行拉伸。例如，对整个分词“我们”、或者整个分词“ok”对应第一音频单元的时长信息进行拉伸。

可选地，可以对分词的部分音节对应第一音频单元的时长信息进行拉伸。以分词为“ok”为例，“ok”的部分音节可以包括：“o”对应的音节、或者“k”对应的音节，可以对“ok”的“o”对应音节的时长信息进行拉伸。以分词为“我们”为例，可以对“我们”的“我”对应音节的时长信息进行拉伸。

可选地，可以依据音符时值得到预设时长值。音符类型可以包括：完全音符、四分音符、八分音符、十六分音符、三十二分音符等。音符时值，也称为音符值或音值，用于表达音符之间的相对持续时间。一个完全音符的时值等于两个二分音符的时值；一个完全音符的时值等于四个四分音符的时值，一个完全音符的时值等于八个八分音符的时值；一个完全音符的时值等于十六个十六分音符的时值，一个完全音符等于三十二个三十二分音符的时值。预设时长值可以为第二音频数据中最短音符的倍数。

可选地，频率处理可以对应全部分词，也即，可以针对全部分词对应的第一音频单元进行频率处理。频率处理可用于调高或者调低频率。

可选地，声道处理可以对应全部分词，也即，可以针对全部分词对应的第一音频单元进行声道处理。声道处理可用于设置第一音频单元的声道参数。声道参数可以包括：左声道参数、或者右声道参数、或者中声道参数、或者后声道参数等。

可选地，相邻的分词对应不同的声道参数。不同的声道参数可以产生声音在空间中的变化，进而可以实现立体声音变化效果。假设文本依次包括：分词1、分词2、…分词i、…分词n，i、n可以为自然数，则分词i与分词(i+1)可以对应不同的声道参数。

可选地，相同分词对应的第二音频单元和背景音乐对应不同的声道参数。背景音乐(bgm，backgroundmusic)，也称伴乐、配乐。背景音乐可以包括：伴随衬托歌唱的器乐演奏。背景音乐可以提供节奏和音调，其作用可以包括如下作用中的至少一种：帮助演唱者把握节奏；激发听众的兴趣，提高参与度；一定程度上烘托音乐的气氛。

对于同一分词而言，其对应的第二音频单元和背景音乐可以对应不同的声道参数，故可以产生声音在空间中的变化，进而可以实现立体声音变化效果。

当然，相邻的分词对应不同的声道参数只是作为可选实施例，实际上，相邻的分词可以对应相同的声道参数。同理，相同分词对应的第二音频单元和背景音乐对应不同的声道参数只是作为可选实施例，实际上，相同分词对应的第二音频单元和背景音乐可以对应相同的声道参数。

在本发明的一种应用示例中，第一音频数据对应的文本a包括：“areyouok”，则可以针对文本a中分词对应的第一音频单元进行如下处理，以改变文本中分词的表达形式：

例如，可以针对分词“are”对应的第一音频单元重复两次，对应的第二音频单元对应分词“areareare”；又如，可以针对分词“you”对应的第一音频单元进行拉伸处理，例如，将时长信息更新为原始时长值的2倍等；再如，可以调高或者调低任一分词对应的第一音频单元的频率；或者，可以设置任一分词对应的第一音频单元的声道参数。

需要说明的是，在针对分词对应的第一音频单元进行多种处理的情况下，本发明实施例对于第一音频单元的多种处理之间的顺序不加以限制。例如，第一音频单元的多种处理之间的顺序可以包括：重复处理、拉伸处理、频率处理和声道处理等。

步骤202对所述分词在所述第一音频数据中对应的第一音频单元进行处理，具体可以包括：依据所述分词的属性、以及所述分词对应的背景音乐，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以使得到的第二音频单元与所述背景音乐相匹配。

可选地，背景音乐可以对应有例如midi(乐器数字接口，musicalinstrumentdigitalinterface)的音符文件，音符文件可以针对背景音乐的音符记录对应的数字，音符文件可以为二进制文件。

本发明实施例可以依据所述分词的属性、以及所述分词对应的背景音乐，对第一音频单元进行处理，可以使得到的第二音频单元与所述背景音乐相匹配，进而可以增加第二音频单元与所述背景音乐之间的匹配度。

可选地，所述第二音频单元可以对应有第一频率序列，所述背景音乐可以对应有第二频率序列，所述第一频率序列与所述第二频率序列相匹配。

音符通常对应特定的频率。例如，c调的音符对应的频率如下：do对应261.5hz，re对应293.5hz，mi对应329.5hz，fa对应349hz，so对应392hz，la对应440hz，xi对应494hz等。因此，本发明实施例可以依据音符与频率之间的映射关系、以及背景音乐对应的音符文件，确定第二频率序列。第二频率序列可以按照时间从先到后的顺序，对音符对应的频率进行排列。例如，第二频率序列可以依次包括：f1、f2、f3、f4等。

可选地，所述第一频率序列与所述第二频率序列相匹配可以包括：第一频率序列与第二频率序列的总时值匹配。可选地，所述第一频率序列与所述第二频率序列相匹配可以包括：第一频率序列与第二频率序列的音符类型匹配。可选地，所述第一频率序列与所述第二频率序列相匹配可以包括：第一频率序列与所述第二频率序列在相同位置上的频率相匹配等。

例如，频率序列a依次包括：f1、f2、f3、f4，频率序列b依次包括：f1、f2、f3、f4，频率序列c依次包括：f1、f2、f3、f5；则频率序列a与频率序列b相匹配，频率序列a与频率序列c不匹配。

本发明实施例中，不同分词对应的背景音乐之间可以相互独立。可以通过背景音乐库预先存储多种背景音乐，背景音乐的信息可以包括：时长信息、音符类型、频率序列等。可选地，可以依据分词的属性，从背景音乐库中获取分词对应的背景音乐。分词的属性可以与背景音乐的信息相匹配，例如，分词的时间属性与背景音乐的时长信息相匹配等。

本发明实施例中，不同分词对应的背景音乐之间可以相互关联。例如，相邻多个分词对应的背景音乐之间相互关联，例如，一个句子中多个分词分别对应一个背景音乐中的背景音乐片段；或者，一段文本中多个句子分别对应一个背景音乐中的背景音乐片段等等。可以理解，本领域技术人员可以根据实际应用需求，确定文本中分词对应的背景音乐，本发明实施例对于具体的背景音乐不加以限制。

步骤203中，可以依据所述分词的位置属性，对多个分词对应的第二音频单元进行融合，得到第二音频数据。

第二音频单元可以表征第一音频单元的处理结果。可以理解，若未针对第一音频单元进行处理，则步骤203可以依据所述分词的位置属性，对多个分词对应的第二音频单元、以及分词对应的第一音频单元进行融合，得到第二音频数据。

在本发明的一种可选实施例中，步骤203依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据，具体可以包括：对所述分词对应的第二音频单元和所述分词对应的背景音乐进行混合，以得到混合音频数据；依据所述分词的位置属性，对多个分词对应的混合音频数据进行融合，以得到第二音频数据。本发明实施例可以首先对第二音频单元及其对应的背景音乐进行混合，然后依据所述分词的位置属性，对多个分词对应的混合音频数据进行融合。

可以理解，在本发明的其他实施例中，还可以首先依据所述分词的位置属性，对多个分词对应的第二音频单元进行融合以得到融合音频数据，然后对融合音频数据与背景音乐进行混合，以得到第二视频数据。

在实际应用中，可以输出第二音频数据。例如，服务器可以向客户端输出第二音频数据，或者，客户端可以向用户输出第二音频数据等。

综上，本发明实施例的数据处理方法，对第一音频数据对应文本中分词对应的第一音频单元执行如下处理中的至少一种：重复处理、拉伸处理、频率处理和声道处理中，可以改变文本中分词的表达形式，进而增强音频数据的娱乐效果。

方法实施例二

参照图3，示出了本发明的一种数据处理方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤301、针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性具体可以包括：时间属性、位置属性和语言属性；

步骤302、依据所述分词的属性，对所述分词在所述第一音频数据中对应的第一音频单元进行重复处理和拉伸处理，以得到所述分词对应的第二音频单元a；

步骤303、依据所述分词的时间属性、以及背景音乐的信息，对所述分词对应的第二音频单元a进行频率处理和声道处理，以得到所述分词对应的第二音频单元b；

步骤304、对所述分词对应的第二音频单元b和所述分词对应的背景音乐进行混合，以得到混合音频数据；

步骤305、依据所述分词的位置属性，对多个分词对应的混合音频数据进行融合，以得到第二音频数据。

步骤302中，重复处理可以使第一音频单元重复出现预设次数，例如，将“areyouok”中“are”重复2次等。拉伸处理可以增加第一音频单元的时长信息，例如，“areyouok”中“you”的原始时长值为t，拉伸处理后的目标时长值为2t等。可以理解，本发明实施例对重复处理和拉伸处理的执行顺序不加以限制，二者可以先后执行或者后先执行。

步骤303中，背景音乐可以作为频率处理的依据，本发明实施例可以依据背景音乐的频率，对第二音频单元a的频率进行调整，以使第二音频单元a的频率与背景音乐的频率相匹配。可选地，所述第二音频单元可以对应有第一频率序列，所述背景音乐可以对应有第二频率序列，所述第一频率序列与所述第二频率序列相匹配。

综上，本发明实施例的数据处理方法，利用背景音乐提供的节奏和音调，对分词对应的第二音频单元a进行频率处理，可以提高第二音频单元b与背景音乐之间的匹配度，且可以激发听众的兴趣，一定程度上烘托音乐的气氛。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图4，示出了本发明的一种数据处理装置实施例的结构框图，具体可以包括：

分词及属性确定模块401，用于针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性包括：时间属性、位置属性和语言属性；

音频单元处理模块402，用于依据所述分词的属性，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以得到所述分词对应的第二音频单元；所述第一音频单元的处理包括：重复处理、拉伸处理、频率处理和声道处理中的至少一种；以及

第二音频数据确定模块403，用于依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了一种用于数据处理的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：。

图5是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当装置800处于操作模式，如呼叫模式、记录模式和语音数据处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频数据处理(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

图6是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图2或图3或图4所示的数据处理方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种数据处理方法，所述方法包括：针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性包括：时间属性、位置属性和语言属性；依据所述分词的属性，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以得到所述分词对应的第二音频单元；所述第一音频单元的处理包括：重复处理、拉伸处理、频率处理和声道处理中的至少一种；依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

本发明实施例公开了a1、一种数据处理方法，所述方法包括：

针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性包括：时间属性、位置属性和语言属性；

依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

a2、根据a1所述的方法，所述语言属性包括：词性、和/或、句子成分。

a3、根据a1所述的方法，所述对所述分词在所述第一音频数据中对应的第一音频单元进行处理，包括：

依据所述分词的属性，确定目标分词；所述目标分词对应的属性符合预置条件；

对所述目标分词在所述第一音频数据中对应的第一音频单元进行处理。

a4、根据a1所述的方法，所述对所述分词在所述第一音频数据中对应的第一音频单元进行处理，包括：

依据所述分词的属性、以及所述分词对应的背景音乐，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以使得到的第二音频单元与所述背景音乐相匹配。

a5、根据a4所述的方法，所述第二音频单元对应有第一频率序列，所述背景音乐对应有第二频率序列，所述第一频率序列与所述第二频率序列相匹配。

a6、根据a4所述的方法，所述依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据，包括：

对所述分词对应的第二音频单元和所述分词对应的背景音乐进行混合，以得到混合音频数据；

依据所述分词的位置属性，对多个分词对应的混合音频数据进行融合，以得到第二音频数据。

a7、根据a4所述的方法，相邻的分词对应不同的声道参数；和/或，相同分词对应的第二音频单元和背景音乐对应不同的声道参数。

本发明实施例公开了b8、一种数据处理装置，所述装置包括：

第二音频数据确定模块，用于依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

b9、根据b8所述的装置，所述语言属性包括：词性、和/或、句子成分。

b10、根据b8所述的装置，所述音频单元处理模块包括：

目标分词确定模块，用于依据所述分词的属性，确定目标分词；所述目标分词对应的属性符合预置条件；以及

目标分词音频处理模块，用于对所述目标分词在所述第一音频数据中对应的第一音频单元进行处理。

b11、根据b8所述的装置，所述音频单元处理模块包括：

基于背景音乐的音频单元处理模块，用于依据所述分词的属性、以及所述分词对应的背景音乐，对所述分词在所述第一音频数据中对应的第一音频单元进行处理，以使得到的第二音频单元与所述背景音乐相匹配。

b12、根据b11所述的装置，所述第二音频单元对应有第一频率序列，所述背景音乐对应有第二频率序列，所述第一频率序列与所述第二频率序列相匹配。

b13、根据b11所述的装置，所述第二音频数据确定模块包括：

混合模块，用于对所述分词对应的第二音频单元和所述分词对应的背景音乐进行混合，以得到混合音频数据；以及

融合模块，用于依据所述分词的位置属性，对多个分词对应的混合音频数据进行融合，以得到第二音频数据。

b14、根据b11所述的装置，相邻的分词对应不同的声道参数；和/或，相同分词对应的第二音频单元和背景音乐对应不同的声道参数。

本发明实施例公开了c15、一种用于数据处理的装置，所述装置应用于服务器，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

针对第一音频数据对应的文本，确定所述文本对应的分词、以及分词的属性；所述属性包括：时间属性、位置属性和语言属性；

依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据。

c16、根据c15所述的装置，所述语言属性包括：词性、和/或、句子成分。

c17、根据c15所述的装置，所述对所述分词在所述第一音频数据中对应的第一音频单元进行处理，包括：

依据所述分词的属性，确定目标分词；所述目标分词对应的属性符合预置条件；

对所述目标分词在所述第一音频数据中对应的第一音频单元进行处理。

c18、根据c15所述的装置，所述对所述分词在所述第一音频数据中对应的第一音频单元进行处理，包括：

c19、根据c18所述的装置，所述第二音频单元对应有第一频率序列，所述背景音乐对应有第二频率序列，所述第一频率序列与所述第二频率序列相匹配。

c20、根据c18所述的装置，所述依据所述分词的位置属性和所述分词对应的第二音频单元，得到第二音频数据，包括：

对所述分词对应的第二音频单元和所述分词对应的背景音乐进行混合，以得到混合音频数据；

依据所述分词的位置属性，对多个分词对应的混合音频数据进行融合，以得到第二音频数据。

c21、根据c18所述的装置，相邻的分词对应不同的声道参数；和/或，相同分词对应的第二音频单元和背景音乐对应不同的声道参数。

本发明实施例公开了d22、一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如a1至a7中一个或多个所述的数据处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黎明超;韩秦;李茜;李瑞星;郑亚鑫;葛晓娟
技术所有人：北京搜狗科技发展有限公司
我是此专利的发明人

上一篇：文本三元组的抽取方法及装置、电子设备及存储介质与流程
上一篇：一种领域词库构建方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。