语音数据处理方法、装置、计算机设备及存储介质与流程

文档序号：31875600发布日期：2022-10-21 21:30阅读：83来源：国知局

1.本技术涉及数据处理技术领域，尤其涉及一种语音数据处理方法、装置、计算机设备及存储介质。

背景技术：

2.语音合成技术是把文本转化为声音的关键技术之一，其可以使电脑、机器人等电子设备具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。现在人们采用深度学习等算法构建语音合成系统，并采用大量的语音训练数据对语音合成系统进行训练，从而得到可以投入应用的语音合成系统。
3.目前，通常是采用专业的录音设备进行语音数据录制后，得到语音数据，并对语音数据进行人工标注获得语音训练数据，但由于受标注人员的主观影响，在对语音数据进行标注时，导致标注标准难以达到统一，错误率高且效率低，从而影响整个语音合成系统的性能。

技术实现要素：

4.本技术提供一种语音数据处理方法、装置、计算机设备及存储介质，提高语音数据的标注效率。
5.一种语音数据处理方法，包括：
6.获取待处理语音数据进行语音识别，得到所述待处理语音数据对应的音素标签数据；
7.将所述音素标签数据与所述待处理语音数据进行对齐，得到音素对齐结果；
8.根据所述音素对齐结果，确定所述音素标签数据中相邻音素标签组之间间隔的第一停顿时间；
9.根据所述第一停顿时间，对所述音素标签数据进行标注，得到目标音素标签数据；
10.将所述目标音素标签数据作为训练数据对语音生成模型进行训练。
11.一种语音语音数据处理装置，包括：
12.语音识别模块，用于获取待处理语音数据进行语音识别，得到所述待处理语音数据对应的音素标签数据；
13.对齐模块，用于将所述音素标签数据与所述待处理语音数据进行对齐，得到音素对齐结果；
14.第一停顿时间确定模块，用于根据所述音素对齐结果，确定所述音素标签数据中相邻音素标签组之间间隔的第一停顿时间；
15.标注模块，用于根据所述第一停顿时间，对所述音素标签数据进行标注，得到目标音素标签数据；
16.训练模块，用于将所述目标音素标签数据作为训练数据对语音生成模型进行训练。
17.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音数据处理方法的步骤。
18.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音数据处理方法的步骤。
19.本技术提供的语音数据处理方法、装置、计算机设备及存储介质，获取待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据；将音素标签数据与待处理语音数据进行对齐，得到音素对齐结果；根据音素对齐结果，确定音素标签数据中相邻音素标签组之间间隔的第一停顿时间；根据第一停顿时间，对音素标签数据进行标注，得到目标音素标签数据；将目标音素标签数据作为训练数据对语音生成模型进行训练，在本技术中，通过将对待处理语音数据进行语音识别得到的音素标签数据和待处理语音数据进行对齐，可以准确确定音素标签数据中相邻音素标签组之间间隔的第一停顿时间的时间长度，以便于快速对音素标签数据进行标注，从而提高语音数据的标注准确度及标注效率。
附图说明
20.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
21.图1是本技术一实施例中语音数据处理方法的一应用环境示意图；
22.图2是本技术一实施例中语音数据处理方法的一流程图；
23.图3是本技术又一实施例中语音数据处理装置的结构示意图；
24.图4是本技术又一实施例中语音数据处理装置的结构示意图；
25.图5是本技术又一实施例中语音数据处理装置的结构示意图；
26.图6是本技术一实施例中语音数据处理装置的结构示意图；
27.图7是本技术一实施例中计算机设备的一示意图。
具体实施方式
28.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
29.本技术实施例提供的语音数据处理方法，可应用在如图1的应用环境中，其中，计算机设备和终端设备通过网络与服务器进行通信。其中，计算机设备和终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
30.系统框架100可以包括终端设备、网络和服务器。网络104用以在终端设备和服务器之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
31.用户可以使用终端设备通过网络与服务器交互，以接收或者发送消息等。
32.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture eperts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture eperts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
33.服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
34.需要说明的是，本技术实施例所提供的语音数据处理方法由服务器执行，相应地，语音数据处理装置设置于服务器中。
35.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，根据实现需要，可以具有任意数目的终端设备、网络和服务器，本技术实施例中的终端设备具体可以对应的是实际生产中的应用系统。
36.在一实施例中，如图2所示，提供一种语音数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤s201至步骤s205：
37.步骤s201：获取待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据。
38.其中，待处理语音数据可以是至少一个音频信号构成的语音数据，音频信号是表示机械波的信号，是机械波的波长、强度变化的信息载体，其可以是模拟信号也可以是数字信号。音素标签数据可以是由音素标签组成的数据，每个音素标签可以对应一个音素，其中，音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位，其可以是汉语中的音节(如，
ā
、
à
、d)、日语中的音节(如，
く
、
ア
、
あ
)、英语中的音标(如，dr、s、:)，音素标签根据实际应用场景确定，此处不作具体限定。
39.示例性的，音素标签数据可以是“nin hao qing nin gei wo ji fen zhong de shi jian ting wo jie shao xia zhe xiang zeng zhi ye wu”，对应的文字可以为“您好，请您给我一分钟的时间听我介绍下这项增值业务”。
40.在本技术中，可以采用录音设备采集特定人员在特定场景(如坐席外呼场景)下的的语音数据，将该语音数据作为待处理语音数据。其中，特定人员可以是客服、主持人、电台主播等，特定人员可根据实际应用场景进行选择，此处不作具体限定。
41.可选的，可以采用预训练的语音识别系统对待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据，其中，语音识别系统包括编码层、神经网络层和解码层，其中，可以通过编码层对待处理语音数据进行编码，得到编码语音数据，接着，通过神经网络层对编码语音数据进行特征提取，得到语音特征数据，最后，通过解码层对语音特征数据进行音素标签识别，得到音素标签数据，其中，语音特征数据可以是表征语音数据的特征表达，例如，可以是音色、音调、语速等，可选的，预训练的语音识别模型可以通过对神经网络进行训练实现。
42.步骤s202：将音素标签数据与待处理语音数据进行对齐，得到音素对齐结果。
43.其中，音素对齐结果包括音素标签数据中第i个时刻(如，第23分钟01秒至第23分钟02秒)的字对应的音素标签组(如，wo)与待处理语音数据中第i个时刻(如，第23分钟01秒
至第23分钟02秒)的音频信号片段的对齐结果信息，对齐结果信息可以包括在待处理语音数据中每个音素标签组所占的时间长度以及相邻音素标签组之间间隔的停顿时间长度。
44.可选的，将音素标签数据和待处理语音数据输入预训练的声学模型中进行预测，得到音素对齐结果，其中，预训练的声学模型可以对神经网络进行训练实现。
45.可选的，音素对齐结果可以通过图表等可视化形式显示在终端页面。
46.步骤s203：根据音素对齐结果，确定音素标签数据中相邻音素标签组之间间隔的第一停顿时间。
47.其中，每个音素标签组对应一个字(如“wo”对应“我”)或者一个单词(如对应“word”)，第一停顿时间可以是在待处理语音数据中相邻音素标签组之间所占的停顿时间长度。为了更好的理解相邻音素标签组之间间隔的第一停顿时间，示例性的，假设，字是“我”和“和”，音素标签组为“wo”和“he”,第一停顿时间即为音素标签“o”和音素标签“h”之间所占的停顿时间长度。
48.步骤s204：根据第一停顿时间，对音素标签数据进行标注，得到目标音素标签数据。
49.具体的，可以根据第一停顿时间，获取预设的停顿标签，并采用停顿标签对音素标签数据进行标注，得到目标音素标签数据。
50.假设，预设的停顿标签可以位1、2、3，具体为长、中和短停顿，可以根据第一停顿时间，匹配每个音素标签数据组之间的停顿标签，并采用停顿标签对音素标签数据中每两个音素标签数据组之间进行标注，得到目标音素标签数据，比如，音素标签数据为“您～～～好～～，我～是～客～服～人～员”时，其中“～”表示第一停顿时间长度，可以根据第一停顿时间，匹配每个音素标签数据组之间的停顿标签，即长停顿“～～～”匹配停顿标签“1”，中停顿“～～”匹配停顿标签“2”，短停顿“～”匹配停顿标签“3”，并采用停顿标签对音素标签数据中每两个音素标签数据组之间进行标注，得到的目标音素标签数据可以表示为“nin1hao2，wo3shi3ke3fu3ren3yuan”。
51.可选的，可以将第一停顿时间和音素标签数据输入预训练的标注模型进行标注，得到目标音素标签数据，其中，预训练的标注模型可以是条件随机场模型，其中，预训练的标注模型内预先设置了可进行标注的停顿标签。
52.步骤s205：将目标音素标签数据作为训练数据对语音生成模型进行训练。
53.其中，语音生成模型用于将文字信息转变为语音的模型。
54.可以理解的是，语音生成模型可以基于深度神经网络建模实现，通过目标音素标签数据对语音生成模型进行训练，直至语音生成模型收敛，训练完成，由于目标音素标签数据中相邻音素标签组之间具有停顿标签，每个停顿标签表征相应的停顿时间，使得语音生成模型可以学习到不同音素标签组(即字)之间的停顿规律，后续，将一段文本的音素标签数据输入训练后的语音生成模型之后，可以自动生成包含根据语境(即抑扬顿挫)停顿的语音，可以更好的表达语音播放的效果，使得语音播放的表达效果更换好。
55.在本实施例中，获取待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据；将音素标签数据与待处理语音数据进行对齐，可以快速并准确确定音素标签数据中相邻音素标签组之间间隔的第一停顿时间的长度，以便于对音素标签数据进行标注，以此，通过自动化对音素标签数据之间进行停顿时间的生成、标注和训练，极大的提高
了语音数据的标注的效率。
56.在本实施例一些可选的实现方式中，如图3所示，步骤s201，获取待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据，包括如下步骤s2010至步骤s2011：
57.步骤s2010：按照预设的帧长度对待处理语音数据进行语音识别，得到每个预设的帧长度对应的音素标签序列。
58.其中，预设的帧长度可以根据待处理语音数据中的音频信号的长短确定，例如，若是音频信号较短，则预设的帧长度可以是10ms，预设的帧长度可以根据实际情况进行调整，以减少待处理语音数据中的音频信号的非稳态、时变的影响，进而可以提高语音识别的准确度，从而确保得到的音素标签序列的准确度。
59.步骤s2011：按照时间顺序，将每个预设的帧长度对应的音素标签序列进行合并，得到待处理语音数据对应的音素标签数据。
60.其中，时间顺序为待处理语音数据中每段音频信号对应的时间的顺序。
61.在本实施例中，按照预设的正常度对待处理语音数据进行语音识别，可以减少待处理语音数据中音频信号的非稳态和时变，提高语音识别的准确度，从而得到准确的音素标签序列，进而合并音素标签数据，得到音素标签数据，有利于提高语音数据的标注准确度及标注效率。
62.在本实施例一些可选的实现方式中，步骤s202，将音素标签数据与待处理语音数据进行对齐，得到音素对齐结果，包括：
63.提取待处理语音数据的时序特征和频率特征。
64.具体的，可以基于神经网络提取待处理语音数据中的时序特征和频率特征。
65.根据时序特征和频率特征，得到待处理语音数据对应的音素分布位置。
66.其中，音素分布位置可以是每个音素标签组在待处理语音数据中的音频信号上的时间区间，例如，音素标签组“wo”在待处理语音数据中的音频信号上的时间区间为23分40秒至23分42秒，具体的，根据频率特征确定音素标签组，根据时序特征确定音素标签组在待处理语音数据中音频信号的时间区间，从而确定音素分布位置。
67.根据音素分布位置，将音素标签数据与待处理语音数据进行音素对齐处理，得到音素对齐结果。
68.具体的，根据音素分布位置，将音素标签数据中的音素标签组与待处理语音数据进行音素对齐处理，得到音素对齐结果。
69.在本实施例中，通过待处理语音数据的时序特征和频率特征确定待处理语音数据对应的音素分布位置，根据音素分布位置便于确定音素标签数据在待处理语音数据中的位置，通过自动化快速确定音素对齐结果，进而提高提高语音数据的标注效率。
70.在本实施例一些可选的实现方式中，如图4所示，步骤s204，根据第一停顿时间，对音素标签进行标注，得到目标音素标签数据，包括如下步骤s2040至步骤s2041：
71.步骤s2040：根据第一停顿时间，从预设标签数据库中获取对应的停顿标签。
72.其中，预设标签数据库中包括多个停顿标签，每个停顿标签有对应的索引值，具体的，可以通过第一停顿时间，确定预设标签数据库中的索引值，根据索引值从与车标签数据库中获取对应的停顿标签，示例性的，停顿标签可以是1、2、3，其中，1代表短停顿、2代表中
停顿、3代表长停顿。其中，可以预设第一停顿时间和索引值的关系映射表，通过第一停顿时间和该关系映射表，确定预设标签数据库中的索引值。
73.示例性的，假设第一停顿时间为3ms,关系映射表中3ms对应的索引值为a，预设标签数据库中的索引值a对应的停顿标签为3(可以代表短停顿标签)，则可以通过3ms从预设标签数据库中获取3。
74.步骤s2041：采用停顿标签，对音素标签数据的间隔位置进行标注，得到目标音素标签数据。
75.其中，间隔位置为音素标签数据中每两个音素标签组之间的位置，以及音素标签数据中的最后一个音素标签组之后的位置。
76.在本实施例中，通过预设标签数据库，并根据第一停顿时间从预设标签数据库中获取停顿标签，通过自动化对音素标签数据的间隔位置进行标注，具有统一的标注标准且量化处理，有利于提高语音数据的标注效率。
77.在本实施例一些可选的实现方式中，预设标签数据库包括至少两个类型的停顿标签，每个类型的停顿标签携带不同的第二停顿时间，步骤s2040，根据第一停顿时间，从预设标签数据库中获取对应的停顿标签，包括：
78.将第一停顿时间和第二停顿时间进匹配，得到匹配结果。
79.其中，第二停顿时间为对历史经验数据分析后，获得的在历史的待处理语音数据中音素标签组之间间隔所占的停顿时间长度。
80.可选的，可以通过采用相似度算法，计算第一停顿时间和第二停顿时间的相似度，得到相似度值；若相似度值大于等于预设阈值(预设阈值可以根据历史经验获得)，则确定匹配结果为第一停顿时间与第二停顿时间匹配。其中，相似度算法可以是余弦相似度、欧几里得距离等，相似度算法可根据实际需要选择，此处不作限定。
81.根据匹配结果，从预设标签数据库中获取每个第一停顿时间对应类型的停顿标签。
82.具体的，若匹配结果为第一停顿时间和第二停顿时间匹配，则从预设标签数据库中获得第二停顿时间对应的停顿标签，作为第一停顿时间对应类型的停顿标签。
83.在本实施例中，通过在预设数据库中设置不同类型的停顿标签，且每个类型的停顿标签都携带有对应的第二停顿时间，通过将第一停顿时间和第二停顿时间进行匹配，可以快速确定停顿标签，有利于提高语音数据的标注准确度及标注效率。
84.在本实施例一些可选的实现方式中，步骤s205，将目标音素标签数据作为训练数据对语音生成模型进行训练之前，该语音数据处理方法还包括：
85.对待处理语音数据进行语音识别，获得待处理语音数据对应的文本数据。
86.具体的，可以采用语音识别技术对待处理语音数据进行语音识别，获得待处理数据对应的文本数据。其中，语义识别技术，也被称为自动语音识别(automatic speech recognition，asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，其中，语音识别技术可以是随机模型法、神经网络方法。
87.将文本数据和待处理语音数据输入预训练的情绪识别模型进行情绪识别，确定待处理语音数据的情绪类别。
88.其中，预训练的情绪识别模型可以基于神经网络建模实现，情绪类别可以是高兴、
愤怒、生气、伤心等。
89.根据情绪类别，获得情绪标签，并采用情绪标签对目标音素标签数据进行情绪标记。
90.其中，情绪标签与情绪类别一一对应，情绪标签可以根据情绪类别预先设置，情绪类别和情绪标签可根据实际应用场景进行设置，此处不作具体限定。
91.在本实施例中，通过识别待处理语音数据的情绪类别，并根据情绪类别获取对应的情绪标签对目标音素标签数据进行标记，可以使采用目标音素标签数据训练得到的语音生成模型生成的语音更加自然。
92.在本实施例一些可选的实现方式中，如图5所示，步骤s205，将目标音素标签数据作为训练数据对语音生成模型进行训练之前,该语音数据处理方法还包括如下步骤a至步骤d：
93.步骤a：对待处理语音数据进行语音识别，获得待处理语音数据每个句子对应的文本数据以及每个句子的时间长度。
94.具体的，可以通过语音识别技术对待处理语音数据进行语音识别，获得待处理语音数据每个句子对应的文本数据以及每个句子的时间长度。
95.步骤b：对每个句子的文本数据进行字数统计，得到每个句子的字数。
96.步骤c：根据每个句子的字数和每个句子的时间长度，确定待处理语音数据的语速类别。
97.其中，语速类别包括快、慢、正常等。
98.步骤d：根据语速类别，获取语速标签，并采用语速标签对目标音素标签数据进行语速标记。
99.具体的，语速标签与语速类别一一对应，语速标签可以根据语速类别预先设置，语速类别和语速类别可根据实际应用场景进行设置，此处不作具体限定。
100.在本实施例中，通过识别待处理语音数据的语速类别，并根据语速类别获取对应的语速标签对目标音素标签数据进行标记，可以使采用目标音素标签数据训练得到的语音生成模型生成的语音更加自然。
101.在本实施例一些可选的实现方式中，步骤c,根据每个句子的字数和每个句子的时间长度，确定待处理语音数据的语速类别,包括：
102.若存在至少两个句子的字数相同，则获取至少两个句子对应的时间长度。
103.计算至少两个句子对应的时间长度的平均时长。
104.根据平均时长，确定待处理语音数据的语速类别。
105.具体的，预设每个语速类别对应的时间范围，根据平均时长和时间范围确定待处理语音数据的语速类别，其中，每个语速类别对应的时间范围可以根据待处理语音数据对应的人员在同一应用场景下的历史语音数据分析获得。例如，语速类别为快时，对应的时间范围为4秒至7秒,语速类别为正常时，对应的时间范围为8秒至10秒，语速类别为慢时，对应的时间范围为大于且等于11秒，当平均时长为8.5秒时，则确定待处理语音数据的语速类别为正常。
106.在本实施例中，通过待处理语音数据中字数相同的句子的平均时长，根据字数和时长之间的关系，提高确定对待处理语音数据的语速类别的准确度，有利于使采用目标音
素标签数据训练得到的语音生成模型生成的语音更加自然。
107.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
108.在一实施例中，提供一种语音数据处理装置，该语音数据处理装置与上述实施例中语音数据处理方法一一对应。如图6所示，该语音数据处理装置包括语音识别模块30、对齐模块31、第一停顿时间确定模块32、标注模块33和训练模块34。各功能模块详细说明如下：
109.语音识别模块30，用于获取待处理语音数据进行语音识别，得到待处理语音数据对应的音素标签数据；
110.对齐模块31，用于将音素标签数据与待处理语音数据进行对齐，得到音素对齐结果。
111.第一停顿时间确定模块32，用于根据音素对齐结果，确定音素标签数据中相邻音素标签组之间间隔的第一停顿时间。
112.标注模块33，用于根据第一停顿时间，对音素标签数据进行标注，得到目标音素标签数据。
113.训练模块34，用于将目标音素标签数据作为训练数据对语音生成模型进行训练。
114.可选的，语音识别模块30包括：
115.语音识别子模块，用于按照预设的帧长度对待处理语音数据进行语音识别，得到每个预设的帧长度对应的音素标签序列。
116.合并子模块，用于按照时间顺序，将每个预设的帧长度对应的音素标签序列进行合并，得到待处理语音数据对应的音素标签数据。
117.可选的，对齐模块31包括：
118.特征提取子模块，用于提取待处理语音数据的时序特征和频率特征。
119.音素分布位置获取子模块，用于根据时序特征和频率特征，得到待处理语音数据对应的音素分布位置。
120.对齐子模块，用于根据音素分布位置，将音素标签数据与待处理语音数据进行音素对齐处理，得到音素对齐结果。
121.可选的，标准模块33包括：
122.停顿标签获取子模块，用于根据第一停顿时间，从预设标签数据库中获取对应的停顿标签。
123.标注子模块，用于采用停顿标签，对音素标签数据的间隔位置进行标注，得到目标音素标签数据。
124.可选的，预设标签数据库包括至少两个类型的停顿标签，每个类型的停顿标签携带不同的第二停顿时间，停顿标签获取子模块包括：
125.匹配结果获取单元，用于将第一停顿时间和第二停顿时间进匹配，得到匹配结果。
126.停顿标签获取单元，用于根据匹配结果，从预设标签数据库中获取每个第一停顿时间对应类型的停顿标签。
127.可选的，语音处理装置还包括：
128.文本数据获取模块，用于对待处理语音数据进行语音识别，获得待处理语音数据对应的文本数据。
129.情绪识别模块，用于将文本数据和待处理语音数据输入预训练的情绪识别模型进行情绪识别，确定待处理语音数据的情绪类别。
130.情绪标记模块，用于根据情绪类别，获得情绪标签，并采用情绪标签对目标音素标签数据进行情绪标记。
131.可选的，语音处理装置还包括：
132.时间长度获得模块，用于对待处理语音数据进行语音识别，获得待处理语音数据每个句子对应的文本数据以及每个句子的时间长度。
133.字数统计模块，用于对每个句子的文本数据进行字数统计，得到每个句子的字数。
134.语速类别确定模块，用于根据每个句子的字数和每个句子的时间长度，确定待处理语音数据的语速类别。
135.语速标记模块，用于根据语速类别，获取语速标签，并采用语速标签对目标音素标签数据进行语速标记。
136.可选的，语速类别确定模块包括：
137.判断子模块，用于若存在至少两个句子的字数相同，则获取至少两个句子对应的时间长度。
138.计算子模块，用于计算至少两个句子对应的时间长度的平均时长。
139.语速类别确定子模块，用于根据平均时长，确定待处理语音数据的语速类别。
140.其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本技术中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。
141.关于语音数据处理装置的具体限定可以参见上文中对于语音数据处理方法的限定，在此不再赘述。上述语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
142.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据处理方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据处理方法。
143.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上
并在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音数据处理方法的步骤，例如图2所示的步骤201至步骤205及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中语音数据处理装置的各模块/单元的功能，例如图6所示模块30至模块34的功能。为避免重复，这里不再赘述。
144.所述处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。
145.所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
146.所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。
147.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音数据处理方法的步骤，例如图2所示的步骤201至步骤205及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中语音数据处理装置的各模块/单元的功能，例如图6所示模块30至模块31的功能。为避免重复，这里不再赘述。
148.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
149.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
150.以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改
或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李亚桐于洪伟
技术所有人：深圳市声扬科技有限公司
我是此专利的发明人

上一篇：存储器装置以及存储器装置和主机装置的操作方法与流程
上一篇：一种多工位供料的金属加工机床的制作方法