音频数据的处理方法、装置、电子设备及计算机存储介质与流程

文档序号:20694802发布日期:2020-05-12 14:49阅读:153来源:国知局
音频数据的处理方法、装置、电子设备及计算机存储介质与流程

本申请涉及音频处理技术领域,具体涉及一种音频数据的处理方法、装置、电子设备及计算机存储介质。



背景技术:

随着电子技术的进步,互联网的发展,互联网中流传的视频爆发式的增长;音视频成为了当前大众获取信息和娱乐的主要方式,因此涉及到了大量音视频的制作;在制作音视频的过程中,有大量的音频需要拼接,当前常用的音频拼接方式通常是将两段待拼接的音频各取出部分片段进行处理,例如,针对第一段音频末尾的三帧音频帧和第二段音频开头的三帧音频帧进行处理生成拼接处的三帧音频帧,由于是两段音频共同合成了新的三帧音频,因此可能造成音频数据中内容信息的损失,导致在拼接处的容易产生噪声,使得听起来不自然,极大的影响观看视频或者听音乐过程中的体验。



技术实现要素:

本申请实施例提供了一种音频数据的处理方法、装置、服务器及计算机存储介质,有利于提升拼接处的音频数据的完整性,减小音频数据的损失。

第一方面,本申请实施例提供一种音频数据的处理方法所述方法包括:

检测到音频拼接指令;

确定待拼接的n段原始音频特征序列,n为大于等于2的整数;

根据所述n段原始音频特征序列生成参考音频特征序列,所述参考音频特征序列包括所述n段原始音频特征序列的全部音频帧;

根据预设策略更新所述参考音频特征序列中的音频帧,得到目标音频特征序列。

第二方面,本申请实施例提供一种音频数据的处理装置,所述音频数据的处理装置包括处理单元和通信单元,其中,

所述处理单元,用于通过所述通信单元检测到音频拼接指令;以及用于确定待拼接的n段原始音频特征序列,n为大于等于2的整数;以及用于根据所述n段原始音频特征序列生成参考音频特征序列,所述参考音频特征序列包括所述n段原始音频特征序列的全部音频帧;以及用于根据预设策略更新所述参考音频特征序列中的音频帧,得到目标音频特征序列。

第三方面,本申请实施例提供一种电子设备,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出,本申请实施例中,电子设备在检测到音频拼接指令后;确定待拼接的n段原始音频特征序列,n为大于等于2的整数;根据n段原始音频特征序列生成参考音频特征序列,参考音频特征序列包括n段原始音频特征序列的全部音频帧;根据预设策略更新参考音频特征序列中的音频帧,得到目标音频特征序列。可见,本申请实施例中电子设备生成的参考音频特征序列包含原始音频特征序列中的全部音频帧,保证了拼接后的音频数据的完整性,避免了音频信息的丢失;电子设备针对参考音频特征序列进行更新,生成目标特征序列,使得拼接处的音频数据过度更加平滑,提升了电子设备的智能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电子设备的结构示意图;

图2是本申请实施例提供的一种音频数据的处理方法的流程示意图;

图3是本申请实施例提供的一种音频平滑模型的示意图;

图4是本申请实施例提供的另一种音频数据的处理方法的流程示意图;

图5是本申请实施例提供的一种电子设备的结构示意图;

图6是本申请实施例提供的一种音频数据的处理装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

下面对本申请实施例进行详细介绍。

请参阅图1,图1是本申请实施例提供的一种电子设备的结构示意图,该电子设备包括处理器、存储器、信号处理器、通信接口、触控屏、wifi模块、扬声器、麦克风、随机存取存储器(randomaccessmemory,ram)和摄像头等等。

其中,存储器、信号处理器、wifi模块、触控屏、扬声器、麦克风、ram和摄像头与处理器连接,通信接口与信号处理器连接。

其中,存储器中存储有待拼接的音频数据,电子设备在接收到音频拼接指令时,处理器读取存储器中存储的待拼接的音频,针对待拼接的音频进行运算处理得到拼接后的目标音频;将目标音频存储至存储器中。

本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(例如智能手表、智能手环、计步器等)、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(userequipment,ue),移动台(mobilestation,ms),终端设备(terminaldevice)等等。为方便描述,上面提到的设备统称为电子设备。

请参阅图2,图2是本申请实施例提供的一种音频数据的处理方法的流程示意图,应用于电子设备。如图所示,本音频数据的处理方法包括:

步骤201,电子设备检测到音频拼接指令。

步骤202,电子设备确定待拼接的n段原始音频特征序列。

其中,n为大于等于2的整数。

步骤203,电子设备根据n段原始音频特征序列生成参考音频特征序列。

其中,所述参考音频特征序列包括所述n段原始音频特征序列的全部音频帧。

具体地,将所述n段原始音频特征序列按照预设顺序连接,得到参考音频特征序列。预设顺序可以是用户设定的,也可以是根据用户选择原始音频特征序列的时间顺序确定的,例如用户操作电子设备进行音频拼接,用户首先选择了第一原始音频特征序列,其次,选择了第二原始音频特征序列;最后,选择了第三原始音频特征序列;则参考音频特征序列:第一原始音频特征序列的末端的音频帧连接第二原始音频特征序列的首端的音频帧,第二原始音频特征序列的末端的音频帧连接第三原始音频特征序列的首端的音频帧。

步骤204,电子设备根据预设策略更新参考音频特征序列中的音频帧,得到目标音频特征序列。

可以看出,本申请实施例中,电子设备在检测到音频拼接指令后;确定待拼接的n段原始音频特征序列,n为大于等于2的整数;根据n段原始音频特征序列生成参考音频特征序列,参考音频特征序列包括n段原始音频特征序列的全部音频帧;根据预设策略更新参考音频特征序列中的音频帧,得到目标音频特征序列。可见,本申请实施例中电子设备生成的参考音频特征序列包含原始音频特征序列中的全部音频帧,保证了拼接后的音频数据的完整性,避免了音频信息的丢失;电子设备针对参考音频特征序列进行更新,生成目标特征序列,使得拼接处的音频数据过度更加平滑,提升了电子设备的智能性。

在一个可能的示例中,所述预设策略包括以下步骤:确定所述参考音频特征序列中的n-1个音频特征子序列,所述n-1个音频特征子序列中每个音频特征子序列包括两个相邻的原始音频特征序列中的音频帧;根据所述参考音频特征序列更新所述n-1个音频特征子序列,得到更新后的所述目标音频特征序列。

其中,音频特征子序列可以包括每两个相邻的原始音频特征序列的各h帧音频帧,例如第一音频特征子序列的末尾h个音频帧和相邻的第二音频特征子序列的开端的h个音频帧构成一个音频特征子序列,h为正整数,h可以是预设的数值。

举例来说,n=3,及当前待拼接的原始音频特征序列共有3个,分别为第一原始音频特征序列、第二原始音频特征序列和第三原始音频特征序列;假设第一原始音频特征序列共80帧音频帧,则第一原始音频特征序列:[x1,x2,……,x80];假设第二原始音频特征序列共60帧音频帧,则第二原始音频特征序列:[x81,x82,……,x140];假设第三原始音频特征序列共90帧音频帧,则第三原始音频特征序列:[x141,x142,……,x230]。得到的参考音频特征序列即为[x1,x2,……,x230],若h=3,则参考音频特征序列中包括的2个音频特征子序列为[x78,x79,x80,x81,x82,x83],[x138,x139,x140,x141,x142,x143]。

可选的,本申请实施例根据原始音频特征序列生成目标音频特征序列的方式包括:根据预训练的音频平滑模型得到目标音频特征序列。具体的,请参阅图3,图3是本申请实施例提供的一种音频平滑模型的示意图,其中包括:输入处理模块和记忆块处理模块;记忆块处理模块包括:音频平滑层,元素相加层,多层双向长短期记忆网络(long-shorttermmemory,lstm)。模型的输入是将参考音频特征序列中的音频特征子序列部分置零,其余部分保持不变的音频特征序列,如上述例子中,模型的输入为[x1,……x77,0,0,0,0,0,0,x84,……x137,0,0,0,0,0,0,x144,……x230]。记忆块用于输入音频特征子序列;输入处理模块由双向lstm构成,用于对模型的输入进行处理。音频平滑模型可以包括多个记忆块处理模块,图3仅画出一个记忆块处理模块作为示例;其中,记忆块处理模块包括音频平滑层,元素相加层和多层双向lstm模块。其中,输入处理模块对模型的输入进行处理,并将输出的结果输入至音频平滑层和元素相加层。音频平滑层的作用是结合模型的输入将记忆块中存储的音频特征子序列通过自注意力机制进行处理,生成记忆块对应的输出;最终元素相加层将记忆块的输出和模型的输入进行融合,实现对参考音频特征序列中的音频特征子序列部分的音频帧的更新,得到最终的目标音频特征序列。

可见,本示例中,首先确定出拼接处的音频特征子序列,再根据整个参考音频特征序列对音频特征子序列进行更新,使得拼接处的音频帧与整体的音频特征序列关联性更高,进而使得拼接处的音频过度更加平滑。

在一个可能的示例中,所述参考音频特征序列中除所述n-1个音频特征子序列之外包括m个音频帧,m为正整数;所述电子设备根据所述参考音频特征序列更新所述n-1个音频特征子序列中的音频帧,得到更新后的目标音频特征序列,包括:计算所述m个音频帧与所述n-1个音频特征子序列中每个音频帧的相似度,得到所述每个音频帧关联的m个相似度;根据所述每个音频帧关联的m个相似度计算得到所述每个音频帧对应的一个输出音频帧;以所述输出音频帧更新对应的所述每个音频帧,得到更新后的所述目标音频特征序列。

具体地,如上述示例中,假设n=3,h=3,第一原始音频特征序列:[x1,x2,……,x80];第二原始音频特征序列:[x81,x82,……,x140];第三原始音频特征序列:[x141,x142,……,x230];则m=218,m个音频帧指的是:[x1,……x77],[x84,……x137],[x144,……x230]。

可见,本示例中,电子设备计算音频特征子序列中每个音频帧与m个音频帧的相似度,最终生成音频特征子序列中每个音频帧对应的一个输出音频帧,使得输出音频帧与非拼接处的音频帧(及参考音频特征音频序列中非音频特征子序列中的m个音频帧)相似度更大,关联性更高,进而使得最终拼接处的音频过度更加平滑。

在一个可能的示例中,所述电子设备根据所述每个音频帧关联的m个相似度计算得到所述每个音频帧对应的一个输出音频帧,包括:针对所述每个音频关联的m个相似度执行归一化操作,得到所述每个音频帧关联的m个权重值;计算所述每个音频帧与关联的m个权重值的乘积,得到所述每个音频帧关联的m个输出值;针对所述每个音频帧关联的所述m个输出值执行累加操作,得到所述每个音频帧对应的一个所述输出音频帧。

可见,本示例中,电子设备将音频特征子序列中每个音频帧关联的m个相似度进行归一化处理,根据归一化后的数值计算得到m个输出值,最终根据m个输出值得到输出音频帧。

在一个可能的示例中,所述计算所述m个音频帧与所述n-1个音频特征子序列中每个音频帧的相似度,得到所述每个音频帧关联的m个相似度,包括:根据所述m个音频帧生成所述m个音频帧中每个音频帧的第一音频特征;根据所述n-1个音频特征子序列中每个音频帧生成所述n-1个音频特征子序列中每个音频帧的第二音频特征;将所述第一音频特征和所述第二音频特征输入预构建的音频平滑模型,得到所述n-1个音频特征子序列中每个音频帧关联的m个相似度。

具体地,如图3所示,音频平滑模型的输入为上述m个音频帧,记忆块的输入为上述n-1个音频特征子序列的音频帧。

可见,本示例中,电子设备根据预训练的神经网络模型确定相似度,使得计算得到的相似度更加贴近实际需求,进而使得最终根据相似度得到的拼接处的音频使用户听起来更加平滑。

在一个可能的示例中,所述根据所述参考音频特征序列更新所述n-1个音频特征子序列中的音频帧,得到更新后的目标音频特征序列,包括:针对所述n-1个音频特征子序列中的每个音频帧执行预设操作,得到所述每个音频帧对应的一个输出音频帧;以所述输出音频帧更新对应的所述每个音频帧,得到更新后的所述目标音频特征序列。

可见,本示例中,电子设备针对音频特征子序列中的音频帧进行更新(即实现了针对拼接处的音频帧的更新),使得拼接处的音频更加的平滑。

在一个可能的示例中,所述预设操作包括以下步骤:确定当前处理的音频帧的波形数据,以及在所述参考音频特征序列中所述当前处理的音频帧之前的x1帧音频帧的波形数据和所述当前处理的音频帧之后的x2帧音频帧的波形数据,x1和x2为正整数;根据所述当前处理的音频帧的波形数据,所述x1帧音频帧的波形数据和所述x2帧音频帧的波形数据,生成所述当前处理的音频帧对应的输出波形数据;根据所述输出波形数据生成所述每个音频帧对应的一个所述输出音频帧。

具体的,生成当前处理的音频帧对应的输出波形数据包括:根据预设公式计算所述当前处理的音频帧的输出波形数据,所述预设公式:其中,第i音频帧的波形数据指的是当前处理的音频帧之前的第i帧音频帧的波形数据,第k音频帧的波形数据指的是当前处理的音频帧之后的第k帧音频帧的波形数据。其中,预设权重值是预先设置好的权重数值。

可见,本示例中,电子设备结合当前处理的音频帧,当前处理的音频帧之前的x1个音频帧和之后的x2个音频帧生成当前处理的音频帧对应的输出波形数据,根据输出波形数据生成当前处理的音频帧对应的输出音频帧,使得输出音频帧与之前的x1个音频帧和之后的x2个音频帧的相似度>当前处理的音频帧与之前的x1个音频帧和之后的x2个音频帧的相似度,进而使得以输出音频帧更新当前处理的音频帧之后,拼接处的音频帧更加的平滑。

在一个可能的示例中,所述确定所述参考音频特征序列中的n-1个音频特征子序列,包括:确定所述参考音频特征序列中每两个相邻的所述原始音频特征序列为一个集合,得到n-1个集合;确定所述n-1个集合中每个集合中第一音频特征序列的最后的k帧音频帧和第二音频特征序列的最前的k帧音频帧构成的序列为所述音频特征子序列,得到所述n-1个音频特征子序列,所述第一音频特征序列的最后一帧音频帧和所述第二音频特征序列中最前一帧音频帧相邻,k为正整数。

与所述图2所示的实施例一致的,请参阅图4,图4是本申请实施例提供的一种音频数据的处理方法的流程示意图,应用于电子设备。如图所示,本音频数据的处理方法包括:

步骤401,电子设备检测到音频拼接指令。

步骤402,电子设备确定待拼接的n段原始音频特征序列。

步骤403,电子设备根据n段原始音频特征序列生成参考音频特征序列。

步骤404,电子设备确定参考音频特征序列中的n-1个音频特征子序列,参考音频特征序列中除n-1个音频特征子序列之外包括m个音频帧。

步骤405,电子设备计算m个音频帧与n-1个音频特征子序列中每个音频帧的相似度,得到每个音频帧关联的m个相似度。

步骤406,电子设备根据每个音频帧关联的m个相似度计算得到每个音频帧对应的一个输出音频帧。

步骤407,电子设备以输出音频帧更新对应的每个音频帧,得到更新后的目标音频特征序列。

可以看出,本申请实施例中,电子设备在检测到音频拼接指令后;确定待拼接的n段原始音频特征序列,n为大于等于2的整数;根据n段原始音频特征序列生成参考音频特征序列,参考音频特征序列包括n段原始音频特征序列的全部音频帧;根据预设策略更新参考音频特征序列中的音频帧,得到目标音频特征序列。可见,本申请实施例中电子设备生成的参考音频特征序列包含原始音频特征序列中的全部音频帧,保证了拼接后的音频数据的完整性,避免了音频信息的丢失;电子设备针对参考音频特征序列进行更新,生成目标特征序列,使得拼接处的音频数据过度更加平滑,提升了电子设备的智能性。

与所述图2、图4所示的实施例一致的,请参阅图5,图5是本申请实施例提供的一种电子设备500的结构示意图,如图所示,所述电子设备500包括应用处理器510、存储器520、通信接口530以及一个或多个程序521,其中,所述一个或多个程序521被存储在上述存储器520中,并且被配置由上述应用处理器510执行,所述一个或多个程序521包括用于执行以下步骤的指令:

检测到音频拼接指令;

确定待拼接的n段原始音频特征序列,n为大于等于2的整数;

根据所述n段原始音频特征序列生成参考音频特征序列,所述参考音频特征序列包括所述n段原始音频特征序列的全部音频帧;

根据预设策略更新所述参考音频特征序列中的音频帧,得到目标音频特征序列。

可以看出,本申请实施例中,电子设备在检测到音频拼接指令后;确定待拼接的n段原始音频特征序列,n为大于等于2的整数;根据n段原始音频特征序列生成参考音频特征序列,参考音频特征序列包括n段原始音频特征序列的全部音频帧;根据预设策略更新参考音频特征序列中的音频帧,得到目标音频特征序列。可见,本申请实施例中电子设备生成的参考音频特征序列包含原始音频特征序列中的全部音频帧,保证了拼接后的音频数据的完整性,避免了音频信息的丢失;电子设备针对参考音频特征序列进行更新,生成目标特征序列,使得拼接处的音频数据过度更加平滑,提升了电子设备的智能性。

在一个可能的示例中,在执行所述预设策略方面,所述程序中的指令具体用于执行以下操作:确定所述参考音频特征序列中的n-1个音频特征子序列,所述n-1个音频特征子序列中每个音频特征子序列包括两个相邻的原始音频特征序列中的音频帧;根据所述参考音频特征序列更新所述n-1个音频特征子序列,得到更新后的所述目标音频特征序列。

在一个可能的示例中,所述参考音频特征序列中除所述n-1个音频特征子序列之外包括m个音频帧,m为正整数;在所述电子设备根据所述参考音频特征序列更新所述n-1个音频特征子序列中的音频帧,得到更新后的目标音频特征序列,所述程序中的指令具体用于执行以下操作:计算所述m个音频帧与所述n-1个音频特征子序列中每个音频帧的相似度,得到所述每个音频帧关联的m个相似度;根据所述每个音频帧关联的m个相似度计算得到所述每个音频帧对应的一个输出音频帧;以所述输出音频帧更新对应的所述每个音频帧,得到更新后的所述目标音频特征序列。

在一个可能的示例中,在所述电子设备根据所述每个音频帧关联的m个相似度计算得到所述每个音频帧对应的一个输出音频帧方面,所述程序中的指令具体用于执行以下操作:针对所述每个音频关联的m个相似度执行归一化操作,得到所述每个音频帧关联的m个权重值;计算所述每个音频帧与关联的m个权重值的乘积,得到所述每个音频帧关联的m个输出值;针对所述每个音频帧关联的所述m个输出值执行累加操作,得到所述每个音频帧对应的一个所述输出音频帧。

在一个可能的示例中,在所述计算所述m个音频帧与所述n-1个音频特征子序列中每个音频帧的相似度,得到所述每个音频帧关联的m个相似度方面,所述程序中的指令具体用于执行以下操作:根据所述m个音频帧生成所述m个音频帧中每个音频帧的第一音频特征;根据所述n-1个音频特征子序列中每个音频帧生成所述n-1个音频特征子序列中每个音频帧的第二音频特征;将所述第一音频特征和所述第二音频特征输入预构建的音频平滑模型,得到所述n-1个音频特征子序列中每个音频帧关联的m个相似度。

在一个可能的示例中,在所述根据所述参考音频特征序列更新所述n-1个音频特征子序列中的音频帧,得到更新后的目标音频特征序列,所述程序中的指令具体用于执行以下操作:针对所述n-1个音频特征子序列中的每个音频帧执行预设操作,得到所述每个音频帧对应的一个输出音频帧;以所述输出音频帧更新对应的所述每个音频帧,得到更新后的所述目标音频特征序列。

在一个可能的示例中,在执行所述预设操作方面,所述程序中的指令具体用于执行以下操作:确定当前处理的音频帧的波形数据,以及在所述参考音频特征序列中所述当前处理的音频帧之前的x1帧音频帧的波形数据和所述当前处理的音频帧之后的x2帧音频帧的波形数据,x1和x2为正整数;根据所述当前处理的音频帧的波形数据,所述x1帧音频帧的波形数据和所述x2帧音频帧的波形数据,生成所述当前处理的音频帧对应的输出波形数据;根据所述输出波形数据生成所述每个音频帧对应的一个所述输出音频帧。

在一个可能的示例中,在所述确定所述参考音频特征序列中的n-1个音频特征子序列方面,所述程序中的指令具体用于执行以下操作:确定所述参考音频特征序列中每两个相邻的所述原始音频特征序列为一个集合,得到n-1个集合;确定所述n-1个集合中每个集合中第一音频特征序列的最后的k帧音频帧和第二音频特征序列的最前的k帧音频帧构成的序列为所述音频特征子序列,得到所述n-1个音频特征子序列,所述第一音频特征序列的最后一帧音频帧和所述第二音频特征序列中最前一帧音频帧相邻,k为正整数。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个控制单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

图6是本申请实施例中所涉及的音频数据的处理装置600的功能单元组成框图。该音频数据的处理装置600应用于电子设备,音频数据的处理装置600包括处理单元601和通信单元602,其中:

所述处理单元601,用于通过所述通信单元602检测到音频拼接指令;以及用于确定待拼接的n段原始音频特征序列,n为大于等于2的整数;以及用于根据所述n段原始音频特征序列生成参考音频特征序列,所述参考音频特征序列包括所述n段原始音频特征序列的全部音频帧;以及用于根据预设策略更新所述参考音频特征序列中的音频帧,得到目标音频特征序列。

其中,所述音频数据的处理装置600还可以包括存储单元603,所述存储单元603用于存储电子设备的程序代码和数据。所述处理单元601可以是处理器,所述通信单元602可以是触控显示屏或者收发器,所述存储单元603可以是存储器。

可以看出,本申请实施例中,电子设备在检测到音频拼接指令后;确定待拼接的n段原始音频特征序列,n为大于等于2的整数;根据n段原始音频特征序列生成参考音频特征序列,参考音频特征序列包括n段原始音频特征序列的全部音频帧;根据预设策略更新参考音频特征序列中的音频帧,得到目标音频特征序列。可见,本申请实施例中电子设备生成的参考音频特征序列包含原始音频特征序列中的全部音频帧,保证了拼接后的音频数据的完整性,避免了音频信息的丢失;电子设备针对参考音频特征序列进行更新,生成目标特征序列,使得拼接处的音频数据过度更加平滑,提升了电子设备的智能性。

在一个可能的示例中,在执行所述预设策略方面,所述处理装置还包括确定单元和更新单元,其中,

所述确定单元用于:确定所述参考音频特征序列中的n-1个音频特征子序列,所述n-1个音频特征子序列中每个音频特征子序列包括两个相邻的原始音频特征序列中的音频帧;

所述更新单元,用于根据所述参考音频特征序列更新所述n-1个音频特征子序列,得到更新后的所述目标音频特征序列。

在一个可能的示例中,所述参考音频特征序列中除所述n-1个音频特征子序列之外包括m个音频帧,m为正整数;在所述根据所述参考音频特征序列更新所述n-1个音频特征子序列中的音频帧,得到更新后的目标音频特征序列,所述处理装置还包括计算单元,其中,

所述计算单元,用于计算所述m个音频帧与所述n-1个音频特征子序列中每个音频帧的相似度,得到所述每个音频帧关联的m个相似度;以及用于根据所述每个音频帧关联的m个相似度计算得到所述每个音频帧对应的一个输出音频帧;

所述更新单元,还用于以所述输出音频帧更新对应的所述每个音频帧,得到更新后的所述目标音频特征序列。

在一个可能的示例中,在所述电子设备根据所述每个音频帧关联的m个相似度计算得到所述每个音频帧对应的一个输出音频帧方面,所述处理装置还包括归一化单元和累加单元,其中,

所述归一化单元,用于针对所述每个音频关联的m个相似度执行归一化操作,得到所述每个音频帧关联的m个权重值;

所述计算单元,还用于计算所述每个音频帧与关联的m个权重值的乘积,得到所述每个音频帧关联的m个输出值;

所述累加单元,用于针对所述每个音频帧关联的所述m个输出值执行累加操作,得到所述每个音频帧对应的一个所述输出音频帧。

在一个可能的示例中,在所述计算所述m个音频帧与所述n-1个音频特征子序列中每个音频帧的相似度,得到所述每个音频帧关联的m个相似度方面,所述处理装置还包括输入单元,其中,

所述处理单元,还用于根据所述m个音频帧生成所述m个音频帧中每个音频帧的第一音频特征;以及用于根据所述n-1个音频特征子序列中每个音频帧生成所述n-1个音频特征子序列中每个音频帧的第二音频特征;

所述输入单元,用于将所述第一音频特征和所述第二音频特征输入预构建的音频平滑模型,得到所述n-1个音频特征子序列中每个音频帧关联的m个相似度。

在一个可能的示例中,在所述根据所述参考音频特征序列更新所述n-1个音频特征子序列中的音频帧,得到更新后的目标音频特征序列,

所述处理单元,还用于针对所述n-1个音频特征子序列中的每个音频帧执行预设操作,得到所述每个音频帧对应的一个输出音频帧;

所述更新单元,还用于以所述输出音频帧更新对应的所述每个音频帧,得到更新后的所述目标音频特征序列。

在一个可能的示例中,在执行所述预设操作方面,

所述确定单元,还用于确定当前处理的音频帧的波形数据,以及在所述参考音频特征序列中所述当前处理的音频帧之前的x1帧音频帧的波形数据和所述当前处理的音频帧之后的x2帧音频帧的波形数据,x1和x2为正整数;

所述处理单元,还用于根据所述当前处理的音频帧的波形数据,所述x1帧音频帧的波形数据和所述x2帧音频帧的波形数据,生成所述当前处理的音频帧对应的输出波形数据;以及用于根据所述输出波形数据生成所述每个音频帧对应的一个所述输出音频帧。

在一个可能的示例中,在所述确定所述参考音频特征序列中的n-1个音频特征子序列方面,

所述确定单元,还用于确定所述参考音频特征序列中每两个相邻的所述原始音频特征序列为一个集合,得到n-1个集合;以及用于确定所述n-1个集合中每个集合中第一音频特征序列的最后的k帧音频帧和第二音频特征序列的最前的k帧音频帧构成的序列为所述音频特征子序列,得到所述n-1个音频特征子序列,所述第一音频特征序列的最后一帧音频帧和所述第二音频特征序列中最前一帧音频帧相邻,k为正整数。

需要说明的是,所述确定单元、所述更新单元、所述计算单元、所述归一化单元、所述累加单元可以是处理器;所述输入单元可以是收发器,或者,所述输入单元还可以通过通信接口实现。

本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括移动终端。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个控制单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:read-onlymemory,简称:rom)、随机存取器(英文:randomaccessmemory,简称:ram)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1