音频处理方法、装置及计算机可读存储介质与流程

文档序号：28108755发布日期：2021-12-22 13:41阅读：110来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种音频处理方法、装置及计算机可读存储介质。

背景技术：

2.音频是多媒体中的一种重要媒体，音频中的语音是人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音，对音频进行风格转换，是指将音频中的语音的语言类型进行转换，例如音频中的语音的语言类型为卫藏方言，可以将音频中的语音的语言类型转换为康巴方言。
3.音频中通常会出现一些非正常语音，例如哼唱、犹豫、笑声、喊叫声等噪音，导致音频在进行风格转换时出现准确率较差的问题，即在风格转换前后，音频中的语音所对应的文本信息发生变化，例如，原始音频中的语音所对应的文本本意是问“你去哪儿”，进行风格转换后的音频中的语音所对应的文本变成了问“你去吃饭吗”，此时，虽然风格转换虽然能够解决语言不通的问题，但是却不能正确表达内容，因此提高音频风格转换所涉及的语音的准确性是十分有必要的。

技术实现要素：

4.本技术实施例提供了一种音频处理方法、装置及计算机可读存储介质，可以提高音频风格转换所涉及的语音的准确性。
5.一方面，本技术实施例提供了一种音频处理方法，所述方法包括：
6.获取待处理音频，所述待处理音频包括一个或多个音频帧；
7.针对所述一个或多个音频帧中的任一音频帧，对所述任一音频帧进行切分处理得到多个音频片段，确定所述多个音频片段中每个音频片段的音频类别，根据所述每个音频片段的音频类别确定所述任一音频帧的语音识别结果；
8.根据各个音频帧的语音识别结果，将所述待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频；
9.对所述处理后的音频进行风格转换处理，得到目标音频。
10.另一方面，本技术实施例提供了一种音频处理装置，所述装置包括：
11.获取模块，用于获取待处理音频，所述待处理音频包括一个或多个音频帧；
12.处理模块，用于针对所述一个或多个音频帧中的任一音频帧，对所述任一音频帧进行切分处理得到多个音频片段，确定所述多个音频片段中每个音频片段的音频类别，根据所述每个音频片段的音频类别确定所述任一音频帧的语音识别结果；
13.所述处理模块，还用于根据各个音频帧的语音识别结果，将所述待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频；
14.所述处理模块，还用于对所述处理后的音频进行风格转换处理，得到目标音频。
15.相应地，本技术实施例提供了一种计算机设备，该设备包括处理器、通信接口和存
储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有计算机程序，所述处理器用于调用计算机程序，执行上述任一可能实现方式所述的音频处理方法。
16.相应地，本技术实施例提供了一种计算机可读存储介质，存储有计算机程序，所述处理器执行上述任一可能实现方式所述的音频处理方法所涉及的计算机程序。
17.相应地，本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一可能实现方式所述的音频处理方法。
18.本技术实施例中，首先针对待处理音频包括的一个或多个音频帧中的任一音频帧，对任一音频帧进行切分处理得到多个音频片段，确定多个音频片段中每个音频片段的音频类别，根据每个音频片段的音频类别确定任一音频帧的语音识别结果，然后根据各个音频帧的语音识别结果，将待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频，最后对处理后的音频进行风格转换处理，得到目标音频；上述音频处理方法，可以对待处理音频中的非语音音频进行剔除，从而减少外部干扰，提高音频的音频质量，这样有利于提高音频风格转换所涉及的语音的准确性。
附图说明
19.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1为本技术实施例提供的一种音频处理系统的架构示意图；
21.图2为本技术实施例提供的一种音频处理方法的流程示意图；
22.图3为本技术实施例提供的另一种音频处理方法的流程示意图；
23.图4为本技术实施例提供的确定音频类别的流程示意图；
24.图5为本技术实施例提供的x
‑
vector模型的模型结构示意图；
25.图6为本技术实施例提供的另一种音频处理方法的流程示意图；
26.图7为本技术实施例提供的语音识别技术的原理图；
27.图8为本技术实施例提供的语音合成技术的原理图；
28.图9为本技术实施例提供的语音识别技术的处理示意图；
29.图10为本技术实施例提供的另一种音频处理方法的流程示意图；
30.图11是本技术实施例提供的一种音频处理装置的结构示意图；
31.图12是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
32.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
33.为了可以提高音频风格转换的准确率，本技术实施例基于云技术和人工智能技能
提出了一种音频处理方法。
34.云技术(cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。
35.云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。
36.人工智能(artificial intelligence，ai)技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片云计算、云存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
37.语音技术(speech technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
38.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
39.随着云技术和人工智能技术研究和进步，云技术和人工智能技术在多个领域展开研究和应用，本技术实施例在实现音频风格转换的过程中涉及云技术的云计算技术，以及人工智能的语音技术和机器学习等技术，具体通过如下实施例进行说明。
40.音频标注是将音频中出现的语音转换为文字，是标注人员的工作之一。即使是使用同一个文字体系，由于地域不同，也会导致语言的差异性，例如在藏文体系下，包括了三大类语言：卫藏方言、康巴方言以及安多方言，标注人员在将音频中出现的语音转换为文字之前，由于标注人员通常掌握的语言具有局限性，例如不能同时精通卫藏方言、康巴方言以及安多方言，则在将音频中出现的语音转换为文字之前，需要确定音频中语音的语言类型，并让相应的标注人员去执行音频标注工作，例如音频中语音的语言类型为卫藏方言，则让精通卫藏方言的标注人员去执行音频标注工作。由此可知，标注人员由于无法跨语言进行标注，导致标注人员在进行音频标注时的选择性少，且音频标注的产出量级不均衡，同时还需要去考虑标注人员如何投入，本技术可以将音频进行风格转换，使得无论音频的语言类型是什么，标注人员都可以将音频中语音的语言类型转换为自己擅长的语言类型，从而进行音频标注，可以解决语言壁垒带来的跨语言标注难、产出量级不均衡，以及标注人员投入
不合理等问题，可以使得音频标注的进度及交付产出得到有效把控，减少进度管理以及投入成本。
41.请参阅图1，图1是本技术实施例提供的一种音频处理系统的示意图。该音频处理系统具体可以包括终端设备101和服务器102，终端设备101与服务器102之间通过网络连接，比如，通过无线网络连接等。
42.终端设备101也称为终端(termina)、用户设备(user equipment，ue)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能电视、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，pc)、车载设备、可穿戴设备或者其他智能装置等，但并不局限于此。
43.服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
44.在一实施例中，终端设备102可以将待处理音频发送至服务器102，服务器102获取待处理音频，针对待处理音频包括的一个或多个音频帧中的任一音频帧，对任一音频帧进行切分处理得到多个音频片段，并获取多个音频片段中每个音频片段的音频类别，根据每个音频片段的音频类别确定任一音频帧的语音识别结果，并根据各个音频帧的语音识别结果，将待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频，以及对处理后的音频进行风格转换处理，得到目标音频，通过本实施例，可以根据任一音频帧包括的多个音频片段的音频类别确定任一音频帧的语音识别结果，并根据各个音频帧的语音识别结果对待处理音频中的非语音音频进行筛选，可以提高音频的音频质量，从而可以准确地实现音频的风格转换，使得标注人员在进行跨语言的音频标注时，也可以听到与原音频的文本内容无差别的音频，可以解决跨语言标注难的问题。
45.可以理解的是，本技术实施例描述的系统的架构示意图是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
46.如图2所示，是本技术实施例基于图1的音频处理系统提供的一种音频处理方法。以应用于图1中提及的服务器102为例。以下结合图2对本技术实施例的所述方法进行说明。
47.s201、获取待处理音频，所述待处理音频包括一个或多个音频帧。
48.待处理音频是指需要进行风格转换的音频，风格转换是指将音频中的语音的语言类型进行转换，例如音频中的语音的语言类型为卫藏方言，可以将音频中的语音的语言类型转换为康巴方言。音频帧是对待处理音频进行切分处理后得到的音频。
49.在一实施例中，服务器可以采用定时切分的方式对待处理音频进行切分处理，得到一个或多个音频帧，例如待处理音频每播放5秒就对待处理音频进行一次切分；也可以采用均分的方式对待处理音频进行切分处理，得到一个或多个音频帧，例如，将待处理音频切分为4个音频帧，待处理音频播放时长为20秒，则得到的4个音频帧中每个音频帧播放5秒；还可以获取待处理音频的音频波形数据(例如时域图、频域图、语谱图)，根据音频波形数据对待处理音频进行切分处理，得到一个或多个音频帧，例如在音频波形数据中的频率低于
频率阈值(例如频率阈值为150赫兹)处对待处理音频进行切分，得到一个或多个音频帧。
50.s202、针对所述一个或多个音频帧中的任一音频帧，对所述任一音频帧进行切分处理得到多个音频片段，确定所述多个音频片段中每个音频片段的音频类别，根据所述每个音频片段的音频类别确定所述任一音频帧的语音识别结果。
51.音频片段是对音频帧进行切分处理后得到的音频，音频类别是指音频的性质，例如音频的性质可以分为语音、笑声、歌曲、纯音乐、噪声(例如杂音)，则音频类别可以为语音、笑声、歌曲、纯音乐、噪声，音频类别也可以为正常语音和非正常语音，正常语音是指标注人员在进行音频标注时通常需要标注的声音，例如音频片段的性质为语音(例如对话、朗读)时，由于语音通常都是需要进行音频标注的，因此音频片段为正常语音，非正常语音是指标注人员在进行音频标注时通常不需要进行标注的声音，例如音频片段的性质为笑声、歌曲、纯音乐、噪声时，通常都是不需要进行音频标注的，因此音频片段为非正常语音。
52.语音识别结果包括两种：一是语音音频，二是非语音音频，语音音频通常是指音频包括的是正常说话的声音(例如对话、朗读)，是标注人员在音频标注时通常需要标注的音频，非语音音频是指音频包括的是非正常说话的声音(例如笑声、歌曲、纯音乐、噪声)，是标注人员在音频标注时通常不需要标注的音频，因此语音识别结果也可以反映音频的性质，例如音频帧的识别结果是语音音频时是指音频帧是标注人员需要进行音频标注的音频，音频帧的识别结果是非语音音频时是指音频帧是标注人员不需要进行音频标注的音频。
53.在一实施例中，服务器为了获取待处理音频包括的一个或多个音频帧中任一音频帧的语音识别结果时，需要对任一音频帧进行切分处理，得到任一音频帧包括的多个音频片段，服务器可以获取任一音频帧的音频波形数据(例如时域图、频域图、语谱图)，利用任一音频帧的音频波形数据对任一音频帧进行切分处理，得到一个或多个音频片段。
54.可选地，服务器可以利用任一音频帧的音频波形数据中的音频寂静区间(振幅为零幅或近零幅时对应的时长段)对任一视频帧进行切分处理，例如音频波形数据为时域图，时域图为音频振幅随时间变化的二维图，即时域图中横坐标为播放时长，纵坐标为振幅(即音强)，则可以将时域图中振幅为零幅或近零幅时对应的播放时长区间确定为音频寂静区间，再将音频寂静区间作为切分点，对任一音频帧进行切分处理得到多个音频片段，其中，音频寂静区间也为一个音频片段。
55.可选地，服务器还可以利用任一音频帧的音频波形数据中的低频(频率低于频率阈值)处对任一视频帧进行切分处理得到多个音频片段。
56.在一实施例中，服务器利用任一音频帧包括的多个音频片段中的每个音频片段的音频类别确定任一音频帧的语音识别结果时，服务器可以获取任一音频帧中音频类别为目标类别(例如正常语音或语音)时的音频片段的占比，根据占比判断任一音频帧的语音识别结果，例如当任一音频帧中音频类别为正常语音时的音频片段的占比大于或等于50％时，任一音频帧的语音识别结果为语音音频，音频类别为正常语音时的音频片段的占比小于50％时，任一音频帧的语音识别结果为非语音音频，假设任一音频帧中包括5个音频片段，5个音频片段中有3个音频片段的音频类别为正常语音，则音频类别为正常语音时的音频片段的占比为60％时，该任一音频帧的语音识别结果为语音音频，5个音频片段中有2个音频片段的音频类别为正常语音，则音频类别为正常语音时的音频片段的占比为40％时，该任一音频帧的语音识别结果为非语音音频。
57.s203、根据各个音频帧的语音识别结果，将所述待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频。
58.目标识别结果是指语音识别结果为非语音音频，当音频帧的语音识别结果为目标识别结果时，即为非语音音频时，表明该音频帧包括的是非正常说话的声音(例如非正常语音、笑声、歌曲、纯音乐、噪声)，标注人员无需对该音频帧进行音频标注。
59.在一实施例中，服务器获取各个音频帧的语音识别结果，并在确定音频帧的语音识别结果为目标识别结果时，从待处理音频中将该音频帧进行剔除，本实施例可以将待处理音频中的非语音音频进行剔除，使处理后的音频相比于待处理音频而言其音频质量更高，在后续进行风格转换时，可以减少外部干扰，提高准确性。
60.s204、对所述处理后的音频进行风格转换处理，得到目标音频。
61.对处理后的风格转换处理是指将音频中的语音的语言类型进行转换，例如音频中的语音的语言类型为卫藏方言，可以将音频中的语音的语言类型转换为康巴方言。
62.在一实施例中，服务器可以对处理后的音频进行风格转换处理，得到目标音频，例如利用语音识别技术获取处理后的音频的文本信息，再利用语音合成技术对处理后的音频的文本信息进行处理，得到目标音频。由于将音频中的非语音音频剔除，使得获得的音频的文本信息更加准确，从而使得语音合成的音频也更加准确。
63.其中，语音识别(speech recognition)技术是识别别人的语音以得到文字信息的过程，语音合成(text to speech，tts)技术是指将任意文字信息(如帮助文件或者网页)实时转化为标准流畅的语音朗读出来的过程。
64.本技术实施例中，服务器获取待处理音频，对待处理音频包括的一个或多个音频帧中的任一音频帧进行切分处理得到多个音频片段，确定多个音频片段中每个音频片段的音频类别，根据每个音频片段的音频类别确定任一音频帧的语音识别结果，并根据各个音频帧的语音识别结果，将待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频，对处理后的音频进行风格转换处理，得到目标音频，该实施例可以利用待处理音频中包括的各个音频帧的语音识别结果对待处理音频中的非语音音频进行剔除，可以减少外部干扰，提高音频的音频质量，有利于提高音频风格转换所涉及的语音的准确性，同时，由于风格转换后的音频具有较高的准确性，使得标注人员也能够更准确地实现跨语言的音频标注。
65.如图3所示，是本技术实施例基于图1的音频处理系统提供的另一种音频处理方法。以应用于图1中提及的服务器102为例。以下结合图3对本技术实施例的所述方法进行说明。
66.s301、获取待处理音频，所述待处理音频包括一个或多个音频帧。
67.其中，s301的具体实现可以参见前述实施例中s201的相关描述，此处不再赘述。
68.s302、针对所述一个或多个音频帧中的任一音频帧，对所述任一音频帧进行切分处理得到多个音频片段。
69.在一实施例中，服务器对任一音频帧进行切分处理得到多个音频片段，包括以下步骤：
70.(1)获取任一音频帧的音频波形数据。
71.(2)根据音频波形数据，将任一音频帧中的音频寂静区间确定为切分点。
72.(3)根据确定的各个切分点对任一音频帧进行切分处理得到多个音频片段。
73.可选地，服务器可以获取任一音频帧的音频波形数据(例如时域图、频域图、语谱图)，根据音频波形数据确定任一音频帧中的音频寂静区间(振幅为零幅或近零幅时对应的时长段)，并将音频寂静区间作为切分点对任一音频帧进行切分处理得到多个音频片段，其中，音频寂静区间也为一个音频片段。
74.可选地，服务器还可以利用任一音频帧的音频波形数据中的低频(频率低于频率阈值)处对任一视频帧进行切分处理得到多个音频片段。
75.s303、确定所述多个音频片段中每个音频片段的音频类别。
76.如图4所示，服务器在确定音频帧中包括的多个音频片段中每个音频片段的音频类别时，首先针对多个音频片段中的任一音频片段，对任一音频片段进行特征提取，得到任一音频片段的语音特征。
77.其中，语音特征为声学特征，声学特征是指表示音频声学特性的物理量，例如语音特征可以为梅尔频率倒谱系数(mel frequency cepstrum coefficient，mfcc)、fbank(filter bank)特征、线性预测系数(linear prediction coefficient，lpc)。任一音频片段为数字音频，即该任一音频片段是由二进制数1或0组成的数字音频信号，便于机器进行处理。
78.然后服务器利用音频分类模型的特征处理模块对任一音频片段的语音特征进行处理，得到任一音频片段的语音特征向量。
79.其中，特征处理模块用于提取语音特征向量，可以为机器学习模型，例如可以为高斯混合模型(gaussian mixture model，gmm)、时延神经网络(time
‑
delay neural network，tdnn)，高斯混合模型
‑
背景模型(universal background model，ubm)，x
‑
vector(x
‑
向量)模型，等等。
80.可选地，本技术采用说话人识别(即识别说话人是谁)领域中的x
‑
vector模型对任一音频片段的语音特征进行处理，得到任一音频片段的语音特征向量，其中，x
‑
vector模型如图5所示，包括帧处理层、统计池化层和段处理层，帧处理层由5层tdnn组成，统计池化层在将帧处理层的输出分别计算均值和标准差后，将输出的均值和标准差进行拼接，段处理层通过2层前向dnn(deep neural network，深度神经网络)提取段级别的矢量来表征说话人，本技术可以采用2层dnn中的任一层作为任一音频片段的语音特征向量，例如图5中的语音特征向量1和语音特征向量2都可以作为任一音频片段的语音特征向量。
81.最后服务器利用音频分类模型的分类处理模块对任一音频片段的语音特征向量进行处理，得到任一音频片段的音频类别。
82.其中，分类处理模块用于执行分类任务，可以为分类模型，例如可以为概率线性判别分析(probabilistic linear discriminant analysis，ldap)、逻辑回归模型(logistic regression，lr)、支持向量机(support vector machine，svm)，等等。
83.在一实施例中，服务器可以利用x
‑
vector模型获取多个音频的语音特征向量，利用多个音频的语音特征向量对初始的分类模型的参数进行训练，在完成后，将训练好的分类模型作为音频分类模型中的分类处理模块。
84.在一实施例中，服务器利用音频分类模型的分类处理模块对任一音频片段的语音特征向量进行处理，可以得到音频片段属于每个音频类别的概率，例如音频类别包括语音、
笑声、歌曲、纯音乐、噪声，音频片段属于语音、笑声、歌曲、纯音乐、噪声的概率分别为0.5、0.1、0.2、0、0.2，服务器可以将最大概率对应的音频类别作为音频片段的音频类别，即音频片段的音频类别为语音。
85.s304、根据所述每个音频片段的音频类别，确定所述任一音频帧中音频类别为目标类别的音频片段的占比，根据所述占比确定所述任一音频帧的语音识别结果。
86.目标类别为标注人员进行音频标注时需要标注的音频类别，例如音频类别包括正常语音和非正常语音，目标类别可以为正常语音；或者，音频类别包括语音、笑声、歌曲、纯音乐、噪声，目标类别可以为语音。
87.在一实施例中，服务器根据任一音频帧包括的多个音频片段中每个音频片段的音频类别来获取任一音频帧中音频类别为目标类别的音频片段的占比，根据占比确定任一音频帧的语音识别结果，例如，音频类别包括语音、笑声、歌曲、纯音乐、噪声，目标类别为语音，假设任一音频帧包括5个音频片段，5个音频片段中有3个音频片段的音频类别为语音，则任一音频帧中音频类别为目标类别的音频片段的占比为60％；或者音频类别包括正常语音、非正常语音，目标类别为正常语音，任一音频帧包括5个音频片段，5个音频片段中有3个音频片段的音频类别为正常语音，则任一音频帧中音频类别为目标类别的音频片段的占比为60％。服务器可以设定比例阈值(可以人为设定)，该比例阈值为百分比数值，当获取到的占比小于比例阈值时，例如比例阈值为70％，占比为60％，此时可以判断任一音频帧的语音识别结果为目标识别结果，即判断任一音频帧为非语音音频，是标注人员不需要进行标注的音频。
88.在一实施例中，服务器根据占比确定任一音频帧的语音识别结果时，还可以获取任一音频帧为语音的预测值，利用占比和预测值获取任一音频帧为语音音频的参考概率，当参考概率小于概率阈值时，将任一音频帧的语音识别结果判断为目标识别结果，即判断任一音频帧为非语音音频，是标注人员不需要进行标注的音频。
89.音频帧为语音的预测值是指音频帧的音频类别为语音的预测概率，服务器在获取音频帧的语音的预测值时，可以将音频帧分为两类：一类是语音，一类是非语音。需要注意的是，此处的语音与前述实施例音频类别包括的语音、笑声、歌曲、纯音乐、噪声中的语音本质不同，音频帧的音频类别为语音时，该语音包括了前述音频类别中的语音、笑声、歌曲、纯音乐、噪声，并将前述音频类别中的语音、笑声、歌曲、纯音乐、噪声以外的声音作为非语音。另外，音频帧的音频类别为语音时，该语音也包括了前述音频类别中的正常语音、非正常语音，并将前述音频类别中的正常语音、非正常语音以外的声音作为非语音。
90.在一实施例中，可以将任一音频帧为语音的预测值作为一个权重值对占比进行处理，得到音频帧为语音音频的参考概率，例如任一音频帧为语音的预测值0.8，占比为0.6，可以将预测值和占比值进行相乘作为参考概率，例如预测值0.8乘以占比0.6得到参考概率0.48。当参考概率小于概率阈值(可以人为设定)时，例如设定概率阈值为0.5，此时参考概率小于概率阈值，服务器将任一音频帧的语音识别结果判断为目标识别结果，即判断任一音频帧为非语音音频，是标注人员不需要进行标注的音频。
91.s305、根据各个音频帧的语音识别结果，将所述待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频。
92.其中，s305的具体实现可以参见前述实施例中s203的相关描述，此处不再赘述。
93.s306、对所述处理后的音频进行风格转换处理，得到目标音频。
94.目标语言是进行风格转换后的音频中的语音的语言类型，如目标音频的语言类型为康巴方言，目标语言为康巴方言。
95.在一实施例中，如图6所示，服务器可以调用语音识别接口，获取语音识别模型对处理后的音频进行语音识别处理，得到处理后的音频的文本信息，并调用语音合成接口获取目标语言对应的语音合成模型(例如康巴方言对应的康巴语音合成模型)对处理后的音频的文本信息进行语音合成处理，得到目标音频。
96.语音识别模型可以是基于语音识别技术得到的，如图7所示，为语音识别技术的原理图，语音识别技术先是对处理后的音频进行预处理，例如滤波、分帧、提取语音特征等，然后解码器利用声学模型语言模型、语音数据、文本数据、发音字典对音频进行解码，获得最可能的词序列，从而得到对处理后的音频的文本信息。语音识别模型还可以是基于深度学习进行端到端训练得到的模型。
97.语音合成模型可以是基于语音合成技术得到的，如图8所示，为语音合成技术的原理图，其核心思想是将自然语音波形存贮，构成一个大规模音库，再对处理后的音频的文本信息进行文本分析，从而从大规模音库中挑选出合适的波形拼接在一起。语音合成模型还可以是基于深度学习进行端到端训练得到的模型。
98.在一实施例中，用户可以在终端设备的显示界面上点击“在线识别”功能键时，智能终端获取处理后的音频，并调用语音识别接口，从而利用语音识别模型对处理后的音频进行语音识别处理得到处理后的音频的文本信息，如图9所示，智能终端在调用藏语语音识别接口对藏语音频进行语音识别处理后，可以将其文本信息添加到音频波段下方的文本框区域内，当用户再次点击“文字转语音”功能键时，可以在显示界面显示“请选择目标语言”，例如可以显示“藏语
‑
卫藏”、“藏语
‑
安多”、“藏语
‑
康巴”3个子项，用户从中选择一个，将其作为目标语言，智能终端根据用户选择的目标语言接入相对应的语音合成接口，从而调用目标语言相应的语音合成模型对处理后的音频的文本信息进行语音合成处理得到目标音频，如目标语言为康巴方言，则语音合成模型可以将文本信息转换为康巴方言的音频，服务器可以在智能终端的显示界面播放目标音频，同时将目标音频进行存储，方便用户可以重复听取。
99.在一实施例中，服务器可以获取基础发音词表，基础发音词表包括文字与一种或多种语言发音的映射关系，例如，如下表1所示，为藏语的基础发音词表的部分示例，包括通用藏语和卫藏发音、安多发音、康巴发音之间的映射关系，服务器可以对处理后的音频进行语音识别处理，获取处理后的音频中每个分词的语言发音，其中，服务器获取到的分词的语言发音可以为一个字的语言发音，例如为“西”的普通话发音“xi”，也可以为一个词的语言发音，例如为“西安”的普通话发音“xi an”，还可以为一个句子的语言发音，例如为“西安是古都”的普通话发音“xi an shi gu du”，服务器在获取到处理后的音频中每个分词的语言发音后，可以利用基础发音词表获取处理后的音频的文本信息，例如处理后的音频中包括的分词的语言发音为“gafkaf”，则处理后的音频的文本信息为
100.表1
[0101][0102]
在一实施例中，服务器在利用基础发音词表获取到处理后的音频的文本信息之后，可以根据目标语言、处理后的音频的文本信息和基础发音词表获取目标音频。例如，处理后的音频的文本信息为目标语言为康巴方言，则可以从基础发音词表中获取文本信息所对应的康巴发音，例如对应的康巴发音为“g
à
k
ǎ”，则可以根据康巴发音生成目标音频。
[0103]
在一实施例中，考虑到即使是同一种语言类型针对同一个文字也会存在不同的发音，本技术可以基于此，建立特殊发音词表，在特殊发音词表中，文字与一种语言类型中的多种语音发音具有映射关系，即针对同一种语言类型的同一个文字可以同时存在多种发音，可以提高语音识别和语音合成的准确率。
[0104]
如图10所示，服务器首先可以对藏语音频进行预处理，预处理方式为前述步骤s201、s202、s203，或s301、s302、s303、s304，本实施例不再赘述。然后，服务器可以利用藏语语言识别技术，获取藏语音频中的文本信息，从而得到语音识别结果，该藏语音频可以是视频中包括的音频。最后，服务器可以利用藏语语言合成技术，基于藏语音频中的文本信息生成目标音频，本实施例可以将藏语音频转换为多种语言类型进行播放，实现了音频的自主选择性，标注人员无需判断音频的语言类型，即可以进行音频标注，降低了跨语言标注的难度，实现语言类型的无差异化。
[0105]
在本技术中，服务器对待处理音频包括的一个或多个音频帧中的任一音频帧进行切分处理得到多个音频片段，并确定了多个音频片段中每个音频片段的音频类别，根据每个音频片段的音频类别确定任一音频帧的语音识别结果，根据各个音频帧的语音识别结果，将待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频，最后对处理后的音频进行风格转换处理，得到目标音频，可以剔除掉待处理音频中的非语音音频，提高音频质量，使得相对于直接对待处理音频进行风格转换而言，本技术可以提高风格转换的准确性，同时，由于风格转换后的音频具有较高的准确性，使得标注人员也能够更准确地实现跨语言的音频标注。
[0106]
上述详细阐述了本技术实施例的方法，为了便于更好地实施本技术实施例的上述方案，相应地，下面提供了本技术实施例的装置。请参见图11，图11是本技术一个示例性实施例提供的一种音频处理装置的结构示意图，该装置110可以包括：
[0107]
获取模块1101，用于获取待处理音频，所述待处理音频包括一个或多个音频帧；
[0108]
处理模块1102，用于针对所述一个或多个音频帧中的任一音频帧，对所述任一音
频帧进行切分处理得到多个音频片段，确定所述多个音频片段中每个音频片段的音频类别，根据所述每个音频片段的音频类别确定所述任一音频帧的语音识别结果；
[0109]
所述处理模块1102，还用于根据各个音频帧的语音识别结果，将所述待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频；
[0110]
所述处理模块1102，还用于对所述处理后的音频进行风格转换处理，得到目标音频。
[0111]
在一实施例中，所述处理模块1102，具体用于：
[0112]
针对所述多个音频片段中的任一音频片段，对所述任一音频片段进行特征提取，得到所述任一音频片段的语音特征；
[0113]
利用音频分类模型的特征处理模块对所述任一音频片段的语音特征进行处理，得到所述任一音频片段的语音特征向量；
[0114]
利用所述音频分类模型的分类处理模块对所述任一音频片段的语音特征向量进行处理，得到任一音频片段的音频类别。
[0115]
在一实施例中，所述处理模块1102，具体用于：
[0116]
根据所述每个音频片段的音频类别，确定所述任一音频帧中音频类别为目标类别的音频片段的占比；
[0117]
根据所述占比确定所述任一音频帧的语音识别结果。
[0118]
在一实施例中，所述处理模块1102，具体用于：
[0119]
当所述占比小于比例阈值时，确定所述任一音频帧的语音识别结果为所述目标识别结果，所述目标识别结果用于指示所述任一音频帧为非语音音频。
[0120]
在一实施例中，所述处理模块1102，具体用于：
[0121]
针对所述任一音频帧，确定所述任一音频帧为语音的预测值；
[0122]
其中，所述根据所述占比确定所述任一音频帧的语音识别结果，包括：
[0123]
根据所述占比和所述预测值确定所述任一音频帧为语音音频的参考概率；
[0124]
当所述参考概率小于概率阈值时，确定所述任一音频帧的语音识别结果为所述目标识别结果，所述目标识别结果用于指示所述任一音频帧为非语音音频。
[0125]
在一实施例中，所述处理模块1102，具体用于：
[0126]
对所述处理后的音频进行语音识别处理，得到所述处理后的音频的文本信息；
[0127]
确定目标语言，并根据所述目标语言对所述处理后的音频的文本信息进行语音合成处理，得到目标音频。
[0128]
在一实施例中，所述处理模块1102，具体用于：
[0129]
获取基础发音词表，所述基础发音词表包括文字与一种或多种语言发音的映射关系；
[0130]
对所述处理后的音频进行语音识别处理，确定所述处理后的音频中每个分词的语言发音；
[0131]
根据所述每个分词的语言发音以及所述基础发音词表，确定所述处理后的音频的文本信息。
[0132]
在一实施例中，所述处理模块1102，具体用于：
[0133]
获取所述任一音频帧的音频波形数据；
[0134]
根据所述音频波形数据，将所述任一音频帧中的音频寂静区间确定为切分点；
[0135]
根据确定的各个切分点对所述任一音频帧进行切分处理得到多个音频片段。
[0136]
本技术实施例中，服务器获取待处理音频，对待处理音频包括的一个或多个音频帧中的任一音频帧进行切分处理得到多个音频片段，确定多个音频片段中每个音频片段的音频类别，根据每个音频片段的音频类别确定任一音频帧的语音识别结果，并根据各个音频帧的语音识别结果，将待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频，对处理后的音频进行风格转换处理，得到目标音频，该实施例可以利用待处理音频中包括的各个音频帧的语音识别结果对待处理音频中的非语音音频进行剔除，可以减少外部干扰，提高音频的音频质量，有利于提高音频风格转换所涉及的语音的准确性。
[0137]
如图12所示，图12是本技术实施例提供的一种计算机设备的结构示意图，该计算机设备120内部结构如图12所示，包括：一个或多个处理器1201、存储器1202、通信接口1203。上述处理器1201、存储器1202和通信接口1203可通过总线1204或其他方式连接，本技术实施例以通过总线1204连接为例。
[0138]
其中，处理器1201(或称cpu(central processing unit,中央处理器))是计算机设备120的计算核心以及控制核心，其可以解析计算机设备120内的各类指令以及处理计算机设备120的各类数据，例如：cpu可以用于解析用户向计算机设备120所发送的开关机指令，并控制计算机设备120进行开关机操作；再如：cpu可以在计算机设备120内部结构之间传输各类交互数据，等等。通信接口1203可选的可以包括标准的有线接口、无线接口(如wi
‑
fi、移动通信接口等)，受处理器1201的控制用于收发数据。存储器1202(memory)是计算机设备120中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器1202既可以包括计算机设备120的内置存储器，当然也可以包括计算机设备120所支持的扩展存储器。存储器1202提供存储空间，该存储空间存储了计算机设备120的操作系统，可包括但不限于：windows系统、linux系统等等，本技术对此并不作限定。
[0139]
在一实施例中，所述处理器1201，具体用于：
[0140]
获取待处理音频，所述待处理音频包括一个或多个音频帧；
[0141]
针对所述一个或多个音频帧中的任一音频帧，对所述任一音频帧进行切分处理得到多个音频片段，确定所述多个音频片段中每个音频片段的音频类别，根据所述每个音频片段的音频类别确定所述任一音频帧的语音识别结果；
[0142]
根据各个音频帧的语音识别结果，将所述待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频；
[0143]
对所述处理后的音频进行风格转换处理，得到目标音频。
[0144]
在一实施例中，所述处理器1201，具体用于：
[0145]
针对所述多个音频片段中的任一音频片段，对所述任一音频片段进行特征提取，得到所述任一音频片段的语音特征；
[0146]
利用音频分类模型的特征处理模块对所述任一音频片段的语音特征进行处理，得到所述任一音频片段的语音特征向量；
[0147]
利用所述音频分类模型的分类处理模块对所述任一音频片段的语音特征向量进行处理，得到任一音频片段的音频类别。
[0148]
在一实施例中，所述处理器1201，具体用于：
[0149]
根据所述每个音频片段的音频类别，确定所述任一音频帧中音频类别为目标类别的音频片段的占比；
[0150]
根据所述占比确定所述任一音频帧的语音识别结果。
[0151]
在一实施例中，所述处理器1201，具体用于：
[0152]
当所述占比小于比例阈值时，确定所述任一音频帧的语音识别结果为所述目标识别结果，所述目标识别结果用于指示所述任一音频帧为非语音音频。
[0153]
在一实施例中，所述处理器1201，具体用于：
[0154]
针对所述任一音频帧，确定所述任一音频帧为语音的预测值；
[0155]
其中，所述根据所述占比确定所述任一音频帧的语音识别结果，包括：
[0156]
根据所述占比和所述预测值确定所述任一音频帧为语音音频的参考概率；
[0157]
当所述参考概率小于概率阈值时，确定所述任一音频帧的语音识别结果为所述目标识别结果，所述目标识别结果用于指示所述任一音频帧为非语音音频。
[0158]
在一实施例中，所述处理器1201，具体用于：
[0159]
对所述处理后的音频进行语音识别处理，得到所述处理后的音频的文本信息；
[0160]
确定目标语言，并根据所述目标语言对所述处理后的音频的文本信息进行语音合成处理，得到目标音频。
[0161]
在一实施例中，所述处理器1201，具体用于：
[0162]
获取基础发音词表，所述基础发音词表包括文字与一种或多种语言发音的映射关系；
[0163]
对所述处理后的音频进行语音识别处理，确定所述处理后的音频中每个分词的语言发音；
[0164]
根据所述每个分词的语言发音以及所述基础发音词表，确定所述处理后的音频的文本信息。
[0165]
在一实施例中，所述处理器1201，具体用于：
[0166]
获取所述任一音频帧的音频波形数据；
[0167]
根据所述音频波形数据，将所述任一音频帧中的音频寂静区间确定为切分点；
[0168]
根据确定的各个切分点对所述任一音频帧进行切分处理得到多个音频片段。
[0169]
本技术实施例中，服务器获取待处理音频，对待处理音频包括的一个或多个音频帧中的任一音频帧进行切分处理得到多个音频片段，确定多个音频片段中每个音频片段的音频类别，根据每个音频片段的音频类别确定任一音频帧的语音识别结果，并根据各个音频帧的语音识别结果，将待处理音频中语音识别结果为目标识别结果的音频帧进行剔除，得到处理后的音频，对处理后的音频进行风格转换处理，得到目标音频，该实施例可以利用待处理音频中包括的各个音频帧的语音识别结果对待处理音频中的非语音音频进行剔除，可以减少外部干扰，提高音频的音频质量，有利于提高音频风格转换所涉及的语音的准确性。
[0170]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述音频处理方法的实施例的流程。其中，所述的存储介质
可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0171]
本技术一个或多个实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。
[0172]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马应龙;索郎王修
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种卷帘门用防火锁盒的制作方法
上一篇：一种可隐藏拉闸的推拉式安全防护窗的制作方法