一种音频处理方法和装置与流程

文档序号：11867436阅读：210来源：国知局

本发明属于计算机技术领域，尤其涉及一种音频处理方法和装置。

背景技术：

随着互联网的发展，尤其是移动互联网的发展，视音频传播变的越来越普遍，大部分人均已习惯于通过视听来进行学习或者享受，但因为使用环境、设备和网络也是千变万化，这些情况很多时候会导致音频质量参差不齐，如声音忽大忽小，而市场上也并没有工具针对这些声音进行统一的检测和优化，使得音视频传播的质量不佳，也极大的减低了用户视听体验。

技术实现要素：

本发明的目的在于提供一种音频处理方法和装置，旨在解决音视频通信或者音视频播放时音频效果不佳的问题。

一方面，本发明提供了一种音频处理方法，其特征在于，所述方法包括下述步骤：

获取目标音频数据；

解析并采样所述目标音频数据，以得到采样音频数据，确定所述采样音频数据的分贝值；

判断所述采样音频数据的分贝值是否满足预设条件；

当所述采样音频数据的分贝值不满足所述预设条件时，对所述目标音频数据执行预设处理。

另一方面，本发明提供了一种音频处理装置，其特征在于，所述装置包括：

音频获取单元，用于获取目标音频数据；

音频解析单元，用于解析并采样所述目标音频数据，以得到采样音频数据，确定所述采样音频数据的分贝值；

音频判断单元，用于判断所述采样音频数据的分贝值是否满足预设条件；

音频处理单元，用于当所述采样音频数据的分贝值不满足所述预设条件时，对所述目标音频数据执行预设处理。

在本发明实施例中，通过对目标音频数据进行解析采样判断，确定目标音频数据是否存在异常，并通过对异常的目标音频数据进行处理获得了质量更高并且更符合人体听觉系统的音频数据，极大的提升了用户体验。

附图说明

图1是本发明实施例一提供的音视频传播系统的结构示意图；

图2是本发明实施例一提供的一种音频处理方法的流程图；

图3是本发明实施例二提供的另一种音频处理方法的流程图；

图4是本发明实施例三提供的再一种音频处理方法的流程图；以及

图5是本发明实施例四提供的一种音频处理装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图2示出了本发明实施例一提供的音频处理方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S200中，获取目标音频数据。

本发明实施例适用于音视频传播系统或音视频播放系统，如图1所示，电子终端10通过连接到终端设备11。电子终端10在与终端设备11进行音视频通信时，或者从终端设备11获取音视频资源时，电子终端10通过网络从终端设备11接收音视频数据，并对该音频数据或者视频数据中的存在异常的音频数据进行优化处理输出以供用户收听或者观看。其中，终电子端10可以是手机、平板电脑、智能穿戴设备或计算机等通信设备；终端设备11可以是服务器、手机、平板电脑、智能穿戴设备或计算机。

在本发明实施例中，当用户在通过电子终端10观看视频，或者听音频，或者进行音视频通信时，从该电子终端10接收的音视频文件见中获得待处理的目标音频数据。

在步骤S201中，解析目标音频数据，并采样目标音频数据，以得到采样音频数据，确定采样音频数据的分贝值。

在本发明实施例中，电子终端10对目标音频数据进行解码，采样解码后的音频数据，采样样本总数为S，在这里将该S个采样得到的音频数据称为采样音频数据，进一步地，确定该S个采样音频数据的分贝值。

在步骤S202中，判断上述采样音频数据的分贝值是否满足预设条件。

在本发明实施例中，上述预设条件为符合人耳听觉的音频条件值，其具体可以是电子终端10预置的条件参数，也可以是在步骤S202之前电子终端10接收用户输入的条件参数。

在步骤S203中，当上述采样音频数据的分贝值不满足预设条件时，对目标音频数据执行预设处理。

具体地，当上述采样音频数据的分贝值不满足预设条件时，对目标音频数据中不符合预设条件的音频数据进行降噪或调幅处理，使其最终满足上述预设条件，最终获得符合人体听觉的音频数据。

本发明实施例通过对目标音频数据进行解析采样判断，确定目标音频数据是否存在异常，并通过对异常的目标音频数据进行处理获得了质量更高并且更符合人体听觉系统的音频数据，极大的提升了用户体验。

实施例二：

图3示出了本发明实施例二提供的音频处理方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S300中，获取目标视频数据。

在本发明实施例中，用户在通过电子终端10观看视频或者进行视频通信时，电子终端10从服务器或者远程终端接收的视频文件。

在步骤S301中，解析上述目标视频数据，并从上述目标视频数据中剥离出音频数据。

在本发明实施例中，电子终端10对获取的目标视频数据进行解码，并从中剥离出上述目标视频数据的音频数据。

在步骤S302中，解析目标音频数据，并采样目标音频数据，以得到采样音频数据，确定采样音频数据的分贝值。

在本发明实施例中，电子终端10对目标音频数据进行解码，采样解码后的音频数据，采样样本总数为S，以得到S个采样音频数据，并确定该S个采样音频数据的分贝值。电子终端10对目标音频数据进行解码，采样解码后的音频数据，采样样本总数为S。

在步骤S303中，判断上述采样音频数据的分贝值是否满足预设条件。

在本发明实施例中，上述预设条件为符合人耳听觉的音频条件值，其具体可以是电子终端10预置的条件参数，也可以是在步骤S302之前电子终端10接收用户输入的条件参数。

在步骤S304中，当上述采样音频数据的分贝值不满足预设条件时，对目标音频数据执行预设处理。

具体地，当上述采样音频数据的分贝值不满足预设条件时，对目标音频数据中不符合预设条件的音频数据进行降噪或调幅处理，使其最终满足上述预设条件，获得符合人耳听觉系统的音频数据。

在步骤S305中，将处理后的目标音频数据与剥离所述目标音频数据后的目标视频数据进行合成。

在上述对目标音频数据的优化处理完成后，将理后的目标音频数据与剥离所述目标音频数据后的目标视频数据合成新的视频数据。

本发明实施例提供的音频处理方法通过对视频文件中音频数据的优化处理，实现了质量更高并且更符合人体听觉系统的音频输出，为用户提供了更好视听效果。

实施例三：

图4示出了本发明实施例三提供的音频处理方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S400中，获取目标音频数据。

在本发明实施例中，当用户在通过电子终端10观看视频，或者听音频，或者进行音视频通信时，从该电子终端10接收的音视频文件见中获得的待处理的目标音频数据。

在步骤S401中，解析目标音频数据，并采样目标音频数据，以得到采样音频数据，确定采样音频数据的分贝值。

在本发明实施例中，电子终端10对目标音频数据进行解码，采样解码后的音频数据，采样样本总数为S，以得到S个采样音频数据，确定该S个采样音频数据的分贝值。

在步骤S402中，检测采样音频数据中分贝值超过第一阈值的采样音频数据的数量占比。

在本发明实施例中，分别判断上述S个采样音频数据的分贝值是否大于第一阈值，并统计分贝值大于第一阈值的音频数据的数量N。

根据上述采样总数S和超出数量N，得到超出数量占比P的计算公式为：

P＝N/S。

其中，第一阈值可以是系统预置的适合人耳听觉的最大分贝值，同时也可以是步骤S402之前接收用户输入的第一阈值的大小。优选地，上述第一阈值还可以是根据环境不同而不同。具体地，其系统预置或者接收用户输入的不同环境类型下的第一阈值，电子终端10检测其周围的环境参数，根据这些环境参数确定电子终端10所处的环境类型，根据确定的类型选择相应的第一阈值。

在步骤S403中，判断上述检测的占比是否超过第二阈值。

在本发明实施例中，第二阈值可以是系统预置的根据经验值确定的比例值，同时也可以是步骤S403之前接收用户输入的比例值。优选地，上述比例值还可以是根据环境不同而不同，具体地，其系统预置或者接收用户输入的不同环境类型下的比例值，电子终端10检测其周围的环境参数，根据这些环境参数确定电子终端10所处的环境类型，根据确定的类型选择相应的比例值。

在步骤S404中，当上述占比超过第二阈值时，对目标音频数据执行预设处理。

在本发明实施例中，优选地，对目标音频数据执行预设处理具体包括：

将目标音频数据进行分段；

将每段目标音频数据进行优化处理，使每段目标音频数据中分贝值超出第一阈值的音频数据的数量的占比小于所述第二阈值。

在本发明实施例中，对目标音频数据的分段可以是对该目标音频数据进行平均分段，或者也可以是按照每段音频数据的大小对其进行分段。对每段音频数据中分贝值超过第一阈值的音频数据进行降噪或调幅处理，以保证其中分贝值超出所述第一阈值的音频数据的数量的占比小于所述第二阈值。

更优选地，在优化处理的过程中还可以加入人工校正，通过人工校正减少正常数据被误处理的可能性。具体地，向用户播放每段音频数据，接收用户的反馈信息，根据反馈信息确定是否要对该音频数据进行优化处理。

更优选地，对目标音频数据进行分段的方法包括：

确定采样音频数据中分贝值超过第一阈值的音频数据的分布情况；

根据分布情况对目标音频数据进行分段。

在本发明实施例中，统计上述N个采样音频数据中分贝值超过第一阈值的音频数据分布情况。根据上述N个采样音频数据分布的密集情况对目标音频数据进行分段，具体地，确定固定采样长度的采样音频数据窗口中分贝值超过第一阈值的音频数据的数量或其数量占采样音频数据窗口的总比,将这些连续的采样音频数据窗口中分贝值超过第一阈值的音频数据的数量或其数量占采样音频数据窗口的总比大于第三阈值时，将这些连续的采样音频数据窗口涉及的音频数据分成一段或多段以供后续优化处理。通过根据异常音频数据的密集度来对目标音频数据进行分段处理时可以自动跳过那些正常的音频数据段而直接对有问题或者瑕疵的音频数据进行校正，极大的提高处理效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例四：

图5示出了本发明实施例四提供的音频处理装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

音频获取单元50，用于获取目标音频数据；

用户在通过电子终端10观看视频，或者听音频，或者进行音视频通信时，音频获取单元50从电子终端10接收的音视频文件见中获得的待处理的目标音频数据。

音频解析单元51，用于解析目标音频数据，并采样目标音频数据，以得到采样音频数据，确定采样音频数据的分贝值；

音频解析单元51对目标音频数据进行解码，采样解码后的音频数据，其采样样本总数为S，并确定该S个采样音频数据的分贝值。

音频判断单元52，用于判断采样音频数据的分贝值是否满足预设条件；

其中，上述预设条件为符合人耳听觉的音频条件参数，其具体可以是电子终端10预置的条件参数，也可以是在步骤S202之前电子终端10接收用户输入的条件参数。

音频处理单元53，用于当采样音频数据的分贝值不满足预设条件时，对目标音频数据执行预设处理。

具体地，当上述采样音频数据的分贝值不满足预设条件时，音频处理单元53对目标音频数据中不符合预设条件的音频数据进行降噪或调幅处理，使其最终满足上述预设条件，最终获得符合人耳听觉的音频数据。

优选地，为了方便对目标视频数据中的音频数据进行优化处理，音频获取单元50进一步包括：视频获取模块，用于获取目标视频数据；视频解析模块，用于解析目标视频数据，并从目标视频数据中剥离出音频数据；且本发明提供的音频处理装置还包括：视频合成单元，用于将处理后的目标音频数据与剥离所述目标音频数据后的目标视频数据进行合成。

在本发明提供的另一种音频处理装置中，音频判断单元52可以进一步包括：

音频检测模块，用于检测所述采样音频数据中分贝值超过第一阈值的所述采样音频数据的数量；

分别判断上述S个采样音频数据的分贝值是否大于第一阈值，并统计分贝值大于第一阈值的音频数据的数量N占采样总数S的占比P。

根据上述采样总数S和超出数量N，超出第一阈值的音频数据的数量占比P的计算公式为：

P＝N/S。

其中，第一阈值可以是系统预置的适合人耳听觉的最大分贝值，同时也可以是通过电子终端10接收用户输入的第一阈值的大小。优选地，上述第一阈值还可以是根据环境不同而不同，具体地，其系统预置或者接收用户输入的不同环境类型下的第一阈值；电子终端10检测其周围的环境参数，根据这些环境参数确定电子终端10所处的环境类型；根据确定的类型选择相应的第一阈值。

阈值判断模块，用于判断上述超出数量的占比是否超过第二阈值。

其中，第二阈值可以是系统预置的根据经验值确定的比例值，同时也可以是通过电子终端10接收的用户输入的比例值。优选地，上述比例值还可以是根据环境不同而不同，具体地，其具体地值可以是系统预置或者接收用户输入的不同环境类型下的比例值；阈值判断模块检测其周围的环境参数，根据这些环境参数确定电子终端10所处的环境类型；阈值判断模块根据确定的类型选择相应的比例值。

更优选地，作为本发明提供的另一种音频处理装置，音频处理单元53进一步包括：

音频分段模块，用于将所述目标音频数据进行分段；

具体地，音频分段模块对目标音频数据进行平均分段，或者按照每段音频数据的大小其进行分段。

优化处理模块，用于将所述每段目标音频数据进行优化处理，使所述每段目标音频数据中分贝值超过所述第一阈值的音频数据的数量的占比小于所述第二阈值。

优化处理模块检测每段音频数据中分贝值超过第一阈值的音频数据进行降噪或调幅处理，以保证其中分贝值超出所述第一阈值的音频数据的数量的占比小于所述第二阈值。

更优选地，本发明实施例提供的音频处理装置还可以包括以人工校正模块，用于在优化处理的过程中还可以加入人工校正，通过人工校正减少正常数据被误处理的可能性。

更优选地，上述音频分段模块进一步包括：

分布确定子模块，用于确定所述采样音频数据中分贝值超过第一阈值的音频数据的分布情况；

具体地，通过分布确定子模块统计上述N个采样音频数据中分贝值超过第一阈值的音频数据分布情况。

音频分段子模块，用于根据所述分布情况对所述目标音频数据进行分段。

音频分段子模块，根据上述N个采样音频数据分布的密集情况对目标音频数据进行分段，具体地，音频分段子模块首先确定固定采样长度的采样音频数据窗口中分贝值超过第一阈值的音频数据的数量或其数量占采样音频数据窗口总数量的比值,将这些连续的采样音频数据窗口中分贝值超过第一阈值的音频数据的数量或其数量占采样音频数据窗口的总比大于第三阈值时，将这些连续的采样音频数据窗口涉及的音频数据分成一段或多段以供后续优化处理。通过根据异常音频数据的密集度来对目标音频数据进行分段处理时可以自动跳过那些正常的音频数据段而直接对有问题或者瑕疵的音频数据进行校正，极大的提高处理效率。

在本发明实施例所提供音频处理装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：石江;曹建中;
技术所有人：广东小天才科技有限公司;
我是此专利的发明人