一种直播降噪的方法及系统与流程

文档序号：11292674阅读：4709来源：国知局

本申请涉及数据处理技术领域，特别涉及一种直播降噪的方法及系统。

背景技术：

伴随着人类向信息化时代的迈进，逐渐出现了各种新兴职业，其中在各大网站平台相继出现的网络主播相信大家都有所了解。顾名思义，就是在互联网节目或活动中，负责参与一系列策划、编辑、录制、制作、观众互动等工作，并由本人担当主持工作的人或职业。而且网络主播是一个综合能力很强的职业，一个优秀的网络主播一个人常常要面对线上数万人、几十万人甚至上百万人的观众，并且实时与线上观众交流互动。

在通过这样一种方式与成千上万的观众进行互动的过程中，对直播环境的环境要求很高，而噪声不可避免。噪声的类型有很多，例如，嘈杂的人声、机器运转声、外界汽车鸣笛声以及各种轰鸣声，针对不同的直播内容，不同类型的噪声所起到的干扰作用也不尽相同。若直播环境中存在着会极大影响直播体验的噪声，不可避免的会降低观众对该直播平台的印象和评价、甚至不再选择在该直播平台观看直播。而对于直播平台来说，观众是极其重要的，一旦埋下了丢失观众的隐患，想要再次挽回观众的心却不是一件易事。

在现有技术中，对于直播环境的降噪是将直播原始音频文件通过复合的降噪模型进行统一处理，其中该降噪模型中包含了许多预设噪声样本，即，不管进行直播的内容到底是什么，对所有直播原始音频文件都会进行相同的降噪处理。而这样的做法无法有针对性的对特定直播内容进行降噪，例如该直播内容就是主播与观众的聊天，而该降噪模型依然对人声进行了降噪，造成了直播时观众无法听到清晰的声音，势必会对观众的直播体验造成影响。

那么，如何在无法避免噪声存在的情况下，提供一种更有针对性、可选择的、降噪效果更好的直播降噪方法，是本领域技术人员亟待解决的问题。

技术实现要素：

本申请的目的是提供一种直播降噪的方法及系统，能够在无法避免噪声存在的情况下，以一种更有针对性、可选择的、降噪效果更好的直播降噪方法，提高观众的直播观看体验和直播平台的竞争力。

为解决上述技术问题，本申请提供一种直播降噪的方法，该方法包括：

根据输入的选择信息确定选择的预设噪声样本；

根据所述预设噪声样本，通过降噪模型对原始音频文件进行降噪处理，得到最终音频文件；

将所述最终音频文件输出至直播服务器。

可选的，根据所述预设噪声样本，通过降噪模型对原始音频文件进行降噪处理，包括：

依次从所述预设噪声样本中选取一个噪声样本，并通过所述降噪模型对所述噪声样本进行降噪处理。

可选的，根据将所述预设噪声样本，通过降噪模型对原始音频文件进行降噪处理前，还包括：

将在直播过程中产生的实时音频数据按预设周期生成多个所述原始音频文件。

可选的，本方案还包括：

根据输入的采集指令进行噪声样本采集，得到自定义噪声样本，并命名所述自定义噪声样本。

可选的，本方案还包括：

对所述预设噪声样本和所述自定义噪声样本进行管理操作；其中，所述管理操作包括预览播放、录音、保存、新建、删除和排序中的至少一种。

可选的，根据所述预设噪声样本，通过降噪模型对原始音频文件进行降噪处理，包括：

根据所述预设噪声样本，通过谱减法降噪模型对所述原始音频文件进行降噪处理。

本申请还提供了一种直播降噪的系统，该系统包括：

选择确定单元，用于根据输入的选择信息确定选择的预设噪声样本；

降噪单元，用于根据所述预设噪声样本，通过降噪模型对原始音频文件进行降噪处理，得到最终音频文件；

输出单元，用于将所述最终音频文件输出至直播服务器。

可选的，所述降噪单元包括：

处理子单元，用于依次从所述预设噪声样本中选取一个噪声样本，并通过所述降噪模型对所述噪声样本进行降噪处理。

可选的，本方案还包括：

原始音频文件生成单元，用于将在直播过程中产生的实时音频数据按预设周期生成所述原始音频文件。

可选的，本方案还包括：

自定义采集单元，用于根据输入的采集指令进行噪声样本采集，得到自定义噪声样本，并命名所述自定义噪声样本。

可选的，本方案还包括：

管理单元，用于对所述预设噪声样本和所述自定义噪声样本进行管理操作；其中，所述管理操作包括预览播放、录音、保存、新建、删除和排序中的至少一种。

可选的，所述降噪单元包括：

谱减法子单元，用于根据所述预设噪声样本，通过谱减法降噪模型对所述原始音频文件进行降噪处理。

本申请所提供的一种直播降噪的方法，通过根据输入的选择信息确定选择的预设噪声样本；根据所述预设噪声样本，通过降噪模型对原始音频文件进行降噪处理，得到最终音频文件；将所述最终音频文件输出至直播服务器来实现最终的直播降噪。

显然，本申请所提供的技术方案通过对用户选择的要滤除的噪声样本通过降噪模型对原始音频文件进行降噪，能够在无法避免噪声存在的情况下，以一种更有针对性、可选择的、降噪效果更好的直播降噪方法，提高观众的直播观看体验和直播平台的竞争力。本申请同时还提供了一种直播降噪的系统，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其它的附图。

图1为本申请实施例所提供的一种直播降噪的方法的流程图；

图2为本申请实施例所提供的另一种直播降噪的方法的流程图；

图3为本申请实施例所提供的又一种直播降噪的方法的流程图；

图4为本申请实施例所提供的一种直播降噪的系统的结构图。

具体实施方式

本申请的核心是提供一种直播降噪的方法及系统，能够在无法避免噪声存在的情况下，以一种更有针对性、可选择的、降噪效果更好的直播降噪方法，提高观众的直播观看体验和直播平台的竞争力。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

以下结合图1，图1为本申请实施例所提供的一种直播降噪的方法的流程图。

其具体包括以下步骤：

s101：根据输入的选择信息确定选择的预设噪声样本；

本步骤旨在通过用户基于自己的判断对直播环境中存在的噪声种类以及自身直播的内容有针对性的选择要滤除的噪声类型所对应的预设噪声样本。大自然中声音信息多姿多彩、种类繁多，例如，鸟鸣声、流水声、窃窃私语声、欢笑声、轰鸣声等等，即存在多种多样的声音样本，在主播们的直播环境也不尽相同，各种类型的户外直播正在不断充斥着我们的眼球，就会接触到更多的声音类型。

而即使是优美的歌声在不同的人听来感觉也会存在不同。可能主播正在讲一个非常严肃的纪实故事，好不容易将观众带入自己所营造的氛围中，却被这一优美而富有旋律的歌声破坏了氛围，这种情形下的歌声对这个主播来说就是噪声，但换一个场景下可能就是一曲优美的歌声，会给观众带来好心情，所以，对于基于何种原则而做出的选择，需要基于实际情况下方方面面的考虑做出相应的选择。

其中，可以提前预设一些常用的噪声样本供用户选择，能够满足用户们一些基本的需求，例如经常能够听到的喧哗嘈杂声、汽车鸣笛声、机器轰鸣声等，以能够满足用户们的基本需求为准。

进一步的，除开这些常听到的噪声外，可能会有些主播们有些自己独特的直播内容，相应的可能会需要滤除的噪声样本也不太常见，在此情况下，也可以根据该主播的个人需求开启噪声样本录入操作，收集想要当作噪声样本的声音，并可以根据声音的类型和个人的喜好进行命名，以简单、清晰的辨别到底是何种噪声样本，达到提醒自己的目的。

更进一步的，经过用户自行添加后致使预设噪声样本库更加完善，一段时间后可能会积累成为一个庞大的噪声样本库，一方面，更完善的噪声样本库可以让用户更精准的滤除不想要的声音，另一方面，更大的数据库会给设备带来更大的负担，占用存储空间、减慢设备运转速度，使得在直播过程中易出现卡顿，影响观众的直播观看体验。为防止出现此种情况，还可以通过管理操作对经过扩充的噪声样本库进行管理，包括：预览播放、录音、保存、新建、删除和排序中的至少一种，能使得该噪声样本库更加精简，达到更高的利用率。

值的一提的是，既然会存在包含很多噪声样本的噪声样本库来实现精确滤除噪声，可能出现需要对多种类型噪声进行滤除，即需要选择确定使用多个预设噪声样本，在后续的降噪处理中进行降噪，此处并不对选择确定的预设噪声样本的具体数量进行限定，即，可能出现单选，也有可能出现复选的情况，应视主播的直播内容、个人的想法和习惯以及所处的环境进行实际的选择。

s102：根据预设噪声样本，通过降噪模型对原始音频文件进行降噪处理，得到最终音频文件；

根据s101中选择确定的预设噪声样本，通过降噪模型对直播过程中实时得到的原始音频文件进行降噪处理。其中，降噪模型有很多种，此处并不对选择何种降噪模型进行降噪处理做具体限定，只要使用了降噪模型对音频文件进行了降噪处理都可视为在本申请所保护的范围之内。降噪模型的原理是根据选择的噪声样本在原始音频文件中进行匹配并进行相应的修改，而不同的方法则是对如何进行修改提出了的自己的看法，常见的有谱减法模型、非线性谱减模型、多带谱减模型。

同时，考虑到在用户可能会选择确定了多个需要滤除的噪声样本的可能性，而对于多个都需要滤除的噪声样本通过降噪模型进行降噪处理会出现几种方式，其中，可以通过串行的处理方式，即每次只让一个噪声样本通过降噪模型对原始音频文件进行降噪，在上一次降噪处理完成后，再拿经过一次降噪处理的第一音频文件执行根据另一噪声样本通过降噪模型进行的第二次降噪处理，依次类推，直至完成所有选择的噪声样本的降噪，得到最终音频文件。

也可以通过并行的处理方式，即同时以多个降噪模型通过降噪模型对原始音频文件进行降噪，只需进行一次降噪处理即可得到最终音频文件。两种处理方式各种长处，前者可以以较低的设备性能完成，后者则是处理的快，可视直播时的实际情况以及开直播的设备的性能来综合考虑。

实际听觉环境中，对于如何判断在中原声音信号掺杂有噪声的声音信号，一种普遍被使用的方法是：采集到的声音信号永远都是原信号与噪声信号的叠加，即模型是信号的直接叠加，这就要满足：原信号与噪声信号不相关。其实有些情况下这个条件是不满足的，所以依然有很多其他的模型，如有人认为原信号和噪声信号是卷积的关系。可以将噪声样本的声音波形在音频文件中进行匹配，并将匹配到的声音波形进行删减调节，这就是谱减法的由来。

其中，谱减法就是基于噪声的加法模型，在谱减法的基础上有人提出了非线性谱减算法：假设了噪声对所有的频谱分量都有同等的影响，继而只用了一个过减因子来减去对噪声的过估计，但现实世界中的噪声并非如此，这意味着可以用一个频率相关的减法因子来处理不同类型的噪声；另一种是多带谱减法，在多带算法中，将语音频谱划分为多个互不重叠的子带，谱减法在每个子带独立运行。将语音信号分为多个子带信号的过程可以通过在时域使用带通滤波器来进行，或者在频域使用适当的窗。

多带谱减法与非线性谱减法的主要区别在于对过减因子的估计：多带算法针对频带估计减法因子，而非线性谱减算法针对每一个频点，导致频点上的信噪比可能有很大变化。这种剧烈变化是谱减法中所遇到的语音失真的原因之一，相反，子带信噪比变化则不会特别剧烈。

s103：将最终音频文件输出至直播服务器。

本步骤只需要将s102中经过降噪处理得到的最终音频文件输出至直播服务器即可，便可以达到对直播音源实现针对性的降噪作用。

进一步的，区别于现有直播平台的对完整的音频文件一次性进行降噪处理，本申请还可以通过一系列对原始音频文件的操作使其达到现有技术无法实现的在直播中对实时音频文件进行降噪处理，而不是在事后进行处理。这一点会在后续的实施例中进行详细的说明。

基于上述技术方案，本申请实施例提供的直播降噪的方法，通过对用户选择的要滤除的噪声样本通过降噪模型对原始音频文件进行降噪，能够在无法避免噪声存在的情况下，以一种更有针对性、可选择的、降噪效果更好的直播降噪方法，提高观众的直播观看体验和直播平台的竞争力。

以下结合图2，图2为本申请实施例所提供的另一种直播降噪的方法的流程图。

其具体包括以下步骤：

s201：将直播过程中产生的实时音频数据按预设周期生成多个原始音频文件；

网络直播是一种即时性的交互活动，也就是说你和主播通过文字、表情以及弹幕等就好像能够面对面的交流一样，也就是主播通过这一平台将其想要表现给观众的内容即时的展现给观众。在此过程中，即时的直播过程中就会产生实时音频数据，对一个完整、体积庞大的音频文件进行后期处理会需要很长时间，但将其拆分成一个个小的音频文件或者说，在生成原始音频文件时就设定一个短时限，例如5s，即主播直播时录制的声音数据以每5s依次生成众多的原始音频文件，就可以很好的降低降噪处理的时间以及计算能力，并可以及时的将已经处理过得到的最终音频文件上传至直播服务器，让观众可以享受到实时且经过降噪处理的声音信息。

之所以将这个时限设的较短，是因为大多直播平台考虑到直播内容的时效性，往往会设置直播延迟，即观众看到的一段时间前主播录制的画面和声音数据，这个延迟往往不会太长，否则会影响直播观看体验，可以正好利用这点。

s202：根据输入的选择信息确定选择的预设噪声样本；

s203：依次从预设噪声样本中选取一个噪声样本，并通过谱减法降噪模型对原始音频文件进行降噪处理；

针对s102中进行描述的两种具体的方式：串行处理和并行处理，考虑到网络主播这一职业的出现收益最多的是由特长、能够变现自己的普通大众，基于这一考虑，在仍能够完成降噪处理的前提下，更适合选择对直播设备性能要求更小的串行处理方式，即对复选的多个噪声样本依次通过降噪模型进行降噪处理。

s204：将最终音频文件输出至直播服务器。

以下结合图3，图3为本申请实施例所提供的又一种直播降噪的方法的流程图。

本实施例建立在一个实际的情境下：主播在直播一场小型个人音乐会，主播对着麦克风进行实时的讲解，但是主播的附近存在人群说话的嘈杂声，此吃主播的目标是保留音乐会现场的音乐声和自己解说的声音，并需要滤除直播环境中的嘈杂人身和汽车鸣笛声两种噪声。

整个直播过程以5s的预设周期在整个直播过程中共生成100个原始音频文件，且采用基础的谱减法为降噪模型。

其具体包括以下步骤：

s301：将直播过程中产生的实时音频数据以5s为最大长度共生成100个原始音频文件；

s302：根据输入的选择信息确定选择嘈杂人声和汽车鸣笛声两个噪声样本；

s303：利用嘈杂人声的噪声样本通过谱减法降噪模型对100个原始音频文件进行第一降噪处理；

s304：得到100个第一音频文件；

s305：利用汽车鸣笛声的噪声样本通过谱减法降噪模型对100个第一音频文件进行第二降噪处理；

s306：得到100个最终音频文件；

s307：将100个最终音频文件输出至直播服务器。

基于上述技术方案，本申请实施例提供的直播降噪的方法，通过对用户选择的要滤除的噪声样本通过降噪模型对原始音频文件进行降噪，并可在不同的情况选择更合适的处理方法，将经过降噪处理的最终音频文件实时的传输给观众，使观众获得更好的直播观看体验。能够在无法避免噪声存在的情况下，以一种更有针对性、可选择的、降噪效果更好的直播降噪方法，提高观众的直播观看体验和直播平台的竞争力。

上面提及的几种方式，只是从实际出发提出的几种具体例子，当然可以有其他的方式来达到同样的效果，此处并不做具体限定。

下面请参见图4，图4为本申请实施例所提供的一种直播降噪的系统的结构框图。

该系统可以包括：

选择确定单元100，用于根据输入的选择信息确定选择的预设噪声样本；

降噪单元200，用于根据预设噪声样本，通过降噪模型对原始音频文件进行降噪处理，得到最终音频文件；

输出单元300，用于将最终音频文件输出至直播服务器。

其中，该降噪单元200包括：

处理子单元，用于依次从预设噪声样本中选取一个噪声样本，并通过降噪模型对噪声样本进行降噪处理。

谱减法子单元，用于根据预设噪声样本，通过谱减法降噪模型对原始音频文件进行降噪处理。

进一步的，该系统还包括：

原始音频文件生成单元，用于将在直播过程中产生的实时音频数据按预设周期生成原始音频文件；

自定义采集单元，用于根据输入的采集指令，进行噪声样本采集，得到自定义噪声样本，并命名自定义噪声样本；

管理单元，用于对预设噪声样本和自定义噪声样本进行管理操作；其中，管理操作包括预览播放、录音、保存、新建、删除和排序中的至少一种。

在实施例三中所举实际例子既可以对应上述各单元：

选择确定单元100通过其包括的预设噪声样本供主播进行选择，主播直接勾选要想消除的噪声类型，即，勾选嘈杂人声样本和汽车鸣笛声样本。紧接着，降噪单元200则对从直播发布应用软件录入的100个原始音频文件进行噪音过滤，先对于所勾选的嘈杂人声样本声音波形一致的波形进行删减调节，在经过第一次降噪处理后，再对另一勾选的汽车鸣笛声样本执行相同的步骤，最终得到最终音频文件。其中，这是与实施例三相同的串行处理方式，在实施例三也进行如果进行并行的处理方式，在此不再赘述。

最后将得到的最终音频文件通过输出单元300传输至直播服务器，即能够让观众得到经过降噪处理的实时直播。

进一步的，还可以通过自定义单元和管理单元进行自定义噪声样本的生成和一系列管理操作，在步骤s101中由对于管理操作的详细介绍，可以参见相关部分，在此不再赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上对本申请所提供的直播降噪的方法及系统进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖鸿亮
技术所有人：广州华多网络科技有限公司
我是此专利的发明人

上一篇：动态壁纸中的字幕添加方法、装置及电子设备与流程
上一篇：在网页上分时显示视频信息的方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。