一种在直播过程中处理声音的方法及终端设备与流程

文档序号：13616210阅读：829来源：国知局

本发明涉及计算机技术领域，尤其涉及一种在直播过程中处理声音的方法及终端设备。

背景技术：

随着互联网技术的不断发展，人们日常生活的娱乐活动也越来越丰富，例如，越来越多的用户喜欢通过直播应用程序在线观看主播提供的视频节目或者音频节目等，目前主播可以在直播间通过pc(personalcomputer，个人计算机)或手机中的各个直播平台进行直播。在直播过程中，为了丰富直播的氛围，有时需要在直播的过程中添加一些背景音乐，现有技术中，为实现这一目的，一方面，通常需要借助其他外放设备，通过其他外放设备的扬声器播放背景音乐，随后，移动终端的麦克风可同时采集背景音乐及主播的声音，并将二者混合播放；另一方面，可以通过用户自定义选择音频文件，解码该音频文件得到音频信号，通过调整移动终端的麦克风重点采集用户的语音信号，将所获取的音频信号与所采集的用户的语音信号进行混音并播放。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：需要借助其他外放设备获取背景音乐的方式，实现起来会非常不方便，实施地点容易受限，且通过麦克风同时采集背景音乐，收音效果比较差，容易收集到环境噪音，导致最终输出的信号质量很差；在直播过程中，终端设备自身会产生音频数据，通过用户自定义选择音频文件获取背景音乐的方式，依旧能够收集到终端设备自身产生的音频数据的噪音，将导致终端设备自身产生的音频数据在主播不需要的时候被录进了直播之中，从而影响了直播的音频效果。

技术实现要素：

本发明实施例提供一种在直播过程中处理声音的方法及终端设备，在进行直播混音时能够控制混音的音源，以获取到更佳的直播音频数据。

一方面，本发明实施例提供了一种在直播过程中处理声音的方法，包括：

获取用户的语音信号，并识别所述语音信号中的语音指令；

根据所述语音指令，确定终端设备的待获取音频数据；

根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据；

若判断获取所述待获取音频数据，通过所述终端设备播放所述待获取音频数据以获取所述待获取音频数据，并将已获取的所述待获取音频数据与用户的语音信号进行混音处理，以生成直播音频数据。

另一方面，本发明实施例提供了一种终端设备，包括：

获取及识别单元，用于获取用户的语音信号，并识别所述语音信号中的语音指令；

确定单元，用于根据所述语音指令，确定终端设备的待获取音频数据；

判断单元，用于根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据；

播放及混音单元，用于若判断获取所述待获取音频数据，通过所述终端设备播放所述待获取音频数据以获取所述待获取音频数据，并将已获取的所述待获取音频数据与用户的语音信号进行混音处理，以生成直播音频数据。

上述技术方案具有如下有益效果：通过识别用户的语音信号确定终端设备的待获取音频数据，实现了简单、便捷、快速地确定终端设备的待获取音频数据；根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据，实现了能够根据用户的需求，自定义地灵活选择待获取的音频数据，避免了获取到用户不需要的终端设备的音频数据；将已获取的所述待获取音频数据与用户的语音信号进行混音处理，以生成直播音频数据，实现了在直播过程中，在进行混音时能够控制混音的音源，选择用户需要的音源数据并进行混音处理以获取到更佳的直播音频数据，从而丰富直播的氛围，进一步地，提高了主播的直播体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中一种在直播过程中处理声音的方法流程图；

图2为本发明另一个实施例中一种终端设备结构示意图；

图3为本发明一优选实施例中一种在直播过程中处理声音的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例中一种在直播过程中处理声音的方法流程图，包括：

101、获取用户的语音信号，并识别所述语音信号中的语音指令；

102、根据所述语音指令，确定终端设备的待获取音频数据；

103、根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据；

104、若判断获取所述待获取音频数据，通过所述终端设备播放所述待获取音频数据以获取所述待获取音频数据，并将已获取的所述待获取音频数据与用户的语音信号进行混音处理，以生成直播音频数据。

可选地，还包括：

预设置未被禁止获取的所述终端设备的音频数据的名单列表；

其中，所述音频数据包括系统音频数据和各应用程序的音频数据；

其中，所述系统音频数据包括来电铃声音频数据、系统闹铃音频数据、系统通知音频数据和系统短信通知音频数据；

其中，所述根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据，包括：

基于所述名单列表，判断所述待获取音频数据是否在所述名单列表中；

若是，通过所述终端设备播放所述待获取音频数据以获取所述待获取音频数据，并禁止获取不在所述名单列表中的音频数据；

其中，所述禁止获取不在所述名单列表中的音频数据包括以下任一方式：

丢弃所述不在所述名单列表中的音频数据；

禁止播放所述不在所述名单列表中的音频数据。

可选地，还包括：

获取所述终端设备的音频数据；

其中，所述根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据，包括：

根据所述名单列表，判断所述终端设备的各个音频数据是否在所述名单列表中；

若是，通过所述终端设备播放在所述名单列表中的所述终端设备的各个音频数据以获取所述终端设备的各个音频数据，并禁止获取不在所述名单列表中的音频数据；

其中，所述将已获取的所述待获取音频数据与用户的语音信号进行混音处理，包括：

将已获取的所述待获取音频数据、在所述名单列表中的所述终端设备的各个音频数据与用户的语音信号进行混音处理，以生成直播音频数据。

优选地，所述将已获取的所述待获取音频数据与用户的语音信号进行混音处理，包括：

复制已获取的所述待获取音频数据，并将复制的已获取的所述待获取音频数据与用户的语音信号进行混音处理。

可选地，所述将已获取的已获取的所述待获取音频数据与用户的语音信号进行混音处理，以生成直播音频数据之后，还包括：

将所述直播音频数据进行格式转换，并对格式转换后的所述直播音频数据进行加密处理；

将加密处理后的所述直播音频数据发送至直播服务器。

如图2所示，为本发明实施例中一种终端设备结构示意图，包括：

获取及识别单元21，用于获取用户的语音信号，并识别所述语音信号中的语音指令；

确定单元22，用于根据所述语音指令，确定终端设备的待获取音频数据；

判断单元23，用于根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据；

播放及混音单元24，用于若判断获取所述待获取音频数据，通过所述终端设备播放所述待获取音频数据以获取所述待获取音频数据，并将已获取的所述待获取音频数据与用户的语音信号进行混音处理，以生成直播音频数据。

可选地，还包括：

预设置单元，用于预设置未被禁止获取的所述终端设备的音频数据的名单列表；

其中，所述音频数据包括系统音频数据和各应用程序的音频数据；

其中，所述系统音频数据包括来电铃声音频数据、系统闹铃音频数据、系统通知音频数据和系统短信通知音频数据；

其中，所述判断单元，包括：

第一判断模块，用于基于所述名单列表，判断所述待获取音频数据是否在所述名单列表中；

第一播放模块，用于若是，通过所述终端设备播放所述待获取音频数据以获取所述待获取音频数据，并禁止获取不在所述名单列表中的音频数据；

其中，所述禁止获取不在所述名单列表中的音频数据包括以下任一方式：

丢弃所述不在所述名单列表中的音频数据；

禁止播放所述不在所述名单列表中的音频数据。

可选地，还包括：

获取单元，用于获取所述终端设备的音频数据；

其中，所述判断单元，包括：

第二判断模块，用于根据所述名单列表，判断所述终端设备的各个音频数据是否在所述名单列表中；

第二播放模块，用于若是，通过所述终端设备播放在所述名单列表中的所述终端设备的各个音频数据以获取所述终端设备的各个音频数据，并禁止获取不在所述名单列表中的音频数据；

其中，所述播放及混音单元，包括：

混音模块，用于将已获取的所述待获取音频数据、在所述名单列表中的所述终端设备的各个音频数据与用户的语音信号进行混音处理，以生成直播音频数据。

优选地，所述播放及混音单元，包括：

复制模块，用于复制已获取的所述待获取音频数据，并将复制的已获取的所述待获取音频数据与用户的语音信号进行混音处理。

可选地，还包括：

转换单元，用于将所述直播音频数据进行格式转换，并对格式转换后的所述直播音频数据进行加密处理；

发送单元，用于将加密处理后的所述直播音频数据发送至直播服务器。

本发明实施例上述技术方案具有如下有益效果：通过识别用户的语音信号确定终端设备的待获取音频数据，实现了简单、便捷、快速地确定终端设备的待获取音频数据；根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据，实现了能够根据用户的需求，自定义地灵活选择待获取的音频数据，避免了获取到用户不需要的终端设备的音频数据；将已获取的所述待获取音频数据与用户的语音信号进行混音处理，以生成直播音频数据，实现了在直播过程中，在进行混音时能够控制混音的音源，选择用户需要的音源数据并进行混音处理以获取到更佳的直播音频数据，从而丰富直播的氛围，进一步地，提高了主播的直播体验。

以下结合应用实例对本发明实施例上述技术方案进行详细说明：

本发明应用实例旨在进行直播混音时能够控制混音的音源，以获取到更佳的直播音频数据。

如图1所示，具体地，通过终端设备获取用户的语音信号，并识别所述语音信号中的语音指令；根据所述语音指令，确定终端设备的待获取音频数据；根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据；若判断获取所述待获取音频数据，通过所述终端设备播放所述待获取音频数据以获取所述待获取音频数据，并将已获取的所述待获取音频数据与用户的实时语音信号进行混音处理，以生成直播音频数据。

例如，通过终端设备a进行直播的过程中，通过终端设备a获取到主播的语音信号，如“现在开始用xx音乐播放器播放背景音乐abc”；随后识别“播放背景音乐abc”中的语音指令为“xx音乐播放器播放音乐abc”，可确定终端设备a的待获取音频数据为通过应用程序xx音乐播放器播放的音乐abc，若预设置允许获取通过应用程序xx音乐播放器播放的音频数据，则通过xx音乐播放器播放的音乐abc以获取音乐abc的音频数据，并将已获取的音乐abc的音频数据与用户的实时语音信号进行混音处理，以生成直播音频数据。需要说明的是，本领域技术人员可以了解到，语音识别的方式有多种，本发明实施例中不做限定。

在一优选实施例中，该方法还包括：预设置未被禁止获取的所述终端设备的音频数据的名单列表。

其中，所述音频数据包括但不限于系统音频数据和各应用程序的音频数据。

其中，所述系统音频数据包括但不限于来电铃声音频数据、系统闹铃音频数据、系统通知音频数据和系统短信通知音频数据。

例如，在终端设备a中，预设置未被禁止获取的终端设备a的音频数据的名单列表list1，如未被禁止获取的终端设备a的音频数据的名单列表list1中包括“xx音乐播放器、系统闹铃”。

需要说明的是，本发明实施例中，用户可以在直播的过程中预设置未被禁止获取的所述终端设备的音频数据的名单列表，也可以在直播之前预设置未被禁止获取的所述终端设备的音频数据的名单列表，预设置未被禁止获取的所述终端设备的音频数据的名单列表的预设置步骤在此不做限定。

通过本实施例，能够高效、便捷、快速地确定是否获取终端设备的音频数据，为实现在进行直播混音时控制混音的音源提供了重要的前提保障。

在一优选实施例中，步骤103根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据，包括：基于所述名单列表，判断所述待获取音频数据是否在所述名单列表中；若是，通过所述终端设备播放所述待获取音频数据以获取所述待获取音频数据，并禁止获取不在所述名单列表中的音频数据。

其中，所述禁止获取不在所述名单列表中的音频数据包括以下任一方式：

1)丢弃所述不在所述名单列表中的音频数据；

2)禁止播放所述不在所述名单列表中的音频数据。

例如，接上例，通过终端设备a进行直播的过程中，确定终端设备a的待获取音频数据为通过应用程序xx音乐播放器播放的音乐abc，根据预设置的名单列表list1，判断xx音乐播放器音频数据在名单列表list1中，随后通过终端设备a的xx音乐播放器播放音乐abc以获取音乐abc的音频数据，并丢弃不在名单列表list1中的音频数据，如系统来电音、系统短信通知音和应用程序app1的音频数据等的音频数据。

通过本实施例，为避免获取到用户不需要的终端设备中的音频数据，提供了必要的前提保障，为获取到更佳的直播音频数据提供了必要的前提条件。

在一优选实施例中，该方法还包括：获取所述终端设备的音频数据。

其中，步骤103根据预设置是否禁止获取所述终端设备的各个音频数据，判断是否获取所述待获取音频数据，包括：根据所述名单列表，判断所述终端设备的各个音频数据是否在所述名单列表中；若是，通过所述终端设备播放在所述名单列表中的所述终端设备的各个音频数据以获取所述终端设备的各个音频数据，并禁止获取不在所述名单列表中的音频数据。

其中，步骤104中将已获取的所述待获取音频数据与用户的语音信号进行混音处理，包括：将已获取的所述待获取音频数据、在所述名单列表中的所述终端设备的各个音频数据与用户的语音信号进行混音处理，以生成直播音频数据。

例如，在终端设备a中，预设置未被禁止获取的终端设备a的音频数据的名单列表list1，获取终端设备中的各个音频数据和用户的语音数据，根据用户的语音数据，将通过xx音乐播放器播放的音乐abc与用户实时语音数据进行混处理；若用户设置系统闹铃提示用户的直播结束，直播结束时间点为15:00，当直播过程中的当前时间为15:00时，接收到终端设备中的系统闹铃音频数据，根据名单列表list1中包括了系统闹铃音频数据，随后，将xx音乐播放器播放的音乐abc、系统闹铃音频数据与用户实时语音数据进行混处理，以生成直播音频数据。

在一优选实施例中，步骤104中将已获取的音频数据与用户的语音信号进行混音处理，包括：复制已获取的所述待获取音频数据，并将复制的已获取的所述待获取音频数据与用户的语音信号进行混音处理。

例如，通过终端设备a进行直播的过程中，已获取的音频数据为音乐abc的音频数据，随后复制已获取的音乐abc的音频数据，并将复制的音乐abc的音频数据与用户的实时语音信号进行混音处理，以生成直播音频数据。需要说明的是，本领域技术人员可以了解到，混音处理的方式有多种，本发明实施例中不做限定。

在一优选实施例中，在步骤104将已获取的音频数据与用户的语音信号进行混音处理，以生成直播音频数据之后，还包括：将所述直播音频数据进行格式转换，并对格式转换后的所述直播音频数据进行加密处理；将加密处理后的所述直播音频数据发送至直播服务器。

具体地，将所述直播音频数据进行格式转换，以用于直播服务能够识别苏搜格式转换后的直播音频数据，并对格式转换后的所述直播音频数据进行加密处理；将加密处理后的所述直播音频数据发送至直播服务器，以用于所述直播服务器将所述直播音频数据下发至各直播客户端。

例如，通过终端设备a进行直播的过程中，将生成的直播音频数据进行格式转换，如转换为mp3(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)的格式，并对格式转换后的直播音频数据进行加密处理，如通过md5(messagedigestalgorithmmd5，消息摘要算法第五版)的方式进行加密处理，将md5加密处理后的直播音频数据发送至直播服务器，以用于直播服务器将直播音频数据下发至各个粉丝用户的直播客户端。

通过本实施例，极大地增强了直播音频数据的安全性，保证了主播与粉丝用户间交流的私密性，进一步地，提高了主播的直播体验。

在一具体引用场景中，如图3所示，用户开启终端设备b进行直播，随后，用户设置未被禁止获取的终端设备b的音频数据的名单列表list2，如名单列表list2中包括“xx音乐播放器”，随后用户发出语音指令“现在开始用xx音乐播放器播放背景音乐abc”；随后识别“播放背景音乐abc”中的语音指令为“xx音乐播放器播放音乐abc”，可确定终端设备b的待获取音频数据为通过应用程序xx音乐播放器播放的音乐abc，开启语音处理功能，并收集终端设备b的声音数据；根据名单列表list2可判断未禁止获取xx音乐播放器的音频数据，随后获取xx音乐播放器的音频数据，并禁止除酷我音乐外的任何终端设备的音频数据，将获取的获取xx音乐播放器的音频数据与用户的实时语音数据，如用户正在朗读一首诗的语音数据，进行混音处理，并将混音处理后的音频数据进行格式转换为如mp3格式，并将转换为mp3格式的音频数据进行md5加密处理，随后将md5加密处理后的直播音频数据发送至直播服务器，通过直播服务器将直播音频数据下发至各个直播客户端；随后，用户发出语音指令“现在开始用应用程序app2播放背景音乐abc”，根据名单列表list2，可确定应用程序app2的音频数据不在名单列表list2中，随后丢弃应用程序app2播放的背景音乐abc的音频数据，或禁止应用程序app2播放音频数据。

本发明实施例提供了一种终端设备，可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrativecomponents)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(asic)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中，asic可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李杨柳;张磊;关学进
技术所有人：深圳依偎控股有限公司
我是此专利的发明人

上一篇：一种智能家居灯的语音控制装置的制作方法
上一篇：基于云端和多命令词的汽车语音控制方法、系统及装置与流程