一种直播场景下的音质识别的方法、装置及终端设备与流程

文档序号：11254401阅读：940来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本申请涉及网络技术领域，尤其涉及直播技术。

背景技术：

网络直播发展至今，吸引了越来越多的主播和团体参与其中，直播内容的样式变得越发丰富，品质也在变得越来越好。与此同时，观众在收看网络直播时，对直播内容也有了更高的要求。其中，对于一些歌唱类的直播节目，观众对音质有了更高的要求。

在实际应用中，节目制作方(主播，及其团队)需要识别直播时的音质，以便保证直播节目的品质；直播平台运营方也需要识别直播的音质，以在必要的时候协助节目制作方完成直播工作；而观众同样需要识别直播的音质，以获得更高品质的直播节目。

然而，在识别音质好坏时，每个人的听力或音乐素养等主观因素，评判的标准和结论不尽相同。节目制作方、直播平台运营方和观众等人员缺乏准确识别音质好坏的依据。

技术实现要素：

有鉴于此，本申请提供一种直播频道音质识别的方法、装置及终端设备，用以识别直播频道的音质，从而让节目制作方、直播平台运营方和观众可以准确识别出直播频道的音质。

具体地，本申请是通过如下技术方案实现的：

一种直播场景下的音质识别的方法，应用于客户端，包括：

采集目标直播频道的音频数据；

基于预设算法对采集到的音频数据进行计算，生成对应于所述音频数据的频谱图；

在与所述目标直播频道对应的用户界面上输出所述频谱图。

在所述直播场景下的音质识别的方法中，所述客户端包括用于对所述目标直播频道进行音质识别的用户选项；

所述采集目标直播频道的音频数据，还包括：

响应于用户针对所述用户选项的触发操作，采集所述目标直播频道的音频数据。

在所述直播场景下的音质识别的方法中，所述预设算法包括傅里叶变换。

在所述直播场景下的音质识别的方法中，所述采集目标直播频道的音频数据，包括：

实时采集所述目标直播频道的音频数据；或，

基于预设的采样频率对所述目标直播频道的音频数据进行采样。

在所述直播场景下的音质识别的方法中，所述方法还包括：

基于所述频谱图中记录的所述音频数据的频率，确定所述音频数据对应的音质等级；

在所述用户界面上输出对应于所述音质等级的提示信息；其中，不同的音质等级对应不同的提示信息。

在所述直播场景下的音质识别的方法中，所述客户端提供信息反馈通道，所述用户包括观众用户和直播平台运营方；

所述方法还包括：

接收观众通过所述信息反馈通道发送的对音频数据的音质的反馈消息，并将该反馈消息发送至直播平台运营方。

一种直播场景下的音质识别的装置，应用于客户端，包括：

采集单元，用于采集目标直播频道的音频数据；

生成单元，用于基于预设算法对采集到的音频数据进行计算，生成对应于所述音频数据的频谱图；

输出单元，用于在与所述目标直播频道对应的用户界面上输出所述频谱图。

在所述直播场景下的音质识别的装置中，所述客户端包括用于对所述目标直播频道进行音质识别的用户选项；

所述采集单元进一步用于：

响应于用户针对所述用户选项的触发操作，采集所述目标直播频道的音频数据。

在所述直播场景下的音质识别的装置中，所述预设算法包括傅里叶变换。

在所述直播场景下的音质识别的装置中，所述采集单元，进一步用于：

实时采集所述目标直播频道的音频数据；或，

基于预设的采样频率对所述目标直播频道的音频数据进行采样。

在所述直播场景下的音质识别的装置中，所述输出单元，进一步用于：

基于所述频谱图中记录的所述音频数据的频率，确定所述音频数据对应的音质等级；

在所述用户界面上输出对应于所述音质等级的提示信息；其中，不同的音质等级对应不同的提示信息。

在所述直播场景下的音质识别的装置中，所述客户端提供信息反馈通道，所述用户包括观众用户和直播平台运营方；

所述装置还包括：

反馈单元，用于接收观众通过所述信息反馈通道发送的对音频数据的音质的反馈消息，并将该反馈消息发送至直播平台运营方。

一种终端设备，所述终端设备搭载了处理器，以及，用于存储所述处理器可执行指令的存储器；所述终端设备还搭载了直播客户端；其中，所述处理器被配置为：

采集目标直播频道的音频数据；

基于预设算法对采集到的音频数据进行计算，生成对应于所述音频数据的频谱图；

在与所述目标直播频道对应的用户界面上输出所述频谱图，以由用户基于所述频谱图确定所述目标直播频道的音频数据的音质。

在本申请实施例中，直播客户端可以采集目标直播频道的音频数据，然后基于预设算法对采集的音频数据进行计算，生成对应于该音频数据的频谱图，并在目标直播频道对应的用户界面上输出所述频谱图。由于频谱图可以真实反映出原始音频数据在被压缩编码时采用的码率，而码率与原始音频的音质高低成正比关系，因此当通过所述用户界面输出生成的所述频谱图后，用户通过查看所述频谱图，就可以直观地获知目标直播频道的音频数据的音质，从而可以在直播的过程中，实时的了解到目标直播频道的音质状况，可以提升直播质量。

附图说明

图1是本申请示出的一种音频数据处理的流程图；

图2是本申请示出的一种直播场景下的音质识别的方法的流程图；

图3是本申请示出的一种直播客户端的用户界面的示意图；

图4是本申请示出的另一种直播客户端的用户界面的示意图；

图5是本申请示出的一种频谱图；

图6是本申请示出的另一种频谱图；

图7是本申请示出的一种音质识别插件的用户界面的示意图；

图8是本申请示出的一种直播场景下的音质识别的装置的实施例框图；

图9是本申请示出的一种终端设备的硬件结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对现有技术方案和本发明实施例中的技术方案作进一步详细的说明。

随着网络直播的发展，直播技术和直播内容的水平都在不断提升，同时，观众对直播内容也有了更高的要求。其中，尤为突出的一点是，观众对于直播节目的音质比以往有了更高的要求。为满足观众的需求，节目制作方会保证直播节目具有较高等级的音质。

因此，在实际应用中，节目制作方需要识别直播时的音质，以便保证直播节目的品质；直播平台运营方也需要识别直播的音质，以在必要的时候协助节目制作方完成直播工作；而观众同样需要识别直播的音质，以获得更高品质的直播节目。

然后，在识别音质好坏时，如果仅凭人为主观判定，因为每个人的听力或音乐素养等主观因素，评判的标准和结论不尽相同。

可见，节目制作方、直播平台运营方和观众等人员缺乏准确识别音质好坏的依据。

为解决上述问题，本申请实施例通过在目标直播频道对应的用户界面上输出对应于目标直播频道的音频数据的频谱图，告知用户目标直播频道的音频数据的音质。

参见图1，为本申请示出的一种音频数据处理的流程图，如图1所示，节目制作方在直播过程中，通常会对采集到的原始音频数据进行压缩，以便于后续在网络传输直播节目的音频数据时，降低对网络带宽的要求。

一方面，如果节目制作方设定较低的码率(例如：24kbps)，则会大量削弱音频数据中的高频、低频等人耳听觉不敏感的数据，此后传输到直播客户端的音频数据的音质较差；

另一方面，如果节目制作方设定较高的码率(例如：128kbps)，则相对于低码率而言，可以保留更多的高频数据和低频数据，此后传输到直播客户端的音频数据的音质较优。

基于上述原理，本申请实施例的技术方案，在识别目标直播频道的音质时，可以采集目标直播频道的音频数据，然后生成能够反映音频数据的音质的频谱图。从而使得用户可以从频谱图中获知目标直播频道的音质。

请继续参见图2，为本申请示出的一种直播场景下的音质识别的方法的流程图，该方法应用于客户端，所述方法包括以下步骤：

步骤201：采集目标直播频道的音频数据。

步骤202：基于预设算法对采集到的音频数据进行计算，生成对应于所述音频数据的频谱图。

步骤203：在与所述目标直播频道对应的用户界面上输出所述频谱图。

在本申请中，上述客户端，可以是直播客户端，也可以是独立开发的能够面向直播用户(包括观众和主播等)提供音质识别功能的一个音质识别客户端软件。

前者，直播客户端可以内置频谱生成算法，调用直播客户端所在终端设备的声卡采集直播过程中的音频数据，然后自主地生成频谱；

后者，上述音质识别客户端可以是一个音质识别插件，插件可以内置频谱生成算法，调用该音质识别客户端所在终端设备的声卡采集直播过程中的音频数据，或者，通过共享内存这种进程间通信方式采集直播过程中的音频数据，然后自主地生成频谱；

一种情况下，音质识别插件可以通过共享内存这种进程间通信方式，将生成的频谱共享给直播客户端，在直播客户端的用户界面中向观众以及主播进行显示；

另一种情况下，音质识别插件，可以与普通的直播客户端搭配使用。在这种情况下，用户在针对直播客户端的目标直播频道进行音质识别时，需打开独立于直播客户端的该音质识别插件。这个插件可以提供独立的用户界面，在直播过程中，这个插件可以采集直播过程中的音频数据，自主地生成频谱，然后通过自身的用户界面独立输出，观众或者主播，需要在该音质识别插件的用户界面中去查看频谱。

下面以上述客户端为直播客户端为例进行说明。

请参见图3，为本申请示出的一种直播客户端的用户界面的示意图，如图3所示，该直播客户端上具有用于对目标直播频道(即当前用户界面对应的直播频道)进行音质识别的用户选项，即图中的“音质识别”选项。

其中，直播客户端的用户界面中可以预先划分出一个展示界面，用于输出直播客户端生成的频谱图，该展示界面可以在用户触发“音质识别”选项时产生，而在用户未触发“音质识别”选项时，可以处于隐藏状态。

此外，上述直播客户端内置频谱生成算法，用以对采集到的上述目标直播频道的音频数据进行计算。其中，上述频谱生成算法可以包括傅里叶变换。

在本申请实施例中，当用户需要识别目标直播频道的音质时，可以触发对目标直播频道进行音质识别的用户选项，比如，点击“音质识别”选项。

上述直播客户端可以在用户触发对目标直播频道进行音质识别的用户选项后，响应于用户针对该用户选项的触发操作，采集目标直播频道的音频数据。

在示出的一种实施方式中，直播客户端也可以无需用户触发用户选项，直接对目标直播频道的音频数据进行采集。请参见图4，为本申请示出的另一种直播客户端的用户界面的示意图，如图4所示，该直播客户端上不具有对目标直播频道进行音质识别的用户选项，而有一个预先划分出的展示界面，用于输出直播客户端生成的频谱图。

此外，上述直播客户端同样内置频谱生成算法，用以对采集到的上述目标直播频道的音频数据进行计算。

在这种实施方式中，当用户打开目标直播频道的用户界面时，上述直播客户端可以直接采集目标直播频道的音频数据，然后将计算生成的频谱图在展示界面中输入。用户在查看过该频谱图后，可以点击展示界面右上角关闭该展示界面。

在本申请实施例中，直播客户端在采集目标直播频道的音频数据时，可以实时采集目标直播频道的音频数据，然后基于实时采集到的音频数据执行后续的流程。

此外，直播客户端还可以基于预设的采样频率对目标直播频道的音频数据进行采样。例如，直播客户端可以每隔10帧采集5帧音频数据。对音频数据进行采样的方式相比实时采集音频数据而言，可以降低对直播客户端所在终端设备(比如电脑、平板或手机)的性能需求。

在本申请实施例中，直播客户端在采集到目标直播频道的音频数据后，可以基于预设的频谱生成算法对采集的音频数据进行计算，然后根据计算结果，生成对应于该音频数据的频谱图。具体计算过程可以参照现有的相关技术，在此不再赘述。

参见图5，为本申请示出的一种频谱图，如图5所示，该频谱图中3khz以上的高频分量全部被去掉了，所以该频谱图是基于音质较差的音频数据计算生成的。

请继续参见图6，为本申请示出的另一种频谱图，如图6所示，该频谱图中10khz以上的高频分量还有保留，所以该频谱图是基于音质较优的音频数据计算生成的。

在本申请实施例中，直播客户端生成对应于目标直播频道的音频数据的频谱图后，可以在目标直播频道对应的用户界面上输出该频谱图。用户从用户界面上看图即可获知目标直播频道的音质。

观众可以在获知音质后，向节目制作方反馈目标直播频道的音质。在本申请实施例中，直播客户端可以提供信息反馈通道。观众可以通过上述信息反馈通道发送对音质的反馈消息。直播客户端接收到反馈消息后，可以将该反馈消息发送至直播平台运营方，以由直播平台运营方获知目标直播频道的音质。直播平台运营方可以向节目制作方转发上述反馈消息，从而提醒节目制作方提供高品质的直播节目。例如：观众可以通过发送评论或“弹幕”来提醒节目制作方目标直播频道的音质不佳；其中，信息反馈通道即为用户界面上的评论栏或“弹幕”发送框。

或者，节目制作方在获知目标直播频道的音质后，如果发现音质较差，可以重新设定对原始音频数据进行压缩的码率，或者，改进其它影响音质的因素(比如，通过提高网络带宽来消除网络带宽对音质的影响)，从而提供高品质的直播节目。

在示出的一种实施方式中，直播客户端可以预先为音频数据划分出若干音质等级，比如，基于对原始音频数据的压缩码率，划分出对应于24k、128k、192k、256k和320k的音质等级。

直播客户端可以基于上述频谱图中记录的目标直播频道的音频数据的频率，确定该音频数据对应的音质等级。当直播客户端在目标直播频道的对应的用户界面上输出上述频谱图时，可以同时输出对应于该音质等级的提示信息。

其中，不同的音质等级对应不同的提示信息。例如：24k的音质等级对应的提示信息为“较差”，128k的音质等级对应的提示信息为“一般”，192k的音质等级对应的提示信息为“较优”，256k的音质等级对应的提示信息为“优质”，320k的音质等级对应的提示信息为“极佳”。

在这种情况下，直播客户端可以自主地从频谱图中识别音质，并输出反映音质的提示信息，使得用户即使不懂频谱图也可以直观地获知目标直播频道的音质。

下面以上述客户端为音质识别插件为例进行说明。

请参见图7，为本申请示出的一种音质识别插件的用户界面的示意图，如图7所示，该音质识别插件上具有用于对目标直播频道(即直播客户端的用户界面对应的直播频道)进行音质识别的用户选项，即图中的“音质识别”选项。

其中，音质识别插件的用户界面中可以预先划分出一个展示界面，用于输出音质识别插件生成的频谱图，该展示界面可以在用户触发“音质识别”选项时产生，而在用户未触发“音质识别”选项时，可以处于隐藏状态。

此外，上述音质识别插件内置频谱生成算法，用以对采集到的上述目标直播频道的音频数据进行计算。其中，上述频谱生成算法可以包括傅里叶变换。

在本申请实施例中，当用户需要识别目标直播频道的音质时，可以触发对目标直播频道进行音质识别的用户选项，比如，点击“音质识别”选项。

上述音质识别插件可以在用户触发对目标直播频道进行音质识别的用户选项后，响应于用户针对该用户选项的触发操作，采集目标直播频道的音频数据。

在本申请实施例中，音质识别插件在采集目标直播频道的音频数据时，可以实时采集目标直播频道的音频数据，然后基于实时采集到的音频数据执行后续的流程。

此外，音质识别插件还可以基于预设的采样频率对目标直播频道的音频数据进行采样。例如，音质识别插件可以每隔10帧采集5帧音频数据。对音频数据进行采样的方式相比实时采集音频数据而言，可以降低对音质识别插件所在终端设备的性能需求。

在本申请实施例中，音质识别插件在采集到目标直播频道的音频数据后，可以基于预设的频谱生成算法对采集的音频数据进行计算，然后根据计算结果，生成对应于该音频数据的频谱图。具体计算过程可以参照现有的相关技术，在此不再赘述。

在本申请实施例中，音质识别插件生成对应于目标直播频道的音频数据的频谱图后，可以在用户界面上输出该频谱图。用户从用户界面上看图即可获知目标直播频道的音质。

在示出的一种实施方式中，上述音质识别插件也可以在生成对应于目标直播频道的音频数据的频谱图后，通过共享内存的方式，共享给直播客户端。直播客户端获得该频谱图后，可以在目标直播频道对应的用户界面上输出该频谱图。

观众可以在获知音质后，向节目制作方反馈目标直播频道的音质。在本申请实施例中，音质识别插件可以提供信息反馈通道。观众可以通过上述信息反馈通道发送对音质的反馈消息。音质识别插件接收到反馈消息后，可以将该反馈消息发送至直播平台运营方，以由直播平台运营方获知目标直播频道的音质。直播平台运营方可以向节目制作方转发上述反馈消息，从而提醒节目制作方提供高品质的直播节目。

在示出的一种实施方式中，音质识别插件可以预先为音频数据划分出若干音质等级，比如，基于对原始音频数据的压缩码率，划分出对应于24k、128k、192k、256k和320k的音质等级。

音质识别插件可以基于上述频谱图中记录的目标直播频道的音频数据的频率，确定该音频数据对应的音质等级。当音质识别插件在目标直播频道的对应的用户界面上输出上述频谱图时，可以同时输出对应于该音质等级的提示信息。

在这种情况下，音质识别插件可以自主地从频谱图中识别音质，并输出反映音质的提示信息，使得用户即使不懂频谱图也可以直观地获知目标直播频道的音质。

综上所述，在本申请实施例中，客户端可以采集目标直播频道的音频数据，然后基于预设算法对采集的音频数据进行计算，生成对应于该音频数据的频谱图，并在目标直播频道对应的用户界面上输出该频谱图，以由用户基于该频谱图确定目标直播频道的音频数据的音质；

由于频谱图能够真实地反映原始音频数据在被压缩编码时采用的码率，而码率的大小直接与音质相关，因此，客户端输出的频谱图后，用户可以根据频谱图准确地获知目标直播频道的音频数据的音质，从而可以在直播的过程中，实时地了解到目标直播频道的音质状况，可以提升直播质量。

与本申请直播场景下的音质识别的方法相对应，本申请还提供了用于执行上述方法实施例的装置的实施例。

参见图8，为本申请直播场景下的音质识别的装置的一个实施例框图：

如图8所示，该直播场景下的音质识别的装置80包括：

采集单元810，用于采集目标直播频道的音频数据。

生成单元820，用于基于预设算法对采集到的音频数据进行计算，生成对应于所述音频数据的频谱图。

输出单元830，用于在与所述目标直播频道对应的用户界面上输出所述频谱图。

在本例中，所述客户端包括用于对所述目标直播频道进行音质识别的用户选项；

所述采集单元810，进一步用于：

响应于用户针对所述用户选项的触发操作，采集所述目标直播频道的音频数据。

在本例中，所述预设算法包括傅里叶变换。

在本例中，所述采集单元810，进一步用于：

实时采集所述目标直播频道的音频数据；或，

基于预设的采样频率对所述目标直播频道的音频数据进行采样。

在本例中，所述输出单元830，进一步用于：

基于所述频谱图中记录的所述音频数据的频率，确定所述音频数据对应的音质等级；

在所述用户界面上输出对应于所述音质等级的提示信息；其中，不同的音质等级对应不同的提示信息。

在本例中，所述客户端提供信息反馈通道，所述用户包括观众用户和直播平台运营方；

所述装置还包括：

反馈单元840(图中未示出)，用于接收观众通过所述信息反馈通道发送的对音频数据的音质的反馈消息，并将该反馈消息发送至直播平台运营方。

本申请直播场景下的音质识别的装置的实施例可以应用在客户端所在终端设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在直播客户端所在终端设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

从硬件层面而言，如图9所示，为本申请示出的一种终端设备的硬件结构图，该终端设备搭载了处理器，以及，用于存储上述处理器可执行指令的存储器；该终端设备还搭载了直播客户端。除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中终端设备通常根据该直播场景下的音质识别的装置的实际功能，还可以包括其他硬件，对此不再赘述。其中，该终端设备的内存和非易失性存储器中还分别了搭载上述采集单元810对应的机器可执行指令、上述生成单元820对应的机器可执行指令、上述输出单元830对应的机器可执行指令和上述反馈单元840(图中未示出)对应的机器可执行指令。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭浩浩;王云
技术所有人：广州华多网络科技有限公司
我是此专利的发明人

上一篇：一种音频混合管理方法及系统与流程
上一篇：图像互换格式图片的生成方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。