音频延时检测方法、装置、计算设备及存储介质与流程

文档序号：32617521发布日期：2022-12-20 21:46阅读：25来源：国知局

1.本发明实施例涉及数据处理技术领域，具体涉及一种音频延时检测方法、装置、计算设备及存储介质。

背景技术：

2.随着科技及社会的不断发展，各类互联网服务的出现极大丰富了人们的工作与生活。其中，网络语音服务能够使不同位置的用户通过网络实现语音交互，从而被广泛应用于即时通讯、直播等互联网产品中。
3.由于服务架构、网络环境等因素的影响，网络语音服务通常会存在相应的音频延时，音频延时的大小直接影响了用户体验，从而是网络语音服务中的一项重要指标。
4.发明人在实施过程中发现，现有技术中存在如下缺陷：现有的音频延时检测方式是：在对用户终端a和用户终端b进行音频延时检测时，将用户终端a、b以及第三方设备c设置于同一实验环境中，利用第三方设备c的信号发生器生成音频信号，用户终端a采集该音频信号，并传输至用户终端b，用户终端b经其扬声器播放该音频信号，第三方设备c的信号接收器接收用户终端b播放的音频信号，继而根据信号发生器的信号生成时间和信号接收器的信号接收时间确定用户终端a与用户终端b的音频延时。然而该种方式的实施，需依赖额外的第三方设备，由此该检测方式的检测成本高；而且需将检测的设备设置于同一实验环境中，从而无法得到真实的网络语音交互双方的音频延时，而且检测到的音频延时包括音频信号在信号发生器和用户终端a，以及用户终端b与信号接收器之间传播时长，由此该种实施方式的检测精度低；而且该实施方式操作复杂，检测效率低下。

技术实现要素：

5.鉴于现有技术中存在音频延时检测效率低下，检测精度低以及检测成本高的技术问题，提出了本发明实施例，以便提供一种克服上述问题或者至少部分地解决上述问题的音频延时检测方法、装置、计算设备及存储介质。
6.根据本发明实施例的第一方面，提供了一种音频延时检测方法，包括：
7.第一用户终端生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频；
8.第一用户终端发送所述混合音频，记录所述混合音频中所述特征音频的发送时间；
9.第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间；
10.根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
11.在一种可选的实施方式中，所述第一用户终端生成基础音频进一步包括：第一用户终端采用随机算法生成基础音频。
12.在一种可选的实施方式中，所述第一用户终端采用随机算法生成基础音频进一步包括：第一用户终端获取所述基础音频的采样点的采样值范围，并基于所述采样值范围，采用随机算法生成基础音频的采样点的采样值。
13.在一种可选的实施方式中，所述基于所述采样值范围，采用随机算法生成基础音频的采样点的采样值进一步包括：采用随机算法生成随机数，并确定所述采样值范围的边界值，计算所述随机数与所述边界值的模，并根据所述模生成基础音频的采样点的采样值；和/或，将所述采样值范围作为随机算法的随机范围，并基于所述随机范围采用随机算法生成随机数，根据所述随机数生成基础音频的采样点的采样值。
14.在一种可选的实施方式中，所述获取所述基础音频的采样点的采样值范围进一步包括：获取第一用户终端存储的历史音频，并确定所述历史音频中采样点的采样值范围；根据所述历史音频中采样点的采样值范围，确定所述基础音频的采样点的采样值范围。
15.在一种可选的实施方式中，所述特征音频为静音音频；或者，所述特征音频为预设波形的音频。
16.在一种可选的实施方式中，在所述基础音频中插入所述特征音频后获得混合音频之后，所述方法还包括：记录所述特征音频在所述混合音频中的插入位置；
17.所述第一用户终端发送所述混合音频，记录所述混合音频中所述特征音频的发送时间进一步包括：第一用户终端将所述混合音频划分为多个音频段，并记录每个音频段在所述混合音频中的起始位置及结束位置；第一用户终端每隔预设时长发送一个音频段，并在发送音频段时判断所述特征音频的插入位置是否位于该音频段的起始位置及结束位置之内；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
18.在一种可选的实施方式中，所述第一用户终端发送所述混合音频，记录所述混合音频中所述特征音频的发送时间进一步包括：第一用户终端将所述混合音频划分为多个音频段，并为包含特征音频的音频段分配预设标签；第一用户终端每隔预设时长发送一个音频段，并在发送音频段时判断该音频段是否具有所述预设标签；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
19.在一种可选的实施方式中，所述第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间进一步包括：第二用户终端接收所述音频段，并识别所述音频段中是否包含特征音频，若是，则将所述音频段的接收时间确定为所述特征音频的接收时间。
20.在一种可选的实施方式中，若所述特征音频为静音音频；则所述识别所述混合音频中的特征音频进一步包括：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；针对于任一窗口，计算该窗口对应的短时能量，若该短时能量小于预设能量阈值，则确定该窗口对应的音频段为特征音频；和/或，针对于任一窗口，计算该窗口对应的过零率，若该过零率小于预设过零率阈值，则确定该窗口对应的音频段为特征音频。
21.在一种可选的实施方式中，若所述特征音频为预设波形的音频；则所述识别所述混合音频中的特征音频进一步包括：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；针对于每个窗口，判断该窗口对应音频的波形是否为预设波形；若是，则将该窗口对应的音频确定为特征音频。
22.在一种可选的实施方式中，所述第一用户终端生成单个特征音频；所述在所述基
础音频中插入所述特征音频进一步包括：将所述单个特征音频插入所述基础音频的至少一个位置；所述记录所述混合音频中所述特征音频的发送时间进一步包括：记录所述混合音频中各个位置的特征音频的发送时间以及发送次序；所述记录所述特征音频的接收时间进一步包括：记录特征音频的接收时间以及接收次序；所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：确定发送次序与接收次序匹配的特征音频，根据该匹配的特征音频的发送时间以及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
23.在一种可选的实施方式中，所述第一用户终端生成多个音频长度不同的特征音频；所述在所述基础音频中插入所述特征音频进一步包括：将所述多个音频长度不同的特征音频分别插入所述基础音频的不同位置；所述记录所述混合音频中所述特征音频的发送时间进一步包括：记录所述混合音频中所述特征音频的发送时间以及音频长度；所述记录所述特征音频的接收时间进一步包括：记录各个特征音频的接收时间以及音频长度；所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：确定音频长度一致的特征音频的发送时间以及接收时间，根据各个音频长度一致的特征音频的发送时间及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
24.在一种可选的实施方式中，所述记录所述混合音频中所述特征音频的发送时间进一步包括：确定所述第一用户终端与所述第二用户终端隶属的系统，基于所述系统的系统时间记录所述特征音频的发送时间；所述记录所述特征音频的接收时间进一步包括：基于所述系统的系统时间记录所述特征音频的接收时间。
25.在一种可选的实施方式中，所述第一用户终端生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频进一步包括：第一用户终端中第一客户端生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频；所述第一用户终端发送所述混合音频，记录所述混合音频中所述特征音频的发送时间进一步包括：第一客户端发送所述混合音频至第一用户终端中的第一音频处理器，第一客户端记录所述混合音频中所述特征音频发送给第一音频处理器的发送时间；所述第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间进一步包括：第二用户终端中第二客户端接收从第二用户终端中第二音频处理器传输的混合音频，第二客户端识别所述混合音频中的特征音频，记录从所述第二音频处理器接收到所述特征音频的接收时间；所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的第一音频延时。
26.在一种可选的实施方式中，所述方法还包括：所述第一音频处理器对所述混合音频进行音频预处理、音频编码和/或发送缓存区后，将所述混合音频传输至以太网；所述第二音频处理器对所述混合音频进行从缓存区中获取、音频解码和/或音频后处理之后，将所述混合音频发送至第二客户端。
27.在一种可选的实施方式中，所述方法还包括：获取第一用户终端中音频采集器的第二音频延时，获取第二用户终端中音频播放器的第三音频延时；根据所述第一音频延时、第二音频延时以及所述第三音频延时确定所述第一用户终端与第二用户终端之间的总音
频延时。
28.在一种可选的实施方式中，所述方法还包括：第一用户终端监测预设事件；第一用户终端在监测到预设事件后，执行所述生成基础音频以及特征音频步骤；其中，所述预设事件包括以下事件中的至少一种：版本更新事件、用户音频延时检测的触发事件、以及网络切换事件。
29.根据本发明实施例的第二方面，提供了一种音频延时检测方法，包括：生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频；发送所述混合音频；记录所述混合音频中所述特征音频的发送时间，以供第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间，以及供根据所述发送时间以及所述接收时间，确定与所述第二用户终端之间的音频延时。
30.在一种可选的实施方式中，所述生成基础音频进一步包括：采用随机算法生成基础音频。
31.在一种可选的实施方式中，所述采用随机算法生成基础音频进一步包括：获取所述基础音频的采样点的采样值范围，并基于所述采样值范围，采用随机算法生成基础音频的采样点的采样值。
32.在一种可选的实施方式中，所述基于所述采样值范围，采用随机算法生成基础音频的采样点的采样值进一步包括：采用随机算法生成随机数，并确定所述采样值范围的边界值，计算所述随机数与所述边界值的模，并根据所述模生成基础音频的采样点的采样值；和/或，将所述采样值范围作为随机算法的随机范围，并基于所述随机范围采用随机算法生成随机数，根据所述随机数生成基础音频的采样点的采样值。
33.在一种可选的实施方式中，所述获取所述基础音频的采样点的采样值范围进一步包括：获取存储的历史音频，并确定所述历史音频中采样点的采样值范围；根据所述历史音频中采样点的采样值范围，确定所述基础音频的采样点的采样值范围。
34.在一种可选的实施方式中，所述特征音频为静音音频；或者，所述特征音频为预设波形的音频。
35.在一种可选的实施方式中，在所述基础音频中插入所述特征音频后获得混合音频之后，所述方法还包括：记录所述特征音频在所述混合音频中的插入位置；所述发送所述混合音频；记录所述混合音频中所述特征音频的发送时间进一步包括：将所述混合音频划分为多个音频段，并记录每个音频段在所述混合音频中的起始位置及结束位置；每隔预设时长发送一个音频段，并在发送音频段时判断所述特征音频的插入位置是否位于该音频段的起始位置及结束位置之内；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
36.在一种可选的实施方式中，所述发送所述混合音频；记录所述混合音频中所述特征音频的发送时间进一步包括：将所述混合音频划分为多个音频段，并为包含特征音频的音频段分配预设标签；每隔预设时长发送一个音频段，并在发送音频段时判断该音频段是否具有所述预设标签；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
37.在一种可选的实施方式中，所述生成特征音频进一步包括：生成单个特征音频；所述在所述基础音频中插入所述特征音频进一步包括：将所述单个特征音频插入所述基础音
频的至少一个位置；所述记录所述混合音频中所述特征音频的发送时间进一步包括：记录所述混合音频中各个位置的特征音频的发送时间以及发送次序；所述记录所述特征音频的接收时间进一步包括：记录特征音频的接收时间以及接收次序；所述根据所述发送时间以及所述接收时间，确定与所述第二用户终端之间的音频延时进一步包括：确定发送次序与接收次序匹配的特征音频，根据该匹配的特征音频的发送时间以及接收时间，确定与所述第二用户终端之间的音频延时。
38.在一种可选的实施方式中，所述生成特征音频进一步包括：生成多个音频长度不同的特征音频；所述在所述基础音频中插入所述特征音频进一步包括：将所述多个音频长度不同的特征音频分别插入所述基础音频的不同位置；所述记录所述混合音频中所述特征音频的发送时间进一步包括：记录所述混合音频中所述特征音频的发送时间以及音频长度；所述记录所述特征音频的接收时间进一步包括：记录各个特征音频的接收时间以及音频长度；所述根据所述发送时间以及所述接收时间，确定与所述第二用户终端之间的音频延时进一步包括：确定音频长度一致的特征音频的发送时间以及接收时间，根据各个音频长度一致的特征音频的发送时间及接收时间，确定与所述第二用户终端之间的音频延时。
39.在一种可选的实施方式中，所述记录所述混合音频中所述特征音频的发送时间进一步包括：确定与所述第二用户终端共同隶属的系统，基于所述系统的系统时间记录所述特征音频的发送时间。
40.在一种可选的实施方式中，所述生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频进一步包括：第一客户端生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频；所述发送所述混合音频，记录所述混合音频中所述特征音频的发送时间进一步包括：发送所述混合音频至第一音频处理器，第一客户端记录所述混合音频中所述特征音频发送给第一音频处理器的发送时间。
41.在一种可选的实施方式中，所述方法还包括：所述第一音频处理器对所述混合音频进行音频预处理、音频编码和/或发送缓存区后，将所述混合音频传输至以太网。
42.在一种可选的实施方式中，所述方法还包括：获取音频采集器的第二音频延时，以供根据所述第一音频延时、第二音频延时、以及第二用户终端中音频播放器的第三音频延时，确定与第二用户终端之间的总音频延时。
43.在一种可选的实施方式中，所述方法还包括：监测预设事件；在监测到预设事件后，执行所述生成基础音频以及特征音频步骤；其中，所述预设事件包括以下事件中的至少一种：版本更新事件、用户音频延时检测的触发事件、以及网络切换事件。
44.根据本发明实施例的第三方面，提供了一种音频延时检测方法，包括：接收混合音频；所述混合音频由第一用户终端生成的基础音频以及特征音频构成；识别所述混合音频中的特征音频；记录所述特征音频的接收时间，以供根据所述第一用户终端记录的特征音频的发送时间和所述接收时间确定所述第一用户终端之间的音频延时。
45.在一种可选的实施方式中，所述记录所述特征音频的接收时间进一步包括：确定与所述第一用户终端共同隶属的系统，基于所述系统的系统时间记录所述特征音频的接收时间。
46.在一种可选的实施方式中，所述接收混合音频进一步包括：第二客户端接收从第二音频处理器传输的混合音频；所述识别所述混合音频中的特征音频进一步包括：第二客
户端识别所述混合音频中的特征音频；所述记录所述特征音频的接收时间进一步包括：第二客户端记录从所述第二音频处理器接收到所述特征音频的接收时间。
47.在一种可选的实施方式中，若所述特征音频为静音音频；则所述识别所述混合音频中的特征音频进一步包括：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；针对于任一窗口，计算该窗口对应的短时能量，若该短时能量小于预设能量阈值，则确定该窗口对应的音频段为特征音频；和/或，针对于任一窗口，计算该窗口对应的过零率，若该过零率小于预设过零率阈值，则确定该窗口对应的音频段为特征音频。
48.在一种可选的实施方式中，若所述特征音频为预设波形的音频；则所述识别所述混合音频中的特征音频进一步包括：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；针对于每个窗口，判断该窗口对应音频的波形是否为预设波形；若是，则将该窗口对应的音频确定为特征音频。
49.在一种可选的实施方式中，获取音频播放器的第三音频延时，以供根据所述第一用户终端记录的特征音频的发送时间和所述接收时间确定的所述第一用户终端之间的第一音频延时、所述第一用户终端中音频采集器的第二音频延时以及所述第三音频延时确定与第一用户终端之间的总音频延时。
50.根据本发明实施例的第四方面，提供了一种音频延时检测方法，包括：接收第一用户终端发送的特征音频的发送时间；其中，第一用户终端生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频；接收第二用户终端发送的特征音频的接收时间；其中，第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间；根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
51.在一种可选的实施方式中，所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的第一音频延时；获取第一用户终端中音频采集器的第二音频延时，获取第二用户终端中音频播放器的第三音频延时；根据所述第一音频延时、第二音频延时以及所述第三音频延时确定所述第一用户终端与第二用户终端之间的总音频延时。
52.在一种可选的实施方式中，所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：确定发送次序与接收次序匹配的特征音频，根据该匹配的特征音频的发送时间以及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时；或者，确定音频长度一致的特征音频的发送时间以及接收时间，根据各个音频长度一致的特征音频的发送时间及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
53.根据本发明实施例的第五方面，提供了一种音频延时检测装置，包括：生成模块，用于生成基础音频以及特征音频；插入模块，用于在所述基础音频中插入所述特征音频后获得混合音频；发送模块，用于发送所述混合音频；
54.记录模块，用于记录所述混合音频中所述特征音频的发送时间；以供第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间，以及供根据所述发送时间以及所述接收时间，确定与所述第二用户终端之间的音频延时。
55.在一种可选的实施方式中，生成模块用于：采用随机算法生成基础音频。
56.在一种可选的实施方式中，生成模块用于：获取所述基础音频的采样点的采样值范围，并基于所述采样值范围，采用随机算法生成基础音频的采样点的采样值。
57.在一种可选的实施方式中，生成模块用于：采用随机算法生成随机数，并确定所述采样值范围的边界值，计算所述随机数与所述边界值的模，并根据所述模生成基础音频的采样点的采样值；
58.和/或，将所述采样值范围作为随机算法的随机范围，并基于所述随机范围采用随机算法生成随机数，根据所述随机数生成基础音频的采样点的采样值。
59.在一种可选的实施方式中，生成模块用于：获取存储的历史音频，并确定所述历史音频中采样点的采样值范围；根据所述历史音频中采样点的采样值范围，确定所述基础音频的采样点的采样值范围。
60.在一种可选的实施方式中，所述特征音频为静音音频；或者，所述特征音频为预设波形的音频。
61.在一种可选的实施方式中，发送模块用于将所述混合音频划分为多个音频段，每隔预设时长发送一个音频段；记录模块用于记录所述特征音频在所述混合音频中的插入位置；并记录每个音频段在所述混合音频中的起始位置及结束位置；并在发送音频段时判断所述特征音频的插入位置是否位于该音频段的起始位置及结束位置之内；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
62.在一种可选的实施方式中，发送模块用于将所述混合音频划分为多个音频段，每隔预设时长发送一个音频段，并为包含特征音频的音频段分配预设标签；记录模块用于在发送音频段时判断该音频段是否具有所述预设标签；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
63.在一种可选的实施方式中，生成模块用于：生成单个特征音频；插入模块用于：将所述单个特征音频插入所述基础音频的至少一个位置；记录模块用于：记录所述混合音频中各个位置的特征音频的发送时间以及发送次序。
64.在一种可选的实施方式中，生成模块用于：生成多个音频长度不同的特征音频；插入模块用于：将所述多个音频长度不同的特征音频分别插入所述基础音频的不同位置；记录模块用于：记录所述混合音频中所述特征音频的发送时间以及音频长度。
65.在一种可选的实施方式中，记录模块用于：确定与所述第二用户终端共同隶属的系统，基于所述系统的系统时间记录所述特征音频的发送时间。
66.在一种可选的实施方式中，生成模块、插入模块、发送模块以及记录模块位于第一客户端；
67.发送模块用于：发送所述混合音频至第一音频处理器；
68.记录模块用于：记录所述混合音频中所述特征音频发送给第一音频处理器的发送时间。
69.在一种可选的实施方式中，所述第一音频处理器对所述混合音频进行音频预处理、音频编码和/或发送缓存区后，将所述混合音频传输至以太网。
70.在一种可选的实施方式中，该装置还包括：获取模块，用于获取音频采集器的第二音频延时，以供根据所述第一音频延时、第二音频延时、以及第二用户终端中音频播放器的
第三音频延时，确定与第二用户终端之间的总音频延时。
71.在一种可选的实施方式中，该装置还包括：监测模块，用于监测预设事件；
72.在监测到预设事件后，执行所述生成基础音频以及特征音频步骤；
73.其中，所述预设事件包括以下事件中的至少一种：
74.版本更新事件、用户音频延时检测的触发事件、以及网络切换事件。
75.根据本发明实施例的第六方面，提供了一种音频延时检测装置，包括：
76.接收模块，用于接收混合音频；所述混合音频由第一用户终端生成的基础音频以及特征音频构成；
77.识别模块，用于识别所述混合音频中的特征音频；
78.记录模块，用于记录所述特征音频的接收时间，以供根据所述第一用户终端记录的特征音频的发送时间和所述接收时间确定所述第一用户终端之间的音频延时。
79.在一种可选的实施方式中，记录模块用于：确定与所述第一用户终端共同隶属的系统，基于所述系统的系统时间记录所述特征音频的接收时间。
80.在一种可选的实施方式中，若所述特征音频为静音音频；
81.识别模块用于：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；
82.针对于任一窗口，计算该窗口对应的短时能量，若该短时能量小于预设能量阈值，则确定该窗口对应的音频段为特征音频；
83.和/或，针对于任一窗口，计算该窗口对应的过零率，若该过零率小于预设过零率阈值，则确定该窗口对应的音频段为特征音频。
84.在一种可选的实施方式中，若所述特征音频为预设波形的音频；
85.识别模块用于：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；针对于每个窗口，判断该窗口对应音频的波形是否为预设波形；若是，则将该窗口对应的音频确定为特征音频。
86.在一种可选的实施方式中，接收模块、识别模块以及记录模块位于第二客户端；
87.接收模块用于：接收从第二音频处理器传输的混合音频；
88.记录模块用于：记录从所述第二音频处理器接收到所述特征音频的接收时间。
89.在一种可选的实施方式中，该装置还包括：获取模块，用于获取音频播放器的第三音频延时，以供根据所述第一用户终端记录的特征音频的发送时间和所述接收时间确定的所述第一用户终端之间的第一音频延时、所述第一用户终端中音频采集器的第二音频延时以及所述第三音频延时确定与第一用户终端之间的总音频延时。
90.根据本发明实施例的第七方面，提供了一种音频延时检测装置，包括：
91.接收模块，用于接收第一用户终端发送的特征音频的发送时间；其中，第一用户终端生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频；接收第二用户终端发送的特征音频的接收时间；其中，第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间；
92.确定模块，用于根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
93.在一种可选的实施方式中，确定模块用于：
94.根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的第一音频延时；
95.获取第一用户终端中音频采集器的第二音频延时，获取第二用户终端中音频播放器的第三音频延时；
96.根据所述第一音频延时、第二音频延时以及所述第三音频延时确定所述第一用户终端与第二用户终端之间的总音频延时。
97.根据本发明实施例的第八方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；
98.所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述音频延时检测方法对应的操作。
99.根据本发明实施例的第九方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行上述音频延时检测方法对应的操作。
100.本发明实施例中第一用户终端生成基础音频以及特征音频，在基础音频中插入特征音频后获得混合音频；第一用户终端发送混合音频，记录混合音频中特征音频的发送时间；第二用户终端接收混合音频，识别混合音频中的特征音频，记录特征音频的接收时间；根据发送时间以及接收时间，确定第一用户终端与第二用户终端之间的音频延时。本方案能够降低检测成本，提升检测过程与真实网络语音通话环境的相似度，保障检测过程中码率和带宽需求的稳定性，以及提高音频延时的检测效率及检测精度。
101.本发明实施例中第一用户终端采用随机算法生成基础音频，从而提升基础音频与实际的网络语音通话环境相适配，提升音频延时检测的准确度。
102.本发明实施例中，第一用户终端获取基础音频的采样点的采样值范围，并基于采样值范围，采用随机算法生成基础音频的采样点的采样值，进一步保障基础音频采样点的采样值位于对应的采样值范围内，提升基础音频与实际网络语音通话环境的适配度。
103.本发明实施例中，第一用户终端采用随机算法生成随机数，并确定采样值范围的边界值，第一用户终端计算随机数与边界值的模，并根据模生成基础音频的采样点的采样值，由此提升采样值的随机性；或者，第一用户终端将采样值范围作为随机算法的随机范围，并基于随机范围采用随机算法生成随机数，根据随机数生成基础音频的采样点的采样值，由此提升基础音频的生成效率。
104.本发明实施例中，获取第一用户终端存储的历史音频，并确定历史音频中采样点的采样值范围；根据历史音频中采样点的采样值范围，确定基础音频的采样点的采样值范围，从而使得生成的基础音频与第一用户终端中用户语音特性相适配，实现用户差异化的基础音频，进一步提升基础音频与实际网络语音通话环境的适配度。
105.本发明实施例中，特征音频为静音音频；或者特征音频为预设波形的音频，由此便于对特征音频的识别，提升特征音频的识别效率，以及提升音频延时的检测效率。
106.本发明实施例中，第一用户终端将混合音频划分为多个音频段，并记录每个音频段在混合音频中的起始位置及结束位置，每隔预设时长发送一个音频段，并在发送音频段时判断特征音频的插入位置是否位于该音频段的起始位置及结束位置之内；若是，则将该
音频段的发送时间确定为该音频段中特征音频的发送时间，由此能够准确地确定出特征音频的发送时间。
107.本发明实施例中，为包含特征音频的音频段分配预设标签，第一用户终端在发送音频段时判断该音频段是否具有预设标签；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间，由此能够快速地确定出特征音频的发送时间。
108.本发明实施例中，若特征音频为静音音频，对混合音频进行加窗处理；其中，窗口长度与特征音频的音频长度匹配，并根据窗口对应的短时能量和/或过零率识别特征音频，从而提升特征音频的识别精度。
109.本发明实施例中，若特征音频为预设波形的音频，则对混合音频进行加窗处理，其中，窗口长度与特征音频的音频长度匹配，针对于每个窗口，判断该窗口对应音频的波形是否为预设波形；若是，则将该窗口对应的音频确定为特征音频，从而提升特征音频的识别精度。
110.本发明实施例中，第一用户终端生成单个特征音频，将单个特征音频插入基础音频的至少一个位置，记录混合音频中各个位置的特征音频的发送时间以及发送次序，记录特征音频的接收时间以及接收次序，确定发送次序与接收次序匹配的特征音频，根据该匹配的特征音频的发送时间以及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时，由此能够减少特征音频生成的个数，提升整体的执行效率。
111.本发明实施例中，第一用户终端生成多个音频长度不同的特征音频，将多个音频长度不同的特征音频分别插入基础音频的不同位置，记录混合音频中特征音频的发送时间以及音频长度，记录各个特征音频的接收时间以及音频长度，确定音频长度一致的特征音频的发送时间以及接收时间，根据各个音频长度一致的特征音频的发送时间及接收时间，确定第一用户终端与第二用户终端之间的音频延时，采用该种方式，即使在发送丢包等异常情况下，仍能通过音频长度准确定位出同一特征音频，由此提升音频延时的检测精度。
112.本发明实施例中，确述第一用户终端与所述第二用户终端隶属的系统，基于系统的系统时间记录特征音频的发送时间；基于系统的系统时间记录特征音频的接收时间，由此能够保障发送时间和接收时间能够采用同一个系统时钟，提升音频延时的检测精度。
113.本发明实施例中，第一用户终端中第一客户端生成基础音频以及特征音频，并在基础音频中插入特征音频后获得混合音频；第一客户端发送混合音频至第一用户终端中的第一音频处理器，第一客户端记录混合音频中特征音频发送给第一音频处理器的发送时间；第二用户终端中第二客户端接收从第二用户终端中第二音频处理器传输的混合音频，第二客户端识别混合音频中的特征音频，记录从第二音频处理器接收到所述特征音频的接收时间；根据发送时间以及所述接收时间，确定第一用户终端与第二用户终端之间的第一音频延时。采用该种实施方式，能够准确地确定出第一用户终端中音频采集器开始发送音频至音频传输给音频播放器之前这段时间的音频延时。
114.本发明实施例中，第一音频处理器对混合音频进行音频预处理、音频编码和/或发送缓存区后，将混合音频传输至以太网；第二音频处理器对混合音频进行从缓存区中获取、音频解码和/或音频后处理之后，将混合音频发送至第二客户端，由此能够提升音频延时检测过程与实际的网络语音通话环境中音频处理流程相匹配，提升音频延时的检测精度。
115.本发明实施例中，获取第一用户终端中音频采集器的第二音频延时，获取第二用
户终端中音频播放器的第三音频延时；根据第一音频延时、第二音频延时以及第三音频延时确定第一用户终端与第二用户终端之间的总音频延时。采用该实施方式，能够准确地确定出音频从采集至播放整个过程中的音频延时。
116.本发明实施例中，第一用户终端监测预设事件；第一用户终端在监测到预设事件后，执行生成基础音频以及特征音频步骤；其中，预设事件包括以下事件中的至少一种：版本更新事件、用户音频延时检测的触发事件、以及网络切换事件。采用该实施方式，能够实现音频延时的自动检测。
117.上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。
附图说明
118.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
119.图1示出了本发明实施例提供的一种音频延时检测方法的流程示意图；
120.图2示出了本发明实施例提供的另一种音频延时检测方法的流程示意图；
121.图3示出了本发明实施例提供的一种音频传输路径示意图；
122.图4示出了本发明实施例提供的又一种音频传输路径示意图；
123.图5示出了本发明实施例提供的又一种音频延时检测方法的流程示意图；
124.图6示出了本发明实施例提供的再一种音频延时检测方法的流程示意图；
125.图7示出了本发明实施例提供的又一种音频延时检测方法的流程示意图；
126.图8示出了本发明实施例提供的一种音频延时检测装置的结构示意图；
127.图9示出了本发明实施例提供的另一种音频延时检测装置的结构示意图；
128.图10示出了本发明实施例提供的又一种音频延时检测装置的结构示意图；
129.图11示出了本发明实施例提供的一种计算设备的结构示意图；
具体实施方式
130.下面将参照附图更详细地描述本发明实施例的示例性实施例。虽然附图中显示了本发明实施例的示例性实施例，然而应当理解，可以以各种形式实现本发明实施例而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明实施例，并且能够将本发明实施例的范围完整的传达给本领域的技术人员。
131.图1示出了本发明实施例提供的一种音频延时检测方法的流程示意图。其中，本实施例中的流程图不用于对执行步骤的顺序进行限定。根据需要，还可以对该流程图中的部分步骤进行添加或删减。
132.本发明实施例以检测第一用户终端和第二用户终端之间的音频延时为例，来进行音频延时检测方法的详细阐述。该第一用户终端和第二用户终端可以通过网络进行语音交互。其中，本发明实施例的执行主体可以为音频延时检测系统。并且，本发明实施例所提供的音频延时检测方案可以应用于即时通讯应用的语音通话功能，和/或，应用于直播应用的
连麦功能等等。
133.具体地，如图1所示，该方法包括如下步骤：
134.步骤s110，第一用户终端生成基础音频以及特征音频，并在基础音频中插入特征音频后获得混合音频。
135.现有技术在进行音频延时检测时，是由第三方设备生成音频信号，并由第一用户终端中的音频采集器采集该音频信号。本发明实施例与现有技术不同的是，本发明实施例是由第一用户终端自行生成基础音频，该基础音频是用于模拟真实语音交互环境的音频，基础音频能够保障第一用户终端与第二用户终端在进行音频延时检测时码率与带宽需求的稳定，从而使得后续检测出的音频延时与真实环境中的音频延时相匹配，提升音频延时的检测精度。
136.在一种可选的实施方式中，第一用户终端采用随机算法生成基础音频。由于在真实的网络语音交互过程中，用户发送的语音音频具有一定的随机性，由此采用该种方式，能够提升基础音频与真实语音交互环境的匹配度，有利于提升音频延时的检测精度。具体地，音频数据一般包含音频中各个采样点的采样值，则本实施方式具体是基于随机算法生成的随机数确定采样点的采样值，继而生成基础音频。
137.进一步可选的，为了进一步提升基础音频与实际网络语音交互环境的匹配度，以及便于对音频数据的处理，本实施例方式中基础音频具有对应的采样点的采样值范围，生成的基础音频的采样点的采样值均位于该采样值范围内，即第一用户终端获取基础音频的采样点的采样值范围，并基于采样值范围，采用随机算法生成基础音频的采样点的采样值。进一步地，本发明实施例生成采样值的方式包括但不限于如下方式：
138.采样值生成方式一：第一用户终端采用随机算法生成随机数，并确定采样值范围的边界值，第一用户终端计算随机数与边界值的模，并根据模生成基础音频的采样点的采样值。具体地，确定采样值范围的最大边界值，将每个随机数对该最大边界值进行取模运算后得到的值作为每个采样点的采样值。例如，采样值范围为-255-255，则采样值范围的最大边界值为255。则可以将rand()％255作为基础音频的采样点的采样值，该rand()为生成的随机数，％为取模运算符。采用该种方式，能够使获得的采样值位于采样值范围内，并且该种方式能够提升采样值的随机性，提升基础音频与真实场景音频的匹配度。
139.采样值生成方式二：第一用户终端将采样值范围作为随机算法的随机范围，并基于随机范围采用随机算法生成随机数，根据随机数生成基础音频的采样点的采样值。本生成方式中，是直接将采样值范围作为随机算法的取值条件，由此生成的随机数处于该采样值范围内，由此采用该种方式能够提升基础音频的生成效率。
140.进一步可选的，本发明实施例对基础音频的采样点的采样值范围的具体获取方式不作限定。例如，可以生成固定的采样值范围，由此提升采样值范围的获取效率；又或者，获取第一用户终端存储的历史音频，并确定历史音频中采样点的采样值范围，根据历史音频中采样点的采样值范围，确定基础音频的采样点的采样值范围，在该获取方式中，能够根据每个用户终端自身的音频特性来生成匹配的采样值范围，从而实现差异化的采样值范围，提升生成的基础音频与第一用户终端对应用户音频特性的匹配度。在此应当理解的是，该历史音频仅在用户授权的情况下获取，并且本发明实施例并未对该历史音频进行传输，由此保障用户数据的安全。
141.第一用户终端除了生成有基础音频之外，还生成了特征音频。具体地，由于基础音频与真实网络语音交互环境中的音频相似度高，由此若仅发送该基础音频进行音频延时检测，会大幅增加基础音频的识别难度，降低音频延时检测效率。由此，本发明实施例还生成了特征音频，该特征音频是区别于基础音频，并且能够快速识别出的音频。本发明实施例对特征音频的具体形式不作限定，例如特征音频可以为静音音频，还可以为预设波形的音频等等。
142.在一种可选的实施方式中，第一用户终端生成单个特征音频，则将单个特征音频插入基础音频的至少一个位置。采用该种方式，能够简化混合音频的生成过程，提升混合音频的生成效率，继而提升音频延时检测效率。
143.在另一种可选的实施方式中，第一用户终端生成多个音频长度不同的特征音频，并将多个音频长度不同的特征音频分别插入基础音频的不同位置。采用该种方式，能够通过音频长度来识别出对应的特征音频，由此能够提升后续音频延时的确定精度。
144.此外，本发明实施例对具体的插入方式不作限定。例如，可以每隔预设长度的基础音频插入特征音频，还可以将特征音频随机插入基础音频等等。
145.步骤s120，第一用户终端发送混合音频，并记录混合音频中特征音频的发送时间。
146.为了模拟真实的网络语音交互场景，第一用户终端具体采用流式传输方式发送混合音频。该种传输方式具体是按照相应的发送周期发送部分长度的混合音频，即第一用户终端将混合音频划分为多个音频段，并每隔预设时长发送一个音频段。
147.由此，步骤s110与步骤s120可以顺次执行，也可以异步执行。例如，可以在生成完整的混合音频后，通过本步骤s120发送混合音频；还可以每生成部分混合音频，通过本步骤发送生成的部分混合音频，譬如，步骤s110可以生成一段基础音频，并通过步骤s120发送该段基础音频，之后步骤s120可以生成特征音频，并通过步骤s120发送该特征音频。
148.第一用户终端记录混合音频中特征音频的发送时间。可选的，确定第一用户终端与第二用户终端隶属的系统，基于系统的系统时间记录特征音频的发送时间。后续在记录接收时间时，具体是基于该系统的系统时间记录特征音频的接收时间。采用该种方式，能够使得记录的接收时间和发送时间使用同一系统时间，由此提升音频延时的精准度。
149.在一种可选的发送时间记录方式中，在基础音频中插入特征音频后获得混合音频之后，记录特征音频在混合音频中的插入位置；第一用户终端记录划分的每个音频段在混合音频中的起始位置及结束位置；第一用户终端在发送音频段时判断特征音频的插入位置是否位于该音频段的起始位置及结束位置之内，若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。该种记录方式中，通过比对特征音频的插入位置与当前发送的音频段的起始位置及结束位置，能够准确地确定出特征音频是否处于当前发送地音频段内，继而将当前发送该音频段的时间确定为该特征音频的发送时间，从而提升特征音频发送时间的精准度。
150.在又一种可选的发送时间记录方式中，第一用户终端为包含特征音频的音频段分配预设标签，从而标识出包含特征音频的音频段；继而第一用户终端在发送音频段时判断该音频段是否具有该预设标签；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。采用该种方式，预先为包含特征音频的音频段分配预设标签，在发送音频段时能够快速地基于该标签确定当前发送地音频段是否包含有特征音频，由此提升特征音频
的发送时间的记录精度。
151.在一种可选的实施方式中，若步骤s110生成的是单个特征音频，则记录混合音频中各个位置的特征音频的发送时间以及发送次序。例如，第一个发送的特征音频的发送次序为1，以发送次序来标识发送的特征音频，简化本发明实施例的实施过程，提升本方法的执行效率。
152.在另一种可选的实施方式中，若步骤s110生成的是多个音频长度不同的特征音频，则记录混合音频中特征音频的发送时间以及音频长度，通过音频长度来标识特征音频，提升特征音频的标识精度，继而提升音频延时的确定精度。
153.步骤s130，第二用户终端接收混合音频，识别混合音频中的特征音频，记录特征音频的接收时间。
154.第二用户终端对接收到的混合音频进行识别，从而识别出混合音频中的特征音频。其中，本发明实施例对具体的识别方式不作限定。
155.若特征音频为静音音频，则通过相应的静音识别算法识别特征音频。例如，可以对混合音频进行加窗处理，加窗处理中窗口长度与特征音频的音频长度匹配，通过加窗处理能够将混合音频划分为多个音频段，每个音频段对应于一个窗口，并且每个音频段长度与特征音频长度一致。其中，该窗口具体可以为矩形窗口或汉明窗口等等。继而针对于任一窗口，计算该窗口对应的短时能量，若该短时能量小于预设能量阈值，则确定该窗口对应的音频段为特征音频；和/或，针对于任一窗口，计算该窗口对应的过零率，若该过零率小于预设过零率阈值，则确定该窗口对应的音频段为特征音频。其中，短时能量及过零率的具体计算过程可参照现有技术中的算法，在此不作赘述。由于静音音频的短时能量及过零率较低，则通过该种方式能够准确地识别出静音音频。进一步可选的，若步骤s110中生成了多个长度不同的特征音频，则先选取一个特征音频长度进行加窗处理，并进行特征音频识别，若无法识别到特征音频，则重新选取其他特征音频长度进行加窗处理及特征音频识别，并在识别到特征音频或者所有特征音频长度均进行加窗处理后，结束本次识别。
156.若特征音频为预设波形，则通过相应的音频波形识别算法识别特征音频。例如，对混合音频进行加窗处理；其中，窗口长度与特征音频的音频长度匹配；针对于每个窗口，判断该窗口对应音频的波形是否为预设波形；若是，则将该窗口对应的音频确定为特征音频。
157.第二用户终端进一步记录特征音频的接收时间。其中，由于第一用户终端采用的流式传输方式，由于第二用户终端每接收到一个音频段后，检测该音频段中是否包含有特征音频。并在确定出音频段包含特征音频之后，将音频段的接收时间确定为特征音频的接收时间。
158.在一种可选的实施方式中，若步骤s110生成的是单个特征音频，则记录特征音频的接收时间以及接收次序。其中，接收次序m表明了该特征音频是第二用户终端接收到的第m个特征音频。
159.在另一种可选的实施方式中，若步骤s110生成的是多个音频长度不同的特征音频，则记录各个特征音频的接收时间以及音频长度。
160.步骤s140，根据发送时间以及接收时间，确定第一用户终端与第二用户终端之间的音频延时。
161.本步骤可以由第一用户终端执行，则第二用户终端将记录的信息反馈给第一用户
终端，由第一用户终端确定第一用户终端与第二用户终端之间的音频延时；和/或，本步骤可以由第二用户终端执行，则第一用户终端将记录的信息反馈给第二用户终端，由第二用户终端确定第一用户终端与第二用户终端之间的音频延时；和/或，本步骤还可以由第一用户终端和第二用户终端对应的服务端执行，则第一用户终端以及第二用户终端将记录的信息反馈给服务端，由服务端确定第一用户终端与第二用户终端之间的音频延时。进一步可选的，确定出的音频延时可发送至第一用户终端和/或第二用户终端，以便于相应用户获知对应的音频延时。
162.在确定终端间的音频延时过程中，具体是针对于同一个特征音频，根据第一用户终端记录的该特征音频的发送时间和接收时间，确定第一用户终端与第二用户终端之间的音频延时。具体是根据同一个特征音频的接收时间与发送时间的差值确定音频延时。可选的，若第二用户终端接收到的特征音频为多个，可以分别计算出接收到的每个特征音频对应的发送时间和接收时间，继而确定出每个特征音频对应的音频延时，根据多个特征音频对应的音频延时的统计值(如平均数或众数等等)确定第一用户终端与第二用户终端之间的音频延时。
163.在一种可选的实施方式中，若步骤s110生成的是单个特征音频，则确定发送次序与接收次序匹配的特征音频，根据该匹配的特征音频的发送时间以及接收时间，确定第一用户终端与第二用户终端之间的音频延时。具体地，针对于任一次序i，获取发送次序为i的特征音频的发送时间t
1_i
，以及获取接收次序为i的特征音频的接收时间t
2_i
，将t
2_i-t
1-_i
作为一个音频延时。若混合音频中包含多个特征音频，则获取各个t
2_i-t
1_i
的平均值，根据该平均值确定第一用户终端与第二用户终端之间的音频延时。本实施方式中，第一用户终端仅需生成单个特征音频，通过单个特征音频的多次插入可以得到包含多个特征音频的混合音频，根据发送次序以及接收次序来标记特征音频，并根据次序匹配的特征音频的发送时间和接收时间确定音频延时，由此具有较高的执行效率。
164.在另一种可选的实施方式中，若步骤s110生成的是多个音频长度不同的特征音频，则确定音频长度一致的特征音频的发送时间以及接收时间，根据各个音频长度一致的特征音频的发送时间及接收时间，确定第一用户终端与第二用户终端之间的音频延时。具体地，音频长度能够标识特征音频，将同一音频长度的接收时间和发送时间的差值作为对应的音频延时，并根据多个特征音频对应的音频延时的平均值等确定第一用户终端与第二用户终端之间的音频延时。采用该种实施方式，即使发生网络丢包等异常情况，仍然能够定位出同一特征音频，由此提升确定出的音频延时的精度。
165.由此可见，本发明实施例提供的音频延时检测方法中，通过网络语音通话双方的用户终端即可实现音频延时的检测，无需借助第三方设备进行音频延时的检测，从而降低检测成本，降低音频延时检测对环境的依赖；而且，本发明实施例由用户终端生成基础音频，并对包含该基础音频的混合音频进行传输，由此能够提升检测过程与真实网络语音通话环境的相似度，保障检测过程中码率和带宽需求的稳定性；而且通过特征音频的发送时间和接收时间确定终端间的音频延时，能够提升音频延时的检测效率及检测精度。
166.图2示出了本发明实施例提供的另一种音频延时检测方法的流程示意图。其中，本实施例中的流程图不用于对执行步骤的顺序进行限定。根据需要，还可以对该流程图中的部分步骤进行添加或删减。
167.本发明实施例以检测第一用户终端和第二用户终端之间的音频延时为例，来进行音频延时检测方法的详细阐述。该第一用户终端和第二用户终端可以通过网络进行语音交互。其中，本发明实施例的执行主体可以为音频延时检测系统。
168.具体地，图3为一种网络语音交互过程中音频的传输路径。以图3为例，用户终端a与用户终端b进行网络语音交互时，用户终端a中的音频采集器采集用户音频，该用户音频经音频采集器传输至用户终端a的音频处理器进行处理，并在处理之后传输至以太网；用户终端b中的音频处理器对接收到的用户音频进行处理后，经用户终端b中的音频播放器播放。则采用本发明实施例的技术方案，能够计算出用户终端a至用户终端b总的音频延时，即能够计算出音频从采集至音频到播放之间的音频延时。
169.如图2所示，该方法包括如下步骤：
170.步骤s210，第一用户终端中第一客户端生成基础音频以及特征音频，并在基础音频中插入特征音频后获得混合音频。
171.第一客户端可以是音频延时检测工具，该客户端可以为app、小程序、公众号等。第一用户终端中第一客户端可以生成基础音频以及特征音频，并获得相应的混合音频。
172.步骤s220，第一客户端发送混合音频至第一用户终端中的第一音频处理器，第一客户端记录混合音频中特征音频发送给第一音频处理器的发送时间。
173.第一用户终端中包含第一客户端以及第一音频处理器，第一客户端将混合音频发送给第一音频处理器，则第一客户端记录的发送时间具体是特征音频由第一客户端发送至第一音频处理器的时间。
174.在一种可选的实施方式中，第一音频处理器对混合音频进行音频预处理、音频编码和/或发送缓存区后，将混合音频传输至以太网。其中，音频预处理包括但不限于：降噪处理、增强处理等等；音频编码具体是对混合音频进行编码处理；发送缓存区具体是将混合音频发送至缓存区，以供进一步发送至以太网。
175.步骤s230，第二用户终端中第二客户端接收从第二用户终端中第二音频处理器传输的混合音频，第二客户端识别混合音频中的特征音频，记录特征音频的接收时间。
176.第二用户终端包括第二客户端和第二音频处理器，第二用户终端接收到的混合音频先进入第二音频处理器进行处理，待处理完成后传输至第二客户端。该第二客户端可以是音频延时检测工具，该客户端可以为app、小程序、公众号等。由此，第二客户端记录的是从第二音频处理器接收到特征音频的接收时间。
177.在一种可选的实施方式中，第二音频处理器对混合音频进行从缓存区中获取、音频解码和/或音频后处理之后，将混合音频发送至第二客户端。其中，从缓存区中获取具体是从第二用户终端中的缓存区中获得混合音频；音频解码具体是对音频进行解码处理；音频后处理具体包括音频增强等处理。
178.步骤s240，根据特征音频的发送时间以及接收时间，确定第一用户终端与第二用户终端之间的第一音频延时。
179.第一音频延时是第一用户终端与第二用户终端之间音频总延时中的一部分，该第一音频延时的具体确定过程可参照图1实施例中音频延时的确定方法，在此不作赘述。
180.步骤s250，获取第一用户终端中音频采集器的第二音频延时，获取第二用户终端中音频播放器的第三音频延时，根据第一音频延时、第二音频延时以及第三音频延时确定
第一用户终端与第二用户终端之间的总音频延时。
181.第一用户终端中音频采集器的音频延时是第二音频延时，第二音频延时为音频采集器的硬件设备延时，其具体是第一用户终端中音频采集器采集到音频，到开始发送给第一音频处理器之间的时长。该第一音频延时可以根据第一用户终端的硬件参数获得。
182.第二用户终端中音频播放器的音频延时是第二音频延时，第二音频延时为音频播放器的硬件设备延时，其具体是第二用户终端中音频播放器获取到音频，至开始播放音频之间的时长。该第二音频延时可以根据第一用户终端的硬件参数获得。
183.在一些可选的实施例中，本发明实施例可以应用于网络语音通话功能的测试场景。在该场景中，可以将第一用户终端和第二用户终端集成于同一设备，由此可以将第一用户终端中音频采集器采集到的音频直接传输至第二用户终端中的音频播放器，并记录音频采集至音频播放之间的时间差，该时间差便是第二音频延时和第三音频延时的总和。
184.第一音频延时、第二音频延时以及第三音频延时的总和便是第一用户终端中音频从采集至播放之间的总音频延时。
185.以图4为例，第一用户终端中第一客户端发送特征音频的时间为t1，音频经音频预处理、音频编码、发送缓存区后传输至以太网；第二用户终端接收音频，该音频经缓存区接收、音频解码、音频后处理后发送给第二客户端，第二客户端接收特征音频的时间为t2，则第一音频处理器上一节点的发送时间与第二音频处理器下一节点的接收时间之间的延时
△
t1＝t
2-t1；第一用户终端中音频采集器的延时为
△
t2，第二用户终端中音频播放器的延时为
△
t3，则第一用户终端与第二用户终端之间的总音频延时
△
t为
△
t1+
△
t2+
△
t3，该总音频延时
△
t是第一用户终端音频采集器采集到音频的时间tm，与第二用户终端音频播放器播放出音频的时间tn之间的时间差。
186.由此可见，本发明实施例根据第一用户终端和第二用户终端之间的第一音频延时，第一用户终端中音频采集器的第二音频延时以及第二用户终端中音频播放器的第三音频延时确定出第一用户终端与第二用户终端之间的总延时，提升该总延时的确定精度。
187.在一些可选的实施例中，第一用户终端监测预设事件，第一用户终端在监测到预设事件后，执行生成基础音频以及特征音频步骤。即第一用户终端在监测到预设事件之后，触发第一用户终端和第二用户终端之间音频延时的检测。其中，预设事件包括以下事件中的至少一种：版本更新事件、用户音频延时检测的触发事件、以及网络切换事件。例如，在第一用户终端的通话软件发生版本更新时，可以自动触发用户终端间的音频延时检测；又或者，用户可以根据需求通过相应的触发方式主动触发用户终端间的音频延时检测；又或者，在监测到网络发生切换(如由wifi网络切换为移动网络)，触发用户终端间的音频延时检测。采用该种方式，能够自动实现用户终端间的音频延时检测。
188.其中，本发明所提供的各实施例可以应用于直播中的连麦场景中的音频延时，或即时通讯中的音频延时。各实施例又可以应用于实际的用户使用场景，又可以应用于测试场景中。例如，在用户使用场景中，通过本发明实施例能够获得用户当前与语音交互用户之间的音频延时，在测试场景中，可以通过本发明实施例检测连麦功能或即时通讯功能整体的音频延时，并且，该本发明实施例可以应用于ci/cd(软件开发持续集成与持续交换的构建环节)中，从而便于在开发过程中检测新功能等对音频延时的影响。
189.图5示出了本发明实施例提供的又一种音频延时检测方法的流程示意图。其中，本
实施例中的流程图不用于对执行步骤的顺序进行限定。根据需要，还可以对该流程图中的部分步骤进行添加或删减。本发明实施例的执行主体可以为第一用户终端。如图5所示，该方法包括如下步骤：
190.步骤s510，生成基础音频以及特征音频，并在基础音频中插入特征音频后获得混合音频。
191.步骤s520，发送混合音频。
192.步骤s530，记录混合音频中特征音频的发送时间，以供第二用户终端接收混合音频，识别混合音频中的特征音频，记录特征音频的接收时间，以及供根据发送时间以及接收时间，确定与第二用户终端之间的音频延时。
193.在一种可选的实施方式中，所述生成基础音频进一步包括：采用随机算法生成基础音频。
194.在一种可选的实施方式中，所述生成基础音频进一步包括：获取所述基础音频的采样点的采样值范围，并基于所述采样值范围，采用随机算法生成基础音频的采样点的采样值。
195.在一种可选的实施方式中，所述基于所述采样值范围，采用随机算法生成基础音频的采样点的采样值进一步包括：
196.采用随机算法生成随机数，并确定所述采样值范围的边界值，计算所述随机数与所述边界值的模，并根据所述模生成基础音频的采样点的采样值；
197.和/或，将所述采样值范围作为随机算法的随机范围，并基于所述随机范围采用随机算法生成随机数，根据所述随机数生成基础音频的采样点的采样值。
198.在一种可选的实施方式中，所述获取所述基础音频的采样点的采样值范围进一步包括：
199.获取存储的历史音频，并确定所述历史音频中采样点的采样值范围；
200.根据所述历史音频中采样点的采样值范围，确定所述基础音频的采样点的采样值范围。
201.在一种可选的实施方式中，所述特征音频为静音音频；或者，所述特征音频为预设波形的音频。
202.在一种可选的实施方式中，在所述基础音频中插入所述特征音频后获得混合音频之后，所述方法还包括：记录所述特征音频在所述混合音频中的插入位置；
203.所述发送所述混合音频；记录所述混合音频中所述特征音频的发送时间进一步包括：将所述混合音频划分为多个音频段，并记录每个音频段在所述混合音频中的起始位置及结束位置；每隔预设时长发送一个音频段，并在发送音频段时判断所述特征音频的插入位置是否位于该音频段的起始位置及结束位置之内；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
204.在一种可选的实施方式中，所述发送所述混合音频；记录所述混合音频中所述特征音频的发送时间进一步包括：将所述混合音频划分为多个音频段，并为包含特征音频的音频段分配预设标签；每隔预设时长发送一个音频段，并在发送音频段时判断该音频段是否具有所述预设标签；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
205.在一种可选的实施方式中，所述生成特征音频进一步包括：生成单个特征音频；
206.所述在所述基础音频中插入所述特征音频进一步包括：将所述单个特征音频插入所述基础音频的至少一个位置；
207.所述记录所述混合音频中所述特征音频的发送时间进一步包括：记录所述混合音频中各个位置的特征音频的发送时间以及发送次序；
208.所述记录所述特征音频的接收时间进一步包括：记录特征音频的接收时间以及接收次序；
209.所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：确定发送次序与接收次序匹配的特征音频，根据该匹配的特征音频的发送时间以及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
210.在一种可选的实施方式中，所述生成特征音频进一步包括：生成多个音频长度不同的特征音频；
211.所述在所述基础音频中插入所述特征音频进一步包括：将所述多个音频长度不同的特征音频分别插入所述基础音频的不同位置；
212.所述记录所述混合音频中所述特征音频的发送时间进一步包括：记录所述混合音频中所述特征音频的发送时间以及音频长度；
213.所述记录所述特征音频的接收时间进一步包括：记录各个特征音频的接收时间以及音频长度；
214.所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：确定音频长度一致的特征音频的发送时间以及接收时间，根据各个音频长度一致的特征音频的发送时间及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
215.在一种可选的实施方式中，所述记录所述混合音频中所述特征音频的发送时间进一步包括：确定与所述第二用户终端共同隶属的系统，基于所述系统的系统时间记录所述特征音频的发送时间。
216.在一种可选的实施方式中，所述生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频进一步包括：第一客户端生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频；
217.所述发送所述混合音频，记录所述混合音频中所述特征音频的发送时间进一步包括：发送所述混合音频至第一音频处理器，第一客户端记录所述混合音频中所述特征音频发送给第一音频处理器的发送时间。
218.在一种可选的实施方式中，所述方法还包括：
219.所述第一音频处理器对所述混合音频进行音频预处理、音频编码和/或发送缓存区后，将所述混合音频传输至以太网。
220.在一种可选的实施方式中，所述方法还包括：获取音频采集器的第二音频延时，以供根据所述第一音频延时、第二音频延时、以及第二用户终端中音频播放器的第三音频延时，确定与第二用户终端之间的总音频延时。
221.在一种可选的实施方式中，所述方法还包括：
222.监测预设事件；
223.在监测到预设事件后，执行所述生成基础音频以及特征音频步骤；
224.其中，所述预设事件包括以下事件中的至少一种：
225.版本更新事件、用户音频延时检测的触发事件、以及网络切换事件。
226.本实施例各步骤的具体实施过程可参照其他方法实施例中的描述，在此不作赘述。
227.由此可见，本发明实施例能够降低检测成本，提升检测过程与真实网络语音通话环境的相似度，保障检测过程中码率和带宽需求的稳定性，以及提高音频延时的检测效率及检测精度。
228.图6示出了本发明实施例提供的再一种音频延时检测方法的流程示意图；其中，本实施例中的流程图不用于对执行步骤的顺序进行限定。根据需要，还可以对该流程图中的部分步骤进行添加或删减。本发明实施例的执行主体可以为第二用户终端。如图6所示，该方法包括如下步骤：
229.步骤s610，接收混合音频；混合音频由第一用户终端生成的基础音频以及特征音频构成。
230.步骤s620，识别混合音频中的特征音频。
231.步骤s630，记录特征音频的接收时间，以供根据第一用户终端记录的特征音频的发送时间和接收时间确定所述第一用户终端之间的音频延时。
232.在一种可选的实施方式中，所述记录所述特征音频的接收时间进一步包括：确定与所述第一用户终端共同隶属的系统，基于所述系统的系统时间记录所述特征音频的接收时间。
233.在一种可选的实施方式中，若所述特征音频为静音音频；
234.则所述识别所述混合音频中的特征音频进一步包括：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；
235.针对于任一窗口，计算该窗口对应的短时能量，若该短时能量小于预设能量阈值，则确定该窗口对应的音频段为特征音频；
236.和/或，针对于任一窗口，计算该窗口对应的过零率，若该过零率小于预设过零率阈值，则确定该窗口对应的音频段为特征音频。
237.在一种可选的实施方式中，若所述特征音频为预设波形的音频；
238.则所述识别所述混合音频中的特征音频进一步包括：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；针对于每个窗口，判断该窗口对应音频的波形是否为预设波形；若是，则将该窗口对应的音频确定为特征音频。
239.在一种可选的实施方式中，所述接收混合音频进一步包括：第二客户端接收从第二音频处理器传输的混合音频；
240.所述识别所述混合音频中的特征音频进一步包括：第二客户端识别所述混合音频中的特征音频；
241.所述记录所述特征音频的接收时间进一步包括：第二客户端记录从所述第二音频处理器接收到所述特征音频的接收时间。
242.在一种可选的实施方式中，获取音频播放器的第三音频延时，以供根据所述第一
用户终端记录的特征音频的发送时间和所述接收时间确定的所述第一用户终端之间的第一音频延时、所述第一用户终端中音频采集器的第二音频延时以及所述第三音频延时确定与第一用户终端之间的总音频延时。
243.本实施例各步骤的具体实施过程可参照其他方法实施例中的描述，在此不作赘述。
244.由此可见，本发明实施例能够降低检测成本，提升检测过程与真实网络语音通话环境的相似度，保障检测过程中码率和带宽需求的稳定性，以及提高音频延时的检测效率及检测精度。
245.图7示出了本发明实施例提供的又一种音频延时检测方法的流程示意图；其中，本实施例中的流程图不用于对执行步骤的顺序进行限定。根据需要，还可以对该流程图中的部分步骤进行添加或删减。本发明实施例的执行主体可以为预设的处理端，该处理端可以位于第一用户终端、第二用户终端或第一用户终端和第二用户终端对应的服务端。如图7所示，该方法包括如下步骤：
246.步骤s710，接收第一用户终端发送的特征音频的发送时间；其中，第一用户终端生成基础音频以及特征音频，并在基础音频中插入特征音频后获得混合音频。
247.步骤s720，接收第二用户终端发送的特征音频的接收时间；其中，第二用户终端接收混合音频，识别混合音频中的特征音频，记录特征音频的接收时间。
248.步骤s730，根据发送时间以及接收时间，确定第一用户终端与第二用户终端之间的音频延时。
249.在一种可选的实施方式中，所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：
250.根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的第一音频延时；
251.获取第一用户终端中音频采集器的第二音频延时，获取第二用户终端中音频播放器的第三音频延时；
252.根据所述第一音频延时、第二音频延时以及所述第三音频延时确定所述第一用户终端与第二用户终端之间的总音频延时。
253.在一种可选的实施方式中，所述根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时进一步包括：确定发送次序与接收次序匹配的特征音频，根据该匹配的特征音频的发送时间以及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时；
254.或者，确定音频长度一致的特征音频的发送时间以及接收时间，根据各个音频长度一致的特征音频的发送时间及接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
255.由此可见，本发明实施例能够降低检测成本，提升检测过程与真实网络语音通话环境的相似度，保障检测过程中码率和带宽需求的稳定性，以及提高音频延时的检测效率及检测精度。
256.图8示出了本发明实施例提供的一种音频延时检测装置的结构示意图。该装置具体位于第一用户终端中。
257.如图8所示，该装置800包括：
258.生成模块810，用于生成基础音频以及特征音频；
259.插入模块820，用于在所述基础音频中插入所述特征音频后获得混合音频；
260.发送模块830，用于发送所述混合音频；
261.记录模块840，用于记录所述混合音频中所述特征音频的发送时间；以供第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间，以及供根据所述发送时间以及所述接收时间，确定与所述第二用户终端之间的音频延时。
262.在一种可选的实施方式中，生成模块用于：采用随机算法生成基础音频。
263.在一种可选的实施方式中，生成模块用于：获取所述基础音频的采样点的采样值范围，并基于所述采样值范围，采用随机算法生成基础音频的采样点的采样值。
264.在一种可选的实施方式中，生成模块用于：采用随机算法生成随机数，并确定所述采样值范围的边界值，计算所述随机数与所述边界值的模，并根据所述模生成基础音频的采样点的采样值；
265.和/或，将所述采样值范围作为随机算法的随机范围，并基于所述随机范围采用随机算法生成随机数，根据所述随机数生成基础音频的采样点的采样值。
266.在一种可选的实施方式中，生成模块用于：获取存储的历史音频，并确定所述历史音频中采样点的采样值范围；
267.根据所述历史音频中采样点的采样值范围，确定所述基础音频的采样点的采样值范围。
268.在一种可选的实施方式中，所述特征音频为静音音频；或者，所述特征音频为预设波形的音频。
269.在一种可选的实施方式中，发送模块用于将所述混合音频划分为多个音频段，每隔预设时长发送一个音频段；
270.记录模块用于记录所述特征音频在所述混合音频中的插入位置；并记录每个音频段在所述混合音频中的起始位置及结束位置；并在发送音频段时判断所述特征音频的插入位置是否位于该音频段的起始位置及结束位置之内；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
271.在一种可选的实施方式中，发送模块用于将所述混合音频划分为多个音频段，每隔预设时长发送一个音频段，并为包含特征音频的音频段分配预设标签；
272.记录模块用于在发送音频段时判断该音频段是否具有所述预设标签；若是，则将该音频段的发送时间确定为该音频段中特征音频的发送时间。
273.在一种可选的实施方式中，生成模块用于：生成单个特征音频；
274.插入模块用于：将所述单个特征音频插入所述基础音频的至少一个位置；
275.记录模块用于：记录所述混合音频中各个位置的特征音频的发送时间以及发送次序。
276.在一种可选的实施方式中，生成模块用于：生成多个音频长度不同的特征音频；
277.插入模块用于：将所述多个音频长度不同的特征音频分别插入所述基础音频的不同位置；
278.记录模块用于：记录所述混合音频中所述特征音频的发送时间以及音频长度；
279.在一种可选的实施方式中，记录模块用于：确定与所述第二用户终端共同隶属的系统，基于所述系统的系统时间记录所述特征音频的发送时间。
280.在一种可选的实施方式中，生成模块、插入模块、发送模块以及记录模块位于第一客户端；
281.发送模块用于：发送所述混合音频至第一音频处理器；
282.记录模块用于：记录所述混合音频中所述特征音频发送给第一音频处理器的发送时间。
283.在一种可选的实施方式中，所述第一音频处理器对所述混合音频进行音频预处理、音频编码和/或发送缓存区后，将所述混合音频传输至以太网。
284.在一种可选的实施方式中，该装置还包括：获取模块，用于获取音频采集器的第二音频延时，以供根据所述第一音频延时、第二音频延时、以及第二用户终端中音频播放器的第三音频延时，确定与第二用户终端之间的总音频延时。
285.在一种可选的实施方式中，该装置还包括：监测模块，用于监测预设事件；
286.在监测到预设事件后，执行所述生成基础音频以及特征音频步骤；
287.其中，所述预设事件包括以下事件中的至少一种：
288.版本更新事件、用户音频延时检测的触发事件、以及网络切换事件。
289.由此可见，本发明实施例能够降低检测成本，提升检测过程与真实网络语音通话环境的相似度，保障检测过程中码率和带宽需求的稳定性，以及提高音频延时的检测效率及检测精度。
290.图9示出了本发明实施例提供的另一种音频延时检测装置的结构示意图；该装置900位于第二用户终端中。如图9所示，该装置900包括：
291.接收模块910，用于接收混合音频；所述混合音频由第一用户终端生成的基础音频以及特征音频构成；
292.识别模块920，用于识别所述混合音频中的特征音频；
293.记录模块930，用于记录所述特征音频的接收时间，以供根据所述第一用户终端记录的特征音频的发送时间和所述接收时间确定所述第一用户终端之间的音频延时。
294.在一种可选的实施方式中，记录模块用于：确定与所述第一用户终端共同隶属的系统，基于所述系统的系统时间记录所述特征音频的接收时间。
295.在一种可选的实施方式中，若所述特征音频为静音音频；
296.识别模块用于：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；
297.针对于任一窗口，计算该窗口对应的短时能量，若该短时能量小于预设能量阈值，则确定该窗口对应的音频段为特征音频；
298.和/或，针对于任一窗口，计算该窗口对应的过零率，若该过零率小于预设过零率阈值，则确定该窗口对应的音频段为特征音频。
299.在一种可选的实施方式中，若所述特征音频为预设波形的音频；
300.识别模块用于：对所述混合音频进行加窗处理；其中，窗口长度与所述特征音频的音频长度匹配；针对于每个窗口，判断该窗口对应音频的波形是否为预设波形；若是，则将该窗口对应的音频确定为特征音频。
301.在一种可选的实施方式中，接收模块、识别模块以及记录模块位于第二客户端；
302.接收模块用于：接收从第二音频处理器传输的混合音频；
303.记录模块用于：记录从所述第二音频处理器接收到所述特征音频的接收时间。
304.在一种可选的实施方式中，该装置还包括：获取模块，用于获取音频播放器的第三音频延时，以供根据所述第一用户终端记录的特征音频的发送时间和所述接收时间确定的所述第一用户终端之间的第一音频延时、所述第一用户终端中音频采集器的第二音频延时以及所述第三音频延时确定与第一用户终端之间的总音频延时。
305.由此可见，本发明实施例能够降低检测成本，提升检测过程与真实网络语音通话环境的相似度，保障检测过程中码率和带宽需求的稳定性，以及提高音频延时的检测效率及检测精度。
306.图10示出了本发明实施例提供的又一种音频延时检测装置的结构示意图；该装置1000位于预设的处理端，该处理端可以位于第一用户终端或第二用户终端，还可以位于第一用户终端和第二用户终端对应的服务端中。如图10所示，该装置1000包括：
307.接收模块1010，用于接收第一用户终端发送的特征音频的发送时间；其中，第一用户终端生成基础音频以及特征音频，并在所述基础音频中插入所述特征音频后获得混合音频；接收第二用户终端发送的特征音频的接收时间；其中，第二用户终端接收所述混合音频，识别所述混合音频中的特征音频，记录所述特征音频的接收时间；
308.确定模块1020，用于根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的音频延时。
309.在一种可选的实施方式中，确定模块用于：根据所述发送时间以及所述接收时间，确定所述第一用户终端与所述第二用户终端之间的第一音频延时；
310.获取第一用户终端中音频采集器的第二音频延时，获取第二用户终端中音频播放器的第三音频延时；
311.根据所述第一音频延时、第二音频延时以及所述第三音频延时确定所述第一用户终端与第二用户终端之间的总音频延时。
312.由此可见，本发明实施例能够降低检测成本，提升检测过程与真实网络语音通话环境的相似度，保障检测过程中码率和带宽需求的稳定性，以及提高音频延时的检测效率及检测精度。
313.图11示出了本发明实施例提供的一种计算设备的结构示意图。本发明实施例具体实施例并不对计算设备的具体实现做限定。
314.如图11所示，该计算设备可以包括：处理器(processor)1102、通信接口(communications interface)1104、存储器(memory)1106、以及通信总线1108。
315.其中：处理器1102、通信接口1104、以及存储器1106通过通信总线1108完成相互间的通信。通信接口1104，用于与其它设备比如客户端或其它服务器等的网元通信。处理器1102，用于执行程序1110，具体可以执行上述用于音频延时检测方法实施例中的相关步骤。具体地，程序1110可以包括程序代码，该程序代码包括计算机操作指令。
316.处理器1102可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可
以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。存储器1106，用于存放程序1110。存储器1106可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。程序1110具体可以用于使得处理器1102执行上述任一方法实施例中的方法。
317.本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音频延时检测方法。
318.在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明实施例的内容，并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
319.在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
320.类似地，应当理解，为了精简本发明实施例并帮助理解各个发明方面中的一个或多个，在上面对本发明实施例的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明实施例的单独实施例。
321.本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
322.此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明实施例的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
323.本发明实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明实
施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
324.应该注意的是上述实施例对本发明实施例进行说明而不是对本发明实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：文峰张捷赵寅
技术所有人：上海哔哩哔哩科技有限公司
我是此专利的发明人

上一篇：基于生物质及涡轮增压器的发电系统及发电方法与流程
上一篇：锂电池负极涂布的废气处理装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。