音频处理方法、计算机设备、存储介质和程序产品与流程

文档序号：32164681发布日期：2022-11-12 03:55阅读：148来源：国知局

技术简介：
本专利针对音频广告插入影响用户听感的问题，提出通过自动识别非人声片段并精准嵌入广告的解决方案。方法基于音频片段分割技术，选择持续时间匹配的非人声片段作为广告插入点，结合响度调整算法确保广告与原音频的听感融合，实现无需人工干预的高效广告嵌入，显著提升处理效率与用户体验。
关键词：音频广告插入,非人声片段

1.本技术涉及音频处理技术领域，特别是涉及一种音频处理方法、计算机设备、存储介质和程序产品。

背景技术：

2.随着技术的不断发展，目前大多数计算机设备均提供有音频播放应用程序，用户通过音频播放应用程序，能够满足其欣赏音频的需求。音频可以有多种表现形式，例如歌曲、有声故事、相声或者评书等等、
3.相关技术中，为了宣传和保护版权等需要，会在音频中添加广告，但是由于广告内容与音频内容不相关，随意插入广告将中断用户的收听，导致用户的体验感较差。如果由人工进行广告嵌入点的选择，又会导致处理效率较差。因此，如何在不影响用户听感的基础上高效地实现广告嵌入是需要解决的问题。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够高效嵌入广告音频并保证嵌入广告后的音频的听感不受影响的音频处理方法、计算机设备、存储介质和程序产品。
5.第一方面，本发明实施例提供了一种音频处理方法，包括：获取待处理音频对应的广告音频；对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段；从至少一个非人声片段中确定目标非人声片段；目标非人声片段的持续时间大于或等于广告音频的持续时间；在目标非人声片段嵌入广告音频；将嵌入广告音频后的至少一个目标非人声片段与其余片段进行拼接，得到目标音频；其余片段包括待处理音频中除至少一个目标非人声片段外的至少一个非人声片段以及至少一个人声片段。
6.在其中一个实施例中，在目标非人声片段嵌入广告音频包括：在目标非人声片段中确定目标起始点和目标结束点；目标起始点与前一人声片段的间隔大于预设阈值，目标结束点与后一人声片段的间隔大于预设阈值；根据目标起始点和目标结束点，在目标非人声片段嵌入广告音频，以使广告音频处于目标起始点和目标结束点之间。
7.在其中一个实施例中，在将嵌入广告音频后的至少一个目标非人声片段与其余片段进行拼接，得到目标音频之前，方法还包括：根据目标非人声片段以外的各片段的响度，确定目标响度；各片段包括待处理音频中除目标非人声片段外的至少一个非人声片段以及至少一个人声片段；调整广告音频和目标非人声片段的响度，以使嵌入广告音频后的目标非人声片段的响度与目标响度匹配。
8.在其中一个实施例中，调整广告音频和目标非人声片段的响度包括：降低目标非人声片段的响度，并根据目标非人声片段的响度降低量调整广告音频的响度，以使调整后广告音频的响度与调整后目标非人声片段的响度之和与目标响度匹配。
9.在其中一个实施例中，获取待处理音频对应的广告音频包括：确定待处理音频对应的播放应用；从待选广告音频中选择音频内容与播放应用相关的待选广告音频为广告音
频。
10.在其中一个实施例中，对待处理音频进行片段分割，得到多个非人声片段和人声片段包括：识别待处理音频中人声的起止时间点；根据各起止时间点，对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段。
11.在其中一个实施例中，若目标非人声片段有多个，在目标非人声片段嵌入广告音频包括：获取多个目标非人声片段中与广告音频的时长差值最小的目标非人声片段，在时长差值最小的目标非人声片段嵌入广告音频。
12.第二方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述的音频处理方法的步骤。
13.第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的音频处理方法的步骤。
14.第四方面，本发明实施例提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的音频处理方法的步骤。
15.基于上述任一实施例，将待处理音频分割为非人声片段和人声片段，并在非人声片段中选择合适的目标非人声片段进行广告音频嵌入得到目标音频，由于目标非人声片段对用户的收听影响较小，所以包含广告音频的目标音频在收听时仍可保证用户有较佳的听感。另外，本实施例中的音频处理方法可以自动选择插入点并进行插入，无需依赖人工即可实现快速、大量的广告嵌入工作，大大提高了处理效率。
附图说明
16.图1为一个实施例中音频处理方法的应用环境图；
17.图2为一个实施例中音频处理方法的流程示意图；
18.图3为一个实施例中嵌入广告音频的流程示意图；
19.图4为一个实施例中调整广告音频和目标非人声片段的响度的流程示意图；
20.图5为一个实施例中对待处理音频进行片段分割的流程示意图；
21.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
22.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
23.本技术实施例提供的音频处理方法，可以应用于如图1所示的应用环境中的服务器104上。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。例如，待处理音频和广告音频都存储与数据存储系统中。服务器104可以在待处理音频中嵌入广告得到目标音频后，在终端102需要选择相应的目标音频进行播放，服务器104通过通信网络将目标音频发送至终端102。终端102在播放目标音频的过程中可以将目标音频下载并存储，也可以在下次需要播放时重新从终端102处获取。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，
物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
24.请参阅图2，该方法包括步骤s202至步骤s208。
25.s202，获取待处理音频对应的广告音频。
26.可以理解，待处理音频为不包含广告的音频，其表现形式可以为歌曲、有声故事、相声或者评书等等。广告音频是具有宣传属性的内容的音频，可以被称为宣传音频，也可以被称为待插入音频。例如，在一些播客节目中，经常有一些固定的音频片头、片尾或转场词等，比如“欢迎来到a平台的b栏目，我是主持人c”，“接下来的内容由a平台的主持人d继续为您播报”，“今天的节目到此结束，欢迎收听b栏目的下一期节目，谢谢大家，再见！”等等。这些部分可以对待处理音频的节目名称或者播出平台等进行宣传。还有利于标识待处理音频的归属性，例如，在播放平台上收听到音频时，版权方根据广告音频的内容可确认该平台是否在未获得授权的情况下转播了节目，从而确定是否有侵害版权的行为。此外，广告音频还可以为一些商业广告。由此可见，广告音频的内容可以自行设计，而为了达到不同的宣传效果，可以为待处理音频选择具有特定内容的广告音频。在一个具体实施例中，待处理音频对应的广告音频可通过以下方式获取：确定待处理音频对应的播放应用；从待选广告音频中选择音频内容与播放应用相关的待选广告音频为广告音频。可以理解，在服务器中可以存储多个待选广告音频，各待选广告音频的音频内容可用于宣传不同的播放应用(也可称为播放平台)，并且，每个待处理音频投放到哪个播放应用是可以预先设定的。所以，在确定待处理音频将投放的播放平台后，为宣传该平台，可以为该待处理音频选择音频内容与该平台相关的待选广告音频作为嵌入待处理音频中的广告音频。
27.s204，对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段。
28.可以理解，上述各种形式的音频均是由多个音频片段组成，可以根据每个音频片段是否包含人声将各音频片段分类为人声片段和非人声片段。以歌曲为例，歌曲可能包含前奏、间奏、尾奏、主歌、副歌等。其中，前奏、间奏、尾奏常常为纯音乐的伴奏，不包含人声，因此可分类为非人声片段。主歌、副歌为演唱者的演出部分，包含人声，因此可分类为人声片段。
29.s206，从至少一个非人声片段中确定目标非人声片段；目标非人声片段的持续时间大于或等于广告音频的持续时间。
30.目标非人声片段为本实施例中选择作为广告音频嵌入目标的音频片段。可以理解，用户在收听音频时，听觉享受来源于音频中的人声片段，非人声片段仅起到辅助作用，所以在用户收听非人声片段的同时令用户收听到广告音频将对用户的收听体验影响较小。本实施例从多个非人声片段中选择合适的作为目标非人声片段，由于各非人声片段的时长不同，为保证广告音频在目标非人声片段可以完整播放，所以目标非人声片段的持续时间应大于或等于广告音频的持续时间。例如，以目标非人声片段的数量为一个进行说明，当广告音频的持续时间为12秒，而非人声片段位于整个待处理音频的20～35秒、50～60秒以及85～90秒。则各非人声片段的持续时间分别为15秒、10秒以及5秒。应选择待处理音频20～35秒对应的非人声片段作为目标非人声片段。
31.而在目标非人声片段的数量为两个以上时，每个目标非人声片段嵌入的广告音频的内容可以相同也可以不同。
32.s208，在目标非人声片段嵌入广告音频。
33.由于目标非人声片段和广告音频均为音频，将两个音频合成一个音频的技术较为成熟，例如基于python语言的audiosegment、librosa等工具包，在此不再赘述。
34.另外，在目标非人声片段有多个时，例如有两个以上，终端可以不在所有目标非人声片段中均添加广告，而是获取每个目标非人声片段的时长，以及广告音频的时长，并获取每个目标非人声片段的时长与广告音频的时长的差值，将多个目标非人声片段中与广告音频的时长差值最小的目标非人声片段，作为需要嵌入广告的片段，并在时长差值最小的目标非人声片段嵌入上述广告音频。
35.s210，将嵌入广告音频后的至少一个目标非人声片段与其余片段进行拼接，得到目标音频；其余片段包括待处理音频中除至少一个目标非人声片段外的至少一个非人声片段以及至少一个人声片段。
36.可以理解，将嵌入有广告音频的至少一个目标非人声片段和目标非人声片段以外的音频片段重新按照各自原来的时间顺序进行拼接，将所有音频片段重新拼接为一个完整的音频，得到目标音频。其中，嵌入有广告音频的至少一个目标非人声片段和目标非人声片段以外的音频片段即为上述其余片段，则其余片段包括待处理音频中除至少一个目标非人声片段外的至少一个非人声片段以及至少一个人声片段。在播放目标音频的情况下，当播放到目标非人声片段时可以收听到广告音频的内容。
37.基于本实施例中的音频处理方法，将待处理音频分割为非人声片段和人声片段，并在非人声片段中选择合适的目标非人声片段进行广告音频嵌入得到目标音频，由于目标非人声片段对用户的收听影响较小，所以包含广告音频的目标音频在收听时仍可保证用户有较佳的听感。另外，本实施例中的音频处理方法可以自动选择插入点并进行插入，无需依赖人工即可实现快速、大量的广告嵌入工作，大大提高了处理效率。
38.在其中一个实施例中，请参阅图3，为了避免播放广告音频时过于突兀，在至少一个目标非人声片段嵌入广告音频包括步骤s302与s304。
39.s302，在目标非人声片段中确定目标起始点和目标结束点。
40.目标起始点与前一人声片段的间隔大于预设阈值，目标结束点与后一人声片段的间隔大于预设阈值。
41.s304，根据目标起始点和目标结束点，在目标非人声片段嵌入广告音频，以使广告音频处于目标起始点和目标结束点之间。
42.可以理解，针对在两个人声片段中间的目标非人声片段，如果前一人声片段一结束就立刻接入广告音频或者广告音频一结束就接入后一人声片段，会导致过渡不自然，突兀感较为明显。因此，广告音频应被嵌入于目标起始点和目标结束点，使得前一人声片段结束后有一定过渡时间才开始接入广告音频，并在广告音频结束后也有一定过渡时间才接入后一人声片段。预设阈值可以根据实际情况进行选择，广告音频的开始点与前一人声片段之间的间隔可以与广告音频的结束点与后一人声片段之间的间隔相同或者不同。以待处理音频20～40秒对应的非人声片段作为目标非人声片段，广告音频的持续时间为12秒为例，预设阈值可以为2s，广告音频可以选择嵌入在待处理音频22～38秒之间的任意一段时间
内。类似地，在有些实施例中，若目标非人声片段为待处理音频的第一个音频片段，由于目标非人声片段前并无其它音频片段，无需考虑从前一人声片段过渡至目标非人声片段的问题，因此只需确认目标结束点。若目标非人声片段为待处理音频的最后一个音频片段，由于目标非人声片段后并无其它音频片段，无需考虑从目标非人声片段过渡至的后一人声片段问题，因此只需确认目标开始点。
43.在其中一个实施例中，考虑到嵌入广告音频后的目标非人声片段的响度将发生改变，可能导致播放目标音频时出现响度大小不一的问题，请参阅图4，在将嵌入广告音频后的至少一个目标非人声片段与其余片段进行拼接，得到目标音频之前，还包括s402与s404。
44.s402，根据目标非人声片段以外的各片段的响度，确定目标响度；各片段包括待处理音频中除目标非人声片段外的至少一个非人声片段以及至少一个人声片段。
45.s404，调整广告音频和目标非人声片段的响度，以使嵌入广告音频后的目标非人声片段的响度与目标响度匹配。
46.可以理解，本实施例通过调整目标非人声片段和广告音频的响度，使嵌入后的目标非人声片段的响度适应待处理音频中除目标非人声片段以外的各片段的响度。其中，各片段包括待处理音频中除目标非人声片段外的至少一个非人声片段以及至少一个人声片段。因此，先提取待处理音频中除目标非人声片段以外的各片段的响度，对这提取出来的各响度通过求平均值、中位值等统计学方式求出反映待处理音频未经处理前的响度大小的目标响度。再根据目标响度对广告音频和至少一个目标非人声片段进行调整。求取响度可以使用音频领域的通用标准，如ebu(european broadcasting union，欧洲广播联盟)r.128。
47.在其中一个实施例中，调整广告音频和目标非人声片段的响度包括：降低目标非人声片段的响度，并根据目标非人声片段的响度降低量调整广告音频的响度，以使调整后广告音频的响度与调整后目标非人声片段的响度之和与目标响度匹配。
48.可以理解，由于原来目标非人声片段与待处理音频的各片段为连贯的音频，待处理音频中的各片段的响度基本保持一致，因此本实施例选择将目标非人声片段进行消音，被消去的部分由广告音频进行填充，使得嵌入广告音频后的目标非人声片段仍与目标响度匹配。具体而言，可以通过一个消音参数对目标非人声片段进行消音，例如，根据以下公式选择消音参数：l
目标
＝(1-α)*l
广告
+α*l
目标非人声片段
。其中，l
目标
为目标响度，l
广告
为广告音频的响度，l
目标非人声片段
为目标非人声片段的响度，α为消音参数。通过降低消音参数，可降低目标非人声片段在嵌入后目标非人声片段中的响度。一般可选消音参数为0.1～0.3，若想完全消除目标非人声片段，也可直接将消音参数设置为0。
49.在其中一个实施例中，请参阅图5，对待处理音频进行片段分割，得到多个非人声片段和人声片段包括步骤s502与步骤s504。
50.s502，识别待处理音频中人声的起止时间点。
51.可以理解，在音频处理领域，人声识别(或称为语音识别)是发展较为迅速的一项技术，通过该项技术即可识别待处理音频中人声的起止时间点。可选地，通过对待处理音频进行人声分离处理，得到人声音轨。再利用语音检测算法对人声音轨进行人声检测，确定起止时间点。人声音轨指的是仅包含待处理音频中纯人声的音轨。目前，有许多开源算法可以进行将音频中人声音轨分离出来，如spleeter、demucs等。在分离出人声音轨后，人声音轨中的静音片段即为非人声片段，人声音轨中的有声片段即为人声片段。语音检测算法
(voice activity detection，vad算法)可以从音轨中识别出人声活动期和静音期。基于人声音轨的特性和语音检测算法的功能，可以利用语音检测算法识别出人声的起止时间点。可选地，还可以通过深度学习技术，利用训练好的语音识别模型对待处理音频的各帧音频进行音频特征提取，根据提取出的音频特征对各帧音频进行人声或非人声的分类，根据分类标签和各帧音频在待处理音频对应的时间点，即可确认人声的起止时间点。
52.s504，根据各起止时间点，对待处理音频进行片段分割，得到多个非人声片段和人声片段。
53.可以理解，在确定了人声的起止时间点后，人声开始时间点和该人声开始时间点后的第一个人声停止时间点之间为一个人声片段，人声停止时间点和该人声停止时间点后的第一个人声开始时间点之间为一个非人声片段。基于此，可以将待处理音频分割为多个非人声片段和人声片段。
54.应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
55.在一个实施例中，本发明实施例提供了一种音频处理装置，该音频处理装置包括广告音频获取模块、片段分割模块、目标非人声片段确定模块、嵌入模块和拼接模块。广告音频获取模块用于获取待处理音频对应的广告音频。片段分割模块用于对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段。目标非人声片段确定模块用于从至少一个非人声片段中确定目标非人声片段；目标非人声片段的持续时间大于或等于广告音频的持续时间。嵌入模块用于在目标非人声片段嵌入广告音频。拼接模块用于将嵌入广告音频后的至少一个目标非人声片段与其余片段进行拼接，得到目标音频；其余片段包括待处理音频中除至少一个目标非人声片段外的至少一个非人声片段以及至少一个人声片段。
56.在其中一个实施例中，为了避免播放广告音频时过于突兀，嵌入模块还用于在目标非人声片段中确定目标起始点和目标结束点。目标起始点与前一人声片段的间隔大于预设阈值，目标结束点与后一人声片段的间隔大于预设阈值；根据目标起始点和目标结束点，在目标非人声片段嵌入广告音频，以使广告音频处于目标起始点和目标结束点之间。
57.在其中一个实施例中，考虑到嵌入广告音频后的目标非人声片段的响度将发生改变，可能导致播放目标音频时出现响度大小不一的问题，音频处理装置还包括响度调整模块。响度调整模块用于根据目标非人声片段以外的各片段的响度，确定目标响度；各片段包括待处理音频中除目标非人声片段外的至少一个非人声片段以及至少一个人声片段；调整广告音频和目标非人声片段的响度，以使嵌入广告音频后的目标非人声片段的响度与目标响度匹配。
58.在其中一个实施例中，响度调整模块还用于降低目标非人声片段的响度，并根据目标非人声片段的响度降低量调整广告音频的响度，以使调整后广告音频的响度与调整后
目标非人声片段的响度之和与目标响度匹配。
59.在其中一个实施例中，为实现对待处理音频进行片段分割，片段分割模块还用于：识别待处理音频中人声的起止时间点；根据各起止时间点，对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段。
60.在其中一个实施例中，若目标非人声片段有多个，嵌入模块还用于：获取多个目标非人声片段中与广告音频的时长差值最小的目标非人声片段，在时长差值最小的目标非人声片段嵌入广告音频。
61.该音频处理装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故上述所提供的一个或多个音频处理装置实施例中的具体限定可以参见上文中对于音频处理方法的限定，在此不再赘述。
62.上述音频处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
63.在一个实施例中，本发明实施例提供了一种计算机设备，该计算机设备可以是终端、服务器等，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以上述的音频处理方法的步骤。具体而言，处理器执行计算机程序时实现：
64.获取待处理音频对应的广告音频；
65.对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段；
66.从至少一个非人声片段中确定目标非人声片段；目标非人声片段的持续时间大于或等于广告音频的持续时间；
67.在目标非人声片段嵌入广告音频；
68.将嵌入广告音频后的至少一个目标非人声片段与其余片段进行拼接，得到目标音频；其余片段包括待处理音频中除至少一个目标非人声片段外的至少一个非人声片段以及至少一个人声片段。
69.本领域技术人员可以理解，图6中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
70.在其中一个实施例中，为了避免播放广告音频时过于突兀，处理器执行计算机程序时实现：
71.在目标非人声片段中确定目标起始点和目标结束点；目标起始点与前一人声片段的间隔大于预设阈值，目标结束点与后一人声片段的间隔大于预设阈值；
72.根据目标起始点和目标结束点，在目标非人声片段嵌入广告音频，以使广告音频处于目标起始点和目标结束点之间。
73.在其中一个实施例中，考虑到嵌入广告音频后的目标非人声片段的响度将发生改
变，可能导致播放目标音频时出现响度大小不一的问题，处理器执行计算机程序时实现：
74.根据目标非人声片段以外的各片段的响度，确定目标响度；各片段包括待处理音频中除目标非人声片段外的至少一个非人声片段以及至少一个人声片段；
75.调整广告音频和目标非人声片段的响度，以使嵌入广告音频后的目标非人声片段的响度与目标响度匹配。
76.在其中一个实施例中，处理器执行计算机程序时实现：降低目标非人声片段的响度，并根据目标非人声片段的响度降低量调整广告音频的响度，以使调整后广告音频的响度与调整后目标非人声片段的响度之和与目标响度匹配。
77.在其中一个实施例中，为实现对待处理音频进行片段分割，处理器执行计算机程序时实现：
78.识别待处理音频中人声的起止时间点；
79.根据各起止时间点，对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段。
80.在其中一个实施例中，为实现从多个目标非人声片段中确定最终的目标非人声片段，处理器执行计算机程序时实现：
81.获取多个目标非人声片段中与广告音频的时长差值最小的目标非人声片段，在时长差值最小的目标非人声片段嵌入广告音频。
82.在其中一个实施例中，处理器执行计算机程序时实现上述任意音频处理方法任一实施例中的步骤。
83.本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现：
84.获取待处理音频对应的广告音频；
85.对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段；
86.从至少一个非人声片段中确定目标非人声片段；目标非人声片段的持续时间大于或等于广告音频的持续时间；
87.在目标非人声片段嵌入广告音频；
88.将嵌入广告音频后的至少一个目标非人声片段与其余片段进行拼接，得到目标音频；其余片段包括待处理音频中除至少一个目标非人声片段外的至少一个非人声片段以及至少一个人声片段。
89.在其中一个实施例中，为了避免播放广告音频时过于突兀，计算机程序被处理器执行时实现：
90.在目标非人声片段中确定目标起始点和目标结束点；目标起始点与前一人声片段的间隔大于预设阈值，目标结束点与后一人声片段的间隔大于预设阈值；
91.根据目标起始点和目标结束点，在目标非人声片段嵌入广告音频，以使广告音频处于目标起始点和目标结束点之间。
92.在其中一个实施例中，考虑到嵌入广告音频后的目标非人声片段的响度将发生改变，可能导致播放目标音频时出现响度大小不一的问题，计算机程序被处理器执行时实现：
93.根据目标非人声片段以外的各片段的响度，确定目标响度；各片段包括待处理音频中除目标非人声片段外的至少一个非人声片段以及至少一个人声片段；
94.调整广告音频和目标非人声片段的响度，以使嵌入广告音频后的目标非人声片段的响度与目标响度匹配。
95.在其中一个实施例中，计算机程序被处理器执行时实现：降低目标非人声片段的响度，并根据目标非人声片段的响度降低量调整广告音频的响度，以使调整后广告音频的响度与调整后目标非人声片段的响度之和与目标响度匹配。
96.在其中一个实施例中，为实现对待处理音频进行片段分割，计算机程序被处理器执行时实现：
97.识别待处理音频中人声的起止时间点；
98.根据各起止时间点，对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段。
99.在其中一个实施例中，为实现从多个目标非人声片段中确定最终的目标非人声片段，处理器执行计算机程序时实现：
100.获取多个目标非人声片段中与广告音频的时长差值最小的目标非人声片段，在时长差值最小的目标非人声片段嵌入广告音频。
101.本发明实施例提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现：
102.获取待处理音频对应的广告音频；
103.对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段；
104.从至少一个非人声片段中确定目标非人声片段；目标非人声片段的持续时间大于或等于广告音频的持续时间；
105.在目标非人声片段嵌入广告音频；
106.将嵌入广告音频后的至少一个目标非人声片段与其余片段进行拼接，得到目标音频；其余片段包括待处理音频中除至少一个目标非人声片段外的至少一个非人声片段以及至少一个人声片段。
107.在其中一个实施例中，为了避免播放广告音频时过于突兀，计算机程序被处理器执行时实现：
108.在目标非人声片段中确定目标起始点和目标结束点；目标起始点与前一人声片段的间隔大于预设阈值，目标结束点与后一人声片段的间隔大于预设阈值；
109.根据目标起始点和目标结束点，在目标非人声片段嵌入广告音频，以使广告音频处于目标起始点和目标结束点之间。
110.在其中一个实施例中，考虑到嵌入广告音频后的目标非人声片段的响度将发生改变，可能导致播放目标音频时出现响度大小不一的问题，计算机程序被处理器执行时实现：
111.根据目标非人声片段以外的各片段的响度，确定目标响度；各片段包括待处理音频中除目标非人声片段外的至少一个非人声片段以及至少一个人声片段；
112.调整广告音频和目标非人声片段的响度，以使嵌入广告音频后的目标非人声片段的响度与目标响度匹配。
113.在其中一个实施例中，计算机程序被处理器执行时实现：降低目标非人声片段的响度，并根据目标非人声片段的响度降低量调整广告音频的响度，以使调整后广告音频的响度与调整后目标非人声片段的响度之和与目标响度匹配。
114.在其中一个实施例中，为实现对待处理音频进行片段分割，计算机程序被处理器执行时实现：
115.识别待处理音频中人声的起止时间点；
116.根据各起止时间点，对待处理音频进行片段分割，得到至少一个非人声片段和至少一个人声片段。
117.在其中一个实施例中，为实现从多个目标非人声片段中确定最终的目标非人声片段，处理器执行计算机程序时实现：
118.获取多个目标非人声片段中与广告音频的时长差值最小的目标非人声片段，在时长差值最小的目标非人声片段嵌入广告音频。
119.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
120.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器(ferroelectric random access memory，fram)、相变存储器(phase change memory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
121.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
122.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈洲旋
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人

上一篇：一种电气试验用电力测试夹的制作方法
下一篇：一种电源的输出过流保护方法与流程