基于深度学习的广告语音智能生成系统、方法及存储介质与流程

文档序号：29495056发布日期：2022-04-06 14:54阅读：103来源：国知局

1.本发明涉及广告设计技术领域，具体涉及一种基于深度学习的广告语音智能生成系统、方法及存储介质。

背景技术：

2.广告最主要的作用就是引导消费，广告造成的视觉、听觉印象会勾起消费者的现实购买欲望。目前的广告语音基本上为人工配音，对于小微企业以及个体商户来说比较麻烦，要么老板或员工亲自上阵配音，要么请专业的配音演员进行人工配音，这些方式均需要频繁试音和配音，会花费大量的时间成本与人力成本。其次目前的智能语音合成的音频较为平淡枯燥，直接运用到广告中并不能很好的实现广告的宣传效果。

技术实现要素：

3.本发明的目的之一在于提供一种基于深度学习的广告语音智能生成系统，能够降低广告语音制作的时间成本与人力成本，并保证广告的宣传效果。
4.为了达到上述目的，提供了一种基于深度学习的广告语音智能生成系统，包括服务器，所述服务器包括以下模块：
5.需求获取模块：用于获取用户的广告配音需求和对应的配音准备文件；所述配音准备文件包括广告样片和配音文本；
6.广告分析模块：用于对广告样片进行内容分析，所述内容分析包括应用场景分析；
7.语音生成模块：用于根据应用场景分析从语音生成模型库中筛选语音生成模型，并将配音文本导入语音生成模型中，得到广告语音初版文件；
8.配乐选取模块：用于根据应用场景分析和广告语音初版文件的时间长度选取相匹配的背景音乐；
9.声音处理模块：用于将广告语音初版文件与背景音乐进行合成得到广告语音终版文件，并将广告语音终版文件发送给用户。
10.原理及优点：
11.1.需求获取模块、语音生成模块和声音处理模块的设置，用户仅需将自己的广告配音需求和对应的配音准备文件发给服务器即可，剩下广告配音完全交由服务器的语音生成模块等进行广告语音生成。省去了传统配音的繁复过程，极大地降低了时间成本与人力成本，十分适合小微企业以及个体商户。
12.2.广告分析模块的设置，会对广告样片进行内容分析，以得到该广告最合适的应用场景，例如五金商店、快餐餐店、超市、美食店铺、鞋店、衣服店、零食店、水果店、肉店、菜店、花店等个体商户或小微企业。通过得到该广告最合适的应用场景，再来挑选对应的语音生成模型从而生成对应的广告语音，可以提高广告的契合度，从而进一步提高广告的宣传效果。
13.3.配乐选取模块的设置，可以为广告样片选取相匹配的背景音乐，避免广告语音
初版文件过于平淡枯燥，达不到广告的宣传效果。而且背景音乐同样基于应用场景分析挑选的，能够让背景音乐更适合广告样片，从而进一步提高广告的宣传效果。
14.进一步，所述服务器还包括：
15.同类分析模块：用于根据应用场景分析查询同类别的优质广告，并获取其广告语音，再根据所述广告语音分析音调和音色；
16.所述语音生成模块用于在语音生成模型时，根据音调和音色从语音生成模型库中筛选音调和音色相近似或相同的语音生成模型。
17.有些用户需求明确，而有些用户需求不明确，其中需求不明确的用户更容易出现问题，例如对于生成的广告语音终版文件，用户可能不满意，会重复递交材料生成广告配音，这样会极大程度的浪费设备资源和时间。而同类分析模块根据应用场景分析查询同类别的优质广告，并获取其广告语音，再根据所述广告语音分析音调和音色；以方便挑选出符合大众品味的语音再生成广告语音，从而提高用户的满意度，避免反复操作，进而避免设备资源和时间的浪费。
18.进一步，所述服务器还包括：
19.文本分析模块：用于对配音文本进行语义分析，并根据语义分析将配音文本划分为多段配音文本短句，还用于各段配音文本短句匹配配音情绪，所述配音情绪包括舒缓、轻快、激昂；
20.成品分析模块：用于获取广告样片的播放时长和广告语音终版文件的时长，分析判断广告样片的播放时长是否适配广告语音终版文件的时长；
21.成品加工模块：用于在广告语音终版文件的时长不适配广告样片的播放时长时，根据各段配音文本短句的配音情绪来调整广告语音终版文件中对应部分的语速和音调。
22.文本分析模块的设置，方便为广告配音加入感情，从而进一步提高广告的宣传效果。而且结合成品分析模块和成品加工模块还可以让广告语音终版文件的时长适配广告样片的播放时长，避免还需花时间去调整。
23.进一步，所述背景音乐包括一首音乐、一段音乐或多段音乐的组合；所述服务器还包括：
24.背景音乐响度控制模块：用于获取广告语音初版文件的声音强度，并根据广告语音终版文件的声音强度调节背景音乐的声音强度；
25.过渡处理模块：用于对广告语音终版文件的开头进行过渡处理，还用于在背景音乐为多段音乐的组合时，在多段音乐之间进行过渡处理；所述过渡处理包括音调和响度的递增处理或递减处理。
26.背景音乐响度控制模块的设置，避免背景音乐响度超过广告语音终版文件的声音强度，从而导致本末倒置，降低广告的宣传效果。而过渡处理模块的设置，一方面可以避免突然出现的且较大声音惊扰到用户，从而避免影响用户的第一观感印象，另一方面可以使得多段音乐之间过渡更为顺畅圆滑，提高用户的观感体验，从而提高广告的宣传效果。
27.本发明的目的之二在于提供一种基于深度学习的广告语音智能生成方法，所述方法应用于上述系统，具体包括以下步骤：
28.需求获取步骤：获取用户的广告配音需求和对应的配音准备文件；所述配音准备文件包括广告样片和配音文本；
29.广告分析步骤：对广告样片进行内容分析，所述内容分析包括应用场景分析；
30.语音生成步骤：根据应用场景分析从语音生成模型库中筛选语音生成模型，并将配音文本导入语音生成模型中，得到广告语音初版文件；
31.配乐选取步骤：根据应用场景分析和广告语音初版文件的时间长度选取相匹配的背景音乐；
32.声音处理步骤：将广告语音初版文件与背景音乐进行合成得到广告语音终版文件，并将广告语音终版文件发送给用户。
33.原理及优点：
34.1.需求获取步骤、语音生成步骤和声音处理步骤的设置，用户仅需将自己的广告配音需求和对应的配音准备文件发给服务器即可，剩下广告配音完全交由服务器的语音生成步骤等进行广告语音生成。省去了传统配音的繁复过程，极大地降低了时间成本与人力成本，十分适合小微企业以及个体商户。
35.2.广告分析步骤的设置，会对广告样片进行内容分析，以得到该广告最合适的应用场景，例如五金商店、快餐餐店、超市、美食店铺、鞋店、衣服店、零食店、水果店、肉店、菜店、花店等个体商户或小微企业。通过得到该广告最合适的应用场景，再来挑选对应的语音生成模型从而生成对应的广告语音，可以提高广告的契合度，从而进一步提高广告的宣传效果。
36.3.配乐选取步骤的设置，可以为广告样片选取相匹配的背景音乐，避免广告语音初版文件过于平淡枯燥，达不到广告的宣传效果。而且背景音乐同样基于应用场景分析挑选的，能够让背景音乐更适合广告样片，从而进一步提高广告的宣传效果。
37.进一步，还包括以下步骤：
38.同类分析步骤：根据应用场景分析查询同类别的优质广告，并获取其广告语音，再根据所述广告语音分析音调和音色；
39.所述语音生成步骤用于在语音生成模型时，根据音调和音色从语音生成模型库中筛选音调和音色相近似或相同的语音生成模型。
40.有些用户需求明确，而有些用户需求不明确，其中需求不明确的用户更容易出现问题，例如对于生成的广告语音终版文件，用户可能不满意，会重复递交材料生成广告配音，这样会极大程度的浪费设备资源和时间。而同类分析步骤根据应用场景分析查询同类别的优质广告，并获取其广告语音，再根据所述广告语音分析音调和音色；以方便挑选出符合大众品味的语音再生成广告语音，从而提高用户的满意度，避免反复操作，进而避免设备资源和时间的浪费。
41.进一步，还包括以下步骤：
42.文本分析步骤：对配音文本进行语义分析，并根据语义分析将配音文本划分为多段配音文本短句，还用于各段配音文本短句匹配配音情绪，所述配音情绪包括舒缓、轻快、激昂；
43.成品分析步骤：获取广告样片的播放时长和广告语音终版文件的时长，分析判断广告样片的播放时长是否适配广告语音终版文件的时长；
44.成品加工步骤：在广告语音终版文件的时长不适配广告样片的播放时长时，根据各段配音文本短句的配音情绪来调整广告语音终版文件中对应部分的语速和音调。
45.文本分析步骤的设置，方便为广告配音加入感情，从而进一步提高广告的宣传效果。而且结合成品分析步骤和成品加工步骤还可以让广告语音终版文件的时长适配广告样片的播放时长，避免还需花时间去调整。
46.进一步，所述背景音乐包括一首音乐、一段音乐或多段音乐的组合；所述方法还包括以下步骤：
47.背景音乐响度控制步骤：获取广告语音初版文件的声音强度，并根据广告语音终版文件的声音强度调节背景音乐的声音强度；
48.过渡处理步骤：对广告语音终版文件的开头进行过渡处理，还用于在背景音乐为多段音乐的组合时，在多段音乐之间进行过渡处理；所述过渡处理包括音调和响度的递增处理或递减处理。
49.背景音乐响度控制步骤的设置，避免背景音乐响度超过广告语音终版文件的声音强度，从而导致本末倒置，降低广告的宣传效果。而过渡处理步骤的设置，一方面可以避免突然出现的且较大声音惊扰到用户，从而避免影响用户的第一观感印象，另一方面可以使得多段音乐之间过渡更为顺畅圆滑，提高用户的观感体验，从而提高广告的宣传效果。
50.本发明的目的之三在于提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于深度学习的广告语音智能生成程序，所述基于深度学习的广告语音智能生成程序被处理器执行时，实现上述的基于深度学习的广告语音智能生成方法中的步骤。
附图说明
51.图1为本发明实施例基于深度学习的广告语音智能生成系统的逻辑框图。
具体实施方式
52.下面通过具体实施方式进一步详细说明：
53.实施例
54.一种基于深度学习的广告语音智能生成系统，基本如附图1所示：包括服务器和用户端，所述用户端搭载有app，用于与服务器进行远程通信连接。可以将用户的广告配音需求和对应的配音准备文件一起发于服务器，由服务器来合成语音。所述服务器包括以下模块：
55.需求获取模块：用于获取用户的广告配音需求和对应的配音准备文件；所述配音准备文件包括广告样片和配音文本；所述广告配音需求可包括男童声、青年男声、中年男声、老年男声、女童声、青年女声、中年女声、老年女声等声音需求。具体操作的时候，服务器会向用户端发送一个需求模板，让用户填写需求和上传对应的文件。
56.广告分析模块：用于对广告样片进行内容分析，所述内容分析包括应用场景分析；应用场景指广告具体应用的店面或店铺，例如五金商店、快餐餐店、超市、美食店铺、鞋店、衣服店、零食店、水果店、肉店、菜店、花店、书店、按摩店等个体商户或小微企业。
57.同类分析模块：用于根据应用场景分析从互联网或设置的案例数据库中查询同类别的优质广告，并获取其广告语音，再根据所述广告语音分析音调和音色；男童声、青年男声、中年男声、老年男声、女童声、青年女声、中年女声、老年女声等声音需求仅是一个大类，而通过音调和音色能够得到一个更具体且符合大众喜好的声音，使得广告容易被接受，从
而提高广告的效果。
58.语音生成模块：用于根据应用场景分析从语音生成模型库中筛选语音生成模型，并将配音文本导入语音生成模型中，得到广告语音初版文件；所述语音生成模块用于在语音生成模型时，具体根据音调和音色从语音生成模型库中筛选音调和音色相近似或相同的语音生成模型。服务器还会提供广告语音库以及广告文本资源等，广告语音库提供试音，以方便用户确定广告配音的音调和音色。而广告文本资源可以提供广告文本，方便用户直接使用或稍加修改进行使用。同时还会周期性的对广告语音库和广告文本资源进行更新，以方便满足不同用户的选用需求。而语音生成模型采用(包括但不限于)nlp、transformers、lstm以及gan等现有模型训练最新的语音生成模型，并保存到语音生成模型库中。同时为不同用户配置使用的语音生成模型，也会保存到语音生成模型库中，实现语音生成模型库的更新迭代，从而适应各种人群的需求。
59.配乐选取模块：用于根据应用场景分析和广告语音初版文件的时间长度选取相匹配的背景音乐；所述背景音乐包括一首音乐、一段音乐或多段音乐的组合；
60.背景音乐响度控制模块：用于获取广告语音初版文件的声音强度，并根据广告语音终版文件的声音强度调节背景音乐的声音强度；
61.声音处理模块：用于将广告语音初版文件与背景音乐进行合成得到广告语音终版文件，并将广告语音终版文件发送给用户。
62.过渡处理模块：用于对广告语音终版文件的开头进行过渡处理，还用于在背景音乐为多段音乐的组合时，在多段音乐之间进行过渡处理；所述过渡处理包括音调和响度的递增处理或递减处理。
63.文本分析模块：用于对配音文本进行语义分析，并根据语义分析将配音文本划分为多段配音文本短句，还用于各段配音文本短句匹配配音情绪，所述配音情绪包括舒缓、轻快、激昂；
64.成品分析模块：用于获取广告样片的播放时长和广告语音终版文件的时长，分析判断广告样片的播放时长是否适配广告语音终版文件的时长；
65.成品加工模块：用于在广告语音终版文件的时长不适配广告样片的播放时长时，根据各段配音文本短句的配音情绪来调整广告语音终版文件中对应部分的语速和音调。
66.模块推送模块：用于将广告语音终版文件推送给用户。
67.一种基于深度学习的广告语音智能生成方法，所述方法应用于上述系统，具体包括以下步骤：
68.需求获取步骤：获取用户的广告配音需求和对应的配音准备文件；所述配音准备文件包括广告样片和配音文本；所述广告配音需求可包括男童声、青年男声、中年男声、老年男声、女童声、青年女声、中年女声、老年女声等声音需求。具体操作的时候，服务器会向用户端发送一个需求模板，让用户填写需求和上传对应的文件。
69.广告分析步骤：对广告样片进行内容分析，所述内容分析包括应用场景分析；应用场景指广告具体应用的店面或店铺，例如五金商店、快餐餐店、超市、美食店铺、鞋店、衣服店、零食店、水果店、肉店、菜店、花店等个体商户或小微企业。
70.语音生成步骤：根据应用场景分析从语音生成模型库中筛选语音生成模型，并将配音文本导入语音生成模型中，得到广告语音初版文件；所述语音生成步骤中，在语音生成
模型时，具体根据音调和音色从语音生成模型库中筛选音调和音色相近似或相同的语音生成模型。服务器还会提供广告语音库以及广告文本资源等，以及周期性对广告语音库和广告文本资源进行更新，以方便用户的选用。而语音生成模型采用(包括但不限于)nlp、transformers、lstm以及gan等模型训练最新的语音生成模型，并保存到语音生成模型库中。
71.配乐选取步骤：根据应用场景分析和广告语音初版文件的时间长度选取相匹配的背景音乐；所述背景音乐包括一首音乐、一段音乐或多段音乐的组合；
72.背景音乐响度控制步骤：获取广告语音初版文件的声音强度，并根据广告语音终版文件的声音强度调节背景音乐的声音强度；
73.声音处理步骤：将广告语音初版文件与背景音乐进行合成得到广告语音终版文件，并将广告语音终版文件发送给用户。
74.过渡处理步骤：对广告语音终版文件的开头进行过渡处理，还用于在背景音乐为多段音乐的组合时，在多段音乐之间进行过渡处理；所述过渡处理包括音调和响度的递增处理或递减处理。
75.文本分析步骤：对配音文本进行语义分析，并根据语义分析将配音文本划分为多段配音文本短句，还用于各段配音文本短句匹配配音情绪，所述配音情绪包括舒缓、轻快、激昂；
76.成品分析步骤：获取广告样片的播放时长和广告语音终版文件的时长，分析判断广告样片的播放时长是否适配广告语音终版文件的时长；
77.成品加工步骤：在广告语音终版文件的时长不适配广告样片的播放时长时，根据各段配音文本短句的配音情绪来调整广告语音终版文件中对应部分的语速和音调。
78.一种计算机可读存储介质，所述计算机可读存储介质中包括基于语音分类的场景识别的程序，所述基于语音分类的场景识别的程序被处理器执行时，实现基于语音分类的场景识别方法中的步骤。
79.本领域普通技术人员可以理解实现上述基于深度学习的广告语音智能生成方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一些易失性计算机可读取存储介质中，该程序在执行时，可包括如上述基于深度学习的广告语音智能生成方法的各个实施条例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
80.以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本技术给出的启示下，结合自身能力完善并实施本方
案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本技术的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本技术要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊义辉
技术所有人：重庆杰夫与友文化创意有限公司
我是此专利的发明人