1.本技术涉及语音合成技术领域,尤其涉及一种基于蒙太奇的语音合成方法、系统及设备。
背景技术:
2.蒙太奇通常是指电影中的场景转换,通过镜头、场面、段落的分切与组接,对素材进行选择和取舍,以使表现内容主次分明,达到高度的概括和集中,然而在语音合成中却难以实现,所以常常在合成语音(tts)中,会出现长篇大论式的催眠,究其原因,缺少场景转换的方式,使得用户在多个场景中用同一个场景的表达方式,这是因为现有技术只是对语音进行简单的文字转换输出,导致语音合成听起来十分生硬。
技术实现要素:
3.本技术提供了一种基于蒙太奇的语音合成方法、系统及设备,用于解决现有技术语音合成听起来十分生硬的技术问题。
4.有鉴于此,本技术第一方面提供了一种基于蒙太奇的语音合成方法,所述方法包括:对待处理文本已有的自然段落进行段落分段预处理后,基于场景类型、情感层次类型将待处理文本分为若干个实际段落;计算若干个所述实际段落中相邻段落的场景和情感层次的相关性;设定待处理文本的语调参数后,根据所述相关性计算待处理文本的语调变化比例和语调变化方向;根据所述语调变化比例和所述语调变化方向对待处理文本进行段落语音合成。
5.可选地,所述对待处理文本已有的自然段落进行段落分段预处理,具体包括:通过换行键对待处理文本已有的自然段落进行段落划分处理。
6.可选地,所述基于场景类型、情感层次类型将待处理文本分为若干个实际段落,具体包括:将场景类型相同且情感层次类型相同的不同段落合并为同一段落,将同一段落中场景类型不同且情感层次类型不同的子段落相应划分为若干个段落。
7.可选地,所述计算若干个所述实际段落中相邻段落的场景和情感层次的相关性,具体包括:通过人工对待处理文本进行场景和情感层次标注后进行相关性训练得到相关性计算模型,基于所述相关性计算模型计算若干个所述实际段落中相邻段落的场景和情感层次的相关性。
8.可选地,所述设定待处理文本的语调参数后,根据所述相关性计算待处理文本的语调变化比例和语调变化方向,具体包括:设定待处理文本的总调值变化的比例范围、基准语调和起调的上下限,计算相邻
段落的语调变化比例,以及计算所述总调值变化与所述相关性的比例和相邻段落的语调的升降并作为语调变化方向,从而得到待处理文本的语调变化比例和语调变化方向。
9.本技术第二方面提供一种基于蒙太奇的语音合成系统,所述系统包括:划分单元,用于对待处理文本已有的自然段落进行段落分段预处理后,基于场景类型、情感层次类型将待处理文本分为若干个实际段落;第一计算单元,用于计算若干个所述实际段落中相邻段落的场景和情感层次的相关性;第二计算单元,用于设定待处理文本的语调参数后,根据所述相关性计算待处理文本的语调变化比例和语调变化方向;合成单元,用于根据所述语调变化比例和所述语调变化方向对待处理文本进行段落语音合成。
10.可选地,所述划分单元,具体用于:通过换行键对待处理文本已有的自然段落进行段落划分处理;将场景类型相同且情感层次类型相同的不同段落合并为同一段落,将同一段落中场景类型不同且情感层次类型不同的子段落相应划分为若干个段落。
11.可选地,所述第一计算单元,具体用于:通过人工对待处理文本进行场景和情感层次标注后进行相关性训练得到相关性计算模型,基于所述相关性计算模型计算若干个所述实际段落中相邻段落的场景和情感层次的相关性。
12.可选地,所述第二计算单元,具体用于:设定待处理文本的总调值变化的比例范围、基准语调和起调的上下限,计算相邻段落的语调变化比例,以及计算所述总调值变化与所述相关性的比例和相邻段落的语调的升降并作为语调变化方向,从而得到待处理文本的语调变化比例和语调变化方向。
13.本技术第三方面提供一种基于蒙太奇的语音合成设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述的基于蒙太奇的语音合成方法的步骤。
14.从以上技术方案可以看出,本技术具有以下优点:本技术提供了一种基于蒙太奇的语音合成方法,包括:对待处理文本已有的自然段落进行段落分段预处理后,基于场景类型、情感层次类型将待处理文本分为若干个实际段落;计算若干个实际段落中相邻段落的场景和情感层次的相关性;设定待处理文本的语调参数后,根据相关性计算待处理文本的语调变化比例和语调变化方向;根据语调变化比例和语调变化方向对待处理文本进行段落语音合成。与现有技术相比,本技术首先根据场景和情感层次对待处理文本进行划分,得到符合实际场景和情感的段落,再计算相邻段落的相关性,基于相关性确定然后确定段落的起调和该实际段落的基准语调等参数,从而得到待处理文本的语调变化比例和语调变化方向,最后根据上述确定的语调变化比例和语调变化方向,进行段落语音合成,使语音合成更加生动,符合人的听觉习惯。从而解决了现有技术语音合成听起来十分生硬的技术问题。
附图说明
15.图1为本技术实施例中提供的一种基于蒙太奇的语音合成方法实施例的流程示意图;图2为本技术实施例中提供的一种基于蒙太奇的语音合成系统实施例的结构示意图。
具体实施方式
16.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
17.请参阅图1,本技术实施例中提供的一种基于蒙太奇的语音合成方法实施例,包括:步骤101、对待处理文本已有的自然段落进行段落分段预处理后,基于场景类型、情感层次类型将待处理文本分为若干个实际段落;需要说明的是,本实施例首先通过换行键对待处理文本已有的自然段落进行段落划分处理,之后将场景类型相同且情感层次类型相同的不同段落合并为同一段落,将同一段落中场景类型不同且情感层次类型不同的子段落相应划分为若干个段落。可以理解的是,例如:1)虽然待处理文本是两个段落,但讲的是同一个场景、同一个层次,则两段合并成一段;2)虽然文本是一个段落,但里面涉及到多个场景,多个情感层次,但应根据场景类型和情感层次类型划分为不同段落。
18.步骤102、计算若干个实际段落中相邻段落的场景和情感层次的相关性;需要说明的是,本实施例通过人工对待处理文本进行场景和情感层次标注后进行相关性训练得到相关性计算模型,基于所述相关性计算模型计算若干个所述实际段落中相邻段落的场景和情感层次的相关性。可以理解的是,需要通过人工标注进行大量的相关性训练,例如a和b段场景相关性k=50%,相关性范围为:0%-100%。
19.步骤103、设定待处理文本的语调参数后,根据相关性计算待处理文本的语调变化比例和语调变化方向;需要说明的是,本实施例,设定待处理文本的总调值变化的比例范围、基准语调和起调的上下限,计算相邻段落的语调变化比例,以及计算所述总调值变化与所述相关性的比例和相邻段落的语调的升降并作为语调变化方向,从而得到待处理文本的语调变化比例和语调变化方向。
20.具体的步骤如下:1)确定总的调值变化比例范围{0%-h%}(通常0-50%);确定基准语调调值jd的上限jdh和下限jdl,起调qd的上限qdh和下限qdl;2)确定总的调值变化与相关性的比例r=h/100;3)用人工智能得出每一个段落相对于上段语调的场景相关性kn;4)确定本段与上一段的语调变化比例vn=r*kn;5)确定本段相对于上一段语调的升降:
a、在语调升降后,如果jd属于[jdh,jdl]且qd属于[qdh,qdl],随机确定语调的升降。
[0021]
b、如果在语调升降后如果jd不属于[jdh_,jdl]或者qd不属于[qdh,qdl],则改变语调的变化方向(如原来想升,发现升后超出范围,就需要降)。
[0022]
步骤104、根据语调变化比例和语调变化方向对待处理文本进行段落语音合成。
[0023]
最后,根据步骤103确定的的语调变化比例和语调变化方向,进行段落语音合成。
[0024]
本实施例基于蒙太奇的语音合成方法,首先根据场景和情感层次对待处理文本进行划分,得到符合实际场景和情感的段落,再计算相邻段落的相关性,基于相关性确定然后确定段落的起调和该实际段落的基准语调等参数,从而得到待处理文本的语调变化比例和语调变化方向,最后根据上述确定的语调变化比例和语调变化方向,进行段落语音合成,使语音合成更加生动,符合人的听觉习惯。从而解决了现有技术语音合成听起来十分生硬的技术问题。
[0025]
以上为本技术实施例中提供的一种基于蒙太奇的语音合成方法实施例,以下为本技术实施例中提供的一种基于蒙太奇的语音合成系统实施例。
[0026]
请参阅图2,本技术实施例中提供的一种基于蒙太奇的语音合成系统实施例,包括:划分单元201,用于对待处理文本已有的自然段落进行段落分段预处理后,基于场景类型、情感层次类型将待处理文本分为若干个实际段落;第一计算单元202,用于计算若干个实际段落中相邻段落的场景和情感层次的相关性;第二计算单元203,用于设定待处理文本的语调参数后,根据相关性计算待处理文本的语调变化比例和语调变化方向;合成单元204,用于根据语调变化比例和语调变化方向对待处理文本进行段落语音合成。
[0027]
本实施例基于蒙太奇的语音合成系统,首先根据场景和情感层次对待处理文本进行划分,得到符合实际场景和情感的段落,再计算相邻段落的相关性,基于相关性确定然后确定段落的起调和该实际段落的基准语调等参数,从而得到待处理文本的语调变化比例和语调变化方向,最后根据上述确定的语调变化比例和语调变化方向,进行段落语音合成,使语音合成更加生动,符合人的听觉习惯。从而解决了现有技术语音合成听起来十分生硬的技术问题。
[0028]
进一步地,本技术实施例中还提供了一种基于蒙太奇的语音合成设备,其特征在于,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的基于蒙太奇的语音合成方法所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、单元和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0029]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当
情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0030]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0031]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0032]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0033]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0034]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-only memory,英文缩写:rom)、随机存取存储器(英文全称:random access memory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0035]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。