基于语义语调的方言语音生成方法、系统及介质与流程

文档序号：35443693发布日期：2023-09-14 01:42阅读：32来源：国知局

本发明涉及语音合成，具体涉及基于语义语调的方言语音生成方法、系统及介质。

背景技术：

1、汉语方言是汉语的地域变体，一般认为，汉语方言通常分为十大方言：官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话；一个大方言内部仍存在语言差异，因此大方言之下又分次方言，次方言内部还可以再分为若干土语。如，官话方言分为：东北官话、北京官话、冀鲁官话、胶辽官话、兰银官话、西南官话和江淮官话；西南官话下分6片、22小片，主要分布于四川、重庆、贵州、云南、湖北、广西、湖南七省和直辖市。

2、对于汉语方言的语音识别和语音合成技术越来越成熟，语音合成是一种将文字信息转变为可以听得懂的、流利的汉语口语输出的技术。语音合成不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性。

3、现有的方言语音生成方法主要是大方言区方言，但是一个大方言区内部仍存在语言差异，现有的方言语音合成技术，仍然存在大方言区内部交流障碍的问题。

技术实现思路

1、本发明所要解决的技术问题是：现有的方言语音生成方法主要是大方言区方言，但是一个大方言区内部仍存在语言差异，目前的方言语音合成技术，仍然存在大方言区内部交流障碍的问题；本发明目的在于提供基于语义语调的方言语音生成方法、系统及介质，通过与阅读者进行一轮对话，根据阅读者的次方言语音输入信息调取相应的次方言规则，依据次方言规则将输出文本转化成次方言语音输出，有效帮助有视觉障碍的人阅读输出文本，增加文本文档的可读性，同时解决大方言区内部的语言差异导致的沟通难的问题。

2、本发明通过下述技术方案实现：

3、本方案提供基于语义语调的方言语音生成方法，包括：

4、识别次方言语音输入信息；

5、对次方言语音输入信息进行语义语调相似度分析，并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则；所述大方言语料库中存储有大方言区内所有方言规则，包括基本方言规则和次方言规则；所述基本方言规则为大方言区内使用人数最多方言所对应的规则；所述方言规则包括语义规则和语调规则；所述语义语调相似度分析包括：在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中，计算出的语义相似度和语调相似度，基于语义相似度和语调相似度得到语义语调相似度分析结果；

6、获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本；

7、按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音；

8、输出所述次方言语音。

9、本方案工作原理：现有的方言语音生成方法主要是针对大方言区，但是一个大方言区内部仍存在语言差异，比如巴蜀方言区中，不同区域还有各自的方言，一些典型的乡音比较特别的如乐山方言、内江方言、自贡方言、宜宾方言、泸州方言和雅安话等，相互之间语义和语调存在较大的差异；在进行方言语音生成时，现有方法通常直接按照的大方言区内使用人数最多的基本方言规则生成基本方言语音，对于乡音特别的区域依旧存在方言难以理解的现象；鉴于此，本方案提供基于语义语调的方言语音生成方法，在现有的方言语音生成技术基础上进行方法上的改进，分析次方言输入信息的语义语调，根据语义语调分析结果确定该次方言输入信息的所属次方言规则，并按照次方言规则（语义规则）对基本方言输出文本进行修正，按照次方言规则（语调规则）输出次方言语音，有效解决大方言区内部的语言差异导致的沟通难的问题，有效帮助有视觉障碍的人阅读输出文本，更能增加文本文档的可读性；考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点，本方案选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征，根据语音语义分析结果来匹配查找对应的次方言规则，保障对应次方言规则匹配精准度，提高方言语音生成的有效性。

10、所述次方言输入信息包括次方言语音信息或精准的次方言名称信息，当次方言输入信息为精准的次方言名称信息，则可以省略语义语调分析和搜索过程，可以直接调取相关的次方言规则对基本方言输出文本进行给修正。

11、本方案提供了一种新的技术构思，通过与阅读者进行一轮交互，根据阅读者的（交互信息）次方言语音输入信息匹配调取相应的次方言规则，依据次方言规则将输出文本转化成次方言语音输出，有效帮助有视觉障碍的人阅读输出文本，更能增加文本文档的可读性，同时解决大方言区内部的语言差异导致的沟通难的问题。

12、进一步优化方案为，若在大方言语料库中未搜索出与语义语调相似度分析结果匹配的次方言规则时，直接将基本方言输出文本转化成基本方言语音后输出；当大方言语料库中未搜索匹配的次方言规则，就直接以使用人数最多的基本方言输出。

13、进一步优化方案为，所述识别次方言语音输入信息，包括方法：

14、将所述次方言语音输入信息输入到预先训练的方言语音识别模型中，得到次方言语音输入信息的识别信息，所述识别信息包括语义文本和语音信息。

15、进一步优化方案为，所述对次方言语音输入信息进行语义语调相似度分析，包括方法：

16、s1，获取次方言语音输入信息的语义文本和语音信息，基于基本方言规则先将语义文本转化成基本方言文本，再将基本方言文本转化成基本方言语音；

17、s2，基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度qy，基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度qd；

18、s3，根据语调相似度qd和语义相似度qy计算出语义语调相似度q：

19、

20、其中k为相似度系数。

21、进一步优化方案为，所述基于次方言语音输入信息的语义文本与基本方言文本计算语义相似度qy，包括方法：

22、分别对语音输入文本和基本方言输入文本进行词汇分割；

23、以句子为单位将语音输入文本和基本方言输入文本分别划分成m个句子，并对各句子进行词汇分割；

24、比较语音输入文本和基本方言输入文本对应同一句子的语义特征；所述语义特征包括：语音输入文本中句子i1对比基本方言输入文本中句子i2的相同词汇占比si：

25、si=s12/s2总

26、其中，句子i1 和句子i2相对应；s12为句子i1 和句子i2中相同词汇的数量，s2总为句子j2的词汇总数；

27、语音输入文本对应句子i1对比基本方言输入文本对应句子i2的句长差异li；即字数差异。

28、语音输入文本对应句子i1对比基本方言输入文本对应句子i2中表示同一语义词汇的位置差异ri；

29、基于语义特征计算语义相似度：

30、。

31、进一步优化方案为，所述基于次方言语音输入信息的语音信息与基本方言语音计算语调相似度qd，包括方法：

32、以句子为单位将次方言语音输入信息的语音信息和基本方言语音分别划分成m个语音；

33、比较次方言语音输入信息的语音信息和基本方言语音对应同一语音的语调特征，所述语调特征包括：

34、次方言语音输入信息的语音信息中语音j1对比基本方言语音中语音j2的音长差ki；

35、次方言语音输入信息的语音信息中语音j1对比基本方言语音中语音j2的调型差系数mi；（调型包含陈述、疑问、感叹和祈使，提前根据各次方言的语调特性设置各个调型之间的差异系数规则，根据差异系数规则确定出语音j1与语音j2的调型差系数mi）

36、次方言语音输入信息的语音信息中语音j1对比基本方言语音中语音j2间词汇停顿时长的最大差异ni；（根据上述的词汇分割，对比语音j1与语音j2中各个词汇之间的停顿时长，选出语音j1中最长的停顿时长，比较对应语音j2对应的停顿时长得到词汇停顿时长得到最大差异ni。）

37、基于语调特征计算语调相似度：

38、。

39、进一步优化方案为，所述基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则，包括方法：

40、将次方言语音输入信息的语义语调相似度q与各次方言规则对应的语义语调相似度阈值区间逐一进行比对，当次方言语音输入信息的语义语调相似度q落在次方言规则i对应的语义语调相似度阈值区间时，判定语义语调相似度q与次方言规则i匹配；

41、次方言规则i对应的语义语调相似度阈区间qi的获取方法包括：按照次方言规则i，将m组基本方言的语义文本和语音信息转化成次方言文本和次方言语音；计算各组基本方言的语义语调相似度和m组基本方言的平均相似度qimp,根据平均相似度qimp确定语义语调相似度阈区间qi。

42、本方案在对次方言语音输入信息进行语义语调相似度分析时，以大方言区内使用人数最多的基本方言为基础，考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点，选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征，用来匹配查找对应的次方言规则，保障对应次方言规则匹配精准度，提高方言语音生成的有效性。

43、次方言规则i对应的语义语调相似度阈区间qi的获取方法，与次方言语音输入信息的语义语调相似度分析结果的获取方法一致，只是，语义语调相似度阈区间qi的获取过程是从次方言转换成基本方言语音和文本，而次方言语音输入信息的语义语调相似度分析结果的过程是从基本方言转换成次方言语音和文本，一个是正向转换，一个反向转换，是的筛选过程更加精准。

44、进一步优化方案为，所述按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音，包括方法：根据匹配的次方言规则的语义规则修正基本方言输出文本，再根据匹配的次方言规则的语调规则将修正后的基本方言输出文本转化成次方言语音。

45、本方案还提供基于语义语调的方言语音生成系统，用于实现上述的基于语义语调的方言语音生成方法，包括：

46、识别模块，用于识别次方言语音输入信息；

47、分析搜索模块，用于对次方言语音输入信息进行语义语调相似度分析，并基于语义语调相似度分析结果在大方言语料库中搜索出匹配的次方言规则；所述大方言语料库中存储有大方言区内所有方言规则，包括基本方言规则和次方言规则；所述基本方言规则为大方言区内使用人数最多方言所对应的规则；所述方言规则包括语义规则和语调规则；所述语义语调相似度分析包括：在将次方言语音输入信息转化为基本方言语音和基本方言语音的过程中，计算出的语义相似度和语调相似度，基于语义相似度和语调相似度得到语义语调相似度分析结果；

48、输出文本获取模块，用于获取输出文本并依据基本方言规则将输出文本转化成基本方言输出文本；

49、修正模块，用于按照匹配的次方言规则，先对所述基本方言输出文本进行修正，再将修正后的基本方言输出文本转化成次方言语音；

50、输出模块，用于输出所述次方言语音。

51、本方案还提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行可实现如上述的基于语义语调的方言语音生成方法。

52、本发明与现有技术相比，具有如下的优点和有益效果：

53、1.本发明提供的基于语义语调的方言语音生成方法、系统及介质；在现有的方言语音生成技术基础上进行方法上的改进，分析次方言输入信息的语义语调，根据语义语调分析结果确定该次方言输入信息的所属次方言规则，并按照次方言规则（语义规则）对基本方言输出文本进行修正，按照次方言规则（语调规则）输出次方言语音，有效解决大方言区内部的语言差异导致的沟通难的问题，有效帮助有视觉障碍的人阅读输出文本，更能增加文本文档的可读性。

54、2.本发明提供的基于语义语调的方言语音生成方法、系统及介质；考虑到大方言区内各个次方言语义特征和语调特征差异明显的特点，本方案选定以次方言转换成基本方言过程中的语义差异特征和语调差异特征，根据语音语义分析结果来匹配查找对应的次方言规则，保障对应次方言规则匹配精准度，提高方言语音生成的有效性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高健豪崔晓乾
技术所有人：成都信通信息技术有限公司
我是此专利的发明人

上一篇：一种眼科设备的制作方法
上一篇：一种低扰动MPF仿生波动推进器的制作方法