一种基于参数配置的听力音频制作方法、系统及装置与流程

文档序号：34706560发布日期：2023-07-07 11:59阅读：184来源：国知局

本发明涉及一种基于参数配置的听力音频制作方法、系统及装置，属于信息处理。

背景技术：

1、当前文字转语音（text-to-speech）技术已经成熟，广泛应用于生活、工作、学习等方方面面。而针对各类听力考试，譬如英语听力考试的音频，由于听力考试中大量出现对话等内容，如果采用传统的人工录音方式，则至少需要男女教师各一名，通过朗读试题内容进行录音，这就对制作条件和制作成本都有较高要求。因此，针对英语听力考试音频的制作正由人工录音制作方式快速演变为使用“文字转语音”技术去生成，这大大节省了人力，也保证了制作质量的稳定性。

2、目前使用“文字转语音”技术去生成英语听力考试音频时，现有技术需要指定每段文字所使用的ai播音员及其语速，每道试题结束后需要插入停顿时间，用于学生答题，而在制作不同年级的听力考试音频时，其语速均不一样，低年级听力考试的语速需要较慢，以便降低难度，同时留给学生答题的停顿时间也需要更长。

3、因此，即便“文字转语音”技术的应用总体上降低了制作门槛，但依然需要大量的制作工作量，不同年级的听力考试具有不同的难度，其不仅体现在试题本身上，还体现在播音员语速、答题停顿时间等与听力制作相关联的多种条件上，这使得听力制作时需要考虑多种参数的调节，这也增加了听力制作的复杂性。

技术实现思路

1、发明目的：针对现有技术所存在的问题，本发明提供一种基于参数配置的听力音频制作方法、系统及装置，基于听力试题原文的逻辑结构划分，使得听力音频的制作参数体现出一定的规律性，从而抽象出相应的配置，大大简化听力音频的制作过程，提升其制作效率，降低其制作门槛。

2、技术方案：为实现上述目的，本发明提供了一种基于参数配置的听力音频制作方法，包括以下步骤：

3、以听力试题原文作为输入，并对听力试题原文的逻辑结构进行划分，所述逻辑结构的划分包括章节的划分以及试题/提示文本的划分；

4、基于听力试题原文的逻辑结构，将听力试题原文组织为各个章节，并将各个章节中的文本组织为“考试提示”和“试题”两类；

5、基于听力试题原文的章节结构，进行各类参数的配置，其中第一类参数包括“考试提示”文本的播音方式和停顿时间，第二类参数包括“试题”文本的播音方式和停顿时间，第三类参数包括各章节内试题的重复次数cx，其中停顿时间以静音的形式作为单独的音频或音频处理指令进行处理；

6、针对“考试提示”文本，根据第一类参数以段落为单位生成音频或音频处理指令；针对“试题”文本，以段落为单位进行题号和对话角色的识别，同时根据第二类参数生成音频或音频处理指令；当所有章节均处理完后，将所有生成的音频或音频处理指令按照文本顺序进行挂接，生成完整的音频或音频处理指令返回。

7、进一步的，进行参数配置时，将配置好的参数保存于后台，用于实现重复使用。

8、进一步的，后台所保存的配置以对应的听力类别进行标注，这样进行参数配置时，将自动识别“考试提示”文本中的听力类别，并在后台提取匹配的配置，如果提取成功则将其返回给用户进行选择和修改，否则返回默认配置给用户进行选择和修改。

9、进一步的，所述“考试提示”文本的停顿时间包括各段落之间的停顿时间h1和文本整体结尾的停顿时间h2；所述“试题”文本的停顿时间包括题号后的停顿时间q1、对话间的停顿时间q2和各段落之间的停顿时间q3（同一试题内）；所述第三类参数还包括各章节内试题开始前的提示音lsx、试题重复时的提示音lbx、试题重复时的停顿时间tx和试题结束后的停顿时间gx（用于答题），其中x表示章节序号。

10、进一步的，在根据“考试提示”和“试题”文本生成音频或音频处理指令时，先以段落为单位提取各类参数，并优先按照提取的参数生成音频或音频处理指令，如果提取不成功则按照配置的参数生成音频或音频处理指令。

11、本发明还提供一种基于参数配置的听力音频制作系统，包括以下模块：

12、总控模块，用于输入听力试题原文，并对听力试题原文的逻辑结构进行划分，所述逻辑结构的划分包括章节的划分以及试题/提示文本的划分；

13、章节管理模块，用于根据听力试题原文的逻辑结构，将听力试题原文组织为各个章节，并将各个章节中的文本组织为“考试提示”和“试题”两类；

14、配置管理模块，用于基于听力试题原文的章节结构，进行各类参数的配置，其中第一类参数包括“考试提示”文本的播音方式和停顿时间，第二类参数包括“试题”文本的播音方式和停顿时间，第三类参数包括各章节内试题的重复次数cx，其中停顿时间以静音的形式作为单独的音频或音频处理指令进行处理；

15、章节处理模块，包括考试提示处理子模块和试题处理子模块，其中针对“考试提示”文本，考试提示处理子模块根据第一类参数以段落为单位生成音频处理指令；针对“试题”文本，试题处理子模块以段落为单位进行题号和对话角色的识别，同时根据第二类和第三类参数生成音频处理指令；

16、音频生成模块，用于记录章节处理模块生成的音频处理指令，按照文本顺序进行挂接，并利用文字转语音技术进行处理，生成完整的听力音频。

17、进一步的，所述配置管理模块包括配置选择模块和配置库，其中配置好的参数以对应的听力类别进行标注并保存于配置库中，这样进行参数配置时，配置选择模块将自动识别“考试提示”文本中的听力类别，并在配置库内提取匹配的配置，如果提取成功则将其返回给用户进行选择和修改，否则返回默认配置给用户进行选择和修改。

18、进一步的，所述考试提示处理子模块和试题处理子模块在生成音频处理指令时，先以段落为单位提取各类参数，并优先按照提取的参数生成音频处理指令，如果提取不成功（即没有提取到相应的参数）则按照配置的参数生成音频处理指令。

19、进一步的，该系统还包括文本解析识别模块，所述文本解析识别模块可以采用预训练语言模型或正则化表达式等方式进行文本信息的提取，由此提取各类参数。

20、此外，还有一种基于参数配置的听力音频制作装置，包括用于运行上述听力音频制作系统的处理器。

21、有益效果：本发明提供的一种基于参数配置的听力音频制作方法、系统及装置，相对于现有技术，具有以下优点：

22、1、通过对听力试题原文的逻辑结构进行划分，使得听力试题原文被划分为多个章节，每个章节又进一步被划分为试题文本与提示文本，这样每一种类型文本的制作参数就可以体现出规律性，从而抽象出完整的参数配置（将制作一个听力音频所涉及的全部参数称为一个配置）。

23、2、一个完整的配置描述了每一种类型文本所需的制作参数，从而对每一种类型的文本逐段进行处理，在处理试题文本时更为复杂，需要识别出题号及对话角色，然后应用对应的参数，同时还要针对不同章节设置试题的重复次数和试题结束后的停顿时间，由此实现听力音频的自动制作。

24、3、使用者可以针对一个听力试题原文创建一个配置，如果制作类似的听力，那么这个配置可以被多次重用。使用者也可以根据不同年级，创建不同的配置，从而体现不同难度，在制作不同年级的听力时，只需选择对应年级的配置，在提升制作效率的同时，也体现了听力制作的标准化。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张晓益
技术所有人：南京思维构造数字技术有限公司
我是此专利的发明人

上一篇：一种用于检测人MTHFR基因分型的试剂盒的制作方法
下一篇：一种充电桩功率分配方法及系统与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！