在本说明书(下面称为“本公开”)中公开的技术涉及执行与语音转换有关的处理的信息处理装置和信息处理方法、计算机程序、学习装置、远程会议系统以及支持装置。
背景技术:
1、虽然语音交互界面被广泛使用,但是难以在其他地方使用。这是因为在公共环境中进行讲话对其他人造成麻烦,并且机密信息可能泄露。即使在公共环境中召开远程会议的情况下,由于类似的原因,在远程会议中讲话也是困难的。公共环境最多只允许低语。然后,具有语音损伤的人和具有听力损伤的人仅可以生成微弱的语音或具有不规则韵律的语音。
2、允许仅发出低语或微弱的语音的环境或人期望能够转换成正常语音的语音转换技术。然而,虽然将正常语音转换为低语相对容易,但是由于低语不包括音高信息,所以将低语转换为正常语音是困难的。
3、虽然已经提出了各种类型的无声语音输入技术(即,无声语音接口(ssi))(例如,参见非专利文献1),但是在许多情况下,特殊传感器配置用于在发音时获得口头信息。由此,需要针对每个传感器配置和每个讲话者收集具有用于识别的文本的学习数据集,使得用于使用该技术的准备负荷增加。另外,现有的ssi技术识别精度不足,仍处于识别预定命令的水平,因此无法实现不受限于词汇和语言的情况下将清音语音转换为正常语音。
4、然后,虽然已经提出了将在低语中发出的低语转换成由正常发音方法发出的正常语音的语音转换装置(参见专利文献 1),但是该语音转换装置需要通过收集具有用于每个讲话者的识别的文本的学习数据集来使用,并且因此如上述ssi技术中那样增加准备负荷。
5、[引用列表]
6、[专利文献]
7、[专利文献 1]
8、jp h10-254473a
9、[非专利文献]
10、[非专利文献 1]
11、abdelkareem bedri, himanshu sahni, pavleen thukral, thad starner,david byrd, peter presti, gabriel reyes, maysam ghovanloo, and zehua guo.toward silentspeech control of consumer wearables. computer, vol. 48, no. 10,pp.54-62, 2015.
12、[非专利文献 2]
13、wei-ning hsu, benjamin bolte, yao-hung hubert tsai, kushal lakhotia,ruslan salakhutdinov, and abdelrahman mohamed. 2021. hubert: self-supervisedspeech representation learning by masked prediction of hidden units.(june2021). arxiv:2106.07447 [cs.cl]
14、[非专利文献 3]
15、jacob devlin, ming-wei chang, kenton lee, and kristina toutanova.bert: pre-training of deep bidirectional transformers for languageunderstanding, 2018.
16、[非专利文献 4]
17、vassil panayotov, guoguo chen, daniel povey, and sanjeev khudanpur.librispeech: an asr corpus based on public domain audio books. in 2015 ieeeinternational conference on acoustics, speech and signal processing (icassp),pp. 5206-5210, 2015.
18、[非专利文献 5]
19、boon pang lim. 2010. computational differences between whispered andnon-whispered speech. ph.d. dissertation. university of illinois urbana-champaign.
20、[非专利文献 6]
21、yi ren, chenxu hu, xu tan, tao qin, sheng zhao, zhou zhao, and tie-yan liu. fastspeech 2: fast and high-quality end-to-end text to speech, 2020.
22、[非专利文献 7]
23、jungil kong, jaehyeon kim, and jaekyoung bae. hifigan: generativeadversarial networks for efficient and high fidelity speech synthesis, 2020.
24、[非专利文献 8]
25、lisa lucks mendel, sungmin lee, monique pousson, chhayakantapatro,skylar mcsorley, bonny banerjee, shamima najnin, and masoumeh heidarikapourchali. corpus of deaf speech for acoustic and speech productionresearch. the journal of the acoustical society of america, vol. 142, no.(1), p. el102, 2017.
技术实现思路
1、[技术问题]
2、期望提供一种执行与语音转换有关的处理的信息处理装置和信息处理方法、计算机程序、学习装置、远程会议系统和支持装置,其中,该语音不是正常发出的,并且不包括诸如低语或者微弱的语音的音高信息。
3、[问题的解决方案]
4、本发明是鉴于上述问题而完成的,其第一方面是:
5、信息处理装置,包括:
6、语音到单位编码器,从语音波形生成声学单位;以及
7、单位到语音解码器,从声学单位重构语音波形。
8、单位到语音转换器通过使用没有特定讲话者的伴随文本标记的正常语音和低语的掩蔽语言模型类型的自监督学习进行初步学习,以生成正常语音和低语的共用声学单位,声学单位是吸收正常语音和低语之间的差异的潜在表达。
9、单位到语音解码器进行初步学习,以从声学单位生成目标语音的梅尔谱图。另外,单位到语音解码器还包括将梅尔谱图重构为语音波形的声码器。
10、基于通过用单位到语音解码器转换声学单位获得的梅尔谱图与从目标语音生成的梅尔谱图之间的差异,单位到语音解码器使用第一损失函数进行初步学习,声学单位是由语音到单位编码器从目标语音生成的。
11、另外,单位到语音解码器包括:从声学单位预测语音的韵律的音高预测器;以及从声学单位预测声学强度的能量预测器。然后,使用第二损失函数进一步执行对音高预测器和能量预测器的初步学习,第二损失函数基于由音高预测器和能量预测器针对由语音到单位编码器从目标语音生成的声学单位而分别预测的韵律和声学强度与直接从目标语音提取的韵律和声学强度之间的差异。
12、此外,本公开的第二方面是
13、信息处理方法,包括:
14、从语音波形生成声学单位;以及
15、从声学单位重构语音波形。
16、然后,本公开的第三方面是:
17、计算机程序,以计算机可读格式描述,允许计算机用作:
18、语音到单位编码器,从语音波形生成声学单位;以及
19、单位到语音解码器,从声学单位重构语音波形。
20、通过定义以计算机可读格式描述的计算机程序,以在计算机上实现预定处理,来获得根据本公开的第三方面的计算机程序。该计算机程序能够通过以计算机可读形式提供的存储介质或通信介质(例如,诸如光盘、磁盘或半导体存储器的存储介质,或诸如网络的通信介质)而被提供用于能够执行各种程序代码的目的计算机。然后,安装在使用任何一个介质的计算机中的根据本公开的第三方面的计算机程序在计算机上施加协作动作,使得可以获得与根据本公开的第一方面的装置类似的操作效果。
21、此外,本公开的第四方面是:
22、学习装置,学习从语音波形生成声学单位的语音到单位编码器,
23、学习装置被配置为通过使用正常语音和低语的掩蔽语言模型类型的自监督学习来学习语音到单位编码器,以生成正常语音和低语的共用声学单位,声学单位是潜在表达,其中,吸收正常语音和低语之间的差异,在掩蔽语言模型类型的自监督学习中,掩蔽输入的一部分并且从其他相关信息估计掩蔽的部分。
24、然后,本公开的第五方面是:
25、学习装置,学习从声学单位重构语音波形的单位到语音解码器,学习装置被配置为使用第一损失函数来学习单位到语音解码器,第一损失函数基于由单位到语音解码器使用冻结模型从目标语音生成的声学单位生成的梅尔谱图与从目标语音生成的梅尔谱图之间的差异。
26、此外,本发明的第六方面是:
27、远程会议系统,包括:
28、相互连接的多个会议终端;以及
29、语音转换装置,转换由每个会议终端输入的语音,
30、语音转换装置包括:语音到单位编码器,从语音波形生成独立于发音方法的声学单位;以及单位到语音解码器,从声学单位重构目标讲话者的语音波形。
31、然而,如本文所使用的术语“系统”是指多个装置(或实现特定功能的功能模块)的逻辑组件,并且每个装置或功能模块可以在或可以不在单个壳体中。即,包括多个组件或功能模块的一个装置以及多个装置的组件对应于“系统”。
32、然后,本公开的第七方面是
33、支持装置,所述支持装置包括:
34、语音收集器,收集讲话者的语音;
35、语音转换器,转换语音收集器中的语音输入;以及
36、语音输出单元,再现并输出由所述语音转换器转换的所述语音,
37、所述语音转换器包括:语音到单位编码器,从语音波形生成独立于发音方法的声学单位;以及单位到语音解码器,从声学单位重构目标讲话者的语音波形。
38、[本发明的有利效果]
39、本公开的实施方式能够提供一种信息处理装置和信息处理方法、计算机程序、学习装置、远程会议系统和支持装置,信息处理装置和信息处理方法、计算机程序、学习装置、远程会议系统和支持装置执行将低语、微弱的语音等转换成目标讲话者的正常语音的处理。
40、应注意,本说明书中描述的效果仅是示例,并且本公开带来的效果不限于此。此外,除了上述效果之外,本公开的实施方式可进一步提供额外的效果。
41、通过参考稍后描述的实施方式和附图的进一步详细描述,本公开的又一目标、特征和优势将变得清楚。