一种具有语音控制功能的虚拟人物模型及其控制方法与流程

文档序号:42294152发布日期:2025-06-27 18:29阅读:62来源:国知局

本发明属于人工智能,具体涉及到一种具有语音控制功能的虚拟人物模型及其控制方法。


背景技术:

1、虚拟人物,通常指的是通过数字技术创造出的非真实存在的角色或形象。它们可以存在于多种形式,如二维动画、三维模型、游戏角色、虚拟偶像等。在科技飞速发展的当下,虚拟人物语音控制系统正逐渐从科幻构想走进现实生活,成为推动各行业变革的关键力量。这一系统融合了语音识别、自然语言处理、虚拟形象驱动等前沿技术,赋予虚拟人物“开口说话”及与用户自然交互的能力,为用户带来沉浸式、个性化的交互体验。

2、现有的虚拟人物的语音控制方法主要包含如下:1、语音识别技术:作为系统的“耳朵”,语音识别技术负责将用户的语音准确转化为文本。从早期的模板匹配算法到如今基于深度学习的端到端模型,如深度神经网络(dnn)、循环神经网络(rnn)及其变体长短时记忆网络(lstm)等,识别准确率大幅提升,即使在嘈杂环境下也能精准捕捉用户指令。以科大讯飞的语音识别引擎为例,在安静环境下识别准确率可达98%以上,为虚拟人物理解用户意图奠定坚实基础。2、自然语言处理技术:接收到语音转文本结果后,自然语言处理技术发挥作用,对文本进行语法分析、语义理解及意图推断。借助词向量模型(如word2vec、gpt系列)和语义分析算法,系统能够理解复杂句式和模糊表达,实现与用户的流畅对话。例如,当用户询问“明天天气如何”,系统不仅能解析出查询天气的意图,还能关联到具体时间和地点信息,给出准确回复。3、虚拟形象驱动技术:这是赋予虚拟人物生动表现力的关键。通过语音与口型同步算法,如基于音素和视觉特征匹配的方法,使虚拟人物说话时口型自然流畅。同时,结合面部表情生成技术,依据语音情感和语义信息,驱动虚拟人物做出喜怒哀乐等表情,增强情感交互。阿里达摩院的echom imi cv2工具更是突破创新,可在音频驱动下实现虚拟人物头部和身体动作协调,全方位提升表现力。

3、目前的基于语音控制的虚拟人物在多人语音环境下,无法快速识别准确的语音控制命令,导致虚拟人物做出的语音控制命令不准确,影响使用。


技术实现思路

1、本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种具有语音控制功能的虚拟人物模型及其控制方法。

2、解决上述技术问题所采用的技术方案是:一种具有语音控制功能的虚拟人物模型的控制方法,包括:

3、步骤1、采集本次语音控制中所有说话者的语音控制命令;

4、步骤2、对所采集的语音控制命令进行音色甄别,提取不同说话者的音色特征,并生成音色信号;

5、步骤3、将生成的音色信号输入至语音控制频率数据库中,并与语音控制频率数据库中储存的历史音色信号进行相似度匹配,查询该历史音色信号的出现频率;

6、步骤4、按出现的频率高低对匹配到语音控制频率数据库中的音色信号进行排列,并提取其中语音控制频率最高的音色信号,作为本次语音控制的语音控制命令;

7、步骤5、调取上述语音控制命令,并生成语音控制指令,使虚拟人物产生相应动作并发出与语音控制指令相对应的声音。

8、优选的,所述步骤2包括如下内容:

9、预处理:

10、通过预加重处理来提升高频部分,使信号的频谱趋于平坦;

11、通过分帧处理将连续的语音信号分割成短时帧;

12、通过加窗处理来减少帧边缘的截断效应;

13、特征提取:

14、通过快速傅里叶变换来计算每一帧的频谱;

15、通过梅尔滤波器组将频谱通过一组梅尔滤波器;

16、通过对数运算对每个滤波器的输出取对数;

17、通过离散余弦变换将滤波器组输出的对数能量进行变化,得到mfcc系数;

18、音色信号扩写:

19、通过线性预测编码,估计声道的线性预测系数;

20、通过倒谱提升增强音色特征。

21、优选的,所述语音控制频率数据库采集固定使用周期中所收集的不同说话者的语音控制命令,并生成语音控制频率数据。

22、优选的,所述语音控制频率库生成语音控制频率数据的方法包括如下内容:

23、定义固定使用周期,作为语音控制频率数据的计算范围;

24、在每个固定周期内,收集语音控制命令;

25、对收集到的语音信号进行处理;

26、从处理后的语音信号中提取音色特征;

27、对每个说话者的语音控制命令进行频率分析,以确定语音控制频率数据;

28、根据频率分析结果,生成语音控制频率数据;

29、将生成的语音控制频率数据存储到数据库中。

30、优选的,所述对每个说话者的语音控制命令进行频率分析,以确定语音控制频率数据包括如下内容:

31、计算基频:对每个语音帧,计算其基频;

32、频率分布统计:对每个说话者的所有语音命令的基频进行统计,得到频率分布。

33、优选的,所述步骤3包括如下内容:

34、将本次语音控制中生成的音色信号输入至语音控制频率数据库中,并验证音色信号数据的完整性;

35、输入语音控制频率数据库后,进行相似度匹配;

36、对于筛选出的相似历史音色信号,进一步查询该历史音色信号在语音控制频率数据库中出现的频率。

37、优选的,所述输入语音控制频率数据库后,进行相似度匹配,包括如下内容:

38、比较输入的音色信号与语音控制频率数据库中的历史音色信号的特征参数;

39、通过余弦相似度算法来计算输入至语音控制频率数据库中的音色信号与历史音色信号的相似度。

40、优选的,所述步骤4中,在提取到语音控制频率最高的音色信号后,先对提取到的音色信号进行匹配精确度判断,若匹配精确度达到固定阈值,则该音色信号作为本次语音控制的语音控制命令,若匹配精确度未达到固定阈值,则返回步骤3。

41、一种具有语音控制功能的虚拟人物模型,包括:

42、显示模块,用于显示虚拟人物形象;

43、语音控制频率数据库,用于在固定周期内采集所有说话者的音色特征,并将音色特征生成音色信号,再依据该周期内音色信号生成的频率,对所有的音色信号按生成的频率高低进行排列;

44、语音采集模块,用于采集语音控制中所有说话者的语音控制命令;

45、音色信号生成模块,用于采集所有的语音控制命令,并逐个对语音控制命令进行音色甄别,并提取所有语音控制命令所对应的说话者的音色特征,且依据音色特征生成相应的音色信号;

46、匹配模块,用于将音色信号匹配到语音控制频率数据库,并按语音控制频率的高低对音色信号进行排列,提取其中语音控制频率最高的音色信号,作为本次语音控制的语音控制命令;

47、指令模块,用于调取语音控制命令,并生成语音控制指令,使虚拟人物产生相应动作,及\或发出与语音控制指令相对应的声音。

48、优选的,还包括:

49、命令准确度校验模块,用于在指令模块结束后,在固定时间内检测是否重复产生与本次语音控制命令相似的语音控制命令,若重新采集到相似的语音控制命令,则对匹配模块的匹配机制进行优化,反之不需优化。

50、本发明的有益效果如下:

51、1、本发明中,通过采用匹配出现频率最高的音色信号来优先发出该音色信号对应的语音控制命令,实现在多人说话环境中,产生准确的语音控制指令,避免多人说话环境中,无法准确提取语音控制命令,进而无法产生语音控制指令;

52、2、本发明中,通过步骤2对音色信号进行处理,进而提取出精确的音色特征,以便于语音控制频率数据库中的音色信号进行匹配;

53、3、本发明中,通过设置命令准确度校验模块,能够实现检测本次语音控制命令优先的准确度。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1