注意力自适应音频时域调整方法与流程

文档序号：13696662阅读：来源：国知局

技术特征：
1.注意力自适应音频时域调整方法，其特征在于，包括如下步骤：步骤a：依据用户的头部运动参数计算判断用户的注意力水平，分别为注意力集中、注意力适度分神和注意力分神；步骤b：依据注意力检测结果，自适应调整音频信号时域控制参数；步骤c：依据音频信号时域控制参数，实时进行语音信号变速不变调播放。2.如权利要求1所述注意力自适应音频时域调整方法，其特征在于，所述步骤a中的用户头部运动参数计算方法如下：(1)初始化过程，检测视频图像中的正面人脸图像，如果检测人脸数量为零，初始化失败，并持续进行初始化；如果检测正面人脸数量大于等于1，则选择具有最大图像面积的正面人脸作为初始化对象，用于后续的头部运动参数计算。(2)头部运动参数计算过程中，依据初始化的正面人脸图像，使用图像注册的方法计算视频中的用户头部三维运动参数，包括头部的俯仰角度pitch、偏航角度yaw和横滚角度roll。3.如权利要求1所述注意力自适应音频时域调整方法，其特征在于，所述步骤a中的用户注意力水平计算方法如下：(1)当用户头部运动参数俯仰角度pitch和偏航角度yaw小于一定阈值T2，用户注意力水平参数α设置为2，表示注意力集中；(2)当用户头部运动参数俯仰角度pitch和偏航角度yaw在[T2，T1](T1＞T2)范围，用户注意力参数α设置为1，表示注意力适度分神；(3)当用户头部运动参数俯仰角度pitch或偏航角度yaw大于T1，用户注意力参数α设置为0，表示注意力分神。4.如权利要求1所述注意力自适应音频时域调整方法，其特征在于，所述步骤b中依据注意力检测结果(α)自适应调整音频信号时域控制参数(β)的规则表示如下：(1)当α＝2，β＝1*C，C为常数；(2)当α＝1，β＝μ*C，μ为变量；(3)当α＝0，β＝0*C。5.如权利要求1所述注意力自适应音频时域调整方法，其特征在于，所述步骤c中依据音频信号时域控制参数(β)实时进行语音信号变速不变调播放方法如下：(1)假设音频信号序列表示为Ai(i＝1,...,k×sr)，其中sr为音频信号采样率(单位：赫兹)，k为音频信号时长(单位：秒)，上一段音频信号播放结束位置假定为e；(2)获取当前的音频信号时域控制参数β，读取根据参数β的播放时长为t秒的相对于e的后续音频信号序列为Ac(c＝e+1,...,t×β×sr)，t为系统响应延迟；(3)对Ac(c＝e+1,...,t×β×sr)根据参数β使用相位声码器进行变速不变调信号合成，合成信号标记为Ai'(i＝1,...,t×sr)；(4)播放合成信号Ai'(i＝1,...,t×sr)。

完整全部详细技术资料下载

当前第2页1 2 3