本发明属于音频处理领域,具体涉及一种情感共鸣音频系统。
背景技术:
1、在当今数字化时代,音频内容在人们的日常生活中扮演着越来越重要的角色。从音乐、有声读物到电影、游戏中的音频效果,音频不仅传递信息,更承载着丰富的情感表达。然而,传统的音频处理技术在情感体验方面存在明显的局限性,无法满足用户日益增长的个性化情感需求。
2、现有的音频处理系统通常基于预设的参数进行调整,这些参数在音频制作时就已经确定,缺乏对音频内容情感特征的实时分析和动态调整能力。例如,在播放一首悲伤的歌曲时,即使听众当前处于快乐的情绪状态,音频的音量、音调、节奏等参数也不会根据听众的情感变化而自动调整,导致音频无法与听众的情感产生共鸣,影响了听众的沉浸感和情感投入。
3、在一些特殊的应用场景中,如心理治疗、情绪调节和康复训练,音频的情感调节作用尤为重要。然而,现有的音频处理技术无法为这些场景提供有效的支持。如在心理治疗过程中,治疗师需要根据患者的情绪状态实时调整音频内容,以帮助患者放松、缓解焦虑或激发积极情绪。但目前的音频系统无法实现这种实时的情感反馈和音频调整,无法为患者提供最佳的情感支持。
4、随着人工智能和机器学习技术的快速发展,情感识别和分析成为可能。这些技术能够从音频信号中提取情感特征,如音调、节奏、语速等,并将其分类为不同的情感状态。然而,将情感识别技术与音频处理技术相结合,实现音频内容的情感自适应调整,仍是一个未被充分探索的领域。目前市场上尚未出现能够实时识别音频情感并根据用户情感反馈进行动态调整的音频系统,这为本专利申请提供了一个创新的机会。
5、现有技术中,情感音频识别与调节系统通常依赖于简单的情感分类或基于人工标注的情感标签,缺乏对复杂情感波动的深度理解和精确识别。此外,现有系统通常仅限于调整音量、音调等基本音频参数,无法实现对音频情感表达的多维度、细腻的动态调整。在用户的个性化需求和情感变化方面,现有技术还存在显著的不足,无法准确适应用户的即时情感需求,也未能结合生理反馈进行实时的音频调节。
6、有必要提出一种基于深度学习的情感音频识别与调节系统,以解决现有技术中情感识别准确性不足、音频参数调整不够精细、系统无法根据用户即时情感变化进行自适应调节等问题。
技术实现思路
1、本发明的目的是提出一种情感共鸣音频系统,以解决现有技术中情感识别准确性不足、音频参数调整不够精细、系统无法根据用户即时情感变化进行自适应调节等问题。
2、为了实现上述目的,本发明提供一种情感共鸣音频系统,包括情感识别模块、音频处理模块和用户反馈模块;
3、所述情感识别模块设置为根据原始音频信号,得到识别的情感类型;
4、所述音频处理模块包括音频参数调整单元,其设置为得到实时的音频参数的调节量和调节速率,根据实时的音频参数的调节量和调节速率来对原始音频信号进行处理;
5、所述用户反馈模块设置为采集用户的个性化数据,所述音频参数调整单元利用用户反馈模块采集用户的个性化数据来动态调整音频参数的调节量和调节速率。
6、所述音频处理模块直接根据识别的情感类型和预先定义的情感类型的转换规则,得到实时的音频参数的调节量和调节速率的初始值;
7、或者,所述情感共鸣音频系统还包括情感映射模块,所述情感映射模块设置为:基于音频信号及其对应的情感类型,建立情感—音频特征映射表、情感类型的转换规则,根据原始音频信号的情感类型、转换触发条件的采集结果、以及情感类型的转换规则,来生成实时的音频参数的调节量和调节速率的初始值。
8、所述情感映射模块设置为执行如下步骤:
9、步骤s210:根据大量的音频信号及其对应的情感类型,构建情感—音频特征映射表;
10、在情感—音频特征映射表中,提取的音频特征包括音量、音调,以及音色、语速、停顿模式、动态范围、语言能量分布、语音包络;
11、步骤s220:建立情感类型的转换规则,包括不同情感类型的转换规则;
12、在步骤s220中,建立不同情感类型的转换规则,具体包括:
13、步骤s221:建立一个情感转换矩阵以存储不同情感类型的转换规则,行代表原始情感类型,识别的情感类型作为原始情感类型,列代表目标情感类型,将一组原始情感类型和目标情感类型作为一种情感类型转换;
14、步骤s222:对于每一种情感类型转换,根据情感—音频特征映射表中的原始情感类型和目标情感类型的音频参数的阈值范围建立从原始情感平滑过渡到目标情感的情感类型的转换规则,作为情感转换矩阵中对应于所述情感类型转换的元素;所述情感类型的转换规则包括音频参数的调节量和调节速率的初始值;
15、步骤s223:为每种情感类型转换设置转换触发条件,作为不同情感类型的转换规则的一部分,转换触发条件用于在激活时根据相应的情感类型的转换规则来得到音频参数的调节量和调节速率的初始值;
16、步骤s230:根据原始音频信号的情感类型、转换触发条件的采集结果、以及情感类型的转换规则,来生成实时的音频参数的调节量和调节速率的初始值;
17、所述用户反馈模块设置为采集用户的个性化数据,作为转换触发条件的采集结果提供给情感映射模块。
18、所述情感类型的转换规则还包括同一情感类型的不同情感强度的转换规则;
19、建立同一情感类型的不同情感强度的转换规则,具体包括:
20、步骤s221’:为每种情感类型划分多个情感强度;
21、步骤s222’:对于每种情感类型,根据该情感类型下的音频样本,得到该情感类型下,初始情感强度和目标情感强度之间所对应的音频参数的调节幅度;
22、步骤s223’:针对同一情感类型的不同的情感强度,根据初始情感强度和目标情感强度之间所对应的音频参数的调节幅度,设置在不同的情感强度之间转换时的音频参数的调节幅度和调节速率;
23、 步骤s224’:确定情感强度的转换触发条件,并根据触发情感强度转换时情感强度在时间上的动态变化趋势,确定音频参数的动态调整的方式。
24、所述情感映射模块还设置为:在执行步骤s210和步骤s220时,根据实时监控界面来显示各音频参数的调节速率的曲线与约束边界,其中,约束边界是每种情感类型所对应的音频特征的典型组合的边界;在必要时,通过用户反馈模块导入用户个性化数据来调节音频参数的调节速率的曲线与约束边界;和/或
25、 在所述情感映射模块中,在建立不同情感类型的转换规则后,还包括:建立神经网络模型,所述神经网络模型用于在用户满意度过低时,根据当前输入的音频信号,得到不同的目标情感类型所各自对应的音频参数的调节后数值的组合,音频参数的调节后数值与音频参数的初始值的差值为音频参数的调节量,以此得到实时的音频参数的调节量和调节速率的初始值;所述神经网络模型的输入为音频信号,输出为目标情感类型和对应的音频参数的调节后数值的组合;在获取训练样本时,每个目标情感类型所对应的音频参数组合向量包括用户最终确认或系统评估为满意的音频参数组合向量,以及由专业人员根据情绪语音设计经验所调试得到的高质量的音频参数组合向量。
26、所述用户反馈模块包括生理反馈采集单元和交互界面反馈单元,所述个性化数据包括生理反馈采集单元采集的生理数据和交互界面反馈单元采集的用户的评价和偏好;
27、所述生理反馈采集单元包括手机内置的心率传感器、加速度传感器和智能手表的皮肤电反应传感器;所述交互界面反馈单元采用设于用户的手机或智能手表上的专用应用界面。
28、所述音频参数调整单元设置为执行如下的全局优化算法:
29、步骤s310:接收用户反馈模块收集的个性化数据、历史调节行为,作为个性化调节样本的集合;所述历史调节行为包括实时的音频参数的调节量和调节速率的初始值、以及用户最终确定的音频参数的调节量和调节速率;
30、步骤s320:对个性化调节样本的集合中的样本进行清洗、归一化和缺失值补全处理,根据历史调节行为中的个性化数据和实时的音频参数的调节量和调节速率来构造融合后的特征向量以作为输入,将历史调节行为中的用户最终确定的音频参数的调节量和调节速率作为输出,使其适合后续分析和建模;
31、步骤s330:构建神经网络模型的输入层、隐藏层和输出层,利用样本进行训练,以得到个性化数据与音频参数的调节量和调节速率之间的规律。
32、所述音频处理模块还包括动态调整算法单元,所述动态调整算法单元采用动态压缩算法和扩展器算法对音频参数调整单元输出的音频处理,确保音频输出的平滑过渡。
33、所述情感识别模块设置为执行如下步骤:
34、步骤s110:获取音频信号,提取音频信号的时域和频域特征,并标注情感类别,作为音频数据集;
35、步骤s120:利用音频数据集预先对深度学习模型进行训练,得到情感分类模型,所述情感分类模型用于根据音频信号的时域和频域特征来输出对应的情感类型;
36、步骤s140:获取原始音频信号,提取其时域特征和频域特征,利用情感分类模型得到原始音频信号的情感类型。
37、所述情感识别模块还设置为:
38、步骤s130:根据步骤s110提取的频域特征和每个频域特征的情感类型来进行统计,统计得到每种情感类型的音频信号的频域能量,据此对于每个情感类型分别设置对应的频域能量阈值,频域能量阈值用于确认音频信号的情感类型是否需要复核;
39、步骤s140还包括:由频域特征计算得到该音频信号的频域能量,将其与频域能量阈值比较来确认音频信号的情感类型是否需要复核。
40、本发明通过创新的情感映射与动态音频参数调整机制,结合深度学习模型和用户生理反馈数据,能够在多维度上实时、精确地调整音频,提供个性化且自然的音频体验,根据用户即时情感变化进行自适应调节等问题。
41、首先,本发明基于深度学习的情感音频识别模型,通过从音频信号中提取时域和频域的特征,进行情感识别。与传统基于静态情感标签的识别方法不同,本发明引入了结合cnn和lstm的混合模型,能够实时分析音频信号中的情感波动,显著提升情感识别的准确性与鲁棒性。传统方案通常依赖于简单的情感分类或基于人工标注的情感标签,难以处理复杂且变化多端的情感表达。而通过深度学习模型的应用,本发明能够更精确地捕捉到细腻的情感变化。
42、其次,本发明提出了一种用于生成情感的转换规则的情感映射模块。传统音频处理方案通常仅依赖于简单的音量和音调调整,而不涉及情感类型。通过结合识别的情感类型,系统能够根据情感的转换规则实时对音频的音量、音调、节奏等多个维度进行精准的动态调整,以保证音频的情感表达始终自然且平滑。尤其是在情感剧烈变化时,系统能够避免音频参数的剧烈波动,提升听感体验,防止因过度调节导致的失真现象。
43、进一步地,本发明创新性地集成了生理反馈采集单元。通过智能设备(如手表、智能耳机等)实时监测用户的生理数据(如心率、皮肤电反应等),本发明能够结合这些数据与用户的评价偏好进行综合分析,动态调整音频播放效果。与传统系统单一依赖情感识别的方案不同,本发明通过生理反馈的加入,能够更准确地适应用户即时的情感需求,从而提供更为沉浸且个性化的音频体验。
44、此外,本发明通过用户的评价偏好和生理反应,提供量身定制的情感音频调整方案,并通过机器学习算法不断优化,能够适应用户的情感变化,长期提升对用户情感需求的理解和响应精度。这一创新机制相较于传统的情感音频系统,避免了固定的情感模型和静态参数设置,使得系统更具智能性和长期适应性。
45、本发明的另一个创新点是音频参数调整单元执行的全局优化算法。该算法融合来自原始音频信号、用户反馈和生理数据的多源情感信息,并且综合考虑了音频情感表达的准确性(通过情感—音频特征映射表)、用户舒适度(通过用户反馈模块)、音质稳定性(通过动态调整算法单元)以及情感传递效果(通过情感映射模块设计的规则),本发明能够更全面地分析情感变化,使得音频调节更加精确,具备更强的适应性,提供更加丰富和细腻的情感体验,并且能够在多个维度进行全局优化,避免了情感过度夸张或音质损失的情况,保证了音频系统的最佳表现。
46、这些创新技术的结合,使得本发明的情感音频系统在情感识别、音频调节、用户体验和系统自适应能力等方面具有显著优势。相较于现有技术,本发明不仅提高了情感识别的准确性,还能够根据用户的个性化需求和生理反应进行智能调节,最终实现一个更加自然、沉浸且个性化的音频体验。