基于机器学习和生理信号的情绪识别模型构建方法及系统

文档序号:26694278发布日期:2021-09-18 02:09阅读:147来源:国知局
基于机器学习和生理信号的情绪识别模型构建方法及系统

1.本发明涉及大数据分析技术领域,具体涉及一种基于机器学习和生理信号的情绪识别模型构建方法及系统。


背景技术:

2.自19世纪80年代,lames

lanbe理论提出后,一百多年来,对人体自身心理和生理之间的关系的研究广受重视。1994年,iowa大学神经学系的dainasio等经过研究发现,如果人体主导理性思维的大脑皮层和主导情感的边缘系统之间的通道受损,患者可能智慧、行走的能力和语言能力都很正常,但做决定的能力却受到很大损害。这从生理意义上表明情感在人类交流中所起的重要作用。
3.基于表情、姿态、语音和文本的情绪识别虽然比较直观,但都是以身体的外在表现来量度情绪,无法观测人体内在的、真实的情感状态。研究表明,心脏搏动、呼吸、血压、消化和新陈代谢等生理活动是受人体自主神经系统掌控的,而自主神经系统对生理活动的控制是在人无意识下进行的。也就是说,生理信号难以被人的主观意识支配,因此基于生理信号的情绪识别具有更大的客观性。
4.基于生理信号的情绪识别可以应用在健康监测、刑侦审讯、行为辅助等许多方面。健康监测方面,例如,医学研究证明,健康积极的情感状态对于疾病的预防和治疗有着积极的作用,因此对病人或健康人的护理和监测应不仅限于心电、脉搏、呼吸等生理参数上,还应包括对用户情感状态的监测,进而给出合理建议。刑侦审讯方面,例如警方在监视和审讯疑犯过程中,由于人的生理信号不容易由人的主观意识所控制,可以通过其生理信号分析其精神状态的变化,为调查和审讯提供参考。而行为辅助方面,例如通过监测汽车驾驶员的生理信号评估驾驶员的疲劳程度,给出合理反馈,如建议驾驶员减速或停车休息,播放一些轻音乐帮助驾驶员放松心情,避免酿成车祸。
5.综上所述,一个利用多种生理信号的情感识别模型,将有助于促进健康检测、刑侦审讯、行为辅助等许多方面。现有传统的系统和模型,并不能精确的分析对应的生理数据,实现数据预测,且模型精度和泛化能力较弱,无法应用到现有的预测设备中。


技术实现要素:

6.本发明的目的在于提供一种基于机器学习和生理信号的情绪识别模型构建方法及系统,,有效提升了模型精度和泛化能力,能快速准确的识别待测者当前的情绪状态。
7.为实现上述目的,本发明的技术方案是:一种基于机器学习和生理信号的情绪识别模型构建方法,包括以下步骤:步骤s1、获取样本人群的多种生理数据,并构建第一样本数据集;步骤s2、从得到的第一样本数据集中提取各生理信号特征,预处理后得到第二样本数据集,并按预设比例分为训练集和验证集;步骤s3、选取分类机器学习模型为每种生理信号构造一级模型,将训练集作为输
入进行训练,得到若干情绪识别模型;步骤s4、对每个情绪识别模型进行准确性分析,并计算不同模型之间的相关性,以及样本数据的稳定性,由此得到相应情绪识别模型的融合权重;步骤s5、基于情绪识别模型的融合权重,结合所有情绪识别模型,构建综合预测模型。
8.在本发明一实施例中,所述第一样本数据集包括具体生理数据为:心电,肌电,皮肤电,脉搏。
9.在本发明一实施例中,所述步骤s2具体为:根据每种生理信号的特点提取生理信号特征,对所述生理信号特征进行数据清洗和标准化,并进行特征变量筛选,剔除无关变量,剩余变量构成第二样本数据集。
10.在本发明一实施例中,所述生理信号特征,包括从心电信号中提取平均心率、波峰间隔时间的平均值、波峰间隔时间的标准差、波峰间隔时间大于20毫秒的个数占总数的比例、波峰间隔时间大于50毫秒的个数占总数的比例的心率变异性特征;从皮电信号中分析皮肤电导水平和皮肤电导反应,包括从皮肤电导水平和皮肤电导反应提取两者的均值、方差、频率的特征;包括从肌电信号中提取肌电激活次数、肌电信号曲线的积分的特征。
11.包括从脉搏信号中提取平均心率、波峰间隔时间的平均值、波峰间隔时间的标准差、波峰间隔时间大于20毫秒的个数占总数的比例、波峰间隔时间大于50毫秒的个数占总数的比例的脉搏变异性特征。
12.在本发明一实施例中,所述数据清洗和标准化具体为:剔除不符合生物学规律的数据以及相互矛盾的数据,对缺失数据以及偏移数据进行处理,包括:对缺失较多特征值的元组进行删除;存在个别缺失值的元组用人工填补缺失值法处理;超出不合理范围的数据,超过上限的用最大值代替,低于下限的用最小值代替;分类属性缺失值用众数代替,数值型缺失数据用均值代替;采用人工修正法将偏移数据值与对应的情绪属性名称进行匹配;然后对所述生理信号特征数据进行数据标准化,将其映射到[

1 ,1]上。
[0013]
在本发明一实施例中,所述特征变量筛选具体为:使用单因素逻辑回归对训练集中的参与者进行分析,筛选对情绪识别分类有影响的特征变量;其中将p<0.05的变量作为显著变量并纳入最终的模型构建,其余的特征变量进行筛除,将p<0.05的变量作为显著变量并纳入最终的模型构建。
[0014]
在本发明一实施例中,所述步骤s3具体为:选取随机森林、梯度提升树、支持向量机分类机器学习模型中的任意一种构造一级模型,将每种生理信号特征的训练集分别作为一级模型的输入,得到每种生理信号的情绪预测模型。
[0015]
在本发明一实施例中,所述步骤s4具体为:通过测试集分析各个一级模型的分类准确性,作为融合权重的第一个指标;计算不同生理信号特征产生的训练集之间的互信息,作为融合权重的第二个指标;计算待分类信号的稳定性,表征该信号的质量,作为融合权重的第三个指标;将三个权重归一化后相加
得到每个一级模型的最终融合权重。
[0016]
在本发明一实施例中,所述步骤s5具体为:由所述情绪识别模型的融合权重,决定每种生理信号产生的一级模型在融合模型中的重要性;将每个一级模型的分类结果乘上权重大小,结合得出最终的综合预测模型。
[0017]
本发明还提供了一种基于机器学习和生理信号的情绪识别模型构建系统,包括依次连接的数据处理分析模块、机器学习模型模块、参数调整模块、预测模块和数据保存模块;所述数据处理分析模块用于获取各种生理信号并进行初步分析处理;所述机器学习模型模块包括单分类器预测模型和融合模型;所述参数调整模块采用网格搜索对模型进行优化;所述预测模块用于模型的输出,预测用户的情绪类别;所述保存模块用于存储用户的生理特征集以及情绪分类信息。
[0018]
在本发明一实施例中,所述预测模块还设置有模型评测单元,采用f1 score以及auc,其中f1 score为召回率和准确率的调和平均,auc为评测分类模型优劣的标准。
[0019]
相较于现有技术,本发明具有以下有益效果:本发明有效提升了模型精度和泛化能力,能通过生理信号快速预测待测者的情绪状态,避免待测者主观因素对情绪判别的影响;本发明针对生理信号的不同特点采用了不同的筛选和清洗方法,针对性的提取相应数据特征,提高了数据的有效性和精确性,降低了模型的训练误差和训练时间,因而更好的鲁棒性 。
附图说明
[0020]
图1为本发明方法流程图;图2为本发明系统原理示意图。
具体实施方式
[0021]
下面结合附图,对本发明的技术方案进行具体说明。
[0022]
本发明一种基于机器学习和生理信号的情绪识别模型构建方法,包括以下步骤:步骤s1、获取样本人群的多种生理数据,并构建第一样本数据集;步骤s2、从得到的第一样本数据集中提取各生理信号特征,预处理后得到第二样本数据集,并按预设比例分为训练集和验证集;步骤s3、选取分类机器学习模型为每种生理信号构造一级模型,将训练集作为输入进行训练,得到若干情绪识别模型;步骤s4、对每个情绪识别模型进行准确性分析,并计算不同模型之间的相关性,以及样本数据的稳定性,由此得到相应情绪识别模型的融合权重;步骤s5、基于情绪识别模型的融合权重,结合所有情绪识别模型,构建综合预测模型。
[0023]
本发明还提供了一种基于机器学习和生理信号的情绪识别模型构建系统,包括依次连接的数据处理分析模块、机器学习模型模块、参数调整模块、预测模块和数据保存模块;所述数据处理分析模块用于获取各种生理信号并进行初步分析处理;所述机器学习模型模块包括单分类器预测模型和融合模型;所述参数调整模块采用网格搜索对模型进行优
化;所述预测模块用于模型的输出,预测用户的情绪类别;所述保存模块用于存储用户的生理特征集以及情绪分类信息。
[0024]
以下为本发明的具体实现过程。
[0025]
请参照图1,本实例提供一种基于机器学习和生理信号的情绪识别模型构建方法,包括以下步骤:步骤s1:获取样本人群的糖代谢数据,包括心电数据、皮电数据、肌电数据和脉搏数据,构成第一样本集;步骤s2:从得到的第一样本集中提取各生理信号特征,将特征集预处理后剩余35个变量构成第二样本集,并按预设比例4:1划分为训练集和验证集;步骤s3:选取支持向量机作为分类机器学习模型,为每种生理信号构造一级模型;将四种生理信号的训练集作为输入进行训练,得到4个一级情绪识别模型;步骤s4:对每个情绪识别模型进行准确性分析,并计算不同模型之间的相关性,以及样本数据的稳定性,由此得到每个一级情绪识别模型的融合权重;步骤s5:基于一级模型的融合权重,结合所有情绪识别模型,构建综合预测模型。
[0026]
优选的,在本实施例中数据获取方式如下:受试者静止休息5分钟后,佩戴可穿戴式生理记录仪,完成相应情绪激发任务,记录激发对应情绪时的生理信号数据。
[0027]
优选的,生理信号特征具体为:心电特征(平均心率、所有心动间隔时间的均值、所有心动间隔时间的标准差、每5分钟心动间隔时间平均值的标准差、相邻心动间隔时间之差的平均值、相邻心动间隔时间连续差异的标准偏差、相邻心搏之差大于20毫秒的个数占心搏总数的百分比、相邻心搏之差大于50毫秒的个数占心搏总数的百分比),皮电特征(皮肤电导反应的平均值、最大值、最小值、标准差、方差、极距和皮肤电导水平的平均值、最大值、最小值、标准差、方差、极距),肌电特征(肌电信号的平均值、最大值、最小值、标准差、方差、均方根、积分肌电),脉搏特征(平均心率、所有心动间隔时间的均值、所有心动间隔时间的标准差、每5分钟心动间隔时间平均值的标准差、相邻心动间隔时间之差的平均值、相邻心动间隔时间连续差异的标准偏差、相邻心搏之差大于20毫秒的个数占心搏总数的百分比、相邻心搏之差大于50毫秒的个数占心搏总数的百分比)。
[0028]
优选的,在本实施例中,根据每种生理信号的特点提取生理信号特征,对所述生理信号特征进行数据清洗和标准化,并进行特征变量筛选,剔除无关变量,剩余变量构成第二样本集。
[0029]
剔除不符合生物学规律的数据以及相互矛盾的数据,对缺失数据以及偏移数据进行处理,包括对缺失较多特征值的元组进行删除;存在个别缺失值的元组用人工填补缺失值法处理;超出不合理范围的数据,超过上限的用最大值代替,低于下限的用最小值代替;分类属性缺失值用众数代替,数值型缺失数据用均值代替,采用人工修正法将偏移数据值与对应的情绪属性名称进行匹配。然后对所述生理信号特征数据进行数据标准化,将其映射到[

1 ,1]上。
[0030]
使用单因素逻辑回归对训练集中的参与者进行分析,筛选对情绪识别分类有影响的特征变量;其中将p<0.05的变量作为显著变量并纳入最终的模型构建,其余的特征变量进行筛除,将p<0.05的变量作为显著变量并纳入最终的模型构建。
[0031]
在本实施例中,步骤s4具体为:通过测试集分析4个一级模型的分类准确性,作为融合权重的第一个指标。计算不同生理信号产生的训练集之间的互信息,作为融合权重的第二个指标。计算待分类信号的稳定性,表征该信号的质量,作为融合权重的第三个指标。将三个权重归一化后相加得到每个一级模型的最终融合权重。
[0032]
由所述融合权重,决定每种生理信号产生的一级模型在融合模型中的重要性。将每个一级模型的分类结果乘上权重大小,结合得出最终的融合模型分类结果。
[0033]
参考图2,本实施例中,还提供一种基于机器学习和生理信号的情绪识别模型的预测系统,包括依次连接的数据处理分析模块、机器学习模型模块、参数调整模块、预测模块和数据保存模块;所述数据处理分析模块用于获取各种生理信号并进行初步分析处理;所述机器学习模型模块包括单分类器预测模型和融合模型;所述参数调整模块采用网格搜索对模型进行优化;所述预测模块用于模型的输出,预测用户的情绪类别;所述保存模块用于存储用户的生理特征集以及情绪分类信息。数据处理分析模块提取待测者的生理信号并预处理,得到特征数据集;预测模块通过融合模型预测,得到情绪分类结果,最后将结果输出并存储于保存模块。
[0034]
优选的,在本实施例中,参数调整模块包括两部分,分别为交叉验证和完备训练集设定区,设定交叉验证比例,一般设定参考值为0.2~0.3,以此划分验证集通过验证集来验证最优参数,而完备训练集设定模块不需要设定。实例设定为0.3,点击拟合来进行训练模型,展示模块会展示模型通过网格搜索来寻找某一组较优的参数,设置最佳迭代次数为200,最大特征筛选采用“sqrt”。其中,为了简化参数搜过过程,避免工程师经验不足,交叉验证设定的参数为系统内置设定好。
[0035]
优选的,在本实施例中,所述预测模块还设置有模型评测单元,采用f1 score以及auc,其中f1 score为召回率和准确率的调和平均,auc为评测分类模型优劣的标准。
[0036]
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1