基于深度强化学习的康复训练处方自适应推荐方法及系统与流程

文档序号:22618073发布日期:2020-10-23 19:20阅读:159来源:国知局
基于深度强化学习的康复训练处方自适应推荐方法及系统与流程

本发明涉及肢体运动康复训练领域,特别涉及一种基于深度强化学习的康复训练处方自适应推荐方法及系统。



背景技术:

我国每年新增脑卒中患者200多万人,而且呈逐年上升趋势,其中,55-75%的脑卒中患者表现出运动功能障碍。同时,脑瘫、脑外伤等引起的脑功能损伤也会导致肢体运动功能障碍,给患者及其家庭、社会带来了沉重的负担。康复训练是恢复患者运动功能的最重要手段。但无论是传统的人工康复训练还是基于康复训练机器人的康复训练,针对患者的不同情况制定个性化的康复训练处方是保障训练效果的重要条件。但目前康复训练处方只能由医生根据患者的评估结果开具,很大程度上依赖于医生的经验。并且,患者的功能评估一般只是在不同的康复阶段进行几次定期的评估,因此训练处方的更新也取决于评估的周期,导致训练处方的更新可能跟不上患者的康复进程,难以提高康复效率。人工智能的发展使得康复训练机器人能够利用多种传感信息在患者训练过程中进行实时的功能评估,解决了人工评估周期长的问题,但是仍然需要医生根据评估结果进行处方的调整,频繁的调整处方无疑会大大增加医生的工作量。另一方面,患者在康复训练中的主动参与、疲劳程度等也会对训练效果产生重要的影响,在主动参与程度低以及疲劳状态下的训练效率往往是低效的,而人工调整训练处方难以做到单次训练过程中根据患者状态进行及时调整,一定程度上造成训练治疗资源的浪费。



技术实现要素:

基于上述问题,本发明的目的是提供一种基于深度强化学习的康复训练处方自适应推荐方法及系统,根据患者的近红外脑氧、运动、肌电等信息进行脑功能和运动功能的实时评估,将各种病历信息及功能评估指标输入到预先建立的深度强化学习模型进行学习,根据患者功能状态自适应推荐康复训练处方。

本发明的一个方面提供一种基于深度强化学习的康复训练处方自适应推荐方法,其中,该方法包括以下步骤:

1)收集患者基本信息以及病历信息;

2)利用近红外脑血氧监测设备获取患者不同脑区的脑皮层血氧数据,并且获得患者患肢的运动数据和肌电数据;

3)利用脑血氧数据计算得到患者运动康复训练过程中的脑功能评价指标,利用运动数据和肌电数据计算得到患者运动康复训练过程中的运动功能评价指标和肌肉功能评价指标,以动态评估患者的脑功能、运动功能和肌肉功能;

4)将步骤3)得到的脑功能、运动功能和肌肉功能评价指标输入到预先建立的深度强化学习模型,以训练深度强化学习模型并自动生成康复训练处方;

5)将步骤4)生成的康复训练处方反馈给医生和患者进行康复训练。

根据一个实施例,以上步骤4)中的深度强化学习模型的训练包括根据患者的基本信息和病历信息,以脑功能、运动功能和肌肉功能评价指标作为状态,以康复训练处方作为动作,以采用当前的康复训练处方进行训练后的功能改善情况作为奖赏,来训练深度强化学习模型,并在训练过程中引入康复训练处方知识库中的先验知识,加速学习模型的训练。

根据一个实施例,以上步骤4)中的深度强化学习模型可以包含预先输入的大量患者病历信息、功能评估指标、医生开具的训练处方为基础的康复训练处方知识库,利用知识库中的先验知识辅助进行模型的训练。

根据另一个实施例,以上步骤4)中的深度强化学习模型可以以患者的脑功能、运动功能和肌肉功能评价指标作为状态,以康复训练处方作为动作,并且以采用当前的处方进行训练后的功能改善情况作为奖赏,进行强化学习。

在一个实施例中,可以将以上步骤3)生成的脑功能、运动功能和肌肉功能评价指标和步骤4)生成的康复训练处方实时增加到深度强化学习模型的知识库中,不断扩充知识库。

在一个实施例中,将步骤3)得到的脑功能评价指标、运动功能评价指标以及肌肉功能评价指标输入到训练好的深度强化学习模型,经模型计算输出各康复训练处方中包含的不同类别或等级的q值,将q值最高的处方项组合,自动生成康复训练处方,其中q值为对应动作优劣的数值化表示。

在另一个实施例中,利用以上步骤2)得到的脑血氧参数数据和肌电数据可以进一步分析得到患者训练过程中的大脑和肌肉的主动参与度和疲劳程度,并且步骤4)中的深度强化学习模型能够根据患者的主动参与度和疲劳程度来来调整训练处方。

根据一个优选实施例,可以以不同脑区的激活程度和不同肌肉肌电信号的幅值信息反映大脑和肌肉的主动参与度,可以以肌电信号的平均功率频率、中值频率等频域信息反映患者肌肉的疲劳程度。

根据另一个优选实施例,以上步骤4)中的深度强化学习模型的训练可以包括首先初始化经验池和网络权重,输入病历和各功能评价指标的状态参数,并且如果当前状态不能匹配到先验知识库中的特征状态,则根据选择的学习策略选取训练处方;如果当期状态能够匹配到先验知识库中的特征状态,则根据先验动作q值和预估动作q值综合判断输出训练处方,并将这些信息存入经验池,重复以上步骤训练网络,每次训练后自动更新网络权重以修正网络,其中所选择的学习策略例如为ε-greedy策略。

根据另一个实施例,可以将以上步骤3)生成的评价指标和以上步骤4)生成的康复训练处方实时增加到深度强化学习模型的知识库中,以扩充知识库。

根据本发明的另一方面,提供一种基于深度强化学习的康复训练处方自适应推荐系统,包括:

人机交互模块,用于接收患者的基本信息和病例信息并且管理预先存储的康复训练知识库;

近红外脑血氧信息采集模块,用于采集患者相应脑区的近红外脑血氧信号,并将采集到的近红外脑血氧信号传输至评估分析模块;

运动及生理数据采集模块,用于采集患者肢体运动过程中的运动信号和表面肌电信号,并将这些信号传输至评估分析模块;

评估分析模块,用于根据从近红外脑血氧采集模块传输的近红外脑血氧信号以及从运动及生理数据采集模块传输的运动信号和表面肌电信号,计算得到患者不同脑区的脑功能评价指标以及运动功能评价指标;以及

智能学习与处方推荐模块,用于根据人机交互模块中的患者病历信息以及评估分析模块得到的患者脑功能和运动功能评价指标进行智能学习,以输出康复训练处方,并通过人机交互模块反馈给医生和患者。

根据一个实施例,智能学习与处方推荐模块可以包含预先建立的康复训练处方知识库和深度强化学习模型,其中康复训练处方知识库允许通过人机交互模块中所包括的知识库管理模块进行修改、增加内容。

根据另一个实施例,评估分析模块可以以不同脑区的激活程度和不同肌肉肌电信号的幅值信息反映大脑和肌肉的主动参与度,通过计算肌电信号的平均功率频率、中值频率等频域信息反映患者肌肉的疲劳程度。

本发明还提供一种基于深度强化学习的康复训练处方自适应推荐方法,该方法包括以下步骤:

1)录入患者性别、年龄、病史等基本信息以及病因、脑损伤情况、发病时间、初始功能水平、病程等病历信息,包括原始的影像、化验等医学检查数据和初始评估数据。

2)利用近红外脑血氧监测设备获取患者运动训练过程中运动区、前额叶等不同脑区的脑皮层血氧数据,包括局部氧合血红蛋白浓度、脱氧血红蛋白浓度、血氧饱和度等。利用惯性传感器、表面肌电传感器等获得患者患肢的加速度、角速度等运动数据和运动相关肌肉的表面肌电数据。

3)在患者运动康复训练过程中,利用脑血氧数据计算得到不同脑区的激活程度、激活模式、脑区之间的功能连接、侧偏性等脑功能评价指标,动态评估患者的脑功能;利用加速度、角速度等运动数据计算得到关节活动度、运动平滑度、运动轨迹偏离度等运动功能评价指标,动态评估患者的运动功能;利用表面肌电数据得到肌力、肌张力等肌肉功能指标;以不同脑区的激活程度和不同肌肉肌电信号的幅值信息反映大脑和肌肉的主动参与度,以肌电信号的平均功率频率、中值频率等频域信息反映患者肌肉的疲劳程度。

4)预先建立包含以大量患者病历信息、功能评估指标及医生开具训练处方为基础的康复训练处方知识库的深度强化学习模型。将步骤3)得到的脑功能、运动功能、肌肉功能评价指标输入到预先建立的深度强化学习模型,自动生成康复训练处方,包括训练任务、训练方案、运动训练模式、训练频率、训练强度等。

具体地,深度强化学习模型以患者的脑功能和运动功能评价指标作为状态,以康复训练处方作为动作,以采用当前的处方进行训练后的功能改善情况作为奖赏,进行强化学习。康复训练处方中的训练方案包括单侧运动训练、四肢联动运动训练、运动训练+功能电刺激、运动训练+经颅磁刺激、运动训练+虚拟现实反馈等,运动训练模式包括主动、被动、助动、阻力等,训练频率包括每周训练次数、每次训练过程中单个任务训练次数等,训练强度包括每次训练的时长、训练任务的难度、磁电刺激的部位、强度和频率等。

进一步地,深度强化学习模型会根据步骤3)中得到的患者的主动参与度和疲劳程度调整训练处方。

5)将步骤4)生成的康复训练处方反馈给医生和患者进行康复训练,重复进行步骤2)。

进一步地,将步骤3)生成的评价指标和步骤4)生成的康复训练处方实时增加到深度强化学习模型的知识库中,不断扩充知识库。

本发明也提供一种基于深度强化学习的康复训练处方自适应推荐系统,该系统包括:

人机交互模块,包含病历信息录入模块、康复训练知识库管理模块和推荐处方显示模块。

进一步地,病历信息录入模块用于输入患者的性别、年龄、病史等基本信息以及病因、脑损伤情况、发病时间、初始功能水平、病程等病历信息,包括原始的影像、化验等医学检查数据和初始评估数据。

近红外脑血氧信息采集模块,包括近红外光源和探头、固定装置、光纤、数据采集系统等,用于采集患者相应脑区的局部氧合血红蛋白浓度、脱氧血红蛋白浓度、血氧饱和度等脑血氧信号,并将采集到的脑血氧信号传输至评估分析模块。

运动及生理数据采集模块,包括分布在肢体不同部位的惯性传感器、肌电传感器以及数据采集电路,用于采集患者肢体运动过程中的加速度、角速度以及运动相关肌肉的表面肌电信号,并将这些信号传输至评估分析模块。

评估分析模块,用于根据所述近红外脑血氧采集模块传输的局部氧合血红蛋白浓度、脱氧血红蛋白浓度、血氧饱和度等脑血氧信号,以及所述运动及生理数据采集模块传输的加速度、角速度及表面肌电信号,计算得到患者不同脑区的激活程度、激活模式、脑区之间的功能连接、侧偏性等脑功能评价指标,关节活动度、运动平滑度、轨迹偏离度等运动功能评价指标以及肌力、肌张力等肌肉功能指标。以不同脑区的激活程度和不同肌肉肌电信号的幅值信息反映大脑和肌肉的主动参与度,通过计算肌电信号的平均功率频率、中值频率等频域信息反映患者肌肉的疲劳程度。

智能学习与处方推荐模块,包含利用大量患者病历信息、功能评估指标、医生开具的训练处方等信息预先建立的康复训练处方知识库和深度强化学习模型。用于根据所述病历信息录入模块输入的患者病历信息以及所述评估分析模块得到的患者脑功能和运动功能评价指标进行智能学习,输出基于患者病情和目前功能状态的康复训练处方,并通过所述人机交互模块的推荐处方显示模块反馈给医生和患者。

具体地,所述智能学习与处方推荐模块中的康复训练处方知识库允许具有权限的用户通过所述人机交互模块的知识库管理模块进行修改,增加内容。

本发明的有益效果是:利用该方法和系统,能够实现康复训练过程中根据患者的病情、运动功能及训练状态等实时、自适应的调节训练处方,不但减轻医生人工评估、调整处方的工作量,而且相比固定周期的处方调节更加动态、精准,有利于提高康复训练的效率。

上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。

图1为本发明实施例的一种基于深度强化学习的康复训练处方自适应推荐系统总体构成图;

图2为本发明实施例的一种基于深度强化学习的康复训练处方自适应推荐系统结构示意图;

图3为本发明实施例的一种基于深度强化学习的康复训练处方自适应推荐方法应用流程图;

图4为本发明实施例的深度强化学习模型计算流程图。

具体实施方式

在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。

如图1和图2所示,本发明的基于深度强化学习的康复训练处方自适应推荐系统总体上包括人机交互模块1、近红外脑血氧信息采集模块2、运动及生理数据采集模块3、评估分析模块4和智能学习与处方推荐模块5。

人机交互模块1用于接收患者的基本信息和病例信息并且管理预先存储的康复训练知识库,并且包含病历信息录入模块11、康复训练知识库管理模块12和推荐处方显示模块13。

病历信息录入模块11用于输入患者的性别、年龄、病史等基本信息以及病因、脑损伤情况、发病时间、初始功能水平、病程等病历信息,包括原始的影像、化验等医学检查数据和初始评估数据。

近红外脑血氧信息采集模块2用于采集患者相应脑区的近红外脑血氧信号,并将采集到的近红外脑血氧信号传输至评估分析模块4,并且主要包括近红外光源21和探头22、固定装置(头帽)23、光纤24、数据采集系统25。

近红外光源21和探头22以固定距离布置,通过固定装置(图中为头帽)23固定在患者头部不同脑区的对应位置。通过光纤24将探头22所采集的近红外光信号传输至数据采集系统25,根据不同探头位置光信号的强弱计算得到患者相应脑区的局部氧合血红蛋白浓度、脱氧血红蛋白浓度、血氧饱和度等脑血氧信号,并将采集到的脑血氧信息传输至评估分析模块4。

运动及生理数据采集模块3用于采集患者肢体运动过程中的运动信号和表面肌电信号,并将这些信号传输至评估分析模块4,并且包括分布在肢体不同部位的惯性传感器31、肌电传感器32以及数据采集电路33。

利用惯性传感器31获取患者肢体运动过程中的加速度、角速度等信息,利用肌电传感器32获取患者肢体运动过程中运动相关肌肉的表面肌电信号,通过数据采集电路33将这些信息同步采集并传输至评估分析模块4。

评估分析模块4用于根据所述近红外脑血氧采集模块2传输的局部氧合血红蛋白浓度、脱氧血红蛋白浓度、血氧饱和度等脑血氧信号,以及所述运动及生理数据采集模块3传输的加速度、角速度及表面肌电信号,计算得到患者不同脑区的激活程度、激活模式、脑区之间的功能连接、侧偏性等脑功能评价指标,关节活动度、运动平滑度、轨迹偏移度等运动功能评价指标以及肌力、肌张力等肌肉功能指标。以不同脑区的激活程度和不同肌肉肌电信号的幅值信息反映大脑和肌肉的主动参与度,通过计算肌电信号的平均功率频率、中值频率等频域信息反映患者肌肉的疲劳程度。

智能学习与处方推荐模块5包含利用大量患者病历信息、功能评估指标、医生开具的训练处方等信息预先建立的康复训练处方知识库和深度强化学习模型。用于根据所述病历信息录入模块11输入的患者病历信息以及所述评估分析模块4得到的患者脑功能、运动功能和肌肉功能评价指标进行智能学习,输出基于患者病情和目前功能状态的康复训练处方,并通过所述人机交互模块的推荐处方显示模块13反馈给医生和患者,其中,智能学习与处方推荐模块5中的康复训练处方知识库允许具有权限的用户通过所述人机交互模块的知识库管理模块12进行修改,增加内容。

如图3所示,本发明的基于深度强化学习的康复训练处方自适应推荐方法包括以下步骤:

s1:录入患者基本信息和病历信息。

基本信息包括性别、年龄、病史等,病历信息包括病因、脑损伤情况、发病时间、初始功能水平、病程,以及原始的影像、化验等医学检查数据和初始评估数据等。

s2:进行近红外脑血氧和运动、生理信息采集。

利用近红外脑血氧采集模块获取患者运动训练过程中运动区、前额叶等不同脑区的脑皮层血氧参数,包括局部氧合血红蛋白浓度、脱氧血红蛋白浓度、血氧饱和度等。利用惯性传感器、表面肌电传感器等获得患者患肢的加速度、角速度等运动数据和运动相关肌肉的表面肌电数据。

s3:进行患者脑功能和运动功能评估。

在患者运动康复训练过程中,利用脑血氧数据计算得到不同脑区的激活程度、激活模式、脑区之间的功能连接、侧偏性等脑功能评价指标,动态评估患者的脑功能。

具体地:对每一个采集通道采集到的所述近红外脑血氧信号进行连续复小波变换,以小波幅值表征脑激活程度;通过计算得到频域小波相位矩阵,并由此进行每两两通道近红外脑血氧信号的小波相位相干性计算,得到脑功能连接指标,包括脑功能连接强度和效应连接强度;以某大脑半球与对侧大脑半球的脑功能指标之差除以某大脑半球与对侧大脑半球的脑功能指标之和,计算侧偏性系数。

利用加速度、角速度等运动数据和表面肌电数据计算得到关节活动度、运动协调性、肌力、肌张力等运动功能和肌肉功能评价指标,动态评估患者的运动功能和肌肉功能。

具体地:根据肌电与肌力的近似线性关系,利用表明肌电信号的幅值推算相应肌肉的肌力和肌张力。通过建立人体动力学模型,利用肢体不同节段的加速度和角速度数据计算得到关节角度和运动轨迹,以运动中的最大关节角度作为关节活动度,以运动轨迹反映运动协调性,包括:运动轨迹与目标轨迹的偏离度、运动轨迹的平滑度等。

以不同脑区的激活程度和不同肌肉肌电信号的幅值信息反映大脑和肌肉的主动参与度,以肌电信号的平均功率频率、中值频率等频域信息反映患者肌肉的疲劳程度。

s4:基于病历信息和功能评估指标,利用深度强化学习模型进行处方推荐。

预先建立包含大量患者病历信息、功能评估指标与医生开具的训练处方映射关系的康复训练处方知识库,以病历、功能指标和训练处方的映射关系作为先验知识。采用dqn(deepq-learning)算法构建深度强化学习模型,根据患者的基本信息和病历信息,以及脑功能、运动功能和肌肉功能评价指标作为状态,以康复训练处方作为动作,以采用当前的处方进行训练后的功能改善情况作为奖赏,训练学习模型,并在训练过程中引入康复训练处方知识库中的先验知识,加速模型的训练。脑功能评价指标包括不同脑区的激活程度、激活模式、脑区之间的功能连接、侧偏性等。运动功能评价指标包括关节活动度、运动协调性、肌力、肌张力等。

将步骤s3得到的各种不同脑区的激活程度、激活模式、脑区之间的功能连接、侧偏性等脑功能评价指标,关节活动度、运动平滑度、轨迹偏移度等运动功能评价指标以及肌力、肌张力等肌肉功能评价指标输入到训练好的深度强化学习模型,经模型计算输出训练任务、训练方案、运动训练模式、训练频率、训练强度等各康复训练处方项中包含的不同类别或等级的q值,将q值最高的处方项组合,自动生成康复训练处方。其中:训练方案包括单侧运动训练、四肢联动运动训练、运动训练+功能电刺激、运动训练+经颅磁刺激、运动训练+虚拟现实反馈等不同类别;运动训练模式包括主动、被动、助动、阻力等不同类别;训练频率包括每周训练次数、每次训练过程中单个任务训练次数等,每周训练次数包括1-7次等不同等级,每次训练过程中单个任务训练次数包括1-5次等不同等级;训练强度包括每次训练的时长、训练任务的难度以及磁电刺激的部位、强度和频率等,训练时长包括10分钟、20分钟、30分钟、40分钟、50分钟、60分钟等不同等级,任务难度包括简单、中等、较难、难等不同等级,磁电刺激部位包括不同类别,磁电刺激强度和频率包括不同等级。

在使用过程中,步骤s3生成的评价指标和步骤s4生成的康复训练处方会实时增加到深度强化学习模型的知识库中,不断扩充知识库,并根据采用推荐处方训练前后的功能评估指标对比情况自动修正模型。

深度强化训练模型的具体计算方法如图4所示:首先初始化经验池和网络权重,输入病历、功能评价指标等状态参数,如果当前状态不能匹配到先验知识库中的特征状态,则根据ε-greedy策略选取动作(训练处方);如果当期状态能够匹配到先验知识库中的特征状态,则根据先验动作q值和预估动作q值综合判断输出动作(训练处方)。根据采用该动作(训练处方)后患者的功能改善情况得到奖赏值和下一步的状态,并将这些信息存入经验池,重复以上步骤训练网络,每次训练后自动更新网络权重以修正网络。

另一方面,康复训练处方先验知识库中包含患者主动参与度、疲劳程度等状态特征,深度强化学习模型会根据步骤s3中得到的患者的主动参与度和疲劳程度调整训练处方,在检测到使用当前训练处方患者训练一段时候后主动参与度降低或出现疲劳的情况下改变训练模式或降低训练强度。

s5:康复训练处方反馈。

具体地:将步骤s4生成的康复训练处方反馈给医生和患者进行康复训练,重复进行步骤s2。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换,而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1