基于脑卒中患者相似性分析的治疗方案推荐方法及系统与流程

文档序号：15391680发布日期：2018-09-08 01:14阅读：264来源：国知局

本发明涉及医疗领域中的脑卒中康复治疗领域，具体地，涉及一种基于脑卒中患者相似性分析的治疗方案推荐方法及系统。

背景技术：

“脑卒中”(cerebralstroke)又称“中风”、“脑血管意外”。是一种急性脑血管疾病，具有高致残率和高复发性等特点。循证医学证实，脑卒中康复治疗是降低致残率最有效的方法，也是脑卒中组织化管理模式中不可或缺的关键环节，目前，康复治疗方案主要有运动训练、作业疗法、言语训练、吞咽训练、气压治疗、理疗等。

沈明强等在《中国血液流变学杂志》[2008年，18(2):205-231]发表的论文“卒中急性期血压与预后的相关研究”中，分析了卒中急性期血压与预后的关系以指导临床治疗，研究入院距发病时间小于24h的急性脑梗死及脑出血的住院患者,进行基本资料收集,监测入院后7d内血压变化,对病程中伴发疾病进行评分,对入院后血压管理的方式及干预时间进行登记。结果显示，(1)入院时血压及入院后7d内平均血压与1月死亡率和6月死亡或残疾率呈u型关系,血压过高或过低者预后均差。入院时收缩压在120～180mmhg和舒张压在70～100mmhg预后较好,取中间值即血压在150/85mmhg时预后最佳。(2)大动脉硬化型梗死及心源性梗死均在入院时血压(120～180/70～100)mmhg时预后相对较好,在入院2d内平均血压、入院7d内平均血压不同血压段的梗死近期死亡率、远期死亡和残疾率无显著性差异,toast其它亚型脑梗死因样本量小无法进行统计分析。(3)脑出血患者入院时收缩压在120～180mmhg,6月时死亡或残疾率较低,预后较好。入院7d内平均收缩压越低,6月时死亡或残疾率越低,预后越好。入院时、入院7d内平均舒张压与6月时死亡或残疾率无明显关系。(4)多元线性回归分析发现伴发病评分、卒中后3d内加重、1d内dbp下降大于20％与6月时nihss评分正相关,入院后降压治疗与6月时nihss评分负相关,p<0.05。得出，卒中急性期血压与预后呈u型关系,在(120～180/70～100)mmhg血压段预后最佳。经卒中分类及梗死分型后分别进行研究,推断脑出血急性期的高血压宜平稳下降,脑梗死因病例数少尚不能得出结论。

王乐等在《天津中医药》[2011年，第28卷第5期，366-369页]发表的论文“ciss卒中分型与中医证候要素相关性分析及其预后评判的意义初探”中，研究中国缺血性卒中亚型(ciss)卒中分型与中医证候要素及预后判断的相关性。1)收集72h内的新发卒中患者的中医四诊信息及心电图、心脏彩超、经颅多普勒(tcd)、计算机断层扫描(ct)或核磁共振成像(mri)等检查结果。2)将中医辨证分型与ciss分型结果做spearman相关性分析。结果显示，1)中医证类以血瘀(179例)、痰(105例)为主。2)心源性卒中预后较差(22.7％),穿支动脉疾病预后较好(3.5％)；火证预后结局不良(20.5％),血瘀证(16.2％)预后较好者居多。3)火证(相关系数0.49,p＝0.009)、血瘀证(相关系数0.55,p＝0.004)与心源性卒中具有相关性；而痰证与大动脉粥样硬化性卒中相关(相关系数0.38,p＝0.001),风证与穿支动脉疾病相关(相关系数0.47,p＝0.009)。得出，辨证分型中的血瘀证、痰证分别与心源性卒中、大动脉粥样硬化性卒中相关,火证与心源性卒中相关。ciss分型与中医证类对于卒中综合征的描述具有一定的相似性。

吴怡之等在《微型机与应用》[2016，第35卷第13期，55-59页]发表的论文“基于支持向量机分类的脑中风微波检测”中，提出了一种以支持向量机作为核心的机器学习脑中风检测分类算法,并通过粒子群优化算法来对svm参数进行寻优,以达到优化分类准确率的目的,实现有无脑中风的正确分类。经过脑中风微波检测实验系统验证,脑中风的分类器平均检测正确率经优化后提高了16％,证明算法的可行性。

中国专利申请号201380061665.7[s·卡玛拉卡兰等，使用具有患者特异性的相关性评价的变体-疾病关联性诊断基因分析，104838384.a，2015-08-12]的发明专利公开了使用具有患者特异性的相关性评价的变体-疾病关联性诊断基因分析，通过临床研究与表型特征相关联的在诊断对象基因数据中观察到的研究基因变体的相关性依照下文进行评价。与所述研究基因变体在功能上相关的一组多态被识别。针对该组多态计算在所述诊断对象基因数据中观察到的变体的前景分布。针对该组多态计算在所述临床研究的对象的基因数据中观察到的变体的背景分布。计算比较所述前景分布和所述背景分布的比较度量。基于所述比较度量来量化所述研究变体与所述诊断对象的相关性，所述前景分布和背景分布的较高的相似性对应于较高的相关性。

中国专利申请号201710036979.1[李昊旻等，一种患者相似性分析的快速计算方法，106650299.a，2017-05-10]的发明专利公开了一种患者相似性分析的快速计算方法，包括：(1)将患者描述为特征向量并映射到特征空间，选择n个临床指标并制定特征值方案；(2)根据所述的特征值方案和患者数据，将所述的n个临床指标映射到特定的bit位，生成统一特征值，每个患者对应一个统一特征值；(3)对两个患者的统一特征值进行相似性运算，得到相似特征值；(4)统计所述的相似特征值中相似特征的个数m，计算所述的相似特征在整个特征空间的比例m/n，以m/n来定量评估两个患者的相似性。可以大幅度降低计算量以及提高数据获取的效率，为在超大患者群体数据中实时开展相似性计算提供了基础。

综上可知，脑卒中患者的康复治疗效果和多种因素相关，不同的患者针对同一种方案的治疗效果各异，对患者进行相似性分析，可以针对性地提供治疗方案，也更有效，传统的方法是基于医生经验来对治疗方案进行选择，近几年，也有学者对患者相似性进行了探索研究，但是，针对单一病种，采用机器学习的方法对患者相似性分析，并依据群体特征进行治疗方案推荐尚未实现，本发明针对这一技术问题，引入机器学习方法对脑卒中患者相似性进行分析，并对各个群进行多维度的特征描述，并针对不同的群，提供不同的治疗方案推荐，治疗方案依据有效性进行降序排列，可以更好的帮助医生进行治疗方案的精确化、智能化选择。

技术实现要素：

针对现有技术中的缺陷，本发明的目的是提供一种基于脑卒中患者相似性分析的治疗方案推荐方法及系统。

根据本发明提供的一种基于脑卒中患者相似性分析的治疗方案推荐方法，包括如下步骤：

数据预处理步骤：对数据进行预处理，得到数据建模所需的目标人群数据；

特征选择步骤：对目标人群数据的不同类型数据用不同方法进行特征选择，得到特征选择数据；

相似性分群步骤：对特征选择数据进行分类，并对每个类别进行特征描述得到分群特征描述；

治疗方案推荐步骤：基于分群特征描述提取并汇总每个类别的治疗方案，对所有类别的治疗方案进行有效性排序，推荐最优治疗方案。

优选地，所述数据预处理步骤包括：

数据集成步骤：对数据进行集成，形成完整数据集；

数据清洗步骤：对完整数据集中的不规范数据进行数据清洗；

数据去缺失步骤：对完整数据集中存在缺失的数据的分类型和连续型特征依照众数或者均值进行缺失数据填充；

入组筛选步骤：基于入组条件，对完整数据集进行数据筛选。

优选地，所述特征选择步骤包括：

转换衍生步骤：对目标人群数据进行转换衍生，形成特征变量；

特征筛选步骤：对特征变量进行筛选，得到候选特征；

特征选取步骤：对所有的候选特征分别计算p-value值，选取p-value值小于阈值的候选特征作为特征选择数据。

优选地，所述相似性分群步骤包括：

特征分群步骤：选取分类特征，设定分群规则对特征选择数据分群处理，得到分群结果；

特征描述步骤：对分群结果的每个类别特征进行描述，得到分群特征描述。

优选地，所述治疗方案推荐步骤包括：

治疗方案集合步骤：基于分群特征描述，对每个分群中的治疗方案进行选择、汇总，得到每个分群的治疗方案集合；

治疗方案排序步骤：对每个分群的治疗方案采用广义回归法计算影响，并计算oddsratio值，依据oddsratio值对对每个分群的治疗方案排序；

治疗方案推荐步骤：对各个分群治疗方案推荐，按照oddsratio值大小降序排列。

本发明提供了一种基于脑卒中患者相似性分析的治疗方案推荐系统，包括如下模块：

数据预处理模块：用于对数据进行预处理，得到数据建模所需的目标人群数据；

特征选择模块：用于对目标人群数据的不同类型数据用不同方法进行特征选择，得到特征选择数据；

相似性分群模块：用于对特征选择数据进行分类，并对每个类别进行特征描述得到分群特征描述；

治疗方案推荐模块：用于基于分群特征描述提取并汇总每个类别的治疗方案，对所有类别的治疗方案进行有效性排序，推荐最优治疗方案。

优选地，所述数据预处理模块包括：

数据集成模块：用于对数据进行集成，形成完整数据集；

数据清洗模块：用于对完整数据集中的不规范数据进行数据清洗；

数据去缺失模块：用于对完整数据集中存在缺失的数据的分类型和连续型特征依照众数或者均值进行缺失数据填充；

入组筛选模块：用于基于入组条件，对完整数据集进行数据筛选。

优选地，所述特征选择模块包括：

转换衍生模块：用于对目标人群数据进行转换衍生，形成特征变量；

特征筛选模块：用于对特征变量进行筛选，得到候选特征；

特征选取模块：用于对所有的候选特征分别计算p-value值，选取p-value值小于阈值的候选特征作为特征选择数据。

优选地，所述相似性分群模块包括：

特征分群模块：用于选取分类特征，设定分群规则对特征选择数据分群处理，得到分群结果；

特征描述模块：用于对分群结果的每个类别特征进行描述，得到分群特征描述。

优选地，所述治疗方案推荐模块包括：

治疗方案集合模块：用于基于分群特征描述，对每个分群中的治疗方案进行选择、汇总，得到每个分群的治疗方案集合；

治疗方案排序模块：用于对每个分群的治疗方案采用广义回归法计算影响，并计算oddsratio值，依据oddsratio值对对每个分群的治疗方案排序；

治疗方案推荐模块：用于对各个分群治疗方案推荐，按照oddsratio值大小降序排列。

与现有技术相比，本发明具有如下的有益效果：

1、本发明对脑卒中患者进行相似性分析，分为不同的群，并对各个群的特征进行了描述，通过分群，可以获取患者的多维度的特征描述，更全面地对患者情况进行了解。

2、本发明基于相似性分群结果，对各个群的治疗方案进行有效性的排序，可以更加快捷有效的为不同类别的患者选择更精准个性化的治疗方案，可以极大降低时间成本和经济成本。

3、本发明通过分群和治疗有效性分析，对于医生感兴趣的治疗方案或结局，模型可针对个体病人找到相似的精准人群，并在此基础上提供个体化的有效治疗方案建议，对于医生对病人实施康复治疗和相关研究有很大指导意义。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于脑卒中患者相似性分析的治疗方案推荐方法的流程图；

图2为数据预处理模块的工作原理图；

图3为特征选择模块的工作原理图；

图4为相似性分群模块的工作原理图；

图5为治疗方案推荐模块的工作原理图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图1至图5所示，本发明提供了一种基于脑卒中患者相似性分析的康复治疗方案推荐方法及系统，对脑卒中患者进行相似性分析，分为不同的群，并对各个群的特征进行了描述，通过分群，可以获取患者的多维度的特征描述，更全面地对患者情况进行了解；基于相似性分群结果，对各个群的治疗方案进行有效性的排序，可以更加快捷有效的为不同类别的患者选择更精准个性化的治疗方案，可以极大降低时间成本和经济成本；通过分群和治疗有效性分析，对于医生感兴趣的治疗方案或结局，可针对个体病人找到相似的精准人群，并在此基础上提供个体化的有效治疗方案建议，对于医生对病人实施康复治疗和相关研究有很大指导意义。

具体的，根据本发明提供的一种基于脑卒中患者相似性分析的康复治疗方案推荐方法，包括：数据预处理步骤：对数据进行预处理，得到数据建模所需的目标人群数据；特征选择步骤：对目标人群数据的不同类型数据用不同方法进行特征选择，得到特征选择数据；相似性分群步骤：对特征选择数据进行分类，并对每个类别进行特征描述得到分群特征描述；治疗方案推荐步骤：基于分群特征描述提取并汇总每个类别的治疗方案，对所有类别的治疗方案进行有效性排序，推荐最优治疗方案。

其中，数据预处理步骤中的数据涵盖脑卒中住院患者入院时和出院时的相关评分，病人性别，年龄，职业，病史，实验室检查，入院期间的医嘱(包括采用的康复治疗和用药)等相关信息，以数据集d表示，通过以下方法进行预处理：

步骤1.1：把不同时间段和分散在不同表格的数据采用数据集成方法拼接得到一起，形成完整数据集：每个数据源会导出一个或多个csv文件，依据设计的联系规则，把不同数据源但是有同样id号或者序列号的信息连接在一起，联系规则主要根据病人id号或是入组序列号。

步骤1.2：对病例数据中不规范的数据(如时间格式)进行数据清洗：针对不同的类型的不规范数据设计不同的清洗规则，对数据格式进行规整和对不合理数据进行处理或修改。

步骤1.3：对于存在缺失数据的分类型和连续型特征，分别依照众数和均值进行缺失数据填充。

步骤1.4：依照入组条件对数据进行筛选，其中，入组条件为：

(a)有入院后7天内的barthel评分数据，和出院前7天内的barthel评分数据；

(b)出入院评分至少间隔7天；

(c)有从病历录入的特征信息数据，包括高血压、糖尿病、吸烟史等。

经过数据预处理处理，得到数据以dpre表示，包含的数据有连续型特征数据，分类型特征数据，结局数据，康复治疗方案数据。

更为具体地，特征选择步骤包括：将经过数据预处理器得到的数据，应用不同的特征构造方法，对不同类型数据用不同方法进行特征构造，具体为：

步骤2.1：对数据预处理步骤得到的数据进行转换和衍生：基于集合运算衍生新特征，采用的集合运算包括count，mean，min，max，std.等，例如某个病人一天中可能有几个血压值，采用平均值，最大值或最小值最为血压这个特征变量的最后值。基于领域知识和关联规则方法apriori构造新特征：根据已有特征的组合衍生出新的特征变量。

步骤2.2：采用卡方检验、wilcoxonsigned-rank检验、anova检验方法对二值变量、二值目标、连续变量、连续目标特征进行处理，筛选出影响因子作为候选特征，其中：对于二值变量，采用卡方检验筛选出影响因子；对于二值目标，分别采用卡方检验和wilcoxonsigned-rank检验筛选出影响因子；对于连续变量，分别采用wilcoxonsigned-rank检验和anova检验筛选出影响因子。对于连续目标，采用anova检验筛选出影响因子；

步骤2.3：对步骤2.2中选出的所有候选特征，分别计算其统计检验p-value值，选取p-value小于0.05的候选特征，作为特征构造器选取的最终特征。

通过特征构造步骤处理，得到的数据以dselect表示，选取的特征为性别、年龄、高血压病、糖尿病、入院缺陷分级、glu(血糖),ldlc(低密度脂蛋白胆固醇)、tg(甘油三酯)等。

更为详细地，相似性分群步骤包括：对脑卒中患者进行分类，并对每个类别进行特征描述：首先，采用决策树的方法，依次选取入院评分和卒中发病时间作为分类特征，设定分群规则，对特征选择步骤得到的数据集dselect进行处理，得到分群结果。然后，基于分群结果，对每个类别的glu(血糖)平均值和标准差、tg(甘油三酯)平均值和标准差、ldlc(低密度胆固醇)平均值和标准差、平均年龄、男性百分占比、平均barthel值、糖尿病百分占比、高血压百分占比等进行描述，得到分群特征描述。

更进一步地，通过治疗方案推荐步骤，对治疗方案进行有效性排序，给出最有效的治疗方案推荐：首先，基于分群特征描述，先提取每个群中患者采用的治疗方案进行选择，采用集合并的方式将治疗方案进行汇总，得到每个群的全部治疗方案集合。然后，针对每个群的每个治疗方案，采用广义回归方法计算影响(是否会提升概率)，并计算oddsratio值(计算方法，依据广义回归得出每种方案的有效性数值，作为e的指数，进行计算)，依据oddsratio值对治疗方案进行排序。最后，各个群治疗方案推荐，按照oddsratio值大小降序排列。oddsratio值越大，说明治疗方案越有效。

根据本发明提供的一种基于脑卒中患者相似性分析的康复治疗方案推荐系统，包括：数据预处理模块：用于对数据进行预处理，得到数据建模所需的目标人群数据；特征选择模块：用于对目标人群数据的不同类型数据用不同方法进行特征选择，得到特征选择数据；相似性分群模块：用于对特征选择数据进行分类，并对每个类别进行特征描述得到分群特征描述；治疗方案推荐模块：用于基于分群特征描述提取并汇总每个类别的治疗方案，对所有类别的治疗方案进行有效性排序，推荐最优治疗方案。

其中，数据预处理模块中的数据涵盖脑卒中住院患者入院时和出院时的相关评分，病人性别，年龄，职业，病史，实验室检查，入院期间的医嘱(包括采用的康复治疗和用药)等相关信息，以数据集d表示，通过以下模块进行预处理：

数据集成模块：把不同时间段和分散在不同表格的数据采用数据集成方法拼接得到一起，形成完整数据集：每个数据源会导出一个或多个csv文件，依据设计的联系规则，把不同数据源但是有同样id号或者序列号的信息连接在一起，联系规则主要根据病人id号或是入组序列号。

数据清洗模块：对病例数据中不规范的数据(如时间格式)进行数据清洗：针对不同的类型的不规范数据设计不同的清洗规则，对数据格式进行规整和对不合理数据进行处理或修改。

数据去缺失模块：对于存在缺失数据的分类型和连续型特征，分别依照众数和均值进行缺失数据填充。

入组筛选模块：依照入组条件对数据进行筛选，其中，入组条件为：

(a)有入院后7天内的barthel评分数据，和出院前7天内的barthel评分数据；

(b)出入院评分至少间隔7天；

(c)有从病历录入的特征信息数据，包括高血压、糖尿病、吸烟史等。

经过数据预处理处理，得到数据以dpre表示，包含的数据有连续型特征数据，分类型特征数据，结局数据，康复治疗方案数据。

更为具体地，特征选择模块包括：将经过数据预处理器得到的数据，应用不同的特征构造方法，对不同类型数据用不同方法进行特征构造，具体为：

转换衍生模块：对数据预处理模块得到的数据进行转换和衍生：基于集合运算衍生新特征，采用的集合运算包括count，mean，min，max，std.等，例如某个病人一天中可能有几个血压值，采用平均值，最大值或最小值最为血压这个特征变量的最后值。基于领域知识和关联规则方法apriori构造新特征：根据已有特征的组合衍生出新的特征变量。

特征筛选模块：采用卡方检验、wilcoxonsigned-rank检验、anova检验方法对二值变量、二值目标、连续变量、连续目标特征进行处理，筛选出影响因子作为候选特征，其中：对于二值变量，采用卡方检验筛选出影响因子；对于二值目标，分别采用卡方检验和wilcoxonsigned-rank检验筛选出影响因子；对于连续变量，分别采用wilcoxonsigned-rank检验和anova检验筛选出影响因子。对于连续目标，采用anova检验筛选出影响因子；

特征选取模块：对特征筛选模块中选出的所有候选特征，分别计算其统计检验p-value值，选取p-value小于0.05的候选特征，作为特征构造器选取的最终特征。

通过特征构造模块处理，得到的数据以dselect表示，选取的特征为性别、年龄、高血压病、糖尿病、入院缺陷分级、glu(血糖),ldlc(低密度脂蛋白胆固醇)、tg(甘油三酯)等。

更为详细地，相似性分群模块包括：对脑卒中患者进行分类，并对每个类别进行特征描述：首先，采用决策树的方法，依次选取入院评分和卒中发病时间作为分类特征，设定分群规则，对特征选择模块得到的数据集dselect进行处理，得到分群结果。然后，基于分群结果，对每个类别的glu(血糖)平均值和标准差、tg(甘油三酯)平均值和标准差、ldlc(低密度胆固醇)平均值和标准差、平均年龄、男性百分占比、平均barthel值、糖尿病百分占比、高血压百分占比等进行描述，得到分群特征描述。

更进一步地，通过治疗方案推荐模块，对治疗方案进行有效性排序，给出最有效的治疗方案推荐：首先，基于分群特征描述，先提取每个群中患者采用的治疗方案进行选择，采用集合并的方式将治疗方案进行汇总，得到每个群的全部治疗方案集合。然后，针对每个群的每个治疗方案，采用广义回归方法计算影响(是否会提升概率)，并计算oddsratio值(计算方法，依据广义回归得出每种方案的有效性数值，作为e的指数，进行计算)，依据oddsratio值对治疗方案进行排序。最后，各个群治疗方案推荐，按照oddsratio值大小降序排列。oddsratio值越大，说明治疗方案越有效。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王永明;胡天龙;熊伟;刘佳伟;翟向东;陈继智;赵政达;章玉宇;崔修涛;应振宇
技术所有人：上海长江科技发展有限公司
我是此专利的发明人

上一篇：传动组件、自行车传动装置及自行车的制作方法
上一篇：一种帽盖生产用多组入热处理固定托盘的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。