一种用于疾病风险预测的调查问卷质量评价方法及系统与流程

文档序号:30722447发布日期:2022-07-13 00:36阅读:142来源:国知局
一种用于疾病风险预测的调查问卷质量评价方法及系统与流程

1.本发明涉及计算机辅助医疗技术领域,具体涉及一种用于疾病风险预测的调查问卷质量评价方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.胃早癌等高危疾病风险的预测可以提高疾病早期的诊断率,能够让患者早发现早治疗。为了对患者进行风险预测,问卷调查是重要的一种数据获取方式,调查问卷内容主要涉及患者的基本信息、饮食习惯、近期主要症状、疾病家族史和疾病既往史,可以通过收集胃病患者的问卷调查数据,分析患者早期胃早癌风险级别,然而调查问卷的填写质量层次不齐,有必要对调查问卷的质量进行评价,以期获得准确的数据来源,从而提高胃早癌高危风险的预测效果。
4.现有技术的分析方法单一,大多基于统计学方法以及临床研究与医学经验相结合,当面临样本数足够多,疾病涉及因素广的情况时,此类方法往往导致效率低下,分析出的结果对于疾病的预防与诊治没有太大的帮助。
5.技术方案
6.为克服上述现有技术的不足,本发明提供了一种用于疾病风险预测的调查问卷质量评价方法及系统,对调查问卷分主题进行真实性评价,并且通过计算调查问卷中各个影响因素的信息增益来反映各影响因素对问卷结果真实性的影响,从而能够更准确地判断调查问卷填写的质量。
7.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
8.一种用于疾病风险预测的调查问卷质量评价方法,包括以下步骤:
9.确定调查问卷中所述疾病的影响因素;
10.获取多个疾病阳性样本和多个疾病阴性样本,对于所述疾病的每个影响因素,分别计算信息增益,得到每个影响因素的权重;
11.获取多个调查问卷样本,所述调查问卷样本中包括真实样本和不真实样本,针对调查问卷中的每个影响因素,分别训练可信度评价网络;
12.获取待评价调查问卷,对其中的每个影响因素,分别根据填写结果,采用相应可信度评价网络得到各个影响因素的可信度,然后基于相应影响因素的权重,得到所述待评价调查问卷的整体可信度。
13.进一步地,确定调查问卷中包含的疾病影响因素包括:
14.获取多个所述疾病阳性样本对应的正确填写的调查问卷,对调查问卷进行主题分类,根据主题对疾病的影响,确定调查问卷中所述疾病的影响因素。
15.进一步地,每个影响因素的信息增益计算方法包括:
16.根据疾病样本中阳性样本和阴性样本的占比,计算疾病样本的信息熵;
17.根据调查问卷中所述影响因素的选项个数,对疾病样本划分子集,根据每个子集中诊断结果为阳性和阴性的占比,计算各个子集的信息熵;
18.根据疾病样本的信息熵和该影响因素各个子集的信息熵,计算所述影响因素的信息增益。
19.进一步地,疾病样本的信息熵计算方法为:
[0020][0021]
其中,d为疾病样本总数,n和m分别是其中阳性样本和阴性样本的个数。
[0022]
进一步地,所述影响因素每个子集的信息熵计算方法为:
[0023][0024]
其中,dv表示所述影响因素第v个子集,|dv|表示该子集的样本数,nv和mv分别是其中阳性样本和阴性样本的个数。
[0025]
进一步地,所述影响因素的信息增益计算方法为:
[0026][0027]
其中,n表示所述影响因素的子集个数。
[0028]
进一步地,每个影响因素的可信度评价网络训练方法包括:
[0029]
获取多个调查问卷样本中针对所述影响因素的填写结果;
[0030]
根据各选项的占比和排序,生成特征向量;
[0031]
基于深度学习模型,训练所述影响因素的可信度评价网络。
[0032]
一个或多个实施例提供了一种用于疾病风险预测的调查问卷质量评价系统,包括:
[0033]
影响因素确定模块,用于确定调查问卷中所述疾病的影响因素;
[0034]
信息增益计算模块,用于获取多个疾病阳性样本和多个疾病阴性样本,对于所述疾病的每个影响因素,分别计算信息增益,得到每个影响因素的权重;
[0035]
网络模型训练模块,用于获取多个调查问卷样本,所述调查问卷样本中包括真实样本和不真实样本,针对调查问卷中的每个影响因素,分别训练可信度评价网络;
[0036]
质量评价模块,用于获取待评价调查问卷,对其中的每个影响因素,分别根据填写结果,采用相应可信度评价网络得到各个影响因素的可信度,然后基于相应影响因素的权重,得到所述待评价调查问卷的整体可信度。
[0037]
一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的用于疾病风险预测的调查问卷质量评价方法。
[0038]
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的用于疾病风险预测的调查问卷质量评价方法。
[0039]
以上一个或多个技术方案存在以下有益效果:
[0040]
通过计算调查问卷中各个影响因素的信息增益,来反映各影响因素对问卷结果真
实性的影响,同时,针对调查问卷中每个影响因素分模块进行真实性评价,最终结合每个影响因素的真实性和信息增益得到调查问卷的评价结果,能够充分保留有价值问卷,为后续风险预测模型的准确性提供了数据保障。
附图说明
[0041]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0042]
图1为本发明一个或多个实施例中用于疾病风险预测的调查问卷质量评价方法流程图;
[0043]
图2为本发明实施例二中用于疾病风险预测的调查问卷质量评价系统框架图。
具体实施方式
[0044]
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
[0045]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0046]
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0047]
实施例一
[0048]
本实施例提供了一种用于疾病风险预测的调查问卷质量评价方法,包括以下步骤:
[0049]
确定调查问卷中所述疾病的影响因素;
[0050]
获取多个疾病阳性样本和多个疾病阴性样本,对于所述疾病的每个影响因素,分别计算信息增益,得到每个影响因素的权重;
[0051]
获取多个调查问卷样本,所述调查问卷样本中包括真实样本和不真实样本,针对调查问卷中的每个影响因素,分别训练可信度评价网络;
[0052]
获取待评价调查问卷,对其中的每个影响因素,分别根据填写结果,采用相应可信度评价网络得到各个影响因素的可信度,然后基于相应影响因素的权重,得到所述待评价调查问卷的整体可信度。
[0053]
以胃早癌为例,对所述方法进行具体阐述,包括以下步骤:
[0054]
步骤1:确定调查问卷中包含的胃早癌影响因素;
[0055]
具体地,获取多个胃早癌阳性样本对应的正确填写的调查问卷,通过调查问卷信息确定出胃早癌对应的影响因素。
[0056]
由于胃早癌的实际确诊需要考虑的因素,相对于调查问卷要更为复杂,不便于直接用来评价调查问卷,因此本实施例基于待评价的调查问卷,首先进行主题分类,例如调查问卷的主题被划分为烟酒史,个人病史,家族病史,饮食史,精神状况;然后根据各主题对胃早癌的影响,确定调查问卷中胃早癌的影响因素。需要说明的是,此处确定的影响因素可以
包含调查问卷中的全部主题,也可以仅包含其中的部分主题。
[0057]
步骤2:获取多个胃早癌阳性样本和多个胃早癌阴性样本,对于胃早癌的每个影响因素,分别计算信息增益,得到每个影响因素的权重。
[0058]
具体地,对于胃早癌的每个影响因素:吸烟史,饮酒史,个人病史,家族病史,饮食史,精神状况,通过计算每个影响因素在样本数据集下的信息增益,做归一化处理得到每个影响因素的权重。
[0059]
所述步骤2具体包括以下步骤:
[0060]
步骤2.1:获取多个胃早癌阳性样本和多个胃早癌阴性样本;
[0061]
步骤2.2:根据其中阳性样本和阴性样本的占比,计算胃早癌样本的信息熵;
[0062]
假设胃早癌二分类数据集有d个样本,其中确诊胃早癌的阳性样本有n个,不是胃早癌的阴性样本有m个,则计算出胃早癌样本的信息熵为
[0063][0064]
步骤2.3:对于每个影响因素,根据调查问卷中所述影响因素的选项个数,对疾病样本划分子集,根据每个子集中诊断结果为阳性和阴性的占比,计算各个子集的信息熵,根据胃早癌样本的信息熵和该影响因素各个子集的信息熵,计算所述影响因素的信息增益,作为该影响因素的权重。
[0065]
所述影响因素每个子集的信息熵计算方法为:
[0066][0067]
其中,dv表示所述影响因素第v个子集,|dv|表示该子集的样本数,nv和mv分别是其中阳性样本和阴性样本的个数。
[0068]
胃早癌有6个相关联的影响因素{吸烟史,饮酒史,个人病史,家族病史,饮食史,精神状况},计算出每个影响因素的信息增益。以“吸烟史”为例,有5个可能的取值:{未吸烟、吸烟史少于5年现已戒烟,吸烟史大于5年未戒烟,吸烟史大于5年现已戒烟,吸烟史大于5年未戒烟}。
[0069]
用该特征对数据集d进行划分,则可得到5个子集。分别记为d1(未吸烟),d2(吸烟史少于5年现已戒烟),d3(吸烟史大于5年未戒烟),d4(吸烟史大于5年现已戒烟),d5(吸烟史大于5年未戒烟)。
[0070]
假定d1有a个样本,确诊胃早癌的阳性样本有a_n个,不是胃早癌的阴性样本有a_m个,则d2有b个样本,确诊胃早癌的阳性样本有b_n个,不是胃早癌的阴性样本有b_m个,则d3有c个样本,确诊胃早癌的阳性样本有c_n个,不是胃早癌的阴性样本有c_m个,则d4有d个样本,确诊胃早癌的阳性样本有d_n个,不是胃早癌的阴性样本有d_m个,则d5有e个样本,确诊胃早癌的阳性样本有e_n个,不是胃早癌的阴性样本有e_m个,则
[0071]
可以计算出用“吸烟史”划分之后所获得的5个子集的信息熵为
[0072][0073][0074][0075][0076][0077]
于是可以计算得到特征“吸烟史”的信息增益为
[0078][0079]
同理可得其他特征的信息增益:
[0080]
gain(d,饮酒史)、gain(d,个人病史)
[0081]
gain(d,家族病史)、(d,饮食史)、gain(d,精神状况)。
[0082]
可以计算出每个属性的权重:
[0083][0084][0085][0086][0087][0088][0089]
步骤3:获取多个调查问卷样本,所述调查问卷样本中包括真实样本和不真实样本,针对调查问卷中的每个影响因素,分别训练可信度评价网络;
[0090]
具体操作如下:获取过往问卷调查统计信息,以及该患者问卷对应的真实标签:可信为1、不可信为0两类进行模型训练,调查问卷中包括个人病史、家族史、饮食史、精神状况
等模块,各个模块的特征规格不一样,不属于同一量纲,特征集合放在一起会导致有效特征信息利用率低,所以这里采用针对不同模块的问卷选项训练所对应的分类模型,从而训练出多个模型。
[0091]
通过各个模块中abcd选项的占比和选项的排列顺序依次训练个人病史选项、家族史选项、饮食史选项、精神状况选项、吸烟史、饮酒史对应的网络模型。
[0092]
步骤4:获取待评价调查问卷,对其中的每个影响因素,分别根据填写结果,采用相应可信度评价网络得到各个影响因素的可信度,然后基于相应影响因素的权重,得到所述待评价调查问卷的整体可信度。
[0093]
评价阶段输入需要确定填写质量的调查问卷,依次调用上述子模型得到对应的可信度评判,再基于步骤一确定出的权重对应的属性部分计算出该调查问卷的可信度。比如:[精神状况二分类模型、吸烟史二分类模型、饮酒史二分类模型、个人病史二分类模型、家族史二分类模型、饮食史二分类模型],依次对应的权重分别是:[0.1,0.05,0.2,0.2,0.2,0.25]。假如单个模型识别结果:[1,1,1,1,0,0],总的可信度:0.1*1+0.05*1+0.2*1+0.2*1+0.2*0+0.25*0=0.55,高于某阈值认定为该问卷可信,阈值可根据医生经验确定。
[0094]
实施例二
[0095]
在实施例一所述方法的基础上,本实施例提供了一种用于疾病风险预测的调查问卷质量评价系统,包括:
[0096]
影响因素确定模块,用于确定调查问卷中所述疾病的影响因素;
[0097]
信息增益计算模块,用于获取多个疾病阳性样本和多个疾病阴性样本,对于所述疾病的每个影响因素,分别计算信息增益,得到每个影响因素的权重;
[0098]
网络模型训练模块,用于获取多个调查问卷样本,所述调查问卷样本中包括真实样本和不真实样本,针对调查问卷中的每个影响因素,分别训练可信度评价网络;
[0099]
质量评价模块,用于获取待评价调查问卷,对其中的每个影响因素,分别根据填写结果,采用相应可信度评价网络得到各个影响因素的可信度,然后基于相应影响因素的权重,得到所述待评价调查问卷的整体可信度。
[0100]
实施例三
[0101]
在实施例一所述方法的基础上,本实施例的提供了一种电子设备。
[0102]
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施例一所述的用于疾病风险预测的调查问卷质量评价方法。
[0103]
实施例四
[0104]
本实施例的目的是提供一种计算机可读存储介质。
[0105]
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所述的用于疾病风险预测的调查问卷质量评价方法。
[0106]
以上实施例二至四中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0107]
以上一个或多个实施例首先通过计算调查问卷中各个影响因素的信息增益,来反
映各影响因素对问卷结果真实性的影响,然后,针对调查问卷中每个影响因素,分模块进行真实性评价,结合信息增益加权求和得到调查问卷的评价结果。
[0108]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0109]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1