基于症状特征权重推导疾病概率的装置和存储介质的制作方法

文档序号：19493826发布日期：2019-12-24 14:29阅读：168来源：国知局

本发明涉及自然语言处理、人工智能和大数据分析领域，并特别涉及一种基于症状特征权重推导疾病概率的装置和存储介质。

背景技术：

20世纪70年代就开始出现人工智能辅助医生进行诊断的医学专家系统相关研究，四十多年来出现过各种医学专家系统，但尚无产品得到临床广泛应用，即便像ibm沃森也只是在肿瘤癌症等疾病诊断中进行演示性应用；科大讯飞“智医助理”机器人因其以超过合格线96分的成绩通过国家执业医师资格考试综合笔试评测，成为全国第一个通过国家执业医师资格考试的人工智能机器人，目前也仅仅在做一些试点应用。由此可见，人工智能辅助诊断一类的综合性应用研究起步很早，却至今没有得到普及应用。究其原因是技术与医疗场景的最后一公里没有打通，即病情采集存在缺陷，从技术研究的角度看医学专家系统早就远远超过普通医生的医学知识水平，而医学诊断过程中医患对话本身是按照医生的诊断思路采集患者病情，一般来说医生根据患者主诉能够有意识地采集病情，那么医生就能和专家系统一样做出合理的诊断，反之医生采集病情不够准确，专家系统也就无法获得正确的输入，自然无法做出合理的诊断。这最后一公里无法逾越，再强大的人工智能对医生来说也毫无用武之地。

为了打通这最后一公里，有人提出了“基于关联症状推导的病情采集方法”。应该是一种不错的思路，即是基于诊断学的原理像医生一样根据患者主诉快速、有效、准确地采集病情，用技术手段模拟了医生的主观诊断过程。基于关联症状推导的病情采集方法实际上是一种关键词检索技术；而本发明基于症状特征权重推导疾病概率的装置是一种人工智能技术。相信随着业界对该专利成果的重视，将会为人工智能辅助诊断的普及应用扫清最后一公里的障碍。除了前述人工智能辅助诊断综合性应用外，人工智能辅助医生进行诊断和治疗的一些关键点上的应用研究不断取得突破，尤其在医学影像方面，比如食管癌、肺癌、糖网病变、乳腺癌、结直肠癌、宫颈癌的医学影像筛查识别的准确率都已超过了医学专家水平。随着更多关键点上的突破，人工智能辅助诊断综合性应用的智能化程度也会越来越高。

技术实现要素：

针对现有技术的不足，本发明提出一种基于症状特征权重推导疾病概率的装置，其中包括：

症状特征存储单元，用于存储多条医疗知识信息，每条该医疗知识信息由症状特征和疾病标签组成；

过滤策略生成单元，用于对该医疗知识信息进行挖掘以生成过滤策略；

检索单元，用于接收来自咨询信息或反馈信息的实体标签，并以该实体标签检索该症状特征存储单元，得到与该咨询信息或该反馈信息对应的症状特征以及疾病标签，作为检索结果；

过滤单元，用于根据该过滤策略对该检索结果进行过滤，得到过滤结果，并通过预设规则对该过滤结果进行判断，以选择根据该过滤结果生成问题以提示用户输入反馈信息，或选择将该过滤结果作为最终结果进行输出。

所述的基于症状特征权重推导疾病概率的装置，其中该症状特征存储单元以合并疾病标签间的共同症状特征的方式压缩存储该医疗知识信息。

所述的基于症状特征权重推导疾病概率的装置，其中该压缩存储包括：

将医疗知识信息按照疾病类型进行划分，并提取每一类型疾病的共同症状特征，该症状特征存储单元存储该共同症状特征及其对应的疾病类型，该症状特征存储单元还存储由独有症状特征、所属疾病类型和疾病标签组成的医疗知识信息。

所述的基于症状特征权重推导疾病概率的装置，其中为该共同症状特征赋予低权重值，为该独有症状特征赋予高权重值。

所述的基于症状特征权重推导疾病概率的装置，其中该检索单元包括：根据该咨询信息或该反馈信息对应的症状特征的权重值，得到各疾病标签的疾病权重，以统计患各疾病的概率，并提取概率最高的一个或多个疾病标签及其对应的症状特征，作为该检索结果。

本发明还提出一种存储介质，用于存储执行如下方法的程序：

症状特征存储步骤，存储多条医疗知识信息，每条该医疗知识信息由症状特征和疾病标签组成；

过滤策略生成步骤，对该医疗知识信息进行挖掘以生成过滤策略；

检索步骤，接收来自咨询信息或反馈信息的实体标签，并以该实体标签检索该症状特征存储单元，得到与该咨询信息或该反馈信息对应的症状特征以及疾病标签，作为检索结果；

过滤步骤，根据该过滤策略对该检索结果进行过滤，得到过滤结果，并通过预设规则对该过滤结果进行判断，以选择根据该过滤结果生成问题以提示用户输入反馈信息，或选择将该过滤结果作为最终结果进行输出。

所述的存储介质，其中以合并疾病标签间的共同症状特征的方式压缩存储该医疗知识信息。

所述的存储介质，其中该压缩存储包括：

所述的存储介质，其中为该共同症状特征赋予低权重值，为该独有症状特征赋予高权重值。

所述的存储介质，其中该检索步骤包括：根据该咨询信息或该反馈信息对应的症状特征的权重值，得到各疾病标签的疾病权重，以统计患各疾病的概率，并提取概率最高的一个或多个疾病标签及其对应的症状特征，作为该检索结果。

本发明还提出一种基于症状特征权重推导疾病概率的采集方法。这种采集方法特征在于，包括以下步骤：s01：根据医学典籍中疾病的不同症状间的关联关系，构建症状特征及其关联关系的数据库；s02：由于不同的症状特征对于不同的类型疾病推动和预测的贡献是不同的，相应地，赋予不同的权重；对于确认一类型疾病组或具体疾病自诊所发挥的作用各有不同，因此体现为权重信息；s03：依据疾病的症状特征等信息，采取症状特征权重在不同疾病类型症状特征上进行加权和建模的方式，基于症状特征关联关系数据及症状的使用频率数据，就能够初步推导出一类或者某一个具体的疾病，从而大大提高系统的病情数据采集效率。

附图说明

图1为时间维度和空间维度的关系图；

图2为本发明流程图；

图3为本发明管理维护流程图。

具体实施方式

一种基于症状特征权重推导疾病概率的采集方法。基于症状特征以及关联关系数据，按照患者的性别、年龄、选择的疾病类型等信息，系统自动检索出一个符合该疾病类型的症状特征的集合，由于之前已经对该类型疾病症状特征主要集合进行了权重标注，因此根据患者症状的选择频率和次数，通过关联症状特征，就可以推导出更加接近于该类型具体疾病的概率。与此同时，患者通过关联症状推导得到的概率结果，往往能更准确地进一步猜测到患者的其他症状，以此可以大大提高系统的病情采集效率。

症状特征是患者因疾病而表现出来的不正常状态。每个疾病都有其特定的病因和病理，特别是都有一定的发展演变规律，并且表现出不同的症状特征。也就是说，每个疾病不同，症状特征也有很大的差异。一种基于临床症状的特征权重推导疾病概率的采集方法。首先仅仅将疾病或者某一类疾病共同的症状特征作为第一分类的共同标签呈现给用户，用户可以选择多个标签；通过标签权重确定一级分类；再将二级分类共同标签呈现给用户，用户可以选择多个标签，并确定二级分类。以此类推。最后将具体疾病标签呈现给用户，用户通过多个标签的选择，最后推导出前三个概率最大的疾病症状特征。重复步骤，可以得到患者所有患病症状特征数据。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提供一种基于人工智能的语义计算(症状特征作为一种权重进行计算)进行疾病症状特征数据采集的方法。权重本质上是疾病症状的关键词，即描述疾病症状的关键词，因此可以把它称为语义。另外，每一个关键词在不同类型疾病里面的权重是不一样的，把它量化后可以设定为一个对应的数据符号，变成一个个虚拟的“关键词”。

本发明主要依据疾病的症状特征等信息，运用自然语言处理、人工智能和大数据分析方法，对疾病以及某一类别下具体疾病的症状特征，进行自然语言和语义处理与计算，采用通用的症状特征采集流程，构建一种语义算法和模型，通过自诉相关症状特征，对相应疾病做智能化概率推导，从而准确地进一步猜测到患者的其他症状，以提高系统的病情采集效率。其中智能体现在只要选择简单的关键词，机器就可以给出基本概率。也就是，机器可以帮助实现采集工作。

医生看病有一套科学且相对固定的医学逻辑，这个逻辑就是一个判断推理过程，就像剥洋葱一样，循着病症层层剥下来，最后剩下的肯定是结论，接下来就是开化验单进行实验室检查确诊了。

本发明系统包括：疾病结构化症状特征存储单元，配置用于存储具有若干实体标签(例如下表1所示)的结构化医疗知识信息；策略生成单元，配置用于对该结构化医疗知识信息进行挖掘以生成过滤策略；检索单元，配置用于接收医疗咨询信息或反馈信息，检索具有与该医疗咨询信息或该反馈信息对应的实体标签的结构化症状特征以及医疗知识信息；过滤单元，配置用于根据该过滤策略对检索结果进行过滤，根据预设规则对过滤结果进行判断，以选择根据过滤结果生成并输出问题以提示用户输入反馈信息，或根据该过滤结果生成并输出结果信息。

表1：

本发明提供的一种基于症状特征权重推导疾病概率的采集方法和采集机制，对于每次数据采集动态、采集路径和结果生成均有证可循，同时，通过对症状特征的计算，推导出三个概率最大的疾病，保障了采集方法和结果的准确性和深入性。

1、疾病与症状特征体系：一般来说，疾病或者某一类疾病可以作为一类疾病，其有作为本体通用的症状特征；本体下的属性可以有一级、二级、甚至三级、四级的分类特征；一级分类与一级分类之间可能存在共同标签(症状特征)；二级分类与二级分类之间可能存在共同标签(症状特征)；三级分类与三级分类之间可能存在共同标签(症状特征)；三级分类下的各个疾病之间也可能存在共同标签(症状特征)。以上关于“可能存在”的表达意即可以存在共同标签(症状特征)，也可以不必存在共同标签(症状特征)；

2、症状特征(即标签)的采集：前期需要通过先验专家知识在系统实施前完成构建；

3、症状特征(即标签)权重的确立：标签(症状特征)，对于确认一类疾病组或具体疾病自诊所发挥的作用各有不同，因此体现为权重信息。不同的症状特征对于不同的疾病诊断的贡献是不同的，相应地，根据先导经验赋予不同的权重，就能够初步推导出一类或者一个具体的疾病概率，并同时可以完成疾病症状特征的数据采集。比如：“甲”、“乙”、“丙”三种疾病的权重表如下表1所示。

表1：

4、时间逻辑设计与空间逻辑设计：一般来说，一类疾病系统下的具体疾病可能多达上百个，一个具体疾病的症状标签(症状特征)可能多达数十个。这就意味着，如果将某一类疾病系统下的所有具体疾病的症状标签(症状特征)一次性提供给用户选择，并假设手机屏幕可以显示20个标签，则用户需要翻动50次屏幕才能遍览全部标签。显然，这是十分糟糕的用户体验。为了做到“用户不需要过多滑动屏幕，即可选择症状标签”需要引入时间维度。意即首先仅仅将第一分类的共同标签呈现给用户，用户可以选择多个标签。通过标签权重确定一级分类。再将二级分类共同标签呈现给用户，用户可以选择多个标签，并确定二级分类。以此类推。最后将具体疾病标签呈现给用户，用户通过多个标签的选择，最后确定前三个概率最大的疾病。

5、分类或疾病概率设计：第一步：根据用户所选症状，计算所涉及的各个疾病的权重；第二步：根据各个疾病权重，计算患病概率。举例：假设：用户选择了“共同标签1”，“甲标签1”，”丙标签5”，计算患病概率的步骤如下所示：第一步，计算各个疾病权重。疾病甲权重＝1+5＝6；疾病乙权重＝1；疾病丙权重＝1+50＝51；总权重：6+1+50＝58；第二步：根据各个疾病权重，计算患病概率。疾病甲概率：6/58＝10.3％；疾病乙概率：1/58＝1.7％；疾病丙概率：51/58＝87.9％。

6、关于推导和预测中推理的复杂性，病人可能有相互关联的多种疾病，而表现出的症状并不确定与某一类疾病有关，一个症状是否会出现也不确定，因而复杂程度不同的推理，本发明注意到了这个问题，考虑到不同类型的疾病症状的关键词权重不一样，算法和模型也要变化，因此应该在精密程度不同的模型中进行，也就是在某一类疾病中开展采集效果会更好。同时，建议在采集时要把用来监测、存储和显示大量数据的系统数据库与推理有机的结合起来。

时间维度和空间维度的关系如图1所示。

当不存在共同分类时的处理方法：

如果在时间维度进行分类，部分分类却不存在共同标签时，为了不致漏选该分类，应将下一级分类共同标签呈献给用户。以此类推，直至呈现具体疾病的标签。该逻辑如图2所示。

管理后台的功能：

管理后台提供维护某一数据表的功能，基本逻辑如图3所示。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还提出一种基于症状特征权重推导疾病概率的装置，其中包括：