基于深度学习和知识图谱的智能问答系统构建方法和系统与流程

文档序号:14725716发布日期:2018-06-19 06:54阅读:602来源:国知局

本发明涉及一种深度学习、可视化和问答系统的领域,特别是涉及一种基于深度学习和知识图谱的智能问答系统构建方法和系统。



背景技术:

目前,中国正面临一系列健康风险:人口老龄化加剧、慢病患者数量巨大、老年病”年轻化”、亚健康常态化、医学敏感人群上升、心理问题严重等。医疗领域一直是信息化发展的重要方向,医疗行业的信息化投资规模逐年增长。经过一段时间的发展,网上医疗系统逐渐由假象变成了现实,成为了不可避免的趋势。通过网上的问答系统,用户可以足不出户地进行医疗系统方面的咨询,而不必去医院或者是诊所经历复杂的手续和漫长的等待。对医生来说,网上医疗系统也为医生提供了丰富的病例素材,提高医生的经验和专业能力。

然而,就传统医疗问答系统来说,通常面临以下几个重要的问题:(1)基于共有症状无法精确定位疾病;(2)用户描述不专业引起歧义;(3)不具备结合上下文主动交互功能。智能诊疗问答系统的构建主要有两种策略:(1)基于数据的方法,主要通过互联网的搜索机制,从网上的海量数据中搜索相似的信息来辅助确诊,此策略对应的采集得到的数据量很大,可以覆盖的疾病类别数量也大;但基于网络的文本数据的知识密度低,无法形成有效推理机制,对疑难杂症等的分析存在很大不足,后期精准度的提升非常困难;(2)基于知识推理机制,主要就是在病情分类上引入了模糊决策技术,此策略的优势是便于利用已有的确定性的病情知识,能形成可理解、可展示的决策依据,对人脑决策提供直接的辅助支持;但缺陷是对高质量的数据依赖太严重,病情、类别总量的覆盖就会很有限。



技术实现要素:

本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于深度学习和知识图谱的智能问答系统构建方法和系统。

本发明采用如下技术方案:

基于深度学习和知识图谱的智能问答系统构建方法,其特征在于,包括如下步骤:

S1:构建基于网络爬虫数据的有标签的呼吸内科数据集Data1,其中文本字段存放为文件Text1,类别字段为存为文件Class1,数据集Data1中的每条记录的文本和类别一一对应;

S2:结合医院电子病历构建基于医学领域的分词词典Dict1,并与医学词典合并作为系统的分词词典Dict2;

S3:对步骤S1中文件Text1,利用分词词典Dict2做分词,并保存分词后的文本为Text2,进行word2vec词向量模型训练,得到词向量模型w2v;

S4:基于步骤S3中的分词后文本Text2和步骤S1中的类别文件Class1,构建系统使用的知识图谱DB3、基于知识图谱DB3的预测模型Model1和疾病实体对齐后的类别文件Class2;

S5:基于步骤S3中的分词后文本Text2和步骤S4中的类别文件Class2,构建基于深度学习的语言模型预测模型Model2;

S6:构建结合用户上下文基于知识图谱主动交互的问诊模型Model3;

S7:构建基于深度学习的语言模型预测模型Model2和主动交互的问诊模型Model3的疾病预诊模型Model5。

优选的,所述构建基于网络爬虫数据的有标签的数据集Data1,具体为:

S11:爬取网站的医疗问诊数据,并人工标注文本标签4000条以上,得到有标签的数据集Data2;

S12:利用数据集Data2构建用于标注的、基于深度学习的语言模型和知识图谱,对余下爬虫数据进行自动标注标签,得到有标签数据集Data3;

S13:整合有标签数据集Data2和有标签数据集Data3,得到有标签的呼吸内科数据集Data1。

优选的,在步骤S11中,依照预设的记录筛选原则筛选记录,及按照预设的疾病标签添加原则添加标签。

优选的,步骤S4包括:

S41:利用步骤S3中的分词后文本Text2和步骤S1中的类别文件Class1,提取每一类别的TF-IDF关键词,并与人工提取的粗糙症状词集取交集,得到每一类疾病的症状词,并构建粗糙图数据库DB1;

S42:对粗糙图数据库DB1利用每类疾病的共有症状占比进行疾病实体对齐,并对疾病实体对齐规则进行人工核对,得到图数据库DB2;

S43:利用疾病实体对齐规则,对步骤S1中的类别文件Class1进行对齐,得到对齐后类别文件Class2;

S44:对图数据库DB2利用每个症状的共有疾病占比进行症状实体对齐,得到知识图谱DB3作为系统使用的图数据库,并构造基于知识图谱DB3的预测模型Model1。

优选的,步骤S6包括:

S61:根据用户输入的主诉信息进行分词,提取关键词,并利用知识图谱DB3获得可疑疾病;

S62:针对每一种可疑疾病,结合用户上文信息,寻找疾病的特有症状并进行询问。

优选的,步骤S7包括:

S71:基于知识图谱DB3的预测模型Model1,构造基于该预测模型Model1的融合模型训练数据Data4;

S72:基于深度学习的预测模型Model2,构造基于该预测模型Model2的融合模型训练数据Data5;

S73:利用融合模型训练数据Data4和融合模型训练数据Data5,进行横向合并得到适合融合模型的训练数据集Data6,以随机森林算法构建基于深度学习和知识图谱的融合模型Model4;

S74,基于融合模型Model4,构造疾病预诊模型Model5,按概率高低输出最有可能的三种疾病。

一种基于现实场景的智能问答系统,其特征在于,基于上述的任意一种基于深度学习和知识图谱的智能问答系统构建方法实现,包括如下:

1)用户输入自己的主诉信息,将此次交互的所有主诉信息合并为文本text1,利用分词词典Dict2分词;

2)对1)中分词后的单词与知识图谱DB3中的关键词匹配,并得到可疑疾病;

3)针对每一种可疑疾病,利用基于知识图谱主动交互的问诊模型Model3,结合用户上文信息进行主动问诊,问诊信息记为text2;

4)将1)中的主诉文本text1和问诊信息text2,输入到基于知识图谱DB3的预测模型Model1和基于深度学习的语言模型预测模型Model2,得出每一个模对每一种疾病的预测概率,记为pro1和pro2;

5)将预测概率pro1和pro2,输入到疾病预诊模型Model5中,输出用户最有可能的3种疾病。

优选的,在5)中,输出用户最有可能的3种疾病,这3种疾病以概率大小从高到底排序。

由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:

1、本发明基于深度学习和知识图谱,实现智能问答系统的构建。该方法能够解决传统问答系统中基于共有症状无法精确定位疾病、用户描述不专业引起歧义、不具备结合上下文主动交互功能的问题。同时方案结合了基于数据的方法和基于知识推理机制两种策略的优势,并弥补了对应的不足,完美的实现了系统同时结合了基于大数据的深度学习与知识图谱等相关技术,构建一个初步可用的智能诊疗辅助系统。而理论上也保障了随着数据量的不断增加,最终可构建形成一个完美的自动诊疗问答系统。

2、本发明采用知识图谱提高知识密度,解决目前基于数据的构建方法中网络文本数据的知识密度低,无法形成有效推理机制,对疑难杂症等的分析存在很大不足,后期精准度的提升非常困难的问题。

3、本发明结合深度学习的智能诊疗模型构建,解决基于知识推理的机制构建方法中对高质量的数据依赖太严重,病情、类别总量的覆盖就会很有限的问题。

4、本发明基于知识图谱的知识表示和可视化推理,形成了可理解、能可视化展示、可交互的智能诊疗辅助系统,可为使用者提供直接的决策参考。

附图说明

图1是本发明的基于深度学习的语言模型流程图。

图2是本发明的基于图数据库的模块流程图。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

参照图1、图2,本发明的基于深度学习和知识图谱的智能问答系统构建方法,包括以下步骤:

S1:构建基于网络爬虫数据的有标签的呼吸内科数据集Data1,其中文本字段存放为文件Text1,类别字段为存为文件Class1,每条记录的文本和类别一一对应。

S11:爬取“ask120”网站的医疗问诊数据,并人工标注文本标签4000条以上,得到有标签的数据集Data2。

其中,涉及到的记录筛选原则:(1)如果某条记录无法得出疾病名称,则该条记录删除;(2)如果某个ID的“疾病问题描述”这一列内容与“呼吸内科”无关,则该ID对应的记录删除。

涉及到的疾病标签添加原则:(1)如果同一ID不同的记录,“回答内容”这一列得出的疾病名称不一样,但基本内容相同,则选择“点赞数”和“获得帮助数”比较高的那条记录得出的疾病名称作为疾病标签。如样本中的第一个ID,第一条记录得出的标签是炎症,第二条记录得出的标签是细菌感染,而第一条记录的“点赞数”和“获得帮助数”比较高,所以我们综合给出的标签是“炎症”;(2)一般情况下,一个ID一条记录即可,遇到特殊情况可以多条记录给出多个标签。如样本中的第一个ID,第一条记录得出的标签是炎症,第二条记录得出的标签是细菌感染,第三条记录得出的标签是上呼吸道感染,“炎症”和“上呼吸道感染”有区别,所以综合(1)(2)的描述,将样本中的第一个ID给出2个标签,形成两条记录,第一条记录标签是“炎症”,第二条记录标签是“上呼吸道感染”。

S12:利用数据集Data2构建用于标注的、基于深度学习的语言模型和知识图谱,对余下爬虫数据进行自动标注标签,得到有标签数据集Data3。

S13:整合有标签数据集Data2和有标签数据集Data3,得到有标签的呼吸内科数据集Data1。

S2:结合医院电子病历构建基于医学领域的分词词典Dict1共1000条以上,和网上下载的医学词典,合并作为系统的分词词典Dict2。

S3:对步骤S1中得的数据集Data1中的文本Text1,利用词典Dict2做分词,并保存分词后的文本为Text2,进行word2vec词向量模型训练,得到词向量模型w2v。

S4:基于步骤S3中的分词后文本Text2和步骤S1中的类别文件Class1,构建系统使用的知识图谱DB3、基于知识图谱DB3的预测模型Model1和疾病实体对齐后的类别文件Class2。

S41:利用步骤S3中的分词后文本Text2和步骤S1中的类别文件Class1,提取每一类别的TF-IDF关键词,并与人工提取的粗糙症状词集取交集,得到每一类疾病的症状词,并构建粗糙图数据库DB1。

S42:对图数据DB1利用每类疾病的共有症状占比进行疾病实体对齐,并对对齐规则进行人工核对,得到图数据库DB2。

S43:利用疾病实体对齐规则,对步骤S1中的类别文件Class1进行对齐,得到对齐后类别文件Class2。

S44:对图数据DB2利用每个症状的共有疾病占比进行症状实体对齐,得到知识图谱DB3作为系统使用的图数据库,并构造基于知识图谱DB3的预测模型Model1。

S5:基于步骤S3中的分词后文本Text2和步骤S43中的类别文件Class2,构建基于深度学习的语言模型预测模型Model2。

S6:构建结合用户上下文基于知识图谱主动交互的问诊模型Model3。

S61:根据用户输入的主诉信息进行分词,提取关键词,并利用知识图谱DB3获得可疑疾病。

S62:针对每一种可疑疾病,结合用户上文信息,寻找疾病的特有症状并进行询问。

S7:构建基于深度学习和知识图谱的模型融合的疾病预诊模型Model5。

S71:基于知识图谱DB3的预测模型Model1,构造基于该预测模型的融合模型训练数据Data4。

S72:基于深度学习的预测模型Model2,构造基于该预测模型的融合模型训练数据Data5。

S73:利用基于知识图谱的模型预测数据集Data4和基于深度学习的模型预测数据集Data5,进行横向合并得到适合融合模型的训练数据集Data6,以随机森林算法构建基于深度学习和知识图谱的融合模型Model4。

S74:基于融合模型Model4,构造疾病预诊模型Model5,按概率高低输出最有可能的三种疾病。

基于上述的方法,本发明的还提出一种基于现实场景的智能问答系统。

1)用户输入自己的主诉信息,将此次交互的所有主诉信息合并为文本text1,利用步骤S2中的词典Dict2分词。

2)对S81中分词后的单词与知识图谱DB3中的关键词匹配,并得到可疑疾病。

3)针对每一种可疑疾病,利用基于知识图谱主动交互的问诊模型Model3,结合用户上文信息进行主动问诊,问诊信息记为text2。

4)将S81中的主诉文本text1和问诊信息text2,输入到步骤S44中基于知识图谱DB3的预测模型Model1和步骤S5中基于深度学习的语言模型预测模型Model2,得出每一个模对每一种疾病的预测概率,记为pro1和pro2。

5)将步骤S84中的模型预测概率pro1和pro2,输入到步骤S7中基于深度学习和知识图谱的模型融合的疾病预诊模型Model5中,输出用户最有可能的3种疾病,以概率大小排序,从高到底。

本发明构建的智能问答系统能够解决现有医疗问答系统基于共有症状无法精确定位疾病、用户描述不专业引起歧义、不具备结合上下文主动交互功能的问题。同时采用知识图谱提高知识密度,解决目前基于数据的构建方法中网络文本数据的知识密度低,无法形成有效推理机制,对疑难杂症等的分析存在很大不足,后期精准度的提升非常困难的问题。

上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1