1.基于深度学习和知识图谱的智能问答系统构建方法,其特征在于,包括如下步骤:
S1:构建基于网络爬虫数据的有标签的呼吸内科数据集Data1,其中文本字段存放为文件Text1,类别字段为存为文件Class1,数据集Data1中的每条记录的文本和类别一一对应;
S2:结合医院电子病历构建基于医学领域的分词词典Dict1,并与医学词典合并作为系统的分词词典Dict2;
S3:对步骤S1中文件Text1,利用分词词典Dict2做分词,并保存分词后的文本为Text2,进行word2vec词向量模型训练,得到词向量模型w2v;
S4:基于步骤S3中的分词后文本Text2和步骤S1中的类别文件Class1,构建系统使用的知识图谱DB3、基于知识图谱DB3的预测模型Model1和疾病实体对齐后的类别文件Class2;
S5:基于步骤S3中的分词后文本Text2和步骤S4中的类别文件Class2,构建基于深度学习的语言模型预测模型Model2;
S6:构建结合用户上下文基于知识图谱主动交互的问诊模型Model3;
S7:构建基于深度学习的语言模型预测模型Model2和主动交互的问诊模型Model3的疾病预诊模型Model5。
2.如权利要求1所述的基于深度学习和知识图谱的智能问答系统构建方法,其特征在于,所述构建基于网络爬虫数据的有标签的数据集Data1,具体为:
S11:爬取网站的医疗问诊数据,并人工标注文本标签4000条以上,得到有标签的数据集Data2;
S12:利用数据集Data2构建用于标注的、基于深度学习的语言模型和知识图谱,对余下爬虫数据进行自动标注标签,得到有标签数据集Data3;
S13:整合有标签数据集Data2和有标签数据集Data3,得到有标签的呼吸内科数据集Data1。
3.如权利要求2所述的基于深度学习和知识图谱的智能问答系统构建方法,其特征在于,在步骤S11中,依照预设的记录筛选原则筛选记录,及按照预设的疾病标签添加原则添加标签。
4.如权利要求1所述的基于深度学习和知识图谱的智能问答系统构建方法,其特征在于,步骤S4包括:
S41:利用步骤S3中的分词后文本Text2和步骤S1中的类别文件Class1,提取每一类别的TF-IDF关键词,并与人工提取的粗糙症状词集取交集,得到每一类疾病的症状词,并构建粗糙图数据库DB1;
S42:对粗糙图数据库DB1利用每类疾病的共有症状占比进行疾病实体对齐,并对疾病实体对齐规则进行人工核对,得到图数据库DB2;
S43:利用疾病实体对齐规则,对步骤S1中的类别文件Class1进行对齐,得到对齐后类别文件Class2;
S44:对图数据库DB2利用每个症状的共有疾病占比进行症状实体对齐,得到知识图谱DB3作为系统使用的图数据库,并构造基于知识图谱DB3的预测模型Model1。
5.如权利要求1所述的基于深度学习和知识图谱的智能问答系统构建方法,其特征在于,步骤S6包括:
S61:根据用户输入的主诉信息进行分词,提取关键词,并利用知识图谱DB3获得可疑疾病;
S62:针对每一种可疑疾病,结合用户上文信息,寻找疾病的特有症状并进行询问。
6.如权利要求1所述的基于深度学习和知识图谱的智能问答系统构建方法,其特征在于,步骤S7包括:
S71:基于知识图谱DB3的预测模型Model1,构造基于该预测模型Model1的融合模型训练数据Data4;
S72:基于深度学习的预测模型Model2,构造基于该预测模型Model2的融合模型训练数据Data5;
S73:利用融合模型训练数据Data4和融合模型训练数据Data5,进行横向合并得到适合融合模型的训练数据集Data6,以随机森林算法构建基于深度学习和知识图谱的融合模型Model4;
S74,基于融合模型Model4,构造疾病预诊模型Model5,按概率高低输出最有可能的三种疾病。
7.一种基于现实场景的智能问答系统,其特征在于,基于权利要求1至6所述的任意一种基于深度学习和知识图谱的智能问答系统构建方法实现,包括如下:
1)用户输入自己的主诉信息,将此次交互的所有主诉信息合并为文本text1,利用分词词典Dict2分词;
2)对1)中分词后的单词与知识图谱DB3中的关键词匹配,并得到可疑疾病;
3)针对每一种可疑疾病,利用基于知识图谱主动交互的问诊模型Model3,结合用户上文信息进行主动问诊,问诊信息记为text2;
4)将1)中的主诉文本text1和问诊信息text2,输入到基于知识图谱DB3的预测模型Model1和基于深度学习的语言模型预测模型Model2,得出每一个模对每一种疾病的预测概率,记为pro1和pro2;
5)将预测概率pro1和pro2,输入到疾病预诊模型Model5中,输出用户最有可能的3种疾病。
8.如权利要求7所述的一种基于现实场景的智能问答系统,其特征在于,在5)中,输出用户最有可能的3种疾病,这3种疾病以概率大小从高到底排序。