医疗领域深度问答方法及医学检索系统的制作方法

文档序号:6368651阅读:168来源:国知局
专利名称:医疗领域深度问答方法及医学检索系统的制作方法
技术领域
本发明涉及医学信息处理和检索领域,尤其涉及ー种医疗领域深度问答方法及医学检索系统。
背景技术
计算机辅助技术目前已经渗透到医疗、制造、设计、金融、商业咨询等各个领域,カロ速了各行各业的发展。在医疗领域,医学专家咨询系统一般包括问答模块,用于系统与病人或医生进行交互。由于医学专家咨询系统返回的答案会影响患者的判断,其结果会引起生命和财产 的双重风险,所以,在医学专家咨询系统的准确度达到一定程度之前还不能广泛采用。现有的医学专家咨询系统中应用的问答方式主要有两种社区问答和自动问答。社区问答属于人与人之间的问答,用户在网站中提交问题,一定的时间内,其他用户回答此问题,或者系统根据以前有过的相似问题,返回相关答案。这要基于网站用户的知识结构,往往出现答案形式不确定、不够准确的情况,且回答问题的时间较长。自动问答系统提供的自动问答功能可以回答简单的问题,基本都是开放领域的,即任何领域的问题都可以输入,这样造成答案准确率低,回答形式固定,不是很人性化。基于上述问答方法的医学领域的专家咨询系统提供的知识和信息的精度、可信性存在瓶颈,制约了医学专家咨询系统的发展。

发明内容
本发明要解决的技术问题是提供医疗领域深度问答方法及医学检索系统,提高问答结果精度。根据本发明的ー个方面,提供ー种深度问答方法,包括步骤I、接收提问数据;步骤2、在知识库数据库中进行第一检索;所述知识库数据库包括百科中的事实性信息;和步骤3、在自定义数据集中进行第三检索,包括步骤3. I、基于句型模式集,利用机器学习的方法给所述问题分类,确定问题的句型模式;和步骤3. 2、用句型模式匹配问题,得到第二类关键字,用第二类关键字检索自定义数据集。可选的,所述的深度问答方法还包括步骤4、在问答对数据库中进行第二检索;所述问答对数据库包括已经证实准确的问答对信息。可选的,步骤3. I的句型模式集的生成方法包括步骤3. I. I、建立自定义数据集;
步骤3. I. 2a、人工建立句型模式集;和/或步骤3. I. 2b、通过人工标注数据,训练数据得到句型模式集。可选的,所述步骤3还包括步骤3. 3、利用第二类关键词检索知识库数据库。可选的,步骤I包括从所述提问数据中提取问题的文本信息。可选的,步骤2包括步骤2. I、以问题中的句子为单位,对每个句子进行分词处理;步骤2. 2、从分词处理结果中提取第一类关键词;和 步骤2. 3、利用第一类关键词检索知识库数据库。可选的,步骤4包括步骤4. I、检索问答对数据库,计算所述问题和问答对数据库中的记录的相似度;和步骤4. 2、如果存在相似度达到一定阈值的记录,按照相似度的大小对所述记录进行排名,得到前N个匹配結果,N为自然数。根据本发明另ー个方面,提供ー种医学检索系统,包括输入模块,用于接收来自用户的输入;第一检索模块,用于检索知识库数据库;所述知识库数据库包括百科中的事实性信息;和第三检索模块,用于检索自定义数据集;其中,所述第三检索模块还包括句型模式分析模块,用于基于句型模式集,利用机器学习的方法给所述问题分类,确定问题的句型模式;和第二类键字提取和检索模块,用于利用句型模式来匹配问题以得到第二类关键字,然后用第二类关键字检索自定义数据集。可选的,所述医学检索系统还包括第二检索模块,用于检索问答对数据库;所述问答对数据库包括已经证实准确的问答对信息。可选的,所述第二检索模块还包括相似度计算模块,用于检索问答对数据库,计算所述问题和问答对数据库中的记录的相似度;和结果反馈模块,如果存在相似度达到一定阈值的记录,按照相似度的大小对所述记录进行排名,得到前N个匹配結果,N为自然数。可选的,所述输入模块还用于从所述提问数据中提取问题的文本信息。可选的,所述第一检索模块还包括分词模块,用于以问题中的句子为单位,对每个句子进行分词处理;和第一类关键词提取和检索模块,用于从分词处理结果中提取第一类关键词,然后利用第一类关键词检索知识库数据库。与现有技术相比,本发明的优点在干建立三种数据库,对不同类型数据库进行不同方法的检索,提高了检索结果的精度;其中,提取问题领域等属性还可以进ー步提高检索结果的精度。


图I是本发明一个实施例中提供的深度问答方法流程图;图2是本发明另ー个实施例中,图I中步骤S20的流程图;图3是 本发明另ー个实施例中,图I中步骤S30的流程图;图4是本发明另ー个实施例中,图I中步骤S40的流程图;图5是本发明另ー个实施例中提供的句型模式集的生成方法流程图;图6是本发明一个实施例中提供的深度问答系统结构示意图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一歩详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。问答系统(Question Answering System, QA)是信息检索系统的ー种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。发明人经研究发现,基于患者输入的个人信息和身体状况,通过在大規模文本/数据中挖掘类似的病情信息并返回相似度最高的结果(例如返回前三个),可以提高问答精度。其中大規模数据包括(I)从百科、人工建立的知识体系中获得事实性信息,建立“知识库”;(2)从社区问答网站中获取问答对信息,建立“问答对数据库”;(3)由其他资料建立“自定义数据集”。(I)知识库数据库简称知识库,从百科和其他人工建立的知识体系中获得事实性信息,并将这些信息导入非关系型数据库中形成知识库。由于需要结构清晰、容易匹配的内容,在导入百科等信息时,主要以名片、表格、列表等结构化信息为主。一些重复的概念可以通过人工方法进行整理,融合到一个明显的体系中,例如疾病分为内科、外科、妇产科、儿科,每ー个科目下面又详细分出具体的疾病,每种疾病都会有具体的症状,每种症状或疾病是缺乏哪些营养元素导致的、或者是感染哪些病毒引起的、或者是因为其他什么原因引起的,每种疾病一般是什么时间、气候、何种环境发病居多、需要用什么药物等等。这种方法存储的所有信息都是准确的,如果匹配成功,答案准确率会很高。由于知识库里面很多信息之间没有绝对联系,存储的时候一般不用关系数据库,而用非关系数据库,例如MongoDB。(2)问答对数据库中的数据是从社区问答网站等有医学相关问题及答案的社区等信息中获取的。回答疾病这种复杂、专业性较强的问题,最好的办法就是借用人的力量,在社区中抛出一个问题,由知道答案的用户来回答,疑问者选择自己满意的答案,并将这些答案推荐给有类似需求的用户。这种方法提高了答案的准确度,如果能将这些网站中的数据集中起来,方便快捷地给用户返回合适的答案,则可以为用户提供非常实用的參考。问答对数据库中的数据是问答对,问答对的形式是问题+最佳答案+其他答案。问答对数据库建立时,首先要对问题进行标注,例如,标注问题属干“内科、外科、妇产科、儿科”中哪ー类问题,类别标注符号如表I所示。然后,机器会根据人工标注的词语和类别产生一系列參数,这些參数代表了词语与上下文的关系、词语与类别的关系。当人エ标注、机器生成參数后,对于未知类别的词语,系统就可以自动识别出词语的类别。由于内科、外科、妇产科、儿科这样的科室所属的相关疾病、药品等具有显著区別,所以如果能够在检索之前就可以通过自动识别来确定用户问题的所属领域,可以缩小检索范围、排除无关数据,使结果更加精确。表I
权利要求
1.一种深度问答方法,包括 步骤I、接收提问数据; 步骤2、在知识库数据库中进行第一检索;所述知识库数据库包括百科中的事实性信息;和 步骤3、在自定义数据集中进行第三检索,包括 步骤3. I、基于句型模式集,利用机器学习的方法给所述问题分类,确定问题的句型模式;和 步骤3. 2、用句型模式匹配问题,得到第二类关键字,用第二类关键字检索自定义数据集。
2.根据权利要求I所述的深度问答方法,还包括 步骤4、在问答对数据库中进行第二检索;所述问答对数据库包括已经证实准确的问答对信息;该步骤在步骤2之前或之后执行。
3.根据权利要求I所述的深度问答方法,步骤3.I的句型模式集的生成方法包括 步骤3. I. I、建立自定义数据集; 步骤3. I. 2a、人工建立句型模式集;和/或 步骤3. I. 2b、通过人工标注数据,训练数据得到句型模式集。
4.根据权利要求I所述的深度问答方法,所述步骤3还包括 步骤3. 3、利用第二类关键词检索知识库数据库。
5.根据权利要求I所述的深度问答方法,其中,步骤I包括从所述提问数据中提取问题的文本信息。
6.根据权利要求I所述的深度问答方法,其中,步骤2包括 步骤2. I、以问题中的句子为单位,对每个句子进行分词处理; 步骤2. 2、从分词处理结果中提取第一类关键词;和 步骤2. 3、利用第一类关键词检索知识库数据库。
7.根据权利要求2所述的深度问答方法,其中,步骤4包括 步骤4. I、检索问答对数据库,计算所述问题和问答对数据库中的记录的相似度;和步骤4. 2、如果存在相似度达到一定阈值的记录,按照相似度的大小对所述记录进行排名,得到前N个匹配结果,N为自然数。
8.一种医学检索系统,包括 输入模块,用于接收来自用户的输入; 第一检索模块,用于检索知识库数据库;所述知识库数据库包括百科中的事实性信息;和 第三检索模块,用于检索自定义数据集; 其中,所述第三检索模块还包括 句型模式分析模块,用于基于句型模式集,利用机器学习的方法给所述问题分类,确定问题的句型模式;和 第二类键字提取和检索模块,用于利用句型模式来匹配问题以得到第二类关键字,然后用第二类关键字检索自定义数据集。
9.根据权利要求8所述的医学检索系统,还包括第二检索模块,用于检索问答对数据库;所述问答对数据库包括已经证实准确的问答对信息。
10.根据权利要求9所述的医学检索系统,其中,所述第二检索模块还包括 相似度计算模块,用于检索问答对数据库,计算所述问题和问答对数据库中的记录的相似度;和 结果反馈模块,如果存在相似度达到一定阈值的记录,按照相似度的大小对所述记录进行排名,得到前N个匹配结果,N为自然数。
11.根据权利要求8所述的医学检索系统,其中,所述输入模块还用于从所述提问数据中提取问题的文本信息。
12.根据权利要求8所述的医学检索系统,其中,所述第一检索模块还包括 分词模块,用于以问题中的句子为单位,对每个句子进行分词处理;和 第一类关键词提取和检索模块,用于从分词处理结果中提取第一类关键词,然后利用第一类关键词检索知识库数据库。
全文摘要
本发明提供一种深度问答方法,包括步骤1、接收提问数据;步骤2、在知识库数据库中进行第一检索;所述知识库数据库包括百科中的事实性信息;和步骤3、在自定义数据集中进行第三检索,包括步骤3.1、基于句型模式集,利用机器学习的方法给所述问题分类,确定问题的句型模式;和步骤3.2、用句型模式匹配问题,得到第二类关键字,用第二类关键字检索自定义数据集。与上述方法相对应的,本发明还提供一种医学检索系统,包括输入模块;第一检索模块,用于检索知识库数据库;所述知识库数据库包括百科中的事实性信息;第三检索模块,用于检索自定义数据集。
文档编号G06F17/30GK102663129SQ20121012515
公开日2012年9月12日 申请日期2012年4月25日 优先权日2012年4月25日
发明者吉宗诚, 徐安莹, 徐飞, 王斌 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1