一种基于知识图谱的问询导诊方法及其系统与流程

文档序号：30506207发布日期：2022-06-25 00:29阅读：222来源：国知局

1.本发明涉及智能医疗问诊技术领域，特别涉及一种基于知识图谱的问询导诊方法及其系统。

背景技术：

2.由于目前国内存在着看病难、挂号难的问题，越来越多人开始在网络上查询医疗方面的信息，通过对自身症状的查询，了解可能存在的疾病风险。
3.目前查询方式通常是通过关键词去搜索，需要用户自己去筛查和记录查询内容，这种获取医疗信息的方式非常的不变，具体地说，利用关键词提取技术从用户输入中提取到查询的实体信息，通过疑问词和关键词来识别用户意图，这种方式很难从复杂的表述中提取到用户的意图和查询实体，且用户与系统在交互过程中，不具备上下文的推理能力，在查询和返回答案的过程中没有考虑到用户所提出问题的类型，返回答案模式固定，缺乏人性化。

技术实现要素：

4.本发明主要解决的技术问题是提供一种基于知识图谱的问询导诊方法，其利用自然语言处理技术对用户输入问题进行语义分析，将用户语义转化为知识图谱的查询语言，利用对话回复管理技术进行交互形式回复，利用答案生成技术将查询结果转化为自然语言返回给用户；本发明还提供了一种基于知识图谱的问询导诊系统。
5.为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于知识图谱的问询导诊方法，其中，包括：
6.语义分析：提取用户问句中的关键词，并识别用户输入问句的意图，经过分析处理，将用户的自然语言表达转化为可处理的表达方式，得到用户问句中回答目标；
7.对话回复：根据语义分析的结果，并结合对话历史信息及知识图谱进行综合分析，进行相应的逻辑运算作出回复。
8.作为本发明的一种改进，语义分析包括如下步骤：
9.步骤s11、预处理：将用户的自然语言输入的问句经过去停用词处理，再利用同义词替换规则，将输入的问句中的可相互替换的同义词替换为统一的词语表达方式；
10.步骤s12、分词：利用知识图谱中自定义的实体词典和疑问关键词词典提取出问句中所含的领域内的实体及与实体有关的关键词；
11.步骤s13、命名实体识别：搭建训练学习模型，对输入句子中实体进行识别；
12.步骤s14、意图识别：根据识别结果查询出与输入问句最匹配的信息；
13.步骤s15、问题分类：根据意图识别的结果从而确定用户提问问题的类型，得到问题回答的目标。
14.作为本发明的进一步改进，对话回复包括：根据语义分析得到的问题回答的目标，从而构建对话流程，从而作出反馈的对话回复。
15.作为本发明的更进一步改进，在步骤s13内，基于深度模型bi-lstm-crf模型进行命名实体抽取任务，且使用pytorch框架搭建训练学习模型，对输入句子中实体进行识别。
16.作为本发明的更进一步改进，在步骤s14内，根据识别结果进行分开，分为领域内的问题与领域外的问题，如果为领域内的问题，进行领域内的意图识别；如果为领域外的问题，采用面向fqa库的问答方法。
17.作为本发明的更进一步改进，在步骤s15内，根据意图识别的结果和问句中提取的疑问关键词来确定用户提问问题的问句类型。
18.作为本发明的更进一步改进，在步骤s15内，基于知识图谱的问答的问句类型可分为如下几种：事实型、观点型、最高级型、对错型、观点型、方法型、因果型、解释型、关联型和比较型。
19.作为本发明的更进一步改进，对话回复包括先利用fsm模型构建整个对话流程，再将填槽结果作为状态转移的一个条件，更新对话状态和策略，然后根据对话策略做出对话动作从而作出反馈的对话回复。
20.一种基于知识图谱的问询导诊系统，其中，包括：
21.语义分析模块，提取用户问句中的关键词，并识别用户输入问句的意图，经过分析处理，将用户的自然语言表达转化为可处理的表达方式，得到用户问句中回答目标；
22.对话回复管理模块，用于根据语义分析的结果，并结合对话历史信息及知识图谱进行综合分析，进行相应的逻辑运算作出回复。
23.作为本发明的更进一步改进，语义分析模块包括：
24.预处理单元，用于将用户的自然语言输入的问句经过去停用词处理，再利用同义词替换规则，将问句中输入中的可相互替换的同义词替换为统一的词语表达方式；
25.分词单元，用于利用知识图谱中自定义的实体词典和疑问关键词词典提取出问句中所含的领域内的实体及与实体有关的关键词；
26.实体识别单元，用于搭建训练学习模型，对输入句子中实体进行识别；
27.意图识别单元，用于根据识别结果查询出与输入问句最匹配的信息；
28.问题分类单元，用于根据意图识别的结果从而确定用户提问问题的类型，得到问题回答的目标
29.本发明的有益效果是：与现有技术相比，本发明利用自然语言处理技术对用户输入问题进行语义分析，将用户语义转化为知识图谱的查询语言，利用对话回复管理技术进行交互形式回复，利用答案生成技术将查询结果转化为自然语言返回给用户。
附图说明
30.图1为本发明的结构框图。
具体实施方式
31.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
32.请参照图1，本发明的一种基于知识图谱的问询导诊方法，包括：
33.语义分析：提取用户问句中的关键词，并识别用户输入问句的意图，经过分析处理，将用户的自然语言表达转化为可处理的表达方式，得到用户问句中回答目标；
34.对话回复：根据语义分析的结果，并结合对话历史信息及知识图谱进行综合分析，进行相应的逻辑运算作出回复。
35.其中，语义分析包括如下步骤：
36.步骤s11、预处理：将用户的自然语言输入的问句经过去停用词处理，再利用同义词替换规则，将输入的问句中的可相互替换的同义词替换为统一的词语表达方式；
37.步骤s12、分词：利用知识图谱中自定义的实体词典和疑问关键词词典提取出问句中所含的领域内的实体及与实体有关的关键词；
38.步骤s13、命名实体识别：搭建训练学习模型，对输入句子中实体进行识别；
39.步骤s14、意图识别：根据识别结果查询出与输入问句最匹配的信息；
40.步骤s15、问题分类：根据意图识别的结果从而确定用户提问问题的类型，得到问题回答的目标。
41.本发明对应知识图谱技术在自然语言处理领域中问答系统方向的应用，利用知识图谱结构化和关联性的数据组织形式和推理能力，提高交互过程中的用户体验；知识图谱可以辅助知识库来理解人的自然语言；涉及的技术包括知识抽取、知识存储、图谱构建、命名实体识别、实词提取、对话管理、意图识别、答案生成等方面。
42.在本发明内，首先要构建出反应该领域知识的知识图谱，然后在此基础上，才能真正的理解用户的意图，实现上下文的推理功能；本发明构建知识图谱，比如：采用爬虫技术，从“寻医问药”、“好大夫”等医药网站上抓取以疾病名称为根节点的网页信息，然后解析网页内容，将爬虫结果存储为json结构化格式，通过对json字符串的序列化操作，从json对象中抽取出实体、实体的属性，根据json结构化的组织方式，使用自底向上的方法，构建知识图谱。
43.建立实体与属性及实体间的关系，经过去重操作，去掉重复的实体和实体关系，再使用图数据库cypher语言，将构建的实体和关系存储到neo4j图数据库中，作为系统的知识库。
44.在本发明内，语义分析主要提取用户问句中的关键词和命名实体，并识别用户输入问句的意图，经过语义分析的处理，可将用户的自然语言表达转化为一种计算机可处理的表达方式，本发明采用的语义表达方式是为逻辑表达式(lf:logicalform)的形式。
45.语义分析具体过程为：
46.(1)预处理：自然语言输入的问句，首先经过去停用词处理，再利用同义词替换规则，将输入问句中的可相互替换的同义词替换为统一的词语表达方式，预处理为不限定领域的通用过程。
47.(2)分词：问句经过预处理之后，利用自定义的实体词典、疑问关键词词典，提取出问句中所含的领域内实体及与实体语义有关的关键词。
48.(3)命名实体识别：基于深度模型bi-lstm-crf模型，bi-lstm模型学习到输入序列的发射概率，crf模型学习到状态转移概率，通过对电子病历的命名实体抽取任务，使用pytorch框架搭建模型，保存训练好的模型，对输入句子中的疾病、症状、身体部位、医学检查、和治疗方式五类实体进行训练。
49.(4)意图识别：意图识别是本发明根据用户的意图查询出与输入最匹配的信息，可以采用的意图识别方法有基于规则的方法、基于统计的方法和基于深度学习的方法；本发明中，一方面，要对领域内与领域外的问题分开，另一方面，要完成领域内的意图识别；对领域外的问题，我们采用面向fqa库的问答方法，将用户常见问题组成fqa库，利用基于语义相似度(基于同义词林的相似度计算方法)和统计相似度(tf-idf方法)对用户输入的问题与fqa库中的问句进行相似度匹配，设定相似度阈值，对满足阈值的问句，返回匹配答案结果。对未匹配到的问句进入领域内的意图识别过程，领域内的意图识别我们采取语义规则模板的方法。
50.在领域对话中，用户的提问方式和所用语言涉及的变化较少，有规律可循，基于规则模板的方法人工可控，且实现简单，准确率高，实用性较强；本发明可将用户中的同义词转换为统一表达方式，在将句子中存在的实体和关键词分别替换为实体的类型和关键词的标识。
51.(5)问题分类：了解用户提问问题的类型，可得到问题回答的目标；针对不同类型的问题，采取不同的数据库查询策略和答案策略，增强答案的准确性和灵活性；基于知识图谱的问答的问句类型可分为：事实型、观点型、最高级型、对错型、观点型、方法型、因果型、解释型、关联型和比较型；本发明中主要针对事实性、列表型、对错型三种类型问句及进行区分，本发明通过依存句法分析结果和问句中提取的疑问关键词来确定问句的类型。
52.在本发明内，对话回复包括：根据语义分析得到的问题回答的目标，从而构建对话流程，从而作出反馈的对话回复；具体地，对话回复包括先利用fsm模型构建整个对话流程，再将填槽结果作为状态转移的一个条件，更新对话状态和策略，然后根据对话策略做出对话动作从而作出反馈的对话回复。
53.本发明提供一种基于知识图谱的问询导诊系统，包括：
54.语义分析模块，提取用户问句中的关键词，并识别用户输入问句的意图，经过分析处理，将用户的自然语言表达转化为可处理的表达方式，得到用户问句中回答目标；
55.对话回复管理模块，用于根据语义分析的结果，并结合对话历史信息及知识图谱进行综合分析，进行相应的逻辑运算作出回复。
56.在本发明内，语义分析模块包括：
57.预处理单元，用于将用户的自然语言输入的问句经过去停用词处理，再利用同义词替换规则，将问句中输入中的可相互替换的同义词替换为统一的词语表达方式；
58.分词单元，用于利用知识图谱中自定义的实体词典和疑问关键词词典提取出问句中所含的领域内的实体及与实体有关的关键词；
59.实体识别单元，用于搭建训练学习模型，对输入句子中实体进行识别；
60.意图识别单元，用于根据识别结果查询出与输入问句最匹配的信息；
61.问题分类单元，用于根据意图识别的结果从而确定用户提问问题的类型，得到问题回答的目标。
62.在本发明内，对话回复管理模块由对话策略模块(dp:dialog policy)和对话状态追踪(dialog state tracking,dst)两部分组成，本发明使用有限状态机(finite state machine,fsm)和填槽法结合的方法，先利用fsm模型构建整个对话流程，再将填槽结果作为状态转移的一个条件，对话转移条件的集合为：{槽值对状态，用户意图，对话轮数控制}；对
话动作集合为：{澄清，追问，切换，查询知识库}；输入到对话回复管理模块的是经过语义解析的逻辑表达式lf，逻辑表达式中包含slot_values(词槽信息)和user_intention(用户的意图)，根据lf的内容，对话管理更新对话状态，根据对话策略做出对话动作。
63.本发明可特别应用于医药领域内的对话场景中，比如：基于知识图谱构建了医药领域内的对话系统，形成领域问答系统的搭建过程，在语义分析过程中，通过分词和命名实体识别分别提取出实体和语义相关的关键词，通过两类意图提取方法：对领域外的问句采用基于语义和统计方法结合的相似度计算法；对领域内的问句通过构造问题模板；对用户的意图进行了两层的识别，先识别是否为领域内的问句，再将领域内的问句进行处理，使用实体和关键词的类型标识代替问句中的实体和关键词，这样可以减少领域内规则模板的数量，一个意图模板可对同类的问题通用，降低了人工指定模板的复杂度，并保证系统的准确性，同时，问题分类方法，还辅助系统在搜索知识库和答案生成过程中，结合问题类型，为用户提供灵活，准确的答案，增强系统的交互型和灵活性；对话回复管理模块控制对话流程，可通过系统主导对话，也可由用户主导对话，具备冷启动能力。
64.以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高多王海鹏杜振军沈露赵思琦宋健
技术所有人：沈阳新松机器人自动化股份有限公司
我是此专利的发明人

上一篇：一种玻纤加工用的仓库搬运车的制作方法
上一篇：一种自卸压抗冲击风门的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。