本发明涉及知识工程领域,特别是指一种中医文献的实体间关系抽取方法及装置。
背景技术:
我国在中医领域方面流传下来很多古籍文献,是学习中医的基本依据。但是这些文献大部分以古文方式撰写,更多都是些非结构化文本,使用起来非常耗费时间。如果能够从中医文献中提取各个实体及其之间的实体关系,则可以利用所提取的实体之间的关系有效地进行信息检索、知识挖掘等等。
现有技术中的实体关系抽取方法,难以准确地从非结构化文本中提取实体之间的关系。
技术实现要素:
本发明要解决的技术问题是提供一种中医文献的实体间关系抽取方法及装置,以解决现有技术所存在的难以准确地从非结构化文本中提取出实体之间的关系的问题。
为解决上述技术问题,本发明实施例提供一种中医文献的实体间关系抽取方法,包括:
针对待处理的中医文献,获取对其部分内容已标注的实体类型和实体间关系类型;
根据已标注的实体类型训练命名实体识别模型;
利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表;
根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,得到实体之间存在关系的概率;
根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型。
进一步地,所述根据已标注的实体类型训练命名实体识别模型包括:
根据已标注的实体类型,使用自然语言处理工具进行命名实体识别模型训练,得到适用于中医文献的命名实体识别模型;
将得到的适用于中医文献的命名实体识别模型集成放入自然语言处理工具中,替换掉其原本的命名实体识别模型,并打包、编译。
进一步地,所述利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表包括:
利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别;
对识别到的实体做笛卡尔积运算得到候选实体对;
对候选实体对中的实体进行文本特征的抽取,得到候选实体的上下文的命名实体识别结果,构成特征表;
确定部分候选实体对中两实体间是否存在关系。
进一步地,所述根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型包括:
获取实体之间存在关系概率大于预设阈值的实体对,利用依存分析的方法对实体之间存在关系概率大于预设阈值的实体对所在的句子进行分析,抽取以动词为核心的事实三元组;
通过分析句子的语法关系,构建以谓语动词为核心的事实三元组;
根据实体对之间的谓语动词,结合已标注的实体间关系类型,确定实体间关系的类型。
本发明实施例还提供一种中医文献的实体间关系抽取装置,包括:
获取模块,用于针对待处理的中医文献,获取对其部分内容已标注的实体类型和实体间关系类型;
训练模块,用于根据已标注的实体类型训练命名实体识别模型;
识别模块,用于利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表;
确定模块,用于根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,得到实体之间存在关系的概率;
抽取模块,用于根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型。
进一步地,所述训练模块包括:
训练单元,用于根据已标注的实体类型,使用自然语言处理工具进行命名实体识别模型训练,得到适用于中医文献的命名实体识别模型;
替换单元,用于将得到的适用于中医文献的命名实体识别模型集成放入自然语言处理工具中,替换掉其原本的命名实体识别模型,并打包、编译。
进一步地,所述识别模块包括:
识别单元,用于利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别;
运算单元,用于对识别到的实体做笛卡尔积运算得到候选实体对;
构成单元,用于对候选实体对中的实体进行文本特征的抽取,得到候选实体的上下文的命名实体识别结果,构成特征表;
第一确定单元,用于确定部分候选实体对中两实体间是否存在关系。
进一步地,所述抽取模块包括:
分析单元,用于获取实体之间存在关系概率大于预设阈值的实体对,利用依存分析的方法对实体之间存在关系概率大于预设阈值的实体对所在的句子进行分析,抽取以动词为核心的事实三元组;
构建单元,用于通过分析句子的语法关系,构建以谓语动词为核心的事实三元组;
第二确定单元,用于根据实体对之间的谓语动词,结合已标注的实体间关系类型,确定实体间关系的类型。
本发明的上述技术方案的有益效果如下:
上述方案中,针对待处理的中医文献,获取对其部分内容已标注的实体类型和实体间关系类型;根据已标注的实体类型训练命名实体识别模型;利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表;根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,得到实体之间存在关系的概率;根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型。这样,将实体之间存在关系的概率与自然语言处理的依存分析方法相互结合,依据抽取的事实三元组及已标注的实体间关系类型,确定实体间关系类型,从而提高实体间关系类型抽取的准确率,并能够清晰结构化地表述中医文献内容。
附图说明
图1为本发明实施例提供的中医文献的实体间关系抽取方法的流程示意图;
图2为本发明实施例提供的实体识别结果示意图;
图3为本发明实施例提供的候选实体对结果示意图;
图4为本发明实施例提供的特征表示意图;
图5为本发明实施例提供的候选实体对之间是否存在关系的标记示意图;
图6为本发明实施例提供的实体之间存在关系的概率结果示意图;
图7为本发明实施例提供的最终形成的实体之间关系结果示意图;
图8为本发明实施例提供的中医文献的实体间关系抽取装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的难以准确地从非结构化文本中提取出实体之间的关系的问题,提供一种中医文献的实体间关系抽取方法及装置。
实施例一
如图1所示,本发明实施例提供的中医文献的实体间关系抽取方法,包括:
s101,针对待处理的中医文献,获取对其部分内容已标注的实体类型和实体间关系类型;
s102,根据已标注的实体类型训练命名实体识别模型;
s103,利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表;
s104,根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,得到实体之间存在关系的概率;
s105,根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型。
本发明实施例所述的中医文献的实体间关系抽取方法,针对待处理的中医文献,获取对其部分内容已标注的实体类型和实体间关系类型;根据已标注的实体类型训练命名实体识别模型;利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表;根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,得到实体之间存在关系的概率;根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型。这样,将实体之间存在关系的概率与自然语言处理的依存分析方法相互结合,依据抽取的事实三元组及已标注的实体间关系类型,确定实体间关系类型,从而提高实体间关系类型抽取的准确率,并能够清晰结构化地表述中医文献内容。
本实施例中,实体间关系的抽取也为中医领域的知识图谱构建和智能辅助诊疗系统打下基础,是不可缺少的一个重要环节。
本实施例中,在s101之前,根据待处理的中医文献的具体内容,可以先确定其主要的中医实体类型和实体间关系类型,并对其中20%的内容进行实体类型和实体间关系类型标注。
在前述中医文献的实体间关系抽取方法的具体实施方式中,进一步地,所述根据已标注的实体类型训练命名实体识别模型包括:
根据已标注的实体类型,使用自然语言处理工具进行命名实体识别模型训练,得到适用于中医文献的命名实体识别模型;
将得到的适用于中医文献的命名实体识别模型集成放入自然语言处理工具中,替换掉其原本的命名实体识别模型,并打包、编译。
本实施例中,根据已标注的实体类型,可以使用斯坦福自然语言处理工具(deepdive)进行命名实体识别模型训练,得到适用于中医文献的命名实体识别模型,将该模型集成放入deepdive中,替换掉deepdive中原本的命名实体识别模型,并打包、编译。
本实施例中,deepdive是一种斯坦福自然语言处理的信息抽取框架工具,主要用于现代文的信息抽取,抽取人、组织、地点之间的关系。
在前述中医文献的实体间关系抽取方法的具体实施方式中,进一步地,所述利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表包括:
利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别;
对识别到的实体做笛卡尔积运算得到候选实体对;
对候选实体对中的实体进行文本特征的抽取,得到候选实体的上下文的命名实体识别结果,构成特征表;
确定部分候选实体对中两实体间是否存在关系。
本实施例中,s103主要进行数据准备,准备候选实体对、特征表和部分候选实体对中两实体间是否存在关系这三部分数据,具体的:
s1031,使用上述集成了新的命名实体识别模型的deepdive对待处理的中医文献进行命名实体识别,对识别到的实体做笛卡尔积运算得到候选实体对;
本实施例中,实体对就是两个实体组成一对,例如,实体a和实体b构成实体对(a,b)。
s1032,对候选实体对中的实体进行文本特征的抽取,得到候选实体的上下文的命名实体识别结果,构成特征表;
s1033,对部分(例如,20%)候选实体对进行标记,存在关系的候选实体对标记为true,不存在关系的标为false。同时可以指定一些规则,来辅助标注,例如a和b间有关系,那么b和a间也有关系,这些规则可以减少人工标注的工作量。标记的数据作为概率模型学习的先验知识。至此,所需的数据准备完成,这些数据为之后的概率模型构建提供基础。
本实施例中,利用因子图模型对实体之间存在关系的概率进行学习,来构建概率模型;具体的:根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,形成实体间关系的概率模型,所述概率模型,用于确定实体之间存在关系的概率。
本实施例中,因子图是将一个具有多变量的全局函数因子分解,得到几个局部函数的乘积,以此为基础得到的一个双向图叫做因子图。
在前述中医文献的实体间关系抽取方法的具体实施方式中,进一步地,所述根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型包括:
获取实体之间存在关系概率大于预设阈值的实体对,利用依存分析的方法对实体之间存在关系概率大于预设阈值的实体对所在的句子进行分析,抽取以动词为核心的事实三元组;
通过分析句子的语法关系,构建以谓语动词为核心的事实三元组;
根据实体对之间的谓语动词,结合已标注的实体间关系类型,确定实体间关系的类型。
本实施例中,在得到实体之间存在关系的概率之后,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型确定实体间关系的类型,具体可以包括以下步骤:对于存在关系的概率高于预设阈值(例如,0.8)的实体对,根据依存分析的方法分析这些实体对所在的句子,抽取以动词为核心的事实三元组;通过分析句子的主谓宾或含有介宾关系的主谓动补等一些语法关系,构建以谓语动词为核心的事实三元组;根据实体对之间的谓语动词,结合s101中标注的实体间关系类型,确定实体间关系的类型,作为最终的实体之间关系的结果。
本实施例中,利用依存分析的方法将句子拆解为三元组,也就是实体及其之间的关系来表述一个句子,句子的意思不仅能够得到结构化表达,也为未来构建知识图谱奠定基础。
综上,本实施例将斯坦福自然语言处理工具修改为适用于中医文献的信息抽取方法并将其与依存分析相结合,提出一种针对中医文献实体间关系的抽取方法,能够对非结构化的中医文献进行分析,实现对中医文献的结构化,并提高实体间关系类型抽取的准确率。
为了更好地理解本发明实施例所述的中医文献的实体间关系抽取方法,以《中医病机辩证学》为例,对本发明实施例所述的中医文献的实体间关系抽取方法进行详细说明,具体可以包括以下步骤:
第一,对《中医病机辩证学》的部分内容,例如,20%的内容进行实体类型及实体间关系类型标注,并获取已标注的实体类型和实体间关系类型。
本实施例中,所述实体类型包括:病因(by)、病位(bw)和表现(bx);其中,病因包含风、寒、火、热和阴等实体;病位包含肺、络、胃、脾、肠道和小肠等实体;表现包含肺气失宣、肺气不清、肺失清润和痰热内蕴等实体。
本实施例中,可以对病势演变中实体间关系进行分类,共分为六类,分别为结合(病因之间)关系、侵犯(病因对病位)关系、被侵犯关系、变化(病位、病因)关系、出现关系和因果关系;其中,
结合(病因之间)的关系主要有相合、兼、兼夹、夹、遇、搏结等动词主导;
侵犯(病因对病位)关系主要由侵犯、侵袭、犯、耗、弥漫、灼、煎、入、伤、中、扰、冲击、阻塞、流、损伤等动词主导;
被侵犯关系主要由受、被等动词主导;
变化(病位)关系主要由郁、失、滞、凝、清、逆、痹阻、淤、逆乱、动、闭等动词主导;变化(病因)关系主要由妄行、炽盛、壅盛、凝结、盛、郁结、腾等动词主导;
出现关系主要由变生、生、化、表现、形成、见、转让、蕴、酿等动词主导;
因果关系主要由致、则、成、为、有、导致、甚至、出现等动词主导。
第二,根据已标注的实体类型来训练命名实体识别模型。
第三,使用训练得到的新的命名实体识别模型来识别《中医病机辩证学》,例如:可以识别出心、肺、胃等实体为病位,风、寒等实体为病因,化痰等实体为表现,识别的部分结果如图2所示;对识别到的实体做笛卡尔积运算,得到候选实体对,例如:可得到津、痰构成候选实体对,部分结果如图3所示;根据候选实体对的结果,抽取其文本特征,例如,原句为若风寒郁肺不解,识别到风寒为病因,它在原文中左右一个词为若和郁,他们的命名实体识别结果为o和o,构成特征表,如图4所示,其中,o表示实体类型为其他;并确定部分候选实体对中两实体间是否存在关系,例如,可以根据预设的规则,确定20%的候选实体对中两实体间是否存在关系,假设,true表示存在关系,false表示不存在关系;其中,所述预设的规则可以是,例如a和b间有关系,那么b和a间也有关系,关系部分结果如图5所示。
第四,根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,形成实体间关系的概率模型,所述概率模型,用于确定实体之间存在关系的概率,结果如图6所示;
第五,获取实体之间存在关系概率较高的实体,结合依存分析抽取事实三元组的方法,并依据第一步中已标注的实体间关系类型,确定实体间的具体关系;例如,得到“风犯肺位”这句话为病因对病位的侵犯关系,部分结果如图7所示。
实施例二
本发明还提供一种中医文献的实体间关系抽取装置的具体实施方式,由于本发明提供的中医文献的实体间关系抽取装置与前述中医文献的实体间关系抽取方法的具体实施方式相对应,该中医文献的实体间关系抽取装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述中医文献的实体间关系抽取方法具体实施方式中的解释说明,也适用于本发明提供的中医文献的实体间关系抽取装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图8所示,本发明实施例还提供一种中医文献的实体间关系抽取装置,包括:
获取模块11,用于针对待处理的中医文献,获取对其部分内容已标注的实体类型和实体间关系类型;
训练模块12,用于根据已标注的实体类型训练命名实体识别模型;
识别模块13,用于利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表;
确定模块14,用于根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,得到实体之间存在关系的概率;
抽取模块15,用于根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型。
本发明实施例所述的中医文献的实体间关系抽取装置,针对待处理的中医文献,获取对其部分内容已标注的实体类型和实体间关系类型;根据已标注的实体类型训练命名实体识别模型;利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别,根据命名实体识别结果,得到存在关系的候选实体对和特征表;根据得到的存在关系的候选实体对和特征表,用因子图模型进行图概率的统计推理,全局学习实体关系特征,得到实体之间存在关系的概率;根据得到的实体之间存在关系的概率,结合依存分析抽取事实三元组的方法及已标注的实体间关系类型,确定实体间关系的类型。这样,将实体之间存在关系的概率与自然语言处理的依存分析方法相互结合,依据抽取的事实三元组及已标注的实体间关系类型,确定实体间关系类型,从而提高实体间关系类型抽取的准确率,并能够清晰结构化地表述中医文献内容。
在前述中医文献的实体间关系抽取装置的具体实施方式中,进一步地,所述训练模块包括:
训练单元,用于根据已标注的实体类型,使用自然语言处理工具进行命名实体识别模型训练,得到适用于中医文献的命名实体识别模型;
替换单元,用于将得到的适用于中医文献的命名实体识别模型集成放入自然语言处理工具中,替换掉其原本的命名实体识别模型,并打包、编译。
在前述中医文献的实体间关系抽取装置的具体实施方式中,进一步地,所述识别模块包括:
识别单元,用于利用训练好的命名实体识别模型对待处理的中医文献进行命名实体识别;
运算单元,用于对识别到的实体做笛卡尔积运算得到候选实体对;
构成单元,用于对候选实体对中的实体进行文本特征的抽取,得到候选实体的上下文的命名实体识别结果,构成特征表;
第一确定单元,用于确定部分候选实体对中两实体间是否存在关系。
在前述中医文献的实体间关系抽取装置的具体实施方式中,进一步地,所述抽取模块包括:
分析单元,用于获取实体之间存在关系概率大于预设阈值的实体对,利用依存分析的方法对实体之间存在关系概率大于预设阈值的实体对所在的句子进行分析,抽取以动词为核心的事实三元组;
构建单元,用于通过分析句子的语法关系,构建以谓语动词为核心的事实三元组;
第二确定单元,用于根据实体对之间的谓语动词,结合已标注的实体间关系类型,确定实体间关系的类型。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。