一种中医针灸领域实体关系自动抽取的实现方法

文档序号:9631698阅读:645来源:国知局
一种中医针灸领域实体关系自动抽取的实现方法
【技术领域】
[0001] 本发明属于信息技术领域,具体地,本发明涉及一种中医针灸领域实体关系自动 抽取的实现方法。
【背景技术】
[0002] 关系抽取是信息抽取和自然语言理解技术不可缺少的环节,其主要目的是识别用 自然语言表达的两个实体之间的语义关系。关系抽取技术的研究对信息检索、问答系统、信 息过滤、机器翻译等有非常积极的意义。在生物医学领域,关系抽取任务是要实现从生物医 学文本中抽取出各种不同的生物医学实体(疾病、药物、基因、蛋白等)之间的语义关系,并 以人们可以理解的方式表示出来,用以帮助生物医学研究者解决信息过载的问题。目前, 主流的实体语义关系抽取方式有三种:基于特征向量的机器学习方法、基于核函数的机器 学习方法以及特征向量与核函数融合的机器学习方法。有些文献按照预先设定好的特征模 板,将训练集和测试集中的实体关系实例数字化,形成多维的特征向量。然后,用训练集中 的特征向量训练支持向量机(SVM)、最大熵(ME)等统计学习模型,用测试集中的特征向量 对得到的模型的实体关系类别预测能力进行评估。该方法的主要研究重点在于如何将语句 中的语法、词法以及实体的相关特性利用起来,组成最能代表实体对关系的特征向量。有些 文献将语句的句法结构树、词序列等视为处理对象,通过定义树核函数和语义序列核函数 来计算处理对象之间的相似度,从而避免了构建高炜度的特征向量。有些文献将特征向量 和树核函数有效融合,用核方法弥补特征向量无法表示结构特征的缺陷,用特征向量将树 核函数扩展到大量数据,取得了较好的关系抽取效果。有些文献采用包括词、关键词、蛋白 质实体名距离、关联路径等特征组合成特征模板,使用支持向量机统计模型来抽取蛋白质 关系。有些文献将两个实体所在的句子信息以及两个实体周围的局部上下文信息组合在一 起应用于药物关系抽取,取得了较好的结果。有些文献用实体在句子中的顺序和距离、词汇 特征以及链接语法特征训练6个SVM分类器,实现疾病、症状、检查和治疗之间的实体关系 识别,该研究为电子病历实体关系抽取研究提供了借鉴。
[0003] 目前,对于在中医针灸领域文献中抽取实体关系的关键技术研究还是空白。中医 针灸文献作为针灸医学领域成果展示和学术交流的主要载体,其内容组织和知识表达与英 文生物医学文献以及中文通用领域文献都具有很大的差异性。
[0004] 当前,生物医学领域关系抽取任务主要集中在对英文医学文献的关系抽取技术研 究上,如:研究英文生物医学文献中的蛋白质关系抽取;研究英文医学文献中的药物相互 作用关系抽取。中文实体关系抽取技术研究起步较晚,主要是针对通用领域关系抽取技术 的研究,如:在ACE2005基准语料上进行了中文实体关系自动抽取技术的研究。中医针灸 蕴含着中华民族特有的精神、思维和文化精华,涵纳着大量的实践观察、知识体系和技术技 艺,凝聚着中华民族强大的生命力与创造力,是中华民族智慧的结晶,也是全人类文明的瑰 宝。随着中医针灸领域文献的快速增长,迫切需要一种有效的工具来高效地利用这些文献 中所蕴含的知识。本发明的目的是针对中医针灸领域文献的特点,研究并开发中医针灸领 域实体语义关系抽取系统,该系统能从海量的中医针灸领域文献中快速有效地提取针灸领 域实体语义关系,形成结构化的数据存入数据库,以帮助中医针灸研究者解决信息过载的 问题,推动针灸医学的进一步发展。

【发明内容】

[0005] 为实现上述目的,本发明提供了一种中医针灸领域实体关系自动抽取的实现方 法。本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域实体关系抽取模型, 该模型较好地完成了在中医针灸领域文献中抽取中医针灸领域实体关系的任务,DM、HM、AM 和DRM实体关系分类模型的F值分别达到了 93. 25%、87. 19%、86. 57%和84. 57%,填补了 相关研究的空白。
[0006] 为达到上述技术效果,本发明的技术方案是:
[0007] -种中医针灸领域实体关系自动抽取的实现方法,包括如下步骤:
[0008] 步骤1)定义中医针灸领域命名实体及实体关系类型体系:
[0009] 选择中医词汇作为实体;对实体进行归类,将同一类别的实体定义为对应的命名 实体类型;对实体之间的关系进行归类,将同一类实体关系定义为对应的实体关系类型; 设置命名实体类型和实体关系类型的标注格式;
[0010] 步骤2)构建中医针灸领域实体关系语料库:
[0011] 收集中医针灸领域的文献,然后根据步骤1)中的命名实体类型和实体关系类型 以及命名实体类型和实体关系类型的标注格式对收集的中医针灸领域的文献进行人工标 注,构建中医针灸领域实体关系实例;中医针灸领域实体关系实例组成中医针灸领域实体 关系语料库;
[0012] 步骤3)构造中医针灸领域实体关系特征模板:
[0013] 构造两个实体组成的实体对的特征模板;限定只针对处于同一个句子内的两个实 体间的实体关系类型进行识别,对跨越句子的实体间的实体关系类型不进行识别;将识别 的两个实体间的实体关系类型构造为特征模板的样式;特征模板具有多个特征项;
[0014] 步骤4)构建中医针灸领域实体关系实例向量化模块:
[0015] 将中医针灸领域实体关系语料库中人工标注好的中医针灸领域实体关系实例按 照步骤3)中构造的特征模板中预先设定好的特征项赋予特征值,形成多维的特征向量;使 用向量空间模型进行实体关系抽取;中医针灸领域实体关系实例向量化模块的输入是构建 好的中医针灸领域实体关系语料库;中医针灸领域实体关系实例向量化模块的输出是中医 针灸领域实体关系实例向量集;
[0016] 步骤5)中医针灸领域实体关系分类模型训练及评估:
[0017] 构造中医针灸领域实体关系分类器,使用分类器评价指标对中医针灸领域实体关 系分类器的分类能力进行评价。
[0018] 进一步的改进,所述步骤1)中,命名实体类型包括疾病命名实体、养生保健命名 实体、治疗与保健方法命名实体、经络穴位命名实体和药物命名实体。
[0019] 进一步的改进,所述步骤1)中,实体关系类型包括疾病-治疗方法实体关系、养生 保健-方法实体关系、经络穴位-方法实体关系和药物-方法实体关系。
[0020] 进一步的改进,所述步骤3)中,特征模板包括的特征项有实体类型特征、实体所 有词特征、实体上下文特征、动词特征、词距特征、子句特征和间隔实体特征;其中实体类型 特征指两个实体各自的类型;实体所有词特征指两个实体各自的词汇;实体上下文特征指 两个实体各自前方的3个单词和后方的3个单词以及这些单词的词性;动词特征指取两个 实体中与处于后方的实体距离最近的动词,若有两个动词满足条件,则取处于后方的动词; 词距特征指两个实体之间的词汇数;子句特征指两个实体是否在同一个子句中,若在同一 个子句中则为1,若不在同一个子句中则为〇 ;间隔实体特征指组成实体关系的两个实体之 间是否还有其它实体,若有其它实体则为1,若没有其它实体则为0。
[0021] 进一步的改进,所述实体上下文特征指两个实体各自前方的3个单词和后方的3 个单词以及这些单词的词性。
[0022] 进一步的改进,所述步骤4)中,中医针灸领域实体关系实例向量化模块将人工标 注的中医针灸领域实体关系语料库转化为ACE格式文件。
[0023] 进一步的改进,所述步骤4)中,使用从中医针灸领域实体关系语料库中抽取出人 工标注的中医针灸领域实体实例,形成实体集,以实体集作为训练语料库训练分词工具,使 用训练过的分词工具对中医针灸领域实体关系语料库进行分词和词性标注。
[0024] 进一步的改进,所述步骤5)中,使用SVM算法构造中医针灸领域实体关系分类器。
[0025] 进一步的改进,将中医针灸领域实体关系实例向量集划分为训练集和测试集,然 后采用训练集训练中医针灸领域实体关系分类模型,使中医针灸领域实体关系分类模型在 给定的数据表示下得到可判别的效果;最后,在测试集上评估中医针灸领域实体关系分类 模型对中医针灸领域实体关系类型的预测能力。
[0026] 进一步的改进,所述步骤5)中,分类器评价指标包括:准确率(P)、召回率(R)和 F-值,具体定义
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1