一种中医针灸领域实体关系自动抽取的实现方法_2

文档序号:9631698阅读:来源:国知局
如下公式所示:
[0027]
[0028]
[0029]
[0030] 本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域实体关系抽取 模型。该模型较好地完成了在中医针灸领域文献中抽取中医针灸领域实体关系的任务,DM、 HM、AM和DRM实体关系分类模型的F值分别达到了 93. 25%、87. 19%、86. 57%和84. 57%
[0031] 术语解释:
[0032] (1)中医针灸领域命名实体:中医针灸领域文本中特定的事实信息称之为中医针 灸领域命名实体。本技术方案将中医针灸领域命名实体定义为如下五类:
[0033] ①疾病命名实体:限定指示具体的疾病名称。如:肩周炎、冠心病、颈椎病等。
[0034] ②养生保健命名实体:限定指示具体的与养生保健相关的事实信息。例如:机体 免疫功能、体质、微循环、脾胃功能、瘀、气、阳、血沉等。
[0035] ③治疗与保健方法命名实体:限定指示具体的疾病治疗方法或保健方法名称,一 般指针灸疗法术语或针灸用具术语。例如:牵引、针刺、腹针、激光耳针、穴位注射、电磁波、 湿针重灸、毫针刺、循经取穴深针透穴刺法、电针等。
[0036] ④经络穴位命名实体:限定指示具体的人体经络与穴位术语。例如:神门穴、腰夹 脊穴、命门、腰阳关、肾俞、下肢胆经、膀胱经穴等。
[0037] ⑤药物命名实体:限定指示具体的用于疾病治疗或保健的药物名称。例如:当归 注射液、白芥子散、胞二磷胆碱、蜂毒、复方丹参、辅酶A等。
[0038] (2)中医针灸领域实体关系:中医针灸领域文献中句子范围内的2个中医针灸领 域命名实体之间存在的语义关系,称之为中医针灸领域实体关系。本技术方案将中医针灸 领域实体关系定义为如下四类:
[0039] ①疾病-治疗方法实体关系:疾病-治疗方法实体关系获取2个中医针灸领域命 名实体之间存在的治疗语义关系,用以指示以什么方法或用什么药物或什么穴位对什么疾 病有治疗作用。例如,"本文介绍了近十年来针灸治疗肩周炎的研究进展情况",在这个句子 中,命名实体"针灸"和"肩周炎"之间存在疾病-治疗方法实体语义关系。
[0040] ②养生保健-方法实体关系:养生保健-方法实体关系获取2个中医针灸领域命 名实体之间存在的养生保健语义关系,用以指示以什么方法或用什么药物或什么穴位有养 生保健作用。例如,"探讨在支气管哮喘缓解期采用三伏灸预防哮喘发作与年龄、病程的关 系",在这个句子中,命名实体"三伏灸"和"哮喘"之间存在养生保健-方法实体语义关系。
[0041] ③经络穴位-方法实体关系:经络穴位-方法实体关系获取2个中医针灸领域命 名实体之间存在的经络穴位与治疗保健方法之间的语义关系,用以指示以什么方法作用在 什么经络或穴位上有治疗或保健的作用。例如,"督脉电针电场治疗大鼠的半横断脊损伤, 是一种简便、安全、疗效确实的治疗方法",在这个句子中,命名实体"督脉"和"电针"之间存 在经络穴位-方法实体关系。
[0042] ④药物-方法实体关系:药物-方法实体关系获取2个中医针灸领域命名实体之 间存在的药物与治疗保健方法之间的语义关系,用以指示以什么方式使用什么药物有治疗 或保健的作用。例如,"本文以复方丹参注射液和独参注射液穴位水针治疗冠心病患者102 例",在这个句子中,命名实体"复方丹参注射液"和"穴位水针"之间存在药物-方法实体关 系。
[0043] (3)中医针灸领域实体关系自动抽取:是指自动识别出中医针灸领域文献的语句 范围内用自然语言表达的两个中医针灸领域实体之间的语义关系类别。即,自动识别两个 中医针灸领域实体之间有无语义关系,或属于上述预定义的4类中医针灸领域实体关系中 的哪一类。
【附图说明】
[0044] 图1为本发明的流程示意图;
[0045] 图2为实施例中的中医针灸领域实体关系特征模板;
[0046] 图3为实体关系向量化程序流程示意图。
【具体实施方式】
[0047] 下面结合附图对本发明的【具体实施方式】进行详细的说明。
[0048] 实施例
[0049] 如图1所示的一种中医针灸领域实体关系自动抽取的实现方法,包括如下步骤:
[0050] ( -)定义中医针灸领域命名实体及实体关系类型体系:
[0051] 表1中医针灸领域命名实体类型及其标注实例
[0052]
[0054] 表2中医针灸领域实体关系类型及其标注实例
[0055]
_mj,_
[0056] 本技术方案通过分析总结中医针灸领域文本的特点,预定义了 5类中医针灸领域 命名实体类型和4类中医针灸领域实体关系类型。中医针灸领域命名实体类型及其标注实 例如表1所示,中医针灸领域实体关系类型及其标注实例如表2所示。
[0057] (二)构建中医针灸领域实体关系语料库
[0058] 本技术方案采用基于特征向量的有监督机器学习方法来构建中医针灸领域实体 关系抽取模型。有监督方法从训练数据集中学习模型,对测试数据的关系类型进行预测。 中医针灸领域实体关系语料库构建步骤如下:1.从网站(http://www.cqvip.com/)上爬取 《针灸临床杂志》期刊2009至2013年发表的中医针灸领域文献的摘要信息共有4. 2M;2.从 爬取的摘要信息中随机选取350篇;3.按照本技术方案中预定义的实体类型、实体关系类 型及其标注格式逐句逐篇进行人工标注,形成一定规模的中医针灸领域实体关系语料库。
[0059] (三)构造中医针灸领域实体关系特征模板
[0060] 本技术方案只考虑中医针灸领域语料中一个句子范围内的两个实体之间的关系, 对跨越句子的实体之间的关系不进行识别。中医针灸领域实体关系抽取系统的输入是一个 句子和句子中已经标记出的2个实体,输出则是这2个实体间的语义关系。为了捕获中医 针灸领域实体关系的局部和全局特征,用以构建特征向量,提高分类性能,在对中医针灸领 域实体关系实例的语境进行综合分析的基础上,总结得到了有效描述中医针灸领域实体关 系的词汇、语法和语义特征,具体包括:
[0061] 1)实体类型特征。两个实体各自的类型,这个特征可以从人工标注的中医针灸领 域语料中获取。
[0062] 2)实体所有词特征。两个实体各自的词汇。
[0063] 3)实体上下文特征。2个实体各自的前3个词、后3个词以及这些词的词性。
[0064] 4)动词特征。取离实体2最近的动词,如果满足条件的有2个动词,则取实体2后 面的动词。
[0065] 5)词距特征。指组成实体关系的2个实体对之间的词数。词距为> =0的数值。
[0066] 6)子句特征。两个实体是否在同一个子句中,若在同一个子句中为1,否则为0。 其中子句即从句,它是复合句的一个成分,自有其主语和谓语。
[0067] 7)间隔实体特征。组成实体关系的2个实体对之间是否还有其他实体存在,若存 在其他实体为1,不存在其他实体为〇。
[0068] 综上所述,本方案为中医针灸领域语料库一个句子中的任意2个实体组成的实体 对(E1,E2)构造的实体关系组合特征模板如图2所示。
[0069] 其中:El.TYPE表示实体E1的实体类型特征;E2.TYPE表示实体E2的实体类型 特征;El.TEXT表示E1的实体所有词特征,E2.TEXT表示E2的实体所有词特征;上栏的 Wi-3,Wi-2,Wi-1,Wi+1,Wi+2和Wi+3表示E1的实体上下文特征中的词汇,即E1的前三个 词和后三个词;上栏的Ti-3,Ti-2,Ti-1,Ti+1,Ti+2和Ti+3表示E1的前三个词和后三个词 的词性;下栏的Wj-3,Wj-2,Wj-1,Wj+1,Wj+2和Wj+3表示E2的实体上下文特征中的词汇, 即E2的前三个词和后三个词;下栏的Tj-3,Tj-2,Tj-1,Tj+1,Tj+2和Tj+3表示E2的前三 个词和后三个词的词性;
[0070]Verb表示动词特征;Word_Distance表示词距特征;Clause表示子句特征; Interval表示间隔实体特征。
[0071
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1