一种中医针灸领域实体关系自动抽取的实现方法_3

文档序号:9631698阅读:来源:国知局
](四)中医针灸领域实体关系实例向量化
[0072] 向量空间模型(vectorspacemodel)是将文本特征转化为数字特征的模型。使 用向量空间模型进行实体关系抽取时,要将实体关系实例按照预先设定好的特征项赋予特 定的特征值,以形成多维的特征向量。本发明根据图2所描述的实体关系特征模板,将中医 针灸领域语料库中的实体关系实例映射成特征向量。实体关系实例向量化模块的输入是人 工标注好实体及实体关系的中医针灸文献摘要集,输出是中医针灸领域实体关系实例向量 集,程序流程如图3所示。
[0073] 为了使原始语料中的中医针灸领域实体,如:晴明穴、循经取穴深针透穴刺法、穴 位敷贴等在进行分词时不被切碎,我们首先使用从语料库中抽取出的实体集训练分词词 典,然后再使用经过词典训练后的分词工具对原始语料进行分词及词性标注。本模块还将 人工标注的中医针灸领域实体关系语料库转化为ACE(AutomaticContentExtraction)格 式文件,以便将来提供给有意从事中医针灸领域信息抽取的研究者共享。
[0074](五)中医针灸领域实体关系分类模型训练及评估
[0075] 本方案选择SVM算法构造中医针灸领域实体关系分类器。首先,把中医针灸领域 实体关系实例特征向量集划分成训练集和测试集;然后,采用SVM分类器训练中医针灸领 域实体关系分类模型,使分类模型在给定的数据表示下得到可判别的效果;最后,在测试集 上评估分类模型对中医针灸领域实体关系类型的预测能力。
[0078]
[0076] 分类器评价指标包括:准确率(P)、召回率(R)和F-值,具体定义如下公式所示:[0077]
[0079]
[0080] 本发明可以对中医针灸领域文献进行自动阅读,抽取中医针灸领域命名实体间的 语义关系(如:疾病-治疗方法实体关系、养生保健-方法实体关系等),并以结构化的信 息形式表示和存储。该软件产品的开发对中医针灸领域知识网络的构建、疾病治疗、中医保 健、中药研制以及加快中医针灸标准化、现代化、国际化进程均具有重要的意义。
[0081] 本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域实体关系抽取 模型。该模型较好地完成了在中医针灸领域文献中抽取中医针灸领域实体关系的任务,DM、 HM、AM和DRM实体关系分类模型的F值分别达到了 93. 25%、87. 19%、86. 57 %和84. 57%。
[0082] 以上实例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般 技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述, 本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种中医针灸领域实体关系自动抽取的实现方法,其特征在于,包括如下步骤: 步骤1)定义中医针灸领域命名实体及实体关系类型体系: 选择中医词汇作为实体;对实体进行归类,将同一类别的实体定义为对应的命名实体 类型;对实体之间的关系进行归类,将同一类实体关系定义为对应的实体关系类型;设置 命名实体类型和实体关系类型的标注格式; 步骤2)构建中医针灸领域实体关系语料库: 收集中医针灸领域的文献,然后根据步骤1)中的命名实体类型和实体关系类型以及 命名实体类型和实体关系类型的标注格式对收集的中医针灸领域的文献进行人工标注,构 建中医针灸领域实体关系实例;中医针灸领域实体关系实例组成中医针灸领域实体关系语 料库; 步骤3)构造中医针灸领域实体关系特征模板: 构造两个实体组成的实体对的特征模板;限定只针对处于同一个句子内的两个实体间 的实体关系类型进行识别,对跨越句子的实体间的关系类型不进行识别;将识别的两个实 体间的实体关系类型构造为特征模板的样式;特征模板具有多个特征项; 步骤4)构建中医针灸领域实体关系实例向量化模块: 将中医针灸领域实体关系语料库中人工标注好的中医针灸领域实体关系实例按照步 骤3)中构造的特征模板中预先设定好的特征项赋予特征值,形成多维的特征向量;使用向 量空间模型进行实体关系抽取;中医针灸领域实体关系实例向量化模块的输入是构建好的 中医针灸领域实体关系语料库;中医针灸领域实体关系实例向量化模块的输出是中医针灸 领域实体关系实例向量集; 步骤5)中医针灸领域实体关系分类模型训练及评估: 构造中医针灸领域实体关系分类器,使用分类器评价指标对中医针灸领域实体关系分 类器的分类能力进行评价。2. 如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所 述步骤1)中,命名实体类型包括疾病命名实体、养生保健命名实体、治疗与保健方法命名 实体、经络穴位命名实体和药物命名实体。3. 如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所 述步骤1)中,实体关系类型包括疾病-治疗方法实体关系、养生保健-方法实体关系、经络 穴位-方法实体关系和药物-方法实体关系。4. 如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所 述步骤3)中,特征模板包括的特征项有实体类型特征、实体所有词特征、实体上下文特征、 动词特征、词距特征、子句特征和间隔实体特征;其中实体类型特征指两个实体各自的类 型;实体所有词特征指两个实体各自的词汇;实体上下文特征指两个实体各自前方的3个 单词和后方的3个单词以及这些单词的词性;动词特征指取两个实体中与处于后方的实体 距离最近的动词,若有两个动词满足条件,则取处于后方的动词;词距特征指两个实体之间 的词汇数;子句特征指两个实体是否在同一个子句中,若在同一个子句中则为1,若不在同 一个子句中则为〇 ;间隔实体特征指组成实体关系的两个实体之间是否还有其它实体,若 有其它实体则为1,若没有其它实体则为0。5. 如权利要求4所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所 述实体上下文特征指两个实体各自前方的3个单词和后方的3个单词以及这些单词的词 性。6. 如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所 述步骤4)中,中医针灸领域实体关系实例向量化模块将人工标注的中医针灸领域实体关 系语料库转化为ACE格式文件。7. 如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所 述步骤4)中,使用从中医针灸领域实体关系语料库中抽取出人工标注的中医针灸领域实 体实例,形成实体集,以实体集作为训练语料库训练分词工具,使用训练过的分词工具对中 医针灸领域实体关系语料库进行分词和词性标注。8. 如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所 述步骤5)中,使用SVM算法构造中医针灸领域实体关系分类器。9. 如权利要求8所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,将 中医针灸领域实体关系实例向量集划分为训练集和测试集,然后采用训练集训练中医针灸 领域实体关系分类模型,使中医针灸领域实体关系分类模型在给定的数据表示下得到可判 别的效果;最后,在测试集上评估中医针灸领域实体关系分类模型对中医针灸领域实体关 系类型的预测能力。10. 如权利要求1所述的中医针灸领域实体关系自动抽取的实现方法,其特征在于,所 述步骤5)中,分类器评价指标包括:准确率(P)、召回率(R)和F-值,具体定义如下公式所 示:
【专利摘要】本发明公开了一种中医针灸领域实体关系自动抽取的实现方法,包括如下步骤:步骤1)定义中医针灸领域命名实体及实体关系类型体系;步骤2)构建中医针灸领域实体关系语料库;步骤3)构造中医针灸领域实体关系特征模板;步骤4)构建中医针灸领域实体关系实例向量化模块;步骤5)中医针灸领域实体关系分类模型训练及评估。本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域实体关系抽取模型,该模型较好地完成了在中医针灸领域文献中抽取中医针灸领域实体关系的任务,DM、HM、AM和DRM实体关系分类模型的F值分别达到了93.25%、87.19%、86.57%和84.57%,填补了相关研究的空白。
【IPC分类】G06F19/00
【公开号】CN105389470
【申请号】CN201510798926
【发明人】孙水华
【申请人】福建工程学院
【公开日】2016年3月9日
【申请日】2015年11月18日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1