一种中医针灸领域事件触发词的自动抽取方法及系统与流程

文档序号:11458669阅读:388来源:国知局
一种中医针灸领域事件触发词的自动抽取方法及系统与流程

本发明涉及一种中医(即中文医学)针灸领域信息抽取方法及工具,特别涉及一种中医针灸领域事件触发词的抽取方法和系统。



背景技术:

事件抽取[1-2]是层次较高的信息抽取研究任务,其目的是从海量数据文本中自动地识别出人们感兴趣的事件信息,并将这些信息转换为结构化数据呈现出来。事件触发词识别即是事件类别的识别,在事件抽取任务中起着关键的作用。主流的事件触发词抽取方法主要有三种:基于规则的方法[3-5]、基于词典匹配的方法[6-8]和基于机器学习的方法[9-12]

基于规则的方法根据所处理语料的语言特征和领域特征事先定义好一组泛化的规则,利用规则匹配来抽取触发词。比如,文献[3]中用词干处理后的规则来抽取文本中的生物医学事件触发词。基于规则的触发词识别模型非常依赖于人工编写规则的覆盖率,规则覆盖不到的触发词识别不到,该类模型有较高的准确率,但是召回率较低,可移植性较差。

基于词典匹配的方法是指利用训练语料中人工标注的触发词建立触发词字典,通过该字典判断其他词语是否为触发词。比如,文献[6]中抽取训练语料中所有的触发词,建立初始的触发词字典;采用同义词词林扩展该字典,构建一个较完整的触发词字典;利用此字典判断候选触发词集中的词语是否为事件触发词。该方法是一种典型的经验方法,有较高的召回率,但准确率较低,且要求训练语料规模足够大、足够经典。

基于机器学习的方法把触发词识别任务看作是分类问题或序列标注问题,应用大量的特征和标注数据,建立统计机器学习模型,实现对样本实例的确定。比如,文献[9]中利用二值分类器判别句子中的词是否为触发词,若是,则使用多元分类器对其分类,获得事件类型;文献[10]中采用词汇及其上下文特征、短语标记特征、词聚类特征以及统计的词典特征构造不同的基于词级的crf模型,用于生物事件触发词的标注。机器学习方法比较客观,且不需要太多的人工干预和领域知识,但要求训练语料和测试语料必须满足一定的规模才能保证识别结果的精确率。

近年来,国内外学者针对英文生物医学事件以及中文通用领域事件的抽取进行了研究和实验,取得了一些有价值的研究成果。如:tranmv等[13]在cg(cancergenetics)语料库中研究生物医学事件抽取;zhengchen等[14]在ace标注语料库中研究中文通用领域事件抽取。然而,由于中文的语言特征以及在中医针灸领域文本中频繁出现的单字词和成语,如:“灸”、“刺”、“抗”、“疏肝理气”、“通经活络”等,阻碍了英文生物医学领域、中文通用领域已经取得的事件抽取技术研究成果在中医针灸领域事件抽取中的应用。迄今为止,尚无中医针灸领域事件信息抽取系统面世,中医针灸领域事件抽取技术方面的相关研究论文也罕见报道。中医针灸蕴含着中华民族特有的精神、思维和文化精华,涵纳着大量的实践观察、知识体系和技术技艺,凝聚着中华民族强大的生命力与创造力,是中华民族智慧的结晶,也是全人类文明的瑰宝。随着中医针灸领域文献的快速增长,迫切需要一种有效的工具来高效地利用这些文献中所蕴含的知识。

术语解释:

(1)中医针灸事件:在中医针灸领域文本中,明确出现了与针灸治疗或保健事实相关的文字表述的句子称之为中医针灸事件表述语句或中医针灸事件。中医针灸事件包括中医针灸事件触发词和中医针灸事件元素。在中医针灸事件中,最能清晰表达中医针灸治疗或保健事实发生的词语称之为中医针灸事件触发词。中医针灸事件可以有多个事件元素,它们是满足特定角色的中医针灸领域命名实体。本发明中定义的2类中医针灸事件如下:

①保健事件:指句子中出现了与中医针灸保健事实相关的文字表述。保健事件触发词是该类事件表述语句中指标性的词语,保健事件中可以出现的7类事件元素包括:药物元素drug-arg、中医施术方法元素method-arg、穴位元素acupoint-arg、工具元素instrument-arg、时间元素time-arg、健康元素health-arg和疾病元素disease-arg。

保健事件人工标注示例:<method-arg>推拿</method-arg>能<health-trigger>缓解</health-trigger><disease-arg>梨状肌痉挛</disease-arg>,<health-trigger>改善</health-trigger>局部的<health-arg>血液循环</health-arg>。

②治疗事件:指句子中出现了与中医针灸治疗疾病相关的文字表述。治疗事件触发词是该类事件表述语句中指标性的词语,治疗事件中可以出现的6类事件元素包括:药物元素drug-arg、穴位元素acupoint-arg、中医施术方法元素method-arg、工具元素instrument-arg、时间元素time-arg和疾病元素disease-arg。

治疗事件人工标注示例:本文介绍了近十年来<method-arg>针灸</method-arg><cure-trigger>治疗</cure-trigger><disease-arg>肩周炎</disease-arg>的研究进展情况。

(2)中医针灸领域命名实体:中医针灸领域文本中特定的事实信息称之为中医针灸领域命名实体。

①疾病命名实体:限定指示具体的疾病名称。如:肩周炎、冠心病、颈椎病等。

②养生保健命名实体:限定指示具体的与养生保健相关的事实信息。例如:机体免疫功能、体质、微循环、脾胃功能、瘀、气、阳、血沉等。

③治疗与保健方法命名实体:限定指示具体的疾病治疗方法或保健方法名称,一般指针灸疗法术语。例如:牵引、针刺、腹针、激光耳针、穴位注射、电磁波、湿针重灸、毫针刺、循经取穴深针透穴刺法、电针等。

④经络穴位命名实体:限定指示具体的人体经络与穴位术语。例如:神门穴、腰夹脊穴、命门、腰阳关、肾俞、下肢胆经、膀胱经穴等。

⑤药物命名实体:限定指示具体的用于疾病治疗或保健的药物名称。例如:当归注射液、白芥子散、胞二磷胆碱、蜂毒、复方丹参、辅酶a等。

(3)中医针灸事件触发词自动抽取:在中医针灸领域文本集中,逐篇逐句地自动判别中医针灸领域文本的句子中是否含有某类中医针灸事件触发词的过程称之为中医针灸事件触发词自动抽取。即,逐篇逐句自动检测中医针灸领域文本的句子是否为中医针灸事件表述语句,并正确分类中医针灸事件表述语句的过程。

参考文献:

[1]lip,zhuq,zhoug.employingeventinferencetoimprovesemi-supervisedchineseeventextraction[c]//coling.2014:2161-2171.

[2]shal,liuj,lincy,etal.rbpb:regularization-basedpatternbalancingmethodforeventextraction[c]//proceedingsofthe54thannualmeetingoftheassociationforcomputationallinguistics.2016,1:1224-1234.

[3]casillasa,deilarrazaad,gojenolak,etal.usingkybotsforextractingeventsinbiomedicaltexts[c]//proceedingsofthebionlpsharedtask2011workshop.associationforcomputationallinguistics,2011:138-142.

[4]cohenkb,verspoork,johnsonhl,etal.high-precisionbiologicaleventextractionwithaconceptrecognizer[c]//proceedingsoftheworkshoponcurrenttrendsinbiomedicalnaturallanguageprocessing:sharedtask.associationforcomputationallinguistics,2009:50-58.

[5]leminhq,truongsn,baoqh.apatternapproachforbiomedicaleventannotation[c]//proceedingsofthebionlpsharedtask2011workshop.associationforcomputationallinguistics,2011:149-150.

[6]tianl,maw,wenz.automaticeventtriggerwordextractioninchineseevent[j].journalofsoftwareengineeringandapplications,2012,5:208-212.

[7]buykoe,faesslere,wermterj,etal.eventextractionfromtrimmeddependencygraphs[c]//proceedingsoftheworkshoponcurrenttrendsinbiomedicalnaturallanguageprocessing:sharedtask.associationforcomputationallinguistics,2009:19-27.

[8]vlachosa,butteryp,séaghdhado,etal.biomedicaleventextractionwithouttrainingdata[c]//proceedingsoftheworkshoponcurrenttrendsinbiomedicalnaturallanguageprocessing:sharedtask.associationforcomputationallinguistics,2009:37-40.

[9]ahnd.thestagesofeventextraction[c]//proceedingsoftheworkshoponannotatingandreasoningabouttimeandevents.associationforcomputationallinguistics,2006:1-8.

[10]weixiao_mei,huangyu,chenbo,etal.researchontaggingbiomedicaleventtrigger[j].computerscience,2015,42(10):239-243.

[11]j,heimonenj,ginterf,etal.extractingcomplexbiologicaleventswithrichgraph-basedfeaturesets[c]//proceedingsoftheworkshoponcurrenttrendsinbiomedicalnaturallanguageprocessing:sharedtask.associationforcomputationallinguistics,2009:10-18.

[12]lip,zhoug,zhuq,etal.employingcompositionalsemanticsanddiscourseconsistencyinchineseeventextraction[c]//proceedingsofthe2012jointconferenceonempiricalmethodsinnaturallanguageprocessingandcomputationalnaturallanguagelearning.associationforcomputationallinguistics,2012:1006-1016.

[13]tranmv,lehq,phivt,etal.exploringaprobabilisticearleyparserforeventcompositioninbiomedicaltexts[j].acl2013,2013:130.

[14]chenz,jih.languagespecificissueandfeatureexplorationinchineseeventextraction[c]//proceedingsofhumanlanguagetechnologies:the2009annualconferenceofthenorthamericanchapteroftheassociationforcomputationallinguistics,companionvolume:shortpapers.associationforcomputationallinguistics,2009:209-212.

[15]linguisticdataconsortium.ace(automaticcontentextraction)chineseannotationguidelinesforevents[j].2005-05-09).https://www.ldc.upenn.edu/projects/ace,2009.



技术实现要素:

本发明要解决的技术问题,在于提供一种中文医学针灸领域事件触发词的自动抽取方法和系统,能从海量的中医针灸领域文献中逐句自动地识别句子中是否含有中医针灸领域事件触发词并确定触发词的类别,为下一步抽取中医针灸领域事件的研究奠定基础。

本发明方法是这样实现的:一种中医针灸领域事件触发词的自动抽取方法,包括:

步骤s1、由人工预定义中医针灸事件模板;

步骤s2、由人工根据预定义的中医针灸事件模板构建中医针灸事件的标注语料库;

步骤s3、设计初始触发词表构建法,用于根据所述标注语料库构建中医针灸事件的初始触发词表;

步骤s4、设计触发词扩展算法,用以对所述初始触发词表进行扩展,得到中医针灸事件的触发词扩展表;

步骤s5、设计候选触发词抽取算法,用以基于所述中医针灸事件触发词扩展表对候选针灸事件的触发词进行抽取;

步骤s6、设计触发词过滤规则集,用以对候选针灸事件的触发词进行过滤;

步骤s7、将所述初始触发词表构建法、触发词扩展算法、候选触发词抽取算法以及触发词过滤规则构建为触发词自动抽取模型,从而实现中医针灸领域事件触发词的自动抽取。

其中,该标注语料库包括训练集和测试集,其中,训练集用于构建所述初始触发词表,测试集用于测试评估所述触发词自动抽取模型;本发明方法还包括步骤s8、在所述测试集上对所述触发词自动抽取模型采用准确率p、召回率r和f-值三个通用的测评指标进行评价,该三个通用的测评指标的具体定义如下公式所示:

进一步的,所述步骤s1是通过对中医针灸领域文本的分析,同时借鉴ace语料库中文通用领域事件的定义以及中文事件的标注方法[15],预定义了治疗事件模板和保健事件模板,所述治疗事件模板和保健事件模板即构成所述中医针灸事件模板。

进一步的,所述步骤s2中医针灸领域事件的标注语料库的构建步骤:

(1)从网站上爬取一定时期发表的中医针灸领域文献的摘要信息;

(2)从爬取的摘要信息中随机选取多篇文献;

(3)按照预定义的中医针灸事件模板及其标注格式逐篇逐句进行人工标注,分别构建训练集和测试集,形成所述标注语料库。

进一步的,所述步骤s3的初始触发词表构建法是:分析所述训练集,逐篇逐句收集人工标注的中医针灸事件触发词及其类别,在训练语料范围内统计每个触发词触发事件的个数、触发词出现在句子中的个数、各种事件类型出现的个数以及句子总数的信息,并利用这些统计量计算各个事件触发词的权重,从而构建的初始中医针灸事件触发词表;

所述事件触发词的权重的计算公式为:scorei=tf(wi)*idf(wi)(1);

其中,tf为词频,表示某个触发词wi对该触发词所属事件类别的贡献程度,idf为逆向文件频率,表示触发词wi在训练语料中出现的频度;

tf的计算公式为:tf(wi)=ni/mi(2);其中,ni为触发词wi在所有训练语料中触发的某类事件的个数,mi为训练语料中该类事件的总个数;

idf的计算公式为:其中,ni为训练语料中句子总数,mi为训练语料中含有触发词wi的句子数。

进一步的,所述触发词扩展算法为:

1)将同义词词林中词语编码前四级相同,且第八位标记为“=”的词语进行聚类,构造词语→编码映射、编码→同义词词语的集合映射;

2)处理所述训练集中的分词摘要文本集,收集其中的动词和名词,构造动词与名词词语集合;

3)依次处理所述初始触发词表中的每个触发词wi,将wi映射到与其编码相同的同义词集合,并利用动词与名词词语集合过滤该同义词集合中非动词与非名词性的词语;

4)将过滤后的同义词集合中的词语加入到待扩充的事件触发词表中,并将这些词语的事件类型、权重值设置为与触发词wi相同;

5)转至所述第3)步,直至初始触发词表中的触发词处理完毕;

6)将待扩充的事件触发词表与初始触发词表合并,获得中医针灸事件的触发词扩展表。

进一步的,所述步骤s5中候选触发词抽取算法具体是:

1)对所述测试集中的测试语料进行分句,逐句提取人工标注的触发词及其类型,构建测试语料中针灸事件触发词标准集,并统计各类标准触发词计数;

2)逐句逐词检查未标注测试摘要文本集中的词语是否存在于中医针灸事件触发词扩展表中,若存在且权重大于设定的阈值,则判定该词语为候选针灸事件触发词,并通过查表确定该触发词的类型;

3)将该触发词及其类型加入候选针灸事件触发词集合,并增加相应类别的识别触发词计数;

4)将识别触发词及其类型与标准触发词及其类型比对,判断识别的正确与否,若正确,则增加相应类别的正确识别触发词计数;

5)转到第2)步,直至测试语料处理完毕。

进一步的,所述触发词过滤规则包括:

规则1:针对候选针灸事件触发词集中的<cure>类别的触发词,若其左右近邻不存在集合{<disease>、<method>}类别的命名实体,则丢弃该触发词;

规则2:针对候选针灸事件触发词集中的<health>类别的触发词,若其左右近邻不存在集合{<health>、<method>、<disease>}类别的命名实体,则丢弃该触发词。

本发明系统是这样实现的:一种中医针灸领域事件触发词的自动抽取系统,包括:

语料预处理模块,用于对预先构建好的标注语料库进行预处理,包括噪声消除、分词、词性标注;其中,所述标注语料库是人工根据预定义的中医针灸事件模板进行构建所得;

候选触发词抽取模块,用于根据所述标注语料库构建中医针灸事件的初始触发词表;再对所述初始触发词表进行扩展,得到中医针灸事件的触发词扩展表;然后基于所述中医针灸事件触发词扩展表对候选针灸事件的触发词进行抽取;

触发词过滤模块,用于通过触发词过滤规则集对候选针灸事件的触发词进行过滤。

进一步的,所述标注语料库包括训练集和测试集,其中,训练集用于构建所述初始触发词表,测试集用于测试评估所述触发词自动抽取模型;

所述语料预处理模块分别对训练集和测试集进行预处理;

所述候选触发词抽取模块是根据所述训练集中人工标注的触发词构建中医针灸事件的初始触发词表,同时还抽取所述测试集中人工标注的触发词,构造触发词标准答案集;并将基于所述中医针灸事件触发词扩展表对测试语料中的候选针灸事件触发词进行抽取,抽取结果与触发词标准答案集进行比较评估,得到评估结果。

进一步的,所述比较评估是采用准确率p、召回率r和f-值三个通用的测评指标进行,该三个通用的测评指标的具体定义如下公式所示:

进一步的,所述中医针灸事件模板的定义过程是:通过对中医针灸领域文本的分析,同时借鉴ace语料库中文通用领域事件的定义以及中文事件的标注方法进行预定义的,该中医针灸事件模板包括治疗事件模板和保健事件模板。

进一步的,所述标注语料库构建模块构建标注语料库的步骤为:

(1)从网站上爬取一定时期发表的中医针灸领域文献的摘要信息;

(2)从爬取的摘要信息中随机选取多篇文献;

(3)按照预定义的中医针灸事件模板及其标注格式逐篇逐句进行人工标注,分别构建训练集和测试集,形成所述标注语料库。

进一步的,所述候选触发词抽取模块构建中医针灸事件的初始触发词表的过程是:分析所述训练集,逐篇逐句收集人工标注的中医针灸事件触发词及其类别,在训练语料范围内统计每个触发词触发事件的个数、触发词出现在句子中的个数、各种事件类型出现的个数以及句子总数的信息,并利用这些统计量计算各个事件触发词的权重,从而构建的初始中医针灸事件触发词表:

所述事件触发词的权重的计算公式为:scorei=tf(wi)*idf(wi)(1);

其中,tf为词频,表示某个触发词wi对该触发词所属事件类别的贡献程度,idf为逆向文件频率,表示触发词wi在训练语料中出现的频度;

tf的计算公式为:tf(wi)=ni/mi(2);其中,ni为触发词wi在所有训练语料中触发的某类事件的个数,mi为训练语料中该类事件的总个数;

idf的计算公式为:其中,ni为训练语料中句子总数,mi为训练语料中含有触发词wi的句子数。

进一步的,所述候选触发词抽取模块对中医针灸事件触发词表的扩展方法为:

1)将同义词词林中词语编码前四级相同,且第八位标记为“=”的词语进行聚类,构造词语→编码映射、编码→同义词词语的集合映射;

2)处理所述训练集中的分词摘要文本集,收集其中的动词和名词,构造动词与名词词语集合;

3)依次处理中医针灸事件的初始触发词表中的每个触发词wi,将wi映射到与其编码相同的同义词集合,并利用动词与名词词语集合过滤该同义词集合中非动词与非名词性的词语;

4)将过滤后的同义词集合中的词语加入到待扩充的事件触发词表中,并将这些词语的事件类型、权重值设置为与触发词wi相同;

5)转所述第3)步,直至初始触发词表中的触发词处理完毕;

6)将待扩充的事件触发词表与初始触发词表合并,获得中医针灸事件触发词扩展表。

进一步的,所述候选触发词抽取模块对候选针灸事件的触发词进行抽取的方法如下:

1)对测试语料分句,逐句提取人工标注的触发词及其类型,构建测试语料中针灸事件触发词标准集,并统计各类标准触发词计数;

2)逐句逐词检查未标注测试摘要文本集中的词语是否存在于中医针灸事件触发词扩展表中,若存在且权重大于设定的阈值,则判定该词语为候选针灸事件触发词,并通过查表确定该触发词的类型;

3)将该触发词及其类型加入候选针灸事件触发词集合,并增加相应类别的识别触发词计数;

4)将识别触发词及其类型与标准触发词及其类型比对,判断识别的正确与否,若正确,则增加相应类别的正确识别触发词计数;

5)转第2)步,直至测试语料处理完毕。

进一步的,所述触发词过滤模块采用的触发词过滤规则包括:

规则1:针对候选针灸事件触发词集中的<cure>类别的触发词,若其左右近邻不存在集合{<disease>、<method>}类别的命名实体,则丢弃该触发词;

规则2:针对候选针灸事件触发词集中的<health>类别的触发词,若其左右近邻不存在集合{<health>、<method>、<disease>}类别的命名实体,则丢弃该触发词。

本发明具有如下优点:与本发明相近的现有技术是对英文生物医学文献或中文通用领域文献的事件触发词抽取技术的研究。目前,对于在中医针灸领域文献中抽取针灸事件触发词的关键技术研究还是空白。中医针灸文献作为针灸医学领域成果展示和学术交流的主要载体,其内容组织和知识表达与英文生物医学文献以及中文通用领域文献都具有很大的差异性。本发明技术方案针对中医针灸领域文献的特点,构建中医针灸领域事件触发词抽取模型,该模型较好地完成了在中医针灸领域文本集中自动识别中医针灸领域文本的句子是否含有某类中医针灸事件触发词,即自动检测中医针灸领域文本的句子是否为中医针灸事件表述语句,并正确分类中医针灸事件表述语句,治疗事件与保健事件触发词识别的p、r、f-值分别达到了81.29%、96.58%、88.28%和25.00%、53.85%、34.15%。本发明填补了中医针灸领域事件触发词抽取技术的空白,对中医针灸领域知识网络的构建、疾病治疗、中医保健、中药研制以及加快中医针灸标准化、现代化、国际化进程均具有重要的意义。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明方法执行流程图。

图2为本发明系统各模块的执行流程示意图。

具体实施方式

如图1所示,本发明的中医针灸领域事件触发词的自动抽取方法,包括:

步骤s1、由人工预定义中医针灸事件模板;

步骤s2、由人工根据预定义的中医针灸事件模板构建中医针灸事件的标注语料库;该标注语料库包括训练集和测试集,其中,训练集用于构建所述初始触发词表,测试集用于测试评估所述触发词自动抽取模型;

步骤s3、设计初始触发词表构建法,用于根据所述标注语料库构建中医针灸事件的初始触发词表;

步骤s4、设计触发词扩展算法,用以对所述初始触发词表进行扩展,得到中医针灸事件的触发词扩展表;

步骤s5、设计候选触发词抽取算法,用以基于所述中医针灸事件触发词扩展表对候选针灸事件的触发词进行抽取;

步骤s6、设计触发词过滤规则,用以通过触发词过滤规则集对候选针灸事件的触发词进行过滤;

步骤s7、将所述初始触发词表构建法、触发词扩展算法、候选触发词抽取算法以及触发词过滤规则构建为触发词自动抽取模型,从而实现中医针灸领域事件触发词的自动抽取。

步骤s8、在所述测试集上对所述触发词自动抽取模型采用准确率p、召回率r和f-值三个通用的测评指标进行评价,测评指标的具体定义如下公式所示:

其中,所述步骤s1是通过对中医针灸领域文本的分析,同时借鉴ace语料库中文通用领域事件的定义以及中文事件的标注方法,预定义了治疗事件模板和保健事件模板,所述治疗事件模板和保健事件模板即构成所述中医针灸事件模板。中医针灸领域事件及其标注示例如表1所示:

表1中医针灸领域事件及其标注示例

所述步骤s2中医针灸领域事件的标注语料库的构建步骤:

(1)从网站上爬取一定时期发表的中医针灸领域文献的摘要信息,如从网站http://www.cqvip.com/上爬取《针灸临床杂志》期刊2009至2013年发表的中医针灸领域文献的摘要信息共有4.2m;

(2)从爬取的摘要信息中随机选取多篇文献;如.从爬取的摘要信息中随机选取561篇;

(3)按照预定义的中医针灸事件模板及其标注格式逐篇逐句进行人工标注,分别构建训练集和测试集,形成所述标注语料库。

所述步骤s3的初始中医针灸事件触发词表的构建过程是:分析所述训练集,逐篇逐句收集人工标注的中医针灸事件触发词及其类别,在训练语料范围内统计每个触发词触发事件的个数、触发词出现在句子中的个数、各种事件类型出现的个数以及句子总数的信息,并利用这些统计量计算各个事件触发词的权重,从而构建的初始中医针灸事件触发词表;

所述事件触发词的权重的计算公式为:scorei=tf(wi)*idf(wi)(1);

其中,tf为词频,表示某个触发词wi对该触发词所属事件类别的贡献程度,idf为逆向文件频率,表示触发词wi在训练语料中出现的频度;

tf的计算公式为:tf(wi)=ni/mi(2);其中,ni为触发词wi在所有训练语料中触发的某类事件的个数,mi为训练语料中该类事件的总个数;

idf的计算公式为:其中,ni为训练语料中句子总数,mi为训练语料中含有触发词wi的句子数。得到初始中医针灸事件触发词表,表例如下:

表2初始中医针灸事件触发词表

所述中医针灸事件触发词表扩展方法为:

由于人工标注的训练语料规模有限,初始触发词表收集的种子触发词无法覆盖到中医针灸事件触发词全集。一些重要的触发词没有被收集到原始触发词表中,这直接造成了在测试语料中识别事件时新事件的丢失。为了使触发词表尽可能多的覆盖各种类型事件的触发词,本发明使用哈工大信息检索研究室的《同义词词林(扩展版)》对初始触发词表进行了扩展。具体是:

1)将同义词词林中词语编码前四级相同,且第八位标记为“=”的词语进行聚类,构造词语→编码映射、编码→同义词词语的集合映射;

2)处理所述训练集中的分词摘要文本集,收集其中的动词和名词,构造动词与名词词语集合(verbandnonset);

3)依次处理所述初始触发词表中的每个触发词wi,将wi映射到与其编码相同的同义词集合,并利用动词与名词词语集合(verbandnonset)过滤该同义词集合中非动词与非名词性的词语(注:触发词的词性一般为名词、动词);

4)将过滤后的同义词集合中的词语加入到待扩充的事件触发词表中,并将这些词语的事件类型、权重值设置为与触发词wi相同;

5)转至所述第3)步,直至初始触发词表中的触发词处理完毕;

6)将待扩充的事件触发词表与初始触发词表合并,获得中医针灸事件的触发词扩展表。

所述步骤s5中对触发词进行抽取的方法是利用中医针灸事件触发词扩展表判定测试语料集中的词语是否为中医针灸事件触发词,并确定其类型,具体如下:

1)对所述测试集中的测试语料进行分句,逐句提取人工标注的触发词及其类型,构建测试语料中针灸事件触发词标准集,并统计各类标准触发词计数;

2)逐句逐词检查未标注测试摘要文本集中的词语是否存在于中医针灸事件触发词扩展表中,若存在且权重大于设定的阈值,则判定该词语为候选针灸事件触发词,并通过查表确定该触发词的类型;

3)将该触发词及其类型加入候选针灸事件触发词集合,并增加相应类别的识别触发词计数;

4)将识别触发词及其类型与标准触发词及其类型比对,判断识别的正确与否,若正确,则增加相应类别的正确识别触发词计数;

5)转到第2)步,直至测试语料处理完毕;

6)计算各类针灸事件触发词识别的p、r、f-值。

由于基于触发词表的触发词抽取方法是一种典型的经验方法,有较高的召回率,但精确率较低。本发明为了提高中医针灸事件触发词识别的精确率,通过对候选针灸事件触发词集中误识触发词进行分析统计,总结出如下2条触发词过滤规则:

规则1:针对候选针灸事件触发词集中的<cure>类别的触发词,若其左右近邻不存在集合{<disease>、<method>}类别的命名实体,则丢弃该触发词;

规则2:针对候选针灸事件触发词集中的<health>类别的触发词,若其左右近邻不存在集合{<health>、<method>、<disease>}类别的命名实体,则丢弃该触发词。

基于本发明上述方法,本发明还提供一种中医针灸领域事件触发词的自动抽取系统,如图2所示,包括:

语料预处理模块,用于对预先构建好的标注语料库进行预处理,包括噪声消除、分词、词性标注;其中,所述标注语料库是人工根据预定义的中医针灸事件模板进行构建所得;

候选触发词抽取模块,用于根据所述标注语料库构建中医针灸事件的初始触发词表;再对所述初始触发词表进行扩展,得到中医针灸事件的触发词扩展表;然后基于所述中医针灸事件触发词扩展表对候选针灸事件的触发词进行抽取;

触发词过滤模块,用于通过触发词过滤规则集对候选针灸事件的触发词进行过滤。

其中,所述标注语料库包括训练集和测试集,其中,训练集用于构建所述初始触发词表,测试集用于测试评估所述触发词自动抽取模型;在一具体的实施例中,从人工标注针灸事件的摘要文本集中随机选择481篇做为中医针灸事件触发词识别模型的训练集、剩余的80篇为测试集。

所述语料预处理模块分别对训练集和测试集进行预处理;

所述候选触发词抽取模块是根据所述训练集中人工标注的触发词构建中医针灸事件的初始触发词表,同时还抽取所述测试集中人工标注的触发词,构造触发词标准答案集;并将基于所述中医针灸事件触发词扩展表对测试集中候选针灸事件触发词进行抽取,抽取结果与触发词标准答案集进行比较评估,得到评估结果。

所述比较评估是采用准确率p、召回率r和f值三个通用的测评指标进行,该三个通用的测评指标的具体定义如下公式所示:

触发词权重阈值参数将根据实验效果调整设定,本发明实施例中权重阈值取值为0.1。

所述候选触发词抽取模块构建中医针灸事件的初始触发词表的过程是:分析所述训练集,逐篇逐句收集人工标注的中医针灸事件触发词及其类别,在训练语料范围内统计每个触发词触发事件的个数、触发词出现在句子中的个数、各种事件类型出现的总个数以及句子总数的信息,并利用这些统计量计算各个事件触发词的权重,从而构建的初始中医针灸事件触发词表:

所述事件触发词的权重的计算公式为:scorei=tf(wi)*idf(wi)(1);

其中,tf为词频,表示某个触发词wi对该触发词所属事件类别的贡献程度,idf为逆向文件频率,表示触发词wi在训练语料中出现的频度;

tf的计算公式为:tf(wi)=ni/mi(2);其中,ni为触发词wi在所有训练语料中触发的某类事件的个数,mi为训练语料中该类事件的总个数;

idf的计算公式为:其中,ni为训练语料中句子总数,mi为训练语料中含有触发词wi的句子数。

所述候选触发词抽取模块对中医针灸事件触发词表的扩展方法为:

1)将同义词词林中词语编码前四级相同,且第八位标记为“=”的词语进行聚类,构造词语→编码映射、编码→同义词词语的集合映射;

2)处理所述训练集中分词摘要文本集,收集其中的动词和名词,构造动词与名词词语集合;

3)依次处理中医针灸事件的初始触发词表中的每个触发词wi,将wi映射到与其编码相同的同义词集合,并利用动词与名词词语集合过滤该同义词集合中非动词与非名词性的词语;

4)将过滤后的同义词集合中的词语加入到待扩充的事件触发词表中,并将这些词语的事件类型、权重值设置为与触发词wi相同;

5)转所述第3)步,直至初始触发词表中的触发词处理完毕;

6)将待扩充的事件触发词表与初始触发词表合并,获得中医针灸事件触发词扩展表。

所述候选触发词抽取模块对候选针灸事件的触发词进行抽取的方法如下:

1)对测试语料分句,逐句提取人工标注的触发词及其类型,构建测试语料中针灸事件触发词标准集,并统计各类标准触发词计数;

2)逐句逐词检查未标注测试摘要文本集中的词语是否存在于中医针灸事件触发词扩展表中,若存在且权重大于设定的阈值,则判定该词语为候选针灸事件触发词,并通过查表确定该触发词的类型;

3)将该触发词及其类型加入候选针灸事件触发词集合,并增加相应类别的识别触发词计数;

4)将识别触发词及其类型与标准触发词及其类型比对,判断识别的正确与否,若正确,则增加相应类别的正确识别触发词计数;

5)转第2)步,直至测试语料处理完毕。

所述触发词过滤模块采用的触发词过滤规则包括:

规则1:针对候选针灸事件触发词集中的<cure>类别的触发词,若其左右近邻不存在集合{<disease>、<method>}类别的命名实体,则丢弃该触发词;

规则2:针对候选针灸事件触发词集中的<health>类别的触发词,若其左右近邻不存在集合{<health>、<method>、<disease>}类别的命名实体,则丢弃该触发词。

虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1