一种基于自学习规则的项目名实体识别方法及系统的制作方法

文档序号:9249218阅读:507来源:国知局
一种基于自学习规则的项目名实体识别方法及系统的制作方法
【技术领域】
[0001] 本发明设及文本处理、自然语言处理等领域,具体设及一种基于自学习规则的项 目名实体识别方法及系统。
【背景技术】
[0002] 命名实体识别是自然语言处理的基本问题。在自然语言处理中,命名实体主要包 括实体名,如国家名、组织机构名、地名、人名、缩写词,W及一些数字表达式,如货币值、百 分数、时间表达式等。
[0003]由于英文命名实体的识别只需考虑词本身的特征而不设及分词问题,因此实现难 度相对较低。根据MUC化及ACE的评测结果,英文命名实体识别的准确率、召回率、F1值目 前大多可W达到90%左右。中文命名实体识别起步较晚。20世纪90年代初期开始,国内 一些学者对中文命名实体(如地名、人名、组织机构名等)识别进行了一些研究。例如,孙 茂松等在国内比较早地开始进行中文人名识别,他们主要采用统计的方法计算姓氏和人名 用字概率;张小衡等对中文机构名称进行识别与分析,主要采用人工规则对高校名进行了 实验研究;Intel中国研究中屯、的化ang等在ACL2000上演示了他们开发的一个抽取中文 命名实体W及该些实体间相互关系的信息抽取系统,该系统利用基于记忆的学习(Memory BasedLearning,MBL)算法获取规则,用W抽取命名实体及它们之间的关系。虽然目前在人 名、地名、机构名的识别上有了较好的效果,但是对与特定种类的命名实体识别,目前的研 究仍然处于空白阶段。
[0004]经典的命名实体识别的算法有隐式马尔科夫、条件随机场、极大滴模型等统计方 法。对于传统的统计方法,无法保证所有的命名实体全部被找回检测。
[0005]为了实现科技类信息的信息抽取,发展更高准确率及召回率的命名实体识别技术 十分必要。

【发明内容】

[0006]本发明提供了一种基于自学习规则的项目名实体识别方法及系统,W词性黑名单 和关键词白名单作为规则,并且词性黑名单和关键词白名单的构造完全无需人的参与,可 W从训练集中自动学习出来。本发明可W作为传统识别方法的补充,进而可W在原有的基 础上提高准确率和召回率。
[0007]为了实现上述目的,本发明采用W下技术方案:
[000引一种基于自学习规则的项目名实体识别方法,包括W下步骤:
[0009] 1)采取多个项目名作为训练集产生词性黑名单和特征词白名单;
[0010] 2)基于上下文提示信息对待识别文本进行切分;
[0011] 3)基于词性黑名单对步骤2)切分后的待识别文本进行截断;
[001引 4)在步骤如处理后的待识别文本中,基于特征词白名单确认项目名,获得最终的 识别结果。
[0013] 进一步地,所述词性黑名单是从计算所汉语词性标记集规定的词性中去掉所有的 项目名包含的词性得到的。
[0014] 进一步地,所述特征词白名单是对项目名集合进行词性标注时,得到的使所有项 目名都包含有特征词集合中的特征词的最小特征词集合。
[0015] 进一步地,一个特征词包含在科技项目名中,则称该特征词覆盖项目名,如果特征 词集合中所有的特征词可W覆盖所有的项目名,则称该集合对项目名全覆盖。
[0016] 进一步地,上述最小特征词集合通过W下方法得到:
[0017] 对训练集中的项目名进行分词,得到所有的词性集合,求得词性中对项目名集合 的一个最小覆盖集,该集合定义为最小特征词集合。
[001引进一步地,步骤2)中,W正则表达式的形式,检测项目名的上下文提示信息,将待 识别文本中正则表达式命中的句子进行切分。
[0019] 一种基于自学习规则的项目名实体识别系统,包括:
[0020] 语料训练模块,用于对项目名进行训练获得词性黑名单和特征词白名单;
[0021] 文本输入单元,用于输入待识别文本;
[0022] 文本切分单元,用于根据上下文提示信息对待识别文本进行切分;
[0023] 文本截断单元,用于根据词性黑名单对文本切分单元切分后的待识别文本进行截 断;
[0024] 文本确认单元,用于根据特征词白名单对文本截断单元得到的项目名进行确认, 获得最终的识别结果。
[0025] 进一步地,所述文本切分单元基于正则表达式检测上下文提示信息,对命中的句 子进行切分。
[0026] 本发明的有益效果如下;
[0027] 本发明W词性黑名单和关键词白名单作为规则,并且词性黑名单和关键词白名单 的构造完全无需人的参与,可W从训练集中自动学习出来。
[002引本发明可W作为传统识别方法的补充,进而可W在原有的基础上提高准确率和召 回率。利用本发明的方法我们在1500组测试语料上获得了 94. 78%准确率,89. 19%的召 回率和91.9%的F1值。
【附图说明】
[0029] 图1是本发明基于自学习规则的项目名实体识别方法的整体流程图。
[0030] 图2是显示特征词的分布频率示意图。
[0031] 图3是本发明?操作示意图。
[0032] 图4是随k值增大,特征词覆盖项目名增益变化趋势图。
[0033] 图5是本发明基于自学习规则的项目名实体识别系统的框架图。
【具体实施方式】
[0034] 下面结合附图对本发明进行进一步详细描述。
[0035] 本发明基于自学习规则的项目名实体识别方法的整体流程如图1所示,现对其中 的关键步骤详细说明如下:
[0036] 1、基于上下文提示信息的切分
[0037] 通过上下文的提示信息,我们可W获取内在的提示信息,我们使用常见的提示信 息,W正则表达式的形式,来检测项目名的外在的提示信息,作为项目名称检测的上下文 条件。对于正则表达式命中的内容,我们将命中的句子进行切分,W…获得了…奖为例,对 了.〇 〇
[003引"XXX"项目获得了国家科技进步一等奖
[0039] "YYY"项目被授予国家自然科学奖二等奖
[0040] "ZZZ"项目达到了世界先进水平
[0041] W-段话为例,"2013年1月18日,中共中央、国务院在北京人民大会堂隆重举行 了国家科学技术奖励大会,胡锦涛、习近平、温家宝、李克强、刘云山等觉和国家领导人出席 大会并为2012年度获奖代表进行颁奖。2012年度国家科技奖励授奖项目330项,其中科技 进步奖212项,包括特等奖3项,一等奖22项,二等奖187项。中国抗癌协会推荐的《肿瘤 血管生成机制及其在抗血管生成治疗中的应用》项目荣获国家科技进步一等奖,项目负责 人卞修武教授上台接受了中央领导的颁奖。"。该段话中,"中国抗癌协会推荐的《肿瘤血管 生成机制及其在抗血管生成治疗中的应用》项目荣获国家科技进步一等奖"首先匹配正则 表达式规则荣获…奖",然后,对该句话中,删除掉"荣获国家科技进步一等奖。",该样, 就剔除掉了一部分无关信息。
[0042] 2、基于词性黑名单的文本切分
[0043] 在科技项目名中,有部分的词性在项目名中永远不会出现。在计算所汉语词性标 记集规定的96种词性中,有35种词性从未出现在项目名训练语料中。将词性黑名单来作 为上一步语料处理的切分,使得到的切分结果尽可能与真实的结果相接近。
[0044] 例如对上一步的输出的"2013年1月18日,中共中央、国务院在北京人民大会堂 隆重举行了国家科学技术奖励大会,胡锦涛、习近平、温家宝、李克强、刘云山等觉和国家领 导人出席大会并为2012年度获奖代表进行颁奖。2012年度国家科技奖励授奖项目330项, 其中科技进步奖212项,包括特等奖3项,一等奖22项,二等奖187项。中国抗癌协会推荐 的《肿瘤血管生成机制及其在抗血管生成治疗中的应用》项目,项目负责人卞修武教授上台 接受了中央领导的颁奖。",根据词性黑名单切分的结果,我们得到W下几个子字符串"中共 中央、国务院在北京人民大会堂隆重举行"、"国家科学技术奖励大会"、"等觉和国家领导人 出席大会并为2012年度获奖代表"、"颁奖"、"2012年度国家科技奖励授奖项目330项"、"科 技进步奖212项,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1