命名实体的识别方法_2

文档序号:8258499阅读:来源:国知局
语句)得到充分的分析,从而使得确定的命名实体识别结果更为精确。并且可以通过对不 同领域的命名实体识别词典进行多级的划分,实现更为精确的识别。如可以将命名实体识 别词典分为自然科学和社会科学,还可以将命名实体识别词典的自然科学种类分为生物、 电学、化学等。通过多级别的分类能够在可以使用更小分类的时候,对待识别词语单位进行 精确的命名实体识别,但某些情况下,细小的分类反而对精确识别带来副作用,如某些领域 的文章就是跨领域的,因此在确认记载有待识别词语单位的参考命名词典的时候,可以根 据待识别词语单位在某个词典中的出现概率来确定是否使用这个领域的词典(或者说是 某个具体的词典)作为"记载有待识别词语单位的参考命名词典"。具体如出现"待识别词 语单位"超过2次的词典,才能够作为"记载有待识别词语单位的参考命名词典"。除了根 据出现次数来确定某个词典是否作为"记载有待识别词语单位的参考命名词典",还可以根 据出现的次数比作为依据。如某个"待识别词语单位"在预先获取的待分词语句,或者是预 先获取的带分词文章中出现了 10词,但其他需要识别的待分词语句则出现了上千次,那么 由于二者的比例悬殊,因此可以主要以出现次数较多的参考命名词典作为"记载有待识别 词语单位的参考命名词典"。
[0047] 步骤S103中,根据待识别词语单位的词性、语言结构和待识别词语单元在不同种 类参考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果,也就是通 过词性、语言结构,在预设的对应表(可以理解为参考命名词典中的对应表)中查找与词 性、语言结构相符合的命名实体,进而,基于能够准确的确定待识别词语单位所对应的参考 命名词典(记载有待识别词语单位的参考命名词典)能够确定出来准确的命名实体识别结 果。
[0048] 具体的,步骤S101,所述对预先获取的待分词语句进行分词,以确定一个或多个待 识别词语单位还包括:
[0049] 根据预先获取的通用分词模型对预先获取的语句进行分词,以确定粗略分词结 果;
[0050] 使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语 单位,所述专有分词词典包括与所述待分词语句相对应的标准领域分词词典和词频分词词 典。
[0051] 其中,通用分词模型是指相关技术中通常使用的分词模型,但使用通常的分词模 型没有针对性,因此,会造成一定程度上的不准确,例如某些语句中存在的词语,可以是使 用不同的划分方式进行划分的,如"放风筝",本身作为动词+名词使用,但某些情况下(某 电影名也是"放风筝")则需要作为一个名词来使用,此时则会造成分词的结果产生不准确 的情况。由此可以通过使用词频分词词典来进一步纠正使用通用分词模型分词得到的结 果。
[0052] 词频词典,是根据大规模的语料(句子分词结果)统计出来的词语的频次比如:
[0053] 1234风筝;
[0054] 233放风;
[0055] 表示在我们的语料中出现风筝的次数是1234次,出现放风是233次,当分词结果 是"放-风-筝"时,我们发现"放风"和"风筝"都是一个正确的词,这时候我们利用"风筝" 的词频大于放风的,确定最后的分词结果"放_风筝",而最后"放风筝"是一个电影名称,是 命名实体识别的结果。
[0056] 具体的,使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待 识别词语单位包括:
[0057] 按照词频分词词典中不同词语的出现概率,对所述粗略分词结果进行纠正;
[0058] 根据所述标准领域分词词典,选择多种所述待确认分词方式中的一种方式作为所 述待识别词语单位。
[0059] 也就是可以根据词频分词磁电中不同词语的出现情况,选择出现频率较高的分词 方式来对语句进行划分。并且可以通过第三方提供的标准领域分词词典来进一步进行更为 精准的矫正。需要说明的是,标准领域分词词典通常是使用者提供的,当使用者所处的领域 较为独特的时候,该领域的专有名词是无法以词频分词词典和通用分词词典进行分词,使 用普通的词典要么无法分解出足够的待识别词语单位,要么分出来的待识别词语单位是错 误的。如"在油检测",使用通常的词典是无法识别在油这两个字的,只能将"在"和"油"分 开来区分,但实际上,在仪器测试领域,"在油检测"是一个常用词汇,其表达了在某种具体 的工作环境下进行的检测,因此此时,如果使用者不提供这种专有名词的解析和分词方式, 使用普通的方式进行分词,是难以得到精准的分词结果的。
[0060] 需要说明的是,通常,标准领域分词词典的容量较小,由于专有名词的数量是较少 的,因此可以在分词的最后进行校验即可,如果首先使用标准领域分词词典进行分词的话, 很多语句是无法进行正常的分词的。使用标准领域分词词典的时候可以是针对使用普通分 词词典(词频分词词典和通用分词模型)无法分解的长短语进行的,或者是联系上下文无 法解释同的词语进行的,如两个名词连续出现,如只有形容词出现,也就是可以在语句缺少 必要组成部分的时候考虑使用标准领域分词词典,以进一步提高准确性。
[0061] 下面列举分别一种常用的分词方式和词性标注方式。也就是所述确认指定的待识 别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典包括:
[0062] 863词性标注集,是北京大学的一种词性标注的规范,一种对词性的具体分类以及 对应的表不,如下表:
[0063]
【主权项】
1. 命名实体的识别方法,其特征在于,包括: 对预先获取的待分词语句进行分词,W确定一个或多个待识别词语单位; 确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词 典; 根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命 名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果。
2. 根据权利要求1所述的命名实体的识别方法,其特征在于,所述对预先获取的待分 词语句进行分词,W确定一个或多个待识别词语单位还包括: 根据预先获取的通用分词模型对预先获取的语句进行分词,W确定粗略分词结果; 使用专有分词词典对所述粗滤分词结果进行纠正,W确定一个或多个待识别词语单 位,所述专有分词词典包括与所述待分词语句相对应的标准领域分词词典和词频分词词 典。
3. 根据权利要求2所述的命名实体的识别方法,其特征在于, 所述使用专有分词词典对所述粗滤分词结果进行纠正,W确定一个或多个待识别词语 单位包括: 按照词频分词词典中不同词语的出现概率,对所述粗略分词结果进行纠正; 根据所述标准领域分词词典,选择多种所述待确认分词方式中的一种方式作为所述待 识别词语单位。
4. 根据权利要求1所述的命名实体的识别方法,其特征在于,所述确认指定的待识别 词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典包括: 根据863词性标注集,确定所述待识别词语单位的词性; 和/或 使用6标签的方式标识指定字在当前所述待识别词语单位中的位置,W确定待识别词 语单位的语言结构。
5. 根据权利要求1所述的命名实体的识别方法,其特征在于,所述确认指定的待识别 词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典还包括: 获取不同领域的参考命名词典; 分别在每个所述参考命名词典中查找所述待识别词语单位,W确定记载有待识别词语 单位的参考命名词典。
6. 根据权利要求5所述的命名实体的识别方法,其特征在于,还包括: 分别为每个所述参考命名词典赋予不同的数值,且第一组中全部参考命名词典的数值 总和不等于第二组中全部参考命名词典的数值总和,其中,所述第一组和第二组中均分别 包括有至少一个参考命名词典,且第一组中至少存在一个未在第二组中出现的参考命名词 典; 分别确定每个待识别词语单位的词典数值,所述词典数值是出现有同一指定待识别词 语单位的参考命名词典的数值总和; 根据待识别词语单位的词典数值确认待识别词语单元在不同种类参考命名词典中的 出现情况。
7. 根据权利要求6所述的命名实体的识别方法,其特征在于,还包括: 使用不同位数的识别数字,分别为每个所述参考命名词典赋予不同的数值,且识别数 字只有首位为非零数字。
8. 根据权利要求1所述的命名实体的识别方法,其特征在于, 所述根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参 考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果包括: 根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命 名词典中的出现情况,在预设的对应列表中查询每个待识别词语单元所对应的命名实体识 别结果。
9. 根据权利要求8所述的命名实体的识别方法,其特征在于,还包括:若所述对应列表 中不存在与识别困难的待识别词语单元相对应命名实体识别结果,则在记载有待识别词语 单位的参考命名词典中,查找与识别困难的待识别词语单元的词性和语言结构相同的参考 词语; 若查找到与识别困难的待识别词语单元的词性和语言结构相同的参考词语,则根据所 述对应列表中查找所述参考词语的命名实体识别结果; 将所述参考词语的命名实体识别结果作为识别困难的待识别词语单元的命名实体识 别结果。
10. 根据权利要求9所述的命名实体的识别方法,其特征在于,还包括;将识别困难的 待识别词语单元与对应的命名实体识别结果添加入预设的对应列表中。
【专利摘要】本发明提供了命名实体的识别方法,涉及语言识别领域。本发明实施例提供的命名实体的识别方法,采用复合识别的方式,其通过先对每个语句进行分词处理,再在分词的结果基础上(得出待识别词语单位),确认每个待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考命名词典中的出现情况,并且进一步根据参考命名词典中不同待识别词语单元的出现情况(主要是待识别词语单元在哪种参考命名词典中出现了)和词性、语言结构来精确的确认命名实体识别结果,由于为每个待识别词语单位匹配了相对应的参考命名词典,由此,可以根据参考命名词典对待识别词语单位进行更为精确的命名实体识别。
【IPC分类】G06F17-27
【公开号】CN104572625
【申请号】CN201510030187
【发明人】孙孝雄
【申请人】北京云知声信息技术有限公司
【公开日】2015年4月29日
【申请日】2015年1月21日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1