命名实体的识别方法

文档序号:8258499阅读:600来源:国知局
命名实体的识别方法
【技术领域】
[0001] 本发明涉及语言识别领域,具体而言,涉及命名实体的识别方法。
【背景技术】
[0002] 命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web (语 义网,其是一个由全球信息网联盟的蒂姆?伯纳斯-李(Tim Berners-Lee)在1998年提出 的一个概念,它的核心是:通过给全球信息网上的文档(如:标准通用标记语言下的一个应 用HTML)添加能够被计算器所理解的语义"元数据(Meta data)",从而使整个互联网成为 一个通用的信息交换媒介)的元数据标注等应用领域的重要基础工具,在自然语言处理技 术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理 文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和 百分比)命名实体。
[0003] 在实际应用中我们往往需要更多的命名实体类别,比如音乐、视频、产品名称等 等,但现有技术中,使用一个模型,或者是少量模型进行识别的方法通常是无法给出识别结 果,或者是识别结果的精度较低。

【发明内容】

[0004] 有鉴于此,本发明实施例的目的在于提供命名实体的识别方法,以提高命名实体 识别的精度。
[0005] 第一方面,本发明实施例提供了命名实体的识别方法,包括:
[0006] 对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位;
[0007] 确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命 名词典;
[0008] 根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参 考命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果。
[0009] 结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所 述对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位还包括:
[0010] 根据预先获取的通用分词模型对预先获取的语句进行分词,以确定粗略分词结 果;
[0011] 使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语 单位,所述专有分词词典包括与所述待分词语句相对应的标准领域分词词典和词频分词词 典。
[0012] 结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所 述使用专有分词词典对所述粗滤分词结果进行纠正,以确定一个或多个待识别词语单位包 括:
[0013] 按照词频分词词典中不同词语的出现概率,对所述粗略分词结果进行纠正;
[0014] 根据所述标准领域分词词典,选择多种所述待确认分词方式中的一种方式作为所 述待识别词语单位。
[0015] 结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所 述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典 包括:
[0016] 根据863词性标注集,确定所述待识别词语单位的词性;
[0017] 和/或
[0018] 使用6标签的方式标识指定字在当前所述待识别词语单位中的位置,以确定待识 别词语单位的语言结构。
[0019] 结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所 述确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的参考命名词典 还包括:
[0020] 获取不同领域的参考命名词典;
[0021] 分别在每个所述参考命名词典中查找所述待识别词语单位,以确定记载有待识别 词语单位的参考命名词典。
[0022] 结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,还 包括:
[0023] 分别为每个所述参考命名词典赋予不同的数值,且第一组中全部参考命名词典的 数值总和不等于第二组中全部参考命名词典的数值总和,其中,所述第一组和第二组中均 分别包括有至少一个参考命名词典,且第一组中至少存在一个未在第二组中出现的参考命 名词典;
[0024] 分别确定每个待识别词语单位的词典数值,所述词典数值是出现有同一指定待识 别词语单位的参考命名词典的数值总和;
[0025] 根据待识别词语单位的词典数值确认待识别词语单元在不同种类参考命名词典 中的出现情况。
[0026] 结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,还 包括:
[0027] 使用不同位数的数字,分别为每个所述参考命名词典赋予不同的数值。
[0028] 结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所 述根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参考命名 词典中的出现情况,确定每个待识别词语单位的命名实体识别结果包括:
[0029] 根据所述待识别词语单位的词性、语言结构和所述待识别词语单元在不同种类参 考命名词典中的出现情况,在预设的对应列表中查询每个待识别词语单元所对应的命名实 体识别结果。
[0030] 结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,还 包括:若所述对应列表中不存在与识别困难的待识别词语单元相对应命名实体识别结果, 则在记载有待识别词语单位的参考命名词典中,查找与识别困难的待识别词语单元的词性 和语言结构相同的参考词语;
[0031] 若查找到与识别困难的待识别词语单元的词性和语言结构相同的参考词语,则根 据所述对应列表中查找所述参考词语的命名实体识别结果;
[0032] 将所述参考词语的命名实体识别结果作为识别困难的待识别词语单元的命名实 体识别结果。
[0033] 结合第一方面,本发明实施例提供了第一方面的第九种可能的实施方式,其中,还 包括:将识别困难的待识别词语单元与对应的命名实体识别结果添加入预设的对应列表 中。
[0034] 本发明实施例提供的命名实体的识别方法,采用复合识别的方式,与现有技术中 的识别结果精度较低相比,其通过先对每个语句进行分词处理,再在分词的结果基础上 (得出待识别词语单位),确认每个待识别词语单位的词性、语言结构和待识别词语单元在 不同种类参考命名词典中的出现情况,并且进一步根据参考命名词典中不同待识别词语单 元的出现情况(主要是待识别词语单元在哪种参考命名词典中出现了)和词性、语言结构 来精确的确认命名实体识别结果,由于为每个待识别词语单位匹配了相对应的参考命名词 典,由此,可以根据参考命名词典对待识别词语单位进行更为精确的命名实体识别。
[0035] 为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合 所附附图,作详细说明如下。
【附图说明】
[0036] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。
[0037] 图1示出了本发明实施例所提供的命名实体的识别方法的基本流程图;
[0038] 图2示出了本发明实施例所提供的命名实体的识别方法的细节流程图。
【具体实施方式】
[0039] 下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在 此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因 此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的 范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做 出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040] 本发明实施例提供了命名实体的识别方法,如图1所示,包括如下步骤:
[0041]S101,对预先获取的待分词语句进行分词,以确定一个或多个待识别词语单位;
[0042]S102,确认指定的待识别词语单位的词性、语言结构和记载有待识别词语单位的 参考命名词典;
[0043]S103,根据待识别词语单位的词性、语言结构和待识别词语单元在不同种类参考 命名词典中的出现情况,确定每个待识别词语单位的命名实体识别结果。
[0044] 对语句,或者文章进行命名实体识别的目的是:通过预先对语句或者其他语言单 位中的词语进行标签设置的基础上,在需要快速确定有效信息的时候,能够根据标签进行 搜索,以高效的提取出对自身有用的信息。具体使用时,由于使用者在不同的情况下,或者 是不同领域的使用者所关注的词语不同,因此可以通过设置标签的方式来快速的帮助使用 者(即使是不同领域的使用者)快速抓取出某句话中的主要信息,或者需要关注的信息。
[0045] 在进行命名实体识别之前,需要先进行分词,以确定命名基础。分词的作用是将一 句话中的多个字有效的划分为一个或多个词,具体分词的方式较多,可以使用现有技术中 的分词方式对句子进行相应的分词处理。也就是执行步骤S101,对预先获取的待分词语句 进行分词,以确定一个或多个待识别词语单位。待识别词语单位也就是已经分好的词。
[0046] 步骤S102中,需要确定每个待识别词语单位的词性、语言结构和记载有待识别词 语单位的参考命名词典。其中,需要进行词性、语言结构和参考命名词典确认的词是使用者 需要进行命名实体识别的词,并不一定是整句话中的每个词。语言结构指的是一个词中每 个字的顺序位置,如可以使用B表示词的开始,E表示词的结尾,M表示词的中间,B1、B2为 当词大于三个字的时候表计在首个字之后的两个字。具体的标注形式有很多,再此不一一 列举,此部分的目的是将词语的中的结构进行明确和细分,以便于在最终进行命名实体识 别的时候能够起到更为精确的辅助作用。步骤S102中的重要部分是确定记载有待识别词 语单位的参考命名词典,参考命名词典可以理解为命名实体识别词典,通常,参考命名词典 可以是预先准备多个,且这些参考命名词典均是不同领域的,或者是同一领域中收集了不 同方面的词语。通过使用不同类别的参考命名词典,能够使一个句子(预先获取的待分词
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1