一种基于文档类型的实体识别合作学习算法

文档序号:9261604阅读:374来源:国知局
一种基于文档类型的实体识别合作学习算法
【技术领域】
[0001] 本发明属于计算机领域,更具体地设及一种基于文档类型的实体识别合作学习算 法,能很好地提高实体识别的准确率。
【背景技术】
[0002] 随着信息产业的发展,计算机网络规模日益扩大,大量的信息都W电子文档的形 式出现在人们面前。同时在各种公司企业中,大量的数据也W该种形式被积累下来。而该 些数据中的大多数潜在有用信息都是W非结构化的形式存在的。而该些大量的自由文本的 积累也为语义技术在企业级环境中的应用提出了挑战。因此,人迫切需要一些技术去处理 该些信息。实体链接技术作为一个能够将文本中提到的词链接到它在某个知识库中的实体 的技术,而越来越受关注。将非结构化的文档和某个知识库链接能够实现诸如企业及捜索, 信息抽取和文本分类等多项任务,那么该样能够为企业信息资源的管理和利用提供更大的 可能性。然而对于非结构化的文档,在进行实体连接处理之前,首先需要做的对文档进行命 名实体识别。命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机 构名、专有名词等。命名实体识别是进行实体链接一个前提工作,识别的质量会直接影响到 后续的一系列工作。
[0003] 目前比较常用的命名实体识别技术可粗略的分为两类,首先是在同一个数据集合 上训练多个算法的模型,然后将该些模型集成在一起,采用的是集成学习的模式;第二类是 当数据集足够大的时候,将该数据集切分成多个,然后在该些子数据集上运行同一个算法, 获得此算法的多个模型,然后将该些模型进行集成用于命名实体识别。虽然W上两种方法 都能够完成命名实体识别任务,但是它们在准确率上都还有所欠缺。
[0004] 2012 年,由LiJ,LiuC发表的IE邸论文"ACooperativeC〇-learningApproach 化rCone巧tDetectioninDo州ments"中,提出了一种文档中概念识别的合作学习方法。 它不仅能够完成实体识别任务,同时值得一提的是它能将大量的稀疏标记的文档用作训练 数据。其核屯、思想是;首先将所有稀疏标记的文档中抽取所有的标记实体形成一个字典,W 该字典去更新训练语料中的每一个文档,将预处理的后的训练语料分成n个子集,然后在 该n个子集上分别运行条件随机场模型,训练出n个实体识别模型。然后利用协同训练算 法,将n个模型分别在其他n-1个训练集合上运行,则对应每个训练集合都会有n-1个标记 结果集,按照一定规则选取n-1结果集中新识别的实体更新前一次迭代的所对应训练集, 用于下一次分类器的训练,如果该些更新后的训练集和对应的前一次所用的训练集的差异 性都小于或等于某个规定的值,那么则终止训练,并将训练的基础模型按照一定规则集成。 总的来说,该个方法W协同训练的方式更好地利用稀疏标记的训练语料,W集成学习的模 式实现基础模型集成。但是由于它只采用了一种学习算法,在一些情况下实体识别准确率 可能欠佳。
[0005] 2004年,由化0UY,Gol血anS.Re等发表的IE邸论文"Democraticco-learning" 中,提出了一种民主协同训练方法。该个方法实现主要讲的如何利用无标记数据作为训练 数据来训练实模型,进而来提升监督学习算法的准确率。其核屯、思想是;首先利用已标记的 数据训练多个学习器的模型,然后用该些模型对未标记的数据集进行标注,将所获得的标 记结果集中符合相应规则的标记用来更新训练数据集。然后用更新后的训练集训重新训练 学习器,重复上述步骤,直到标记结果集中没有新的标记能用来更新训练集,则停止训练, 并将所获得的模型按照相应规则进行集成。此算法采用了集成学习的模式,虽然考虑了学 习器的多样性,但是每次循环训练学习器都是用的同一数据集,没有考虑到数据集的多样 性,该是它的一个不足。
[0006] 上面介绍的已有方法虽然都针对标注问题的准确率进行了算法改进,但是他们都 只考虑了一个方面要么是考虑了数据集的多样性没有考虑算法的多样性,要么是考虑了算 法的多样性没有考虑数据集的多样性,并不能将该两个方面的需求都满足。

【发明内容】

[0007] 本发明提出了一种基于文档类型的实体识别合作学习算法,结合了集成学习和协 同训练技术,同时采用了条件随机场模型,隐式马尔可夫模型和最大滴马尔可夫模型S个 算法作为实体识别的基础算法,能很好地更高的实体识别的准确率。
[000引一种基于文档类型的实体识别合作学习算法,该算法包括模型构建模块、模型应 用W及模型集成。其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分 类器构建。模型应用包括文档类型识别和基于文档类型的实体识别;模型集成包括两个层 次的模型组合:
[0009] (1)首先分类别对所构建的基础模型进行集成,即分别对所构建的基于文档类型 的条件随机场模型,隐式马尔可夫模型W及最大滴马尔可夫模型S类基础模型进行模型内 的集成,属于同类型模型的集成;
[0010] (2)其次对所用的S类模型进行集成,即对已完成的模型内集成的上述S类模型 进行模型间集成,属于不同类型模型的集成。
[0011] 对于=类基础模型进行模型内集成需要采用一种带有权值的多数投票策略,具体 的,权值由每个基础模型的可信度来定义,而对于每个基础模型的可信度,采用对应输出句 子的概率来度量,进而实现了同类型模型内的集成。
[0012] 对所用的=类模型进行模型间集成,采用不带权值的多数投票策略,即对基于文 档类型所构建的=类不同的基础模型,在模型内集成完成后,进行模型间集成时认为它们 之间的可信度时一样的,因此用不带权值的多数投票策略实现不同类型模型的集成。该样, 完成了模型集成,构建出了基于文档类别的实体识别模型。
[0013] 更详细的,基于文档类型的实体识别分类器构建;包括五个子模块,首先是对输入 数据的预处理模块,抽取稀疏标记的训练数据集中已标记的实体,构成一个字典,然后W该 字典去更新每个训练文档;其次是基于文档类型的条件随机场模型构建,最大滴马尔可夫 模型构建和隐式马尔可夫模型构建,主要是学习器的训练;最后的子模块是模型集成,将训 练获得的基于文档类型的实体识别模型进行集成。
[0014] 文本分类器构建;主要是根据文档特征数据进行学习器训练,获得相应的文本分 类模型。
[0015] 文档类型识别:主要是应构建的文本分类模型对待处理语料进行文本分类,W进 行后续处理。
[0016] 基于文档类型的实体识别;主要是根据文档类型识别处理结果选择对应的基于文 档类型的实体识别模型进行文档标注工作。
[0017] 与现有技术相比,本发明具有W下优点:
[001引本发明W已知文档类型作为条件,结合了集成学习和协同训练技术,选择条件随 机场等=个算法作为基础算法,同时,根据文档类型对训练集进行了切分,该样既考虑了分 类器的多样性,也考虑了数据集的多样性,能更好的提高实体识别的准确率。
【附图说明】
[0019] 结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,其中:
[0020] 图1为本发明一个实施例的基于文档类型的实体识别合作学习系统框图。
[0021] 图中;1、数据集预处理装置,2、基于文档类型的分类器构建装置,3、文本分类器构 建装置,4、模型应用装置,41、文本分类处理单元,42、实体识别处理单元。
【具体实施方式】
[0022] 下面将详细描述本发明各个方面的特征和示例性实施例
[0023] 基于文档类型的实体识别合作学习系统框图如图1所示,包括:数据集预处理装 置(1),基于文档类型的分类器构建装置(2),文本分类器构建装置(3),模型应用装置(4)。 其中;数据集预处理装置(1)与基于文档类型的分类器构建装
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1