一种借助图随机游走的开放类别命名实体抽取方法及装置制造方法

文档序号:6526612阅读:347来源:国知局
一种借助图随机游走的开放类别命名实体抽取方法及装置制造方法
【专利摘要】本发明公开了一种借助图随机游走的开放类别命名实体抽取方法,该方法包括步骤:步骤1,分析种子在语料中的上下文得到模板;步骤2,使用模板从语料抽取候选实体;步骤3,根据种子实体、模板和候选实体之间的关系构造图;步骤4,在图上使用随机游走算法计算候选实体的置信度。该方法能够克服模板质量不同对候选实体置信度计算带来的不良影响,有效地提高了开放类别命名实体抽取的准确率。经过实验证明,抽取结果的平均准确率提高了4.36%。
【专利说明】一种借助图随机游走的开放类别命名实体抽取方法及装置
【技术领域】
[0001]本发明涉及自然语言处理【技术领域】,是一种从大规模文本语料中抽取开放类别命名实体的方法及装置。
【背景技术】
[0002]命名实体在人类语言中传递着重要信息,它的识别和抽取是自然语言处理研究中的关键技术之一。开放类别命名实体抽取技术的目标是从海量、冗余、异构、不规范的网络数据中抽取开放类别的命名实体,进而构建开放类别命名实体列表。这些开放类别命名实体列表在工业界和学术界都具有重要用途。因此,开放类别命名实体抽取技术具有重要的理论意义和实用价值。
[0003]传统的开放类别命名实体抽取系统一般采取模板的方法:通过分析种子实体在语料中的上下文得到模板;接下来使用模板从语料中抽取候选实体;然后将候选实体和种子实体用各自匹配的模板加以表示,在模板空间上计算每个候选实体与种子实体的相似度;最后将该相似度作为该候选实体的置信度,并根据置信度对候选实体排序作为最终结果。
[0004]传统的基于模板的开放类别命名实体抽取方法,在计算候选实体置信度时没有考虑种子的影响,也没有考虑不同模板在质量上的差别。因此,不能很好地计算候选实体的置信度。

【发明内容】

[0005]为了克服现有技术存在的缺陷,本发明提出了一种借助图随机游走的开放类别命名实体抽取方法和装置,实现了从大规模文本语料中进行开放类别命名实体的抽取。
[0006]根据本发明的一个方面,提出了一种借助图随机游走的开放类别命名实体抽取方法,该方法包括步骤:步骤1,分析种子在语料中的上下文得到模板;步骤2,使用模板从语料抽取候选实体;步骤3,根据种子实体、模板和候选实体之间的关系来构造图;步骤4,在图上使用随机游走算法计算候选实体的置信度。
[0007]优选地,步骤I进一步包括:取上下文窗口大小为3,即取种子出现的前三个词项与后三个词项构成模板放入模板池中。
[0008]优选地,过滤掉模板池中只出现过一次的模板。
[0009]优选地,步骤2进一步包括:依次取出模板池中的模板,将语料中匹配模板的字符串抽取出来放入候选实体池,同时记录〈候选-模板 > 之间的匹配关系。
[0010]优选地,在步骤2,滤掉模板池中只出现过一次的模板。
[0011]优选地,在步骤3,图由节点和边组成,节点分为三类:种子实体、模板和候选实体,每个种子实体、模板或候选实体在图中都表示为一个节点,边分为两类:第一类是种子实体与根据该种子实体学到的模板之间用边连接;第二类是候选实体与抽取该候选实体的模板之间用边连接,由此得到一个无向图,作为图随机游走的输入。
[0012]优选地,步骤4进一步包括:[0013]步骤41,构建初始状态矩阵,在该步骤,初始状态矩阵Ptl的初始值使用如下方法计算:
[0014]
【权利要求】
1.一种借助图随机游走的开放类别命名实体抽取方法,该方法包括步骤: 步骤I,分析种子在语料中的上下文得到模板; 步骤2,使用模板从语料抽取候选实体; 步骤3,根据种子实体、模板和候选实体之间的关系来构造图; 步骤4,在图上使用随机游走算法计算候选实体的置信度。
2.根据权利要求1所述的方法,其特征在于,步骤I进一步包括:取上下文窗口大小为3,即取种子出现的前三个词项与后三个词项构成模板放入模板池中。
3.根据权利要求2所述的方法,其特征在于,在步骤1,过滤掉模板池中只出现过一次的模板。
4.根据权利要求1所述方法,其特征在于,步骤2进一步包括:依次取出模板池中的模板,将语料中匹配模板的字符串抽取出来放入候选实体池,同时记录〈候选-模板 > 之间的匹配关系。
5.根据权利要求4所述的方法,其特征在于,在步骤2,滤掉模板池中只出现过一次的模板。
6.根据权利要求1所述的方法,其特征在于,在步骤3,图由节点和边组成,节点分为三类:种子实体、模板和候选实体,每个种子实体、模板或候选实体在图中都表示为一个节点,边分为两类:第一类是种子实体与根据该种子实体学到的模板之间用边连接;第二类是候选实体与抽取该候选实体的模板之间用边连接,由此得到一个无向图,作为图随机游走的输入。
7.根据权利要求6所述的方法,其特征在于,步骤4进一步包括: 步骤41,构建初始状态矩阵,在该步骤,初始状态矩阵Ptl的初始值使用如下方法计算:

8.一种借助图随机游走的开放类别命名实体抽取装置,该装置包括: 候选实体抽取模板,用于使用动态模板学习的策略来抽取候选实体,该模块的输入是种子实体,输出是候选实体,在该模块中,首先通过分析种子实体在语料中的上下文得到模板集合,接下来抽取语料中匹配模板的字符串作为候选实体; 候选实体置信度计算模块,其用于构造一个图,该图的节点包括种子实体、模板和候选实体三类,而图的边则反映了种子实体与模板的学得/被学得关系以及模板与候选实体之间的抽取/被抽取关系,在图上通过随机游走计算候选实体置信度,并据此对候选实体进行重排序,排序结果 将作为抽取结果返回。
【文档编号】G06F17/30GK103678703SQ201310745097
【公开日】2014年3月26日 申请日期:2013年12月30日 优先权日:2013年12月30日
【发明者】刘康, 赵军, 齐振宇 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1