信息提取模板的建立方法、知识数据的处理方法和装置的制造方法

文档序号:9727382阅读:391来源:国知局
信息提取模板的建立方法、知识数据的处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术,尤其涉及一种信息提取模板的建立方法、知识数据的处理方法和装置。
【背景技术】
[0002]随着互联网的普及和计算机技术的不断发展,通过网络获取信息已成为人们获取信息的主要途径,如可通过网络获取某人的属性信息,例如国籍、民族、性别和血型等,而如何从众多的信息中快速地查找到需要的信息成为需要解决的重要问题。
[0003]目前通过人工的方式制定触发词,然后基于触发词获取出现在其周围的词或语句作为需要提取的信息,例如对于人物的属性信息的提取是基于相应的人为规则进行。以提取人物的出生地为例,相应的人为规则设置为信息内容中关键词“出生于”或“生于”后面的信息即为该人物的出生地。
[0004]然而,基于人为规则的方法提取属性信息需要人工制定相应的信息提取规则,而制定的人为规则不能覆盖所有待提取的知识数据的样式,从而导致查全率偏低,降低了属性信息的提取精度和提取效率。

【发明内容】

[0005]本发明的目的在于,提供一种从知识数据提取预定属性的属性信息的技术方案,以使得用户不需要通过人工设置触发词的方式即可提取属性值,并且提高属性信息的查全率和提取精度。
[0006]根据本发明的一方面,提供一种信息提取模板的建立方法。所述建立方法包括,从多个知识数据中的结构化数据分别获取预定属性的第一属性值;分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段;根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。
[0007]优选地,所述根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板的处理包括:对于任一内容片段,从所述内容片段提取所述预定属性的第二属性值,基于所述内容片段建立所述预定属性的属性信息候选模板,根据所述预定属性的第一属性值和第二属性值获取所述属性信息候选模板的置信度;将获取的置信度的值大于预设的置信度阈值的属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0008]优选地,所述置信度包括模板覆盖率和/或模板准确率,其中,所述模板覆盖率为多个内容片段中与第一属性信息候选模板相匹配的概率,所述模板准确率为通过第二属性信息候选模板提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值相同的概率。
[0009]优选地,所述将获取的置信度的值大于预设的置信度阈值的属性信息候选模型选取为用于提取所述预定属性的属性值的属性信息提取模板的处理包括:如果第三属性信息候选模板的模板覆盖率的值大于预设的覆盖率阈值,和/或,如果所述第三属性信息候选模板的模板准确率的值大于预设的准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0010]根据本发明的另一方面,提供一种知识数据的处理方法。所述处理方法包括,获取待处理的知识数据;对所述知识数据进行分析,分别将所述知识数据的内容片段与根据上述的建立方法建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。
[0011]根据本发明的又一方面,提供一种信息提取模板的建立装置。所述建立装置包括:属性值获取模块,用于从多个知识数据中的结构化数据分别获取预定属性的第一属性值;内容片段获取模块,用于分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段;模板建立模块,用于根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。
[0012]优选地,所述模板建立模块包括:候选模板建立单元,用于对于任一内容片段,从所述内容片段提取所述预定属性的第二属性值,基于所述内容片段建立所述预定属性的属性信息候选模板;置信度获取单元,用于根据所述预定属性的第一属性值和第二属性值获取所述属性信息候选模板的置信度;模板选取单元,用于将获取的置信度的值大于预设的置信度阈值的属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0013]优选地,所述置信度包括模板覆盖率和/或模板准确率,其中,所述模板覆盖率为多个内容片段中与第一属性信息候选模板相匹配的概率,所述模板准确率为通过第二属性信息候选模板提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值相同的概率。
[0014]优选地,所述模板选取单元,用于如果第三属性信息候选模板的模板覆盖率的值大于预设的覆盖率阈值,和/或,如果所述第三属性信息候选模板的模板准确率的值大于预设的准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0015]根据本发明的又一方面,提供一种知识数据的处理装置。所述处理装置包括:知识数据获取模块,用于获取待处理的知识数据;属性值提取模块,用于对所述知识数据进行分析,分别将所述知识数据的内容片段与根据上述信息提取模板的建立装置建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。
[0016]根据本发明实施例提供的信息提取模板的建立方法、知识数据的处理方法和装置,通过从多个知识数据中的结构化数据分别获取预定属性的第一属性值,并分别从其中的正文数据获取与所述预定属性相关的内容片段,进而根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板,然后,可通过属性信息提取模板提取待处理的知识数据中的预定属性的属性值,使得用户不需要通过人工设置触发词的方式即可提取属性值,而且,由于属性信息提取模板是通过知识数据中的内容片段建立,所以提高了属性信息的查全率和提取精度。
【附图说明】
[0017]图1是示出根据本发明实施例一的信息提取模板的建立方法的流程图;
[0018]图2是示出根据本发明实施例一的知识数据的处理方法的流程图;
[0019]图3是示出根据本发明实施例二的知识数据的处理方法的流程图;
[0020]图4是示出根据本发明实施例三的信息提取模板的建立装置的逻辑框图;
[0021]图5是示出根据本发明实施例三的信息提取模板的建立装置的逻辑框图;
[0022]图6是示出根据本发明实施例四的知识数据的处理装置的逻辑框图。
【具体实施方式】
[0023]本方案的发明构思是,提供一种用于提取预定属性的属性值的信息提取模板的建立方法和通过建立的模板提取待处理的知识数据的预定属性的属性值,通过从多个知识数据中的正文数据获取与预定属性相关的内容片段,根据所述内容片段建立属性信息提取模板,进而可通过属性信息提取模板提取待处理的知识数据中的预定属性的属性值,从而使得用户不需要通过人工设置触发词的方式即可从知识数据提取预定属性的属性值,并且提高属性信息的查全率和提取精度。
[0024]下面结合附图详细描述本发明的示例性实施例。
[0025]实施例一
[0026]图1是示出根据本发明实施例一的信息提取模板的建立方法的流程图。通过包括如图4所示的建立装置的计算机系统执行所述建立方法。
[0027]参照图1,在步骤S110,从多个知识数据中的结构化数据分别获取预定属性的第一属性值。
[0028]其中,预定属性可为预先指定的任意属性,例如国籍、民族或性别等属性。第一属性值可为所述预定属性的任意属性值,例如,预定属性为国籍,则第一属性值可为中国、美国或英国等。知识数据可为知识库中的任一词条对应的数据,例如,电子百科中词条“兰花”对应的数据等。结构化数据可为知识数据中的卡片式
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1