属性提取装置和方法

文档序号:6599934阅读:197来源:国知局
专利名称:属性提取装置和方法
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种用于从非结构化文本中进行属性提取的装置和方法。
背景技术
属性提取可以从特定数据源(非结构化文本、结构化数据等)中抽取出一个实例的各个属性,例如,中国(实例)的属性有首都、人口等。基于种子属性的属性提取是采用滚雪球的方式,基于一个实例的已知的种子属性,从特定数据源中抽取出相关的新属性。基于种子属性的属性提取方法可以帮助用户快速地构建属性知识。对一个实例, 用户只需手工建立几个属性,就可以利用该方法来自动得到更多的新属性。在这一领域,目前已经取得了一些研究成果。专利申请公开WO 2006/132793A2提到了一种从半结构化文本中提取属性的方法,使用了模式学习的方法,但是只能提取出和种子属性在文本中的出现模式相同的新属性。专利申请公开US 2006/0190684A1描述了一种从半结构化文本(属性被html标记)中提取属性的方法,但是不能根据种子属性来提取出相关的新属性。Joseph Reisinger 禾口 Marius Pasca 在 Wffff 2009 会议上的论文(Bootstrapped Extraction of Class Attributes,2009年4月24日)提到了一种从非结构化文本中提取属性的方法,使用了模式学习的方法,但是只能提取出和种子属性在文本中的出现模式相同的新属性。目前的方法大都只能从结构化或半结构化的文本中提取属性,有些方法虽然可以从非结构化文本中提取属性,但只能提取出和种子属性在文本中的出现模式相同的新属性,从而无法得到足够多的新属性。

发明内容
为了实现从非结构化文本中提取新属性这一目的,本申请的发明人提出了一种基于种子属性从非结构化文本中自动提取新属性的装置和方法,可以基于属性关联知识,提取出与种子属性出现模式不同的新属性。根据本发明的第一方案,提出了一种属性提取装置,包括查询项构建单元,用于根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;文本检索单元,用于根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及文本匹配单元,用于对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。优选地,所述属性提取装置还可以包括扩展单元,用于根据输入的实例和/或种子属性,基于同义文法库,获取实例和/或种子属性的各种同义词形式,以及其中所述查询项构建单元还用于根据输入的实例和种子属性的所有同义词形式,基于属性关联知识库,构建基于所述文法的查询项。优选地,所述文法可以是并列文法,用于表示在非结构化文本中多个属性经常在一起出现的模式。更优选地,所述的属性提取装置还可以包括并列文法生成单元,用于根据训练用实例和种子属性,生成并列文法查询项,搜索非结构化文本库,根据检索到的文本,提取出并列文法,加入到属性关联知识库中。优选地,所述文法可以是前缀文法,通过前缀词典表示在非结构化文本中经常出现在属性的名称开头的词语。更优选地,所述属性提取装置还可以包括前缀文法生成单元,用于根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀,选择出现频度高于预设频度的候选前缀,加入到属性关联知识库中的前缀词典中。优选地,所述文法可以是后缀文法,通过后缀词典表示在非结构化文本中经常出现在属性的名称结尾的词语。更优选地,所述属性提取装置还可以包括后缀文法生成单元,用于根据属性词典提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀,选择出现频度高于预设频度的候选后缀,加入到属性关联知识库中的后缀词典中。优选地,所述属性提取装置还可以包括同义文法生成单元,用于根据种子同义词典,生成同义文法查询项,以同义文法查询项搜索非结构化文本库,根据检索到的文本,提取出候选同义文法,并对各个候选同义文法进行验证,将验证通过的同义文法加入到同义文法库中。根据本发明的第二方案,提出了一种属性提取方法,包括根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。优选地,所述属性提取方法还可以包括根据输入的实例和/或种子属性,基于同义文法库,执行实例和种子属性的扩展,得到实例和/或种子属性的各种同义词形式;以及根据输入的实例和种子属性的所有同义词形式,基于属性关联知识库,构建基于所述文法的查询项。优选地,所述文法可以是并列文法,用于表示在非结构化文本中多个属性经常在一起出现的模式。更优选地,所述属性提取方法还可以包括根据训练用实例和种子属性, 生成并列文法查询项;以并列文法查询项搜索非结构化文本库;以及根据检索到的文本, 提取出并列文法,加入到属性关联知识库中。优选地,所述文法是可以前缀文法,通过前缀词典表示在非结构化文本中经常出现在属性的名称开头的词语。更优选地,所述属性提取方法还可以包括根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀;以及选择出现频度高于预设频度的候选前缀,加入到属性关联知识库中的前缀词典中。优选地,所述文法可以是后缀文法,通过后缀词典表示在非结构化文本中经常出现在属性的名称结尾的词语。更优选地,所述属性提取方法还可以包括根据属性词典提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀;以及选择出现频度高于预设频度的候选后缀,加入到属性关联知识库中的后缀词典中。优选地,所述属性提取方法还可以包括根据种子同义词典,生成同义文法查询项;以同义文法查询项搜索非结构化文本库;根据检索到的文本,提取出候选同义文法;以及对各个候选同义文法进行验证,将验证通过的同义文法加入到同义文法库中。由此,通过本发明的技术方案,能够根据种子属性,从非结构化文本中自动提取出新属性。


通过下面结合

本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中图IA示出了根据本发明的属性提取装置1000的示意方框图;图IB示出了根据本发明的属性提取方法2000的示意流程图;图2示出了一个非结构化文本库1110的具体示例;图3A示出了一个并列文法的具体示例;图;3B示出了一个前缀词典的具体示例;图3C示出了一个后缀词典的具体示例;图4A示出了并列文法生成单元1410及其具体操作流程;图4B示出了前缀文法生成单元1420及其具体操作流程;图4C示出了后缀文法生成单元1430及其具体操作流程;图5A示出了属性关联知识库1120中的并列文法生成的具体示例;图5B示出了属性关联知识库1120中的前缀词典生成的具体示例;图5C示出了属性关联知识库1120中的后缀词典生成的具体示例;图6示出了一个同义文法库1130的具体示例;图7示出了同义文法生成单元1440及其具体操作流程;图8示出了同义文法库1130中的同义文法生成的具体示例;图9示出了实例和种子属性扩展的具体步骤;图10示出了实例和种子属性扩展的具体示例;图11示出了新属性提取的示意方框图;图12示出了基于并列文法的新属性提取的具体示例;图13示出了基于前缀词典的新属性提取的具体示例;以及图14示出了基于前缀词典的新属性提取的具体示例。在本发明的所有附图中,相同或相似的结构和步骤均以相同或相似的附图标记标识。
具体实施例方式下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。图IA示出了根据本发明的属性提取装置1000的示意方框图,如图IA所示,属性提取装置1000主要包括存储单元1100(也可以位于属性提取装置1000的外部),用于存储以下各个数据库中的至少一个非结构化文本库1110,用于存储各个非结构化文本, 是属性提取的数据源;属性关联知识库1120,用于存储属性间的关联知识;和同义文法库 1130(可选单元,图IA中以虚线示出),用于存储在非结构化文本中描述同义关系的各种文法模式;扩展单元1200(可选单元,图IA中以虚线示出),用于根据同义文法库1130,获取实例和种子属性的各种同义词形式;以及新属性提取单元1300,用于根据实例和种子属性,基于属性关联知识库1120,从非结构化文本中提取出该实例的其他属性。如图IA所示,新属性提取单元1300包括查询项构建单元1310,用于根据输入的实例和种子属性(和/或实例和/或种子属性的各种同义词形式),基于属性关联知识库1120,构建基于一种或多种文法(稍后描述)的查询项;文本检索单元1320,用于根据所述查询项,对非结构化文本库1110中的非结构化文本进行文本检索;以及文本匹配单元 1330,用于对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性(新属性)。图IB示出了根据本发明的属性提取方法2000的示意流程图,如图IB所示,属性提取方法2000主要包括步骤S2100 (可选步骤,图IB中以虚线示出),根据输入的实例和 /或种子属性,由种子扩展单元1200基于同义文法库1130执行实例和/或种子属性的扩展,得到实例和/或种子属性的各种同义词形式;步骤S2200,根据输入的实例和种子属性 (和/或实例和/或种子属性的各种同义词形式),由新属性提取单元1300基于属性关联知识库1120构建基于一种或多种文法(稍后描述)的查询项;步骤S2300,根据查询项,由新属性提取单元1300对非结构化文本库1110进行文本检索;最后,在步骤S2400,由新属性提取单元1300对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性(新属性)。返回图1A,非结构化文本库1110用于存储各个非结构化文本,是属性提取的数据源。非结构化文本可以是网页、文档、纯文本等格式。图2示出了一个非结构化文本库1110 的具体示例,存储了关于计算机的几个网页。返回图1A,属性关联知识库1120存储了属性间的各种关联知识,例如,可以包括以下三种关联知识1)并列文法;2)前缀词典(前缀文法);3)后缀词典(后缀文法)。1)并列文法并列文法用于表示在非结构化文本中多个属性经常在一起出现的模式。并列文法中包含一些特殊符号今〈? C> 表示一个任意实例今<Ai> 表示一个任意属性今<Χ1|Χ2|···> 表示此处可以出现Xl或X2等任何一个词今[X]表示此处可以出现X或不出现X今{X}表示此处可以循环出现多个X图3Α示出了一个并列文法的具体示例。“〈? C>[的]<Α1>{<、|和|与或|以及及其ι…ΧΑ2>} ”是一个并列文法,例如,它可以和非结构化文本“电脑的硬盘、内存和CPU”匹配。2)前缀词典(前缀文法)前缀词典存储了各属性的名称中经常使用的前缀词语,即哪些词语经常出现在属性的名称开头。图;3B示出了一个前缀词典的具体示例。“平均”、“最大”和“标准”都是前缀词,这些词语经常出现在属性的名称开头,例如,属性“平均工资”、“平均性能”、“平均负载”都是以“平均”开头的。3)后缀词典(后缀文法)后缀词典存储了各属性的名称中经常使用的后缀词语,即哪些词语经常出现在属性的名称结尾。图3C示出了一个后缀词典的具体示例。“率”、“量”和“值”都是后缀词,这些词语经常出现在属性的名称结尾,例如,属性“分辨率”、“增长率”、“失业率”都是以“率”结尾的。属性关联知识库1120中的并列文法可以由并列文法生成单元1410根据训练用实例和种子属性生成。图4A示出了并列文法生成单元1410及其具体操作流程,如图4A所示, 并列文法生成单元1410的具体操作流程包括S410A,查询项构建根据训练用实例和种子属性,生成相应的查询项『< 实例 > 的 〈种子属性1>*〈种子属性2>』;S420A,文本检索根据查询项来搜索非结构化文本库1110,以得到包含并列文法的各个文本;在步骤S420A中,可以采用任何公知的文本检索方法(例如,调用Google API 等);S430A,并列文法提取将步骤S420A中检索到的各个文本与查询项『< 实例 > 的< 种子属性1>*<种子属性2>』进行匹配,从而提取出与“*”对应的词,然后生成并列文法。图5A示出了属性关联知识库中的并列文法生成的具体示例;已知“电脑”有属性 “硬盘”和“内存”,先构建查询项『电脑的硬盘*内存』(步骤S410A),然后调用Google API 得到两篇检索文本(步骤S420A),它们与查询项匹配的句子分别是『电脑的硬盘和内存』与 『电脑的硬盘或内存』,由此可提取出一条并列文法“< ? O的<A1X和I或XA2>”(步骤 S430A)。属性关联知识库1120中的前缀词典(前缀文法)可以由前缀文法生成单元1420 根据属性词典生成。图4B示出了前缀文法生成单元1420及其具体操作流程,如图4B所示, 前缀文法生成单元1420的具体操作流程包括S410B,候选前缀提取根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀。这里,属性词典包括各个实例的各个属性,而且可以使用公知的属性词典。S420B,候选前缀验证选择出现频度高的候选前缀,加入到前缀词典中。例如,可选择出现频度大于(> )N的前缀,N是自然数,可由用户在构建系统时设定。图5B示出了属性关联知识库中的前缀词典生成的具体示例(N = 2);属性词典包括“平均工资”、“平均性能”、“平均负载”、“标配”、“标准”等属性,先提取出所有的候选前缀 (步骤S410B)“平均”(出现频度为3)和“标”(出现频度为2);然后,选择“平均”(出现频度为3 > N = 2),作为前缀(步骤S420B)。属性关联知识库1120中的后缀词典(后缀文法)可以由后缀文法生成单元1430 根据属性词典生成。图4C示出了后缀文法生成单元1430及其具体操作流程,如图4C所示, 后缀文法生成单元1430的具体操作流程包括S410C,候选后缀提取根据属性词典,提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀。这里,属性词典包括各个实例的各个属性,而且可以使用公知的属性词典。
S420C,候选后缀验证选择出现频度高的候选后缀,加入到后缀词典中。例如,可选择出现频度大于(> )N的后缀,N是自然数,可由用户在构建系统时设定。图5C示出了属性关联知识库中的后缀词典生成的具体示例(N = 2);属性词典包括“分辨率”、“增长率”、“失业率”、“性能”、“功能”等属性,先提取出所有的候选后缀(步骤 S410C)“率”(出现频度为3)和“能”(出现频度为2);然后,选择“率”(出现频度为3 > N= 2),作为后缀(步骤S420C)。返回图1A,同义文法库1130(可选单元)存储了在非结构化文本中描述同义关系的各种文法模式。同义文法的格式与属性关联知识库1120中并列文法的格式类似。图6 示出了同义文法库1130的具体示例。例如“〈? Cl〉[的]〈全称I简称〉[是]〈? C2>”,“〈? Cl〉[的]〈同义词I又称I又叫I也称I别名〉[是]〈? C2>”,“〈? Cl〉[的]〈英文ι英文名字I翻译〉[是]〈? C2>”。实例Cl和C2具有同义关系。同义文法库1130中的同义文法可以由同义文法生成单元1440根据种子同义词典生成。图7示出了同义文法生成单元1440及其具体操作流程,如图7所示,同义文法生成单元1440的具体操作流程包括S710,查询项构建根据种子同义词典,生成相应的查询项『< 词1>*<词2>』。种子同义词典是公知的,无法涵盖所有的同义词,种子同义词典中的每行数据为“词1词2”表示词1和词2是同义词。S720,文本检索根据查询项来搜索非结构化文本库1110,以得到包含同义文法的各个文本;在步骤S720中,可以采用任何公知的文本检索方法(例如,调用Google API 等);S730,候选文法提取将步骤S720中检索到的各个文本与查询项『〈词1>*〈词2>』 进行匹配,从而提取出与“*”对应的词,生成候选同义文法。S740,候选文法验证对各个候选同义文法进行验证。例如,可采用下述具体验证方法将具体词(词1词2)代入候选同义文法,形成查询项进行文本检索,若检索结果小于预设阈值TH,则不合法,TH是自然数,可由用户在构建系统时设定。图8示出了同义文法生成的具体示例(TH= 100)。已知“个人电脑”的同义词是 “PC”,先构建查询项“个人电脑*PC”(步骤S710),然后调用Google API得到两篇检索文本 (步骤S720),它们与查询项匹配的句子分别是“个人电脑200PC”与“个人电脑(简称PC”, 然后提取出两个候选同义文法“〈? Cl>200< ? C2>”和“〈? Cl>(简称〈? C2>”(步骤 S730),最后,用“个人电脑200PC”来检索只得到4篇文本(< TH = 100),而用“个人电脑 (简称PC”来检索得到2000多篇文本(> TH = 100)。因此将“〈? Cl> (简称〈? C2>” 作为一条同义文法,保存到同义文法库1130中。返回图1A,扩展单元1200(可选单元)基于同义文法库1130,获取实例和种子属性的各种同义词形式。图9示出了实例和种子属性扩展的具体步骤,包括S910,查询项构建将每个实例或种子属性与同义文法库1130中的各个关键词拼接生成相应的查询项,例如,『“〈实例或种子属性〉”〈同义词I又称I又叫I···〉』。S920,文本检索根据每个查询项来搜索非结构化文本库1110,在步骤S920中,可以采用任何公知的文本检索方法(例如,调用Google API等);S930,同义词提取将步骤S920检索到的各个文本与同义文法库1130中的各个文法进行匹配,从而提取出对应的同义词。图10示出了实例和种子属性扩展的具体示例。输入的实例为“计算机”,种子属性为“分辨率”。首先,对“计算机”和“分辨率”分别构建查询项『“计算机”(同义词I又称又叫I···)』和『“分辨率”(同义词I又称I又叫I···)』(步骤S910);然后,进行文本检索得到相应的文本,如“为什么计算机又称电脑…”和“分辨率又叫解释度…”(步骤S920); 然后,与各同义文法进行匹配,从而提取出“计算机”和“分辨率”的同义词分别为“电脑”和 “解释度”(步骤S930)。返回图1A,新属性提取单元1300根据实例和种子属性(如果之前实例和种子属性已被扩展单元1200扩展,则还要根据实例和种子属性的所有同义词),基于属性关联知识库1120,从非结构化文本中提取出该实例的其他属性。图11示出了新属性提取的示意方框图,可以采用下述三种方式中的至少一种来实现1)基于并列文法的新属件提取今查询项构建单元1310构建基于并列文法的查询项根据实例和种子属性,生成查询项『“< 实例 >” < 种子属性11种子属性2 I…〉』;今文本检索单元1320执行文本检索根据查询项来搜索非结构化文本库1110 ;这里,可以采用公知的文本检索方法(例如,调用Google API等);以及今文本匹配单元1330提取与并列文法匹配的新属性将检索到的各个文本与各个并列文法进行匹配,从而提取出对应的新属性。图12示出了基于并列文法的新属性提取的具体示例。今输入的实例为“计算机”,种子属性为“价格”和“性能”;今先构建并列文法查询项『“计算机”(价格I性能)』;今然后,进行文本检索得到相应的文本,如“…计算机的性能及其评估标准、数据类型和数据表示、指令系统设计原理和风格、标量流水技术…”;今最后,该文本与并列文法“< ? C>[的]<A1>{<、I和I与I或I以及I及其... ><A2>} ”成功匹配,由此,可以提取出新属性“评估标准”、“数据类型”、“数据表示”等。2)基于前缀文法的属件提取今查询项构建单元1310构建基于前缀文法的查询项根据前缀词典,找到种子属性中出现的前缀词,然后,结合实例生成查询项“〈实例〉的(〈前缀词1|前缀词2|…>)*”;今文本检索单元1320执行文本检索根据查询项来搜索非结构化文本库1110 ; 这里,可以采用公知的文本检索方法(例如,调用Google API等);以及令文本匹配单元1330提取相同前缀的新属性将检索到的各个文本与查询项进行匹配,从而提取出与种子属性有相同前缀词的新属性。图13示出了基于前缀词典的新属性提取具体示例。今输入的实例为“计算机”,种子属性为“性能”和“最大硬盘容量”;々通过查找前缀词典得到“最大”是一个前缀词,构建查询项『计算机的最大*』;
10
今然后,进行文本检索得到相应的文本,如“…计算机的最大连接数…”;今最后,提取出新属性“最大连接数”。3)基于后缀文法的属件提取令查询项构建单元1310构建基于后缀文法的查询项根据后缀词典,找到种子属性中出现的后缀词,然后,结合实例生成查询项『< 实例 > 的* (<后缀词11后缀词2 I…>)J。今文本检索单元1320执行文本检索根据查询项来搜索非结构化文本库1110 ;这里,可以采用公知的文本检索方法(例如,调用Google API等);以及今文本匹配单元1330提取相同后缀的新属性将检索到的各个文本与查询项进行匹配,从而提取出与种子属性有相同后缀词的新属性。图14示出了基于后缀词典的新属性提取具体示例。今输入的实例为“计算机”,种子属性为“性能”、“虚拟内存值”和“分辨率”;今通过查找后缀词典得到“值”和“率”是后缀词,构建查询项『计算机的*(值率)』;令然后,进行文本检索得到相应的文本,如“…计算机的MAC值…”和“…计算机的普及率…”;今最后,提取出新属性“MAC值”和“普及率”。在以上的描述中,针对各个步骤,列举了多个实例,虽然发明人尽可能地标示出彼此关联的实例,但这并不意味着这些实例必然按照相应的标号存在对应关系。只要所选择的实例所给定的条件间不存在矛盾,可以在不同的步骤中,选择标号并不对应的实例来构成相应的技术方案,这样的技术方案也应视为被包含在本发明的范围内。应当注意的是,在以上的描述中,仅以示例的方式,示出了本发明的技术方案,但并不意味着本发明局限于上述步骤和单元结构。在可能的情形下,可以根据需要对步骤和单元结构进行调整和取舍。因此,某些步骤和单元并非实施本发明的总体发明思想所必需的元素。因此,本发明所必需的技术特征仅受限于能够实现本发明的总体发明思想的最低要求,而不受以上具体示例的限制。这里所公开的本发明实施例的其他设置包括执行在先概述并随后详述的方法实施例的步骤和操作的软件程序。更具体地,计算机程序产品是如下的一种实施例具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,计算机程序逻辑提供相关的操作,从而提供上述单向代理转密方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的系统。根据本发明的系统也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。应该理解,严格地讲,本发明的实施例可以实现为数据通信设备上的软件程序、软
11件和硬件、或者单独的软件和/或单独的电路。 至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。
权利要求
1.一种属性提取装置,包括查询项构建单元,用于根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;文本检索单元,用于根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及文本匹配单元,用于对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。
2.根据权利要求1所述的属性提取装置,还包括扩展单元,用于根据输入的实例和/或种子属性,基于同义文法库,获取实例和/或种子属性的各种同义词形式,以及其中所述查询项构建单元还用于根据输入的实例和种子属性的所有同义词形式,基于属性关联知识库,构建基于所述文法的查询项。
3.根据权利要求1或2所述的属性提取装置,其特征在于所述文法是并列文法,用于表示在非结构化文本中多个属性经常在一起出现的模式。
4.根据权利要求3所述的属性提取装置,还包括并列文法生成单元,用于根据训练用实例和种子属性,生成并列文法查询项,搜索非结构化文本库,根据检索到的文本,提取出并列文法,加入到属性关联知识库中。
5.根据权利要求1或2所述的属性提取装置,其特征在于所述文法是前缀文法,通过前缀词典表示在非结构化文本中经常出现在属性的名称开头的词语。
6.根据权利要求5所述的属性提取装置,还包括前缀文法生成单元,用于根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀,选择出现频度高于预设频度的候选前缀,加入到属性关联知识库中的前缀词典中。
7.根据权利要求1或2所述的属性提取装置,其特征在于所述文法是后缀文法,通过后缀词典表示在非结构化文本中经常出现在属性的名称结尾的词语。
8.根据权利要求7所述的属性提取装置,还包括后缀文法生成单元,用于根据属性词典提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀,选择出现频度高于预设频度的候选后缀,加入到属性关联知识库中的后缀词典中。
9.根据权利要求2所述的属性提取装置,还包括同义文法生成单元,用于根据种子同义词典,生成同义文法查询项,以同义文法查询项搜索非结构化文本库,根据检索到的文本,提取出候选同义文法,并对各个候选同义文法进行验证,将验证通过的同义文法加入到同义文法库中。
10.一种属性提取方法,包括根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。
11.根据权利要求10所述的属性提取方法,还包括根据输入的实例和/或种子属性,基于同义文法库,执行实例和/或种子属性的扩展, 得到实例和/或种子属性的各种同义词形式;以及根据输入的实例和种子属性的所有同义词形式,基于属性关联知识库,构建基于所述文法的查询项。
12.根据权利要求10或11所述的属性提取方法,其特征在于所述文法是并列文法,用于表示在非结构化文本中多个属性经常在一起出现的模式。
13.根据权利要求12所述的属性提取方法,还包括 根据训练用实例和种子属性,生成并列文法查询项; 以并列文法查询项搜索非结构化文本库;以及根据检索到的文本,提取出并列文法,加入到属性关联知识库中。
14.根据权利要求10或11所述的属性提取方法,其特征在于所述文法是前缀文法,通过前缀词典表示在非结构化文本中经常出现在属性的名称开头的词语。
15.根据权利要求14所述的属性提取方法,还包括根据属性词典提取出在两个或两个以上属性的开头都出现的词,作为候选前缀;以及选择出现频度高于预设频度的候选前缀,加入到属性关联知识库中的前缀词典中。
16.根据权利要求10或11所述的属性提取方法,其特征在于所述文法是后缀文法,通过后缀词典表示在非结构化文本中经常出现在属性的名称结尾的词语。
17.根据权利要求16所述的属性提取方法,还包括根据属性词典提取出在两个或两个以上属性的结尾都出现的词,作为候选后缀;以及选择出现频度高于预设频度的候选后缀,加入到属性关联知识库中的后缀词典中。
18.根据权利要求11所述的属性提取方法,还包括 根据种子同义词典,生成同义文法查询项;以同义文法查询项搜索非结构化文本库; 根据检索到的文本,提取出候选同义文法;以及对各个候选同义文法进行验证,将验证通过的同义文法加入到同义文法库中。
全文摘要
本发明提出了一种用于从非结构化文本中进行属性提取的装置和方法,可以基于属性关联知识,提取出与种子属性出现模式不同的新属性。根据本发明的属性提取装置包括查询项构建单元,用于根据输入的实例和种子属性,基于属性关联知识库,构建基于一种或多种文法的查询项;文本检索单元,用于根据所述查询项,对非结构化文本库中的非结构化文本进行文本检索;以及文本匹配单元,用于对检索得到的文本执行基于前述文法的文本匹配,从而提取出所述实例的其他属性。通过本发明的技术方案,能够根据种子属性,从非结构化文本中自动提取出新属性。
文档编号G06F17/30GK102200983SQ201010135788
公开日2011年9月28日 申请日期2010年3月25日 优先权日2010年3月25日
发明者丰强泽, 齐红威 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1