一种知识抽取方法及系统的制作方法

文档序号:6514159阅读:187来源:国知局
一种知识抽取方法及系统的制作方法
【专利摘要】本发明所述的知识抽取方法及系统,通过获取包括一个或一个以上句子的初始句群,之后将初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群,完成知识抽取。因为句群是由前后连贯的句子构成,因此句群本身在逻辑上就具备很好的连贯性,通过对初始句群进行扩展获取得到的最终句群相应的在逻辑上也会具备很好的连贯性。因此本发明克服了现有技术中抽取的知识信息在逻辑上缺少连贯性的缺陷。
【专利说明】一种知识抽取方法及系统

【技术领域】
[0001] 本发明涉及一种知识抽取方法及系统,具体是一种基于句群的知识抽取方法及系 统,涉及电数字数据处理【技术领域】。

【背景技术】
[0002] 知识抽取是当前自然语言处理、语义Web、机器学习、知识工程、知识发现、知识管 理、文本挖掘等相关领域共同关注的重点研究之一,是一个新的研究热点,主要是指从文本 信息中抽取知识,通过对文献进行内容分析和处理,将文献中蕴含的知识逐条抽取出来。知 识抽取是知识获取的一种方式,也是信息抽取的升华与深化。目前,以数字出版资源形式 存在的知识资源已经非常丰富,但是以句段为组织单位的知识资源还很匮乏。句群是在意 义和结构上有密切联系的前后连贯的句子组成的言语交际单位,是知识的一种有效表达方 式。句群抽取自书籍的篇章信息(篇章是传统的知识组织方式),通过基于句群的知识抽取, 可将文献处理的颗粒度从篇章层次细分到句段层次,从而彻底改变传统的知识组织和管理 方式。
[0003] 但是在知识抽取的过程中,现有技术中通常采用如下方法:针对单个句子进行知 识抽取,知识抽取完成后,将抽取得到的单个句子组合后输出。这种方法没有考虑前后句子 的连贯性,导致抽取的知识信息缺少逻辑上的连贯性,不利于理解。


【发明内容】

[0004] 本发明所要解决的技术问题是现有技术中抽取的知识信息缺少逻辑上的连贯性, 不利于理解,从而提供一种能够使抽取的知识信息在逻辑上具备很好的连贯性的知识抽取 方法及系统。
[0005] 为解决上述技术问题,本发明是通过以下技术方案实现的:
[0006] 本发明提供了一种知识抽取方法,包括如下步骤:
[0007] 获取初始句群,初始句群中包括一个或一个以上句子;
[0008] 扩展初始句群,将初始句群长度与期望长度进行比较,根据比较结果确定需要进 行扩展的初始句群;
[0009] 知识抽取,将扩展后得到的最终句群输出,完成知识抽取。
[0010] 本发明所述知识抽取方法,所述扩展初始句群的步骤包括:
[0011] 设置权重阈值,根据初始句群长度与期望长度的比较结果,对初始句群设置权重 阈值;
[0012] 句群扩展,在扩展初始句群时,将待扩展句子的权重与权重阈值进行比较,根据比 较结果对初始句群进行扩展。
[0013] 本发明所述知识抽取方法,所述设置权重阈值的步骤进一步包括:
[0014] 确定比较结果F :确定初始句群长度与期望长度的比较结果F=期望长度/(初始 句群长度+冗余值);
[0015] 确定权重阈值:F大于或等于1时的权重阈值小于F小于1时的权重阈值。
[0016] 本发明所述知识抽取方法,所述确定权重阈值的步骤中:
[0017] F大于或等于1时,权重阈值=(K/F)/G;
[0018] F小于1时,权重阈值=(K/F) *G ;
[0019] 其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
[0020] 本发明所述知识抽取方法,所述阈值调整因子G的范围为:5彡G彡30。
[0021] 本发明所述知识抽取方法,还包括:
[0022] 确定属性集,所述属性集中包括N个属性参数%,以及所述属性参数对应的权 重乂1,其中N为正整数,i为整数且1彡i彡N;
[0023] 获取属性权重密度,利用公式Κ= Σ Vi/N得到属性权重密度K。
[0024] 本发明所述知识抽取方法,所述句群扩展的步骤进一步包括:
[0025] 选取初始句群,选取一个初始句群进行扩展;
[0026] 获取左侧句子权重和/或右侧句子权重,根据与初始句群相邻的左侧和/或右侧 句子包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重I和 /或右侧句子的权重W K ;
[0027] 向左扩展和/或向右扩展初始句群,若与初始句群相邻的左侧句子的权重%和/ 或右侧句子的权重W K大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群 形成新句群,否则初始句群不再进行扩展;
[0028] 得到最终句群,将所述新句群作为初始句群,重复获取左侧句子权重和/或右侧 句子权重的步骤及向左扩展和/或向右扩展初始句群的步骤,直到初始句群不再扩展,得 到最终句群;
[0029] 循环扩展,采用所述选取初始句群的步骤至所述得到最终句群的步骤,对每一初 始句群进行扩展,得到所有的最终句群。
[0030] 本发明所述知识抽取方法,所述确定比较结果F的步骤中:
[0031] 初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一 半;
[0032] 初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一 半。
[0033] 本发明所述知识抽取方法,所述句群扩展的步骤还包括:
[0034] 设定向左和/或向右扩展句子数量阈值,设定初始句群向左扩展句子数量阈值为 L,向右扩展句子数量阈值为R;
[0035] 所述向左扩展和/或向右扩展初始句群的步骤,及所述得到最终句群的步骤中, 当初始句群向左扩展句子的数量大于所述向左扩展句子数量阈值L后,初始句群不再向左 扩展;当初始句群向右扩展句子的数量大于所述向右扩展句子数量阈值R后,初始句群不 再向右扩展。
[0036] 本发明所述知识抽取方法,所述设定向左和/或向右扩展句子数量阈值的步骤 中,若所述初始句群向左和向右扩展时,所述向左扩展句子数量阈值L设定为6,所述向右 扩展句子数量阈值R设定为6 ;若所述初始句群只向左扩展时,所述向左扩展句子数量阈值 L为12,所述向右扩展句子数量阈值R为0 ;若所述初始句群只向右扩展时,所述向左扩展 句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
[0037] 本发明所述知识抽取方法,所述获取左侧句子权重和/或右侧句子权重的步骤 中:
[0038] 权重I为与初始句群相邻的左侧句子中包含的所有属性参数所对应的权重Vi 的加和;
[0039] 权重WK为与初始句群相邻的右侧句子中包含的所有属性参数所对应的权重Vi 的加和。
[0040] 本发明所述知识抽取方法,所述获取初始句群的步骤包括:
[0041] 对文本文档进行分句;
[0042] 取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
[0043] 本发明所述知识抽取方法,所述1=3。
[0044] 本发明所述知识抽取方法,还包括如下步骤:
[0045] 获取最终句群权重,根据最终句群中包含的属性参数%及对应的权重\得到最 终句群权重;最终句群权重为最终句群中每一句子所包含的所有属性参数%所对应的权重 Vi的加和;
[0046] 获取最终句群权重密度,根据所述最终句群权重,得到最终句群权重密度Γ =最 终句群权重/最终句群长度。
[0047] 本发明所述知识抽取方法,所述知识抽取的步骤还包括:
[0048] 去重输出最终句群,将所述最终句群进行去重操作后输出。
[0049] 本发明所述知识抽取方法,所述知识抽取的步骤还包括
[0050] 删减输出最终句群,设置最终句群的最小长度,将所述最终句群中,长度小于所述 最小长度的最终句群去除。
[0051] 本发明所述知识抽取方法,所述知识抽取的步骤还包括:
[0052] 排序输出最终句群,根据每一所述最终句群的权重密度Γ的大小对最终句群进行 排序后输出。
[0053] 本发明还提供了一个知识抽取系统,包括:
[0054] 初始句群获取模块,用于获取初始句群,且所述初始句群中包括一个或一个以上 句子;
[0055] 初始句群扩展模块,用于将从所述初始句群获取模块获取的初始句群长度与期望 长度进行比较,并根据比较结果确定需要进行扩展的初始句群;
[0056] 知识抽取模块,用于将从所述初始句群扩展模块获取的扩展后得到的最终句群输 出,完成知识抽取。
[0057] 本发明所述知识抽取系统,所述初始句群扩展模块包括:
[0058] 权重阈值设置单元,用于根据初始句群长度与期望长度的比较结果,对初始句群 设置权重阈值;
[0059] 句群扩展单元,用于在扩展初始句群时,将带扩展句子的权重与权重阈值进行比 较,根据比较结果对初始句群进行扩展。
[0060] 本发明所述知识抽取系统,所述权重阈值设置单元包括:
[0061] 比较结果确定子单元,用于确定初始句群长度与期望长度的比较结果F=期望长 度/ (初始句群长度+冗余值);
[0062] 权重阈值确定子单元,用于确定F大于或等于1时的权重阈值小于F小于1时的 权重阈值。
[0063] 本发明所述知识抽取系统,所述权重阈值确定子单元包括:
[0064] 阈值调整因子设定器,用于设定阈值调整因子G并输出,G为大于1的数;
[0065] 属性权重密度获取器,用于获取属性权重密度K并输出;
[0066] 权重阈值获取器,用于根据所述阈值调整因子设定器、所述属性权重密度获取器 和所述比较结果确定子单元的输出结果,获取权重阈值并输出;在F大于或等于1时,权重 阈值=(K/F)/G;在F小于1时,权重阈值=(K/F)*G,其中G为阈值调整因子且G为大于 1的数,K为属性权重密度。
[0067] 本发明所述知识抽取系统,所述阈值调整因子设定器,设定所述阈值调整因子G 的范围为:5 < 30。
[0068] 本发明所述知识抽取系统,还包括:
[0069] 属性集模块,用于存储属性集,所述属性集中包括N个属性参数~以及所述属性 参数ai对应的权重Vp其中N为正整数,i为整数且1 < i < N ;
[0070] 所述属性权重密度获取器,利用公式Κ= Σ /Ν得到属性权重密度K。
[0071] 本发明所述知识抽取系统,所述句群扩展单元包括:
[0072] 初始句群选取子单元,用于从所述初始句群获取模块选取一个初始句群进行扩 展;
[0073] 句子权重获取子单元,用于根据与初始句群相邻的左侧和/或右侧句子包含的属 性参数%及对应的权重\最终得到与初始句群相邻的左侧句子的权重I和/或右侧句子 的权重W K ;
[0074] 比较子单元,用于将与初始句群相邻的左侧句子的权重I和/或右侧句子的权重 与所述权重阈值进行比较;
[0075] 新句群获取子单元,用于在与初始句群相邻的左侧句子的权重I和/或右侧句子 的权重W K大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成新句群 后输入至所述句子权重获取子单元作为初始句群,直至初始句群不再扩展得到最终句群并 输出至所述知识抽取模块;
[0076] 循环扩展子单元,用于在所述新句群获取子单元得到最终句群后控制所述初始句 群获取子单元从所述初始句群获取模块选取另一个初始句群进行扩展。
[0077] 本发明所述知识抽取系统,所述比较结果确定子单元包括:
[0078] 冗余值设定器,用于设定所述冗余值;初始句群向左扩展时,所述冗余值设定为与 初始句群相邻的左侧句子的长度的一半;
[0079] 初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一 半。
[0080] 本发明所述知识抽取系统,所述句群扩展单元还包括:
[0081] 阈值设定子单元,用于设定初始句群向左扩展句子数量阈值为L和/或设定初始 句群向右扩展句子数量阈值为R ;
[0082] 第一计数子单元,用于统计初始句群向左扩展的句子数量并输出;
[0083] 第二计数子单元,用于统计初始句群向右扩展的句子数量并输出;
[0084] 所述比较子单元,还用于将获取的初始句群向左扩展的句子数量与初始句群向左 扩展的句子数量阈值L做比较;将初始句群向右扩展的句子数量与初始句群向右扩展的句 子数量阈值R做比较;
[0085] 所述新句群获取子单元,还用于在初始句群向左扩展的句子数量小于或者等于L 和/或初始句群向右扩展的句子数量小于或者等于R,并且与初始句群相邻的左侧句子的 权重I和/或右侧句子的权重WK大于或者等于权重阈值时,将所述左侧和/或右侧句子扩 展至初始句群形成新句群后输入至所述句子权重获取子单元作为初始句群,直至初始句群 不再扩展得到最终句群并输出至所述知识抽取模块。
[0086] 本发明所述知识抽取系统,所述阈值设定子单元,若所述初始句群向左和向右扩 展时,设定所述向左扩展句子数量阈值L为6,所述向右扩展句子数量阈值R为6 ;若所述初 始句群只向左扩展时,设定所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈 值R为0 ;若所述初始句群只向右扩展时,设定所述向左扩展句子数量阈值L为0,所述向右 扩展句子数量阈值R为12。
[0087] 本发明所述知识抽取系统,所述句子权重获取子单元包括:
[0088] 第一权重获取器,用于将与初始句群相邻的左侧句子中包含的所有属性参数%所 对应的权重\加和,得到该左侧句子的权重I ;
[0089] 第二权重获取器,用于将与初始句群相邻的右侧句子中包含的所有属性参数%所 对应的权重\加和,得到该右侧句子的权重WK。
[0090] 本发明所述知识抽取系统,所述初始句群获取模块包括:
[0091] 分句单元,用于对文本文档进行分句;
[0092] 提取单元,用于取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1 的整数。
[0093] 本发明所述知识抽取系统,所述提取单元取所有前后连贯的3个句子形成初始句 群。
[0094] 本发明所述知识抽取系统,所述句群扩展单元还包括:
[0095] 句群权重获取子单元,用于根据最终句群中包含的属性参数%及对应的权重\得 到最终句群权重;且最终句群权重为最终句群中每一句子所包含的所有属性参数%所对应 的权重\的加和;
[0096] 句群长度获取子单元,用于获取最终句群长度;
[0097] 权重密度获取子单元,用于根据所述最终句群权重,得到最终句群权重密度Γ = 最终句群权重/最终句群长度。
[0098] 本发明所述知识抽取系统,所述知识抽取模块包括:
[0099] 去重输出最终句群单元,用于将所述最终句群进行去重操作后输出。
[0100] 本发明所述知识抽取系统,所述知识抽取模块还包括:
[0101] 删减输出最终句群单元,用于设置最终句群的最小长度,并将所述最终句群中,长 度小于所述最小长度的最终句群去除后输出。
[0102] 本发明所述知识抽取系统,所述知识抽取模块还包括:
[0103] 排序输出最终句群单元,用于根据每一所述最终句群的权重密度Γ的大小将最终 句群进行排序后输出。
[0104] 本发明的上述技术方案相比现有技术具有以下优点:
[0105] (1)本发明所述的知识抽取方法及系统,通过获取包括一个或一个以上句子的初 始句群,之后将初始句群长度与期望长度进行比较,并根据比较结果确定需要进行扩展的 初始句群,完成知识抽取。因为句群是由前后连贯的句子构成,因此句群本身在逻辑上就具 备很好的连贯性,通过对初始句群进行扩展获取得到的最终句群相应的在逻辑上也会具备 很好的连贯性。因此本发明克服了现有技术中抽取的知识信息在逻辑上缺少连贯性的缺 陷。
[0106] (2)本发明所述的知识抽取方法及系统,根据初始句群长度与期望长度的比较结 果,对初始句群设置权重阈值,并确定比较结果F=期望长度/(初始句群长度+冗余值), 将权重阈值设置为关于所述比较结果F的函数,所述比较结果F越小,即初始句群长度越接 近期望长度或超过期望长度,所述权重阈值越大;并将其与初始句群相邻的左侧句子的权 重I和/或右侧句子的权重W K进行比较,只有当所述左侧句子的权重I和/或右侧句子 的权重WK大于或者等于权重阈值,才会将该左侧和/或右侧句子扩展至初始句群形成新句 群,否则初始句群不再进行扩展。因此,所述权重阈值会根据待扩展的初始句群的实际情况 进行动态的调整。比如初始句群长度远小于期望长度时,所述权重阈值会变的很小,所述左 侧句子的权重I以及右侧句子的权重W K很容易大于所述权重阈值,因此很容易将该左侧句 子和/或该右侧句子扩展至初始句群;反之,所述权重阈值会变的很大,所述左侧句子的权 重I以及右侧句子的权重W K必须很大,也即该左侧句子和/或该右侧句子必须包含很多的 属性参数%的情况下才能被扩展至初始句群。通过此种方式,能够在初始句群扩展时有效 控制其长度,得到趋向于期望长度的最终句群。
[0107] (3)本发明所述的知识抽取方法及系统,在初始句群向左扩展时,所述冗余值选择 与初始句群相邻的左侧句子的长度的一半;在初始句群向右扩展时,所述冗余值选择与初 始句群相邻的右侧句子的长度的一半。通过此种方式,依据统计规律,可以使得到的最终句 群的长度更趋向于期望长度。
[0108] (4)本发明所述的知识抽取方法及系统,通过对初始句群进行向左和/或向右扩 展得到最终句群,因此抽取得到的最终句群具有很好的逻辑上的连贯性,不会使人感觉突 兀。同时,通过向左和/或向右扩展初始句群,可以避免遗漏待抽取的句子,使得抽取的知 识信息能够包含比较全面的信息量。
[0109] (5)本发明所述的知识抽取方法及系统,通过对初始句群向左和/或向右扩展的 句子数量进行限定,使得初始句群的向左和/或向右的扩展能够控制在一个比较合理的范 围内,使得抽取的知识信息更便于查阅和理解。
[0110] (6)本发明所述的知识抽取方法及系统,通过对得到的所有的最终句群进行去重 操作,避免了输出重复的知识信息,避免了用户阅读重复内容造成的时间上的浪费;通过设 置最终句群的最小长度,将长度小于所述最小长度的最终句群去除,可以使得输出的所有 的最终句群所包含的知识信息都不会太少,进而满足用户的查阅的需求;通过根据每一最 终句群的权重密度K'的大小对最终句群进行排序后输出,用户可以有选择的读取抽取的所 述最终句群。比如,根据所述权重密度K',按照从大到小的顺序对所有的最终句群排序后输 出,用户有可能只需要读取前面几个所述最终句群,即可获取到想要的知识信息,节省了用 户查询的时间。

【专利附图】

【附图说明】
[0111] 为了使本发明的内容更容易被清楚的理解,下面结合附图,对本发明作进一步详 细的说明,其中,
[0112] 图1是本发明所述知识抽取方法的步骤框图;
[0113] 图2是本发明所述对初始句群向左扩展的一个【具体实施方式】的流程图;
[0114] 图3是本发明所述知识抽取系统的结构框图;
[0115] 图4是本发明一个优选实施方式所述知识抽取系统的结构框图。
[0116] 1-初始句群提取模块,2-初始句群扩展模块,3-知识抽取模块,4-属性集模块, 11-分句单元,12-提取单元,21-权重阈值设置单元,22-句群扩展单元,31-去重输出最终 句群单元,32-删减输出最终句群单元,33-排序输出最终句群单元,211-比较结果确定子 单元,211a-冗余值设定器,212-权重阈值确定子单元单元,212a-阈值调整因子设定器, 212b-属性权重密度获取器,212c-权重阈值获取器,221-初始句群选取子单元,222-句子 权重获取子单元,222a-第一权重获取器,222b-第二权重获取器,223-比较子单元,224-新 句群获取子单元,225-循环扩展子单元,226-阈值设定子单元,227a-第一计数子单元, 227b-第二计数子单元,228a-句群权重获取子单元,228b-句群长度获取子单元,228c-权 重密度获取子单元。

【具体实施方式】
[0117] 实施例1
[0118] 本实施例所述的一种知识抽取方法,如图1所示,包括如下步骤:
[0119] 获取初始句群,初始句群中包括一个或一个以上句子。
[0120] 扩展初始句群,将初始句群长度与期望长度进行比较,根据比较结果确定需要进 行扩展的初始句群。
[0121] 知识抽取,将扩展后得到的最终句群输出,完成知识抽取。
[0122] 本实施例通过获取包括一个或一个以上句子的初始句群,之后将初始句群长度与 期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群,完成知识抽取。因为句 群本身就是由前后连贯的句子构成,因此句群本身在逻辑上就具备很好的连贯性,相应的 通过对初始句群进行扩展获取得到的最终句群在逻辑上也会具备很好的连贯性。因此本实 施例克服了现有技术中抽取的知识信息在逻辑上缺少连贯性的缺陷。
[0123] 作为一种优选的实施方式,本实施例所述知识抽取方法,所述获取初始句群的步 骤包括:
[0124] 对文本文档进行分句。
[0125] 取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
[0126] 作为一种优选的方式,所述1=3。
[0127] 本实施例通过对文本文档进行分句,取所有前后连贯的3个句子形成初始句群。 本实施例中设定1=3能够取得较好的输出结果,可以确保提取出的所有最终句群都至少包 括三个句子。本实施例中在文本中取前后连贯的3个句子形成初始句群,初始句群本身就 具备很好的逻辑关系,又是通过对初始句群进行扩展得到的最终句群,因此抽取得到的最 终句群具有很好的逻辑性,不会使人感觉突兀。
[0128] 本实施例所述知识抽取方法,所述扩展初始句群的步骤包括:
[0129] 设置权重阈值,根据初始句群长度与期望长度的比较结果,对初始句群设置权重 阈值。
[0130] 句群扩展,在扩展初始句群时,将待扩展句子的权重与权重阈值进行比较,根据比 较结果对初始句群进行扩展。
[0131] 作为另一种可选的实施方式,本实施例所述知识抽取的方法,所述扩展初始句群 的步骤可以为 :
[0132] 比较初始句群长度与期望长度,若初始句群长度还未达到期望长度,则对初始句 群进行扩展;若初始句群长度已经达到或者超过初始句群的长度,则停止扩展。
[0133] 本实施例中,不论哪一种扩展初始句群的方式,都考虑到了初始句群长度与期望 长度的关系,使得抽取的最终句群的长度更趋近于期望长度。
[0134] 本实施例所述期望长度为本领域技术人员所熟知的。例如,在专利文献中说明书 摘要的长度要求不超过300字,如果要从某一文本中抽取出相关的句子形成说明摘要,则 期望长度为300字。如果对期望长度没有特殊要求时,可以根据实际应用来选定。
[0135] 本实施例以及后续实施例中所说的期望长度、初始句群长度以及句子的长度等, 均是以字符数来计算的。
[0136] 实施例2
[0137] 在实施例1的基础上,本实施例所述知识抽取方法,如图2所示,所述设置权重阈 值的步骤进一步包括:
[0138] 确定比较结果F :确定初始句群长度与期望长度的比较结果F=期望长度/(初始 句群长度+冗余值)。
[0139] 确定权重阈值:F大于或等于1时的权重阈值小于F小于1时的权重阈值。
[0140] 本实施例所述的知识抽取方法,所述确定权重阈值的步骤中:
[0141] F大于或等于1时,权重阈值=(K/F)/G。
[0142] F小于1时,权重阈值=(K/F) *G。
[0143] 其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
[0144] 本实施例中,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈 值,其中所述比较结果F=期望长度八初始句群长度+冗余值),且F大于或等于1时,权重 阈值=(K/F)/G。F小于1时,权重阈值=(K/F)*G。因此,初始句群长度与期望长度的比 较结果F越小,即初始句群长度越接近或者超过期望长度,所述权重阈值越大,即所述权重 阈值能够根据初始句群长度与期望长度的比较结果进行动态调整,相较于现有技术中,固 定不便的判断标准,本实施例提供了一种能够根据实际情况进行动态调整的判断标准,以 保证抽取的知识信息更趋近于期望长度。
[0145] 作为一种优选的实施方式,所述阈值调整因子G的范围为:5<G< 30。
[0146] 经过试验验证,在此范围内设定阈值调整因子G,知识抽取的效果最好。
[0147] 作为一种可选的实施方式,本实施例所述的知识抽取方法,还包括如下步骤:
[0148] 确定属性集,所述属性集中包括N个属性参数%,以及所述属性参数&1对应的权 重Vi,其中N为正整数,i为整数且1彡i彡N。
[0149] 获取属性权重密度,利用公式Κ= Σ Vi/N得到属性权重密度K。
[0150] 所述属性参数%为属性名称,是根据要抽取的知识信息事先确定好的关键词,且 用该属性名称对应的字符串来表述。判断句子中是否包含所述属性参数%,即判断该句子 中是否包含表述所述属性参数%的字符串。与属性参数%所对应的权重\可以根据属性 参数%的重要程度来确定,属性参数%越重要,赋予其对应的权重Vi的数值就越大,反之, 越小。
[0151] 所述属性权重密度K除了利用公式Κ= Σ /Ν获取外,还可以由用户根据实际需 求自行设定获取。
[0152] 实施例3
[0153] 在实施例1或实施例2的基础上,本实施例所述知识抽取方法,如图2所示,所述 句群扩展的步骤进一步包括:
[0154] 选取初始句群,选取一个初始句群进行扩展。
[0155] 获取左侧句子权重和/或右侧句子权重,根据与初始句群相邻的左侧和/或右侧 句子包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重I和 /或右侧句子的权重W K。
[0156] 向左扩展和/或向右扩展初始句群,若与初始句群相邻的左侧句子的权重%和/ 或右侧句子的权重W K大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群 形成新句群,否则初始句群不再进行扩展。
[0157] 得到最终句群,将所述新句群作为初始句群,重复获取左侧句子权重和/或右侧 句子权重的步骤及向左扩展和/或向右扩展初始句群的步骤,直到初始句群不再扩展,得 到最终句群。
[0158] 循环扩展,采用所述选取初始句群的步骤至所述得到最终句群的步骤,对每一初 始句群进行扩展,得到所有的最终句群。
[0159] 本实施例中,初始句群的扩展分为向左扩展、向右扩展或者向左和向右扩展,其 中:
[0160] 只向左扩展初始句群时,只需得到与初始句群相邻的左侧句子的权重I即可;若 与初始句群相邻的左侧句子的权重I大于或等于权重阈值,则将该左侧句子扩展至初始句 群形成新句群,否则初始句群不再进行扩展。
[0161] 只向右扩展初始句群时,只需得到与初始句群相邻的右侧句子的权重WK即可;若 与初始句群相邻的右侧句子的权重W K大于或等于权重阈值,则将该右侧句子扩展至初始句 群形成新句群,否则初始句群不再进行扩展。
[0162] 既向左扩展又向右扩展初始句群时,则需得到与初始句群相邻的左侧句子的权重 和与初始句群相邻的右侧句子的权重W K。若与初始句群相邻的左侧句子的权重I大于 权重阈值,则将该左侧句子扩展至初始句群,若与初始句群相邻的右侧句子的权重WK大于 权重阈值,则将该右侧句子扩展至初始句群,通过对初始句群向左扩展和向右扩展得到新 句群,若与初始句群相邻的左侧句子的权重I和与初始句群相邻的右侧句子的权重1都小 于权重阈值,则初始句群不再进行扩展。此处所述的向左扩展和向右扩展,可以是先进行向 左扩展然后再进行向右扩展,也可以是先进行向右扩展再进行向左扩展,还可以是向左扩 展和向右扩展交替进行。
[0163] 本实施例所述的知识抽取方法,所述获取左侧句子权重和/或右侧句子权重的步 骤中:
[0164] 权重I为与初始句群相邻的左侧句子中包含的所有属性参数所对应的权重Vi 的加和。
[0165] 权重WK为与初始句群相邻的右侧句子中包含的所有属性参数所对应的权重Vi 的加和。
[0166] 该左侧和/或右侧句子经过上述判断,比如,判定所述左侧句子包含属性参数 和a2,则该左侧句子的权重;判定所述右侧句子包含属性参数a3和a4,则该右侧句 子的权重^=¥ 3+¥4。此处,当同一个属性&1出现多次时,其对应的权重¥1可以只加一次也可 以多次累加,一般情况下,为了使得到的结果更能够满足用户的需求,属性%出现几次,其 对应的权重\就累加几次。
[0167] 作为可替换的方案,句子权重计算的可替换方案为Σ ,其中i3iVi为句子中出 现属性%所产生的贡献值,β i为属性%的领域特征权重。属性%的领域特征权重可以通 过领域文档训练得到。当I都取1时,就是目前实施例中使用的方案。本实施例只是提 供了一种获取左侧句子权重I和/或右侧句子权重W K的方法,现有技术中还有其他计算句 子权重的方法,无论选择何种方法,只要保证在计算句子权重时选相同的方法即可。
[0168] 本实施例所述的知识抽取方法,根据初始句群长度与期望长度的比较结果,对初 始句群设置权重阈值,并确定比较结果F=期望长度/(初始句群长度+冗余值),将权重 阈值设置为关于所述比较结果F的函数,所述比较结果F越小,即初始句群长度越接近期望 长度或超过期望长度,所述权重阈值越大;并将其与初始句群相邻的左侧句子的权重I和 /或右侧句子的权重W K进行比较,只有当所述左侧句子的权重I和/或右侧句子的权重WK 大于或者等于权重阈值,才会将该左侧和/或右侧句子扩展至初始句群形成新句群,否则 初始句群不再进行扩展。因此,所述权重阈值会根据待扩展的初始句群的实际情况进行动 态的调整。比如初始句群长度远小于期望长度时,所述权重阈值会变的很小,所述左侧句子 的权重I以及右侧句子的权重W K很容易大于所述权重阈值,因此很容易将该左侧句子和/ 或该右侧句子扩展至初始句群;反之,所述权重阈值会变的很大,所述左侧句子的权重I以 及右侧句子的权重W K必须很大,也即该左侧句子和/或该右侧句子必须包含很多的属性参 数%的情况下才能被扩展至初始句群。通过此种方式,能够在初始句群扩展时有效控制其 长度,得到趋向于期望长度的最终句群。
[0169] 本实施例所述的知识抽取方法,所述确定比较结果F的步骤中:
[0170] 初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一 半。
[0171] 初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一 半。
[0172] 在实际的应用时,向左扩展时,所述冗余值可以选择与当前句群相邻的左侧句子 的长度的m倍;向右扩展时,所述冗余值可以选择与当前句群相邻的右侧句子的长度的m 倍;m最好能取小于1的数值,当m取0. 5时,即为本实施例中的方案。采用本实施例中的 冗余值,依据统计规律可知,得到的最终句群会更加接近于期望长度值。
[0173] 实施例4
[0174] 在实施例1至实施例3任一所述实施例的基础上,如图2所示,本实施例所述知识 抽取方法,所述句群扩展的步骤还包括:
[0175] 设定向左和/或向右扩展句子数量阈值,设定初始句群向左扩展句子数量阈值为 L,向右扩展句子数量阈值为R。
[0176] 所述向左扩展和/或向右扩展初始句群的步骤,及所述得到最终句群的步骤中, 当初始句群向左扩展句子的数量大于所述向左扩展句子数量阈值L后,初始句群不再向左 扩展;当初始句群向右扩展句子的数量大于所述向右扩展句子数量阈值R后,初始句群不 再向右扩展。
[0177] 图2只是本发明初始句群向左扩展的一种【具体实施方式】的流程图,但本发明初始 句群向左扩展中的一些步骤的先后顺序不受图2的限定。一些参数获取和设置的步骤比如 确定属性集、确定属性权重密度、设置阈值调整因子G、确定初始句群长度与期望长度的比 较结果F等步骤,可以在循环之前进行执行,也可以在循环过程中在初始句群扩展之前执 行,。
[0178] 本实施例通过对初始句群向左和/或向右扩展的句子数量进行限定,进一步使得 初始句群的向左和/或向右的扩展能够控制在一个比较合理的范围内,使得抽取的最终句 群更便于查阅和理解。
[0179] 作为一种优选的实施方式,本实施例所述知识抽取方法,所述设定向左和/或向 右扩展句子数量阈值的步骤中,若所述初始句群向左和向右扩展时,所述向左扩展句子数 量阈值L设定为6,所述向右扩展句子数量阈值R设定为6 ;若所述初始句群只向左扩展时, 所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈值R为0 ;若所述初始句群只 向右扩展时,所述向左扩展句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
[0180] 通过实验验证,将所述向左和/或向右扩展句子数量阈值设定为上述数值,获取 的知识抽取的结果无论是从句子的连贯性,包含的信息量,还是最终句群的长度控制方面, 都能达到很好的效果。
[0181] 实施例5
[0182] 在实施例1至实施例4任一所述实施例的基础上,本实施例所述知识抽取方法,还 包括如下步骤:
[0183] 获取最终句群权重,根据最终句群中包含的属性参数%及对应的权重\得到最 终句群权重;最终句群权重为最终句群中每一句子所包含的所有属性参数%所对应的权重 Vi的加和。
[0184] 获取最终句群权重密度,根据所述最终句群权重,得到最终句群权重密度Γ =最 终句群权重/最终句群长度。
[0185] 需要说明的是,当计算最终句群权重密度Γ时,还可以选择采用最终句群权重除 以最终句群中的句子数的方式,只要保证对于每一个最终句群在计算权重密度K'时均采用 相同的标准即可。
[0186] 最终句群经过上述判断,比如,判断最终句群包含属性参数叫、&3和a 5,则将所 述属性参数%、a3和a5分别对应的权重'、V3和V 5相加,即可得到所述最终句群的权重 ='+V3+V5,若获取最终句群长度为300字符,则所述最终句群的权重密度Γ = (Vi+V3+V5) /300。如果在最终句群中的某一句子或者不同句子中包含着多个某一属性ai,其对应的权 重可以只加一次也可以多次累加,一般情况下,为了使得到的结果更能满足用户的需求,属 性%出现几次,其对应的权重\就累加几次。
[0187] 作为可替换的方案,句群权重计算的可替换方案为Σ i3iVi,其中为句群包含 的句子中出现属性%所产生的贡献值,I为属性%的领域特征权重。属性%的领域特 征权重可以通过领域文档训练得到。当都取1时,就是目前实施例中使用的方案。本 实施例只是提供了一种判断最终句群权重的方法,现有技术中还有其他计算句子权重的方 法,无论选择何种方法,只要保证在计算句群权重和句子权重时选相同的方法即可。
[0188] 本实施例所述知识抽取方法,所述知识抽取的步骤还包括:
[0189] 去重输出最终句群,将所述最终句群进行去重操作后输出。
[0190] 本实施例所述知识抽取方法,所述知识抽取的步骤还包括:
[0191] 删减输出最终句群,设置最终句群的最小长度,将所述最终句群中,长度小于所述 最小长度的最终句群去除。
[0192] 本实施例所述知识抽取方法,所述知识抽取的步骤还包括:
[0193] 排序输出最终句群,根据每一所述最终句群的权重密度Κ'的大小对最终句群进行 排序后输出。
[0194] 本实施例所述的知识抽取方法,通过对得到的所有的最终句群进行去重操作,避 免了输出重复的知识信息,避免了用户阅读重复内容造成的时间上的浪费;通过设置最终 句群的最小长度,将长度小于所述最小长度的最终句群去除,可以使得输出的所有的最终 句群所包含的知识信息都不会太少,进而满足用户的查阅的需求;通过根据每一最终句群 的权重密度Κ'的大小对最终句群进行排序后输出,用户可以有选择的读取抽取的所述最终 句群。比如,根据所述权重密度Κ',按照从大到小的顺序对所有的最终句群排序后输出,用 户有可能只需要读取前面几个所述最终句群,即可获取到想要的知识信息,节省了用户查 询的时间。
[0195] 本实施例还提供了一个知识抽取时的具体的案例,文本如下:
[0196] 中国统一的秦王朝的开国皇帝(J1)。名政,秦庄襄王之子,十三岁即王位,三十九 岁称帝,在位共三十七年(J2)。(见彩图)秦始皇像陕西临潼秦始皇陵战国末年,从诸侯割 据向全国统一的趋势已日益明显(J3)。当时,秦国实力最强,已具备统一东方六国的条件 (J4)。秦王政初即位时,国政为相国吕不韦和宦官谬毐所把持(J5)。公元前238年,他亲理 国事,平定谬毐的叛乱,免除吕不韦的相职,令其徙处蜀郡;并任用尉缭,李斯等人,部署统 一全国的战略和策略(J6)。自公元前230年至前221年,先后灭韩、魏、楚、燕、赵、齐六国,终 于建立了中国历史上第一个统一的、多民族的、专制主义中央集权制国家秦朝(J7)。秦王政 为炫耀自已统一天下的功德,确立至高无上的权威,创立了"皇帝"的尊号,自称始皇帝,宣 布子孙称二世、三世,以至万世,代代承袭(J8)。随后,他在政治、经济和文化思想方面推行 了一系列巩固统一的中央集权国家的措施(J9)。他在全国范围内废除分封制,代以郡县制; 在皇帝的直接控制下,建立自中央直至郡县的一整套官僚机构;以秦国原有的法律令为基 础,吸收六国法律的某些条文,制定和颁行统一的法律(见云梦秦律)(J10)。所有的律令都 定期向御史核对,不容许错乱和篡改(J11)。将原六国贵族豪富迁至关中、巴蜀,以防止他们 的分裂复辟活动,仅迁至咸阳者即达十二万户(J12)。又明令禁止民间收藏武器,销毁没收 得来的武器,铸造十二个金人,陈列在宫殿之前(J13)。在经济上,大力推行重农抑商政策, 扶植封建土地私有制的发展(J14)。始皇三i^一年(前216)下令"使黔首自实田",即占有 土地的地主和自耕农只要向政府申报土地数额,交纳赋税,其土地所有权就得到政府的承 认和保护,并以商鞅所制定的度量衡为标准统一全国的度量衡制度(J15)。废止战国时代 的各国货币,统一全国币制(J16)。为发展全国水陆交通,又实行"车同轨",堕毁旧东方各 国的城郭,修建由咸阳通向燕齐和吴楚地区的驰道,以及由咸阳经云阳(今陕西淳化西北) 直达九原(今内蒙古包头西)的直道;在西南地区修筑了"五尺道",开凿沟通湘江和漓江的 灵渠(J17)。在文化思想方面,以秦国通行的文字为基础制定小篆,作为标准文字,颁行全国 (J18)。并利用战国阴阳家的五德终始说,为秦朝的专制主义统治制造神学根据(J19)。以 秦得水德,水色黑,终数六,因而规定衣服旄旌节旗皆尚黑,符传、法冠、舆乘等制度都以六 为数(J20)。水主阴,阴代表刑杀,于是以此为依据加重严刑酷法的实施(J21)。始皇三十四 年,又采纳丞相李斯的建议,下令销毁民间所藏《诗》、《书》、百家语,禁止私学(J22)。随后 因求仙药的侯生、卢生逃亡,牵连儒生、方士四百余人,而将其全部坑杀于咸阳(J23)。秦始 皇即位后,派蒙恬率兵出击匈奴,收复河南地,迫使其退往阴山以北;为防其进一步侵扰,还 把战国时秦、赵、燕三国北边的长城连结起来,修筑西起临洮(今甘肃岷县)东至辽东的万 里长城(J24)。在征服百越地区后,设置桂林、象郡、南海等郡(J25)。始皇末年,秦郡数由 统一之初的三十六郡增至四十余郡,其版图"东至海暨朝鲜,西至临洮、羌中,南至北向户, 北据河为塞,并阴山至辽东"(J26)。秦始皇是很有作为的政治家,他每天亲自处理大量的奏 章文书,不完成规定的数量,决不休息(J27)。但因刚愎自用,以刑杀为威,大臣多怕获罪, 不敢指陈他的过失(J28)。在统一六国之后,他修建豪华的阿房宫和骊山墓,先后进行五次 大规模的巡游,在名山胜地刻石纪功,炫耀声威(J29)。为求长生不老之药,又派方士徐市 (即徐福)率童男女数千人至东海求神仙等等,耗费了巨大的财力和人力,加深了人民的苦 难(J30)。以秦始皇为首的统治阶级对广大人民所实行的政治压迫和经济剥削,引起了人 民的反抗(J31)。六国贵族的残余势力也乘机进行反秦活动(J32)。秦始皇于二十九年东 游,途经博浪沙(今河南中牟西北)时遭刺客狙击(J33)。三十六年,陨石堕于东郡,有人 亥IJ"始皇帝死而地分"于石(J34)。次年,秦始皇巡游返至平原津得病(J35)。他自知病将 不起,于是作书命在上郡监蒙恬军的长子扶苏速归咸阳送葬,并继嗣帝位(J36)。行至沙丘 (今河北广宗西北),秦始皇病死(J37)。中车府令赵高勾结始皇少子胡亥和丞相李斯,伪 造遗诏立胡亥为太子,并赐扶苏死(J38)。秦二世胡亥即位后,对人民的剥削和压迫变本加 厉,社会矛盾激化,终于在二世三年(前209)激起陈胜、吴广领导的农民大起义(见陈胜、 吴广起义)(J39)。不久,秦朝灭亡(J40)。
[0197] 属性集T:
[0198]

【权利要求】
1. 一种知识抽取方法,其特征在于,包括如下步骤: 获取初始句群,初始句群中包括一个或一个以上句子; 扩展初始句群,将初始句群长度与期望长度进行比较,根据比较结果确定需要进行扩 展的初始句群; 知识抽取,将扩展后得到的最终句群输出,完成知识抽取。
2. 根据权利要求1所述的知识抽取方法,其特征在于: 所述扩展初始句群的步骤包括: 设置权重阈值,根据初始句群长度与期望长度的比较结果,对初始句群设置权重阈 值; 句群扩展,在扩展初始句群时,将待扩展句子的权重与权重阈值进行比较,根据比较结 果对初始句群进行扩展。
3. 根据权利要求2所述的知识抽取方法,其特征在于: 所述设置权重阈值的步骤进一步包括: 确定比较结果F :确定初始句群长度与期望长度的比较结果F=期望长度/(初始句群 长度+冗余值); 确定权重阈值:F大于或等于1时的权重阈值小于F小于1时的权重阈值。
4. 根据权利要求3所述的知识抽取方法,其特征在于: 所述确定权重阈值的步骤中: F大于或等于1时,权重阈值=(K/F)/G ; F小于1时,权重阈值=(K/F) *G ; 其中G为阈值调整因子且G为大于1的数,K为属性权重密度。
5. 根据权利要求4所述的知识抽取方法,其特征在于: 所述阈值调整因子G的范围为:5彡G彡30。
6. 根据权利要求1-5任一所述的知识抽取方法,其特征在于,还包括: 确定属性集,所述属性集中包括N个属性参数%,以及所述属性参数%对应的权重 其中N为正整数,i为整数且1彡i彡N ; 获取属性权重密度,利用公式Κ= Σ Vi/N得到属性权重密度K。
7. 根据权利要求2-6任一所述的知识抽取方法,其特征在于: 所述句群扩展的步骤进一步包括: 选取初始句群,选取一个初始句群进行扩展; 获取左侧句子权重和/或右侧句子权重,根据与初始句群相邻的左侧和/或右侧句子 包含的属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重I和/或 右侧句子的权重WK ; 向左扩展和/或向右扩展初始句群,若与初始句群相邻的左侧句子的权重I和/或右 侧句子的权重WK大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成 新句群,否则初始句群不再进行扩展; 得到最终句群,将所述新句群作为初始句群,重复获取左侧句子权重和/或右侧句子 权重的步骤及向左扩展和/或向右扩展初始句群的步骤,直到初始句群不再扩展,得到最 终句群; 循环扩展,采用所述选取初始句群的步骤至所述得到最终句群的步骤,对每一初始句 群进行扩展,得到所有的最终句群。
8. 根据权利要求3-7任一所述的知识抽取方法,其特征在于: 所述确定比较结果F的步骤中: 初始句群向左扩展时,所述冗余值设定为与初始句群相邻的左侧句子的长度的一半; 初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
9. 根据权利要求7或8所述的知识抽取方法,其特征在于: 所述句群扩展的步骤还包括: 设定向左和/或向右扩展句子数量阈值,设定初始句群向左扩展句子数量阈值为L,向 右扩展句子数量阈值为R ; 所述向左扩展和/或向右扩展初始句群的步骤,及所述得到最终句群的步骤中,当初 始句群向左扩展句子的数量大于所述向左扩展句子数量阈值L后,初始句群不再向左扩 展;当初始句群向右扩展句子的数量大于所述向右扩展句子数量阈值R后,初始句群不再 向右扩展。
10. 根据权利要求9所述的知识抽取方法,其特征在于: 所述设定向左和/或向右扩展句子数量阈值的步骤中,若所述初始句群向左和向右扩 展时,所述向左扩展句子数量阈值L设定为6,所述向右扩展句子数量阈值R设定为6 ;若所 述初始句群只向左扩展时,所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈 值R为0 ;若所述初始句群只向右扩展时,所述向左扩展句子数量阈值L为0,所述向右扩展 句子数量阈值R为12。
11. 根据权利要求7-10任一所述的知识抽取方法,其特征在于: 所述获取左侧句子权重和/或右侧句子权重的步骤中: 权重I为与初始句群相邻的左侧句子中包含的所有属性参数ai所对应的权重Vi的加 和; 权重WK为与初始句群相邻的右侧句子中包含的所有属性参数ai所对应的权重Vi的加 和。
12. 根据权利要求1-11任一所述的知识抽取方法,其特征在于: 所述获取初始句群的步骤包括: 对文本文档进行分句; 取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1的整数。
13. 根据权利要求12所述的知识抽取方法,其特征在于: 所述1=3。
14. 根据权利要求1-13任一所述的知识抽取方法,其特征在于,还包括: 获取最终句群权重,根据最终句群中包含的属性参数%及对应的权重\得到最终句 群权重;最终句群权重为最终句群中每一句子所包含的所有属性参数%所对应的权重\的 加和; 获取最终句群权重密度,根据所述最终句群权重,得到最终句群权重密度K' =最终句 群权重/最终句群长度。
15. 根据权利要求1-14任一所述的知识抽取方法,其特征在于: 所述知识抽取的步骤还包括: 去重输出最终句群,将所述最终句群进行去重操作后输出。
16. 根据权利要求1-15任一所述的知识抽取方法,其特征在于: 所述知识抽取的步骤还包括 删减输出最终句群,设置最终句群的最小长度,将所述最终句群中,长度小于所述最小 长度的最终句群去除。
17. 根据权利要求1-16任一所述的知识抽取方法,其特征在于: 所述知识抽取的步骤还包括: 排序输出最终句群,根据每一所述最终句群的权重密度K'的大小对最终句群进行排序 后输出。
18. -种知识抽取系统,其特征在于,包括: 初始句群获取模块(1),用于获取初始句群,且所述初始句群中包括一个或一个以上句 子; 初始句群扩展模块(2),用于将从所述初始句群获取模块(1)获取的初始句群长度与 期望长度进行比较,并根据比较结果确定需要进行扩展的初始句群; 知识抽取模块(3),用于将从所述初始句群扩展模块(2)获取的扩展后得到的最终句 群输出,完成知识抽取。
19. 根据权利要求18所述的知识抽取系统,其特征在于: 所述初始句群扩展模块(2 )包括: 权重阈值设置单元(21),用于根据初始句群长度与期望长度的比较结果,对初始句群 设置权重阈值; 句群扩展单元(22),用于在扩展初始句群时,将带扩展句子的权重与权重阈值进行比 较,根据比较结果对初始句群进行扩展。
20. 根据权利要求19所述的知识抽取系统,其特征在于: 所述权重阈值设置单元(21)包括: 比较结果确定子单元(211 ),用于确定初始句群长度与期望长度的比较结果F=期望长 度/ (初始句群长度+冗余值); 权重阈值确定子单元(212),用于确定F大于或等于1时的权重阈值小于F小于1时的 权重阈值。
21. 根据权利要求20所述的知识抽取系统,其特征在于: 所述权重阈值确定子单元(212)包括: 阈值调整因子设定器(212a),用于设定阈值调整因子G并输出,G为大于1的数; 属性权重密度获取器(212b ),用于获取属性权重密度K并输出; 权重阈值获取器(212c),用于根据所述阈值调整因子设定器(212a)、所述属性权重密 度获取器(212b)和所述比较结果确定子单元(211)的输出结果,获取权重阈值并输出;在 F大于或等于1时,权重阈值=(K/F)/G;在F小于1时,权重阈值=(K/F)*G,其中G为阈 值调整因子且G为大于1的数,K为属性权重密度。
22. 根据权利要求21所述的知识抽取系统,其特征在于: 所述阈值调整因子设定器(212a),设定所述阈值调整因子G的范围为: 5彡G彡30。
23. 根据权利要求18-22任一所述的知识抽取系统,其特征在于,还包括: 属性集模块(4),用于存储属性集,所述属性集中包括N个属性参数%,以及所述属性 参数ai对应的权重Vp其中N为正整数,i为整数且1 < i < N ; 所述属性权重密度获取器(212b),利用公式Κ= Σ Vi/N得到属性权重密度K。
24. 根据权利要求19-23任一所述的知识抽取系统,其特征在于: 所述句群扩展单元(22)包括: 初始句群选取子单元(221 ),用于从所述初始句群获取模块(1)选取一个初始句群进 行扩展; 句子权重获取子单元(222),用于根据与初始句群相邻的左侧和/或右侧句子包含的 属性参数ai及对应的权重Vi最终得到与初始句群相邻的左侧句子的权重I和/或右侧句 子的权重WK ; 比较子单元(223),用于将与初始句群相邻的左侧句子的权重I和/或右侧句子的权 重WK与所述权重阈值进行比较; 新句群获取子单元(224),用于在与初始句群相邻的左侧句子的权重I和/或右侧句 子的权重WK大于或者等于权重阈值,则将该左侧和/或右侧句子扩展至初始句群形成新句 群后输入至所述句子权重获取子单元(222)作为初始句群,直至初始句群不再扩展得到最 终句群并输出至所述知识抽取模块(3); 循环扩展子单元(225),用于在所述新句群获取子单元(224)得到最终句群后控制所 述初始句群获取子单元(221)从所述初始句群获取模块(1)选取另一个初始句群进行扩 展。
25. 根据权利要求20-24任一所述的知识抽取系统,其特征在于: 所述比较结果确定子单元(211)包括: 冗余值设定器(211a),用于设定所述冗余值;初始句群向左扩展时,所述冗余值设定 为与初始句群相邻的左侧句子的长度的一半; 初始句群向右扩展时,所述冗余值设定为与初始句群相邻的右侧句子的长度的一半。
26. 根据权利要求24或25所述的知识抽取系统,其特征在于: 所述句群扩展单元(22 )还包括: 阈值设定子单元(226 ),用于设定初始句群向左扩展句子数量阈值为L和/或设定初始 句群向右扩展句子数量阈值为R ; 第一计数子单元(227a),用于统计初始句群向左扩展的句子数量并输出; 第二计数子单元(227b),用于统计初始句群向右扩展的句子数量并输出; 所述比较子单元(223),还用于将获取的初始句群向左扩展的句子数量与初始句群向 左扩展的句子数量阈值L做比较;将初始句群向右扩展的句子数量与初始句群向右扩展的 句子数量阈值R做比较; 所述新句群获取子单元(224),还用于在初始句群向左扩展的句子数量小于或者等于 L和/或初始句群向右扩展的句子数量小于或者等于R,并且与初始句群相邻的左侧句子的 权重I和/或右侧句子的权重WK大于或者等于权重阈值时,将所述左侧和/或右侧句子扩 展至初始句群形成新句群后输入至所述句子权重获取子单元(222)作为初始句群,直至初 始句群不再扩展得到最终句群并输出至所述知识抽取模块(3)。
27. 根据权利要求26所述的知识抽取系统,其特征在于: 所述阈值设定子单元(226),若所述初始句群向左和向右扩展时,设定所述向左扩展句 子数量阈值L为6,所述向右扩展句子数量阈值R为6 ;若所述初始句群只向左扩展时,设定 所述向左扩展句子数量阈值L为12,所述向右扩展句子数量阈值R为0 ;若所述初始句群只 向右扩展时,设定所述向左扩展句子数量阈值L为0,所述向右扩展句子数量阈值R为12。
28. 根据权利要求24-27任一所述的知识抽取系统,其特征在于: 所述句子权重获取子单元(222)包括: 第一权重获取器(222a),用于将与初始句群相邻的左侧句子中包含的所有属性参数&1 所对应的权重\加和,得到该左侧句子的权重I ; 第二权重获取器(222b),用于将与初始句群相邻的右侧句子中包含的所有属性参数% 所对应的权重\加和,得到该右侧句子的权重WK。
29. 根据权利要求18-28任一所述的知识抽取系统,其特征在于: 所述初始句群获取模块(1)包括: 分句单元(11),用于对文本文档进行分句; 提取单元(12),用于取所有前后连贯的I个句子形成初始句群,其中I为大于或等于1 的整数。
30. 根据权利要求29所述的知识抽取系统,其特征在于: 所述提取单元(12)取所有前后连贯的3个句子形成初始句群。
31. 根据权利要求24-30任一所述的知识抽取系统,其特征在于: 所述句群扩展单元(22)还包括: 句群权重获取子单元(228a),用于根据最终句群中包含的属性参数&1及对应的权重\ 得到最终句群权重;且最终句群权重为最终句群中每一句子所包含的所有属性参数%所对 应的权重\的加和; 句群长度获取子单元(228b),用于获取最终句群长度; 权重密度获取子单元(228c),用于根据所述最终句群权重,得到最终句群权重密度 K' =最终句群权重/最终句群长度。
32. 根据权利要求18-31任一所述的知识抽取系统,其特征在于: 所述知识抽取模块(3)包括: 去重输出最终句群单元(31 ),用于将所述最终句群进行去重操作后输出。
33. 根据权利要求18-32任一所述的知识抽取系统,其特征在于: 所述知识抽取模块(3)还包括: 删减输出最终句群单元(32),用于设置最终句群的最小长度,并将所述最终句群中,长 度小于所述最小长度的最终句群去除后输出。
34. 根据权利要求18-33任一所述的知识抽取系统,其特征在于: 所述知识抽取模块(3)还包括: 排序输出最终句群单元(33),用于根据每一所述最终句群的权重密度Γ的大小将最 终句群进行排序后输出。
【文档编号】G06F17/30GK104216934SQ201310456958
【公开日】2014年12月17日 申请日期:2013年9月29日 优先权日:2013年9月29日
【发明者】叶茂, 金立峰, 雷超, 王元龙, 汤帜, 徐剑波 申请人:北大方正集团有限公司, 北京方正阿帕比技术有限公司, 北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1