一种迭代式概念属性名称自动获取方法和系统的制作方法

文档序号:6361729阅读:223来源:国知局
专利名称:一种迭代式概念属性名称自动获取方法和系统的制作方法
技术领域
本发明涉及人工智能计算机领域中的大规模知识获取领域,尤其涉及一种迭代式的概念属性名称自动获取方法和系统。
背景技术
任何概念词都有一定的语义。但是概念词仅是一个特殊的术语,其直接表达语义的能力非常弱,因此我们必须借助其他类型的知识进一 步表达或者刻画概念词所蕴涵的语义。概念的属性就是一种此类的知识。一般认为,属性是一种概念内涵的载体。一个属性描述了概念的一个特征或性质;通过属性,我们可以区分不同的概念,发现它们之间的差异。因此,属性具备描述概念和鉴别概念的功能。每个概念都有一组用于鉴别和修饰的属性,这些属性在文本中表现为不同的属性名称。属性名称是表示属性的专有名词,大多数属性名称都能起到见名知义的作用。我们可以通过获取较常用的概念-属性名称的搭配,给出概念的关键属性集合。有了这个集合,我们就具备描述概念和鉴别概念的能力。另外,属性名称获取也是属性值获取的前一步工作。为方便理解属性的含义,下面我们给出一个例子对地域类的概念“中国”,它有一些属性名称“人口总数”、“人口数量”、“国土面积”、“GDP”等等。其中“人口总数”和“人口数量”具有相同的语义,它们所表达的那个特定的语义就是“人口总数”和“人口数量”所对应的属性,而“人口总数”和“人口数量”则是那个属性的具体的载体——属性名称。通过给出的这些具体的属性名称,我们就能从属性这个角度去认识概念“中国”,同时也能在这个角度上将“中国”和其他类型的概念(比如植物类的概念“苹果”)区分开来。另外,对“中国”的“国土面积”这个属性名称而言,它有一个属性值960万平方公里,属性值获取也是一类重要的知识获取,而获取属性值的前提工作是获取概念的属性名称。在不致混淆的情况下,本发明的下文中,为了简化陈述,我们都直接使用属性来简称属性名称。中文属性主要包括数量型、定性型、角色型三种类型。目前的属性获取除了耗时耗力地手工获取外,在计算机自动或半自动获取方面,依据语料数据的来源,主要包括基于结构化数据源的提取,如Web查询日志;基于半结构化的Web网页的提取,如从网页表格或表单中提取,从Wikipedia Articles中提取;以及基于多数据源的提取。基于结构化和半结构化数据源的方法因其语料结构规整简短,具有一定的规律性,针对性强,主要采用弱文法和统计的方式进行提取,具有较高的准确率,但由于数据源的规模有限,因此召回率普遍不高。基于多数据源的方法主要是将结构化与非结构数据交叉迭代起来获取,首先从结构化数据中获取准确率较高的结果作为种子属性,然后使用种子属性从非结构化文本中迭代获取更多的属性。这种方法相比单一语料来源,综合考虑了准确率和召回率,但获取方法相对更加复杂,且结果属性的好坏和属性类型过多依赖于种子。现有技术方法的结果数量一般都在100以内,且偏重用Top N结果的准确率,而忽略了真实属性集合的庞大和多样性。实际上,每种类型的概念,其真实的属性集合一般远远超过了他们获取得到的数量,且属性类型丰富多样,其中很多属性尽管不是很常见,但在某个领域却很重要(比如,对类型“国家”来说,“货币供应量增长率”,“淡水人均拥有量”就是不常见但是分别在经济和环境领域却很重要的属性),而他们的方法一般无法获取到这种不常见的属性,也就无法满足构建大型知识库的需求。因此,迫切需要一种概念属性的大规模自动获取方法和系统,从而提高目前属性获取的效率和效果。

发明内容
为解决上述问题,本发明的目的是公开一种迭代式的概念属性名称自动获取方法 和系统,是解决上述现有技术的无法迭代获取,召回率不高和类型覆盖不全面的问题,提出了一种从非结构化Web网页中基于前后缀迭代的属性获取方法及系统。现有技术的获取方法只能得到为数不多的属性,而对于每个概念来说,其实际的属性数量却远远超越了他们能获取到的数量,我们的方法能获取到庞大的属性数量,相比现有技术的结果,我们的结果更接近于真实的属性数量;现有技术的方法侧重于属性的获取,而对于获取结果的验证,却不甚重视,我们的方法不仅重视获取,也更重视结果的验证,因此本方法不仅具有较高的召回率,也具有很高的准确率。非结构化数据源由于结构复杂多样,获取较其他数据源更困难,但它却具有语料开放丰富等优点。本发明公开一种迭代式概念属性名称自动获取方法,包括如下步骤步骤1,将需要获取的概念名称,建立属性空间,所述属性空间包含以属性构成的概念名称;步骤2,从属性空间中选择属性前缀和/或属性后缀,从网页中提取候选属性;步骤3,采用基于相似性的验证模型对候选属性进行验证,通过迭代方式扩充属性前缀和/或属性后缀。所述的迭代式概念属性名称自动获取方法,其特征在于,步骤I还包括如下步骤步骤21,属性空间由属性构成;每个概念有一组属性,这些属性构成了此概念的属性空间,表达属性本质的属性元为中心属性元,修饰其它属性元的属性元为修饰性属性元;中心属性元不修饰任何属性元;在一个属性中,除中心属性元以外的属性元都是修饰性属性元;步骤22,出现在结尾的中心属性元,定义为属性后缀,出现在开头的修饰性属性元,定义为属性前缀。所述的迭代式概念属性名称自动获取方法,步骤3之后还包括步骤4,从候选属性进行验证后,得到正确属性;步骤5,对正确属性提取新的属性前缀、属性后缀,然后继续从步骤2开始执行。所述的迭代式概念属性名称自动获取方法,步骤3中扩充属性前缀、属性后缀还包括如下步骤
步骤31,将得到的正确属性作为种子,加入到集合Seeds中;步骤32,从Seeds中训练新的后缀,加入到新生广的属性后缀集合SUFnew中;步骤33,从Seeds中训练新的前缀,加入到新生产的属性前缀集合PREnew中;步骤34,如果SUFnew为空,且PREnew为 空,则获取结束;否则执行步骤35 ;步骤35,使用SUFnew从网页中获取概念的候选属性,并赋值给As',其中As'表示候选属性的集合;步骤36,验证As ^,得到的正确属性赋值给As,并将As加入到属性空间中,其中As表示经过验证后的正确属性的集合;步骤37,从As中训练新的前缀,加入到PREnew中;步骤38,使用PREnew从网页中获取概念的候选属性,并赋值给As';步骤,39,验证As',得到的正确属性赋值给As,并将As加入到属性空间属性空间中;步骤310,清空 PREnew ;步骤311,从As中训练新的后缀,加入到SUFnew中;转步骤34。所述的迭代式概念属性名称自动获取方法,步骤32、步骤311还包括如下步骤步骤41,清空 SUFnew ;步骤42,从输入参数的第I个属性起,顺序地取出下一个属性;如果输入参数中的属性都取完,则转步骤46 ;否则,标记取到的属性为A,执行步骤43 ;步骤43,得到A的结尾词,标记为属性元AE ;步骤44,如果AE已经被当做后缀使用过,则转步骤42 ;否则执行步骤45 ;步骤45 :如果AE在后缀词典中,则将AE加入到SUFnew ;否则如果AE在输入参数中作为结尾词的频率大于等于阈值s,也将AE加入到SUFnew ;转步骤42 ;步骤46 :返回 SUFnew。所述的迭代式概念属性名称自动获取方法,步骤33、步骤37还包括如下步骤步骤51,清空 PREnew ;步骤52,从输入参数Input的第I个属性起,顺序地取出下一个属性;如果Input中的属性都取完,则转步骤56.否则,标记取到的属性为A,执行步骤53 ;步骤53,得到A的开头词,标记为AE ;步骤54,如果AE已经被当做前缀使用过,则转步骤52 ;否则执行步骤55 ;步骤55,如果AE在前缀词典中,则将AE加入到PREnew ;否则如果AE在输入参数中作为开头词的频率大于等于阈值S,也将AE加入到PREnew ;转步骤52 ;步骤56,返回 PREnew。所述的迭代式概念属性名称自动获取方法,步骤35还包括如下步骤步骤61,从SUFnew的第I个属性后缀起,所述SUFnew中为属性后缀,顺序地取出下一个属性后缀;如果SUFnew中的属性后缀都取完,则转步骤64 ;否则,标记取到的属性后缀为SUF,执行步骤62 ;步骤62,从基于后缀的获取模式库中提取模式,生成一组搜索引擎支持的模式,使用这些模式,自动地依次从搜索引擎中寻找,得到获取语料Corpus ;步骤63,从Corpus中提取候选属性,将这些候选属性加入到As'中;转步骤61 ;
步骤64,返回 As'。所述的迭代式概念属性名称自动获取方法,步骤38还包括如下步骤步骤71,从PREnew的第I个属性前缀起,其中PREnew中为属性前缀,顺序地取出下一个属性前缀;如果PREnew中的属性前缀都取完,则转步骤74.否则,标记取到的属性前缀为PRE,执行步骤72 ;步骤72,从基于前缀的获取模式库中提取模式,生成一组搜索引擎支持的模式,使用这些模式,自动地依次从搜索引擎中寻找,得到获取语料Corpus ;步骤73,从Corpus中提取候选属性,将这些候选属性加入到As'中,转步骤71 ; 步骤74,返回 As'。所述的迭代式概念属性名称自动获取方法,步骤36、步骤39还包括如下步骤步骤81,对候选属性As'进行预处理,得到As";所述As"是经过预处理以后,得到的候选属性集合;步骤82,对As"进行验证,得到验证后的正确属性As。所述的迭代式概念属性名称自动获取方法,步骤3中基于相似性的验证模型还包括如下步骤步骤91,在概念的属性空间中,如果在属性空间中两个属性元AE1和AE2频繁被相同的属性元所依存,那么AE1, AE2之间的相似度较高;反之,则相似度越低;步骤92,在概念的属性空间中,如果在属性空间中两个属性元AE1和AE2频繁修饰相同的属性元,那么AE1和AE2之间的相似度较高;反之,则相似度越低;步骤93,在属性元相似度基础上,以依存对相似度作为属性元依存对之间相似程度的定量表示。所述的迭代式概念属性名称自动获取方法,步骤93还包括如下步骤步骤94,对于与属性A有相似关系的A',若A中的依存对P能在A'中找到相似的依存对P',则构造从P到P'的映射,称这个过程为属性对齐;步骤95,判断正确属性的强弱程度,使用定量指标属性置信度;步骤96,由A'推导出A的属性置信度D (A' — A)。所述的迭代式概念属性名称自动获取方法,步骤96还包括如下步骤步骤97,生成属性置信度 I A1 (A) =D(Ai —A),其中 i = arg Inaxi Sim (Ai, A);步骤98,生成依存对的置信度I =D1 (P) = D(Ai-P);步骤99,生成属性置信度 2 D2 (A) = arg Inaxi D (Ai — A);步骤910,生成依存对的置信度2 =D2⑵=Brgmaxi D (Ai — P);步骤911,生成属性置信度3 ..D3(A) = YjI0^-DiAi 4 A),其中,t为划分个数;
.I SimPair(A ,A) I一加权系数2 ~I pair^ I~ ; SimPair (Ai, A)表示Ai与A相似对的个数;Pair(A)表示A中依存对的数量;选择t最小化原则进行划分;同时,若t最小时存在多个划分,选择D3 (A)最大化进行划分。所述的迭代式概念属性名称自动获取方法,步骤82还包括如下步骤步骤121,将Seeds中的所有种子属性的置信度D标记为I ;步骤122,将Seeds和候选属性As"加入到集合T ;
步骤123,为T构造属性空间图G ;步骤124,从与Seeds相邻的候选属性开始,对所述图G做广度优先搜索,计算As"中所有候选属性的置信度D。所述的迭代式概念属性名称自动获取方法,步骤123还包括如下步骤步骤131,初始化所述图G为空; 步骤132,从T的第I个属性起,顺序地取出下一个属性。如果T中的属性都取完,则结束步骤123 ;否则,标记取到的属性为A,执行步骤133 ;步骤133,在T中,从A的下一个属性起,依次顺序地向下取下一个属性。如果已经取不到属性,则转步骤132 ;否则标记当前取到的属性为k',执行步骤134 ;步骤134,如果G中不存在节点A,则在G中为A增加一个节点,并对A做属性元分解和依存关系解析;步骤135,如果G中不存在节点V,则在G中为V增加一个节点,并对V做属性元分解和依存关系解析;步骤136,如果A和V相似,则构造从A到V的无向边;转步骤132。所述的迭代式概念属性名称自动获取方法,步骤123还包括步骤141 :初始化G为空;步骤142 :从T的第I个属性起,顺序地取出下一个属性;如果T中的属性都取完,则结束步骤123 ;否则,标记取到的属性为A,执行步骤143 ;步骤143 :在T中,从A的下一个属性起,依次顺序地向下取下一个属性。如果已经取不到属性,则转步骤142 ;否则标记当前取到的属性为k',执行步骤144 ;步骤144 :如果G中不存在节点A,则在G中为A增加一个节点,并对A做属性元分解和依存关系解析;步骤145 :从A的第I个依存对起,顺序地取出下一个依存对;如果A中的依存对都取完,则转步骤147 ;否则,标记取到的依存对为Pair,执行步骤146 ;步骤146 :如果G中存在Pair,则构造从Pair到A的无向边;否则,在Tablel中查找Pair的2个属性元的位置概率,如果找不到,则计算并存入到Tablel中;如果这两个概率都大于阈值S,则在G中为Pair增加一个节点,并置Pair的置信度为ASS,构造从Pair到A的无向边;步骤147 :如果G中不存在节点V,则在G中为V增加一个节点,并对V做属性元分解和依存关系解析;步骤148 =WAi的第I个依存对起,顺序地取出下一个依存对;如果Ai中的依存对都取完,则转步骤1410 ;否则,标记取到的依存对为P,执行步骤149 ;步骤149 :如果G中存在Pair,则构造从Pair到V的无向边;否则,在Tablel中查找Pair的2个属性元的位置概率,如果找不到,则计算并存入到Tablel中;如果这两个概率都大于阈值s,则在G中为Pair增加一个节点,并置Pair的置信度为ASS,构造从Pair到A'的无向边;步骤1410 :如果A和A'相似,则构造从A到V的无向边;转步骤142。所述的迭代式概念属性名称自动获取方法,步骤3中对于候选属性进行验证还包括
步骤151,对于出现在属性中 的子序列,如果子序列是属性依存树上的二元依存关系,则子序列为属性元序列;步骤152,属性元序列的个数为
权利要求
1.一种迭代式概念属性名称自动获取方法,其特征在于,包括如下步骤 步骤I,将需要获取的概念名称,建立属性空间,所述属性空间包含以属性构成的概念名称; 步骤2,从属性空间中选择属性前缀和/或属性后缀,从网页中提取候选属性; 步骤3,采用基于相似性的验证模型对候选属性进行验证,通过迭代方式扩充属性前缀和/或属性后缀。
2.如权利要求I所述的迭代式概念属性名称自动获取方法,其特征在于,步骤I还包括如下步骤 步骤21,属性空间由属性构成;每个概念有一组属性,这些属性构成了此概念的属性 空间,表达属性本质的属性元为中心属性元,修饰其它属性元的属性元为修饰性属性元;中心属性元不修饰任何属性元;在一个属性中,除中心属性元以外的属性元都是修饰性属性元; 步骤22,出现在结尾的中心属性元,定义为属性后缀,出现在开头的修饰性属性元,定义为属性前缀。
3.如权利要求I所述的迭代式概念属性名称自动获取方法,其特征在于,步骤3之后还包括 步骤4,从候选属性进行验证后,得到正确属性; 步骤5,对正确属性提取新的属性前缀、属性后缀,然后继续从步骤2开始执行。
4.如权利要求3所述的迭代式概念属性名称自动获取方法,其特征在于,步骤3中扩充属性前缀、属性后缀还包括如下步骤 步骤31,将得到的正确属性作为种子,加入到集合Seeds中; 步骤32,从Seeds中训练新的后缀,加入到新生广的属性后缀集合SUFnew中; 步骤33,从Seeds中训练新的前缀,加入到新生产的属性前缀集合PREnew中; 步骤34,如果SUFnew为空,且PREnew为空,则获取结束;否则执行步骤35 ; 步骤35,使用SUFnew从网页中获取概念的候选属性,并赋值给As',其中As'表示候选属性的集合; 步骤36,验证As',得到的正确属性赋值给As,并将As加入到属性空间中,其中As表示经过验证后的正确属性的集合; 步骤37,从As中训练新的前缀,加入到PREnew中; 步骤38,使用PREnew从网页中获取概念的候选属性,并赋值给As'; 步骤,39,验证As',得到的正确属性赋值给As,并将As加入到属性空间属性空间中; 步骤310,清空PREnew ; 步骤311,从As中训练新的后缀,加入到SUFnew中;转步骤34。
5.如权利要求4所述的迭代式概念属性名称自动获取方法,其特征在于,步骤32、步骤311还包括如下步骤 步骤41,清空SUFnew ; 步骤42,从输入参数的第I个属性起,顺序地取出下一个属性;如果输入参数中的属性都取完,则转步骤46 ;否则,标记取到的属性为A,执行步骤43 ; 步骤43,得到A的结尾词,标记为属性元AE ;步骤44,如果AE已经被当做后缀使用过,则转步骤42 ;否则执行步骤45 步骤45 :如果AE在后缀词典中,则将AE加入到SUFnew ;否则如果AE在输入参数中作为结尾词的频率大于等于阈值s,也将AE加入到SUFnew ;转步骤42 ; 步骤46 :返回SUFnew。
6.如权利要求4所述的迭代式概念属性名称自动获取方法,其特征在于,步骤33、步骤37还包括如下步骤 步骤51,清空PREnew ; 步骤52,从输入参数Input的第I个属性起,顺序地取出下一个属性;如果Input中的属性都取完,则转步骤56.否则,标记取到的属性为A,执行步骤53 ; 步骤53,得到A的开头词,标记为AE ; 步骤54,如果AE已经被当做前缀使用过,则转步骤52 ;否则执行步骤55 ; 步骤55,如果AE在前缀词典中,则将AE加入到PREnew ;否则如果AE在输入参数中作为开头词的频率大于等于阈值s,也将AE加入到PREnew ;转步骤52 ; 步骤56,返回PREnew。
7.如权利要求4所述的迭代式概念属性名称自动获取方法,其特征在于,步骤35还包括如下步骤 步骤61,从SUFnew的第I个属性后缀起,所述SUFnew中为属性后缀,顺序地取出下一个属性后缀;如果SUFnew中的属性后缀都取完,则转步骤64 ;否则,标记取到的属性后缀为SUF,执行步骤62 ; 步骤62,从基于后缀的获取模式库中提取模式,生成一组搜索引擎支持的模式,使用这些模式,自动地依次从搜索引擎中寻找,得到获取语料Corpus ; 步骤63,从Corpus中提取候选属性,将这些候选属性加入到As'中;转步骤61 ; 步骤64,返回As' ο
8.如权利要求4所述的迭代式概念属性名称自动获取方法,其特征在于,步骤38还包括如下步骤 步骤71,从PREnew的第I个属性前缀起,其中PREnew中为属性前缀,顺序地取出下一个属性前缀;如果PREnew中的属性前缀都取完,则转步骤74.否则,标记取到的属性前缀为PRE,执行步骤72 ; 步骤72,从基于前缀的获取模式库中提取模式,生成一组搜索引擎支持的模式,使用这些模式,自动地依次从搜索引擎中寻找,得到获取语料Corpus ; 步骤73,从Corpus中提取候选属性,将这些候选属性加入到As'中,转步骤71 ; 步骤74,返回As'。
9.如权利要求4所述的迭代式概念属性名称自动获取方法,其特征在于,步骤36、步骤39还包括如下步骤 步骤81,对候选属性As'进行预处理,得到As";所述As"是经过预处理以后,得到的候选属性集合; 步骤82,对As "进行验证,得到验证后的正确属性As。
10.如权利要求2所述的迭代式概念属性名称自动获取方法,其特征在于,步骤3中基于相似性的验证模型还包括如下步骤步骤91,在概念的属性空间中,如果在属性空间中两个属性元AE1和AE2频繁被相同的属性元所依存,那么AE1, AE2之间的相似度较高;反之,则相似度越低; 步骤92,在概念的属性空间中,如果在属性空间中两个属性元AE1和AE2频繁修饰相同的属性元,那么AE1和AE2之间的相似度较高;反之,则相似度越低; 步骤93,在属性元相似度基础上,以依存对相似度作为属性元依存对之间相似程度的定量表示。
11.如权利要求10所述的迭代式概念属性名称自动获取方法,其特征在于,步骤93还包括如下步骤 步骤94,对于与属性A有相似关系的Ai,若A中的依存对P能在Ai中找到相似的依存对P,则构造从P到P的映射,称这个过程为属性对齐; 步骤95,判断正确属性的强弱程度,使用定量指标属性置信度; 步骤96,由A'推导出A的属性置信度D(A' — A)。
12.如权利要求11所述的迭代式概念属性名称自动获取方法,其特征在于,步骤96还包括如下步骤 步骤 97,生成属性置信度 I A1 (A) = D(Ai — A),其中 i = arg Iiiaxi Sim(Ai, A); 步骤98,生成依存对的置信度I =D1⑵=D (Ai — P); 步骤99,生成属性置信度2 =D2(A) = arg Hiaxi D (Ai — A); 步骤910,生成依存对的置信度2 =D2(P) = arg Hiaxi D (Ai — P); 步骤911,生成属性置信度3 ..D3(A) = YjI0^-DiAi -^A),其中,t为划分个数; .I SimPair(A , A) I 加权系数2 = \Pair[A)\ ; SimPair (Ai, A)表示Ai与A相似对的个数; Pair(A)表示A中依存对的数量;选择t最小化原则进行划分;同时,若t最小时存在多个划分,选择D3 (A)最大化进行划分。
13.如权利要求9所述的迭代式概念属性名称自动获取方法,其特征在于,步骤82还包括如下步骤 步骤121,将Seeds中的所有种子属性的置信度D标记为I ; 步骤122,将Seeds和候选属性As"加入到集合T ; 步骤123,为T构造属性空间图G ; 步骤124,从与Seeds相邻的候选属性开始,对所述图G做广度优先搜索,计算As "中所有候选属性的置信度D。
14.如权利要求13所述的迭代式概念属性名称自动获取方法,其特征在于,步骤123还包括如下步骤 步骤131,初始化所述图G为空; 步骤132,从T的第I个属性起,顺序地取出下一个属性。如果T中的属性都取完,则结束步骤123 ;否则,标记取到的属性为A,执行步骤133 ; 步骤133,在T中,从A的下一个属性起,依次顺序地向下取下一个属性。如果已经取不到属性,则转步骤132 ;否则标记当前取到的属性为k',执行步骤134 ; 步骤134,如果G中不存在节点A,则在G中为A增加一个节点,并对A做属性元分解和依存关系解析;步骤135,如果G中不存在节点Ai,则在G中为Ai增加一个节点,并对Ai做属性元分解和依存关系解析; 步骤136,如果A和V相似,则构造从A到V的无向边;转步骤132。
15.如权利要求13所述的迭代式概念属性名称自动获取方法,其特征在于,步骤123还包括 步骤141 :初始化G为空; 步骤142 :从T的第I个属性起,顺序地取出下一个属性;如果T中的属性都取完,则结束步骤123 ;否则,标记取到的属性为A,执行步骤143 ; 步骤143 :在T中,从A的下一个属性起,依次顺序地向下取下一个属性。如果已经取不到属性,则转步骤142 ;否则标记当前取到的属性为k',执行步骤144 ; 步骤144 :如果G中不存在节点A,则在G中为A增加一个节点,并对A做属性元分解和依存关系解析; 步骤145 :从A的第I个依存对起,顺序地取出下一个依存对;如果A中的依存对都取完,则转步骤147 ;否则,标记取到的依存对为Pair,执行步骤146 ; 步骤146 :如果G中存在Pair,则构造从Pair到A的无向边;否则,在Tablel中查找Pair的2个属性元的位置概率,如果找不到,则计算并存入到Tablel中;如果这两个概率都大于阈值s,则在G中为Pair增加一个节点,并置Pair的置信度为ASS,构造从Pair到A的无向边; 步骤147 :如果G中不存在节点Ai,则在G中为Ai增加一个节点,并对Ai做属性元分解和依存关系解析; 步骤148 :从Ai的第I个依存对起,顺序地取出下一个依存对;如果Ai中的依存对都取完,则转步骤1410 ;否则,标记取到的依存对为P,执行步骤149 ; 步骤149 :如果G中存在Pair,则构造从Pair到V的无向边;否则,在Tablel中查找Pair的2个属性元的位置概率,如果找不到,则计算并存入到Tablel中;如果这两个概率都大于阈值s,则在G中为Pair增加一个节点,并置Pair的置信度为ASS,构造从Pair到A1的无向边; 步骤1410:如果A和V相似,则构造从A到V的无向边;转步骤142。
16.如权利要求2所述的迭代式概念属性名称自动获取方法,其特征在于,步骤3中对于候选属性进行验证还包括 步骤151,对于出现在属性中的子序列,如果子序列是属性依存树上的二元依存关系,则子序列为属性元序列; 步骤152,属性元序列的个数为巧-1),L1,其中N为属性元属性的个数。
17.如权利要求16所述的迭代式概念属性名称自动获取方法,其特征在于,步骤152还包括 步骤161,出现在属性中的子序列,如果子序列对应于属性的属性元依存树上的一棵子树,则子序列为前向属性元序列;子序列分解为{S1; S2, . . . Sn, AE},其中,S为子序列,η为正整数,{S1; S2, . . . SJ对应于以属性元AE为父节点;其前向属性元序列的个数
18.如权利要求17所述的迭代式概念属性名称自动获取方法,其特征在于,步骤162之后还包括 步骤171,生成属性元序列置信度I =D1(S) = D(Si — S),其中i = arg Iiiaxi Sim (Si,S); 步骤172,生成属性元序列置信度2 =D2(S) = arg Hiaxi D (Si — S)。
19.如权利要求18所述的迭代式概念属性名称自动获取方法,其特征在于,步骤161还包括 前向属性元序列计算其置信度D(S)的步骤为 步骤181 :如果子序列只有两个属性元,则能够直接计算D(S),然后转步骤1812 ;否则,执行步骤182 ; 步骤182 :置D (S)为O ; 假设子序列有k个属性元,其中k > 2 ;子序列对应的依存树的根为HS),且依存树的根的子树分别为C1, C2,…匕;其中,η为正整数; 步骤183 :置i = I ; 步骤184 :如果i大于n,则转步骤1812 ;否则执行步骤185 ; 步骤185 :找到一个最大值t,使得属性元序列AES (Ci, Ci+1. . . Ci+t,r(S))在Table2中存在相似的序列,如果存在t,则在Table2找到最相似的序列,标记为AESl,转步骤186 ;否则如果不存在t,则转步骤188; 步骤186 :使用AESl计算AES (Ci, Ci+1. . . Ci+t,r⑶)的置信度,标记其为e,将该值存储在Table2中,计算
20.如权利要求18所述的迭代式概念属性名称自动获取方法,其特征在于,步骤162还包括 对属性元子序列S,令属性元子序列的属性元个数为N,其中N为正整数,采用后向属性元序列计算其置信度D (S)的步骤为 步骤191 :置k = N ; 步骤192 :如果k小于2,则转步骤196 ;否则,执行步骤193 ; 步骤193 :为子序列找到一个长度为k的子序列Stl,保证这个子序列在Table2中存在相似的序列;如果子序列存在这样的子序列Stl,则继续在Table2找到与Stl那个最相似的序列,标记为AESl,转步骤194 ;否则如果找不到Stl,则转步骤195 ; 步骤194 :使用AESl计算Stl的置信度,标记其为Cltl,将其存储在Table2中;转步骤196 ; 步骤195 :置k = k-Ι ;转步骤192 ; 步骤196 :为剩下的属性元集合(S-Stl),找到一个最大子集M (Me(S-SJ),保证M中得每个属性元在Stl中都能找到有依存关系的属性元。那么μ和(S-Stl)构成了 ImI棵依存子树{S1;S2,. . . S|M|},调用后向属性元序列迭代的计算这些子树对应属性元序列的置信度,令其为W1,d2,. . . d|M|};
21.一种迭代式概念属性名称自动获取系统,其特征在于,包括 建立属性空间模块,用于将需要获取的概念名称,建立属性空间,所述属性空间包含以属性构成的概念名称; 属性前后缀模块,用于从属性空间中选择属性前缀和/或属性后缀,从网页中提取候选属性; 扩充属性模块,用于采用基于相似性的验证模型对候选属性进行验证,通过迭代方式扩充属性前缀和/或属性后缀。
22.如权利要求21所述的迭代式概念属性名称自动获取系统,其特征在于,建立属性空间模块还包括 属性元模块,用于属性空间由属性构成;每个概念有一组属性,这些属性构成了此概念的属性空间,表达属性本质的属性元为中心属性元,修饰其它属性元的属性元为修饰性属性元;中心属性元不修饰任何属性元;在一个属性中,除中心属性元以外的属性元都是修饰性属性元; 属性元定义模块,用于出现在结尾的中心属性元,定义为属性后缀,出现在开头的修饰性属性元,定义为属性前缀。
23.如权利要求21所述的迭代式概念属性名称自动获取方法,其特征在于,还包括 正确属性模块,用于从候选属性进行验证后,得到正确属性; 前后缀提取模块,用于对正确属性提取新的属性前缀、属性后缀,然后继续从属性前后缀模块开始执行。
24.如权利要求23所述的迭代式概念属性名称自动获取系统,其特征在于,扩充属性模块还包括 建立种子模块,用于将得到的正确属性作为种子,加入到集合Seeds中; 种子中训练后缀模块,用于从Seeds中训练新的后缀,加入到新生产的属性后缀集合SUFnew 中; 种子中训练前缀模块,用于从Seeds中训练新的前缀,加入到新生产的属性前缀集合PREnew 中; 获取结束模块,用于如果SUFnew为空,且PREnew为空,则获取结束; 获取后缀候选属性模块,用于使用SUFnew从网页中获取概念的候选属性,并加入到As1中,其中As'表示候选属性的集合; 正确属性赋值模块,用于验证As',得到的正确属性赋值给As,并将As加入到属性空间中,其中As表示经过验证后的正确属性的集合; 正确属性中训练前缀模块,用于从As中训练新的前缀,加入到PREnew中; 获取前缀候选属性模块,用于使用PREnew从网页中获取概念的候选属性,并加入到As'中; 清空前缀模块,用于清空PREnew ; 正确属性中训练后缀模块,用于从As中训练新的后缀,加入到SUFnew中。
25.如权利要求24所述的迭代式概念属性名称自动获取系统,其特征在于,种子中训练后缀1旲块、正确属性中训练后缀1旲块,还包括 训练后缀模块,用于清空SUFnew ;从输入参数的第I个属性起,顺序地取出下一个属性;如果输入参数中的属性都取完,则返回SUFnew.否则,标记取到的属性为A,得到A的结尾词,标记为属性元AE ;得到A的结尾词,标记为属性元AE ;判断AE是否已经被当做后缀使用过;如果AE在后缀词典中,则将AE加入到SUFnew ;否则如果AE在输入参数中作为结尾词的频率大于等于阈值S,也将AE加入到SUFnew ;返回SUFnew。
26.如权利要求24所述的迭代式概念属性名称自动获取系统,其特征在于,种子中训练前缀模块、正确属性中训练前缀模块还包括 训练前缀模块,用于清空PREnew ;从输入参数的第I个属性起,顺序地取出下一个属性,如果Input中的属性都取完,则返回PREnew,否则,标记取到的属性为A,得到A的开头词,标记为AE ;判断AE是否已经被当做前缀使用过;如果AE在前缀词典中,则将AE加入到PREnew ;否则如果AE在输入参数中作为开头词的频率大于等于阈值s,也将AE加入到PREnew ;返回 PREnew。
27.如权利要求24所述的迭代式概念属性名称自动获取系统,其特征在于,获取后缀候选属性模块还包括 后缀提取模块,用于从SUFnew的第I个属性起,顺序地取出下一个属性;判断SUFnew中的属性是否都取完,标记取到的属性为SUF,从基于后缀的获取模式库中提取模式,生成一组搜索引擎支持的模式,使用这些模式,自动地依次从搜索引擎中寻找,得到获取语料Corpus ;从Corpus中提取候选属性,将这些候选属性加入到As'中;返回As'。
28.如权利要求24所述的迭代式概念属性名称自动获取系统,其特征在于,获取前缀候选属性模块还包括 前缀提取模块,用于从PREnew的第I个属性起,顺序地取出下一个属性;判断PREnew中的属性是否都取完,标记取到的属性为PRE,从基于前缀的获取模式库中提取模式,生成一组搜索引擎支持的模式,使用这些模式,自动地依次从搜索引擎中寻找,得到获取语料Corpus ;从Corpus中提取候选属性,将这些候选属性加入到As'中,返回As'。
29.如权利要求24所述的迭代式概念属性名称自动获取系统,其特征在于,正确属性赋值模块还包括 预处理模块,用于对候选属性As'进行预处理,得到As";所述As"是经过预处理以后,得到的候选属性集合;对八8"进行验证,得到验证后的正确属性As。
30.如权利要求22所述的迭代式概念属性名称自动获取系统,其特征在于,扩充属性模块还包括 属性元依存模块,用于在概念的属性空间中,如果在属性空间中两个属性元AE1和AE2频繁被相同的属性元所依存,那么AE1, AE2之间的相似度较高;反之,则相似度越低; 属性元修饰模块,用于在概念的属性空间中,如果在属性空间中两个属性元AE1和AE2频繁修饰相同的属性元,那么AE1和AE2之间的相似度较高;反之,则相似度越低; 依存对模块,用于在属性元相似度基础上,以依存对相似度作为属性元依存对之间相似程度的定量表示。
31.如权利要求30所述的迭代式概念属性名称自动获取系统,其特征在于,依存对模块还包括 属性对齐模块,用于对于与属性A有相似关系的A',若A中的依存对P能在A'中找到相似的依存对P,则构造从P到P的映射,称这个过程为属性对齐; 属性置信度模块,用于判断正确属性的强弱程度,使用定量指标属性置信度; 置信度推导模块,用于由A'推导出A的属性置信度D(A' — A)。
32.如权利要求31所述的迭代式概念属性名称自动获取系统,其特征在于,属性对齐模块还包括 置信度推导模块,用于生成属性置信度I =D1(A) = D(Ai — A),其中i = arg max,Sim (Ai, A); 生成依存对的置信度I =D1 (P) = D(Ai-P);生成属性的直 η度 2 :D2 (A) = arg Iiiaxi D (Ai — A); 生成依存对的置信度2 =D2 (P) = arg Hiaxi D (Ai — P); 生成属性置信度
33.如权利要求29所述的迭代式概念属性名称自动获取系统,其特征在于,预处理模块还包括 构造空间图模块,用于将Seeds中的所有种子属性的置信度D标记为I J^Seeds和候选属性As"加入到集合T ;为T构造属性空间图G ;从与Seeds相邻的候选属性开始,对所述图G做广度优先搜索,计算As"中所有候选属性的置信度D。
34.如权利要求33所述的迭代式概念属性名称自动获取系统,其特征在于,构造空间图模块还包括 空间图建立模块,用于初始化所述图G为空;从T的第I个属性起,顺序地取出下一个属性。判断T中的属性是否都取完,标记取到的属性为A,在T中,从A的下一个属性起,依次顺序地向下取下一个属性,判断是否取完,标记当前取到的属性为A',如果G中不存在节点A,则在G中为A增加一个节点,并对A做属性元分解和依存关系解析;如果G中不存在节点A',则在G中为A'增加一个节点,并对A'做属性元分解和依存关系解析;如果A和A'相似,则构造从A到A'的无向边。
35.如权利要求33所述的迭代式概念属性名称自动获取系统,其特征在于,构造空间图模块还包括 依据置信度空间图建立模块,用于初始化G为空;从1~的第I个属性起,顺序地取出下一个属性,判断T中的属性是否都取完,标记取到的属性为A,在T中,从A的下一个属性起,依次顺序地向下取下一个属性,判断是否取完,标记当前取到的属性为A',如果G中不存在节点A,则在G中为A增加一个节点,并对A做属性元分解和依存关系解析;从A的第I个依存对起,顺序地取出下一个依存对;判断A中的依存对是否都取完,标记取到的依存对为Pair,如果G中存在Pair,则构造从Pair到A的无向边;否则,在Tablel中查找Pair的2个属性元的位置概率,如果找不到,则计算并存入到Tablel中;如果这两个概率都大于阈值S,则在G中为Pair增加一个节点,并置Pair的置信度为ASS,构造从Pair到A的无向边;如果G中不存在节点A',则在G中为A'增加一个节点,并对A'做属性元分解和依存关系解析;从A'的第I个依存对起,顺序地取出下一个依存对;判断A'中的依存对是否都取完,标记取到的依存对为P,如果G中存在Pair,则构造从Pair到Ai的无向边;否则,在Tablel中查找Pair的2个属性元的位置概率,如果找不到,则计算并存入到Tablel中;如果这两个概率都大于阈值S,则在G中为Pair增加一个节点,并置Pair的置信度为ASS,构造从Pair到A'的无向边;如果A和A'相似,则构造从A到A'的无向边。
36.如权利要求22所述的迭代式概念属性名称自动获取系统,其特征在于,扩展属性模块还包括 属性元序列模块,用于对出现在属性中的子序列,如果子序列是属性依存树上的二元依存关系,则子序列为属性元序列; 序列个数模块,用于属性元序列的个数为/(#)e,其中N为属性元属性的个数。
37.如权利要求36所述的迭代式概念属性名称自动获取系统,其特征在于,序列个数模块还包括 前向属性元序列模块,用于出现在属性中的子序列,如果子序列对应于属性的属性元依存树上的一棵子树,则子序列为前向属性元序列;子序列分解为{Si,S2, . . . Sn, ΑΕ},其中,S为子序列,η为正整数,{S1; S2, . . . SJ对应于以属性元AE为父节点;其前向属性元序列的个数人(#)e N-\N{N~l),其中F为前向属性元序列,N为属性元属性的个数; 后向属性元序列模块,用于对属性的属性元子序列,如果子序列包含中心属性元,则子序列为后向属性元序列是从属性的依存树中,任意属性元到根节点的路径集合构成的序列;其后向属性元序列的个数fB(N) e其中B为后向属性元序列,N为属性元属性的个数。
38.如权利要求37所述的迭代式概念属性名称自动获取系统,其特征在于,还包括 生成序列置信度模块,用于生成属性元序列置信度I =D1 (S) = D(Si — S),其中i = argIiiaxi Sim (Si, S);生成属性元序列置信度 2 D2 (S) = arg Iiiaxi D (Si — S)。
39.如权利要求37所述的迭代式概念属性名称自动获取系统,其特征在于,前向属性元序列模块还包括 前向属性元序列置信度计算模块,用于如果子序列只有两个属性元,则能够直接计算D(S),置D(S)为O ;假设子序列有k个属性元,其中k > 2 ;子序列对应的依存树的根为r (S),且依存树的根的子树分别为C1, C2,…匕;其中,η为正整数;置i = I ;判断i是否大于n,找到一个最大值t,使得属性元序列AES (Ci;Ci+1. . . Ci+t,r (S))在Table2中存在相似的序列,判断是否存在t,则在Table2找到最相似的序列,标记为AESl,使用AESl计算AES (Ci,Ci+1. . . Ci+t, r(S))的置信度,标记其为e,将该值存储在Table2中,计算将结果 k-1累加到D(S)上;置i = i+t+Ι ;调用前向属性元序列递归的计算AES(Ci) AES(Ci, r(S)) IciI-I的置信度值,令其分别为P1和P2,将其存储在Table2中;计算ΡγΡ2·~#,将其结果作为序列D(AES(Ci, r(S)))的置信度,并将它存储在Table2中;计算&i.p ·ρ将结果累加 k-1 1 2IlJD(S)上;置i = i+1 ^fD(S)作为S的置信度,将其存储在Tab I e2中;返回D(S); 其中, Σμ k I和W为加权系数,为折减系数; k-i k-ι\c, I Hci)表示(Ci)对应的依存树的根节点; 若AES(Ci; r(S))的置信度的值为且AES(Ci; r(S))在子序列中的依存对中占的比重为
40.如权利要求37所述的迭代式概念属性名称自动获取系统,其特征在于,后向属性元序列模块还包括 后向属性元序列置信度计算模块,用于对属性元子序列S,令属性元子序列的属性元个数为N,其中N为正整数,置k = N ;判断k是否小于2,为子序列找到一个长度为k的子序列Stl,保证这个子序列在Table2中存在相似的序列;如果子序列存在这样的子序列Stl,判断继续在Table2找到与Stl那个最相似的序列,标记为AESl,否则如果找不到Stl,使用AESl计算S0的置信度,标记其为Cltl,将其存储在Table2中;置k = k-1 ;为剩下的属性元集合(S-Stl),找到一个最大子集M(Me (S-SJ),保证M中得每个属性元在Stl中都能找到有依存关系的属性兀。那么M和(S-Stl)构成了 |M|棵依存子树{S1; S2, · · · S|M|},调用后向属性兀序列迭代的计算这些子树对应属性元序列的置信度,令其为W1, d2,. . . d|M|};计算;^(Cii,
全文摘要
本发明公开一种迭代式概念属性名称自动获取方法和系统,其特征在于,所述方法包括如下步骤步骤1,将需要获取的概念名称,建立属性空间,所述属性空间包含以属性构成的概念名称;步骤2,从属性空间中选择的属性前缀和/或属性后缀,从网页中提取候选属性;步骤3,采用基于相似性的验证模型对候选属性进行验证,通过迭代方式扩充属性集合。
文档编号G06F17/30GK102637202SQ20121006845
公开日2012年8月15日 申请日期2012年3月15日 优先权日2012年3月15日
发明者曹存根, 汪平仄 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1