基于多对象实例的对象值对齐方法与流程

文档序号:11432865阅读:192来源:国知局
基于多对象实例的对象值对齐方法与流程
本发明涉及一种对对象的多个异构实例的属性值进行对齐的方法和系统。

背景技术:
随着互联网的普及,人们越来越多地通过互联网获取自己感兴趣的资源,并将资源进行整理,符合自己的需要。互联网上存在对各种产品的规范进行说明的网页内容,这些网页内容通常明确记载各种产品的属性以及属性值。人们为了获取这些内容资源,可以对这些产品对象的属性以及属性值进行信息抽取,并基于所抽取的信息建立对象数据库。但是,不同的互联网网页提供商对于同一对象(即一种产品)在标明该对象的属性和属性值时,所采用的语言、措辞、属性的多少、以及属性值的格式方面都是存在差异的,而且对象产品的评论、排序以及描述页面在互联网上大量存在,这就构成了同一对象在互联网上存在异构(heterogeneous)的实例(即描述该对象的各种属性的网页或内容页面)。如何从庞杂的网络资源中提取特定领域(domain)的由于上述差异导致的异构实例对象(object)的特征(feature)以便整合为能够方便自己利用的数据内容是人们所需要的一种技术。本申请的申请人于2012年2月14日向中国专利局提交的中国专利申请号201210032507.6就提及了对各种异构实例的属性进行能够聚类的处理。该申请的内容整体通过引用的方式完全包含在本申请中。因此,在采用上述专利申请所披露的方式对对象或产品的异构实例进行领域特征聚类后,需要对该聚类后的属性值进行进一步处理从而获得一种代表性的值。具体而言就是对属性值进行值排序和值规范化。多数现有技术关注于特定领域,领域信息亦很难收集,需要大量的人力,但是这类方法通常得到很好的结果。关于从异构数据集中选取最具代表性的一个(或多个)的技术多出现于查询扩展或图像处理领域。由于目标数据集不同,排序和抽取的方法也不尽相同。美国专利US8035855B“Automaticselectionofasubsetrepresentativepagesfromamulti-pagedocument”提供了一种从多页文档中自动选取最具代表性页面的方法。美国专利US6728704B“Methodandapparatusformergingresultlistsfrommultiplesearchengines”提供了了一种合并多搜索引擎结果列表的方法和系统;美国发明公开US20110145289A1“SystemandMethodForGeneratingAPoolofMatchedContent”披露了一种生成匹配内容池的方法和系统。然而,这些发明通常会具体到某一领域或语言,不具有普适性。因此,人们需要提供一种无关领域和语言对的对该聚类后的属性值进行处理从而获得一种代表性值并得到可以接受的结果精度的方法。

技术实现要素:
鉴于现有技术中存在的上述问题而做出本发明。本发明一般涉及与信息处理和信息整合相关技术,且更具体地,涉及对对象的多个异构实例的属性值进行对齐的方法和系统,即,在对对象的多个异构实例的属性进行规范化之后,从同一规范化属性的众多属性值中选择或生成一个最具代表性的一个属性值(或多个)的方法和系统。根据本发明的一个方面,提供了一种对齐对象的异构实例的属性值的方法,包括:对同一对象的异构实例的属性-值对的属性名执行属性规范化处理获得领域特征;对属于所获得的领域特征下的属性-值对集合中的所有属性-值对进行排序;以及从排序后的所有属性-值对中的所有属性值中选择合适的公共子字符串作为所述对象的对象值。根据本发明的一种实施方式,对属于所获得的领域特征下的属性-值对集合中的所有属性-值对进行排序包括:基于属性-值对集合中的每一属性-值对的对象实例的来源计算该属性-值对的重要性分值;基于属性-值对集合中的属性-值对之间的相似度计算每一属性-值对的距离分值;基于属性-值对集合中的属性-值对中的属性值之间的相似度,计算属性-值对的频率分值;基于属性-值对集合中的属性-值对中的属性值和与所述对象同领域的其它对象的已有的对象值之间的相似度,计算所述属性-值对的证据分值;以及基于上述所计算的分值中的至少两个分值,执行加权求和,以计算所述属性-值对集合中的每个属性-值对的总分值。根据本发明的一种实施方式,基于属性-值对集合中的属性-值对之间的相似度计算每一属性-值对的距离分值包括:通过比较字符串的方法来计算任意一个属性-值对中的属性名与领域特征的相似度;计算属性-值对集合中的所述任意一个属性-值对与其他属性-值对之间的平均混合相似度;对所计算的相似度和平均混合相似度执行如下加权和计算获得所述任意一个属性-值对的距离分值。根据本发明的一种实施方式,基于属性-值对集合中的属性-值对中的属性值之间的相似度,计算属性-值对的频率分值包括:计算属性-值对集合中的任意一个属性-值对中的属性值与其他属性-值对中的属性值之间的相似度;比较所述任意一个属性-值对中的属性值与其他属性-值对中的属性值之间的每一个相似度与一预定阈值,并统计出相似度大于该阈值的值的个数;计算所统计的个数占属性-值对集合中属性-值对的个数的比例。根据本发明的一种实施方式,计算所述属性-值对的证据分值是基于属性-值对集合中的属性-值对中的属性值和与所述对象同领域的其它对象的已有的对象值之间的平均混合相似度。根据本发明的一种实施方式,从排序后的所有属性-值对中的所有属性值中选择合适的公共子字符串作为所述对象的对象值包括:比较属性-值对集合中的属性-值对的数量与预定的最大规模阈值和最小规模阈值,对所有属性-值对执行自适应地过滤以消除噪声;以及对过滤处理后的属性-值对的属性值执行值抽取,从而从中选择合适的公共子字符串作为所述对象的对象值。根据本发明的一种实施方式,比较属性-值对集合中的属性-值对的数量与预定的最大规模阈值tL和最小规模阈值sL,对所有属性-值对执行自适应地过滤以消除噪声包括:若N≥tL,则保留排序后的所有属性-值对集合中前百分数x的属性-值对;若N≤sL,则保留排序后的所有属性-值对集合中前百分数y的属性-值对;或在不满足前面两个条件的情况下,保留排序后的所有属性-值对集合中前百分数z的属性-值对,其中x,y,z∈[0,1]且y≥z≥x。根据本发明的一种实施方式,对过滤处理后的属性-值对的属性值执行值抽取,从而从中选择合适的公共子字符串作为所述对象的对象值包括:计算属性-值对集合中的属性-值对的属性值的平均长度;计算属性-值对集合中的属性-值对的属性值中每个词在该所有属性值中出现的频率来计算每个词的分值;提取属性-值对集合中的属性-值对的属性值的字符串的公共子串,并将所提取的公共字串中长度小于等于lenavg的作为对象值的候选值;以及对每个候选值的字符串中所有词分值求和来获得每个候选值的分数,并将最高分数所对应的候选值作为最终的对象值。根据本发明的另一个方面,提供了一种对齐对象的异构实例的属性值的系统,包括:属性名规范化模块,对同一对象的异构实例的属性-值对的属性名执行属性规范化处理获得领域特征;值排序模块,对属于所获得的领域特征下的属性-值对集合中的所有属性-值对进行排序;以及属性值规范化模块,从排序后的所有属性-值对中的所有属性值中选择合适的公共子字符串作为所述对象的对象值。通过阅读结合附图考虑的以下本发明的优选实施例的详细描述,将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。附图说明图1A和1B所示的是实施本发明是所针对的对象实例的一个示例性例子。图2所示的是根据本发明的对对象的多个异构实例的属性值进行对齐的方法和系统总体示意图。图3所示的是根据本发明的执行“值对齐”处理的示意图。图4所示的根据本发明执行“值对齐”处理后获得一个特征矩阵的示例性示意图图5所示为根据本发明的所述对对象的多个异构实例的属性值进行对齐的方法示意性框图。图6所示为根据本发明的对对象的多个异构实例的属性值进行对齐的方法总体流程图。图7所示的是根据本发明的执行属性-值对的距离分数计算的流程图。图8所示的是根据本发明的执行属性-值对的频率分值计算的流程图图9所示的是根据本发明的对排序后的属性-值对的属性值进行规范化处理的总体流程图。图10所示的是据本发明的对自适应过滤处理后的属性-值对的属性值进行值抽取的流程图。图11所示的是一个根据本发明方法的实验结果。具体实施方式下面结合附图描述本发明实施例。图1A和1B所示的是实施本发明是所针对的对象实例的一个示例性例子,对本发明所提到的术语进行解释,以便方便本领域技术人员理解本发明。但是,此处所例举的例子并不对本发明的对象实例进行限定。如图1A和1B所示,以“RicohCX5”照相机产品对象为例,列举了两个来自不同的网址的对象实例,即实例1和实例2。如图1A和1B所示,该对象(RicohCX5)的实例1和实例2对该对象进行的描述显然不同,具有不同的措辞、风格和结构,因此,申请人将这种存在差异的描述方式的实例称为对象的“异构”实例。参见图1A和1B所示,每个对象的描述中通常包含属性以及属性值,即属性-值对。“属性”可以是用来描述对象的物理性质或者功能性质,而“属性值”或“值”是对属性的具体描述。由于每个对象通常具有多方面的属性,因此也具有多个属性-值对。图1A中的实例1例如具有如下属性:光学传感器、孔径、闪存类型、像素、显示器大小以及光学变焦倍数等。对应于这些属性,分别具有相应的属性值。同样,图1B的实例2中也具有这样的属性-值对,在此不一一列举,请参见附图。需要指出的是,尽管属性与属性值通常成对出现,但是有些其中属性值可以为空。对于图1中所示的对象“RicohCX5”,“EffectivePixels(有效像素)”-“Approximately10.00millionpixels(大约1000万像素)”和“Weight(重量)”-“Approx.197g(约197克)”都是属性-值对。本发明下面会提到术语“对象特征”。本发明所提到的“对象特征”是由多个语义上相似的对象实例的“属性”通过整合聚类而得到的属性,此处采用“对象特征”或“特征”来区别于初始对象实例的“属性”。例如特征“Resolution”可以代表名为“Resolution”,“Effectivepixels”,“Megapixels”等的属性。在本发明所述的聚类就是将多个异构对象实例中的具有规定程度相似性的属性归类为一个类别特征。关于如何对对象实例的“属性”进行整合聚类而得到本发明所称的“对象特征”,即整合聚类后的属性,可以使用现有的任何现有方法,也可以使用本申请人人于2012年2月14日向中国专利局提交的中国专利申请号201210032507.6所披露的聚类方式。但是如何聚类不是本发明所要探讨的对象,因此,不在此详细描述。此外本发明还提到了“特定领域”这一术语。本发明所提到“特定领域”可以指一个具体产品所属的领域。例如,上面提到的“RicohCX5”以及佳能出品的“Canon5DMarkII”都属于“数码相机”这一特定领域。“智能手机”、“导航仪”、“航空发动机”、“经济性轿车”等等,都可能成为本发明所述的“特定领域”,也可以称之为“具体领域”。每个具体领域下所涉及具体的产品则是“特定领域的对象”。图2所示的是根据本发明的对对象的多个异构实例的属性值进行对齐的方法和系统总体示意图。具体而言,就是基于用户需要了解的特定领域,经由互联网进行搜索,获得所要了解的特定领域的对象实例(即描述对对象的规范说明的网页),对特定领域的对象实例中的所有属性进行属性规范化处理,即进行聚类处理,从而获得特定领域的各个对象的领域特征。所获得的领域特征是对初始获得特定领域的对象实例的属性-值对进行聚类处理后获得属性-值对的整合结果。基于所获得的领域特征,执行“值对齐”处理,以便建立一种简单可见的对象-特征关系,从而应用于对象数据库的构建。图3所示的是根据本发明的执行“值对齐”处理的示意图。由于领域特征是由多个属性聚类而得,所以一个对象的某一个特征可能存在很多异构的属性-值对,如图3所示。执行“值对齐”处理就是为了...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1