一种新型语义关联挖掘方法

文档序号:6379156阅读:750来源:国知局
专利名称:一种新型语义关联挖掘方法
技术领域
本发明涉及信息检索领域,特别是涉及一种新型语义关联挖掘方法。
背景技术
随着语义网近十年来的蓬勃发展,在线语义数据越来越丰富,庞大的语义数据集构成了一个纷繁复杂的数据之网。语义网中的语义搜索主要关注语义对象和对象之间的语义关联,语义关联检索的目标是帮助用户找到并理解隐含在海量语义数据之中的对象之间直接或间接的联系。在语义网研究领域,语义关联通常被定义为对象在资源描述框架图中直接或间接的关系。对语义关联的建模通常沿用图论中有向路径的方式,对于给定的两个对象,语义关联发现的过程是快速找到对象在资源描述框架图中的一条或多条最短或较短路径。
语义关联的挖掘技术经历十年的发展已经取得了一定的成果,但相关技术仍然存在着不足。传统基于语义路径的语义关联模型仍存在局限性(1)传统语义路径只能刻画对象两两之间的语义关联,且每个语义关联互相独立,无法统一,无法刻画多个对象之间的复杂关联,但实际上多个对象大量的存在于真实语义数据中,应当统一为一个整体的语义关联;(2)语义路径模型并没有考虑语义关联的典型性,即具有语义关联的两个对象之间的语义路径是否也出现在其它语义关联中,在很多情况下,平凡的、不重要的语义路径仅仅表示了两个对象在资源描述框架图中的连通性,并不表示两个对象之间存在具有意义的语义关联。现有的语义关联挖掘方法较难处理大规模语义数据。随着语义网的发展,出现了大量的大规模语义数据集,其规模超过了百万三元组,在这样的数据规模下,无论是路径发现技术还是传统的图挖掘技术均难以在有限的时间内挖掘出有意义的结果。尤其是传统图挖掘算法,由于其复杂度大多为指数级,且大多假定图的规模可以存放在内存中,因此至今为止未能直接应用于大规模图的挖掘中。在数据挖掘研究领域,解决问题的主要方法为对大规模图的分块。PartMiner算法是最为流行的用于图挖掘的图分块算法,但该算法理论上存在挖掘到错误结果的可能性,需要在全局挖掘后进一步检测挖掘结果的正确性,因此至今还没有完善的分块方法能够快速且准确的对大规模语义数据进行划分与合并。

发明内容
本发明主要解决的技术问题是提供一种新型语义关联挖掘方法,该方法有高效、挖掘结果准确等优点。为解决上述技术问题,本发明采用的一个技术方案是提供一种新型语义关联挖掘方法,包括步骤为
(1)将输入的语义数据进行解析并聚类,形成语义数据簇,对所述语义数据簇进行数据清洗,并将所述语义数据簇的资源描述框架图转化为类型对象 (2)通过基本标记规则或优化标记规则对所述类型对象图进行分块或合并,得到多个分块,所述基本标记规则采用接近随机的标记方法,所述优化标记规则采用启发式规则;
(3)预测所述每个分块中潜在的链接模式和语义关联的数量级,预测结果反馈给二划分单元,对较大或结构复杂的分块进一步划分;
(4)挖掘出所述分块的局部链接模式和语义关联,再将所述局部链接模式和所述语义关联进行合并,将所述语义关联汇总和统计,输出给用户。在本发明一个较佳实施例中,步骤(I)中所述资源描述框架图转化为类型对象图的过程为对资源描述框架图中的资源描述框架三元组进行过滤,再将所述资源描述框架三元组扩展为链接五元组,利用所述链接五元组将所述资源描述框架图转化为所述类型对象图。在本发明一个较佳实施例中,步骤(2)中对所述类型对象图分块采用边标记方 法,所述标记方法为所述类型对象图中每条边分配一个标签,所述标签包括主语对象和宾语对象的类型。在本发明一个较佳实施例中,步骤(4)中所述挖掘方法为分阶段挖掘方法,通过频繁模式挖掘算法从所述类型对象图中挖掘出部分或所有所述链接模式,选取所述链接模式中的部分模式,根据所述部分模式在所述资源描述框架图中选择实例化子图作为所述语义关联。在本发明一个较佳实施例中,步骤(4)中所述挖掘方法为合并式挖掘方法,通过频繁模式挖掘算法挖掘所述链接模式时,所述语义关联在计算所述链接模式支持度时被挖掘出来。本发明的有益效果是本发明的新型语义关联挖掘方法,该方法相对于现有方法拥有高效、挖掘结果准确等特点,提出了类型对象图模型用于刻画多个对象之间的复杂关联,并将链接模式用于衡量语义关联的典型性,进而使用图挖掘技术开展语义关联的挖掘,提高了语义关联挖掘在大规模语义数据上的可行性和效率。


图I是本发明新型语义关联挖掘方法一较佳实施例的流程具体实施例方式下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。请参阅图1,本发明提供一种新型语义关联挖掘方法,包括步骤为
(1)语义关联发现的输入数据集为一般意义的资源描述框架数据,且数据中包含对象与对象之间关系的三元组,对输入的语义数据进行基本的解析,进一步分析不连通的资源描述框架图之间所共有的单边模式,从而将语义数据进行聚类,形成语义数据簇;
(2)对生成的语义数据簇进行基本的数据清洗,并将资源描述框架图转化为类型对象图,由于生成的类型对象图的规模可能超过内存限制,为了提高挖掘的效率和可扩展性,将类型对象图进行分块;
(3)采用边标记方法对类型对象图进行分块与合并,对边的标记有两种规则,基本标记规则采用的是接近随机的标记方法,与基本标记规则不同,优化标记规则通过一系列启发式规则,提高了边标记类型对象图划分方法的成功比例,降低了伪失败比例;
(4)通过基本标记规则或优化标记规则,类型对象图被划分为多个分块,要保证所述分块具有一定的数学性质,并且每个分块均能够载入内存,为了提高分块的均匀性,引入了二划分单元,快速挖掘并预测每个分块中潜在的链接模式与语义关联的数量级,并将数据结果反馈给二划分单元,用于将多划分后仍然较大或结构较为复杂度的分块进一步进行层次化划分,使得较大或结构较为复杂度的分块能够尽早发现并进一步得到划分,从而提高整体划分的均匀性;
(5)采用修改后的gSpan算法完整地挖掘出所有分块内的局部链接模式和语义关联,因分块操作可能使挖掘出的链接模式和语义关联的缺失,因此将局部的链接模式和语义关联按照一定的算法进行合并,保证挖掘结果的完整性,语义关联作为链接模式挖掘过程中的副产品,对其进行汇总和统计,并作为输出展示给用户。本发明中的新型语义关联挖掘方法,基于图模型的语义关联建模的具体过程为·
(I)对资源描述框架图中的资源描述框架三元组进行过滤,仅考虑描述有名对象间关联的三元组;(2)将资源描述框架三元组扩展为链接五元组,每一个链接五元组中不仅包含主语、谓语和宾语的通用资源标识符(URI),还包含了主语对象和宾语对象的类型信息;(3)利用链接五元组将资源描述框架图转化为类型对象图,资源描述框架图中资源的类型为隐式信息,需要通过资源描述框架语义推理得到,而类型对象图中对象的类型信息为显式信息,链接模式是类型对象图中的频繁子图,作为语义关联背后的模式,链接模式确保了每一个挖掘到的语义关联在模式上均具有一定的典型性;(4)基于链接模式的定义提出了语义关联的图模型,在给定的资源描述框架图中,一个链接模式可能被该资源描述框架图的多个子图实例化,每次实例化构成了一组对象间的语义关联。本发明中的新型语义关联挖掘方法,一个对象在资源描述框架图中可能被定义为多个类型,对象的多类型问题将影响类型对象图的构建,因此采用一组启发式规则用于界定复杂情况下对象的类型问题。当对象的类型在单个或多个资源描述框架图中被定义多次时,将区分对象的局部类型和全局类型,并通过统计分析区分对象的权威类型和非权威类型,最终根据上下文确定对象的单一类型。语义关联的图模型中涉及链接模式,对语义关联的挖掘实际上是对链接模式的挖掘以及发现链接模式的实例化信息的过程。采用两种语义关联挖掘方法(I)分阶段挖掘方法在挖掘的第一阶段,通过经典的频繁模式挖掘算法从类型对象图中挖掘出部分或所有链接模式,在挖掘的第二阶段,在挖掘出了链接模式中选取部分模式,在资源描述框架图中寻找对这些模式的实例化子图,作为最终挖掘出的语义关联;(2)合并式挖掘方法在该方法中,对链接模式和语义关联的挖掘在同一步骤中并行进行,在利用频繁模式挖掘算法挖掘链接模式时,语义关联在计算链接模式支持度时被挖掘出来,最终挖掘结果是类型对象图中的所有关联模式和资源描述框架图中的所有语义关联。两种挖掘方法适用于不同的场景,分段式挖掘方法由于在第二阶段挖掘前引入了模式选取,因此更适用于语义关联的聚焦挖掘,即在给定的条件下如用户兴趣挖掘相关的部分语义关联集,合并式挖掘方法适合于完整语义关联集的挖掘,但面对大规模资源描述框架数据集时,其时间复杂度和空间复杂度均较高。在频繁模式挖掘算法中,选择了经典的基于模式增长的模式挖掘算法,对gSpan算法进行了修改。传统的gSpan算法适用于无向的简单图,而类型对象图为有向带标签图,且类型对象图中可能包括自环、多边等特殊情况。对gSpan算法修改使其可以用于类型对象图中的链接模式与语义关联的挖掘,此外在挖掘过程中提出了使用最小支持度和最大边两个参数控制链接模式挖掘的规模。本发明中的新型语义关联挖掘方法是基于聚类与分块的语义关联挖掘方法。一个给定的资源描述框架数据集中可能存在多个不连通的资源描述框架图,进而扩展为多个不连通的类型对象图。通过分析类型对象图之间共同的单边链接模式定义了类型对象图的连接关系,并根据连接关系将可能包含共同链接模式的多个类型对象图进行合并。该方法使得语义关联的挖掘可以采用分治法,在每个聚类中独立完成,而无需在整个数据集上进行,且单个聚类中的挖掘结果可以直接合并为最终挖掘结果。采用基于边标记的图分块方法可以解决大规模类型对象图挖掘,使用一种边标记规则为类型对象中每条边分配一个标签,该标签体现了其主语对象和宾语对象的类型。在给定内存大小和类型对象图规模的情况下,建立类型对象图的多个分块,并依次将类型对象图中的每条边按照其标签划分至合适的分块,在划分过程中定义了边与分块之间的连接 度,每条边将依次划分至连接度最高的分块中。但基于边标记的划分方法并不适用于任意资源描述框架数据集,给定一种边标记规则,当某个资源描述框架数据集中存在大量同种类型的边时,将产生大量具有同样标签的边,这将进一步导致最终存在一个或多个无法放入内存的大型类型对象分块,这种情况称为该标记规则的失效案例。同时也存在伪失效案例,即某种边标记规则无法对某数据集进行有效划分,但存在其他的边标记规则可以进行有效划分,但基于启发式方法的优化标记规则可以减少伪失效案例的发生。基于边标记的分块方法保证了最终挖掘结果的完整性和局部模式即为全局模式,简化了分块后的挖掘结果合并过程。本发明揭示的新型语义关联挖掘方法,提高了语义关联模型的表达能力,传统基于语义路径的语义关联无法表达较为复杂的多个对象之间的关联,而本发明通过构建类型对象图建立起多个同类或者异类对象之间的连接图,以类型对象图为挖掘的数据基础,能够挖掘出现有方法无法得到的多对象之间的复杂关联。本发明提出了链接模式的概念,用于衡量语义关联的频繁度,链接模式所体现出的频繁度刻画了语义关联是否具有典型的意义,该意义无法在现有的语义关联模型中体现。本发明提高了语义关联挖掘在大规模语义数据上的可行性和效率,本发明首先修改了经典gSpan算法使其能够适应类型对象图的特殊结构,其次提出了一个聚类与分块算法,解决了大规模语义数据的挖掘问题。在理论上我们证明了该算法具有现有分块算法所不具备的挖掘结果完整性,在实验中我们也进一步证明了该算法对在百万三元组级别的语义数据上进行语义关联挖掘是可行的,且大大提高了语义关联挖掘的效率。以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
权利要求
1.一种新型语义关联挖掘方法,其特征在于,包括步骤为 (1)将输入的语义数据进行解析并聚类,形成语义数据簇,对所述语义数据簇进行数据清洗,并将所述语义数据簇的资源描述框架图转化为类型对象图; (2)通过基本标记规则或优化标记规则对所述类型对象图进行分块或合并,得到多个分块,所述基本标记规则采用接近随机的标记方法,所述优化标记规则采用启发式规则; (3)预测所述每个分块中潜在的链接模式和语义关联的数量级,预测结果反馈给二划分单元,对较大或结构复杂的分块进一步划分; (4)挖掘出所述分块的局部链接模式和语义关联,再将所述局部链接模式和所述语义关联进行合并,将所述语义关联汇总和统计,输出给用户。
2.根据权利要求I所述的新型语义关联挖掘方法,其特征在于,步骤(I)中所述资源描述框架图转化为类型对象图的过程为对资源描述框架图中的资源描述框架三元组进行过滤,再将所述资源描述框架三元组扩展为链接五元组,利用所述链接五元组将所述资源描述框架图转化为所述类型对象图。
3.根据权利要求I所述的新型语义关联挖掘方法,其特征在于,步骤(2)中对所述类型对象图分块采用边标记方法,所述标记方法为所述类型对象图中每条边分配一个标签,所述标签包括主语对象和宾语对象的类型。
4.根据权利要求I所述的新型语义关联挖掘方法,其特征在于,步骤(4)中所述挖掘方法为分阶段挖掘方法,通过频繁模式挖掘算法从所述类型对象图中挖掘出部分或所有所述链接模式,选取所述链接模式中的部分模式,根据所述部分模式在所述资源描述框架图中选择实例化子图作为所述语义关联。
5.根据权利要求I所述的新型语义关联挖掘方法,其特征在于,步骤(4)中所述挖掘方法为合并式挖掘方法,通过频繁模式挖掘算法挖掘所述链接模式时,所述语义关联在计算所述链接模式支持度时被挖掘出来。
全文摘要
本发明公开了一种新型语义关联挖掘方法,包括步骤为将输入的语义数据进行解析并聚类,形成语义数据簇并进行数据清洗,将资源描述框架图转化为类型对象图;对类型对象图进行分块或合并,得到多个分块;预测每个分块中潜在的链接模式和语义关联的数量级,预测结果反馈给二划分单元,对较大或结构复杂的分块进一步划分;挖掘出分块的局部链接模式和语义关联,将语义关联汇总和统计,输出给用户。通过上述方式,本发明提供的一种新型语义关联挖掘方法,该方法有高效、挖掘结果准确等特点,能刻画多个对象之间的复杂关联,并将链接模式用于衡量语义关联的典型性,使用图挖掘技术开展挖掘,提高了语义关联挖掘在大规模语义数据上的可行性和效率。
文档编号G06F17/30GK102902809SQ201210399288
公开日2013年1月30日 申请日期2012年10月19日 优先权日2012年10月19日
发明者张祥 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1