基于用户定制的本体匹配系统及方法

文档序号:6653969阅读:620来源:国知局
专利名称:基于用户定制的本体匹配系统及方法
技术领域
本发明涉及语义万维网技术领域,特别涉及一种基于用户定制的本体匹配系统及 方法。
背景技术
语义Wfeb由万维网的创始人Tim Berners-Lee提出,是探索新一代互联网发展的 重要技术。语义Web的目标在于通过相应技术使得当前万维网上的信息中的语义能够被机 器理解,从而使得网络上的数据能够被机器直接或间接地处理。目前语义Web技术已经得 到了广泛的发展,并涌现出大量的实际应用,如LinkedData、语义维基等。本体为用户描述 特定领域的万维网数据语义提供了基本的概念模型和共享词汇。它作为语义Web中的语义 表示形式,是语义Web体系结构中的核心元素,是实现知识共享、协同工作的关键。但是由 于现实世界中本体自身与生俱来的分布性和异构性,又极大地限制了数据的共享与集成。 为了实现异构本体中的语义互操作,需要在异构本体间建立实体对应关系,这就是本体匹 配。目前国内外已有很多关于本体匹配方法的研究,并且有不少的本体匹配系统被开 发出来并得到应用,比较著名的系统包括COMA++,ASMOV, Falcon, Lily, Η-Match, CIDER等 等,这些系统采用了不同的本体匹配方法或方法组合来发现异构本体匹配中的实体对应关 系。但是这些系统并不能在所有的本体匹配任务中都获得令人满意的匹配结果。首先是这 些方法和系统往往利用了本体的一部分信息,并不能实现对本体信息的充分探索;其次这 些系统的匹配流程一般都是固定的,对于特定的本体并不能进行适当的调整,例如大多数 系统都采用了基于实体名称的字符串匹配方法,但是如果本体中的实体名称并没有实际意 义,那么再利用这种方法可能对最终结果造成干扰。

发明内容
(一 )要解决的技术问题本发明要解决的技术问题是如何实现对本体信息的充分探索,并根据需求对匹 配流程进行组装,以获得精确地匹配结果。( 二 )技术方案为解决上述技术问题,本发明提供了一种基于用户定制的本体匹配系统,包括本体模块,包括原子组件本体操作接口子模块和本体API子模块;与所述本体模块连接的原子组件模块,用于通过原子组件本体操作接口子模块调 用本体API子模块的本体API实现原子组件;与所述原子组件模块连接的用户接口模块,用于接收用户上传的待匹配本体和用 户自行实现的原子组件;与所述原子组件模块和用户接口模块连接的匹配执行模块,用于根据所述待匹配 本体生成匹配任务描述文件,并根据所述匹配任务描述文件选择所述原子组件或所述自行
4实现的原子组件来执行匹配任务,生成匹配结果,所述匹配任务描述文件包括待匹配本体 O1和A的URI位置、匹配参数和匹配流程。其中,所述原子组件模块包括的组件类型为预处理器,用于在完成实际的匹配操作执行前初始化匹配任务,包括,解析本体、 规范化本体中术语、去噪音以及具体的匹配器中所用到的数据结构的建立;匹配器,用于实现具体的本体匹配方法包括基于编辑距离相似度的匹配器、基于 WordNet相似度的匹配器、基于向量空间的匹配器及基于相似度传播的匹配器;匹配结果聚合器,用于对多个本体匹配方法获得的匹配结果进行聚合;后处理器,用于对初始匹配结果进行处理,从初始结果中提取最终的匹配和对匹 配结果进行优化;匹配结果评估器,用于依据指定的评价指标对优化后的本体匹配结果进行评估。其中,所述原子组件模块包括描述文件生成子模块,用于生成并存储所述原子组 件的描述文件。 其中,所述匹配任务描述文件还包括参考匹配参数。 本发明还提供了一种基于用户定制的本体匹配方法,包括以下步骤 Sl 接收用户上传的待匹配本体,并根据所述待匹配本体生成匹配任务描述文件;S2:解析所述匹配任务描述文件,并根据匹配任务描述文件执行匹配,所述匹配任 务描述文件包括待匹配本体O1和A的URI位置、匹配参数和匹配流程。其中,所述步骤S2具体包括S21 解析待匹配本体O1和O2的序列化文件,为本体中的每个实体生成描述,计算 两个本体的名称相似度因子和结构相似度因子;S22 通过所述名称相似度因子和结构相似度因子选择匹配方法进行匹配,并将匹 配结果进行聚合;S23 对所述聚合的匹配结果进行相似度传播;S24 对相似度传播后的匹配结果进行选择优化。其中,所述步骤S21中计算两个本体的名称相似度因子和结构相似度因子的方式 为
权利要求
1.一种基于用户定制的本体匹配系统,其特征在于,包括本体模块,包括原子组件本体操作接口子模块和本体API子模块;与所述本体模块连接的原子组件模块,用于通过原子组件本体操作接口子模块调用本 体API子模块的本体API实现原子组件;与所述原子组件模块连接的用户接口模块,用于接收用户上传的待匹配本体和用户自 行实现的原子组件;与所述原子组件模块和用户接口模块连接的匹配执行模块,用于根据所述待匹配本体 生成匹配任务描述文件,并根据所述匹配任务描述文件选择所述原子组件或所述自行实现 的原子组件来执行匹配任务,生成匹配结果,所述匹配任务描述文件包括待匹配本体01 和02的URI位置、匹配参数和匹配流程。
2.如权利要求1所述的基于用户定制的本体匹配系统,其特征在于,所述原子组件模 块包括的组件类型为预处理器,用于在完成实际的匹配操作执行前初始化匹配任务,包括,解析本体、规范 化本体中术语、去噪音以及具体的匹配器中所用到的数据结构的建立;匹配器,用于实现具体的本体匹配方法包括基于编辑距离相似度的匹配器、基于 WordNet相似度的匹配器、基于向量空间的匹配器及基于相似度传播的匹配器;匹配结果聚合器,用于对多个本体匹配方法获得的匹配结果进行聚合;后处理器,用于对初始匹配结果进行处理,从初始结果中提取最终的匹配和对匹配结 果进行优化;匹配结果评估器,用于依据指定的评价指标对优化后的本体匹配结果进行评估。
3.如权利要求1所述的基于用户定制的本体匹配系统,其特征在于,所述原子组件模 块包括描述文件生成子模块,用于生成并存储所述原子组件的描述文件。
4.如权利要求1所述的基于用户定制的本体匹配系统,其特征在于,所述匹配任务描 述文件还包括参考匹配参数。
5.一种基于用户定制的本体匹配方法,其特征在于,包括以下步骤S1接收用户上传的待匹配本体,并根据所述待匹配本体生成匹配任务描述文件;S2解析所述匹配任务描述文件,并根据匹配任务描述文件执行匹配,所述匹配任务描 述文件包括待匹配本体O1和A的URI位置、匹配参数和匹配流程。
6.如权利要求5所述的基于用户定制的本体匹配方法,其特征在于,所述步骤S2具体 包括S21解析待匹配本体O1和O2的序列化文件,为本体中的每个实体生成描述,计算两个 本体的名称相似度因子和结构相似度因子;S22通过所述名称相似度因子和结构相似度因子选择匹配方法进行匹配,并将匹配结 果进行聚合;S23对所述聚合的匹配结果进行相似度传播;S24对相似度传播后的匹配结果进行选择优化。
7.如权利要求6所述的基于用户定制的本体匹配方法,其特征在于,所述步骤S21中计 算两个本体的名称相似度因子和结构相似度因子的方式为i7 (O O ) - Num(Common(cy) + Num(Common、p)) k ” 2 Num(Cl) + Num(J)l) + Num(C2) + Numip2)F (O O ) ^um(Common(cs)) + Num{Common{ps)) ss ” 2 ~ Numicsl ) + Num(p;) + Num(cs2) + Num(ps2)'其中,c、C1和ρ、P1分别表示本体中的概念和属性;Common (c)和Common(P)分别表是 两个本体中名称相同的概念和实例;分子中Num(Common(C))和Num(Common(ρ))的和表示 名称相同的概念和属性的总数;分母是两个本体中所有概念和属性的总数,Cs和ps表示本 体中非叶子结点的概念和属性;Common(Cs)和Common(ps)分别表是两个本体中子结点数目 相同的非叶子结点的概念和实例;分子表示所述相同概念和实例的数目总数,分母则表示 两个本体中所有非叶子结点的概念和属性的总数。
8.如权利要求6所述的基于用户定制的本体匹配方法,其特征在于,所述步骤S22中选 择匹配方法时,若选择多个匹配方法,则选择的多个匹配方法并行执行。
9.如权利要求8所述的基于用户定制的本体匹配方法,其特征在于,所述匹配方法包 括基于编辑距离的匹配方法、基于向量空间的匹配方法、基于WordNet的匹配方法及基于 机器学习的匹配方法。
全文摘要
本发明公开了一种基于用户定制的本体匹配系统,涉及语义万维网技术领域,包括本体模块,包括原子组件本体操作接口子模块和本体API子模块;原子组件模块,用于通过原子组件本体操作接口子模块调用本体API子模块的本体API实现原子组件;用户接口模块,用于接收用户上传的待匹配本体和自行实现的原子组件;匹配执行模块,用于根据待匹配本体生成匹配任务描述文件,并根据匹配任务描述文件选择原子组件或自行实现的原子组件来执行匹配任务,生成匹配结果。本发明使用户能够根据匹配本体的特征,对这些原子组件进行定制和组装来设计自己需要的本体匹配流程,生成合适的匹配任务并得到精确地匹配结果。
文档编号G06F9/46GK102135905SQ20111006482
公开日2011年7月27日 申请日期2011年3月17日 优先权日2011年3月17日
发明者侯磊, 唐杰, 张啸, 李涓子, 李虎, 王志春 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1