一种知识的检索方法

文档序号:9200412阅读:454来源:国知局
一种知识的检索方法
【技术领域】
[0001] 本发明属于计算机应用数据处理领域,尤其涉及一种知识的检索方法。
【背景技术】
[0002] 在设计、制造过程中,为了满足客户对知识的高效检索要求,知识的检索时间应该 缩短和知识重用性应当变高。因此,必须要合理的重用已有的制造信息和开发一种能够高 效搜索的检索模型,通过信息重用和高效检索方法来缩短设计周期、降低设计成本、保证设 计质量。在重用千斤顶设计信息过程中,相似性检索方法起着十分关键的作用,检索机制由 检索标准或算法来体现,目的是通过检索手段尽快、尽可能准确地搜索到与当前产品设计 知识相似的实例。现有检索算法都是从语义距离或者语义属性方面考虑。

【发明内容】

[0003] 本发明针对现有技术的不足,提供了一种知识的检索方法。
[0004] 对于一个高效的检索模型,其关键技术主要体现在检索算法。也就是说检索算法 直接影响检索模型的高效性。
[0005] 知识检索模型可以通过特定的工具对自然语言进行相应的请求分析、语义理解和 标注、检索结果匹配等功能,而且具有一定的流程方向约束。此处提出了基于本体的机械领 域知识检索模型。检索模型分为3个层次:人机交互层、资源层和检索匹配层,在检索过程 中需要本体库(本体技术)的支撑。
[0006] 1-1人机交互层主要实现用户与计算机之间的语言交流。用户输入需要查询的内 容到用户界面上,计算机发出检索请求。用户的检索请求多种多样,为了使计算机能够准确 识别,需要根据本体知识库的知识分析用户的真实检索意图,进而使检索请求标准化,进一 步转向检索匹配层进行检索请求的预处理。人机交互层面上还有一个功能就是对检索结果 的处理,合成用户所需要的检索结果。
[0007] 1-2资源层主要是收集知识源。通过本体中的相关知识对收集的知识有一个语义 上的分析和标注,因此可以建立相应的索引信息放入索引库内,并且已标注的知识能够补 充和完善本体库。在模型中运行过程是将本体库中的相关知识应用到检索请求分析和检索 请求预处理,对检索内容的语义标注和检索内容的语义扩展,对检索内容和索引库的匹配, 以及对检索结果的排序、再处理和合成。
[0008] 1-3检索匹配层是整个检索流程的关键。首先对检索请求进行预处理,使检索请 求信息规范化和标准化。然后通过本体知识对检索内容进行语义标注,使计算机能够充分 识别检索内容,并且在本体知识的作用下对已标注的语句进行语义上同义词或近义词的扩 展。进而根据本体库中的相关知识对检索内容(语义标注的内容和语义扩展的内容)进行 相应的语法匹配和语义匹配。最后根据相关程度对检索结果进行排序处理,将检索结果呈 现给用户。
[0009] 1-4知识检索过程中检索的搜索算法是影响检索的核心部分。检索的搜索算法影 响检索的检索效率,相似度的计算影响检索的查准率和查全率。检索算法在下面展开介绍。 [0010] 2检索算法步骤:
[0011] 2-1用户输入所需要检索的请求,系统提取检索请求概念,并将这些概念设定为一 个用户概念集,定义这个用户概念集为A,其中A= (A1, A2, A3,…,AJ,并按概念的权值由 高到低的顺序进行排序。
[0012] 2-2利用本体映射概念将用户概念集A映射为过渡概念集a = {ai,a2, a3,…, an},其映射关系如下表所示,并将过渡概念集a整理后得到对应的本体概念集B= (B1, B2, B3,…,Bn},整理得到的映射后相对应的概念的权值不变。
[0013] 表1用户概念和过渡概念映射关系表
[0014]
[0015] 2-3将本体概念集B中的每一个概念Bi按权值的高低进行语义相似度计算,计算 在知识本体中语义相似度Sim(Ci,ck)彡λ (i,ke (1,η),λ为相似度阈值)的概念,其中。 得到新的检索需求概念空间,把它称为本体核心概念集,记为C = IC1, C2, C3,…,CK},其中 (l,k) e (l,n)0
[0016] 2-4将本体核心概念集C与知识库进行语义匹配,进行基于属性相似度计算,计算 相似度Sim(Cj,Cl)彡Θ (j,l e (l,k),Θ为相似度阈值)的概念,得到知识解集D,记D = {01,02,03,...以},其中(1,1)£(1,1〇。
[0017] 2-5对得出的知识解集进行相应的条件判定,如果不为空集,那么再计算用户概念 集B和知识解集D的综合相似度;如果为空集,那么就重新回到本体映射概念,并且增大相 似度的范围,使得可能性更大。根据整体相似度的计算结果大小将匹配成功的知识从高到 低依次排列出来,并呈现在系统界面上。
[0018] 注:定义1 :设定机械领域本体中的两个概念(V ch,其中m,h e (1,n)。两概念之 间存在着一定的关系,其中比较常见的关系有同义关系、整体-部分关系、继承关系等。
[0019] 定义2 :考虑概念间的关系类型。如果两概念间的关系类型不同,则两概念的语 义相似度也就不同,相应地两概念间的语义距离、权值也不同。本文设定权值越高,两概念 的语义相似度越高,语义距离越小。因此,将概念Cm和概念Cn间的权值与其类型的关系 定义为:
[0020]
[0021] 定义3 :设定本发明中相似度值在0和1之间。CdP ch是基于定义1的两个概念 集合,Sim(cm, ch)表示(^和c h之间的相似度。Sim(c m, ch) = 1,表示概念cm和概念c h是相 同的两个概念;Sim(cm, ch) = 0,表不概念cm和概念c h是两个完全不同的概念。
[0022] 整个检索算法过程中涉及到以下三个不同计算式,分别是基于语义距离的相似度 计算,基于属性的相似度计算和综合相似度计算。具体如下。
[0023] (1)基于语义距离相似度计算
[0024] 根据基于本体的检索模型通常是以树型的上下位关系的结构形式,语义相似度采 用的主要是基于距离的相似度计算方法。相似度算法式为
[0025]
[0026] 其中,dl (Ci)和dl (Ck)分别是概念Ci、Ck在领域本体中所处的层次;Dist (c i,ck) 是本体树型中概念Ci、ck之间的最小路径;maxdl是指本体树型中深度最大值;w是一个权 值,w彡0〇
[0027] (2)基于属性相似度计算
[0028] 在产品知识表示中,属性的表示是不可缺少的一部分,两个产品拥有相同属性越 多,产品之间的相似度可能越高。因此,基于属性特征的相似度通过两个产品相同属性的个 数与两个产品所有属性的个数的比值来衡量,属性特征的相似度计算式为
[0029]
[0030] 其中,Attr (Cj)和Attr (C1)分别表示概念C」、(^的属性集,Attr (c」)门Attr (C1) 表示两概念集具有相同属性的集合,Attr(Cp U Attr(C1)表示两概念所有属性的集合, CountO表示相应集合中属性的数量。
[0031] (3)综合相似度计算
[0032] 单从语义上或者属性上是无法完全的表达出两概念的实际相似度。通过语义与属 性在相似度计算中的影响程度而设置相似度的权重,这样能够有效的计算出实际相似度。 综合相似度计算式为
[0033] Sim (cx,cy) = α X Sim (Ci, ck) + β X Sim (Cj,C1)
[0034] 其中,概念集范围x, y e (1,i),相似度Sim(Ci, ck)和Sim(Cj, C1)分别代表基于语 义相似度值和基于属性相似度值。α和β是相似度权重,α+β = 1。
[0035] 本发明的有益效果:通过将提出的基于本体的检索算法配合应用在所提出的检索 模型中,针对概念的语义距离和概念属性进行相似性计算,使得出的结果更加接近用户需 求,挺高了检索的效率和知识的重用。
【附图说明】
[0036] 图1是本发明检索模型流程图;
[0037] 图2是本发明的检索算法流程图;
[0038] 图3液压千斤顶部分本体模型。
【具体实施方式】
[0039] 下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
[0040] 本发明认为检索的匹配性高必须较全面表达知识的结构和语义,综合语义距离和 语义属性计算相似性,为此,提出了基于本体的知识表示流程和基于本体的知识检索模型 以及算法。
[0041] 实施例1 :本实施例是根据图1和图2所不的检索模型图和检索算法流程步骤流 程图,以图3所示液压千斤顶部分本体模型为例,通过概念之间的匹配进行检索。
[0042] 图3中,QK20、RCH-606、JSAH-306和JSAH-606等分别是液压千斤顶的型号,代表 液压千斤顶的实例。在液压千斤顶部分本体模型中对每一对概念通过本文提出的相似度算 法进行计算。在计算实验过程中,设定参数:α = β = 0.5。
[0043] 3-1开始输入检索需求,输入检索的请求:型号为"JSAH-606"的JSAH系列单作用 空心液压千斤顶。系统提取检索请求概念,那么定义的用户概念集为A= {ApAyAy、,、} ={ "JSAH-606"的JSAH系列单作用空心液压千斤顶,JSAH系列单作用空心液压千斤顶, 单
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1