蔬菜供应链知识智能获取系统的制作方法

文档序号:6575500阅读:164来源:国知局
专利名称:蔬菜供应链知识智能获取系统的制作方法
技术领域
本发明涉及--种知识获取系统领域,尤其是-种蔬菜供应链知识智能获取系统。
背景技术
我国是农业大国,也是蔬菜生产大国,蔬菜产业在我国农业中占有重要的地位。随 着市场经济的发展和国家农业产业结构的调整,在过去10年间,我国的蔬菜产量以每年大 约9. 3%的速度增加。我国蔬菜播种面积到2007年达到2. 6亿亩,总产量5. 65亿吨,人均 占有量420多公斤。设施蔬菜到2007年达到5000多万亩。另据FA0统计,我国蔬菜播种 面积和产量分别占世界的43%、49%,均居世界第一。蔬菜已成为增加农民收入的支柱产 业。 但和发达国家相比,我国的蔬菜产业的发展存在着管理落后、信息化水平低、生产 流通过程效率低下、流通成本高、产品安全受到质疑等问题。这些问题严重影响了我国蔬菜 产业在国际市场上的竞争力。供应链管理(supply chain management, SCM)作为提高现代 企业竞争力的重要手段,将其引入我国蔬菜产业生产中已成为提高我国蔬菜产业竞争力的 当务之急。 我国蔬菜企业基础设施建设的不完善使得蔬菜供应链的物流成本和信息处理成 本非常高,许多重要的技术和方法如J]T和E:R:P等在蔬菜供应链管理中还没有采用;加之我 国蔬菜供应链结构的多样性,蔬菜供应链的参与者往往只考虑自身的利益得失,而很难直 接体会到供应链管理所带来的好处。 另外,蔬菜供应链企业缺乏技术支持。和工业企业相比,蔬菜企业的发展十分滞 后,蔬菜企业的供应链管理模型并没有被地方政府和农业组织充分意识到,他们往往很少 为此提供足够的技术支持。 供应链管理对于中国蔬菜供应链的参与者来说还是一个新的概念。 一般来说,我 国蔬菜供应链的参与者主要有农民、农产品供应者、商人、收集者、运输者、批发者、零售者、 出口商和进口商等。他们中的很多人的教育背景不高,供应链管理作为一个新的概念他们 往往很难理解其重要作用而导致接受时间延迟。本发明旨在搜集国内外特别是欧美国家 蔬菜供应链专业知识,并提供专业的语义获取技术来为蔬菜供应链知识的传播提供技术支 撑。 目前,尽管已经有专业领域如花卉本体库的构建被提出,但针对专业农业知识的 智能化知识获取系统仍是一个空白,将农业专业知识和通用的知识获取手段相结合是提高 农业知识获取质量和效率的关键,与其相适应的专业知识的搜索推理算法的研究是其中的 关键技术。

发明内容
本发明的目的在于提供一种可以解决上述问题的蔬菜供应链知识智能获取系统。
本发明采用如下技术方案一种蔬菜供应链知识智能获取系统,其特征在于,包括 —、知识采集 知识采集是知识获取系统建立的第一步骤,也是实现知识加工和提供知识服务的
基础。由于蔬菜供应链知识获取系统所管理和提供服务的知识是面向特定领域的(蔬菜供 应链管理领域)且涵盖了蔬菜供应链的所有环节(包括仓储、订单管理、运输、配送等),而 这一特定领域的知识又以多种形式存在,如互联网知识、书本、专家的经验等。与一般的信
息检索系统采用Robot技术从互联网上自动抓取知识的方式不同,要求针对这一特定领域
的知识尽可能涵盖多的知识来源。这里采用了手工获取的方式来进行蔬菜供应链领域知识 的获取。主要采集的知识是欧洲(德国、希腊、英国等国家)与亚洲(中国)由互联网支持 的农产品供应链特别是蔬菜供应链相关的知识。知识采集和知识库建立的目的是縮小中国
和欧洲国家在蔬菜供应链管理上的鸿沟,实现知识的共享。我们收集的知识主要包括领域 专家的经验、书本、报纸、案例、学术论文、实践经验等。知识收集的途径主要是互联网搜索、 网站知识获取、书本文献查阅、专家走访等。目前我们蔬菜供应链知识库中已经收取了超过 415条的相关知识,并且这一数目还在不断的增长中。
数据采集以后存贮在本地数据库中,数据库中的数据项条目如表(1)所示
二、知识加工 知识采集后,要进行知识的加工处理。为了实现基于本体的智能知识检索,其中最 重要的一步是建立领域本体库。领域本体是在领域专家的帮助F建立在本地知识库的基础 上的。对于本地知识库中的数据利用RDF表示提取其数据信息。RDF以三元组的形式表示 数据,对于以RDF表示的数据通过语义标引和语义映射在领域专家的帮助下实现领域本体 库的构建。这其中的主要工作是提取数据信息,将数据项按照领域本体的结构进行组织和 安排。这样,在进行信息检索时不仅能获得该数据项的信息还可以获取该数据项和其它数 据项之间的关系。如描述领域概念的上下位关系、相似关系等。这也为后面知识服务过程 中进行语义推理奠定了基础。
三、知识服务 系统建立的最后一步功能是提供知识服务,整个系统共向用户提供三种知识获取 方式基于关键词的检索、语义扩展检索和基于本体的知识获取。基于关键词的检索是一种 传统的信息检索方式,它根据用户的输入采用关键词匹配的方式进行信息的检索。在本系 统中提供该功能,一方面为适应用户的传统检索习惯,另--方面可以将这一传统检索技术 的检索结果与基于本体的检索技术的检索结果作一个对比。语义扩展的检索是在关键词检 索的基础上通过描述领域词汇相关度的词汇表进行语义扩展,经过语义扩展之后再进行信 息的检索。基于本体的知识获取是第三种提供知识服务的方式,对于用户的知识检索需求, 利用査询语义分析器将用户的查询请求转化为领域本体库中所使用的RDF三元组的形式。 这样和在第二歩中建立的领域知识本体库中的三元组进行匹配,利用Jena进行解析,把用 户所需的知识从本体库和知识库中抽取出来,提供给用户。另外在Jena的基础上还可以进 行语义推理、语义检索等知识服务。语义推理主要是利用推理机,推理出本体中所隐含的类 之间的关系,从而实现检索语义的扩展。(2)关键词检索 关键词检索使用一组有代表性的关键词(索引术语)来描述数据库中的每一项内 容。它是一种传统的信息检索方式,目前许多著名的互联网搜索引擎如谷歌(w腳.google, com)和百度(www. baidu. com)等都是利用用户输入的关键词进行信息的查询。
基于关键词的检索优点和缺点同样明显,优点是简单、快捷、具有较快的检索速 度。缺点主要有l.检索意图表达困难,通常用户很难用一个或几个简单的关键词就能表 达自己的检索意图,这导致检索效率不高。2.由于语言中的一词多义或者一义多词现象,使 得关键词检索很难解决同义词查询的问题。如对于"App:l.e"可以理解成蔬菜中的苹果还可 以理解成一个著名电脑公司的品牌。另外,由于文化教育背景等的差异,用户查询同样的信 息也很可能选用不同的关键词。3.关键词检索的另一个主要问题是所谓的"信息孤岛"问 题,由于关键词只能反映原始数据项的描述,不能反映数据项的具体内容,这导致原本存在 概念上相关的信息不能反映其内在联系,在检索时也就不能通过一个数据项的信息来获取 与其关联的文档信息,这也是语义检索所着力解决的问题。另外,在关键词的检索中,往往 过于追求检索的查全率,这导致查询的结果往往数量非常庞大,而用户根难有精力来对其 进行分析。 通过定义蔬菜供应链领域知识语义词典,在语义词典的支持下经过语义扩展、语
义蕴含、语义外延、语义联想等语义扩展得到一组具有较强语义相关性的查询条件集合,在
进行语义扩展的过程中可以根据概念间的关系描述,进行相关的语义推理。 基于语义扩展的查询能够提高信息检索的查全率和查准率等参数。然而,由于语
义推理过程发生在与用户交互的在线阶段,这势必会增加单位用户的平均服务时间,影响
服务器的响应性能,尤其当存在大量并发用户时,系统的性能下降尤为明显。
(3)基于本体的语义检索 通过构建蔬菜供应链领域本体模型,本体模型中描述了蔬菜供应链概念间的关 系。通过将本体模型进行形式化表示,加入推理规则来完成对有关元数据的推理处理,得出 隐含的检索信息。由于蔬菜供应链本体模型描述了蔬菜供应链知识概念间的相互关系,通 过基于本体模型的语义检索可以较好的反映用户检索意图,得到较高的查全查准率。 本发明的目的是设计一套针对蔬菜供应链领域的知识智能获取系统,借助计算机 媒介实现蔬菜供应链知识的有效传播,特别是实现国内外蔬菜供应链领域知识的传递。系 统以蔬菜供应链本体模型为支撑,提供关键词检索、语义扩展检索与基于本体模型的语义 检索三种检索方式,作为针对专业领域的知识获取工具,本系统具有高的查询效率。可以方 便蔬菜供应链参与者、科研人员方便获取专业知识。


图1是本发明数据库中的数据项示意图; 图2是本发明概念之间的相关性示意图; 图3是本发明系统性能分析示意图; 图4是本发明蔬菜供应链知识智能获取系统结构图; 图5是本发明蔬菜供应链领域概念扩展示意6
图6是本发明蔬菜供应链本体构建流程图; 图7是本发明中国蔬菜供应链模式; 图8是本发明蔬菜供应链本体中部分类结构; 图9是本发明蔬菜供应链本体中合同生产者类的属性槽; 图10是本发明系统主界面; 图11是本发明关键词搜索模块; 图12是本发明语义扩展搜索模块; 图13是本发明基于本体的语义扩展搜索模块。 本发明的目的、功能及优点将结合实施例,参照附图做进一步说明。
具体实施方式

如图所示,( — )定义蔬菜供应链语义词典 参照WordNet (wordnet. princeton. edu)的做法对蔬菜供应链领域的概念进行语 义分析。建立了用于描述蔬菜供应链概念之间相关性的语义词典。 首先定义了用于描述蔬菜供应链过程中数据的元数据,在进行语义扩展检索时,
对于用户提交的初始查询条件,在语义词典的支持下经过语义扩展、语义蕴含、语义外延、
语义联想等语义扩展得到一组具有较强语义相关性的查询条件集合,语义扩展过程如附图
2所示,在进行语义扩展的过程中可以根据概念间的关系描述,进行相关的语义推理。
( 二 )本体构建及基于本体的语义检索 (1)使用Prot6g6构建蔬菜供应链领域本体模型 基于本体的蔬菜供应链管理知识语义获取是系统开发的重点模块。为此首先要构 造蔬菜供应链管理本体。 由于本体理论的研究刚刚兴起,目前主要还处于理论研究层面,至今仍没有成熟 的基于本体的软件开发框架,而且不同领域具有各自的特点,目前并没有--个统一的构建 领域本体的方法。比较有名的本体构造方法主要有T0VE法、METH本体法、骨架法、KACTUS 工程法、SENSUS法、IDEF5法、七步法等。这些领域本体构造方法各具特色,且每一种构造方 法都有一个总的流程和各步的操作规则构成。在构造蔬菜供应链本体的过程中采用了类似 于七步法的构造方法。由于目前还没有见到与蔬菜供应链领域相关的领域本体,因此,整个 本体的构造过程中没有本体重用这一歩,整个构造过程共分六步如附图3所示。
首先,分析我国蔬菜供应链运作模式(附图4),确定蔬菜供应链领域的范围,在构 造初始阶段给出系统所需的蔬菜供应链领域的所有概念的定义。在第三步中,要建立蔬菜 供应链领域本体的框架,在此框架中要描述各个概念及其之间的关系;然后对建立的本体 进行编码和形式化表示。最后要对所建立的本体进行检査和评估,以确定所建立的领域本 题满足要求并且符合本体建立时所定义的规则。检查的过程中还要看概念是否定义完整以 及概念间的关系描述是否完整。另外,构造领域本体的过程是一个不断重复,不断完善的过 程。 我们使用Prot6g6本体建模工具来创建蔬菜供应链领域本体。在Prot6g6中最左 边的一列是类标签,使用类标签导航来创建蔬菜供应链知识本体的所有类结构。在Prot6g6中类是以层次结构组织的,每个类可以包含子类,类及子类可以定义自己的属性。在刚开始 Prot6g6的类结构中只包含THING类及它的子类SYSTEM-CLASS,其中THING类是Prot6g6中 所有类的父类,SYSTEM-CLASS类定义了一些基本元素包括类、槽等。在Prot6g6中要创建一 个新的类可以通过点击创建类按钮,在类的编辑区可以输入类的相关信息如类的名称、文 档、约束等。要创建某个类的子类,首先选中此类然后点击创建类按钮。如创建系统中"商 人"类的子类,须先选择"商人"类。附图5是在Prot6g63. 2中定一个蔬菜供应链本体的部 分类结构。 在Prot6g6中类的属性通过槽(Slot)来描述,创建槽的过程和创建类的过程类 似。其中默认值选项可以用来设置所有使用和继承这个槽的类及其实例的默认值。领域 (Domain)选项用来确定当前槽所属的领域。附图6是创建的蔬菜供应链管理中"合同生产 者"这个类的一个属性槽的实例。 当创建完本体中的类、槽及其约束关系后,再创建类的实例。对于一个类可以创建 其多个实例,其槽的属性值应根据定义的约束来输入。对于使用Prot6g6创建领域本体--方面由于Prot6g6表达的原因许多的领域知识不能输入,另一方面对于蔬菜供应链本体没 有必要输入其全部的信息,因为现实世界中的蔬菜供应链的模型是十分复杂并且是不断发 生变化的。只需要输入满足应用需要的内容即可。 在利用Prot6g6建立好蔬菜供应链领域本体后,保存时选择语言为RDF/XML。 RDF (Resource Description Framework)目前已经被认为是表示和处理半结构化数据的最 好选择,它已经成为W3C组织推荐的与XML和SOAP等标准并列的标准。采用RDF来表示领 域本体模型的核心是建立三元组描述,即将复杂的事物描述简化成一系列的三元组描述。
RDF中的每个陈述包含主体、谓词和客体三部分,相对而言,RDF模型的描述能力更强,因此 本模型在进行元数据语义编码时选择RDF模型作为参考;本体存储为RDF格式的另一个原 因是可以使用Jena工具包在Java程序中解析和使用所定义的领域本体模型。在Prot6g6 保存本体时选择的保存文件类型为()WL形式。
(2)利用Jena解析蔬菜供应链领域本体 对于保存为OWL格式的蔬菜供应链本体,为了实现基于本体的语义检索,利用 Jena来解析和使用建立的蔬菜供应链本体。在使用Java和Jena解析本体的过程中主要使
用的开发包有
Java. lang. *Java. lang. String. *Java. util. *com. hp. hpl. jena. rdf. model. *com. hp. hpl. jena. util. *com. hp. hpl. jena. rdf. * :com. hp. hpl. jerm. ontology. * ;com. hp. hpl. jena. reasoner. * ;com. hp. hpl. jena. vocabulary. * :com. hp. hpl. jena. reasoner. rulesys. *import Java. io. * ;
利用Jena解析蔬菜供应链本体模型的第 -步是要将本体模型读入,在读入本体模型之前先使用了 ModelFactory类中的createDefaultMode ()方法创建一个空的基于内存存储的模型(Model或model) 。 Jena还包含了 Model接口的其他实现方式。例如,使用关系数据库的,这些类型Model接口也可以从ModelFactory中创建。 Model model = ModelFactory. creat.eDefault.Model ();空的模型创建后,利用
Model接口的read函数,读入利用Prot6g6创建的领域本体模型。 model, read (謂I即utStreamReader (蔬菜供应链本体模型文件), 〃 ");然后再创建一个资源,和传统信息检索相比,智能信息检索最大的特点就
是在检索过程中弓I入了资源。资源可以想象成任何可以确定要识别的东西,并被 -个统一
资源定位符(URI)所标识。 Resource myresource = model. createResource ();资源拥有属性(property),属性的名字也是一个URI,每个属性都有一个值。 在进行基于本体的蔬菜供应链语义检索时,对于用户输入的检索要求,要将其转化为RDF的资源对象。然后根据此资源对象来获取建立好的蔬菜供应链领域本体模型的资源对象。然后再使用模型的listSubjectsWithProperty方法来列出本体模型中所有具有给定的属性,且属性值为给定检索值的资源。listSubjectsWithProperty方法的返回值为ResIterator类型,对于获取的具有给定属性的资源通过hasNext方法可以获得所有的满足检索条件的资源。此过程可以用下列代码描述
Reslterator iter = model. listSubjectsWithProperty(searchProperty, searchV
alue); while (iter. hasNext.()) { Resource r = iter. nextResource (); ) 对于要检索的词及其语义关系,通过模型的 list.Ob jectsOfPropert.y方法和hasNext方法可以列出对应的所有条目。
NodeIterator result = model. 1 ist()bjects()fProperty(r, search:Property); while (result. hasNext()) { temp = result, next.(): } 在蔬菜供应链本体模型中定义了蔬菜供应链领域概念并主要描述了这些概念之间的概念上下位关系,和概念之间的等同关系等语义关系。通过对概念及其关系的这种资源形式描述,对于一个领域概念,可以根据检索需求获取其满足给定关系的其它领域概念。并在此基础上实现二次检索。 在利用本体模型进行蔬菜供应链语义元数据的语义处理时。 一个很重要的特点是要根据领域本体和推理规则来完成对有关元数据的推理处理,得出隐含的信息,服务于后续的査询操作。以经过语义编码的元数据为推理的起点,根据规则对其进行扩充,求得其所蕴含的更丰富的信息。本体模型的推理方式主要有OWL推理方式、RDFS推理方式、传递推理、自定义规则推理和外部推理机等。传递推理是指基于具有传递特性的属性进行的推理,如rdfs: subPropert.yOf和rdfs: subClassOf属性。这种推理比较简单,也容易实现。RDFS推理基本上可以被OWL推理代替,OWL的推理能力更强。OWL推理方式实际上还只能支持OWL—Lite的推理规则,不支持()WLJ〕L的推理规则。对于自定义的推理比较复杂,需要自定义完整的推理公理和规则。由于目前Jena的自身推理机效率还不是很令人满意,许多开源项目的推理机经常用来做为外部推理机使用。如Racer,Pellet等,其中Racer还支持OWL—DL规则的推理,效率也比较好。在建立推理规则时使用一个外部文件来定义所需要的推理规则。然后将推理规则读入作为资源的属性 myresource. addPropert. y (ReasonerVocabulary.
PROPruleMode, " hybrid"); myresource. addProperty (ReasonerVocabulary. PROPruleSet, 〃推理规则
文件"); 然后创建此推理机的一个实例 Reasoner reasoner = GenericRuleReasonerFactory. thelnst.ance ().create(myresource); 最后将推理机的实例和读入的本体模型的数据结合起来创建一个推理模型。
infModel = ModelFactory. createInfModel (reasoner,数据);
领域本体提供了语义推理所必须的规则和条件,元数据库则为语义推理提供了需要的"土壤"条件。根据语义推理在智能信息检索系统中所处阶段的不同,可在具体的推理系统中,公理往往通过子类、子属性、属性定义域、属性值域、基数限制和互不相交等规范化的术语来描述,由于这些术语的语义已为大众广泛接受,因此,通过它们定义出来的公理知识具有良好的通用性。为此,W3C在RDF和OWL规范中,专门制定了相应的公理定义标签,如rdfs:subClassOf、rdfs:subPropertyOf、rdfs:domain、rdfs:range、 owl:equivalentClass等,正是这些规范化的标签使得公理推理部分可以由专门的通用处理程序如Jena的本体推理方法来完成。 根据语义推理在语义万维网体系结构种所处层面的不同,可以分为公理推理和定理推理。公理推理是建立在人们对事物具有共同认识的基础之上,常常是一些有关常识性知识的推理,定理推理则是从具体的应用出发,根据特定的领域规则进行推理。
本体的推理规则文件的制定应当多使用公理推理。如下面是系统中使用的两个公理的推理规则[等同关系(? a等同于? c), (? b等同于? c), notEqual( a, ? b)->( a等同于 b)][近义关系(? a近义于? b), (? a近义于? c) , notEqual ( b, ? c)->( b近义于 c)] 推理规则可以根据实际需要来进行补充,在补充过程中公理推理和定理推理都是需要的,但从通用性角度出发,应尽可能多的采用公理推理,而减少定理推理在整个推理系统中的比例。(三)系统界面、检索过程及评测 系统的界面设计参照了谷歌、百度等已有搜索引擎简洁明快的样式,实验系统的
10主界面如附图7所示。 附图8为利用本系统的关键词搜索模块搜索关键词"supply chain"的结果,共计返回166条相关记录。 附图9为利用本系统的语义扩展搜索模块搜索关键词"supplychain"的结果,共计返回239条相关记录。 附图10为利用本系统的基于本体语义扩展搜索模块搜索关键词"supply chain"的结果,第一次搜索根据本体模型列出了模型中概念之间的语义关系。由于用户在进行信息检索时, 一般很难在第一次就准确的描述出检索要求,只有在不断的检索过程逐渐的提炼和明确最终的检索目标。在搜索出给定语义关系的概念后,可以根据用户的检索需求进行基于关键词或者语义扩展的二次搜索得到所需的搜索结果。这样能方便的引导用户检索出所需的文献信息 选取和蔬菜供应链过程相关的五个概念(agri—product 、 fruit、 inventory、
logistics、t.ransportation}来测试知识获取系统的查准率和查全率。由于系统是针对蔬
菜供应链领域而建立,在数据收集的过程中数据已经经过了分析和处理,因此对于每种方
法的检索结果都具有很高的査准率,重点考察不同检索策略的查全率指标。 由于本体模型中定义了相关概念及其之间的关系,在进行信息检索时其信息查全
率接近1,以此为基础分别计算了关键词检索和语义扩展检索的平均查全率指标。可以看到由于在本体模型中对蔬菜供应链知识进行了语义标注,基于本体模型的检索可以获得最高
的査全率指标。而对于语义扩展也取得了比传统检索技术-关键词检索好的查全率指标,同时还看到语义扩展检索的效果依赖于语义词典的定义。通过语义词典的扩充,其平均查全率指标还可以进--步提高。 以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
权利要求
一种蔬菜供应链知识智能获取系统,其特征在于,包括一、知识采集知识采集是知识获取系统建立的第一步骤,也是实现知识加工和提供知识服务的基础。由于蔬菜供应链知识获取系统所管理和提供服务的知识是面向特定领域的(蔬菜供应链管理领域)且涵盖了蔬菜供应链的所有环节(包括仓储、订单管理、运输、配送等),而这一特定领域的知识又以多种形式存在,如互联网知识、书本、专家的经验等。与一般的信息检索系统采用Robot技术从互联网上自动抓取知识的方式不同,要求针对这一特定领域的知识尽可能涵盖多的知识来源。这里采用了手工获取的方式来进行蔬菜供应链领域知识的获取。主要采集的知识是欧洲(德国、希腊、英国等国家)与亚洲(中国)由互联网支持的农产品供应链特别是蔬菜供应链相关的知识。知识采集和知识库建立的目的是缩小中国和欧洲国家在蔬菜供应链管理上的鸿沟,实现知识的共享。我们收集的知识主要包括领域专家的经验、书本、报纸、案例、学术论文、实践经验等。知识收集的途径主要是互联网搜索、网站知识获取、书本文献查阅、专家走访等。目前我们蔬菜供应链知识库中已经收取了超过415条的相关知识,并且这一数目还在不断的增长中。数据采集以后存贮在本地数据库中,数据库中的数据项条目如表(1)所示二、知识加工知识采集后,要进行知识的加工处理。为了实现基于本体的智能知识检索,其中最重要的一步是建立领域本体库。领域本体是在领域专家的帮助下建立在本地知识库的基础上的。对于本地知识库中的数据利用RDF表示提取其数据信息。RDF以三元组的形式表示数据,对于以RDF表示的数据通过语义标引和语义映射在领域专家的帮助下实现领域本体库的构建。这其中的主要工作是提取数据信息,将数据项按照领域本体的结构进行组织和安排。这样,在进行信息检索时不仅能获得该数据项的信息还可以获取该数据项和其它数据项之间的关系。如描述领域概念的上下位关系、相似关系等。这也为后面知识服务过程中进行语义推理奠定了基础。三、知识服务系统建立的最后一步功能是提供知识服务,整个系统共向用户提供三种知识获取方式基于关键词的检索、语义扩展检索和基于本体的知识获取。基于关键词的检索是一种传统的信息检索方式,它根据用户的输入采用关键词匹配的方式进行信息的检索。在本系统中提供该功能,一方面为适应用户的传统检索习惯,另一方面可以将这一传统检索技术的检索结果与基于本体的检索技术的检索结果作一个对比。语义扩展的检索是在关键词检索的基础上通过描述领域词汇相关度的词汇表进行语义扩展,经过语义扩展之后再进行信息的检索。基于本体的知识获取是第三种提供知识服务的方式,对于用户的知识检索需求,利用查询语义分析器将用户的查询请求转化为领域本体库中所使用的RDF三元组的形式。这样和在第二步中建立的领域知识本体库中的三元组进行匹配,利用Jena进行解析,把用户所需的知识从本体库和知识库中抽取出来,提供给用户。另外在Jena的基础上还可以进行语义推理、语义检索等知识服务。语义推理主要是利用推理机,推理出本体中所隐含的类之间的关系,从而实现检索语义的扩展。在知识服务模块共提供给用户三种形式的知识获取方式,包括关键词检索、语义扩展检索和基于本体的语义检索。(1)关键词检索关键词检索使用一组有代表性的关键词(索引术语)来描述数据库中的每一项内容。它是一种传统的信息检索方式,目前许多著名的互联网搜索引擎如谷歌(www.google.com)和百度(www.baidu.com)等都是利用用户输入的关键词进行信息的查询。基于关键词的检索优点和缺点同样明显,优点是简单、快捷、具有较快的检索速度。缺点主要有1.检索意图表达困难,通常用户很难用一个或几个简单的关键词就能表达自己的检索意图,这导致检索效率不高。2.由于语言中的一词多义或者一义多词现象,使得关键词检索很难解决同义词查询的问题。如对于“Apple”可以理解成蔬菜中的苹果还可以理解成一个著名电脑公司的品牌。另外,由于文化教育背景等的差异,用户查询同样的信息也很可能选用不同的关键词。3.关键词检索的另一个主要问题是所谓的“信息孤岛”问题,由于关键词只能反映原始数据项的描述,不能反映数据项的具体内容,这导致原本存在概念上相关的信息不能反映其内在联系,在检索时也就不能通过一个数据项的信息来获取与其关联的文档信息,这也是语义检索所着力解决的问题。另外,在关键词的检索中,往往过于追求检索的查全率,这导致查询的结果往往数量非常庞大,而用户很难有精力来对其进行分析。(2)语义扩展检索通过定义蔬菜供应链领域知识语义词典,在语义词典的支持下经过语义扩展、语义蕴含、语义外延、语义联想等语义扩展得到一组具有较强语义相关性的查询条件集合,在进行语义扩展的过程中可以根据概念间的关系描述,进行相关的语义推理。基于语义扩展的查询能够提高信息检索的查全率和查准率等参数。然而,由于语义推理过程发生在与用户交互的在线阶段,这势必会增加单位用户的平均服务时间,影响服务器的响应性能,尤其当存在大量并发用户时,系统的性能下降尤为明显。(3)基于本体的语义检索通过构建蔬菜供应链领域本体模型,本体模型中描述了蔬菜供应链概念间的关系。通过将本体模型进行形式化表示,加入推理规则来完成对有关元数据的推理处理,得出隐含的检索信息。由于蔬菜供应链本体模型描述了蔬菜供应链知识概念间的相互关系,通过基于本体模型的语义检索可以较好的反映用户检索意图,得到较高的查全查准率。
全文摘要
本发明涉及一种知识获取系统领域,尤其是一种蔬菜供应链知识智能获取系统。本发明的目的是设计一套针对蔬菜供应链领域的知识智能获取系统,借助计算机媒介实现蔬菜供应链知识的有效传播,特别是实现国内外蔬菜供应链领域知识的传递。系统以蔬菜供应链本体模型为支撑,提供关键词检索、语义扩展检索与基于本体模型的语义检索三种检索方式,作为针对专业领域的知识获取工具,本系统具有高的查询效率。可以方便蔬菜供应链参与者、科研人员方便获取专业知识。
文档编号G06F17/30GK101710318SQ20091009223
公开日2010年5月19日 申请日期2009年9月8日 优先权日2009年9月8日
发明者傅泽田, 岳峻, 张领先, 李鑫星 申请人:中国农业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1