一种基于互联网的信息检索方法

文档序号:6581973阅读:233来源:国知局
专利名称:一种基于互联网的信息检索方法
一种基于互联网的信息检索方法技术领域
本发明涉及计算机领域,特别是一种基于互联网的信息检索方法,具有用户更安 全、更精确地获取信息的特点。背景技术
互联网的迅速发展和广泛普及导致网上信息爆炸性增长,如果这些信息能被有效 的利用,那么互联网将是一个巨大的信息宝库。然而,据权威人士统计,整个互联网的信息 利用率还不到1/6,原因到底何在?这主要是因互联网信息杂乱无组织性和更新快所致,另 外用于互联网信息检索的技术方法有限是又一原因。搜索引擎是目前获取网络信息使用最广泛也是最有效的方法。用户输入关键字, 然后根据简单的匹配策略在索引库中进行查找,这就导致返回的结果过于庞大,同时用户 (尤其对初级用户来说)一般很难简单地用关键字来如实地表达他真正需要检索的内容; 有些搜索引擎使用人工来对网站进行归纳和分类,为信息导航带来了极大的方便,可是它 的成本较高,对网站的描述也十分简略,用户不能查询网站内部的重要信息。对于个人、商家、企业、乃至一个民族、国家而言,谁能掌握信息的主动权,就能在 现代竞争中处于有利地位。信息检索技术能帮助人们从浩瀚的数据中抽取对用户有用的信 息,能极大的节省用户的查询时间。调查数据显示,目前有68. 2%的人经常使用搜索引擎, 它是目前仅次于电子邮件的网络应用;另有41%的人通过搜索引擎进入购物网站,84. 6% 的新网站通过搜索引擎被发现;同时,科学证明,搜索引擎是未知状态下发现有效信息的最 有效方式。随着全球网络化、信息化的发展,网络上的信息越来越多,对信息检索手段的有 效性要求也越来越高,但是,目前的搜索引擎基本都采用基于关键字匹配的全文检索技术, 查询经常出现检索不全、答非所问的结果。语义检索正是突破了机械式匹配局限于表面形 式的缺陷,从词语所表达的语义层次上来认识和处理用户的检索请求。语义信息检索方法 更符合人类的思维习惯,它可克服传统检索方法造成的信息冗余或信息丢失的缺点,其查 询效果更为合理可用。这足以表明,语义信息检索技术对于网民和商业用户来说,都极具有 极大的实用价值。语义Web是由Wffff的发明人Tim Berners-Lee在2000年10月18日的XML2000会议 上提出的概念,他最初将语义Web视为“一个web数据库,某种意义上就像一个全球数据库” 基本的思想就是一个web,在那里远程主机可以以有意义的方式进行交谈,而不仅仅是请求 HTML页面。而对语义Web的传播和推进主要靠的是World Wide Web Consortium(W3C),随 着2001年2月W3C组织正式推出kmantic Web Activity,网络环境下的语义检索进入网 络研究发展的主流。一些主要的开发商,包括Adobe、Hewlett-Packard、IBM、Nokia甚至美 国国防防御高级研究计划局,都支持并投资开发语义Web。语义Web要实现的目标就是要创 建一个合理、有序组织、结构化、形式化的知识网络,满足人类认知理解的同时要便于计算 机访问、处理、推理和利用,让基于概念的网络信息检索代替基于字面匹配的信息检索,给 网络信息检索和利用带来一场革命。让用户可以更安全、更精确地获取信息。
发明内容本发明的目的在于克服现有搜索引擎技术的不足,提供了一种基于互联网的信息 检索方法。解决传统信息检索过程中所存在的问题,以提高检索的质量和效率。本发明的一种基于互联网的信息检索方法的语义Web通过XML、RDF、Ontology三 层来实现Web信息语义描述;XML用结构化的方法处理Web文档,通过嵌套的结构定义信息 之间的关系,使计算机可处理用XML描述的信息;RDF以一种标准化的方式来规范XML,借助 RDF,表达同一事实的XML描述被转化为统一的RDF陈述;Ontology的四层含义有(1)概念 模型;(2)明确;(3)形式化;(4)共享。本发明的一种基于互联网的信息检索方法标准的Ontology的构造方法包括(1) 确定本体的领域和范围;( 列出领域中的重要术语、概念;C3)建立本体框架;(4)复用现 有的本体;( 定义类和类的层次结构;(6)定义类的属性;(7)定义属性的分面;(8)创建 实例。本发明的一种基于互联网的信息检索方法在本体的构造过程中遵循规则包括 (1)明确性和客观性;( 完全性;( 一致性;(4)最大单调可扩展性;( 最小承诺。本发明的一种基于互联网的信息检索方法的本体通过以下三种方式对用户查询 进行扩展⑴关联和从属的概念;⑵谓词和关联的概念;⑶谓词特性。基于Ontology的信息检索的基本思想有(1)在领域专家的帮助下,建立相关领 域的Ontology ;(幻利用Ontology中的概念来标注相关的信息资源并以特定的格式存储 在元数据库(RDB,KDB)中;C3)对RDF、RDFS、0ffL等相关文件的解析和推理问题,即将以一 般文件存储的Ontology和信息资源信息从文件中读取出来存储在特定的模型中以便于程 序处理,并可以根据一定的推理规则基于Ontology进行语义推理,这是实现语义检索的关 键一步;(4)利用本体对用户检索进行领域内的概念及属性关联扩展;(5)在Ontology的 帮助下从元数据库中匹配出符合条件的数据集合;(6)检索的结果经过定制处理返回给用 户。本发明的一种基于互联网的信息检索方法的系统结构,如图1所示,在该结构中, 首先由用户选择与其查询相关的领域本体,然后输入关键字,若用户输入的关键字是领域 本体中的概念,则通过用户选择的领域本体中的知识来对用户输入的关键词进行本文中所 述的三种查询扩展,同时通过对扩展以后的各个查询条件的使用频度进行统计,将查询条 件按其使用频度进行排序,以方便用户进行选择,搜索引擎根据用户选择的查询条件进行 搜索。若用户输入的关键字不是领域本体中的概念,则不需要进行查询扩展。为了减少用 户查询的响应时间,可以考虑在领域本体建立以后,即领域本体所蕴含的知识确定以后,就 对本体中的概念进行查询扩展,将扩展结果保存于信息库中,这样可以使得在线处理变得 相当简单,即只需从信息库中提取相应概念的查询扩展。由于考虑到目前的搜索引擎无法 对包含有语义标记的文档进行索引,对带有语义标记的文档进行了文中所述的在文档中添 加附加信息的处理,在处理的过程中还运用了本体的推理机制,找出了文档内的隐藏信息, 将获得的隐藏信息同样经过处理后添加到文档中,使得搜索引擎可以对这些附加信息进行 索引,这样使得搜索引擎对文档的索引更能反映文档的真实内容。该系统结构考虑了从两 个方面解决传统搜索引擎用户检索返回结果相关度不高的问题,即用户查询的“忠实表达”及搜索引擎的索引能否揭示Web文档本质的角度。本发明一种基于互联网的信息检索方法的积极效果是一是在于同义词之间的相 互映射;二是检索结果能够实现keyword的一些关系提示;三是词汇歧义的消除。
图1 一种基于互联网的信息检索方法的系统结构图;具体实施方式以下通过具体的实施例对本发明的技术方案进行详细的说明。开发平台操作系统Windows2000;IDE :EcliPse3. 0+Lomboz3. 0. 1+JDKI. 5. 006 ;Web 服务器:Tomcat5. 0。开发工具Protege3. 1. 1 ;语义推理工具在本体数据读取、语义推理和信息检索时,语义检索系统主要采用 了惠普实验室开发提供的Jena 2.4API接口方法。实施例1 创建和读、写RDF模型。/创建一个空的RDF模型Model model = Model Factory. createDefaultModel ()//将RDF文件中的信息读取到模型中model. read(new InputStreamReader (inputstream),““) //将模型中的信息写入到RDF文件 model. write(System. out)实施例2 在RDF模型中检索信息5//根据Resource的URI返回Resource对象 Resource resource=model. getResource (URI) //利用Resource对象的接口列出符合条件的信息 String string二resource. getProperty(property). getString ()//使用一般的方法检索RDF模型Reslterator iterator=model .IistSubj ects WithProperty(property) //使用Selector对象以三元组匹配的形式检索RDF模型 Selector selector=new SimpleSelector (subject,predicate, object) //然后可以使用IistStatements ()方法输出相关结果 Stmtlterator interator=model. IistStatements (selector)实施例3 推理机的使用“//获取Ontology数据 Model Schema=FileManager. get(). IoadModel(SchemaFileURI)//获取信息资源数据Model data=FileManager.get(). IoadModel(DataFileURI)‘//创建空的OWL注册机 Reasoner reasoner=ReasonerRegistry. getOWLReasoner () //向注册机中绑定Ontology数据 reasoner=reasoner. bindSchema (sehema)//向注册机中绑定信息资源数据InfModel infmodel=ModelFactory. createlnfModel (reasoner,data)
最后所应说明的是以上实施例仅用于说明而非限制本发明的技术方案,尽管参 照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,依然可以对本 发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均 应涵盖在本发明的权利要求范围当中。
权利要求
1.一种基于互联网的信息检索方法,其特征在于语义Web通过XML、RDF、0ntOlOgy三 层来实现Web信息语义描述;XML用结构化的方法处理Web文档,通过嵌套的结构定义信息 之间的关系,使计算机可处理用XML描述的信息;RDF以一种标准化的方式来规范XML,借助 RDF,表达同一事实的XML描述被转化为统一的RDF陈述;Ontology的四层含义有(1)概念 模型;(2)明确;(3)形式化;(4)共享。
2.根据权利要求1所述的一种基于互联网的信息检索方法,其特征在于=Ontology的 构造方法包括(1)确定本体的领域和范围;(2)列出领域中的重要术语、概念;(3)建立本 体框架;(4)复用现有的本体;(5)定义类和类的层次结构;(6)定义类的属性;(7)定义属 性的分面;(8)创建实例。
3.根据权利要求1所述的一种基于互联网的信息检索方法,其特征在于本体的构造 过程中遵循规则包括(1)明确性和客观性;( 完全性;( 一致性;(4)最大单调可扩展 性;(5)最小承诺。
4.根据权利要求1所述的一种基于互联网的信息检索方法,其特征在于本体通过以 下三种方式对用户查询进行扩展(1)关联和从属的概念;(2)谓词和关联的概念;(3)谓 词特性。
全文摘要
本发明涉及一种基于互联网的信息检索方法,语义Web通过XML、RDF、Ontology三层来实现Web信息语义描述;XML用结构化的方法处理Web文档,通过嵌套的结构定义信息之间的关系,使计算机可处理用XML描述的信息;RDF以一种标准化的方式来规范XML,借助RDF,表达同一事实的XML描述被转化为统一的RDF陈述;Ontology的四层含义有(1)概念模型;(2)明确;(3)形式化;(4)共享。本发明的积极效果是一是在于同义词之间的相互映射;二是检索结果能够实现keyword的一些关系提示;三是词汇歧义的消除。
文档编号G06F17/30GK102043794SQ20091019687
公开日2011年5月4日 申请日期2009年10月9日 优先权日2009年10月9日
发明者卢健华 申请人:卢健华
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1