一种基于xml的信息搜索方法

文档序号:8282276阅读:206来源:国知局
一种基于xml的信息搜索方法
【技术领域】
[0001]本发明涉及一种基于XML的信息搜索方法,属于计算机技术领域。
【背景技术】
[0002]随着Internet上信息量的与日俱增,传统的基于HTML的信息检索已经无法满足人们不断变化的信息需求。为此,人们努力寻求各种新的技术方法和解决手段,XML的出现在很大程度上能缓解这一问题。由于XML具有可扩展性、简单性、开放性、互操作性等诸多特点,正逐步取代HTML,成为驻留在Web上的主要的信息形式,而其结构化及自描述等特性亦给检索效果的提高带来了新的契机。
[0003]可扩展的标识语言XML (Extensible Markup Language)是一种元标注语言,即定义了用于定义其他特定领域有关语义的、结构化的标记语言,这些标记语言将文档分成许多部件并对这些部件加以标识。XML文档定义方式有:DTD (Document Type Definit1n)和XML Schema。DTD定义了文档的整体结构以及文档的语法,应用广泛并有丰富工具支持。XML Schema用于定义管理信息等更强大、更丰富的特征。XML能够更精确地声明内容,方便跨越多种平台的更有意义的搜索结果。它提供了一种描述结构数据的格式,简化了网络中数据交换和表示,使得代码、数据和表示分离,并作为数据交换的标准格式,因此它常被称为智能数据文档。XML技术已经广泛应用于e-Learning应用系统的开发,大多数的商用e-Learning平台都支持XML标准。

【发明内容】

[0004]本发明介绍了一种基于XML的信息搜索方法,该方法建立索引时不仅需要建立倒排文本索引,还需要建立结构信息索引;查询处理时不仅需要处理关键字查询条件,还需要处理结构化查询条件。具体过程如下:
(I)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。
[0005](2)为考虑XML数据中的结构信息对查询结果相关度值的影响,提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。
[0006](3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了 XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。
【具体实施方式】
[0007]实施例一
使用MyEclipse 8.6作为开发工具,使用市场上专用的数据库MySQL建立系统所需要的数据库,使用Navicat for MySQL作为数据库管理工具。
[0008]具体过程如下:
(I)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。
[0009](2)为考虑XML数据中的结构信息对查询结果相关度值的影响,本发明提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。
[0010](3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了 XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。
[0011 ] 除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
【主权项】
1.本发明介绍了一种基于XML的信息搜索方法,具体过程如下: (1)分析XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,提出了一种高效的动态XML结构索引算法,它采用动态后向结构相似性的概念,可根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息; (2)为考虑XML数据中的结构信息对查询结果相关度值的影响,利用综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,以便取得更优的检索性能; (3)分析XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,利用完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。
【专利摘要】随着Internet上信息量的与日俱增,传统的基于HTML的信息检索已经无法满足人们不断变化的信息需求。本发明涉及一种基于XML的信息搜索方法,属于计算机技术领域。该方法提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计,有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。
【IPC分类】G06F17-30
【公开号】CN104598454
【申请号】CN201310527298
【发明人】不公告发明人
【申请人】南京思润软件有限公司
【公开日】2015年5月6日
【申请日】2013年10月31日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1