森林分类经营知识库全文搜索引擎系统的制作方法

文档序号:6483540阅读:272来源:国知局
专利名称:森林分类经营知识库全文搜索引擎系统的制作方法
技术领域
本发 明涉及一种计算机网络技术,尤其是涉及数据林业技术,是一套集森林分类 经营技术的知识库全文搜索引擎系统。实现森林分类经营技术的科学化、数字化、规范化。
背景技术
目前,搜索引擎是随着因特网的迅猛发展、TOB信息的迅速增力卩,从1995年开始逐 渐发展起来的搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引 擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户 提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非 常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机 工业界和学术界争相研究、开发的对象。在这种情况下,把搜索引擎技术应用在森林分类经 营技术管理中,为用户提供了很好的互联网搜索服务,受到了用户的好评,拓展了数字林业 领域的研究。在森林分类经营技术不断更新的情况下,结合搜索、数据库、网络等多种技术,实 现了森林分类经营知识库搜索引擎,打破原有的单机系统模式,通过B/S/D架构体系和基 于的Web浏览器的界面,由用户端程序为用户提供文件类别、关键词等全文搜索功能。实现 最广泛的森林分类经营技术共享系统,操作简便、界面信息丰富、维护容易。该搜索引擎经 过测试,满足信息查询的需求,达到预期的设计效果,对森林分类经营技术数字化具有一定 的现实意义,同时也为其他相关项目的设计提供了参考。

发明内容
本发明的目的在于提供一种森林分类经营知识库全文搜索引擎系统。为了达到上述目的,本发明采用的技术方案是将信息发布到互联网搜索引擎中, 本系统采用(1)、分类经营技术网络化通过构建包括森林立地分类与功能区划、过伐林生 态系统恢复及经营技术、天然阔叶混交林可持续经营技术、珍贵阔叶树种定向培育技术、低 质林结构与功能优化调控技术、人工林天然化经营技术、速生树种用材林高效经营技术、经 济林优化经营技术等在内的专家知识库,研制基于网络技术的智能化搜索引擎,为森林分 类经营提供基于计算机的专家技术指导,(2)、构建知识库运用Mysql这个最流行的开放 源码Sql数据库管理系统建立数据库,收集整理与森林分类经营相关的技术、文献等资料, 建立多数据表的关键词索引数据库,收集整理了一些包括森林立地分类与功能区划、过伐 林生态系统恢复及经营技术、天然阔叶混交林可持续经营技术、珍贵阔叶树种定向培育技 术、低质林结构与功能优化调控技术、人工林天然化经营技术、速生树种用材林高效经营技 术、经济林优化经营技术等在内的数据资料,用于构建知识库,数据库采用标准建模工具建 模,完成对其ER图的维护,便于对数据库的整体把握和后期扩展,数据库模型图包括业务 模型和物理模型,描述了各种业务实体及其对应关系,业务模型图可以生成物理模型图和 Java实体类,(3)、多文档全文搜索引擎实现基于JAVA技术的Lucene来开发全文搜索引擎,基于Lucene的全文检索系统采用接口方式,统一处理html、中/英文pdf、word和Excel 常用文档。本发明的优点是
1、数据库采用标准建模工具建模,完成对其ER图的维护,便于对数据库的整体把 握和后期扩展,数据库模型图包括业务模型和物理模型,描述了各种业务实体及其对应关 系,业务模型图可以生成物理模型图和Java实体类,大大提高程序效率,物理模型描述了 数据库表及其表之间的关系,通过物理模型生成数据库表,完成对数据库的整体控制,通过 该物理模型可以生成Sql语句等,便于日后维护;2、本发明最大限度地为用户屏蔽多种格式文档差异性的同时,极大地扩展了 Lucene可以处理的格式文档类型。在系统的功能设计方面,为达到用户灵活多变的检索需 求,系统要充分考虑数据的合理性,各类数据有效输入相关信息的链接和处理,以及信息的 提供类型和方式,并且可以进行全文检索和下载;3、本发明最大限度地为用户屏蔽各种格式文档差异性的同时,极大地扩展了 Lucene可以处理的格式文档类型;4、本发明基于Iucene技术实现的搜索引擎,为用户提供检索服务,从而起到信息 导航的作用;5、本发明采用倒排树结构存储索引,使得索引的更新不会导致大量的输入输出操 作,而且其更新策略可以定制,批次大小可以调整,索引文件维护容易;6、本发明以全文检索的方式来达到技术文献数据的快速定位;7、本发明数据库模型图包括业务模型和物理模型,业务模型图可以生成物理模型 图和Java实体类,大大提高程序效率,物理模型描述了数据库表及其表之间的关系,通过 物理模型生成数据库表,完成对数据库的整体控制,通过该物理模型可以生成Sql语句等, 便于日后维护。


图1是本发明全文检索系统结构方框图;图2是本发明分词、建立索引和检索方框图;图3是本发明远程调用数据模型方框图。
具体实施例方式下面结合附图对本发明的实施例作进一步详细描述。由图1-图3可知,本发明将信息发布到互联网搜索引擎中,本系统采用(1)、分类 经营技术网络化通过构建包括森林立地分类与功能区划、过伐林生态系统恢复及经营技 术、天然阔叶混交林可持续经营技术、珍贵阔叶树种定向培育技术、低质林结构与功能优化 调控技术、人工林天然化经营技术、速生树种用材林高效经营技术、经济林优化经营技术等 在内的专家知识库,研制基于网络技术的智能化搜索引擎,为森林分类经营提供基于计算 机的专家技术指导,(2)、构建知识库运用Mysql这个最流行的开放源码Sql数据库管理系 统建立数据库,收集整理与森林分类经营相关的技术、文献等资料,建立多数据表的关键词 索引数据库,收集整理了一些包括森林立地分类与功能区划、过伐林生态系统恢复及经营技术、天然阔叶混交林可持续经营技术、珍贵阔叶树种定向培育技术、低质林结构与功能优 化调控技术、人工林天然化经营技术、速生树种用材林高效经营技术、经济林优化经营技术 等在内的数据资料,用于构建知识库,数据库采用标准建模工具建模,完成对其ER图的维 护,便于对数据库的整体把握和后期扩展,数据库模型图包括业务模型和物理模型,描述了 各种业务实体及其对应关系,业务模型图可以生成物理模型图和Java实体类,(3)、多文档 全文搜索引擎实现基于JAVA技术的Lucene来开发全文搜索引擎, 基于Lucene的全文检 索系统采用接口方式,统一处理html、中/英文pdf、word和Excel常用文档。2.根据权利要求1所述的森林分类经营知识库全文搜索引擎系统,其特征在于 所述的数据库采用标准建模工具建模,为四个核心模块数据处理模块、索引模块、检索模 块、结果处理模块(1)数据处理模块主要完成html、中/英文pdf、word和Excel等多种 常用文档解析,在预处理这些文档的时候,不能简单地从文件读取字符,需要根据他们特殊 的格式提取内容,分别使用不同的开源解析模块,获取文本信息,文档的标题、作者、关键词 等属性,采用了直接的Jdbc方式来向数据库写入数据,在写入之前,首先调用GetNextId方 法取得所要插入的Id号,并随着方法返回给调用者,以便调用者可以将这个Id传到Lucene 的索引中,以此将数据库记录和Lucene的索引对应起来,(2)索引模块索引是全文搜索引 擎工作的关键一步,采用目录索引的方法,在经过数据处理模块后,文档完成了预处理,建 立了一种便于检索的数据结构,当文档数量增多时,建立索引能够显著提高信息检索速度, 在建立索引的时候,文章的内容是要先分词后建立索引,(3)检索模块根据用户的要求, 使用了词条检索、短语检索、布尔检索以及模糊检索的方法,在完成检索功能后,还实现了 对检索的结果进行排序、过滤、分页处理,优先将最相关的内容送出,用户检索时,只需对有 限的关键字进行检索,然后从索引中获取数据库的一个Id号,进而转用数据库来读取大量 数据,传回页面,分词、建索和检索图,(4)结果处理模块包括搜索页面和详细信息页面, 使用了 Dwr框架,把检索到的数据列表以Web页面的形式体现,远程调用数据模型图。1、分类经营技术网络化通过构建包括森林立地分类与功能区划、过伐林生态系统恢复及经营技术、天然 阔叶混交林可持续经营技术、珍贵阔叶树种定向培育技术、低质林结构与功能优化调控技 术、人工林天然化经营技术、速生树种用材林高效经营技术、经济林优化经营技术等在内的 专家知识库,研制基于网络技术的智能化搜索引擎,为森林分类经营提供基于计算机的专 家技术指导。在对中国黑龙江省小兴安岭林区典型分类经营功能区立地因子及林木生长动 态状况实地调研和资源、气象、病虫害等资料收集、分析的基础上,结合项目其它课题的研 究成果,开展森林分类经营专家知识库构建及搜索引擎研制的研究。2、构建知识库采用Mysql这个最流行的开放源码Sql数据库管理系统建立数据库,收集整理与 森林分类经营相关的技术、文献等资料,建立多数据表的关键词索引数据库。收集整理了一 些包括森林立地分类与功能区划、过伐林生态系统恢复及经营技术、天然阔叶混交林可持 续经营技术、珍贵阔叶树种定向培育技术、低质林结构与功能优化调控技术、人工林天然化 经营技术、速生树种用材林高效经营技术、经济林优化经营技术等在内的数据资料,用于构 建知识库。数据库采用标准建模工具建模,完成对其ER图的维护,便于对数据库的整体把握和后期扩展,数据库模型图包括业务模型和物理模型,描述了各种业务实体及其对应关系, 业务模型图可以生成物理模型图和Java实体类,大大提高程序效率;物理模型描述了数据 库表及其表之间的关系,通过物理模型生成数据库表,完成对数据库的整体控制,通过该物 理模型可以生成Sql语句等,便于日后维护。3、多文档全文搜索引擎实现基于JAVA技术的Lucene来开发全文搜索引擎。目前由于Lucene能对纯文本的 数据进行索引,多种常用文档,多媒体文档已日益成为网络中信息交换的主体。因此,基于 Lucene的全文检索系统采用接口方式,统一处理html、中/英文pdf、word和Excel常用文 档,使索引此类文档成为可能,其突出的优点与特点是在最大限度地为用户屏蔽各种格式 文档差异性的同时,极大地扩展了 Lucene可以处理的格式文档的类型。在系统的功能设计 方面,为达到用户灵活多变的检索需求,系统要充分考虑数据的合理性,各类数据有效输入 相关信息的链接和处理,以及信息的提供类型和方式,并且可以进行全文检索和下载。4、核心模块设计出中文版的全文检索系统结构(如图1)整个系统将设计四个核心模块数据 处理模块、索引模块、检索模块、结果处理模块。1)数据处理模块 主要完成html、中/英文pdf、word和Excel等多种常用文档解析。在预处理这 些文档的时候,不能简单地从文件读取字符,需要根据他们特殊的格式提取内容,分别使用 不同的开源解析模块,获取文本信息。文档的标题、作者、关键词等属性,采用了直接的Jdbc 方式来向数据库写入数据,在写入之前,首先调用GetNextId方法取得所要插入的Id号,并 随着方法返回给调用者,以便调用者可以将这个Id传到Lucene的索引中,以此将数据库记 录和Lucene的索引对应起来。2)索引模块索引是全文搜索引擎工作的关键一步,采用目录索引的方法,在经过数据处理模 块后,文档完成了预处理,建立了一种便于检索的数据结构,当文档数量增多时,建立索引 能够显著提高信息检索速度。在建立索引的时候,文章的内容是要先分词后建立索引。3)检索模块这一个模块是用户体验最深的,接触最多的部分,它的性能决定了是否能够达到 用户的要求。使用了词条检索、短语检索、布尔检索以及模糊检索的方法,在完成检索功能 后,还实现了对检索的结果进行排序、过滤、分页处理,优先将最相关的内容送出。用户检索 时,只需对有限的关键字进行检索,然后从索引中获取数据库的一个Id号,进而转用数据 库来读取大量数据,传回页面。分词、建索和检索图(如图2)。4)结果处理模块包括搜索页面和详细信息页面,使用了 Dwr框架,把检索到的数据列表以Web页面 的形式体现。远程调用数据模型图(如图3)。
权利要求
1.一种森林分类经营知识库全文搜索引擎系统,本系统是通过计算机互联网络利用 设置在服务器上的软件系统而实现,其特征在于将信息发布到互联网搜索引擎中,本系 统采用(1)、分类经营技术网络化通过构建包括森林立地分类与功能区划、过伐林生态系 统恢复及经营技术、天然阔叶混交林可持续经营技术、珍贵阔叶树种定向培育技术、低质林 结构与功能优化调控技术、人工林天然化经营技术、速生树种用材林高效经营技术、经济林 优化经营技术等在内的专家知识库,研制基于网络技术的智能化搜索引擎,为森林分类经 营提供基于计算机的专家技术指导,( 、构建知识库运用Mysql这个最流行的开放源码 Sql数据库管理系统建立数据库,收集整理与森林分类经营相关的技术、文献等资料,建立 多数据表的关键词索引数据库,收集整理了一些包括森林立地分类与功能区划、过伐林生 态系统恢复及经营技术、天然阔叶混交林可持续经营技术、珍贵阔叶树种定向培育技术、低 质林结构与功能优化调控技术、人工林天然化经营技术、速生树种用材林高效经营技术、经 济林优化经营技术等在内的数据资料,用于构建知识库,数据库采用标准建模工具建模,完 成对其ER图的维护,便于对数据库的整体把握和后期扩展,数据库模型图包括业务模型和 物理模型,描述了各种业务实体及其对应关系,业务模型图可以生成物理模型图和Java实 体类,(3)、多文档全文搜索引擎实现基于JAVA技术的Lucene来开发全文搜索引擎,基于 Lucene的全文检索系统采用接口方式,统一处理html、中/英文pdf、word和Excel常用文 档。
2.根据权利要求1所述的森林分类经营知识库全文搜索引擎系统,其特征在于所述 的数据库采用标准建模工具建模,为四个核心模块数据处理模块、索引模块、检索模块、结 果处理模块(1)数据处理模块主要完成html、中/英文pdf、word和Excel等多种常用 文档解析,在预处理这些文档的时候,不能简单地从文件读取字符,需要根据他们特殊的格 式提取内容,分别使用不同的开源解析模块,获取文本信息,文档的标题、作者、关键词等属 性,采用了直接的Jdbc方式来向数据库写入数据,在写入之前,首先调用GetNextId方法取 得所要插入的Id号,并随着方法返回给调用者,以便调用者可以将这个Id传到Lucene的 索引中,以此将数据库记录和Lucene的索引对应起来,⑵索引模块索引是全文搜索引 擎工作的关键一步,采用目录索引的方法,在经过数据处理模块后,文档完成了预处理,建 立了一种便于检索的数据结构,当文档数量增多时,建立索引能够显著提高信息检索速度, 在建立索引的时候,文章的内容是要先分词后建立索引,(3)检索模块根据用户的要求, 使用了词条检索、短语检索、布尔检索以及模糊检索的方法,在完成检索功能后,还实现了 对检索的结果进行排序、过滤、分页处理,优先将最相关的内容送出,用户检索时,只需对有 限的关键字进行检索,然后从索引中获取数据库的一个Id号,进而转用数据库来读取大量 数据,传回页面,分词、建立索引和检索图,(4)结果处理模块包括搜索页面和详细信息页 面,使用了 Dwr框架,把检索到的数据列表以Web页面的形式体现,远程调用数据模型图。
全文摘要
本发明涉及一种森林分类经营知识库全文搜索引擎系统,涉及计算机网络技术,尤其是涉及数据林业技术,实现森林分类经营技术的科学化、数字化、规范化,全文索引和检索技术是架构于Internet上的搜索系统与Web平台集成,极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。本发明是整合森林分类经营的研究成果建立知识库,结合搜索、数据库、Java网络等多种技术,开发出标准的B/S/D模式下的全文搜索引擎。在系统的功能设计方面,达到用户灵活多变的检索需求,系统充分考虑数据的合理组织,各类数据方便有效的输入,以及信息的提供类型和方式。设计出中文版的全文检索系统结构,整个系统分四个核心模块数据处理模块、索引模块、检索模块、结果处理模块。
文档编号G06Q10/00GK102096845SQ20091007338
公开日2011年6月15日 申请日期2009年12月10日 优先权日2009年12月10日
发明者祝彦杰, 程显峰, 许谭, 陈迪 申请人:黑龙江省森林工程与环境研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1