一种教学资源的全文搜索引擎系统的制作方法

文档序号:9326938阅读:307来源:国知局
一种教学资源的全文搜索引擎系统的制作方法
【技术领域】
[0001]本发明涉及信息检索领域,特别涉及一种针对教学资源的构建垂直搜索引擎的方法。
【背景技术】
[0002]伴随着因特网的普及,教育系统中可用的网页信息、课件资源和各种电子信息载体也不断产生,比之于通用网页信息检索的发展,教育信息化改革和教学资源建设的发展相对缓慢,专门针对教育资源的专业检索还尚未出现。以往对教育资源的全文检索功能可以由以下三种方法实现:
[0003](I)使用关系数据库的Like “keyword”查询来代替全文检索系统。这种方法在信息量比较小的情况下,检索速度比较快,但是由于查询语句比较繁琐,在面对海量信息的情况下,检索速度会急剧降低,其性能也往往达不到要求,甚至影响数据库的其他正常使用。
[0004](2)使用通用的数据库系统提供的全文检索功能。有些教学平台虽称实现了全文索引库,但其实质是通过先检索放在关系数据库里的结构化数据,如标题、作者、关键词、文摘等,然后链接全文以获得全文,真正实现全文检索的不多。
[0005](3)使用网络上如google、baidu等搜索引擎提供的站内搜索。此方法对于校园网来说,成本昂贵,索引范围不全,更新周期慢等。
[0006]这三种方法的搜索技术在教学资源文档检索方面存在诸多不足,导致目前学校对教学资源库中文档的索引管理效率低下,用户查找教学资源不方便。因此,针对网络教学平台的教育资源研究并定制一个全文检索系统是必要的。
[0007]当前信息处理研究领域中的信息抽取、信息过滤、信息检索等研究热点正好适应了这一需要,值得教育信息化改革的学习和借鉴。信息抽取的目的是对目前存在的多种格式的文档资源,如Office文档、PDF文档、标记格式文档(HTML、XML、xSL)等进行分析,提取出文档中的内容。信息检索一般是指文件信息检索。其主要目的是针对用户提出的查询,快速准确地得到所需要的文件信息。信息检索的核心技术是全文检索技术。全文检索技术不仅是提高教学资源利用率的保证,更是促进网络教学系统发展的关键技术之一。
[0008]Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,其目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene作为一个全文检索引擎,其具有如下突出的优点:
[0009](I)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
[0010](2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
[0011](3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。
[0012](4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
[0013](5)已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等等。
[0014]为了克服上述现有技术的缺陷,针对教育信息化和网络化的需求特点,本发明创新地在网络教学平台上基于Iucene构建一个全文检索引擎系统,可以对系统内课件资源库中各种文档如PDF文件、Office文档等进行全文检索。

【发明内容】

[0015]本发明提出了一种教学资源的全文搜索引擎系统,包括:用户交互单元,其为输入输出装置,用于接收用户输入的关键词或语句,以及显示或输出查询到的教学资源;教学资源库,其用于存储上传的教学资源;文本处理单元,分别与所述用户交互单元和所述教学资源库通信,用于对所述教学资源的文本及所述关键词或语句进行处理,生成分词结果;建立索引单元,其与所述文本处理单元通信,利用基于Iucene的建索引引擎,根据所述教学资源的分词结果建立索引文件,并存储所述索引文件;查询搜索单元,其与所述用户交互单元、所述文本处理单元及所述建立索引单元,其用于根据所述关键词或语句的分词结果生成查询对象,对所述建立索引单元内的所述索引文件进行搜索,搜索到的与所述查询对象最相关的教学资源后返回所述用户交互单元。
[0016]本发明所述的教学资源全文搜索引擎系统中,所述文本处理单元包括:文本抽取模块,从所述教学资源中抽取出文本;所述文本来源包括:ppt类型、word类型、pdf类型、txt类型的文档;中文词语处理模块,其为ICTCLAS分词系统用于对从所述文本、用户输入的所述关键词或语句进行词语切分、词性标注及词语过滤,生成分词结果。
[0017]本发明所述的教学资源全文搜索引擎系统中,所述建立索引单元包括:索引创建模块,其用于建立索引器IndexWriter,建立文档对象Document,在所述文档对象Document中建立字段Field,并将所述文档对象Document添加到所述索引器IndexWriter中,得到索引文件;索引存储模块,其与所述索引创建模块通信,用于存储所述索引文件。
[0018]本发明所述的教学资源全文搜索引擎系统中,所述查询搜索单元包括:搜索索引模块,其基于Iucene的query查询接口,根据所述关键词或语句的分词结果生成查询对象,对所述建立索引单元内的所述索引文件进行搜索,得到相关的教学资源;相关性排序模块,其用于对所述教学资源与所述查询对象的相关程度进行打分,按得分排序得到与所述查询对象最相关的教学资源。
[0019]本发明所述的教学资源全文搜索引擎系统中,所述用户交互单元为web网站。
[0020]本发明的有益效果在于:
[0021]索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。在传统全文检索引擎的倒排索引的基础上,本发明实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。本发明具有优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。本发明设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。本系统已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等等。
【附图说明】
[0022]图1是全文搜索引擎系统的结构框图。
[0023]图2是全文搜索引擎系统的搜索流程图。
[0024]图3是Lucene数据源组织结构图。
【具体实施方式】
[0025]结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
[0026]参见图1,本发明教学资源的全文搜索引擎系统包括:用户交互单元1,其为输入输出装置,用于接收用户输入的关键词或语句,以及显示或输出查询到的教学资源;教学资源库2,其用于存储上传的教学资源;文本处理单元3,其分别与用户交互单元I和教学资源库2通信,用于对教学资源的文本及关键词或语句进行处理,生成分词结果;建立索引单元4,其与文本处理单元3通信,利用基于Iucene的建索引引擎,根据教学资源的分词结果建立索引文件,并存储索引文件;查询搜索单元5,其与用户交互单元1、文本处理单元3及建立索引单元4,其用于根据关键词或语句的分词结果生成查询对象,对建立索引单元4内的索引文件进行搜索,搜索到的与查询对象最相关的教学资源后返回用户交互单元I。
[0027]【具体实施方式】中使用的是Lucene 3.6版本,Lucene的工作流程分两大步:第一步建立索引,第二步查询。本发明的目的是对大量office文档,pdf,txt等文件创建索引,根据创建好的索引文件,通过关键词或者语句能够快速搜索到相应的文件。方法流程如图1所不:1利用Apache POI和Apache I3DFbox的开放源码函式库对Microsoft Office格式文档和pdf格式文档抽取出文本;2利用中科院分词系统ICTCLAS对抽取出的文本进行中文分词;3利用Lucene对切分词创建索引;4执行搜索,应用Lucene的打分机制,可以将搜索到的结果根据相关性由高到低返回。
[0028]图2显示的是全文搜索引擎系统的搜索流程图。以下结合实例,对各单元的功能模块的功能及其实现方法作详细阐述。
[0029]1、文本抽取
[0030]文本处理单元3包括文本抽取模块31和中文词语处理模块32。文本抽取模块31从教学资
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1