一种基于Lucene的医疗搜索引擎服务系统建设方法与流程

文档序号:14266249阅读:141来源:国知局

本发明涉及一种基于lucene的医疗搜索引擎服务系统建设方法,属于医疗卫生服务互联网技术领域。



背景技术:

近年来,计算机与互联网技术迅猛发展,网络上的信息量与日俱增,人们要从如此庞大的信息量中搜索出我们需要的信息成了一项重要而艰巨的任务;搜索引擎在网络世界中正扮演着越来越重要的角色;搜索引擎的信息检索和索引效率是决定一个搜索引擎性能的关键因素;当信息量增大,索引量也随之增大,这时搜索引擎服务器的压力会显著升高,搜索引擎的索引更新效率会明显下降。因此,单机型的搜索引擎系统难以满足高数据量和高并发量的需求,为了提高搜索引擎的新能,提升系统处理海量数据的能力,构建分布式的搜索引擎系统是解决问题的有效方法;hadoop是云计算领域最具代表性的一个开源项目,hadoop为广大开发者提供了很好的分布式框架,使开发者开发出适合自己的分布式应用程序。当前,互联网上的各种搜索引擎得到了广大用户的青睐;然而,随着各个领域信息的不断深入和细化,通用的搜索引擎已经越来越难以满足不同领域用户的需求;因此,开发出针对特定领域的信息搜索引擎是非常有必要的;众所周知,医疗卫生事业是关系着人类生存、健康的重要事业;随着科技的发展,医疗卫生领域的信息化不断加深,医疗领域的信息量日渐庞大,人们对医疗信息的获取也日益迫切;如何快速、准确地获取第一手的医疗信息是人们亟待解决的问题。



技术实现要素:

为解决上述问题,本发明提出了一种基于lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。

本发明的基于lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:

第一步,分析介绍lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map-reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;

第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切分,达到预定的中文分词效果;同时加入专门的医疗词库,实现对专业词汇的分析和切分;

第三步,构建搜索引擎信息检索服务器,使用户通过服务器提供的服务查询想要的信息;将heartbeat组件和drbd技术进行结合,构建高容错性的分布式集群环境;

第四步,在搜索结果排序功能模块中,设计新的网页评分机制,在pagerank算法的基础上结合主题相关性判断,同时增加专业词汇的权重,提高搜索结果的准确性。

本发明与现有技术相比较,本发明的基于lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。

具体实施方式

本发明的基于lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:

第一步,分析介绍lucene开发搜索引擎的相关技术和hadoop分布式文件系统的原理;基于hadoop的map-reduce编程模型,设计出分布式网络爬虫程序,实现对网络信息的分布式抓取与检索;

第二步,将开源中文分词器加入系统中,在网页和信息分析时实现中文分词功能,对文章中的语句进行正确有效的切分,达到预定的中文分词效果;同时加入专门的医疗词库,实现对专业词汇的分析和切分;

第三步,构建搜索引擎信息检索服务器,使用户通过服务器提供的服务查询想要的信息;将heartbeat组件和drbd技术进行结合,构建高容错性的分布式集群环境;

第四步,在搜索结果排序功能模块中,设计新的网页评分机制,在pagerank算法的基础上结合主题相关性判断,同时增加专业词汇的权重,提高搜索结果的准确性。

本发明的基于lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map-reduce编程模型,同时基于lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。

上述实施例,仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。



技术特征:

技术总结
本发明公开了一种基于Lucene的医疗搜索引擎服务系统建设方法,所述方法包括以下步骤:第一步,实现对网络信息的分布式抓取与检索;第二步,实现对专业词汇的分析和切分;第三步,构建搜索引擎信息检索服务器;第四步,设计新的网页评分机制。本发明的基于Lucene的医疗搜索引擎服务系统建设方法,通过分析搜索引擎的基本原理,采用hadoop的map‑reduce编程模型,同时基于Lucene开源工具包,开发出一款适合医疗领域的搜索引擎服务系统。

技术研发人员:李淑范
受保护的技术使用者:哈尔滨光凯科技开发有限公司
技术研发日:2016.10.17
技术公布日:2018.04.24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1