本发明涉及一种基于java的大豆主题的垂直搜索引擎原型系统设计方法,属于农业互联网搜索引擎领域。
背景技术:
随着互联网技术的快速发展,网络信息资源呈现出爆炸性增长态势,如何快速找到满足用户需求的信息成为越来越重要的问题;目前,搜索引擎已成为互联网最重要的应用之一,传统的通用搜索引擎为所有用户提供统一接口,但随着信息量的持续增长,其已不能满足特定领域用户对信息准确性、实时性和深度等多方面的个性化需求,因而,专门用来查询某一学科领域或主题的搜索引擎即垂直搜索引擎应运而生,并得到快速的发展和广泛的应用。目前,互联网上的大豆相关信息极为丰富和广泛,一方面,对于从事大豆生产加工工作的豆农,不能很好地甚至不会利用搜索引擎在网络上进行信息查询,从而不能掌握大豆相关的最新技术信息,如大豆病虫害防治、种植技术及市场价格等信息,阻碍大豆产业的快速发展,因此,建立大豆门户网站对大豆产业信息资源进行整合,以提高资源共享的程度,本发明采用垂直搜索技术对大豆产业信息资源进行搜集,为大豆门户网站提供数据支撑;另一方面,对于从事大豆科研及流通工作的人员大多通过搜索引擎在互联网上获取相关信息;当用户使用通用搜索引擎进行信息检索时,往往得到的是海量的含有重复信息和垃圾信息的数据集,用户不能快速、准确的定位到需求信息;因此,需要设计一个面向大豆主题的垂直搜索引擎系统,为大豆领域的用户提供专业的搜索,为用户提供高质量的数据集,减少用户检索信息所耗费的时间和精力,以使用户在互联网上能够快速、准确地定位信息。
技术实现要素:
为解决上述问题,本发明提出了一种基于java的大豆主题的垂直搜索引擎原型系统设计方法,以大豆网站为初始抓取的目标网站,基于java技术对面向大豆主题的垂直搜索引擎原型系统进行实现,为大豆门户网站提供数据支撑,同时,为面向大豆主题信息的查询提供了理论基础。
本发明的基于java的大豆主题的垂直搜索引擎原型系统设计方法,所述方法包括以下步骤:
第一步,明确研究目的和意义,分析垂直搜索引擎以及其在农业领域中应用的研究现状和动态;对通用搜索引擎和垂直搜索引擎的发展、结构、原理以及各自的优劣进行分析、比较,并基于大豆主题,对主题搜索引擎的系统结构进行设计;
第二步,网页信息采集的核心为网络蜘蛛,其自动地在互联网上按照一定的搜索策略进行搜索爬行,并将搜集的信息存储到本地;主题网络蜘蛛与通用网络蜘蛛最大的区别是,前者是有选择地抓取主题相关的页面,而后者则是见网页就抓;本发明对主题网络蜘蛛的结构、原理、搜索策略以及主题相关度分析算法进行深入研究和分析,考虑链接锚文本和网页标题对相关度的影响以及链接陷阱问题,对已有的链接分析算法进行改进;
第三步,索引可以提高检索效率,索引能够有效提高管理与审核模块加载数据的速度;索引对象经过中文分词处理的网页文档,对已有的分词算法和倒排索引技术以及开源lucene索引框架的索引过程和搜索过程进行研究;
第四步,基于上述研究,按照软件工程学的理论对面向大豆主题的垂直搜索引擎原型系统进行实现,主要是对该系统中的网页信息采集、索引和管理与审核模块进行实现,最终为大豆门户网站提供大豆相关数据。
进一步地,所述第三步中的中文分词为连续的字序列拆分成词序列的过程。
再进一步地,所述第三步中中文分词采用基于ikanalyzer分词的lucene索引框架。
本发明与现有技术相比较,本发明的基于java的大豆主题的垂直搜索引擎原型系统设计方法,以大豆网站为初始抓取的目标网站,基于java技术对面向大豆主题的垂直搜索引擎原型系统进行实现,为大豆门户网站提供数据支撑,同时,为面向大豆主题信息的查询提供了理论基础,本发明的研究也可作为其他农业主题搜索引擎的参考。
具体实施方式
本发明的基于java的大豆主题的垂直搜索引擎原型系统设计方法,所述方法包括以下步骤:
第一步,明确研究目的和意义,分析垂直搜索引擎以及其在农业领域中应用的研究现状和动态;对通用搜索引擎和垂直搜索引擎的发展、结构、原理以及各自的优劣进行分析、比较,并基于大豆主题,对主题搜索引擎的系统结构进行设计;
第二步,网页信息采集的核心为网络蜘蛛,其自动地在互联网上按照一定的搜索策略进行搜索爬行,并将搜集的信息存储到本地;主题网络蜘蛛与通用网络蜘蛛最大的区别是,前者是有选择地抓取主题相关的页面,而后者则是见网页就抓;本发明对主题网络蜘蛛的结构、原理、搜索策略以及主题相关度分析算法进行深入研究和分析,考虑链接锚文本和网页标题对相关度的影响以及链接陷阱问题,对已有的链接分析算法进行改进;
第三步,索引可以提高检索效率,索引能够有效提高管理与审核模块加载数据的速度;索引对象经过中文分词处理的网页文档,对已有的分词算法和倒排索引技术以及开源lucene索引框架的索引过程和搜索过程进行研究;
第四步,基于上述研究,按照软件工程学的理论对面向大豆主题的垂直搜索引擎原型系统进行实现,主要是对该系统中的网页信息采集、索引和管理与审核模块进行实现,最终为大豆门户网站提供大豆相关数据。
所述第三步中的中文分词为连续的字序列拆分成词序列的过程。
所述第三步中中文分词采用基于ikanalyzer分词的lucene索引框架。
本发明的基于java的大豆主题的垂直搜索引擎原型系统设计方法,以大豆网站为初始抓取的目标网站,基于java技术对面向大豆主题的垂直搜索引擎原型系统进行实现,为大豆门户网站提供数据支撑,同时,为面向大豆主题信息的查询提供了理论基础,本发明的研究也可作为其他农业主题搜索引擎的参考。
上述实施例,仅是本发明的较佳实施方式,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请范围内。