一种适用于大信息量网站的搜索处理方法及装置的制作方法

文档序号:6605002阅读:185来源:国知局
专利名称:一种适用于大信息量网站的搜索处理方法及装置的制作方法
技术领域
本发明涉及一种搜索方法及装置,尤其是涉及一种适用于大信息量网站的搜索处理方法及装置。
背景技术
一、搜索引擎谷歌、百度、雅虎等一批先进技术领导的搜索引擎进入国内市场,对中文类网站的搜索效果已日渐成熟。基于中文搜索引擎内的搜索技术分为三部分分词、搜索、排序。分词中文分词,是将一句话分成若干个关键词。该技术目前有2种方法1)积累词库,该方法比较常用,且能随着词库的增加而更加完善程序本身功能。但缺点是,刚涉足搜索领域与企业内部软件没有足够的条件建立庞大的词库。2、智能分词技术,该技术仅存在于技术文献中,目前尚属于理论阶段。搜索搜索结果的有效程度,取决于分词的效果的完善程度。一个完善的分词功能,能够将一句复杂的中国话分离成几个正确的关键词进行搜索,极大的提高搜索效率。排序根据关键词在全文中的权重,通过复杂算法规避权重作弊,在搜索结果中的排序。经过时间的积累,计算搜索结果的准确率,微调关键词的权重。二、站内模糊搜索站内模糊搜索,基于对用户输入的关键词,在数据库中进行“包含”的判断,来搜索数据内容,搜索结果按照已有元素排序。搜索引擎的搜索技术,开发成本偏高,配置要求较高,对企业或个人用户往往很难将现有的搜索技术运用到自己的网站上做站内搜索。而站内搜索基于原理与算法的简单, 但缺乏了搜索引擎关键词输入的自由度,同时忽略了搜索结果的排序。站内模糊搜索虽然可以普及,但对于数据量日趋庞大,站内搜索也将渐渐力不从心。如上所述,互联网的搜索技术,处于二个分化的状态,一个高高在上,一个日趋淘汰。

发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种开发成本低、运行环境成本低、再次开发性和传播性良好的适用于大信息量网站的搜索处理方法及装置。本发明的目的可以通过以下技术方案来实现一种适用于大信息量网站的搜索处理方法,其特征在于,包括以下步骤1)关键词冗余部分预处理;2)关键词提取词库词语处理;3)关键词分割处理,将助词作为基本分割词,分割成若干伪词语;4)若步骤2、和步骤幻都未能处理的时,将关键词分割成一个一个的文字;5)提交数据库进行内容查询,生成与关键词匹配的相关搜索结果;
6)内容筛选后,列出预处理查询结果,加亮匹配的文字;7)计算权重,根据匹配文字的并列程度或根据关键词在文中的密度来计算;8)根据权重排序;9)将排序结果输出,分辨词语并加以记录;10)根据最终用户选定的内容,微调搜索结果的排序。一种适用于大信息量网站的搜索处理装置,其特征在于,包括服务器群、电信机房、主干网络出口端、通信网络、终端群,所述的服务器群、电信机房、主干网络出口端、通信网络、终端群依次连接。所述的服务器群包括主控服务器、INTNET信息服务器、数据库服务器。与现有技术相比,本发明具有以下优点1)开发成本低;2)运行环境成本低;3)采用软件基础技术作为载体,具有良好的再次开发性;4)采用最常用的开发语言与数据库结构,可以方便的移植为各语言版本,具有良好的传播性。


图1为本发明的流程图;图2为本发明的硬件结构示意图。
具体实施例方式下面结合附图和具体实施例对本发明进行详细说明。实施例如图1所示,一种适用于大信息量网站的搜索处理方法,包括以下步骤1.关键词冗余部分预处理,去除对搜索没用帮助的空格等元素;2.关键词提取词库词语处理;3.关键词分割处理,将助词作为基本分割词,分割成若干伪词语;4.在步骤2和步骤3都未能处理的时候,将关键词分割成一个一个的文字;5.提交数据库进行内容查询,生成与关键词匹配的相关搜索结果;6.内容筛选后,列出预处理查询结果,加亮匹配的文字;7.计算权重,根据匹配文字的并列程度或根据关键词在文中的密度来计算;8.根据权重排序;9.将排序结果输出,分辨词语并加以记录;30.根据最终用户选定的内容,微调搜索结果的排序。如图2所示,一种适用于大信息量网站的搜索处理装置,包括服务器群1、电信机房2、主干网络出口端3、通信网络4、终端群5,所述的服务器群1、电信机房2、主干网络出口端3、通信网络4、终端群5依次连接。所述的服务器群1包括主控服务器11、INTNET信息服务器12、数据库服务器13。无需复杂的网络拓扑,只需在流量增大时,同时增加网络带宽与服务器物理性能。
本发明的软件环境要求1)主控服务器11的操作系统,可以使用WIND0WSSEVER。 2) INTNET信息服务器12,可以使用与WINDOWS SEVER配套的IIS。3)数据库服务器13,目前兼容ACCESS、SQLSEVER等主流数据库服务器。
权利要求
1.一种适用于大信息量网站的搜索处理方法,其特征在于,包括以下步骤1)关键词冗余部分预处理;2)关键词提取词库词语处理;3)关键词分割处理,将助词作为基本分割词,分割成若干伪词语;4)若步骤幻和步骤幻都未能处理的时,将关键词分割成一个一个的文字;5)提交数据库进行内容查询,生成与关键词匹配的相关搜索结果;6)内容筛选后,列出预处理查询结果,加亮匹配的文字;7)计算权重,根据匹配文字的并列程度或根据关键词在文中的密度来计算;8)根据权重排序;9)将排序结果输出,分辨词语并加以记录;10)根据最终用户选定的内容,微调搜索结果的排序。
2.一种适用于大信息量网站的搜索处理装置,其特征在于,包括服务器群、电信机房、 主干网络出口端、通信网络、终端群,所述的服务器群、电信机房、主干网络出口端、通信网络、终端群依次连接。
3.根据权利要求2所述的一种适用于大信息量网站的搜索处理装置,其特征在于,所述的服务器群包括主控服务器、INTNET信息服务器、数据库服务器。
全文摘要
本发明涉及一种适用于大信息量网站的搜索处理方法及装置,其中装置包括服务器群、电信机房、主干网络出口端、通信网络、终端群,所述的服务器群、电信机房、主干网络出口端、通信网络、终端群依次连接,其中方法包括1)关键词冗余部分预处理等步骤。与现有技术相比,本发明具有开发成本低、运行环境成本低、再次开发性和传播性良好等优点。
文档编号G06F17/30GK102298594SQ20101021338
公开日2011年12月28日 申请日期2010年6月28日 优先权日2010年6月28日
发明者苏宸琦 申请人:上海律闻商务咨询有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1