网站内容检索系统及方法

文档序号:6472628阅读:144来源:国知局

专利名称::网站内容检索系统及方法
技术领域
:本发明涉及一种检索系统及方法,尤其涉及一种网站内容检索系统及方法。
背景技术
:随着计算机网络的发展,网站在信息发布与传递方面的作用越来越强大,其所包含的内容与数据也成倍增长。数据量的膨胀导致用户要准确找到所需资料非常困难。目前大部分采用的方式是公共搜索服务,用户利用各大搜索引擎(如百度、谷歌等)进行搜索所需要的资料,这些搜索引擎通过强大的服务器与文件数据索引技术,将目标网站中的内容进行索引,提供给公众查询服务。但是,这些搜索引擎存在了一定的缺陷,首先,所述搜索引擎只能搜索已经收录于数据库的网站内容。搜索引擎查找是第三方服务商提供的文件内容检索服务,搜索引擎在收录一个站点时,会根据自身的词库对站点进行搜索,保存搜索结果。例如A网站被某搜索引擎所收录,那么A网站中的大部分内容用户可以通过该搜索引擎搜索出来。若B网站没有被该搜索引擎收录,那么在搜索引擎中是不能查找到该B网站中的相关内容。建立专门的搜索服务引擎需要消耗大量的人力物力,且维护困难。其次,由于站点开发的语言和运行服务器环境存在很大的差异,搜索引擎在收录站点的时候对于各种动态的网站收录支持并不是很完善,内容收录不全面。除此之外,搜索引擎采用文件索引技术,在其收录过程中会对预搜索的结果进行保存,而网站的实际内容可能已经发生变化,所以搜索到的可能为过期内容。
发明内容鉴于以上内容,有必要提供一种网站内容检索系统,可以有效地检索到用户需要的所有网站内容。还有必要提供一种网站内容检索方法,可以有效地检索到用户需要的所有网站内容。—种网站内容检索系统,该系统运行于客户端主机中,该客户端主机包括一个检索结果列表,该系统包括接收模块,用于接收关键字及网址,向Web服务器发送访问所述网址对应的当前网页的请求,并接收Web服务器解析该当前网页所产生的html代码;筛选模块,用于从所述html代码中筛选出文字信息;查找模块,用于从筛选后的文字信息中查找所述关键字;保存模块,用于当从筛选后的文字信息中查找到所述关键字时,保存该当前网页的路径至检索结果列表中;提取模块,用于在查找完成后,当所述html代码中存在跳转链接地址时,提取所需的跳转链接地址;所述保存模块,还用于将所提取出的跳转链接地址存储到一个数组中;及所述筛选模块,还用于遍历所述数组,从中筛选出当前网页的子网页跳转链接地址,并将每个子网页跳转链接地址发送给所述接收模块。—种网站内容检索方法,该方法包括如下步骤(a)接收关键字及网址;(b)向Web服务器发送访问该网址对应的当前网页的请求;(c)接收Web服务器解析该当前网页所产3生的html代码;(d)从所述html代码中筛选出文字信息;(e)当从筛选后的文字信息中查找到所述关键字时,保存该当前网页的路径至检索结果列表中;(f)当所述html代码中存在跳转链接地址时,提取所需的跳转链接地址,将所提取出的跳转链接地址存储到一个数组中,遍历所述数组,从中筛选出当前网页的子网页跳转链接地址作为当前网页,转至步骤(b);及(g)当所述html代码中不存在跳转链接地址时,提示检索完成。相较于现有技术,所述网站内容检索系统及方法,通过递归算法层级搜索网站内容,不依赖于网站数据库的检索,可以更加全面地搜索到用户所需要检索的网站内容。图1是本发明网站内容检索控制系统较佳实施例的运行环境图。图2是本发明网站内容检索系统100较佳实施例的功能模块图。图3是本发明网站内容检索方法较佳实施例的作业流程图。具体实施例方式如图l所示,是本发明一种网站内容检索系统较佳实施例的运行环境图。该网站内容检索系统100运行于客户端主机1上,该网站内容检索系统100可以拥有自己的域名独立运行,也可以内嵌于一个网页4中,作为该网页4内的一个组件,该网页可设置为首页。该网站内容检索系统IOO提供了一个界面,该界面包括至少两个输入栏,用户可以于一个输入栏中输入至少一个关键字,也可以在该输入栏中输入多个关键字,关键字之间以空格进行区分,在另一个栏位中输入网址,该网址即为检索的最上层网页,该网址对应的网站也即为所需要检索的目标网站。所述网站内容检索系统ioo找到用户输入的网址对应的网页,并在该网页中查找所输入的关键字。本发明采取多线程技术,支持多网站检索,即可以将检索关键字的范围设置为多个网站。该客户端主机1包括一个检索结果列表,该检索结果列表用于存储该网站内容检索系统100所检索到的网页地址或者网页内容。所述客户端主机1连接于Web服务器2,该Web服务器2用于通过网络3访问所有网页4,所述网络3可以是互联网、企业内部网或者其他任意适用的通信媒介。如图2所示,是本发明网站内容检索系统100较佳实施例的功能模块图。所述模块是具有特定功能的软件程序段,该软件存储于计算机可读存储介质或其它存储设备,可被计算机或其它包含处理器的计算装置执行,从而完成网站内容检索的系列流程。所述网站内容检索系统100包括接收模块10、筛选模块12、查找模块14、保存模块16、提取模块18及提示模块20。接收模块10用于接收用户在输入栏中所输入的关键字及要检索的网址。该接收模块10还用于在接收到需要检索的网址后向Web服务器2发送访问所接收的网址对应的网页的请求,将该网址对应的网页称为当前网页,并接收Web服务器2解析当前网页所产生的html代码。本较佳实施例中,当用户在输入栏中输入关键字和要检索的网址后,Web服务器2立即对该网址对应的网页的内容进行解析。若网站本身采用的开发语言为动态语言(例如JSP,ASP,.NET等),该Web服务器2解析所述动态语言程序生成html代码,并将该html代码返回给客户端主机l,所述接收模块10接收该html代码。4筛选模块12用于从接收模块10所接收的html代码中筛选出文字信息。因为html代码中包括构建页面所需要的标准html标签,例如表格标签〈table〉,层标签div等,所述标准html标签不是网页显示的内容,只是用于修饰网页的界面。因此该筛选模块12筛选掉除了跳转链接(〈a〉〈a〉)之外的所有html标签,剩下的即为网页的文字信息。查找模块14用于在所筛选后的文字信息中查找是否存在所述接收模块IO所接收的关键字。保存模块16用于当筛选后的文字信息中查找到所述关键字时,保存该当前网页的路径至检索结果列表中。提取模块18用于查找完成后,判断所述html代码中是否存在跳转链接,若存在,提取所述html代码中的所有跳转链接。本实施例中,所述跳转链接的格式为〈ahref=http://xxx.com〉文字〈/a〉。所述保存模块16还用于将所提取出的跳转链接存储到一个数组中。所述筛选模块12还用于遍历所述数组,从中筛选出当前网页的所有子网页跳转链接地址,将该每个子网页跳转链接地址发送给接收模块10。所述接收模块10向所述Web服务器2发送访问每个所选择的跳转链接地址的请求。跳转链接中不仅包括当前网页的子网页的链接,还包括友情链接或者网络链接等跳转链接地址。所述筛选模块12将不属于本网站的跳转链接地址筛选掉。本较佳实施例中,该筛选模块12查看所述数组中的跳转链接地址路径是否为检索结果列表中保存的当前网页路径的子路径,也即判断每个跳转链接地址的域名的前部分是否都与接收模块10所接收的需检索的网址对应网站的域名相同,如果相同,则该跳转链接地址属于该网站,否则表明该跳转链接地址不属于该网站。同时为了避免出现对同一网址中的网页反复检索造成死循环,数组中所保存的跳转链接地址的域名长度必须要大于接收模块IO所接收的网址的域名长度。如所接的网址的域名路径为http:〃www.abc.com,则所述数组中保存的跳转链接网页的域名地址必须包含该路径,且长度必须大于该路径,比如跳转链接地址为http:〃www.abc.com/xxx才符合要求。提示模块20用于当所述html代码中不存在跳转链接时,提示检索完成。如图3所示,是本发明网站内容检索方法较佳实施例的作业流程图。步骤S30,接收模块10接收用户在输入栏中所输入的关键字及需检索的网址。步骤S32,该接收模块10向Web服务器2发送访问所接收的网址对应网页的请求,将该网址对应的网页称为当前网页。步骤S34,接收模块10接收Web服务器2解析该当前网页所产生的html代码。本较佳实施例中,当用户在输入栏中输入关键字和需检索的网址后,Web服务器2立即对该网址对应的网页的内容进行解析。若网站本身采用的开发语言为动态语言(例如JSP,ASP,.NET等),该Web服务器2解析所述动态语言程序生成html代码,并将该html代码返回给客户端主机l,所述接收模块10接收该html代码。步骤S36,筛选模块12从接收模块10所接收的html代码中筛选出文字信息。因为html代码中包括构建页面所需要的标准html标签,例如表格标签〈table〉,层标签div等,所述标签不是网页显示的内容,只是用于修饰网页的界面。因此该筛选模块12筛选掉除了跳转链接(〈a〉〈a〉)之外的所有html标签,剩下的即为网页的文字信息。步骤S38,查找模块14在所筛选后的文字信息中查找是否存在所述接收模块10所接收的关键字。若查找模块14在筛选后的文字信息中查找到所述关键字时,进入步骤S40。若查找模块14在筛选后的文字信息中没有查找到所述关键字时,进入步骤S42。步骤S40,保存模块16保存该当前网页的路径至检索结果列表中,并进入步骤S42。步骤S42,提取模块18判断所述html代码中是否存在跳转链接。若存在,进入步骤S44。若不存在,进入步骤S48。步骤S44,提取模块18提取所述html代码中的所有跳转链接。本实施例中,所述跳转链接的格式为〈ahref=http:〃xxx.com〉文字〈/a>。所述保存模块16将所提取出的跳转链接存储到一个数组中。步骤S46,所述筛选模块12遍历所述数组,从中筛选出当前网页的所有子网页跳转链接地址,并将每个子网页跳转链接地址发送给接收模块IO,转至步骤S32,所述接收模块10向所述Web服务器2发送访问每个所选择的跳转链接地址的请求。跳转链接中不仅包括当前网页的子网页的链接,还包括友情链接或者网络链接等跳转链接地址。所述筛选模块12将不属于本网站的跳转链接地址筛选掉。本较佳实施例中,该筛选模块12查看所述数组中的跳转链接地址路径是否为检索结果列表中保存的当前网页的路径的子路径,也即判断每个跳转链接地址的域名的前部分是否都与接收模块10所接收的网址对应网站的域名相同,如果相同,则该跳转链接地址属于该网站,否则表明该跳转链接地址不属于该网站。同时为了避免出现对同一网址中的网页反复检索造成死循环,数组中所保存的跳转链接地址域名长度必须要大于接收模块IO所接收的网址的域名长度。如所接的网址的域名路径为http:〃www.abc.com,则所述数组中保存的跳转链接网页的域名地址必须包含该路径,且长度必须大于该路径,比如跳转链接地址为http:〃www.abc.com/xxx才符合要求。步骤S48,提示模块20提示检索完成。最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。权利要求一种网站内容检索系统,该系统运行于客户端主机中,该客户端主机包括一个检索结果列表,其特征在于,该系统包括接收模块,用于接收关键字及网址,向Web服务器发送访问所述网址对应的当前网页的请求,并接收Web服务器解析该当前网页所产生的html代码;筛选模块,用于从所述html代码中筛选出文字信息;查找模块,用于从筛选后的文字信息中查找所述关键字;保存模块,用于当从筛选后的文字信息中查找到所述关键字时,保存该当前网页的路径至检索结果列表中;提取模块,用于在查找完成后,当所述html代码中存在跳转链接地址时,提取所需的跳转链接地址;所述保存模块,还用于将所提取出的跳转链接地址存储到一个数组中;及所述筛选模块,还用于遍历所述数组,从中筛选出当前网页的子网页跳转链接地址,并将每个子网页跳转链接地址发送给所述接收模块。2.如权利要求1所述的网站内容检索系统,其特征在于,该系统还包括提示模块,用于当所述html代码中不存在跳转链接时,提示检索完成。3.如权利要求l所述的网站内容检索系统,其特征在于,所述当前网页的子网页的跳转链接地址域名长度大于当前网页的域名长度。4.如权利要求1所述的网站内容检索系统,其特征在于,所述关键字为一个或多个,若为多个关键字,则每个关键字之间以空格进行区分。5.—种网站内容检索方法,其特征在于,该方法包括如下步骤(a)接收关键字及网址;(b)向Web服务器发送访问该网址对应的当前网页的请求;(c)接收Web服务器解析该当前网页所产生的html代码;(d)从所述html代码中筛选出文字信息;(e)当从筛选后的文字信息中查找到所述关键字时,保存该当前网页的路径至检索结果列表中;(f)当所述html代码中存在跳转链接地址时,提取所需的跳转链接地址,将所提取出的跳转链接地址存储到一个数组中,遍历所述数组,从中筛选出当前网页的子网页跳转链接地址作为当前网页,转至步骤(b);及(g)当所述html代码中不存在跳转链接地址时,提示检索完成。6.如权利要求5所述的网站内容检索方法,其特征在于,所述当前网页的子网页的跳转链接地址域名长度大于当前网页的域名长度。7.如权利要求5所述的网站内容检索方法,其特征在于,所述关键字为一个或多个,若为多个关键字,则每个关键字之间以空格进行区分。全文摘要一种网站内容检索方法,包括(a)接收关键字及网址;(b)向Web服务器发送访问该网址对应的当前网页的请求;(c)接收Web服务器解析该当前网页所产生的html代码;(d)从所述html代码中筛选出文字信息;(e)当从筛选后的文字信息中查找到所述关键字时,保存该当前网页的路径至检索结果列表中;(f)当所述html代码中存在跳转链接地址时,提取所需的跳转链接地址,将所提取出的跳转链接地址存储到一个数组中,遍历所述数组,从中筛选出当前网页的子网页跳转链接地址作为当前网页,转至步骤(b);及(g)当所述html代码中不存在跳转链接地址时,提示检索完成。另外,本发明还提供一种网站内容检索系统。文档编号G06F17/30GK101727471SQ200810305300公开日2010年6月9日申请日期2008年10月30日优先权日2008年10月30日发明者常小军申请人:鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1