专利名称:一种实时搜索的方法、装置和系统的制作方法
技术领域:
本发明涉及一种网络搜索领域,特别涉及一种方法、装置和系统。
背景技术:
对大到全世界,小到每个企业、商家,甚至是一个家庭和个人来说,信息是人们工作与生活关系最为密切的重要因素。虽然这些年来搜索引擎的技术是越来越先进,可是在互联网上的信息搜索不论成功与否仍然存在一个很大的问题。使用过搜索引擎的人都有过这样的感受有的时候会搜不到你想要的结果,相反的,有的时候竟会搜索出上百万条不需要的结果。而实际上,第二种结果是最令人头疼也是最难以处理的。如果想从这百万条搜索结果中找到自己真正需要的信息,就如同是大海捞针。假设互联网是一个巨型图书馆,包罗万象。在图书馆建设初期,图书馆里的图书数量较少,摆放杂乱无章,用户查找信息,需要自己一本一本的翻,这是互联网的初级阶段。过了一段时间,开始有管理员把这些信息分门别类的进行整理,并提供一个目录供我们查找, 这个管理员就是门户网站,这是以雅虎为代表的门户网站辉煌的阶段。后来,开始出现更聪明的管理员,组织一批人,把图书馆里的图书一本一本看个遍,然后把书本的内容编录成一个巨大的索引,向公众提供服务,公众只要告诉管理员我需要什么样的图书,管理员就把包含你所要的内容的所有图书告诉你,并告诉你每一本书具体放在什么位置,自己去找来看就可以了,这个聪明的管理员就是以google为代表的搜索引擎。但是图书馆时刻都有新入馆的图书和已过时被退馆的图书,传统管理员没有办法及时知道这些信息,现在我们需要一个更高级的管理员,不仅能按我的要求告诉我哪些图书是我需要的,还要能够记住我的要求,每当有新的图书入馆时,只要与我的需求匹配,就第一时间通知到我,让我可以及时过来取阅图书,这,即为实时搜索。我们做实时搜索,目的就是第一时间获取互联网新出现的信息,并通知到用户,让用户及时地查看到自己需要的信息。实时搜索对于时效性较强的互联网应用具有巨大的价值。目前最典型的应用领域就是针对微博的搜索。我们可以看到,微博流行已有超过三年的时间了,但针对微博的搜索引擎却迟迟没有出现,直到最近一年内,各大主流搜索引擎才相继推出针对微博实时搜索的能力。google针对twitter的实时搜索由于尚未成熟目前并没有着力推广,有道是国内做实时搜索比较好的,但其搜索对象只是网易本身的微博,腾讯自己的实时搜索也只针对自己的微博,而且并没有正式推广。目前国内做微博实时搜索较有优势的,是今年(2011)2 月份才刚刚发布的盘古搜索,其搜索的对象涵盖了腾讯、新浪、搜狐、网易等主流微博,并在继续拓展中。由于门槛较高,一些小型搜索引擎尚未完全突破技术难关,因此微博实时搜索目前尚处于摸着石头过河的初级阶段,并没有任何一家具备足够的实力形成垄断优势。另一方面,实时搜索应用在生活信息领域也具备重大的价值。目前国内生活信息网站发展如火如荼,某些生活信息对时效性要求较高,如某些紧缺资源的租售信息、某些让利促销源就已经被别人抢占了。由于门槛较高,目前在生活信息领域,国内尚没有发现生活信息实时搜索的进入者,传统大型通用搜索引擎大多采用定期对新采集到的数据建立增量索引,定期合并增量索引与全量索引库,定期更新全量索引库的做法,这种做法有以下几个不足1.由于增量索引是定期建立的,因此无法做到实时更新数据。新增的数据只能被缓存,等到下一个索引更新周期到来时,才被建进索引,从而才能被搜索到。基于这样的机制,经过优化的增量索引能够做到分钟级分钟)的准实时效果。2.增量索引与全量索引库的合并机制较为复杂,难于控制。如果采用单个增量索引单个全量索引的方式,将会由于全量索引在长期运营中变得极大而导致合并过程极为缓慢,从而也会影响到检索性能。如果采用多级增量索引多级全量索引库的方式,那么增量索引中包含的对现有数据的更新和删除操作,将会被分布在多个全量索引库中,合并时需要额外的管理机构协助处理,大幅增加系统复杂性,同时也容易存在数据不一致的问题。3.传统索引通常针对某一个具体应用建立一份索引,每个具体索引及其配套资源 (如分词器、相似度计算器等)都是独立的,多个索引之间的配套资源不能共享。比如分词器的词库会占用大量内存,如果多个索引部署在同一台服务器,每个索引必须独自加载一个词库,造成大量内存浪费。
发明内容
为了解决以上的技术问题,本发明提供一种实时搜索方法、装置和系统。本发明公开了一种实时搜索方法,包括Si.设定系统指定的兴趣点数据;S2.根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;S3.根据预设的数据采集周期遍历所述的目标网站;S4.判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页,改变过的网页;若否,返回步骤S2,若是,进入步骤S5 ;S5.抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集,分类显示搜索信息。在本发明所述的实时搜索方法中,所述的步骤Sl至步骤S2之间还包括下列步骤Sll.通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板;S12.预处理所述的兴趣点数据,计算和所述的结构模型库的相似度,来判定关联数据的结构。在本发明所述的实时搜索方法中,所述的分类显示搜索信息包括生活淘宝、生活分类、生活商铺、生活圈子以及生活应用,所述的生活淘宝下的二级目录包括房产信息、生活服务、交友征婚、车辆买卖服务、宠物/宠物用品、跳蚤市场、求职简历、招聘信息、商务服务;所述的生活分类二级目录包括不同城市的房产信息、跳蚤市场、车辆买卖与服务、 票务优惠券、教育培训;所述的生活商街的二级目录包括不同城市的美食、购物、丽人、休闲、酒店、健身、旅游;所述的生活圈子二级目录包括网页、图片、视频;所述的生活应用二级目录包括娱乐、游戏、工具;其中,所述的二级目录下均具有三级目录,所述的三级目录为具体的程序。在本发明所述的实时搜索方法中,所述的提取模板包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接。本发明公开了一种实时搜索的装置,用于实现上述的方法,包括兴趣点数据设定单元设定系统指定的兴趣点数据;关联数据抓取单元用于根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;目标网站遍历单元与所述的关联数据抓取单元相连,用于根据预设的数据采集周期遍历所述的目标网站;目标网站更新判断单元与所述的目标网站遍历单元相连,用于判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页,改变过的网页;目标网站更新抓取单元与所述的目标网站更新判断单元相连,用于抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集,分类显示搜索信息。在本发明所述的实时搜索装置中,还包括提取模板生成单元及关联数据结构判定单元,所述的提取模板生成单元与所述的兴趣点数据设定单元相连,用于通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板;关联数据结构判定单元与所述的提取模板生成单元及关联数据抓取单元相连,用于预处理所述的兴趣点数据,计算和所述的结构模型库的相似度,来判定关联数据的结构。本发明公开了一种实时搜索系统,包括搜索网站的搜索器,与所述的搜索器相连的用于控制所述的搜索器的控制器,与所述的控制器相连的原始数据库,与所述的原始数据库相连的索引器,与所述的索引器相连的索引数据库,与所述的索引数据库相连的检索器,所述的检索器与人机交互单元相连,还包括所述的检索器包括权利要求5中所述的实时搜索的装置。在本发明所述的实时搜索系统中,还包括用户行为数据库以及日志分析器,所述的用户行为数据库与所述的人机交互单元相连,所述的日志分析器与所述的原始数据库以及索引数据库及用户行为日志数据库分别相连,用于搜索内容不可预测的用户查询。在本发明所述的实时搜索系统中,所述的人机交互单元包括键盘/显示器/触摸屏。在本发明所述的实时搜索系统中,所述的实时搜索系统包括至少一个索引服务器,所述的索引服务器包括至少一个分片服务器,所述的索引服务器通过所述的分片服务器实现关联数据的搜索。实施本发明的一种实时搜索方法、装置和系统,具有以下有益的技术效果1.在搜索策略上采用了独创的基于产品分类的优化路由算法,只采集系统指定的兴趣点数据。这个算法的最大的好处,是无需遍历大量无价值数据的路径,通过对照我们预设的分类关联路径树,自动将目标网站的路径归类成有效遍历数,大大减少了垃圾数据的抓爬,极大提高了数据采集的速度。2.在预处理阶段采用独创的自动结构化数据抽取智能模板(DocView)技术,通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板。在数据预处理的时候,计算和结构模型库的相似度,来判定对数据的结构。并且能够根据历史数据对变动过的网页自动调整模板。3.准实时数据爬取技术,通过分布式爬虫技术,做到比较实时的采集网上新出现的数据。
图1是本发明实施例一种实时搜索方法流程图;图2是本发明实施例一种实时搜索装置结构方框图;图3为本发明实施例一种实时搜索系统构造图;图4是本发明实施例一种实时搜索系统功能架构图。
具体实施例方式为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。互联网规模的几何级数增长和万维网的缺乏规范性,使网络信息检索与传统信息检索相比呈现出明显的不同之处互联网络信息检索面向的对象为海量数据;互联网络信息检索所提供的信息内容包罗万象,形式五花八门。为了能给用户提供结构化的,直观的数据,我们必须把采集下来的网页进去去噪,过滤,净化,主题信息结构化抽取等一系列数据处理。目前主流的搜索引擎在结构化数据提取领域都比较弱,百度和谷歌等通用搜索引擎都只对采集回来的数据做去标签处理,通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。可以说通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜索引擎行业细分化的必然趋势。为了能更好的聚合信息,从海量信息里提取出结构化的数据,为用户提供更好的用户体验。如今,通过人们对互联网不断地研究与发展,利用分类学原理诞生出了一种新的网络信息传播载体一分类信息网。分类信息又被称之为分类广告,就如同人们在报刊上查找招聘信息、租房信息、旅游信息、打折促销广告一样,这些信息就是我们所指的分类信息。 在信息社会,分类信息逐步受到人们的广泛青睐。网络分类信息的崛起,非常完美的解决了许多不便的重要问题。分类信息网不仅信息量大,更及时,而且不会丢失,还有更重要的一点是它利用搜索引擎,查找起来更方面、更快捷!分类信息网的出现更好的帮助人们解决了衣、食、住、行、娱乐、情感、教育、职业、商业等生活和工作方方面面所遇到的问题,也为人们的工作生活注入了新鲜的活力,不断引领着现代新生活革命!本发明技术方案所述的搜索系统,取名为爱咕搜系统,其生活搜索是聚合互联网
7上所有的本地生活信息和经验,帮助每个中国人轻松实现更自由、更有品质的生活,爱咕生活搜索创新的“生活搜索+社交模式”,为3亿网民和7亿手机用户提供了最方便有效的生活搜索服务。请参阅图1,一种实时搜索方法,包括Si.设定系统指定的兴趣点数据;Sll.通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板;提取模板(DocView模型)包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接要素属于网页的内容数据,而其他6项则属于网页的元数据。下面将对模型中的各个要素作详细描述。网页标识是对Web上网页的唯一性标识,在DocView模型中使用网页的URL作为网页标识。网页类型是根据网页内容的表现形式进行划分的,在本节中将网页分为三类有主题网页(topic)、Hub网页(hub)、图片网页(pic)。其中,有主题网页是指网页中通过文字描述了一件或多件事物,是有一定主题的;如一张具体的新闻网页就是典型的有主题网页。Hub网页是指专门用来提供网页导向的网页,因而是超链聚集的网页;如门户网站的首页就是典型的Hub网页。图片网页是指网页的内容是通过图片的形式体现的,其中文字很少,仅仅是对图片的一个说明;如某个机构包含图片的人员介绍网页就是典型的图片网页。将网页分为上述三个类型是因为三类网页在用途和处理方法上存在较大的差别。 其中Hub网页与其它两类网页的区别在于网页在Web上发挥的作用不同,Hub网页通常不会具体的讲述一件事物,而是提供关于相关信息的链接集。而图片网页与其它两类网页的区别在于处理的方法不同,由于图片网页的内容是通过图片表达的而不是通过文字,因而, 传统信息处理领域的方法对图片网页是不够有效的。三类网页间的区别导致很多应用领域都会对它们作适当的区别。内容类别是从语义上对网页的内容进行分类,它是计算机获取网页语义信息的一个直接手段,在Web上的研究领域中有着广泛的使用。它是通过特定的分类器对网页内容分类得到的,依赖于一定的分类体系。标题、关键词和摘要是概括描述Web文档内容的重要的元数据,对于Web信息检索等领域的工作有非常重要的作用。正文是原始网页中真正描述主题的部分,因此,在某些具体应用中用正文代替原始网页更为合理。相关链接是指在本网页中指向与正文内容相关的网页的链接,而非广告等噪音链接。将正文和相关超链重新组合就得到了净化后的网页。S12.预处理所述的兴趣点数据,计算和所述的结构模型库的相似度,来判定关联数据的结构。S2.根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;S3.根据预设的数据采集周期遍历所述的目标网站;爱咕搜系统使用的是准实时搜索方案,首先系统会定期搜集,每次搜集替换上一次的内容,我们称之为“批量搜集”。由于每次都是重新来一次,对于大规模搜索引擎来说, 每次搜集的时间通常会花几周。而由于这样做开销较大,通常两次搜集的间隔时间也不会很短(例如Google在一段时间曾是每隔观天来一次)。这样做的好处是系统实现比较简单,主要缺点是“时新性”(freshness)不高,还有重复搜集所带来的额外带宽的消耗,系统目前的定期采集周期是15天。S4.判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页,改变过的网页;为了解决时效性不高的问题,爱咕搜系统使用增量搜集方案,开始时搜集一批,往后只是(1)搜集新出现的网页,(2)搜集那些在上次搜集后有过改变的网页,(3)发现自从上次搜集后已经不再存在了的网页,并从库中删除。由于除新闻网站外,许多网页的内容变化并不是很经常的(有研究指出50%网页的平均生命周期大约为50天[Cho and Garcia-Molina,2000],[Cho,2002]),这样做每次搜集的网页量不会很大,同时可以做到比较实时的采集网上新出现的数据,从目前系统数据来看,我们的分布式爬虫基本可以做到1小时内新的数据能同步采集,对于某些实时性更高的需求,可以做到分钟级别的采集。S5.抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集,分类显示搜索信息。所述的分类显示搜索信息包括生活淘宝、生活分类、生活商铺、生活圈子以及生活应用。本方法中爱咕搜引擎自主研发了智能模板提取模板(DocView)模型用来对采集来的数据进行去噪和结构化信息提取。DocView模型特点可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,准确率能达到98%以上。能保证较快处理速度, 由于采用页面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。 通用性较好,易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经过简单培训就能维护。进入本搜索引擎,系统会弹出一个搜索说明,告知用户可以搜索“房产信息、生活服务、交友征婚、车辆买卖服务、宠物以及宠物用品、跳蚤市场、求职简历、招聘信息、热门行业、教育培训”等等。本搜索引擎包括五大类生活服务,让用户分享各类生活服务,包括生活淘宝、生活分类、生活商街、生活圈子以及生活应用,以满足用户在内容信息层面的基本需求为目标的搜索服务,例如生活、购物、旅游、新闻、网页、软件、图片、音乐、视频、地图搜索等,将搜索基础服务打造成为基本需求层面的、标准统一、开放性的服务产品集群,可横向自由扩展,分阶段、有序地实施,为增值服务提供能力支撑。其中,1.点击生活淘宝按钮,则进入各类生活买卖信息搜索,生活淘宝功能模块包括 垂直实生活本索、内容交互、站外分享等;如可显示“大梅沙海景房200元/日,抢购中”之类的酒店服务,如用户可以网站发贴求家教的信息等等,该搜索引擎支持不同的城市的生活服务,支持不同的时间选项进行抓取搜索信息,支持微博的功能,可以对感兴趣的用户进行关注。2.点击生活分类按钮,则进入各类生活分类信息搜索,生活分类功能模块包括 本地化分类发布、信息展示、站内本地化搜索等;如可显示“深圳房产信息”、“深圳跳蚤市场”、“深圳教育培训”等菜单,该该搜索引擎支持不同的城市的生活分类服务,支持发布信息以及删除信息。3.点击生活商街按钮,则进入各类生活商铺信息搜索,生活商街功能模块包括 本地生活商铺搜索、商铺添加发布、商铺点评等;该该搜索引擎支持不同的城市的生活商街服务,支持发布信息以及删除信息。4.点击生活圈子按钮,则进入各类生活圈子信息搜索,生活圈子功能模块包括 生活信息收藏讨论分享、网站收藏、图片收藏等;该该搜索引擎支持不同的城市的生活圈子服务,支持发布信息以及删除信息。5.点击生活应用按钮,则进入各类生活应用信息搜索,生活应用功能模块包括 生活应用分享、生活应用添加等。如用户可进行彩票查询,列车时刻查询等服务,同样,该搜索引擎支持不同的城市的生活服务,支持不同的时间选项进行抓取搜索信息,支持微博的功能,可以对感兴趣的用户进行关注。请参阅图2、一种实时搜索的装置1,用于实现上述的方法,包括兴趣点数据设定单元10、提取模板生成单元15、关联数据结构判定单元20、关联数据抓取单元25、目标网站遍历单元30、目标网站更新判断单元40、目标网站更新抓取单元50。兴趣点数据设定单元10 设定系统指定的兴趣点数据;提取模板生成单元15与兴趣点数据设定单元10相连,用于通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板;关联数据结构判定单元20与提取模板生成单元15及关联数据抓取单元25相连, 用于预处理所述的兴趣点数据,计算和所述的结构模型库的相似度,来判定关联数据的结构。关联数据抓取单元25:用于根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;目标网站遍历单元30 与所述的关联数据抓取单元25相连,用于根据预设的数据采集周期遍历所述的目标网站;目标网站更新判断单元40 与目标网站遍历单元30相连,用于判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页,改变过的网页;目标网站更新抓取单元50 与目标网站更新判断单元40相连,用于抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集。请参阅图3、一种实时搜索系统,包括搜索网站的搜索器100,与搜索器100相连的用于控制所述的搜索器100的控制器110,与控制器110相连的原始数据库120,与原始数据库120相连的索引器130,与索引器130相连的索引数据库140,与索引数据库140相连的检索器150,检索器150与人机交互单元160相连,检索器150包括上述的实时搜索的装置1及用户行为数据库170以及日志分析器180,用户行为数据库170与人机交互单元 160相连,日志分析器180与所述的原始数据库120以及索引数据库140及用户行为日志数据库170分别相连,用于搜索内容不可预测的用户查询。
10
其中,人机交互单元160包括键盘/显示器/触摸屏,实时搜索系统包括至少一个索引服务器,所述的索引服务器包括至少一个分片服务器,所述的索引服务器通过所述的分片服务器实现关联数据的搜索。本系统是基于Iucene构建的分布式实时索引系统,系统中包含一个或多个 master节点,我们称为索引服务器(indexserver),包含一个或多个data节点,我们称为分片服务器(shardserver),系统支持建立多个索引,我们称为index,每个索引在系统中会被分割成一个或多个索引分片,我们称为shard,shard按其中包含数据startkey和endkey 进行划分,每个index的众多shard会被分布在多个shardserver中,index禾口 shard的所有信息由indexserver维护。因此indexserver是整个集群的中枢,一旦失效整个集群都不可用,所以需要引入防止单点失效机制,这个机制由zookeeper支持,即系统的实时落到实处就是shard的实时。indexbase保存了系统所有shard的分布信息,当新数据请求找不到对应的shard 时,会创建新的shard,那么这个shard该在哪里创建呢?这便涉及到一个负载均衡的问题,我们的目标是让系统中每个节点的数据量尽可能的均勻。Indexkise中保存了所有节点的信息,其中包含了每个节点上的数据量,这个数据量是节点上所有shard的数据量总和,每次客户端请求shard时,都会更新这个值,增数据则加,删数据则减。这样一来负载均衡就比较好做了,每次新创建shard时,指定该shard存放在数据量最小的那个节点上,客户端取得shard信息后,将会根据shard指示的信息到相应位置创建相应的shard。另外在做数据冗余备份时也是根据节点数据量来创建一个shard的备份shard 的。爱咕搜垂直搜索爬虫是以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供某些信息查询服务的应用,主要由三大部分组成抓取系统,索引系统和搜索系统。抓取系统也就是蜘蛛程序,负责从信息源抓取数据,蜘蛛程序通常是基于预先构造的模板工作的,无模板的蜘蛛程序只能处理结构相对简单的信息,抓取系统涉及的关键技术点有爬行路径分析、增量抓取与全抓取、信息构造完整性、信息唯一性识别、多网页信息整合、自动标引等。索引系统把抓来的信息建立类似书目的数据文件,以便于实现高速检索。索引系统涉及的关键技术点有分词技术、预评分和后评分、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等。搜索系统提供搜索功能的网站。爱咕搜引擎的数据不仅包括内容不可预测的用户查询,还要包括在数量上动态变化的海量网页,并且这些网页不会主动送到系统来,而是需要由系统去抓取。在网络比较畅通的情况下,从网上下载一篇网页大约需要1秒钟左右,因此如果在用户查询的时候即时去网上抓来成千上万的网页,一个个分析处理,和用户的查询匹配, 不可能满足搜索引擎的响应时间要求。不仅如此,这样做的系统效益也不高(会重复抓取太多的网页);面对大量的用户查询,不可能想象每来一个查询,系统就到网上“搜索”一次。目前某些引擎(谷姐,雨林木风116)的聚合搜索就是使用了即时搜索,但那是一种伪搜索,他们只是调用了某些搜索引擎的搜索接口,与本发明所述的一种实时搜索系统技术方案是不同的。爱咕生活分类垂直搜索特点在于人们在互联网上发布简明扼要的分类广告,包括日常生活所需要的各种服务和产品,供有需求的互联网用户免费浏览。常见的分类信息形式有房屋出租、工作招聘,二手转让、票卡买卖、同城交友,等等。分类信息网站的浏览量巨大其优势在于便捷性网民在网上获取分类信息是主动的,只要对某样产品或服务感兴趣,仅需轻按鼠标就能进一步了解更多、详细的信息,从而使网民能够按照自己的选择亲身体验产品、服务。精准性爱咕搜索分类信息是典型有自己阅读率的广告,在分类信息上,可以通过访客流量统计系统精确统计出每条分类信息的浏览次数,这些量化的销售数据有助于广告主正确评估广告效果,审定广告投放策略。海量性分类信息讲究规模效应,网络分类信息的信息容量几乎无限,尤其是网络分类信息还利用超级链接,可以使用详细的分层类目,构建庞大的数据库,提供最详尽的广告fn息。时效性分类信息在网络上直接进行编辑发布,第一时间展示在互联网上,第一时间让目标用户主动搜索到。请参阅图4,本发明的功能架构图,根据此架构图,本搜索系统的用法在于用户点开网址进入主页,主页上方会显示五大功能模块,即生活淘宝、生活分类、 生活商铺、生活圈子以及生活应用。鼠标放在搜索引擎处,会弹出一个对话框提示用户搜索范围可以是“房产信息、生活服务、交友征婚、车辆买卖服务、宠物/宠物用品、跳蚤市场、 求职简历、招聘信息、商务服务”,但是,用户也可以输入与上述的搜索范围不同的查询内容进入本系统。用户也可以点主页上的五大功能模块进入不同的二级页面,二级页面特征在于 左边具有与主页的五大功能模块相对应的搜索模块,即同样具有“生活淘宝、生活分类、生活商铺、生活圈子以及生活应用”。页面中间部分为系统抓取到的搜索信息,如“求短期租房,188元,位于大梅沙”,“招网页设计工程师,月薪2500元,电话:########”之类,页面的右边部分显示注册过的用户,用于微博加关注,同时包括部分的搜索子目录,如“租房,合租房,求租房,二手房,日租房,写字楼,厂房“等等。另外本系统的用户不仅可以搜索需要的信息,还可以通过注册,免费发布信息以便于加强沟通,信息交流。生活淘宝下的二级目录包括房产信息、生活服务、交友征婚、车辆买卖服务、宠物 /宠物用品、跳蚤市场、求职简历、招聘信息、商务服务;如果点开任一二级目录,可进入该二级目录下的三级目录,如点房产信息时,信息会弹出对话框,给用户的选项是“租房,合租房,求租房,二手房,日租房,写字楼,厂房。”用户可从中选择,也可以输入与该所有的选项不同的输入内容而进入搜索。生活分类二级目录包括不同城市的房产信息、跳蚤市场、车辆买卖与服务、票务优惠券、教育培训,特点帮助人们解决了生活中查找买卖,招聘信息、租房信息、旅游信息、二手产品促销等信息发布。生活商街的二级目录包括不同城市的美食、购物、丽人、休闲、酒店、健身、旅游; 该服务便于用户查找到最方便的生活商街,如用户住在A区,他可以查找A区附近的美食具体处于什么位置,周边的健身房有什么项目等等。特点帮助人们解决了衣、食、住、行、娱乐、商业等生活信息查找解决生活中所遇到的问题生活圈子二级目录包括网页、图片、视频,特点用户将发现互联网有趣资源, 如网站,图片,视频,等收藏管理,同时可以互动分享给其他用户。此处需要说明的是网页是用户感兴趣的网页集合,如用户一般上的网站是新浪、 百度、搜狐,则用户可以将这三个网页都加入,方便开启。图片为用户加载的感兴趣的图片,用户加载后,会留下图片,以及上传的用户名及时间,便于分享。视频为用户加载的感兴趣的视频,如优酷的某一片段,土豆的某一片段等等,所有的视频均可以同时放映。所述的生活应用二级目录包括娱乐、游戏、工具,特点用户将添加分享应用资源,如生活方方面面小应用可以一站式解决用户需求,如在线音乐,在列车时刻,在线游戏,在线天气,在线电台在线电影,等生活用分享。娱乐类包括音乐盒子、奇艺高清等等游戏类包括愤怒的小鸟、厨房菜刀等等其中,所述的二级目录下均具有三级目录,所述的三级目录为具体的程序,具体是点开音乐盒子,会播放音乐盒子中放置的音乐。总之,爱咕生活搜索凭借国内领先的垂直搜索技术,为生活信息用户提供国内租房、机票、酒店、旅游度假和火车票的专业搜索服务,并利用先进的数据挖掘和智能推荐等技术手段,通过实时整合、辨识、处理海量数据,为用户提供最新、最准确的、有价值的生活数据,从而帮助用户高效地比较选择适合自己的生活信息。同时继“爱咕生活搜索”之后,爱咕生活搜索数据开放平台又引入“生活商铺” “生活分享"‘生活应用”的数据资源,并在系统中融入了 LBS(基于位置的服务)功能,旨在满足用户随时随地的生活需求,为用户提供更加人性化的数据解决方案,无论你身在何时何地, 衣、食、住、行各类信息都尽在你的掌握之中,“爱咕搜”是以生活信息搜索,发布二手分类信息,及美食、购物、休闲娱乐、丽人、健身、互联网资源收藏分享、生活应用等内容为主,并提供便民服务及优惠信息的本地生活信息搜索和分享平台。通过开放的互联网平台挖掘数量庞大的垂直信息,然后为用户提供一条全新的简单可靠的信息获取途径。二者的结合,将引领一种全新的搜索习惯,用户不再需要登录任何专门的站点,也不用经历层层导航的筛选, 只需输入其想去的店铺或要查找的信息,爱咕搜移动搜索就会告诉你店铺的地点、营业时间乃至人均消费等相关信息,一切就是这么简单。实施本发明的一种实时搜索方法、装置和系统,具有以下有益的技术效果1.在搜索策略上采用了独创的基于产品分类的优化路由算法,只采集系统指定的兴趣点数据。这个算法的最大的好处,是无需遍历大量无价值数据的路径,通过对照我们预设的分类关联路径树,自动将目标网站的路径归类成有效遍历数,大大减少了垃圾数据的抓爬,极大提高了数据采集的速度。
2.在预处理阶段采用独创的自动结构化数据抽取智能模板(DocView)技术,通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板。在数据预处理的时候,计算和结构模型库的相似度,来判定对数据的结构。并且能够根据历史数据对变动过的网页自动调整模板。3.准实时数据爬取技术,通过分布式爬虫技术,做到比较实时的采集网上新出现的数据。上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式
,上述的具体实施方式
仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
权利要求
1.一种实时搜索的方法,其特征在于,包括51.设定系统指定的兴趣点数据;52.根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;53.根据预设的数据采集周期遍历所述的目标网站;54.判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页、改变过的网页;若否,返回步骤S2,若是,进入步骤S5 ;55.抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集并分类显示搜索信息。
2.根据权利要求1所述的实时搜索的方法,其特征在于,所述的步骤Sl至步骤S2之间还包括下列步骤511.通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板;512.预处理所述的兴趣点数据,计算和所述的结构模型库的相似度,来判定关联数据的结构。
3.根据权利要求1所述的实时搜索的方法,其特征在于,所述的分类显示搜索信息包括生活淘宝、生活分类、生活商街、生活圈子以及生活应用,所述的生活淘宝下的二级目录包括房产信息、生活服务、交友征婚、车辆买卖服务、宠物/宠物用品、跳蚤市场、求职简历、招聘信息、商务服务;所述的生活分类二级目录包括不同城市的房产信息、跳蚤市场、车辆买卖与服务、票务优惠券、教育培训;所述的生活商街的二级目录包括不同城市的美食、购物、丽人、休闲、酒店、健身、旅游;所述的生活圈子二级目录包括网页、图片、视频; 所述的生活应用二级目录包括娱乐、游戏、工具; 其中,所述的二级目录下均具有三级目录,所述的三级目录为具体的程序。
4.根据权利要求2所述的实时搜索的方法,其特征在于,所述的提取模板包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接。
5.一种实时搜索的装置,用于实现权利要求1所述的方法,其特征在于,包括 兴趣点数据设定单元设定系统指定的兴趣点数据;关联数据抓取单元用于根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;目标网站遍历单元与所述的关联数据抓取单元相连,用于根据预设的数据采集周期遍历所述的目标网站;目标网站更新判断单元与所述的目标网站遍历单元相连,用于判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页,改变过的网页;目标网站更新抓取单元与所述的目标网站更新判断单元相连,用于抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集分类显示搜索信息。
6.根据权利要求5所述的实时搜索的装置,其特征在于,还包括提取模板生成单元及关联数据结构判定单元,所述的提取模板生成单元与所述的兴趣点数据设定单元相连,用于通过对大量数据的样本分析,提炼出结构模型库,自动生成提取模板;关联数据结构判定单元与所述的提取模板生成单元及关联数据抓取单元相连,用于预处理所述的兴趣点数据,计算和所述的结构模型库的相似度,来判定关联数据的结构。
7.一种实时搜索的系统,包括搜索网站的搜索器,与所述的搜索器相连的用于控制所述的搜索器的控制器,与所述的控制器相连的原始数据库,与所述的原始数据库相连的索引器,与所述的索引器相连的索引数据库,与所述的索引数据库相连的检索器,所述的检索器与人机交互单元相连,其特征在于,所述的检索器中包括权利要求5中所述的实时搜索的装置。
8.根据权利要求7所述的实时搜索的系统,其特征在于,还包括用户行为数据库以及日志分析器,所述的用户行为数据库与所述的人机交互单元相连,所述的日志分析器与所述的原始数据库以及索引数据库及用户行为日志数据库分别相连,用于搜索内容不可预测的用户查询。
9.根据权利要求7所述的实时搜索的系统,其特征在于,所述的人机交互单元包括键盘/显示器/触摸屏。
10.根据权利要求7所述的实时搜索的系统,其特征在于,所述的实时搜索系统包括至少一个索引服务器,所述的索引服务器包括至少一个分片服务器,所述的索引服务器通过所述的分片服务器实现关联数据的搜索。
全文摘要
本发明公开了一种实时搜索的方法,包括S1.设定系统指定的兴趣点数据;S2.根据所述的兴趣点数据从目标网站上抓取关联数据至系统中;S3.根据预设的数据采集周期遍历所述的目标网站;S4.判断所述的目标网站是否有更新的目标网站,所述的更新包括新出现的网页,改变过的网页;若否,返回步骤S2,若是,进入步骤S5;S5.抓取所述的更新的目标网站上的关联数据至所述的系统并更新,实现同步采集。本发明还公开了一种实时搜索的装置和系统。本发明实时搜索方法、装置及系统能实时搜索即时信息,速度快,占用资源少。
文档编号G06F17/30GK102446225SQ201210006860
公开日2012年5月9日 申请日期2012年1月11日 优先权日2012年1月11日
发明者刘晓刚 申请人:深圳市爱咕科技有限公司