一种网络信息的搜索方法、装置和系统的制作方法

文档序号:6402950阅读:367来源:国知局
专利名称:一种网络信息的搜索方法、装置和系统的制作方法
技术领域
本发明涉及互联网技术领域,特别涉及一种网络信息的搜索方法、装置和系统。
背景技术
随着互联网技术的普及,互联网已是目前用户获取信息的主要来源之一。互联网中存储有海量的网络数据,用户可以通过搜索引擎从互联网中获取所需的网络信息。现有技术提供的信息搜索方案中,用户可以在搜索引擎提供的入口中输入查询词,搜索引擎根据该查询词在网络中抓取信息,并将搜索结果通过网页返回至用户。然而,现有技术提供的信息搜索方案至少存在如下缺陷:现有方案在获取搜索结果时,依赖于搜索引擎在网络中的实时抓取,然而搜索引擎这种实时抓取操作的能力十分有限,每次实时抓取到的信息量较少、内容也不完备,用户需要点击返回的网页中的相关链接,反复执行搜索操作,纵向层层访问页面,查找需要的搜索结果。例如, 如果用户访问一个视频,搜索结果页只会出现相关视频,缺少相关的细节信息,用户如果需要查询,还需要进一步的访问其他的网页或是进行进一步其他的操作等,从而导致搜索时间过长、搜素结果精准性较差,且由于需要处理大量访问请求,导致搜素引擎的数据抓取压力也较大、数据提供方的数据处理负担较重。

发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网络信息的搜索方法、装置和系统。依据本发明的一个方面,本发明实施例提供了一种网络信息的搜索方法,包括:在接收到来自请求端的搜索关键数据时,利用预设的映射规则匹配与该搜索关键数据对应的触发项,该触发项是对网络中使用的搜索关键数据进行提取得到的;利用匹配出的触发项查询触发文件,获知搜索关键数据对应的搜索结果所在的数据源,该触发文件是由触发项和相关联的数据源位置信息生成的;从所获知的数据源获取搜索结果,将该搜索结果返回至请求端,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。其中,上述利用预设的映射规则匹配与该搜索关键数据对应的触发项包括:利用预设的自然语言处理分析规则匹配与搜索关键数据对应的触发项;和/或,利用预设的正则表达式规则匹配与搜索关键数据对应的触发项。其中,上述触发项是对网络中使用的搜索关键数据进行提取得到的包括:根据搜索关键数据的使用频率和/或关注度等级从搜索关键数据中提取触发项,其中,搜索关键数据的使用频率和/或关注度等级越高,该搜索关键数据中的至少部分数据被选取为触发项的概率越大。其中,上述搜索结果由预先对包括触发项的网络信息进行收集和整合而生成包括:利用网络爬虫在网络中进行抓取,收集包括触发项的网络信息,去除收集到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据;和/或,从合作方提供的数据接口获取包括触发项的网络信息,去除获取到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据。其中,上述触发文件是由触发项和相关联的数据源位置信息生成的包括:为每个触发项配置一个或多个类型属性;将每个触发项在所属的每种类型属性下与相应的数据源位置信息的关联,生成触发文件。其中,上述利用预设的映射规则匹配与该搜索关键数据对应的触发项包括:利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;上述利用匹配出的触发项查询触发文件,获知搜索关键数据对应的搜索结果所在的数据源包括:利用匹配出的触发项和该触发项的类型属性查询触发文件,获知搜索关键数据对应的搜索结果所在的一个或多个数据源。其中,数据源位置信息为数据源的统一资源定位符URLjP /或,数据源位置信息由触发项在所属类型属性下的MD5值生成。其中,上述利用预设的映射规则匹配与该搜索关键数据对应的触发项包括:利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;上述从所获知的数据源获取搜索结果,将该搜索结果返回至请求端包括:从所获知的数据源 获取匹配出的触发项对应的搜索结果,并根据匹配出的触发项的类型属性设置获取到的搜索结果中的各数据部分的展示状态和展示等级,将搜索结果以及搜索结果中各数据部分的展示状态和展示等级返回至请求端。其中,上述根据匹配出的触发项的类型属性设置获取到的搜索结果中的各数据部分的展示状态和展示等级包括:将匹配出的触发项的类型属性对应的数据部分的展示状态设置为显示、展示等级设置为第一等级;将未匹配出的触发项的类型属性对应的数据部分的展示状态设置为隐藏或收起、展示等级设置为第二等级;其中,第一等级高于第二等级。其中,上述从所获知的数据源获取搜索结果,将该搜索结果返回至请求端包括:当获知的至少一个数据源中不存在对应的搜索结果时,从数据来源服务器中实时抓取包括触发项的网络信息,将该网络信息作为相应触发项对应的搜索结果记录在数据源中,并将该搜索结果返回至请求端。其中,上述方法还包括:在接收到来自请求端的搜索关键数据时,根据该搜索关键数据在网络中实时进行网页信息的抓取,得到抓取结果;将抓取结果作为搜索结果的补充信息,与搜索结果合并后返回至请求端。根据本发明的另一方面,本发明实施例提供了一种网络信息的搜索装置,包括:通信接口,适于接收来自请求端的搜索关键数据,以及,将获取到的搜索结果返回至请求端;匹配器,适于利用预设的映射规则匹配与该搜索关键数据对应的触发项,该触发项是对网络中使用的搜索关键数据进行提取得到的;触发器,适于利用匹配出的触发项查询触发文件,获知搜索关键数据对应的搜索结果所在的数据源,该触发文件是由触发项和相关联的数据源位置信息生成的;获取器,适于从所获知的数据源获取搜索结果,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。其中,匹配器,适于利用预设的自然语言处理分析规则匹配与搜索关键数据对应的触发项,和/或,利用预设的正则表达式规则匹配与搜索关键数据对应的触发项;其中,上述触发项是根据搜索关键数据的使用频率和/或关注度等级从搜索关键数据中提取得到的,上述搜索关键数据的使用频率和/或关注度等级越高,该搜索关键数据中的至少部分数据被选取为触发项的概率越大。其中,每个触发项配置有一个或多个类型属性,触发文件由将每个触发项在所属的每种类型属性下与相应的数据源位置信息关联而生成,匹配器,适于利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;触发器,适于利用匹配出的触发项和该触发项的类型属性查询触发文件,获知搜索关键数据对应的搜索结果所在的一个或多个数据源。其中,数据源位置信息为数据源的统一资源定位符URLJP /或,数据源位置信息由触发项在所属类型属性下的MD5值生成。其中,每个触发项配置有一个或多个类型属性,触发文件由将每个触发项在所属的每种类型属性下与相应的数据源位置信息关联而生成,匹配器,适于利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;
·
触发器,适于从所获知的数据源获取匹配出的触发项对应的搜索结果,并根据匹配出的触发项的类型属性设置获取到的搜索结果中的各数据部分的展示状态和展示等级;通信接口,适于根据搜索结果的展示状态和展示等级将搜索结果返回至请求端。其中,触发器,还适于将匹配出的触发项的类型属性对应的数据部分的展示状态设置为显示、展示等级设置为第一等级;将未匹配出的触发项的类型属性对应的数据部分的展示状态设置为隐藏或收起、展示等级设置为第二等级;其中,第一等级高于第二等级。其中,获取器,适于当获知的至少一个数据源中不存在对应的搜索结果时,从数据来源服务器中实时抓取包括触发项的网络信息,将该网络信息作为相应触发项对应的搜索结果记录在数据源中,并指示通信接口将该搜索结果返回至请求端。根据本发明的又一方面,本发明实施例提供了一种网络信息的搜索系统,包括:如上述的网络信息的搜索装置和缓存数据库。缓存数据库,适于存储由预先对包括触发项的网络信息进行收集和整合而生成的搜索结果。网络信息的搜索装置,适于从缓存数据库获取搜索结果。其中,上述系统还包括抓取服务器,适于在接收到来自请求端的搜索关键数据时,根据该搜索关键数据在存储相应网页信息的数据来源服务器中实时进行网页信息的抓取,得到抓取结果,将该抓取结果分别发送至网络信息的搜索装置和缓存数据库;网络信息的搜索装置,适于将抓取结果作为搜索结果的补充信息,与搜索结果合并后返回至请求端;缓存数据库,适于将抓取结果合并存储在相应触发项对应的搜索结果中。其中,上述系统还包括数据收集整合服务器,适于利用网络爬虫在网络中进行抓取,收集包括触发项的网络信息,去除收集到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据;和/或,从合作方提供的数据接口获取包括触发项的网络信息,去除获取到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据。 其中,上述缓存数据库由数据快照存取器实现。根据本发明的又一方面,本发明实施例提供了一种网络信息的搜索方法,包括:在接收到来自请求端的医药搜索关键数据时,利用预设的映射规则匹配与该医药搜索关键数据对应的触发项,该触发项是对网络中使用的医药搜索关键数据进行提取得到的;利用匹配出的触发项查询触发文件,获知医药搜索关键数据对应的搜索结果所在的医药数据源,该触发文件是由触发项和相关联的医药数据源位置信息生成的;从所获知的医药数据源获取搜索结果,将该搜索结果返回至请求端,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。根据本发明的又一方面,本发明实施例提供了一种网络信息的搜索装置,包括:通信接口,适于接收来自请求端的医药搜索关键数据,以及,将获取到的搜索结果返回至请求端;匹配器,适于利用预设的映射规则匹配与该医药搜索关键数据对应的触发项,该触发项是对网络中使用的医药搜索关键数据进行提取得到的;触发器,适于利用匹配出的触发项查询触发文件,获知医药搜索关键数据对应的搜索结果所在的医药数据源,该触发文件是由触发项和相关联的医药数据源位置信息生成的;获取器,适于从所获知的医药数据源获取搜索结果,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。由上所述,本发明实施例通过预先选取搜索频率高、需求度高的数据作为触发项,并对网络中有价值的信息进行收集和整合,得到包括触发项的详细的搜索结果,则在执行信息搜索时,会将与请求端相匹配的触发项对应的搜索结果直接返回至请求端。由于预先整合的搜索结果能够包括与触发项关联的多种详细的信息,请求端通过该搜索结果即可获取到需要搜索的信息,从而简化了搜索操作,缩短了搜索时间,提高了搜索结果的精准性,并且,由于显著减少了请求端发送访问请求的数量,本方案大大降低了搜索引擎在网络中抓取垂直数据的压力,减轻了数据提供方的负担。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以 实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式



通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本发明一个实施例的网络信息的搜索系统结构示意图;图2示出了根据本发明一个实施例的一种网络信息的搜索装置的结构示意图;以及图3示出了根据本发明一个实施例的向客户端返回的一个搜索结果页面截屏示意图;图4示出了根据本发明一个实施例的向客户端返回的又一个搜索结果页面截屏示意图;图5示出了根据本发明又一个实施例的网络信息的搜索方法流程图。
具体实施例方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。现有的搜索结果展现页面中,只会展示包含查询词的链接及一些简单信息,用户如果点击了某个链接,需要跳转到第三方的网站获取或者查看信息等,这种处理方式带来了搜索时间过长、搜素结果精准性较差及网络侧压力较大的问题等。针对这些问题,本方案提前对数据进行收集和整合,从第三方(数据提供方)预先获取到有价值的信息,直接投放到本系统服务器的搜索结果页面上,返回至请求端。本方案可以应用在诸如搜索医药数据、教育资讯、数码数据、汽车或者消费类行业数据等多种类型的数据搜索场景中,下面通过各实施例对本方案进行详细说明。本发明一个实施例提供的一种网络信息的搜索系统100,参见图1,包括网络信息的搜索装置110、缓存数据库120、数据收集整合服务器130、抓取服务器140和数据来源服务器150。下面分别进行说明。缓存数据库120适于存储由预先对包括触发项的网络信息进行收集和整合而生成的搜索结果。示例性的,缓存数据库120可以由数据快照存取器实现。即本实施例采用数据快照机制来存储网页的裸数据或HTML (HyperText Markup Language,超文本标记语言)数据以及XML (ExtensibleMarkupLanguage,可扩展标记语言)数据结构信息等,采用数据快照进行存储的方式具有访问速度快、便于显示的优点。网络信息的搜索装置110适于从缓存数据库120获取搜索结果。网络信息的搜索装置110包括通信接口 114、匹配器113、触发器112和获取器111。网络信息的搜索装置110的具体结构和运行方式在本发明的其他实施例中进行说明。其中,上述系统100还包括数据收集整合服务器130。该数据收集整合服务器130可以通过下述的至少一种方式获取到搜索结果:
方式一、数据收集整合服务器130适于利用网络爬虫在网络中进行抓取,收集包括触发项的网络信息,去除收集到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据。这种方式下,数据收集整合服务器130可以将收集到的来自不同网站或网页的网络信息转换为统一的格式,便于存储和后续的处理。具体地,网络爬虫根据触发项列表中存储的与触发项(如触发词)对应的URL,到数据来源服务器中抓取与URL对应的网页数据,抓取后会对网页数据进行分析并拍照,形成该网页对应的数据快照。该数据快照中包含该URL对应的触发词,将该数据快照作为该触发词对应的搜索结果,与该搜索项一起关联存储在缓存数据库120中。本实施例中数据收集整合服务器130或网络信息的搜索装置110可以根据获知的各触发项、该触发项对应的类型属性以及数据源(如数据快照存取器)位置信息相关联,生成触发文件,并将该触发文件存储在网络信息的搜索装置110中,以使网络信息的搜索装置110自动根据这个触发文件到缓存数据库120中获取数据信息。一种方式下可以采用键值对(key-value)的形式,将数据源位置信息作为key,利用key定位到value,从value对应的数据源获取出搜索结果对应的实体数据。方式二、数据收集整合服务器130从合作方提供的数据接口获取包括触发项的网络信息,去除获取到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据。这种方式下,数据收集整合服务器130可以获取合作方提供的XML数据结构信息,根据该数据结构信息对获取到的网络信息进行合并、去重以及归一化处理等。在采用归一化方式时,例如,对于具有多个名称的数据,如一项数据具有正式名称、昵称、英文名称及其他多个常用名称,这多个名称实质上具有相同的含义,则将由这多个名称分别收集到的包含触发项的数据合并为一项数据,将合并后的数据作为该触发项的搜索结果。数据收集整合服务器130会预先选取触发项(如触发词),数据收集整合服务器130可以预先将网络中使用的搜索关键数据收集并存储至数据库,在执行选取操作时,从该数据库提取搜索关键数据即可。触发项是对网络中请求端(如客户端侧的用户)使用的搜索关键数据进行提取得到的,一种提 取方式可以为:根据搜索关键数据的使用频率和/或关注度等级从搜索关键数据中提取触发项,当搜索关键数据的使用频率和/或关注度等级越高,该搜索关键数据中的至少部分数据被选取为触发项的概率越大。上述使用频率可以通过对网络中搜索关键数据的使用次数进行统计得到,而上述关注度等级可以通过请求端反馈的等级评价信息得到。数据收集整合服务器130可以将选取出的触发项(以及该触发项对应的URL)存储至触发项列表中。考虑到相同的触发项在不同的场景中会出现不同的搜索结果,或者一个触发项具有多个含义,在不同含义下该触发项对应额搜索结果也不同,为了提高搜索结果的精准性,数据收集整合服务器130会为触发项设置一个或多个类型属性,分别收集和整合触发项在每个类型属性下的搜索结果,从而使搜索结果具有较高的精准度,能够满足特定场景或特定含义下的搜索需求。其中,上述系统100还包括抓取服务器150适于在接收到来自请求端的搜索关键数据时,根据该搜索关键数据在存储相应网页信息的数据来源服务器中实时进行网页信息的抓取,得到抓取结果,将该抓取结果分别发送至网络信息的搜索装置和缓存数据库。本实施例可以采用抓取服务器150和网络信息的搜索装置110并行搜索的机制。每当网络信息的搜索装置110获取到搜索关键数据后,同时将该搜索关键数据分发给抓取服务器150,由该抓取服务器150直接访问外部的数据来源服务器,得到抓取结果。同时,网络信息的搜索装置110从缓存数据库120中获取搜索结果。网络信息的搜索装置110对从缓存数据库120中获取的搜索结果以及抓取服务器150中获取的抓取结果进行合并。即网络信息的搜索装置110适于将抓取结果作为搜索结果的补充信息,与搜索结果合并后返回至请求端。根据需要选择是否采用抓取服务器150的抓取结果作为对缓存数据库120中的预先整合的搜索结果的补充,当需要时,抓取服务器150将抓取到的抓取结果发送至缓存数据库120,缓存数据库120将抓取结果合并存储在相应触发项对应的搜索结果中。由上所述,本发明实施例通过预先整合第三方的信息,并对触发项进行分类分析,将触发项在相应类型属性下对应的细分的信息,提供给请求端,从而能够提高数据搜索的精准性,缩短搜索时间,并且能够降低合作方数据服务的压力,减轻了网络爬虫的垂直数据的爬取压力,让请求端(如用户)可以直接在返回的搜索结果页面中获取到自己所需要的信息,实现了更加迅速、精准、多元的数据搜索,满足了用户需求。本发明又一个实施例提供了一种网络信息的搜索装置,参见图2,包括通信接口114、匹配器113、触发器112和获取器111。通信接口 114适于接收来自请求端的搜索关键数据,以及,将获取到的搜索结果返回至请求端。通信 接口 114以网页的形式将搜索结果返回请求端。参见图3,显示了触发项为“冠心病”时,通信接口向客户端返回的搜索结果页面截屏示意图。该网页中显示的搜索结果设置有三个显示框,一个显示框中包括了冠心病的“概述”、“病因”、“症状”、“饮食”、“预防”、“治疗”、“检查”、“诊断甄别”和“并发症”多种信息,其中“概述”部分设置为显示状态,其他各项为收起状态;另一个显示框为与“冠心病_找医院”相关的信息;又一个显示框中为与“冠心病_找专家”相关的信息。参见图4,为本实施例提供的又一个搜索结果网页的截屏示例图,该网页中设置有两个显示框,详细显示了与“中国人民解放军总医院”以及医院中的科室和专家相关联的信
肩、O匹配器113适于利用预设的映射规则匹配与该搜索关键数据对应的触发项,该触发项是对网络中使用的搜索关键数据进行提取得到的。上述预设的映射规则包括但不局限于能够指示触发项和搜索关键数据对应关系的自然语言处理分析(Natural LanguageProcessing, NLP)规则和/或正则表达式规则。具体的,匹配器113适于利用预设的自然语言处理分析规则匹配与搜索关键数据对应的触发项,和/或,利用预设的正则表达式规则匹配与搜索关键数据对应的触发项。其中,上述触发项是根据搜索关键数据的使用频率和/或关注度等级从搜索关键数据中提取得到的,上述搜索关键数据的使用频率和/或关注度等级越高,该搜索关键数据中的至少部分数据被选取为触发项的概率越大。触发器112适于利用匹配出的触发项查询触发文件,获知搜索关键数据对应的搜索结果所在的数据源,该触发文件是由触发项和相关联的数据源位置信息生成的。可以将触发文件保存在触发器112中,也可以将触发文件保存在缓存数据库中,触发器112在需要使用触发文件中从缓存数据库中提取该触发文件。触发文件中可以仅包括触发项和相关联的数据源位置信息,或者,每个触发项配置有一个或多个类型属性,触发文件由将每个触发项在所属的每种类型属性下与相应的数据源位置信息关联而生成,这种情况下,触发文件包括触发项、触发项的类型属性和相关联的数据源位置信息。则匹配器113使用的映射规则能够指示与搜索关键数据对应的触发项和该触发项的类型属性,匹配器113利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性,而触发器112利用匹配出的触发项和该触发项的类型属性查询触发文件,获知搜索关键数据对应的搜索结果所在的一个或多个数据源。数据源位置信息为能够在系统中唯一性标识数据源的信息,如数据源位置信息为数据源的统一资源定位符(Uniform Resource Locator, URL),和/或,数据源位置信息由触发项在所属类型属性下的MD5值生成,如对触发项和触发项的类型属性进行MD5运算,将运算结果作为数据源位置信息。获取器111适于从所获知的数据源获取搜索结果,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。例如,获取器111从获知的缓存数据库(数据快照存取器)中获取搜索结果。进一步的,本实施例中通过智能识别触发项的类型属性,在搜索结果页面中对触发项不同类型属性的区块,可以通过自由收起、隐藏或者展示等操作的组合,实现搜索结果页面的灵活展现。这种场景下,匹配器113适于利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;触发器112适于从所获知的数据源获取匹配出的触发项对应的搜索结果,并根据匹配出的触发项的类型属性设置获取到的搜索结果中的各数据部分的展示状态和展示等级;展示状态可以包括显示、隐藏或收起等,展示等级可以包括第一等级、第二等级等多个级别,不同的展示等级对应不同的展示优先级,例如,第一等级高于第二等级时,第一等级的搜索结果的展示优先级高于第二等级的搜索结果的展示优先级,将第一等级的搜索结果设置在搜索结果网页的最顶部或者其他最易关注到的位置。

通信接口 114适于根据搜索结果的展示状态和展示等级将搜索结果返回至请求端。例如,通信接口在返回的搜索结果网页中会根据展示状态和展示等级排列搜索结果的位置,并设置搜索结果所在的显示框为显示、隐藏或收起等。其中,本实施例中当数据源中不存在对应的搜索结果时,获取器111适于从数据来源服务器中实时抓取包括触发项的网络信息,将该网络信息作为相应触发项对应的搜索结果记录在数据源中,并指示通信接口 114将该搜索结果返回至请求端。进一步的,本实施例中可以针对搜索的结果页提供可信的验证,例如,可以预先通过对网站名称、域名、注册信息、地址、法人、网站备案信息、ICP(网络内容服务),以及厂商在国家权威认证机构的资质等信息的验证,判断搜索结果是否安全可信,并在搜索结果网页中提供验证标记,显示搜索结果是否安全可信的标注信息,以便用户可以在更加可信的环境内对搜索结果进行选择。并且,本实施例还可以在发送至请求端的搜索结果网页中设置用户反馈接口,如图3和图4中“投诉”按钮所示,通过该反馈接口接收来自用户的反馈消息,如接收用户举报恶意或不实信息的消息等,本实施例还可以参照用户的反馈消息对搜索结果的安全性进行判断和标注。由上所述,本发明实施例通过预先选取搜索频率高、需求度高的数据作为触发项,并对网络中有价值的信息进行收集和整合,得到包括触发项的详细的搜索结果,则在执行信息搜索时,会将与请求端相匹配的触发项对应的搜索结果直接返回至请求端。由于预先整合的搜索结果能够包括与触发项关联的多种详细的信息,请求端通过该搜索结果即可获取到需要搜索的信息,从而简化了搜索操作,缩短了搜索时间,提高了搜索结果的精准性,并且,由于显著减少了请求端发送访问请求的数量,本方案大大降低了搜索引擎在网络中抓取垂直数据的压力,减轻了数据提供方的负担。本发明又一个实施例提供了一种网络信息的搜索方法,参见图5,包括下述步骤:步骤S500:在接收到来自请求端的搜索关键数据时,利用预设的映射规则匹配与该搜索关键数据对应的触发项,该触发项是对网络中使用的搜索关键数据进行提取得到的;步骤S502:利用匹配出的触发项查询触发文件,获知搜索关键数据对应的搜索结果所在的数据源(如数据快照存取器),该触发文件是由触发项和相关联的数据源位置信息生成的,该数据源位置信息为数据源的URLjP /或,该数据源位置信息由触发项在所属类型属性下的MD5值生成。步骤S504:从所获知的数据源获取搜索结果,将该搜索结果返回至请求端,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。其中,上述步骤S500中包括:利用预设的自然语言处理分析规则匹配与搜索关键数据对应的触发项;和/或,利用预设的正则表达式规则匹配与搜索关键数据对应的触发项。以及,根据搜索关键数据的使用频率和/或关注度等级从搜索关键数据中提取触发项,其中,搜索关键数据的使用频率和/或关注度等级越高,该搜索关键数据中的至少部分数据被选取为触发项的概率越大。

其中,上述步骤S504中搜索结果的生成包括:利用网络爬虫在网络中进行抓取,收集包括触发项的网络信息,去除收集到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据;和/或,从合作方提供的数据接口获取包括触发项的网络信息,去除获取到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据。其中,上述步骤S502中触发文件的生成包括:为每个触发项配置一个或多个类型属性;将每个触发项在所属的每种类型属性下与相应的数据源位置信息的关联,生成触发文件。其中,当本实施例为一个触发项配置多种类型属性时,上述步骤S500还包括:利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;上述步骤S502还包括:利用匹配出的触发项和该触发项的类型属性查询触发文件,获知搜索关键数据对应的搜索结果所在的一个或多个数据源。上述步骤S504还包括:从所获知的数据源获取匹配出的触发项对应的搜索结果,并根据匹配出的触发项的类型属性设置获取到的搜索结果中的各数据部分的展示状态和展示等级,将搜索结果以及搜索结果中各数据部分的展示状态和展示等级返回至请求端。其中,在步骤S504中,将匹配出的触发项的类型属性对应的数据部分的展示状态设置为显示、展示等级设置为第一等级;将未匹配出的触发项的类型属性对应的数据部分的展示状态设置为隐藏或收起、展示等级设置为第二等级;其中,第一等级高于第二等级。
其中,上述步骤S504还包括:当获知的至少一个数据源中不存在对应的搜索结果时,从数据来源服务器中实时抓取包括触发项的网络信息,将该网络信息作为相应触发项对应的搜索结果记录在数据源中,并将该搜索结果返回至请求端。进一步的,本实施例还提供一种并行搜索的处理机制,在执行上述步骤S500至S504进行数据搜索的同时,上述方法还包括:在接收到来自请求端的搜索关键数据时,根据该搜索关键数据在网络中实时进行网页信息的抓取,得到抓取结果;将抓取结果作为搜索结果的补充信息,与搜索结果合并后返回至请求端。本发明方法实施例中各步骤的具体工作方式可以参见本发明的装置和系统实施例,在此不再赘述。由上所述,本发明实施例由于预先整合的搜索结果能够包括与触发项关联的多种详细的信息,请求端通过该搜索结果即可获取到需要搜索的信息,从而简化了搜索操作,缩短了搜索时间,提高了搜索结果的精准性,并且,由于显著减少了请求端发送访问请求的数量,本方案大大降低了搜索引擎在网络中抓取垂直数据的压力,减轻了数据提供方的负担。针对医药数据搜索的场景,本发明又一个实施例还提供了一种网络信息的搜索方法,包括如下处理:在接收到来自请求端的医药搜索关键数据时,利用预设的映射规则匹配与该医药搜索关键数据对应的触发项,该触发项是对网络中使用的医药搜索关键数据进行提取得到的;利用匹配出的触发项查询触发文件,获知医药搜索关键数据对应的搜索结果所在的医药数据源,该触发文件是由触发项和相关联的医药数据源位置信息生成的;从所获知的医药数据源获取搜索结果,将该搜索结果返回至请求端,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。该搜索结果可以通过搜索结果网页的方式发送至请求端,搜索结果网页的示例可以参见图3和图4。上述医药搜索关键数据为包括医院、医生、医药、医疗器械等与医药相关的数据,上述医药数据源为存储有医药数据的数据库,例如该数据库可以由存储有医药数据的数据快照存取器。针对医药数据搜索的场景,本发明又一个实施例还提供了一种网络信息的搜索装置,包括:通信接口适于接收来自请求端的医药搜索关键数据,以及,将获取到的搜索结果返回至请求端;匹配器适于利用预设的映射规则匹配与该医药搜索关键数据对应的触发项,该触发项是对网络中使用的医药搜索关键数据进行提取得到的;触发器适于利用匹配出的触发项查询触发文件,获知医药搜索关键数据对应的搜索结果所在的医药数据源,该触发文件是由触发项和相关联的医药数据源位置信息生成的;获取器适于从所获知的医药数据源获取搜索结果,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。上述医药搜索关键数据为包括医院、医生、医药、医疗器械等与医药相关的数据,上述医药数据源为存储有医药数据的数据库,例如该数据库可以由存储有医药数据的数据快照存取器。本发明又一个实 施例提供了一种网络信息的搜索方法:其中:所述利用预设的映射规则匹配与该搜索关键数据对应的触发项包括:利用预设的自然语言处理分析规则匹配与搜索关键数据对应的触发项,和/ 或,利用预设的正则表达式规则匹配与搜索关键数据对应的触发项。本发明又一个实施例提供了一种网络信息的搜索方法:其中,所述触发项是对网络中使用的搜索关键数据进行提取得到的包括:根据搜索关键数据的使用频率和/或关注度等级从搜索关键数据中提取触发项,其中,搜索关键数据的使用频率和/或关注度等级越高,该搜索关键数据中的至少部分数据被选取为触发项的概率越大。本发明又一个实施例提供了一种网络信息的搜索方法,其中,所述从所获知的数据源获取搜索结果,将该搜索结果返回至请求端包括:当获知的至少一个数据源中不存在对应的搜索结果时,从数据来源服务器中实时抓取包括所述触发项的网络信息,将该网络信息作为相应触发项对应的搜索结果记录在数据源中,并将该搜索结果返回至请求端。本发明又一个实施例提供了一种网络信息的搜索方法,其中,所述方法还包括:在接收到来自请求端的搜索关键数据时,根据该搜索关键数据在网络中实时进行网页信息的抓取,得到抓取结果;

将所述抓取结果作为所述搜索结果的补充信息,与所述搜索结果合并后返回至请求端。本发明又一个实施例提供了一种网络信息的搜索装置,其中,所述匹配器,适于利用预设的自然语言处理分析规则匹配与搜索关键数据对应的触发项,和/或,利用预设的正则表达式规则匹配与搜索关键数据对应的触发项;其中,所述触发项是根据搜索关键数据的使用频率和/或关注度等级从搜索关键数据中提取得到的,所述搜索关键数据的使用频率和/或关注度等级越高,该搜索关键数据中的至少部分数据被选取为触发项的概率越大。本发明又一个实施例提供了一种网络信息的搜索装置,其中,所述每个触发项配置有一个或多个类型属性,所述触发文件由将每个触发项在所属的每种类型属性下与相应的数据源位置信息关联而生成,所述匹配器,适于利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;所述触发器,适于利用匹配出的触发项和该触发项的类型属性查询触发文件,获知所述搜索关键数据对应的搜索结果所在的一个或多个数据源。本发明又一个实施例提供了一种网络信息的搜索装置,其中,所述数据源位置信息为数据源的统一资源定位符URLjP /或,所述数据源位置信息由触发项在所属类型属性下的MD5值生成。本发明又一个实施例提供了一种网络信息的搜索装置,其中,所述每个触发项配置有一个或多个类型属性,所述触发文件由将每个触发项在所属的每种类型属性下与相应的数据源位置信息关联而生成,所述匹配器,适于利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;所述触发器,适于从所获知的数据源获取匹配出的触发项对应的搜索结果,并根据匹配出的触发项的类型属性设置获取到的搜索结果中的各数据部分的展示状态和展示等级;所述通信接口,适于根据搜索结果的展示状态和展示等级将搜索结果返回至请求端。本发明又一个实施例提供了一种网络信息的搜索装置,其中,所述触发器,还适于将匹配出的触发项的类型属性对应的数据部分的展示状态设置为显示、展示等级设置为第一等级;将未匹配出的触发项的类型属性对应的数据部分的展示状态设置为隐藏或收起、展示等级设置为第二等级;其中,所述第一等级高于所述第二等级。本发明又一个实施例提供了一种网络信息的搜索装置,其中,所述获取器,适于当获知的至少一个数据源中不存在对应的搜索结果时,从数据来源服务器中实时抓取包括所述触发项的网络信息,将该网络信息作为相应触发项对应的搜索结果记录在数据源中,并指示所述通信接口将该搜索结果返回至请求端。本发明又一个实施例提供了一种网络信息的搜索系统,包括:包括上述的网络信息的搜索装置和缓存数据库,所述缓存数据库,适于存储由预先对包括所述触发项的网络信息进行收集和整合而生成的搜索结果;所述网络信息的搜索装置,适于从所述缓存数据库获取搜索结果。
·
本发明又一个实施例提供了一种网络信息的搜索系统,其中,所述系统还包括抓取服务器,所述抓取服务器,适于在接收到来自请求端的搜索关键数据时,根据该搜索关键数据在存储相应网页信息的数据来源服务器中实时进行网页信息的抓取,得到抓取结果,将该抓取结果分别发送至所述网络信息的搜索装置和缓存数据库;所述网络信息的搜索装置,适于将所述抓取结果作为所述搜索结果的补充信息,与所述搜索结果合并后返回至请求端;所述缓存数据库,适于将所述抓取结果合并存储在相应触发项对应的搜索结果中。本发明又一个实施例提供了一种网络信息的搜索系统,其中,所述系统还包括抓取服务器,其中,所述系统还包括数据收集整合服务器,适于利用网络爬虫在网络中进行抓取,收集包括触发项的网络信息,去除收集到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据;和/或,从合作方提供的数据接口获取包括触发项的网络信息,去除获取到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据。本发明又一个实施例提供了一种网络信息的搜索系统,其中,所述系统还包括抓取服务器,其中,所述缓存数据库由数据快照存取器实现。然而,本方案并不局限于应用在医药数据搜索的场景,也可以将本方案应用在搜索教育资讯、数码数据、汽车、消费类行业数据或者其他任何的搜索领域,或者是天气、火车票、飞机票、股票、基金、购物信息、团购、电影、音乐、小说、问答等搜索技术领域。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式
的权利要求书由此明确地并入该具体实施方式
,其中每个权利要求本身都作为本发明的单独实施例。本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所 有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网络信息的搜索装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称 。
权利要求
1.一种网络信息的搜索方法,包括: 在接收到来自请求端的搜索关键数据时,利用预设的映射规则匹配与该搜索关键数据对应的触发项,所述触发项是对网络中使用的搜索关键数据进行提取得到的; 利用匹配出的触发项查询触发文件,获知所述搜索关键数据对应的搜索结果所在的数据源,所述触发文件是由触发项和相关联的数据源位置信息生成的; 从所获知的数据源获取搜索结果,将该搜索结果返回至请求端,所述搜索结果由预先对包括所述触发项的网络信息进行收集和整合而生成。
2.根据权利要求1所述的方法,其中,所述搜索结果由预先对包括所述触发项的网络信息进行收集和整合而生成包括: 利用网络爬虫在网络中进行抓取,收集包括触发项的网络信息,去除收集到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据;和/或 从合作方提供的数据接口获取包括触发项的网络信息,去除获取到的网络信息中的相同数据,并采用归一化方式将相同含义的多项数据合并为一项数据。
3.根据权利要求1所述的方法,其中,所述触发文件是由触发项和相关联的数据源位置信息生成的包括: 为每个触发项配置一个或多个类型属性; 将每个触发项在所属的每种类型属性下与相应的数据源位置信息的关联,生成触发文件。
4.根据权利要求3所述的方法,其中, 所述利用预设的映射规则匹配与该搜索关键数据对应的触发项包括: 利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性;所述利用匹配出的触发项查询触发文件,获知所述搜索关键数据对应的搜索结果所在的数据源包括: 利用匹配出的触发项和该触发项的类型属性查询触发文件,获知所述搜索关键数据对应的搜索结果所在的一个或多个数据源。
5.根据权利要求3所述的方法,其中,所述数据源位置信息为数据源的统一资源定位符URLJP /或,所述数据源位置信息由触发项在所属类型属性下的MD5值生成。
6.根据权利要求3所述的方法,其中, 所述利用预设的映射规则匹配与该搜索关键数据对应的触发项包括: 利用预设的映射规则匹配与该搜索关键数据对应的触发项和该触发项的类型属性; 所述从所获知的数据源获取搜索结果,将该搜索结果返回至请求端包括: 从所获知的数据源获取匹配出的触发项对应的搜索结果,并根据匹配出的触发项的类型属性设置获取到的搜索结果中的各数据部分的展示状态和展示等级,将所述搜索结果以及搜索结果中各数据部分的展示状态和展示等级返回至请求端。
7.根据权利要求6所述的方法,其中,所述根据匹配出的触发项的类型属性设置获取到的搜索结果中的各数据部分的展示状态和展示等级包括: 将匹配出的触发项的类型属性对应的数据部分的展示状态设置为显示、展示等级设置为第一等级; 将未匹配出的触发项的类型属性对应的数据部分的展示状态设置为隐藏或收起、展示等级设置为第二等级; 其中,所述第一等级高于所述第二等级。
8.—种网络信息的搜索装置,包括: 通信接口,适于接收来自请求端的搜索关键数据,以及,将获取到的搜索结果返回至请求端; 匹配器,适于利用预设的映射规则匹配与该搜索关键数据对应的触发项,所述触发项是对网络中使用的搜索关键数据进行提取得到的; 触发器,适于利用匹配出的触发项查询触发文件,获知所述搜索关键数据对应的搜索结果所在的数据源,所述触发文件是由触发项和相关联的数据源位置信息生成的; 获取器,适于从所获知的数据源获取搜索结果,所述搜索结果由预先对包括所述触发项的网络信息进行收集和整合而生成。
9.一种网络信息的搜索方法,包括: 在接收到来自请求端的医药搜索关键数据时,利用预设的映射规则匹配与该医药搜索关键数据对应的触发项,所述触发项是对网络中使用的医药搜索关键数据进行提取得到的; 利用匹配出的触发项查询触发文件,获知所述医药搜索关键数据对应的搜索结果所在的医药数据源,所述触发文件是 由触发项和相关联的医药数据源位置信息生成的; 从所获知的医药数据源获取搜索结果,将该搜索结果返回至请求端,所述搜索结果由预先对包括所述触发项的网络信息进行收集和整合而生成。
10.一种网络信息的搜索装置,包括: 通信接口,适于接收来自请求端的医药搜索关键数据,以及,将获取到的搜索结果返回至请求端; 匹配器,适于利用预设的映射规则匹配与该医药搜索关键数据对应的触发项,所述触发项是对网络中使用的医药搜索关键数据进行提取得到的; 触发器,适于利用匹配出的触发项查询触发文件,获知所述医药搜索关键数据对应的搜索结果所在的医药数据源,所述触发文件是由触发项和相关联的医药数据源位置信息生成的; 获取器,适于从所获知的医药数据源获取搜索结果,所述搜索结果由预先对包括所述触发项的网络信息进行收集和整合而生成。
全文摘要
本发明公开了一种网络信息的搜索方法、装置和系统。本发明实施例提供的网络信息的搜索方法包括在接收到来自请求端的搜索关键数据时,利用预设的映射规则匹配与该搜索关键数据对应的触发项,该触发项是对网络中使用的搜索关键数据进行提取得到的;利用匹配出的触发项查询触发文件,获知搜索关键数据对应的搜索结果所在的数据源,该触发文件是由触发项和相关联的数据源位置信息生成的;从所获知的数据源获取搜索结果,将该搜索结果返回至请求端,该搜索结果由预先对包括触发项的网络信息进行收集和整合而生成。
文档编号G06F17/30GK103246726SQ20131016996
公开日2013年8月14日 申请日期2013年5月9日 优先权日2013年5月9日
发明者李天华 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1