互联网站内信息的搜索方法和搜索系统的制作方法

文档序号:6432405阅读:107来源:国知局
专利名称:互联网站内信息的搜索方法和搜索系统的制作方法
技术领域
本发明涉及互联网信息处理技术领域,尤其涉及一种互联网站内信息的搜索方法和搜索系统。
背景技术
目前,互联网站点的搭建方式主要有两种,一种是自行编写代码搭建站点;另一种是利用成形的互联网站点系统搭建站点。例如,互联网社区软件系统就是一种成形的互联网站点系统,互联网社区站点的拥有者不需要自行开发一套社区软件系统,而是直接安装标准化、产品化的社区软件系统,然后配置自己的社区配置信息,即可搭建一个互联网社区站点,网友可以利用各种数据处理设备(如计算机、智能手机、平板电脑等)连接登录该互 联网社区站点查看或发布信息,并与其它网友进行交流互动。目前比较流行的互联网社区软件系统主要有Discuz !社区软件系统,已经有超过140万家互联网社区站点使用Discuz !社区软件系统进行搭建,这些互联网社区站点提供的数据量已超过50亿。面对如此大巨量的数据,互联网社区站点迫切需要提供高效的站内搜索服务。现有技术中,互联网站点(包括互联网社区软件系统)的站内搜索技术主要有两种现有技术一通过数据库自带的文本检索实现搜索功能。例如Discuz !社区软件系统的基础架构采用的是PHP语言+MySQL数据库这种比较流行的网络编程组合实现,因此其社区站内搜索功能主要是通过MySQL数据库自带的文本检索实现。现有技术一的缺点是由于数据库安装在互联网站点的本地服务器上,执行搜索操作需要占用本地各种资源,因此总体效率不高、服务性能低,且磁盘空间的占用量大、带宽消耗大、数据更新速度慢,索引膨胀快,难以稳定支撑大规模数据量的查询服务。而且,MySQL数据库检索只能实现对帖子标题的搜索,且是完全匹配,搜索结果只能按时间排序,无法按结果质量和相关性排序。现有技术二 通过外部专有的网络搜索引擎提供对应的搜索服务。目前的专有搜索引擎通常采用网页抓取程序顺着网页中的超链接抓取网页信息,然后提取网页信息中的关键数据并建立索引,当某个互联网社区站点发出搜索请求后,该搜索请求会发送给外部搜索引擎,外部搜索引擎会从具有该社区站点信息的索引中搜索出搜索结果,返回给该社区站点进行展示。现有技术二的缺点是外部搜索引擎目前都是基于全网网页抓取方式抓取网页信息再建索引,因此针对某一社区站点内的信息,所抓取的信息量不大、也比较粗略,而且信息时效性较差,比较迟后,因此通过这种方式进行的互联网社区站内搜索的精确度不高,时效性差
发明内容
有鉴于此,本发明提供一种互联网站内信息的搜索方法和搜索系统,以提高站内信息搜索的搜索效率、精确度以及时效性。本发明的技术方案是这样实现的一种互联网站内信息的搜索方法,该方法包括搜索引擎获取互联网站点的数据,根据获取的数据建立索引并存入索引数据库;搜索引擎接收来自互联网站点的搜索请求,根据收到的搜索请求从索引数据库中检索出对应的搜索结果,并将搜索结果返回给所述互联网站点进行展示。优选的,所述搜索引擎获取互联网站点更新的数据的具体方式为在所述搜索引擎收到所述互联网站点更新数据主动通知后,所述搜索引擎从所述互联网站点指定存放全量数据及实时更新数据列表地址处获取所述互联网站点的站内更新数据;或者,所述搜索引擎定期从所述互联网站点指定存放全量数据及实时更新数据列表地址处获取所述互联网站点的站内更新数据。优选的,所述搜索引擎在同步得到互联网站点的数据之后、建立索引之前,进一步对同步得到的数据进行过滤,过滤掉不符合指定条件的数据,之后只对过滤后的数据建立索引并存入索引数据库。优选的,该方法进一步在搜索引擎中存储检索权限信息;所述来自互联网站点的搜索请求中进一步包括用户信息;所述搜索引擎收到搜索请求后,进一步根据用户信息和存储的检索权限信息识别该用户的检索权限,从索引数据库中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互联网站点进行展示。优选的,所述用户信息为用户的登录信息或用户的来源信息。优选的,所述搜索引擎进一步从互联网站点同步本站内更新的用户权限信息。优选的,所述来自互联网站点的搜索请求中进一步包括用户信息;所述搜索引擎在检索出对应的搜索结果之后、返回给所述互联网站点之前,进一步根据搜索请求中提供的用户信息对该搜索结果进行排序,将排序后的搜索结果返回给互联网站点进行展示。一种互联网站内信息的搜索系统,包括独立于互联网站点的搜索引擎、以及设置在互联网站点侧的第一同步模块和搜索收发模块;所述搜索引擎包括第二同步模块、索引建立模块、索引数据库、以及检索模块;其中所述第一同步模块和第二同步模块协同工作,用于将互联网站点站内更新的数据同步给所述搜索引擎;所述索引建立模块用于根据第二同步模块同步得到的站内数据建立索引并存入索引数据库;所述搜索收发模块用于在互联网站点收到搜索请求后向所述搜索引擎发起搜索请求,并接收搜索引擎返回的搜索结果供互联网站点展示;所述检索模块用于根据来自互联网站点的搜索请求从索弓I数据库中检索出对应的搜索结果,并将搜索结果返回给互联网站点。优选的,所述搜索引擎中进一步包括过滤模块,设置在所述第二同步模块和索引建立模块之间,用于对同步得到的数据进行过滤,过滤掉不符合指定条件的数据,将过滤后的数据发送给索引建立模块建立索引并存入索弓I数据库。
优选的,所述搜索收发模块进一步用于在向搜索引擎发送的搜索请求中添加用户信息;所述搜索引擎中进一步包括权限信息模块,用于存储检索权限信息;所述检索模块进一步用于根据来自互联网站点的搜索请求中的用户信息和权限信息模块中存储的检索权限信息识别该用户的检索权限,从索引数据库中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互联网站点。优选的,所述搜索收发模块进一步用于在向搜索引擎发送的搜索请求中添加用户信息;所述检索模块内进一步包括排序模块,用于根据所述搜索请求中提供的用户信息对搜索结果进行排序,将排序后的搜索结果返回给互联网站点。优选的,所述搜索引擎为云计算搜索引擎。与现有技术一相比,本发明所采用与互联网站点系统(如D iscuz !)相独立的专用搜索引擎提供站内搜索,因此搜索效率高,服务性能高,不必占用站点本地的各种资源,例如磁盘资源,带宽资源,而且数据更新速度快,索引膨胀慢,可以支持大规模数据量的查询服务。并且,可以克服数据库检索只能提供标题搜索的缺陷,可以提供各个字段的搜索结果O与现有技术二相比,本发明不是采用全网抓取的方式建立数据索引,而是与互联网站点保持了一种通信机制,即互联网站点将本站内的更新数据实时同步给搜索引擎,所述更新数据的数据量大而且全面,搜索引擎实时或定时建立所述站内数据的索引,因此搜索结果不但准确性高,而且时效性好,搜索结果可以及时地反映最新的数据更新内容。此外,由于本发明采用独立于站点的专用搜索引擎甚至云搜索引擎,因此可以实现通过搜索帖子标题、正文、主题中的关键字信息搜索站内帖子,可以“按时间”或者“按相关性”对搜索结果进行排序,并可以根据搜索结果的某一属性进行筛选、过滤,例如是否精华帖、是否置顶帖、来自某个版块、是否需要登录后才有权限访问等。本发明还可以根据用户的登录信息、来源信息及相对应的访问权限,为其展示权限内的搜索结果,从而进一步提高了搜索的精准度。


图I为本发明所述的互联网站内信息的搜索方法的示意图;图2为互联网社区站点利用本发明所述方法进行搜索的一种实施流程图;图3为一种搜索会话框的界面图;图4为一种搜索结果界面图;图5为本发明所述的互联网站内信息搜索系统的第一实施例的示意图;图6为本发明所述的互联网站内信息搜索系统的第二实施例的示意图;图7为本发明所述的互联网站内信息搜索系统的第三实施例的示意图;图8为本发明所述的互联网站内信息搜索系统的第四实施例的示意图;图9为本发明所述的互联网站内信息搜索系统的第五实施例的示意图。
具体实施例方式下面结合附图及具体实施例对本发明再作进一步详细的说明。本发明所述适用的互联网站点可以是自行编写搭建的互联网站点,也可以是成形的互联网站点系统例如互联网社区软件系统(如Discuz !)搭建的互联网站点。本发明所述的搜索引擎可以是云计算搜索引擎或非云计算搜索引擎。图I为本发明所述的互联网站内信息的搜索方法的示意图。参见图1,该方法包括信息同步过程101和响应搜索过程102,其中信息同步过程101包括步骤111、搜索引擎获取互联网站点同步更新的数据。步骤112、搜索引擎根据同步得到的站内数据实时建立索引并存入索引数据库。响应搜索过程102包括·步骤121、互联网站点在收到搜索请求后向所述搜索引擎发起搜索请求。步骤122、搜索引擎接收来自互联网站点的搜索请求,根据收到的搜索请求从索引数据库中检索出对应的搜索结果。步骤123、搜索引擎将搜索结果返回给所述互联网站点步骤124、所述互联网站点展示所收到的搜索结果。所述信息同步过程可以具体为主动通知同步方式和定时同步方式,其中主动通知同步方式为所述互联网站点将本站内的全量数据及实时更新的数据列表存放到指定地址,并在更新数据后主动通知所述搜索引擎,所述搜索引擎收到通知后到所述指定地址获取所述互联网站点的站内数据。定时同步方式为所述互联网站点将本站内的全量数据及实时更新的数据列表存放到指定地址,所述搜索引擎定期到所述指定地址抓取所述互联网站点的站内数据。在一种优选的实施例中,所述搜索引擎在同步得到互联网站点的数据之后、建立索引之前,还可以进一步对同步得到的数据进行过滤,过滤掉不符合指定条件的数据,之后只对过滤后的数据建立索引并存入索引数据库。例如针对互联网社区站点,所述指定条件是指不能包含明显无实质内容的帖子,例如不能包含“顶”、“赞”、“沙发”等明显无实质内容的帖子,具体的过滤条件可以根据互联网信息的变化在搜索引擎中进行设定,在建立索引之前,搜索引擎需要将这些内容过滤掉。在一种优选的实施例中,本发明还可以在搜索引擎中存储检索权限信息。例如一般的互联网站点对站内用户权限有所划分,不同的用户对站内版块的访问权限是不同的,因此可以在搜索引擎中存储站点内不同版块的用户访问权限信息(比如哪一类型的用户可以访问,哪一类型的用户不可以访问等等);再例如,对于不同站点的用户其访问其他站点信息的权限也不同,有些联盟站点之间的用户可以相互访问对方站点内的内容,因此搜索引擎也可以将这些站点间用户访问的权限信息存储起来。所述互联网站点向搜索引擎发送的搜索请求中可以进一步包括用户信息,例如用户的登录信息(该用户的登录等级、登录权限等信息)以及用户来源信息等。所述搜索引擎收到搜索请求后,进一步根据用户信息和存储的检索权限信息识别该用户的检索权限,从索引数据库中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互联网站点进行展示。例如,如果用户信息是用户的登录等级信息,则搜索引擎根据检索权限信息确定该用户的登录等级可以访问哪些站内版块,从用户有权访问的这些站内版块数据内检索出符合所述搜索请求的搜索结果。再例如,如果用户信息包括用户来源信息(如该用户来自于A站点),则搜索引擎根据所述检索权限信息确定来自与A站点的用户可以访问的站点都有哪些,例如B站点和C站点,那么搜索引擎从B站点和C站点中检索出对应的内容,作为搜索结果返回。所述搜索引擎中存储的检索权限信息可以预先设置存储,也可以根据互联网站点的用户权限信息的改变进行动态同步更新,具体的同步方式也可以采用上述主动通知同步方式和定时同步方式。在一种优选的实施例中,本发明所述搜索引擎在检索出对应的搜索结果之后、返回给所述互联网站点之前,进一步根据搜索请求中提供的用户信息对该搜索结果进行排序,将排序后的搜索结果返回给互联网站点进行展示。例如如果用户信息表明该用户是某一版块的版主,则在搜索结果中会将该版块的搜索结果信息排在前面。图2为互联网社区站点利用本发明所述方法进行搜索的一种实施流程图。参见图2,假设此处的互联网社区站点为一论坛站点(如利用Discuz !社区软件系统搭建的论坛 站点),该论坛站点中,Discuz !社区软件系统(下面简称Discuz !)为论坛提供功能支持。其搜索流程包括步骤201、论坛通过Discuz !将论坛内全量的文本信息及用户权限信息实时同步给搜索引擎,搜索引擎通过实时索引技术对符合条件的数据建立索引,过滤掉垃圾及不符合条件的数据。步骤202、用户登录论坛,打开搜索会话框,例如打开图3所示的一种搜索会话框,在搜索框内输入关键词,点击“搜索”发起搜索请求;Discuz !将用户的搜索请求、以及用户来源(即用户所属的论坛)、用户登录信息(体现了会话对象权限)等相关信息一起发送给搜索引擎。步骤203、搜索引擎根据接收到的信息、以及存储的检索权限信息(例如合作伙伴相关数据库的内容),根据用户在该论坛内的访问权限从索引数据库中检索出相应的搜索结果,并根据用户信息等条件对搜索结果进行排序。步骤204、搜索引擎返回排序后的搜索结果给Discuz ! ;Discuz !将搜索结果展示给用户,例如图4所示的搜索结果。本发明在搜索结果页面还可以进一步展示检索条件供用户选择,如图4所示的搜索结果界面中,左侧的“所有版块列表”部分401就列出了若干个检索条件,每条检索条件都对应本论坛中的一个版块。用户可以点击其中的一个检索条件,例如点击“建站交流” 402,则互联网站点会重新发送一条搜索请求给搜索引擎,该搜索请求中包括所点击的检索条件信息,该检索条件信息指定了所点击的版块信息,搜索引擎在接收到包含检索条件的搜索请求后,进一步根据所述检索条件从前次搜索结果中检索出对应的搜索结果,例如从前次搜索结果中检索出“建站交流”版块中包含的搜索结果,并将搜索结果返回给所述互联网站点进行展示。图5为本发明所述的互联网站内信息搜索系统的第一实施例的示意图。参见图5,该搜索系统包括独立于互联网站点的搜索引擎500、以及设置在互联网站点侧的第一同步模块501和搜索收发模块502 ;所述搜索引擎500为云计算搜索引擎或非云计算搜索引擎,包括第二同步模块503、索引建立模块504、索引数据库505、以及检索模块506 ;其中所述第一同步模块501和第二同步模块503协同工作,用于将互联网站点站内更新的数据同步给所述搜索引擎500 ;
所述索引建立模块504用于根据第二同步模块503同步得到的站内数据建立索引并存入索引数据库505 ;所述搜索收发模块502用于在互联网站点收到搜索请求后向所述搜索引擎500发起搜索请求,并接收搜索引擎500返回的搜索结果供互联网站点展示;所述检索模块506用于根据来自互联网站点的搜索请求从索引数据库505中检索出对应的搜索结果,并将搜索结果返回给互联网站点。图6为本发明所述的互联网站内信息搜索系统的第二实施例的示意图。参见图6,该第二实施例中,除了包括图5所示的模块,还进一步包括过滤模块507,设置在所述第二同步模块503和索引建立模块504之间,用于对同步得到的数据进行过滤,过滤掉不符合指定条件的数据,将过滤后的数据发送给索引建立模块504建立索引并存入索引数据库505。图7为本发明所述的互联网站内信息搜索系统的第三实施例的示意图。参见图7,该第三实施例中,除了包括图5所示的模块,所述搜索收发模块502进一步用于在向搜索引擎发送的搜索请求中添加用户信息;所述搜索引擎中进一步包括权限信息模块508,用于存储检索权限信息;所述检索模块506进一步用于根据来自互联网站点的搜索请求中的用户信息和权限信息模块中存储的检索权限信息识别该用户的检索权限,从索引数据库505中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互联网站点。图8为本发明所述的互联网站内信息搜索系统的第四实施例的示意图。参见图8,该第四实施例中,除了包括图5所示的模块,所述搜索收发模块502进一步用于在向搜索引擎发送的搜索请求中添加用户信息;所述检索模块506内进一步包括排序模块509,用于根据所述搜索请求中提供的用户信息对搜索结果进行排序,将排序后的搜索结果返回给互联网站点。图9为本发明所述的互联网站内信息搜索系统的第五实施例的示意图,如图9为该最佳实施例的示意图,该实施例中,除了包括图5所示的模块,所述搜索收发模块502进一步用于在向搜索引擎发送的搜索请求中添加用户信息;所述搜索引擎中进一步包括权限信息模块508,用于存储检索权限信息;所述检索模块506进一步用于根据来自互联网站点的搜索请求中的用户信息和权限信息模块508中存储的检索权限信息识别该用户的检索权限,从索引数据库505中符合该用户权限范围的内容里检索出搜索结果;所述检索模块506内进一步包括排序模块509,用于根据所述搜索请求中提供的用户信息对搜索结果进行排序,将排序后的搜索结果返回给互联网站点。当然,上述搜索系统的第二、三、四实施例之间可以任意组合在一起,从而构成新的实施例。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种互联网站内信息的搜索方法,其特征在于,该方法包括 搜索引擎获取互联网站点的数据,根据获取的数据建立索引并存入索引数据库; 搜索引擎接收来自互联网站点的搜索请求,根据收到的搜索请求从索弓I数据库中检索出对应的搜索结果,并将搜索结果返回给所述互联网站点进行展示。
2.根据权利要求I所述的搜索方法,其特征在于,所述搜索引擎获取互联网站点内更新的数据的具体方式为 在所述搜索引擎收到所述互联网站点更新数据主动通知后,所述搜索引擎从所述互联网站点指定存放全量数据及实时更新数据列表地址处获取所述互联网站点的站内更新数据; 或者,所述搜索引擎定期从所述互联网站点指定存放全量数据及实时更新数据列表地址处获取所述互联网站点的站内更新数据。
3.根据权利要求I所述的方法,其特征在于,所述搜索引擎在同步得到互联网站点的数据之后、建立索引之前,进一步对同步得到的数据进行过滤,过滤掉不符合指定条件的数据,之后只对过滤后的数据建立索引并存入索引数据库。
4.根据权利要求I所述的方法,其特征在于,该方法进一步在搜索引擎中存储检索权限信息;所述来自互联网站点的搜索请求中进一步包括用户信息;所述搜索引擎收到搜索请求后,进一步根据用户信息和存储的检索权限信息识别该用户的检索权限,从索引数据库中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互联网站点进行展示。
5.根据权利要求4所述的方法,其特征在于,所述用户信息为用户的登录信息或用户的来源信息。
6.根据权利要求4所述的方法,其特征在于,所述搜索引擎进一步从互联网站点同步本站内更新的用户权限信息。
7.根据权利要求I所述的方法,其特征在于, 所述来自互联网站点的搜索请求中进一步包括用户信息; 所述搜索引擎在检索出对应的搜索结果之后、返回给所述互联网站点之前,进一步根据搜索请求中提供的用户信息对该搜索结果进行排序,将排序后的搜索结果返回给互联网站点进行展示。
8.—种互联网站内信息的搜索系统,其特征在于,包括独立于互联网站点的搜索引擎、以及设置在互联网站点侧的第一同步模块和搜索收发模块;所述搜索引擎包括第二同步模块、索引建立模块、索引数据库、以及检索模块;其中 所述第一同步模块和第二同步模块协同工作,用于将互联网站点站内更新的数据同步给所述搜索引擎; 所述索引建立模块用于根据第二同步模块同步得到的站内数据建立索引并存入索引数据库; 所述搜索收发模块用于在互联网站点收到搜索请求后向所述搜索引擎发起搜索请求,并接收搜索引擎返回的搜索结果供互联网站点展示; 所述检索模块用于根据来自互联网站点的搜索请求从索弓I数据库中检索出对应的搜索结果,并将搜索结果返回给互联网站点。
9.根据权利要求8所述的搜索系统,其特征在于,所述搜索引擎中进一步包括过滤模块,设置在所述第二同步模块和索引建立模块之间,用于对同步得到的数据进行过滤,过滤掉不符合指定条件的数据,将过滤后的数据发送给索引建立模块建立索引并存入索引数据库。
10.根据权利要求8所述的搜索系统,其特征在于, 所述搜索收发模块进一步用于在向搜索引擎发送的搜索请求中添加用户信息; 所述搜索引擎中进一步包括权限信息模块,用于存储检索权限信息; 所述检索模块进一步用于根据来自互联网站点的搜索请求中的用户信息和权限信息 模块中存储的检索权限信息识别该用户的检索权限,从索引数据库中符合该用户权限范围的内容里检索出搜索结果,并将该搜索结果返回给所述互联网站点。
11.根据权利要求8所述的搜索系统,其特征在于, 所述搜索收发模块进一步用于在向搜索引擎发送的搜索请求中添加用户信息; 所述检索模块内进一步包括排序模块,用于根据所述搜索请求中提供的用户信息对搜索结果进行排序,将排序后的搜索结果返回给互联网站点。
12.根据权利要求8至11任一项所述的搜索系统,其特征在于,所述搜索引擎为云计算搜索引擎。
全文摘要
本发明公开了一种互联网站内信息的搜索方法和系统。所述方法包括搜索引擎获取互联网站点更新的数据,搜索引擎根据同步得到的站内数据建立索引并存入索引数据库;所述搜索引擎接收到互联网站点搜索请求,搜索引擎根据收到的搜索请求从索引数据库中检索出对应的搜索结果,并将搜索结果返回给所述互联网站点进行展示。所述系统包括独立于互联网站点的搜索引擎、以及设置在互联网站点侧的第一同步模块和搜索收发模块;所述搜索引擎包括第二同步模块、索引建立模块、索引数据库、以及检索模块。利用本发明,可以提高站内信息搜索的搜索效率、精确度以及时效性。
文档编号G06F17/30GK102982034SQ201110260130
公开日2013年3月20日 申请日期2011年9月5日 优先权日2011年9月5日
发明者胡文翠, 张耀杰 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1