信息搜索与发布方法与系统的制作方法

文档序号:6516996阅读:406来源:国知局
信息搜索与发布方法与系统的制作方法
【专利摘要】本发明提供了一种信息搜索与发布方法。涉及互联网领域;解决了通用性搜索引擎功能局限性的问题。该方法包括:获取目标网页;对所述目标网页进行聚类分析,生成并存储针对用户的信息;向所述用户发布所述针对用户的信息。本发明提供的技术方案适用于互联网检索,实现了针对用户习惯的要求定向精确的进行信息发布。
【专利说明】信息搜索与发布方法与系统
【技术领域】
[0001]本发明涉及互联网领域,尤其涉及一种信息搜索与发布方法与系统。
【背景技术】
[0002]目前,随着网络的快速发展,万维网逐渐成为用户在工作、生活和学习中不可缺少的一部分,如何准确、高效地从万维网上获取信息成为一个巨大挑战。通用性搜索引擎作为一个辅助人们检索信息的工具存在着一定的局限性,如:
[0003](I)不同领域、不同背景的用户具有不同的搜索需求,通用搜索引擎所返回的结果包含大量用户不关心的网页;
[0004](2)通用搜索只能在用户输入搜索条件时进行被动搜索,不能主动为用户提供订制信息。

【发明内容】

[0005]本发明提供了一种信息搜索与发布方法与系统,解决了通用性搜索引擎功能局限性的问题。
[0006]—种信息搜索与发布方法与系统,包括:
[0007]获取目标网页;
[0008]对所述目标网页进行聚类分析,生成并存储针对用户的信息;
[0009]向所述用户发布所述针对用户的信息。
[0010]优选的,所述获取目标网页包括:
[0011]搜索目标网页;
[0012]缓存所述目标网页。
[0013]优选的,所述搜索目标网页包括:
[0014]设置领域范围和领域字典;
[0015]以所述领域字典为关键字进行搜索,获取目标网页;
[0016]将与所述领域字典中的关键字相匹配的网页中词语设置为网页内容特征;
[0017]根据时间对所述网页内容特征进行排序,并根据所述领域范围对获取的目标网页进行分类。
[0018]优选的,所述以所述领域字典为关键字进行搜索,获取目标网页包括:
[0019]以领域字典为关键字进行检索,得到候选URL ;
[0020]从所述候选URL中选取与所述领域范围相关性较高的URL进行抓取,作为目标网页。
[0021]优选的,所述缓存所述目标网页包括:
[0022]读取所述目标网页;
[0023]根据所述目标网页与搜索时间,运用散列算法分别计算各目标网页的散列值;
[0024]以所述散列值作为索引,将所述目标网页存储到散列值目录。[0025]优选的,所述对所述目标网页进行聚类分析,生成并存储针对用户的信息包括:
[0026]读取多个目标网页的信息;
[0027]根据预置的分类条件,对读取到的多个目标网页的信息进行分类;
[0028]对分类后的各类别进行聚类分析;
[0029]将聚类分析后的目标网页按照分类进行存储,作为针对用户的信息。
[0030]优选的,所述向所述用户发布所述针对用户的信息包括:
[0031]根据预置的发布条件,读取所述针对用户的信息;
[0032]向用户推送相应的所述针对用户的信息。
[0033]本发明还提供了一种信息搜索与发布系统,包括:
[0034]信息收集模块,用于获取目标网页;
[0035]信息分析模块,用于对所述目标网页进行聚类分析,生成并存储针对用户的信息;
[0036]信息发布模块,用于向所述用户发布所述针对用户的信息。
[0037]优选的,所述信息收集模块包括:
[0038]信息搜索子模块,用于搜索目标网页,具体用于设置领域范围和领域字典,以所述领域字典为关键字进行搜索,获取目标网页,将与所述领域字典中的关键字相匹配的网页中词语设置为网页内容特征,根据时间对所述网页内容特征进行排序,并根据所述领域范围对获取的目标网页进行分类;
[0039]信息缓存子模块,用于缓存所述目标网页,具体用于读取所述目标网页,根据所述目标网页与搜索时间,运用散列算法分别计算各目标网页的散列值,以所述散列值作为索弓I,将所述目标网页存储到散列值目录。
[0040]本发明提供了一种信息搜索与发布方法与系统,获取目标网页,对所述目标网页进行聚类分析,生成并存储针对用户的信息,向所述用户发布所述针对用户的信息。实现了针对用户习惯的要求定向精确的进行信息发布,解决了通用性搜索引擎功能局限性的问题。
【专利附图】

【附图说明】
[0041]图1是本发明的实施例中在TCP/IP网络中信息搜索与发布系统的组网示意图;
[0042]图2是本发明的实施例一中的信息搜索的流程图;
[0043]图3是本发明的实施例一中信息缓存的流程图;
[0044]图4是本发明的实施例一中信息分析的流程图;
[0045]图5是本发明的实施例一中信息发布的流程图;
[0046]图6是本发明的实施例二中信息搜索与发布系统架构的示意图;
[0047]图7是图6中信息收集模块601的结构示意图;
[0048]图8是本发明的实施例三中信息搜索与发布系统的主流程图。
【具体实施方式】
[0049]通用性搜索引擎作为一个辅助人们检索信息的工具存在着一定的局限性。为了解决上述问题,本发明的实施例提出了一种信息搜索与发布方法与系统,能够准确、主动、高效地向用户提供信息的信息搜索与发布。
[0050]本发明的实施例所提出的信息搜索与发布方法与系统,其基本原理是:运用聚焦爬虫技术搜索信息、运用散列技术缓存信息、运用信息挖掘技术分析信息、运用主动推送技术发布信息。首先设置规则与参数;然后搜索并缓存信息,根据用户的设定分析信息,最后以主动推送方式将信息发送给用户。
[0051]下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0052]首先结合附图,对本发明的实施例一进行说明。
[0053]本发明实施例提供了一种信息搜索与发布方法,设置搜索、分析与发布规则及缓存配置,进行信息搜索,将搜索到的信息进行存储,对信息进行分类与聚类,根据用户设定将信息主动推送给用户。
[0054]其中,信息搜索与发布系统的工作流程为:
[0055]初始化阶段,在管理模块的界面中设置搜索、分析与发布规则及缓存配置,并将规则与缓存配置信息储存到信息库中;
[0056]信息搜索阶段,在信息搜索模块中进行信息搜索;
[0057]信息缓存阶段,搜索到的信息在缓存模块中进行存储;
[0058]信息分析阶段,在分析模块中对信息进行分类与聚类;
[0059]信息发布阶段,在信息发布模块中根据用户设定将信息主动推送给用户。
[0060]在TCP/IP中信息搜索与发布系统的组网结构如图1所示。其中,
[0061]局域网,包括网络设备、网络安全设备、主机与终端,其中网络设备包括路由器与交换机;网络安全设备包括防火墙、VPN、网络防病毒系统及入侵检测系统等;主机包括Web服务器、邮件服务器及文件服务器等;终端包括用户计算机及自助终端。
[0062]Internet,包括路由器,可以传送和路由网络流量;
[0063]信息搜索与发布系统,用于搜索与缓存网页,分析用户关注信息,并根据用户设定的发布条件发送给用户。
[0064]参照图2所示的流程图对信息搜索流程作进一步的详细说明。包括以下步骤:
[0065]步骤201:设置领域范围和领域字典;
[0066]本发明实施例所涉及的领域范围是指用户的关注点,比如新闻、金融等;领域字典是指与用户的关注点相关的关键字。
[0067]本步骤中,用户可在搜索界面对领域范围选项进行选择,搜索服务提供方在搜索引擎管理界面设置与领域范围相关的URL。
[0068]步骤202:以所述领域字典为关键字进行搜索,获取目标网页;
[0069]本步骤中,以领域字典为关键字进行检索,得到候选URL,以领域范围为主题进行网页分析,预测与主题相关的候选URL,从所述候选URL中选取与所述领域范围相关性较高的URL进行抓取,作为目标网页。
[0070]步骤203:将与所述领域字典中的关键字相匹配的网页中词语设置为网页内容特征;
[0071]步骤204、根据时间对所述网页内容特征进行排序,并根据所述领域范围对获取的目标网页进行分类。[0072]运用信息提取技术获取并设定网页内容特征,网页内容特征是指与领域字典中的关键字相匹配的网页中词语,信息提取技术就是将与领域字典中的关键字相匹配的网页中词语设定为网页内容特征。
[0073]设定用户浏览网页行为特征。用户浏览网页行为特征就是根据时间进行排序与根据领域范围进行分类后的网页内容特征。
[0074]参照图3所示的流程图对信息缓存流程作进一步的详细说明。包括以下步骤:
[0075]步骤301:读取目标网页。
[0076]步骤302:根据所述目标网页与搜索时间,运用散列算法分别计算各目标网页的散列值;
[0077]本步骤中,运用散列算法对各目标网页的URL与搜索时间求MD5值作为该目标网页的散列值。
[0078]步骤303:以所述散列值作为索引,将所述目标网页存储到散列值目录。
[0079]参照图4所示的流程图对信息分析流程作进一步的详细说明。包括以下步骤:
[0080]步骤401:读取多个目标网页的信息;
[0081]本步骤中,一次性读取多条,即一次性读取一个用户多次搜索的网页。
[0082]步骤402:根据预置的分类条件,对读取到的多个目标网页的信息进行分类;
[0083]本步骤中,根据用户设定的特定条件,例如时间、领域与关注点/关注范围等,对读取的目标网页进行分类。
[0084]步骤403:运用信息挖掘算法对分类后的信息进行聚类分析;
[0085]本步骤中,具体的,根据网页内容特征与时间对网页进行分类,将具有相同时间段和相同网页内容特征的网页分为一类;生成的结果是领域范围为顶级类别、网页内容特征为多层子类别,时间为叶类别的网页。
[0086]步骤404:将聚类分析后的目标网页按照分类进行存储,作为针对用户的信息。参照图5所示的流程图对信息发布流程作进一步的详细说明。包括以下步骤:
[0087]步骤501:根据预置的发布条件,读取所述针对用户的信息;
[0088]本步骤中,在达到预置的发布条件时,读取与该发布条件相应的用户的信息准备进行发布。
[0089]发布条件可以是时间设置与关注点,比如早上8点发布天气预报,上午十点发布新闻。
[0090]步骤502:向用户推送相应的所述针对用户的信息;
[0091]本步骤中可以运用主动推送技术将信息发送给用户。
[0092]下面结合附图,对本发明的实施例二进行说明。
[0093]参照图6所示的示意图对信息搜索与发布系统架构作进一步的详细说明。
[0094]该系统包括:
[0095]信息收集模块601,用于获取目标网页;
[0096]信息分析模块602,用于对所述目标网页进行聚类分析,生成并存储针对用户的信息;
[0097]信息发布模块603,用于向所述用户发布所述针对用户的信息。
[0098]优选的,所述信息收集模块601的结构如图7所示,包括:[0099]信息搜索子模块6011,用于搜索目标网页,具体用于设置领域范围和领域字典,以所述领域字典为关键字进行搜索,获取目标网页,将与所述领域字典中的关键字相匹配的网页中词语设置为网页内容特征,根据时间对所述网页内容特征进行排序,并根据所述领域范围对获取的目标网页进行分类;
[0100]信息缓存子模块6012,用于缓存所述目标网页,具体用于读取所述目标网页,根据所述目标网页与搜索时间,运用散列算法分别计算各目标网页的散列值,以所述散列值作为索引,将所述目标网页存储到散列值目录。
[0101]优选的,该系统还包括信息库604,用于存储搜索、分析与发布规则,其中包括信息搜索规则表、信息分析规则表与信息发布规则表,每个规则表由表名称、规则名、规则描述、规则信息与规则创建时间字段组成。
[0102]下面结合附图,对本发明的实施例三进行说明。
[0103]参照图8所示的流程图对信息搜索与发布系统主流程作进一步的详细说明。包括以下步骤:
[0104]步骤801:进行初始化,设置搜索、分析与发布规则及缓存配置,并将规则与缓存配置信息储存到信息库中;
[0105]步骤802:运用聚焦爬虫技术搜索网页信息;
[0106]步骤803:运用散列技术对搜索到的信息进行存储;
[0107]步骤804:对信息进行分类及运用数据挖掘技术对信息进行聚类;
[0108]步骤805:根据用户设定将信息主动推送给用户。
[0109]本发明的实施例提供了一种信息搜索与发布方法与系统,获取目标网页,对所述目标网页进行聚类分析,生成并存储针对用户的信息,向所述用户发布所述针对用户的信息。实现了针对用户习惯的要求定向精确的进行信息发布,解决了通用性搜索引擎功能局限性的问题。本发明的实施例所提供的技术方案克服通用搜索引擎不准确与被动搜索的缺点,提供一种在TCP/IP网络中对信息进行搜索、缓存、分析与发布方法及其系统,使用户能够方便、快捷、高效地根据自己的关注点或关注范围订制信息,使信息通过网站发布与用户登录查看的被动传播方式,转变为主动为用户推送订制信息的传播方式。
[0110]本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。
[0111]可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0112]上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。
[0113]上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。
[0114]任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。
【权利要求】
1.一种信息搜索与发布方法,其特征在于,包括: 获取目标网页; 对所述目标网页进行聚类分析,生成并存储针对用户的信息; 向所述用户发布所述针对用户的信息。
2.根据权利要求1所述的信息搜索与发布方法,其特征在于,所述获取目标网页包括: 搜索目标网页; 缓存所述目标网页。
3.根据权利要求2所述的信息搜索与发布方法,其特征在于,所述搜索目标网页包括: 设置领域范围和领域字典; 以所述领域字典为关键字进行搜索,获取目标网页; 将与所述领域字典中的关键字相匹配的网页中词语设置为网页内容特征; 根据时间对所述网页内容特征进行排序,并根据所述领域范围对获取的目标网页进行分类。
4.根据权利要求3所述的信息搜索与发布方法,其特征在于,所述以所述领域字典为关键字进行搜索,获取目标网页包括: 以领域字典为关键字进行检索,得到候选URL ; 从所述候选URL中选取与所述·领域范围相关性较高的URL进行抓取,作为目标网页。
5.根据权利要求4所述的信息搜索与发布方法,其特征在于,所述缓存所述目标网页包括: 读取所述目标网页; 根据所述目标网页与搜索时间,运用散列算法分别计算各目标网页的散列值; 以所述散列值作为索引,将所述目标网页存储到散列值目录。
6.根据权利要求3所述的信息搜索与发布方法,其特征在于,所述对所述目标网页进行聚类分析,生成并存储针对用户的信息包括: 读取多个目标网页的信息; 根据预置的分类条件,对读取到的多个目标网页的信息进行分类; 对分类后的各类别进行聚类分析; 将聚类分析后的目标网页按照分类进行存储,作为针对用户的信息。
7.根据权利要求6所述的信息搜索与发布方法,其特征在于,所述向所述用户发布所述针对用户的信息包括: 根据预置的发布条件,读取所述针对用户的信息; 向用户推送相应的所述针对用户的信息。
8.一种信息搜索与发布系统,其特征在于,包括: 信息收集模块,用于获取目标网页; 信息分析模块,用于对所述目标网页进行聚类分析,生成并存储针对用户的信息; 信息发布模块,用于向所述用户发布所述针对用户的信息。
9.根据权利要求8所述的信息搜索与发布系统,其特征在于,所述信息收集模块包括: 信息搜索子模块,用于搜索目标网页,具体用于设置领域范围和领域字典,以所述领域字典为关键字进行搜索,获取目标网页,将与所述领域字典中的关键字相匹配的网页中词语设置为网页内容特征,根据时间对所述网页内容特征进行排序,并根据所述领域范围对获取的目标网页进行分类; 信息缓存子模块,用于缓存所述目标网页,具体用于读取所述目标网页,根据所述目标网页与搜索时间,运用散列算法分别计算各目标网页的散列值,以所述散列值作为索引,将所述目标网页存储到散列值 目录。
【文档编号】G06F17/30GK103530418SQ201310522447
【公开日】2014年1月22日 申请日期:2013年10月29日 优先权日:2013年10月29日
【发明者】陈俊 申请人:北京永信至诚科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1