网页链接的存储方法及服务器的制造方法

文档序号:6500446阅读:181来源:国知局
网页链接的存储方法及服务器的制造方法
【专利摘要】本发明提供一种网页链接的存储方法及服务器,所述方法包括:根据索引标识获取待分析网页;对所述待分析网页进行分块处理,形成至少一个的网页链接块;判断所述网页链接块是否符合预设的关联标准,其中所述关联标准用于判断所述网页链接块是否与所述待分析网页对应的索引标识存在相关性;若所述网页链接块符合预设的关联标准,则获取所述网页链接块的网页链接,并将获取的网页链接保存至对应索引标识的存储空间。本发明能够快速的相同类别的网页连接块并为之建立索引后存储,提高了相关网页链接的存储及索引效率。
【专利说明】网页链接的存储方法及服务器
【技术领域】
[0001]本发明属于互联网络【技术领域】,尤其涉及一种网页链接的存储方法及服务器。
【背景技术】
[0002]随着互联网络的不断普及,用户对互联网络功能的要求越来越高。
[0003]现有技术中,为了提高索引效率,后台服务器一般是将网页建立索引后存储,以便在用户访问时将相关的网页直接发送至前端,并由前端显示给用户。而所述后台服务器为网页建立索引时,一般是在用户访问某一网页链接后,将访问后的网页链接进行收集并建立索引,譬如将用户浏览的所有新闻网页进行实时索引,以快速的将网页链接进行存储。
[0004]现有的互联网网页彼此链接,往往一个网页中存在多个其它的网页链接,用户可以在一个网页中通过网页链接打开另一个对应的网页。譬如新闻网页一般在正文右侧或底部有相应的相关新闻或新闻推荐块(即网页链接),小说介绍页面一般在两侧会提供相似或热门小说的网页链接。
[0005]但是由于用户访问习惯等原因,上述网页链接经常会被忽略,不能将对应的网页显示,一旦没有用户访问,现有技术的服务器则无法及时为所述网页链接对应的网页建立索引并存储。
[0006]综上,现有技术存在以下技术问题:对于网页中没有被点击访问的网页链接,服务器无法及时有效的进行识别和索引,导致索引效率低下,大量的网页链接不能被及时的识别索引,造成服务器运转效率低下。

【发明内容】

[0007]本发明实施例的目的在于提供一种网页链接的存储方法和服务器,旨在解决现有技术中对于网页中没有被点击访问的网页链接,服务器无法及时有效的进行识别和索引,导致索引效率低下,大量的网页链接不能被及时的识别索引,造成服务器运转效率低下的技术问题。
[0008]为解决上述技术问题,本发明实施例提供以下技术方案:
[0009]一种网页链接的存储方法,所述方法包括以下步骤:
[0010]根据索引标识获取待分析网页;
[0011]对所述待分析网页进行分块处理,形成至少一个的网页链接块;
[0012]判断所述网页链接块是否符合预设的关联标准,其中所述关联标准用于判断所述网页链接块是否与所述待分析网页对应的索引标识存在相关性;
[0013]若所述网页链接块符合预设的关联标准,则获取所述网页链接块的网页链接,并将获取的网页链接保存至对应索弓I标识的存储空间。
[0014]为解决上述技术问题,本发明实施例还提供以下技术方案:
[0015]一种服务器,所述服务器包括:
[0016]网页获取模块,用于根据索引标识获取待分析网页;[0017]分块模块,用于对所述待分析网页进行分块处理,形成至少一个的网页链接块;
[0018]判断模块,用于判断所述网页链接块是否符合预设的关联标准,其中所述关联标准用于判断所述网页链接块是否与所述待分析网页对应的索引标识存在相关性;
[0019]网页链接获取模块,用于在所述判断模块判定所述网页链接块符合预设的关联标准时,获取所述网页链接块的网页链接;以及
[0020]链接存储模块,用于将所述网页链接获取模块获取的网页链接保存至对应索引标识的存储空间。
[0021]本发明实施例充分的利用针对网页相互链接的特点,对待分析网页进行分块,并对分块后的各网页链接块进行识别,一旦识别到与待分析网页相似的网页链接块,则将该网页链接块作为与所述待分析网页同一类别的网页建立索引并存储,因此本发明实施例能够快速的存储积累相同类别的网页链接并为之建立索引,提高了相关网页链接的索引效率,而且由于相关网页链接对应的网页建立索引后能够得到更大几率的显示,因此避免了资源浪费,提高了服务器的运转效率。
【专利附图】

【附图说明】
[0022]图1是本发明第一实施例网页链接的存储方法的流程示意图;
[0023]图2是本发明第二实施例网页链接的存储方法的流程示意图;
[0024]图3是本发明第三实施例网页链接的存储方法的流程示意图;
[0025]图4是本发明第四实施例网页链接的存储方法的流程示意图;
[0026]图5是本发明实施例提供的待分析网页分块示意图;
[0027]图6是本发明第一实施例服务器的实施例结构示意图;
[0028]图7是本发明第二实施例服务器的实施例结构示意图;
[0029]图8是本发明第三实施例服务器的实施例结构示意图;
[0030]图9是本发明第四实施例服务器的实施例结构示意图。
【具体实施方式】
[0031]以下各实施例的说明是参考附加的图式,用以例示本发明可用以实施的特定实施例。
[0032]请参阅图1,图1为本发明第一实施例网页链接的存储方法的流程示意图。
[0033]在步骤SlOl中,根据索引标识获取待分析网页。
[0034]本发明实施例所指的索引标识譬如为科技类、小说类、娱乐类等标识,其中某一待分析网页可属于科技类网页,也可以属于小说类网页等。其中每一待分析网页均对应有一个或者多个的索引标识,具有相同索引标识的网页存储于同一存储空间,以便快速的索引到相关网页进行推荐显示。
[0035]在步骤S102中,对所述待分析网页进行分块处理,形成至少一个的网页链接块。
[0036]本发明实施例优选使用网页分块算法对所述待分析网页进行分块,在所述待分析网页上形成多个网页链接块,鉴于所述网页分块算法为公知技术,此处不再详细描述。
[0037]在步骤S103中,判断所述网页链接块是否符合预设的关联标准,若是,则进行步骤S104,否则继续进行步骤SlOl。[0038]其中所述关联标准用于判断所述网页链接块是否与所述待分析网页对应的索引标识存在相关性,譬如所述待分析网页的索引标识为科技类,则判断所述网页链接块是否为与科技类相关的内容,若是,则判定所述网页链接块符合预设的关联标准。关于所述关联标准更具体的描述,请参阅第二、第三以及第四实施例网页链接的存储方法的描述,此处暂不详述。
[0039]在步骤S104中,获取符合关联标准的网页链接块的网页链接。
[0040]本发明实施例优选使用超文本标记语言(Hypertext Markup Language, HTML)源代码,对符合关联标准的网页链接块进行网页链接的,以获取网页链接块的网页链接,譬如获取网页链接块的网页地址(Uniform Resource Locator, URL)。
[0041]在步骤S105中,判断所述网页链接是否已存在于对应的存储空间,若是,则进行步骤S101,否则继续进行步骤S106。
[0042]在步骤S106中,将获取的网页链接保存至对应索引标识的存储空间。譬如将科技类的网页链接保存至用来存储科技类网页的存储空间。
[0043]本发明实施例通过对待分析网页进行分块,于待分析网页形成至少一个的网页链接块,之后判断各网页链接块是否与所述待分析网页属于同一类别,若是,则将待分析网页存储至该类别所属的存储空间。显然,本发明能够充分的利用针对网页相互链接的特点,对网页进行分块,并对分块后的各网页链接块进行识别,一旦识别到与待分析网页相似的网页链接块,则将该网页链接块作为与所述待分析网页同一类别的网页进行存储,达到快速积累同类数据资源的需求,提高了相关网页链接块的显示效率,进而提高了服务器的运转效率。
[0044]请参阅图2,图2是本发明第二实施例提供的网页链接的存储方法的流程示意图。
[0045]在步骤S201中,根据索引标识获取待分析网页。
[0046]在步骤S202中,对所述待分析网页进行分块处理,形成至少一个的网页链接块。
[0047]其中本发明实施例中的步骤S201和步骤S202均对应第一实施例中的步骤SlOl和步骤S102,此处不再详述。
[0048]在步骤S203中,获取所述待分析网页的第一网页标识。
[0049]其中所述第一网页标识优选为网页网址,譬如所述第一网页标识为:http://www.alibuybuy.com/posts/78920, html。
[0050]在步骤S204中,获取所述网页链接块的第二网页标识。
[0051]其中所述网页链接块的第二网页标识对应所述第一网页标识,譬如若所述第一网页标识为网页地址,则所述第二网页标识也为网页地址,譬如所述第二网页标识为MMiZZwww.alibuybuy.com/posts/78958, html。
[0052]在步骤S205中,将所述第二网页标识与所述第一网页标识进行对比,若所述第二网页标识和所述第一网页标识在预设的相似度范围内,则判定所述网页链接块符合预设的关联标准,并进行步骤S206,否则进行步骤S201。
[0053]在具体实施过程中,所述相似度范围譬如为80.0%至99.9%在对第一网页标识和第二网页标识进行对比时,可优先从网页标识的主链接标识符进行对比,之后对网页标识的子链接标识符进行对比,譬如若所述第一网页标识为:http://www.alibuybuy.com/posts/78920, html ;而所述第二网页标识为:http: //www.alibuybuy.com/post s/78958.hlal,则首先对比第一网页标识和第二网页标识的主链接标识符,由于两者的主链接标识符均为http://www.alibuybuy.com/posts/,则可判定第一网页标识和第二网页标识基本一致,之后继续判断第一网页标识和第二网页标识的的子链接符,其中第一网页标识的子链接符为78920.html,而第二网页标识的子链接符为78958.html,两者的子链接符仅仅相差两个数字,基于上述分析,则可判定所述第一网页标识和第二网页标识的相似度接近98%,在相似度范围内,因此判定所述第一网页标识和第二网页标识两者对应的网页相关,即所述第二网页标识对应的网页链接块与所述第一网页标识对应的待分析网页具有相关性。
[0054]在步骤S206中,将所述第二网页标识存储至与所述待分析网页相同的存储空间。
[0055]即所述待分析网页存储与标注有科技类索引标识的存储空间,则将所述第二网页标识同样存储至科技类索引标识的存储空间。
[0056]请参阅图3,图3是本发明第三实施例提供的网页链接的存储方法的流程示意图。
[0057]在步骤S301中,根据索引标识获取待分析网页。
[0058]在步骤S302中,对所述待分析网页进行分块处理,形成至少一个的网页链接块。
[0059]其中本发明实施例中的步骤S201和步骤S202均对应第一实施例中的步骤SlOl和步骤S102,此处不再详述。
[0060]在步骤S303中,获取网页链接块的内容。
[0061]具体的,获取网页链接块中的文字,并对获取的文字部分进行总结,得出该网页链接块的大致内容,譬如该网页链接块主要介绍航天科技内容。
[0062]在步骤S304中,判断网页链接块的内容是否与所述待分析网页的索引标识一致,若是,则判定所述网页链接块符合预设的关联标准,并进行步骤S305,否则进行步骤S301。
[0063]譬如所述网页链接块的内容为关于航天科技的介绍,而所述待分析网页的索引标识为科技类,则可判定两者内容一致。
[0064]在步骤S305中,获取符合关联标准的网页链接块的网页链接。
[0065]在步骤S306中,将获取的网页链接保存至对应索引标识的存储空间。
[0066]请参阅图4,图4为本发明第四实施例网页链接的存储方法的流程示意图。
[0067]在步骤S401中,根据索引标识获取待分析网页。
[0068]在步骤S402中,对所述待分析网页进行分块处理,形成至少一个的网页链接块。
[0069]其中本发明实施例中的步骤S401和步骤S402均对应第一实施例中的步骤SlOl和步骤S102,此处不再详述。
[0070]在步骤S403中,获取所述网页链接块的属性特征。
[0071]优选的,所述网页链接块的属性特征包括所述网页链接块的形状信息、所述网页链接块在所述待分析网页的位置信息、所述网页链接块与所述待分析网页的面积比以及网页链接块的链接密度;其中所述网页链接块的链接密度为所述网页链接块中存在链接的字符与所有字符的比值。
[0072]在步骤S404中,判断所述网页链接块的属性特征是否符合预设的关联特征,若是,则判定所述网页链接块符合预设的关联标准,并进行步骤S405,否则继续进行步骤S401。
[0073]譬如,若所述网页链接块的形状为矩形,则可判定所述网页链接块符合关联标准;若所述网页链接块位于待分析网页的右侧中间位置,这种块一般会包含与当前小说相似或热门的其它小说介绍页URL,则可判定所述网页链接块符合关联标准;若所述网页链接块与所述待分析网页的面积比大于10%,则可判定所述网页链接块符合关联标准;若所述网页链接块的链接密度大于40%,则可判定所述网页链接块符合关联标准,等等。
[0074]在步骤S405中,获取符合关联标准的网页链接块的网页链接。
[0075]在步骤S406中,将获取的网页链接保存至对应索引标识的存储空间。
[0076]上述第一至第四实施例详细的描述了网页链接的存储方法的流程,下面结合具体的实例来说明本发明实施例工作过程:
[0077]首先在存储空间中选择一科技类的待分析网页,譬如所述待分析网页地址为:http://www.alibuybuy.com/posts/79084, html,之后对获取的待分析网页进行分块,形成如附图5所示的多个网页链接块。之后对所述网页链接块进行识别,识别出符合条件的网页链接块,譬如在图5中,由于网页链接块M1、M2和M3的内容均为电子科技类,与待分析网页的内容“移动科技产品” 一致,因此识别出符合条件的网页链接块为M1、M2和M3,之后提取Ml、M2和M3的网页链接,并加入资源库,譬如Ml、M2和M3的网页链接分别为:
[0078]http://www.alibuybuy.com/posts/78957, html ;
[0079]http://www.alibuybuy.com/posts/78920, html ;
[0080]http://www.alibuybuy.com/posts/78941, html。
[0081 ] 所述服务器在提取上述网页链接后,将提取的网页链接建立索引“科技”,并存储至科技类的存储空间中,在后续用户访问科技类网站时,可直接从该存储空间中提取网页链接进行推荐。
[0082]请参阅图6,图6为本发明第一实施例服务器的结构示意图。所述服务器包括网页获取模块61、分块模块62、判断模块63、网页链接获取模块64以及链接存储模块65。
[0083]其中所述网页获取模块61用于根据索引标识获取待分析网页;所述分块模块62用于对所述待分析网页进行分块处理,形成至少一个的网页链接块。所述判断模块63用于判断所述网页链接块是否符合预设的关联标准,其中所述关联标准用于判断所述网页链接块是否与所述待分析网页对应的索引标识存在相关性。
[0084]在所述判断模块63判定所述网页链接块符合预设的关联标准时,所述网页链接获取模块64用于获取所述网页链接块的网页链接;所述判断模块63进一步的用于判断所述网页链接是否已存在于所述存储空间,若是,所述链接存储模块65停止将所述网页链接保存至所述存储空间,否则所述链接存储模块65将获取的网页链接保存至对应索引标识的存储空间。
[0085]请参阅图7,图7是本发明第二实施例服务器的结构示意图。所述服务器具体包括网页获取模块71、分块模块72、判断模块73、网页链接获取模块74以及链接存储模块75。
[0086]与第一实施例的服务器不同之处在于,该第二实施例的判断模块73包括标识获取模块731和标识比较模块732:所述标识获取模块731用于获取所述待分析网页的第一网页标识,以及用于获取所述网页链接块的第二网页标识;所述标识比较模块732用于将所述第二网页标识与所述第一网页标识进行对比,判断所述第二网页标识和所述第一网页标识是否在预设的相似度范围内,若是,则判定所述网页链接块符合预设的关联标准。而所述链接存储模块75将所述第二网页标识保存至对应索引标识的存储空间。[0087]请参阅图8,图8是本发明第三实施例服务器的结构示意图。所述服务器具体包括网页获取模块81、分块模块82、判断模块83、网页链接获取模块84以及链接存储模块85。
[0088]与第一实施例的服务器不同之处在于,该第二实施例的判断模块83包括内容获取模块831和内容比较模块832:所述内容获取模块831用于获取所述网页链接块的内容;而所述内容比较模块832则用于判断所述网页链接块的内容是否与所述待分析网页的索引标识一致,若是,则判定所述网页链接块符合预设的关联标准。
[0089]请参阅图9,图9是本发明第四实施例服务器的结构示意图。所述服务器具体包括网页获取模块91、分块模块92、判断模块93、网页链接获取模块94以及链接存储模块95。
[0090]与第一实施例的服务器不同之处在于,该第二实施例的判断模块93包括属性特征获取模块931和属性特征比较模块932:所述属性特征获取模块931用于获取所述网页链接块的属性特征;所述属性特征比较模块932则用于判断所述网页链接块的属性特征是否符合预设的关联特征,若是,则判定所述网页链接块符合预设的关联标准。
[0091]其中所述网页链接块的属性特征优选包括所述网页链接块的形状信息、所述网页链接块在所述待分析网页的位置信息、所述网页链接块与所述待分析网页的面积比以及网页链接块的链接密度;其中所述网页链接块的链接密度为所述网页链接块中存在链接的字符与所有字符的比值。
[0092]关于所述服务器中各模块的工作原理请参阅上文针对网页链接的存储方法的实施例的描述,此处不再详述。
[0093]本发明实施例通过对待分析网页进行分块,形成至少一个的网页链接块,之后判断各网页链接块是否与所述待分析网页具有相关性,若具有相关性,则将待分析网页存储至该所述待分析网页所属的存储空间。显然,本发明能够充分的利用针对网页相互链接的特点,对待分析网页进行分块,并对分块后的各网页链接块进行识别,一旦识别到与待分析网页相似的网页链接块,则将该网页链接块作为与所述待分析网页同一类别的网页进行存储,能够快速的存储积累相同类别的网页链接并为之建立索引,提高了相关网页链接的索引效率,进而提高了服务器的运转效率。
[0094]综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。
【权利要求】
1.一种网页链接的存储方法,其特征在于,所述方法包括: 根据索引标识获取待分析网页; 对所述待分析网页进行分块处理,形成至少一个的网页链接块; 判断所述网页链接块是否符合预设的关联标准,其中所述关联标准用于判断所述网页链接块是否与所述待分析网页对应的索引标识存在相关性; 若所述网页链接块符合预设的关联标准,则获取所述网页链接块的网页链接,并将获取的网页链接保存至对应索引标识的存储空间。
2.根据权利要求1所述的网页链接的存储方法,其特征在于,所述判断所述网页链接块是否符合预设的关联标准的步骤包括: 获取所述待分析网页的第一网页标识; 获取所述网页链接块的第二网页标识; 将所述第二网页标识与所述第一网页标识进行对比,判断所述第二网页标识和所述第一网页标识是否在预设的相似度范围内,若是,则判定所述网页链接块符合预设的关联标准。
3.根据权利要求1 所述的网页链接的存储方法,其特征在于,所述判断所述网页链接块是否符合预设的关联标准的步骤具体包括: 获取所述网页链接块的内容; 判断所述网页链接块的内容是否与所述待分析网页的索引标识一致,若是,则判定所述网页链接块符合预设的关联标准。
4.根据权利要求1所述的网页链接的存储方法,其特征在于,所述判断所述网页链接块是否符合预设的关联标准的步骤具体包括: 获取所述网页链接块的属性特征; 判断所述网页链接块的属性特征是否符合预设的关联特征,若是,则判定所述网页链接块符合预设的关联标准。
5.根据权利要求4所述的网页链接的存储方法,其特征在于,所述网页链接块的属性特征包括所述网页链接块的形状信息、所述网页链接块在所述待分析网页的位置信息、所述网页链接块与所述待分析网页的面积比以及网页链接块的链接密度; 其中所述网页链接块的链接密度为所述网页链接块中存在链接的字符与所有字符的比值。
6.根据权利要求1所述的网页链接的存储方法,其特征在于,将获取的网页链接保存至对应索引标识的存储空间的步骤之前,所述方法还包括: 判断所述网页链接是否已存在于所述存储空间,若已存在,则停止将所述网页链接保存至所述存储空间,否则将获取的网页链接保存至对应索引标识的存储空间。
7.一种服务器,其特征在于,所述服务器包括: 网页获取模块,用于根据索引标识获取待分析网页; 分块模块,用于对所述待分析网页进行分块处理,形成至少一个的网页链接块; 判断模块,用于判断所述网页链接块是否符合预设的关联标准,其中所述关联标准用于判断所述网页链接块是否与所述待分析网页对应的索引标识存在相关性; 网页链接获取模块,用于在所述判断模块判定所述网页链接块符合预设的关联标准时,获取所述网页链接块的网页链接;以及 链接存储模块,用于将所述网页链接获取模块获取的网页链接保存至对应索引标识的存储空间。
8.根据权利要求7所述的服务器,其特征在于,所述判断模块包括: 标识获取模块,用于获取所述待分析网页的第一网页标识,以及用于获取所述网页链接块的第二网页标识;以及 标识比较模块,用于将所述第二网页标识与所述第一网页标识进行对比,判断所述第二网页标识和所述第一网页标识是否在预设的相似度范围内,若是,则判定所述网页链接块符合预设的关联标准。
9.根据权利要求7所述的服务器,其特征在于,所述判断模块包括: 内容获取模块,用于获取所述网页链接块的内容;以及 内容比较模块,用于判断所述网页链接块的内容是否与所述待分析网页的索引标识一致,若是,则判定所述网页链接块符合预设的关联标准。
10.根据权利要求7所述的服务器,其特征在于,所述判断模块包括: 属性特征获取模块,用于获取所述网页链接块的属性特征;以及 属性特征比较模块,用于判断所述网页链接块的属性特征是否符合预设的关联特征,若是,则判定所述网页链接块符合预设的关联标准。
11.根据权利要求10所述的服务器,其特征在于,所述网页链接块的属性特征包括所述网页链接块的形状信息、所述网页链接块在所述待分析网页的位置信息、所述网页链接块与所述待分析网页的面积比以及网页链接块的链接密度; 其中所述网页链接块的链接密度为所述网页链接块中存在链接的字符与所有字符的比值。
12.根据权利要求7所述的服务器,其特征在于,所述判断模块,进一步的用于判断所述网页链接是否已存在与所述存储空间; 若所述网页链接已存在与所述存储空间,则所述链接存储模块停止将所述网页链接保存至所述存储空间,否则所述链接存储模块将获取的网页链接保存至对应索引标识的存储空间。
【文档编号】G06F17/30GK104035940SQ201310073553
【公开日】2014年9月10日 申请日期:2013年3月7日 优先权日:2013年3月7日
【发明者】蔡兵 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1