Url检索方法及服务器的制造方法_3

文档序号:9667313阅读:来源:国知局
设个数为10。
[0064]本实施例中第一获取模块41除了能够获取到待检索URL的特征字符串之外,还能够对所述待检索URL原始字符串进行消息摘要算法计算,获取对应的所述MD5值。
[0065]进一步地,与第一获取模块41连接的查询模块42用于根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL。
[0066]具体地,在第一获取模块41获取到待检索URL的特征字符串之后,查询模块42查询预先建立的与特征字符串对应的索引表,获取到与该特征字符串对应的目标URL。其中,该与特征字符串对应的索引表中存储有URL原始字符串与特征字符串之间索引关系。
[0067]本实施例通过待检索URL的特征字符串进行URL检索是一种模糊匹配检索方法,通过对待检索URL预处理,得到相应的特征字符串,只需基于特征字符串进行检索,就能得到对应的目标URL,不再对待检索URL进行全文检索,减少了对待检索URL的检索次数,从而提高了检索效率。
[0068]进一步地,在第一获取模块41获取到待检索URL的MD5值之后,查询模块42查询预先建立的与MD5值对应的索引表,得到与该MD5值对应的目标URL。该与MD5值对应的索引表中存储有URL原始字符串与MD5值之间索引关系。
[0069]由于每个URL对应一个唯一的MD5值,本实施例中服务器根据待检索URL的MD5值检索到的目标URL,将与待检索URL完全一致,实现了对待检索URL的精确检索。
[0070]本实施例中通过待检索URL的MD5值,获取与该MD5值对应的目标URL,由于每个URL对应唯一的MD5值,本实施例中服务器能够根据该MD5值,检索到与该待检索URL —致的目标URL,实现了精确检索的目的。
[0071]其中,本实施例中,可以预先建立包括URL原始字符串、特征字符串以及MD5值的索引表并存储在服务器中,这样就可以节省服务器的存储空间。进一步地,在获取到特征字符串或者MD5值后,查询模块42直接查询上述包括URL原始字符串、特征字符串和MD5值的索引表,就能够获取到目标URL。
[0072]与查询模块42连接的第二获取模块43用于根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。
[0073]在索引表中查询到目标URL后,第二获取模块43根据该目标URL在数据库中的存储位置,在相应的存储单元中获取到该目标URL的存储信息。其中,存储信息包括:页面信息、访问信息、更新时间、内容摘要以及URL所归属的服务提供方等。
[0074]本实施例中,服务器根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL ;根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。由于对待检索URL预处理,得到相应的特征字符串或MD5值,因此,只需基于特征字符串进行检索,就能得到对应的目标URL,不再对待检索URL进行全文检索,减少了对待检索URL的检索次数,提高了检索效率。
[0075]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
【主权项】
1.一种统一资源定位符URL检索方法,其特征在于,包括: 根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串; 根据所述待检索URL的MD5值或者所述待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL ; 根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。2.根据权利要求1所述的URL检索方法,其特征在于,所述根据待检索URL的原始字符串,获取所述待检索URL的特征字符串,具体包括: 截取所述待检索URL的原始字符串中的头字符串,获取所述待检索URL的剩余字符串; 根据所述剩余字符串中的分隔符,获取所述剩余字符串中的所有字符组,并从第1组字符组开始,依次选取N个字符组中的第一个字符和最后一个字符,顺序组成所述待检索URL的特征字符串。3.根据权利要求2所述的URL检索方法,其特征在于,所述N的取值为8-12。4.根据权利要求2或3所述的URL检索方法,其特征在于,所述根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息,包括: 将所述目标URL原始字符串与所述待检索URL原始字符串进行逐字符比较; 如果所述目标URL与所述待检索URL中每个字符在对应位置上均一致,获取所述目标URL在所述数据库中的所述存储位置; 根据所述存储位置获取所述目标URL存储信息。5.根据权利要求1所述的URL检索方法,其特征在于,所述根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法MD5值,具体包括: 对所述待检索URL原始字符串进行消息摘要算法计算,获取对应的所述MD5值。6.一种服务器,其特征在于,包括: 第一获取模块,用于根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串; 查询模块,用于根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL ; 第二获取模块,用于根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。7.根据权利要求6所述的服务器,其特征在于,所述第一获取模块,具体用于截取所述待检索URL的原始字符串中的头字符串,获取到所述待检索URL的剩余字符串,根据所述剩余字符串中的分隔符,获取所述剩余字符串的所有字符组,并从第1组字符组开始,依次选取N个字符组中的第一个字符和最后一个字符,顺序组成所述待检索URL的特征字符串。8.根据权利要求7所述的服务器,其特征在于,所述N的取值为8?12。9.根据权利要求7或8所述的服务器,其特征在于,所述第二获取模块具体用于将所述目标URL原始字符串与所述待检索URL原始字符串进行逐字符比较,如果所述目标URL与所述待检索URL中每个字符在对应位置上均一致,获取所述目标URL在所述数据库中的所述存储位置,根据所述存储位置获取所述目标URL存储信息。10.根据权利要求6所述的服务器,其特征在于,所述第一获取模块,具体用于对所述待检索URL原始字符串进行消息摘要算法计算,获取对应的所述MD5值。
【专利摘要】本发明提供一种URL检索方法及服务器,根据待检索URL的原始字符串,获取所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串;根据所述待检索URL的消息摘要算法MD5值或者所述待检索URL的特征字符串,查询对应的索引表,获取到所述MD5值或者与所述特征字符串对应的目标URL;根据所述目标URL在数据库中的存储位置获取所述目标URL存储信息。由于对待检索URL预处理,得到相应的特征字符串或MD5值,因此,只需基于特征字符串进行检索,就能得到对应的目标URL,不再对待检索URL进行全文检索,减少了对待检索URL的检索次数,提高了检索效率。
【IPC分类】G06F17/30
【公开号】CN105426364
【申请号】CN201410245759
【发明人】周宇
【申请人】北大方正集团有限公司, 北京北大方正电子有限公司
【公开日】2016年3月23日
【申请日】2014年6月4日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1