一种针对关键词的网络文档搜索引擎框架的制作方法

文档序号:11230696阅读:375来源:国知局
一种针对关键词的网络文档搜索引擎框架的制造方法与工艺

本发明涉及一种针对关键词的网络文档搜索引擎框架



背景技术:

目前搜索引擎只针对文本进行搜索,还不能有效对音乐、图片和视频等多媒体文件进行搜索,原因主要是多媒体数据量太大;如何索引多媒体文件;进而对处理过的多媒体文件检索。现在因特网上有大量的多媒体文件,特别是社交网站和多媒体分享的兴起,需要对多媒体文件进行精准检索。

网络爬虫,也称网络蜘蛛、网络机器人,是一个自动提取网页的程序,它从因特网上下载网页,是搜索引擎的重要组成部分。网络爬虫利用标准的http协议,根据超级链接和网络文档检索的方法遍历因特网信息空间。因特网上有数千种不同的数据类型,http给每种要通过网络传输的对象都打上了名为mime类型的数据格式标签。统一资源定位符(url)是资源标识符最常见的形式。url描述了一台特定服务器上某资源的特定位置。元素文件(metafile)可提供有关页面的元信息,如针对搜索引擎和更新频度的描述和关键词,可针对元素的关键词进行索引。

udp是osi参考模型中一种无连接的传输层协议,它主要用于不要求分组顺序到达的传输中,分组传输顺序的检查与排序由应用层完成,提供面向事务的简单不可靠信息传送服务。网络文档关键词可通过udp进行下载,因为udp具有tcp所望尘莫及的速度优势。

要对网络文档进行精准检索,首先要提供高可用的负载均衡服务器集群,存储标注的网络文档;其次要有一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载,实现对网络文档的爬取索引。

网络搜索的数据往往是高维的,其维数甚至达到百万数量级。发现和利用高维数据中的低维结构,在网络搜索中显得尤为重要。另外,在网络搜索中,人们只能观察到少量元素,希望根据这些有限的信息,能够猜测出未看到的大量元素,从而恢复一个未知的低秩矩阵或近似低秩矩阵。

假定已知数据已排列成一高维数据或样本矩阵。估计一低维子空间的问题称为低秩矩阵逼近。当低秩矩阵或样本矩阵的某些元素被严重损坏时,能够自动识别被损坏的元素,精确地恢复原低秩矩阵。在网络搜索中,需要将一个数据矩阵分解为一个低秩矩阵与一个稀疏矩阵之和,并且希望同时恢复低秩矩阵与稀疏矩阵,以实现基于语义的精准检索。

本发明提供了一种针对关键词的网络文档搜索引擎框架,构建一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载;通过metafile的链路,实现对url和关键词的提取及索引并建立url与关键词映射;构建高可用的负载均衡服务器集群,存储已索引的url和关键词;利用关键词,对指向网络文档地址的url,进行基于语义的精准检索。



技术实现要素:

本发明的目的在于提供一种针对关键词的网络文档搜索引擎框架。本发明包括以下特征:

发明技术方案

1.一种针对关键词的网络文档搜索引擎框架,其具体步骤如下:

1)构建一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载;

2)通过metafile的链路,实现对url和关键词的提取及索引并建立url与关键词映射;

3)构建高可用的负载均衡服务器集群,存储已索引的url和关键词;

4)利用关键词,对指向网络文档地址的url,进行基于语义的精准检索。

附图说明

图1是针对关键词的网络文档搜索引擎框架图;图2是一致性散列算法的原理图;图3是高可用的lvs集群拓扑结构图。

具体实施方式

这种针对关键词的网络文档搜索引擎框架,包括如下步骤:

1)构建一套分布式内存对象缓存系统,作为代理服务器见附图2,用于在动态系统中减少数据库负载;

2)通过metafile的链路,实现对url和关键词的提取及索引并建立url与关键词映射;

3)构建高可用的负载均衡服务器集群见附图3,存储已索引的url和关键词;

4)利用关键词,对指向网络文档地址的url,进行基于语义的精准检索。



技术特征:

技术总结
本发明公开一种针对关键词的网络文档搜索引擎框架,构建一套分布式内存对象缓存系统,作为代理服务器,用于在动态系统中减少数据库负载;通过METAFILE的链路,实现对URL和关键词的提取及索引并建立URL与关键词映射;构建高可用的负载均衡服务器集群,存储已索引的URL和关键词;利用关键词,对指向网络文档地址的URL,进行基于语义的精准检索。

技术研发人员:张军;徐苛;陈晓峰
受保护的技术使用者:上海德衡数据科技有限公司
技术研发日:2017.06.08
技术公布日:2017.09.08
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1