大数据爬网分析平台的制作方法

文档序号:14816851发布日期:2018-06-30 06:01阅读:340来源:国知局
大数据爬网分析平台的制作方法

本实用新型涉及数据分析管理技术领域,特别涉及一种大数据爬网分析平台。



背景技术:

目前,为了提高用户对网络内容的搜索效率,很多互联网信息采集系统采用网络爬虫和爬网技术。对内容进行爬网指系统访问和分析内容及其属性(有时称为“元数据”)从而建立可提供搜索查询服务的内容索引的过程。通过成功地对内容进行爬网,爬网程序可以访问和读取您希望用于搜索查询的单个文件或内容片段,有效提高对内容的搜索效率。

目前,现有的爬网工具仅能以网页的URL基础对网页及内容的爬取,但是由于互联网中的URL数量数以亿计,并且不同的URL之间相互链接和映射,所以很难避免重复爬取相同的URL,这将导致数据库中重复内容占据内存较大,影响爬取操作,同时为用户后期搜索造成麻烦,此外,现有的爬网工具不方便携带,只能硬性连接,一旦连接后插拔不方便,在使用时连接比较麻烦,而且长时间使用设备内部容易进入灰尘或蚊虫,为此,急需开发一种结构简单,与服务器连接比较方便,且能够起到数据处理、分析及存储的大数据爬网分析平台。



技术实现要素:

为了解决现有技术存在的上述问题,本实用新型提供了一种大数据爬网分析平台。

本实用新型具体技术方案如下:

本实用新型提供了一种大数据爬网分析平台,包括索引服务器及与所述索引服务器相通讯的平台终端,所述平台终端包括壳体,所述壳体内设有信息采集器、数据处理器、信息过滤器和存储器,所述信息采集器、所述信息过滤器和所述存储器均与所述数据处理器连接;所述壳体上设有用于数据通讯的数据插口及显示屏,所述壳体上位于所述显示屏下方设有控制按钮,所述显示屏、所述数据插口及所述控制按钮均与所述数据处理器连接,所述平台终端通过所述数据插口与所述索引服务器通讯连接并实现数据交换,所述壳体上位于所述数据插口外侧设置封盖,所述封盖与所述壳体滑动连接;所述壳体侧壁上均匀开设条形槽,所述条形槽内设置隔离透气网。

进一步的,所述壳体上位于所述数据插口的两侧对称开设滑槽,所述滑槽内两端设有能够沿所述滑槽延伸方向滑动的滑块,所述封盖包括两个对称设置的滑盖,两个所述滑盖分别位于所述滑槽的两端,其中,

所述滑盖包括一个L型板和两个对称设置在所述L型板两侧的立板,两个所述立板的底部分别与对应的所述滑槽内的所述滑块连接。

进一步的,所述壳体一侧设置固定板,所述固定板上远离所述壳体的一侧对称设置两个支架,所述支架与所述固定板铰接。

进一步的,所述固定板上设有吸盘,所述固定板通过所述吸盘吸附在所述壳体背面。

进一步的,所述信息采集器用于采集用户通过网络浏览器搜索引擎搜索的关键字段,并将采集的所述关键字段发送至所述数据处理器;

所述数据处理器包括根据所述关键字段在互联网中自动爬取若干与所述关键字段相关的网络内容,并将爬取的所述网络内容发送至所述信息过滤器,所述网络内容由关键字和元数据组成;

所述信息过滤器用于对所述网络内容中的所述元数据进行相似性分析,并将所述元数据相似性较高的所述网络内容删除,同时所述数据处理器将过滤后的所述网络内容进行压缩打包后发送至所述存储器存储。

优选的,所述数据处理器还包括列表形成模块,所述列表形成模块用于将所述网络内容以网页的URL形成爬取列表,并将形成的所述爬取列表发送至所述信息过滤器。

优选的,所述信息过滤器包括分析模块和筛选模块,所述分析模块通过对所述爬取列表中网页的URL读取对应的所述网络内容,并进行解析,同时挑选出所述网络内容重复的网页,所述筛选模块用于将所述网络内容重复的网页进行删除。

本实用新型的有益效果如下:本技术方案中提供的数据平台结构简单,该平台通过索引服务器为用户存储了爬取分析后的网页,有效提高了用户的检索效率,同时索引服务器与终端连接更加方便,实现了快速的数据对接,封盖的设计对数据插口进行了有效保护,此外,平台终端散热性能好,能够有效防止蚊虫进入终端内,实用性强。

附图说明

图1为实施例1所述的一种大数据爬网分析平台的结构示意图;

图2为实施例1所述的一种大数据爬网分析平台中壳体内的结构示意图;

图3为实施例1所述的一种大数据爬网分析平台中平台终端的结构示意图;

图4为实施例2所述的一种大数据爬网分析平台中平台终端的结构示意图;

图5为图4中A的放大图;

图6为实施例2所述的一种大数据爬网分析平台中滑盖的结构示意图;

图7为实施例3所述的一种大数据爬网分析平台中平台终端的后视图;

图8为实施例3所述的一种大数据爬网分析平台中平台终端的右视图。

其中:1、索引服务器;2、壳体;3、信息采集器;4、数据处理器;5、信息过滤器;6、存储器;7、数据插口;8、封盖;9、条形槽;10、隔离透气网;11、滑槽;12、滑块;13、滑盖;14、L型板;15、立板;16、固定板;17、支架;18、吸盘;19、显示屏;20、控制按钮。

具体实施方式

下面结合附图和以下实施例对本实用新型作进一步详细说明。

实施例1

如图1所示,一种大数据爬网分析平台,包括索引服务器1及与索引服务器1相通讯的平台终端,平台终端用于将爬取的网页以URL列表的形式保存在索引服务器1中,如图2所示,平台终端包括壳体2,壳体2内设有信息采集器3、数据处理器4、信息过滤器5和存储器6,信息采集器3、信息过滤器5和存储器6均与数据处理器4连接;这里阐述的信息采集器3为型号为ADS8364高精度信息采集芯片,数据处理器4为型号为MC9S12NE64的CPU处理器,信息过滤器5为型号为ENC28J60的过滤芯片,存储器6为EMC px4-300d存储器6,在使用时,信息采集器3用于采集用户通过网络浏览器搜索引擎搜索的关键字段,并将采集的关键字段发送至数据处理器4;用户通过搜索引擎搜索关键字段,平台终端首先采集该关键字段,然后根据该关键字段进行网页的爬取。这里阐述的关键字段可以为字、词或短语等。

数据处理器4包括根据关键字段在互联网中自动爬取若干与关键字段相关的网络内容,并将爬取的网络内容发送至信息过滤器5,网络内容由关键字和元数据组成;数据处理器4通过关键字段自动检索与该关键字段相同或相关的网页,并自动抓取网络内容。

信息过滤器5用于对网络内容中的元数据进行相似性分析,并将元数据相似性较高的网络内容删除,同时数据处理器4将过滤后的网络内容进行压缩打包后发送至存储器6存储。

优选的需要说明的是数据处理器4还包括列表形成模块,列表形成模块用于将网络内容以网页的URL形成爬取列表,并将形成的爬取列表发送至信息过滤器5。

优选的需要说明的是信息过滤器5包括分析模块和筛选模块,分析模块通过对爬取列表中网页的URL读取对应的网络内容,并进行解析,同时挑选出网络内容重复的网页,筛选模块用于将网络内容重复的网页进行删除。

如图1或3所示,壳体2上设有用于数据通讯的数据插口7,这里的数据插口可以为USB接口,或者其他数据接口,只要能够实现插接服务器即可,壳体2上还设有显示屏19,壳体2上位于所述显示屏19下方设有控制按钮20,显示屏19、数据插口7及控制按钮20均数据插口7与数据处理器4连接,平台终端通过数据插口7与索引服务器1通讯连接并实现数据交换,壳体2上位于数据插口7外侧设置封盖8,封盖8与壳体2滑动连接;壳体2侧壁上均匀开设条形槽9,条形槽9内设置隔离透气网10。

实施例2

如图4或5所示,在实施例1的基础上,本实用新型进一步限定了,壳体2上位于数据插口7的两侧对称开设滑槽11,滑槽11内两端设有能够沿滑槽11延伸方向滑动的滑块12,封盖8包括两个对称设置的滑盖13,两个滑盖13分别位于滑槽11的两端,其中,

如图6所示,滑盖13包括一个L型板14和两个对称设置在L型板14两侧的立板15,两个立板15的底部分别与对应的滑槽11内的滑块12连接。

实施例3

如图7所示,为了方便终端使用,本技术方案中进一步限定了,壳体2一侧设置固定板16,固定板16上远离壳体2的一侧对称设置两个支架17,支架17与固定板16铰接。在此限定的支架17只要可以起到支撑效果即可,不具体限定其结构,由于支架17与固定板16为铰接,所以平台终端在使用时,可以打开支架17,将支架17支撑在桌面上,方便用户使用,当平台终端不使用时,可以将支架17收起,方便携带和存储。

如图8所示,当终端需要连接在索引服务器1或与其他网络服务器连接时,本技术方案中进一步的限定了在固定板16上设有吸盘18,固定板16通过吸盘18吸附在壳体2背面。吸盘18实现了固定板16与壳体2的可拆卸连接。

本实用新型不局限于上述最佳实施方式,任何人在本实用新型的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本实用新型的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1