一种基于大数据的关键字检索系统的制作方法

文档序号:20839573发布日期:2020-05-22 17:19阅读:638来源:国知局
一种基于大数据的关键字检索系统的制作方法

本发明涉及大数据关键字检索技术领域,具体为一种基于大数据的关键字检索系统。



背景技术:

在现有大数据技术下,经常采用关键字检索系统,在公司、部门或者个人的数据中进行检索,从而可以快速的实现对相应的文件或者数据的快速调用,而现有的关键字检索系统大多为设备自带的检索系统或者第三方支持的检索系统,经常会出现不需要的广告界面,经常随着广告词条的增多,导致需要一个进一步检索的检索系统,将初步的内容进行进一步筛选后得到需要的资料进行使用,所以需要对现有的一种检索系统加以改进。



技术实现要素:

本发明的目的在于提供一种基于大数据的关键字检索系统,以解决上述背景技术中提出的如何对检索内容进一步进行检索筛选的问题。

为实现上述目的,本发明提供如下技术方案:一种基于大数据的关键字检索系统,包括信息处理中央单元,所述信息处理中央单元分别电性双向连接有预加载缓冲模块、验证服务器和身份信息识别端,所述身份信息识别端电性双向连接有服务等级对比模块,所述服务等级对比模块与验证服务器电性双向连接,所述身份信息识别端电性输出连接有挑用cookie记录存储端,所述身份信息识别端电性双向连接有信息调用端,所述信息调用端电性输出连接有信息推送模块,所述预加载缓冲模块与信息推送模块电性双向连接,所述信息调用端电性双向连接有数据库服务器,所述数据库服务器与服务等级对比模块电性双向连接,所述数据库服务器电性双向连接有信息整理模块,所述信息整理模块电性双向连接有信息上传模块,所述信息上传模块电性双向连接有信息审核模块,所述信息审核模块与信息整理模块电性输出连接,所述数据库服务器分别电性双向连接有关键字检索模块、数转汉翻译模块和近义词检索模块,所述关键字检索模块电性双向连接有备用数据库服务器,所述备用数据库服务器分别与数转汉翻译模块和近义词检索模块电性双向连接。

优选的,所述预加载缓冲模块还包括二次筛选标签模块。

优选的,所述身份信息识别端包括账号信息身份信息识别端或员工编号身份信息识别端。

优选的,所述信息整理模块采用时间、名称、内容大小进行整理,并生成相应的文件编号前缀。

优选的,所述信息上传模块根据检索结果的来源网址分为广告信息、论坛信息、出厂信息和问答求助信息,然后根据来源网址进行相应的信息标签标记。

优选的,所述信息推送模块为根据信息标签标记进行的信息推送模块。

与现有技术相比,本发明的有益效果是:

1)本发明通过设有将现有的搜索引擎进行关键字检索,然后通过对检索内容采用进一步的抓取和标签识别,从而对检索内容进行进一步的筛选,通过网址的检索分类,完成对信息的分类,进一步的对检索信息进行归纳,便于提高对信息的检索速度;

2)本发明通过以插件等形式,在调用了初步的搜索结果后,通过对标签的识别,可起到对检索结果的分类屏蔽,从而减少无用的信息的弹出,影响搜索速度的问题发生,提供更加精简的检索的结果,便于使用。

附图说明

图1为本发明结构示意图;

图2为本发明工作流程图。

图中:1信息处理中央单元、2预加载缓冲模块、3验证服务器、4身份信息识别端、5服务等级对比模块、6挑用cookie记录存储端、7信息调用端、8信息推送模块、9数据库服务器、10信息整理模块、11信息上传模块、12信息审核模块、13关键字检索模块、14数转汉翻译模块、15近义词检索模块、16备用数据库服务器。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“套设/接”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1-2,本发明提供一种技术方案:一种基于大数据的关键字检索系统,包括信息处理中央单元1,所述信息处理中央单元1分别电性双向连接有预加载缓冲模块2、验证服务器3和身份信息识别端4,所述预加载缓冲模块2还包括二次筛选标签模块,所述身份信息识别端4包括账号信息身份信息识别端或员工编号身份信息识别端,用于实现对数据的处理和基于现有的第三方检索平台进行初步的检索调用,保证检索的范围和检索的信息量充足,并且可适用于个人或公司使用。

所述身份信息识别端4电性双向连接有服务等级对比模块5,所述服务等级对比模块5与验证服务器3电性双向连接,所述身份信息识别端4电性输出连接有挑用cookie记录存储端6,所述身份信息识别端4电性双向连接有信息调用端7,所述信息调用端7电性输出连接有信息推送模块8,所述预加载缓冲模块2与信息推送模块8电性双向连接,所述信息推送模块8为根据信息标签标记进行的信息推送模块,便于基于大数据对用户进行相应的信息推送,采用预加载缓冲模块2,将第三方的检索结果进行缓冲加载后,对通过浏览器自身提供的源代码功能进行抓取,从而对标签名和标签名对应的网址进行抓取,从而对检索后的信息进行二次提取,而在抓取过程中,可以通过用户预设的拉黑词条,将相应的标签名进行跳过,不进行抓取,完成屏蔽的效果,减少信息量,提高检索效果。

所述信息调用端7电性双向连接有数据库服务器9,所述数据库服务器9与服务等级对比模块5电性双向连接,所述数据库服务器9电性双向连接有信息整理模块10,所述信息整理模块10电性双向连接有信息上传模块11,所述信息上传模块11电性双向连接有信息审核模块12,所述信息审核模块12与信息整理模块10电性输出连接,所述信息整理模块10采用时间、名称、内容大小进行整理,并生成相应的文件编号前缀,所述信息上传模块11根据检索结果的来源网址分为广告信息、论坛信息、出厂信息和问答求助信息,然后根据来源网址进行相应的信息标签标记,用于将通过第三方检索后的网站通过浏览器自带的“查看源代码”功能转化为源代码,并且对源代码中的网址和名称的标签名进行整体抓取后上传到信息整体模块10,并通过信息上传模块11和信息审核模块12将抓取来的数据进行整理和排序后,再输入到数据库服务器9中,传递到信息调用端7进行展示,减少广告等信息的抓取,便于检索使用。

所述数据库服务器9分别电性双向连接有关键字检索模块13、数转汉翻译模块14和近义词检索模块15,所述关键字检索模块13电性双向连接有备用数据库服务器16,所述备用数据库服务器16分别与数转汉翻译模块14和近义词检索模块15电性双向连接,用于对公司内部搭建或者个人搭建的信息数据库检索时进行检索调用。

工作原理:本发明在使用过程中,通过现有的第三方检索引擎可以快速检索的技术基础和可对检索结果进行相应的转化为源代码,完成对代码的抓取的结果,采用对网址和相应的超链接目标(跳转网址)进行抓取识别,可以提高对检索结果的进一步排序,并且根据代码中的标签,如“广告”,根据代码中“,”、“;”等符号不同为一句进行识别,将该段中的网址进行跳过,便于实现对检索结果的二次筛选,并且通过对关键字的拉黑词语,对一些跳转网址直接跳过,实现三次筛选,并且完成对这些词条的屏蔽效果,可以起到辅助检索的效果,便于使用。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1