一种信息处理方法及系统、服务器、客户端的制作方法_3

文档序号:9633772阅读:来源:国知局
第一 URL地址发送给网络爬虫集群;网络爬虫集群接收所述第一URL地址,然后网络爬虫集群抓取第一 URL地址上的信息资源(即第一信息资源),之后,网络爬虫集群将抓取到的第一信息资源发送给服务器。
[0141]其中,网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网(internet)上下载网页,是搜索引擎的重要组成。爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列并继续进行分析,如此周而复始,直到遍历完整个互联网后者满足系统的一定停止条件时停止。
[0142]步骤304,所述服务器判断所述第一信息资源的安全性,得到第三判断结果,将所述第三判断结果作为第一判断结果;
[0143]步骤305,所述服务器从所述第一信息资源中获取所述第一 URL地址所链接的网站的梗概信息和网站类型;
[0144]步骤306,所述服务器将所述第一判断结果、梗概信息和网站类型发送给所述客户端。
[0145]网络爬虫集群根据服务器发送的第一 URL网址抓取第一信息资源,所述第一信息资源包括文档、安装包、内嵌的URL地址、图片、可执行文件、网站的页面内容等,其中所述文档包括pdf文档、Word文档、excel文档、txt文档;所述内嵌的URL地址包括超链接的URL地址;所述安装包是指应用的安装包。
[0146]服务器接收网络爬虫集群爬到的第一信息资源,按照不同的类别对第一信息资源进行处理,为了对第一信息资源进行处理,本发明实施例提供一种信息资源处理模块,该信息资源处理模块的结构示意图如图3-2所示,该信息资源处理模块包括病毒查杀引擎、应用的黑白名单、网址病毒扫描集群和网址分析模块,其中,文档、安装包、可执行文件可以进入病毒扫描引擎进行扫描,安装包还可以进入应用的黑白名单里面进行处理,内嵌的URL地址、图片和网站的页面内容可以进入网址分析模块进行处理,内嵌的URL地址还可以进入网址病毒扫描集群上进行处理。这里,应用的黑白名单可以是从可信的应用商店或网址上获取应用的名单,例如可以从安卓(Andr1d)电子市场、小米的应用商店、苹果的应用商店、豌豆荚等处获取应用的名单。
[0147]上述的网址分析模块的组成结构如图3-3所示,网址分析扫描模块包括样本交换接口,从样本交换接口从网络爬虫集群或服务器接收内嵌的URL地址、图片和网站的页面内容等样本,将后将样本放入网址云鉴定中心,网址云鉴定中心可以对比第一 URL地址上的内嵌的URL地址、图片和网站的页面内容等样本与其他除所述第一 URL地址外的URL地址的相似度,当所述第一 URL地址与其他网址的相似度大于预设的相似度时,则第一 URL地址不安全;当所述第一 URL地址与其他网址的相似度小于等于预设的相似度时,则第一URL地址安全。
[0148]网址分析扫描模块还包括用户反馈接口,用户反馈接口用于接收社交平台的用户对于恶意网址的投诉和反馈,为了避免用户的网站被误报查杀,网址分析扫描模块还包括防误报中心,用于保护网站不被误报误杀,防误报中心本身拥有一个白名单,白名单上为安全的网站,当从用户反馈接口接收到用户反馈的网址时,首先判断用户反馈的网址是否在白名单上,是时,防误报中心开启防误报功能,即不将反馈的网址的相关信息写入黑名单;否时,继续判断用户反馈的网址是否在黑名单上,是时,不将反馈的网址的相关信息写入黑名单,否时,将反馈的网址的相关信息写入黑名单。这里,所述网址的相关信息包括URL网址、网址的梗概信息和网站类型;
[0149]网址分析扫描模块还包括名单收集中心,用于搜索各种类型的可信以及不可信的网站类型,并将搜索到的网址发送给人工运营分析中心,人工运营分析中心,用于负责对于系统网站库的运营和人工审核判定等,当网址可信时,人工运营分析中心将网址的相关信息写入白名单;当网址不可信时,人工运营分析中心将网址的相关信息写入黑名单。
[0150]网址分析扫描模块还包括查询服务接口,查询服务接口用于为网址分析扫描模块查询入口 ;查询服务接口接收的查询请求通过网址聚类/筛选域名信任度模型来进行处理,之后对查询请求进行聚类/定期回归等处理后输入到网址云鉴定中心。
[0151]本发明实施例中可以根据相似度来判断第一 URL地址是否安全在于:对于用户来说,网址是否安全包括三类,第一类是网址不安全是由于网址上包括病毒,这里的病毒主要是指木马等;而第二类网址不安全是由于网址是钓鱼网址而导致用户会受到欺骗,第三类网址不安全是由于网站本身就是赌博等网站。前面第一类网址在查杀病毒的时候可以根据是否有病毒来判断是否是安全的,即如果查杀出病毒,则认为该网址是不安全的,即得出第一 URL地址不安全的第一判断结果;如果没有查杀出病毒,可以认为该网址是安全的,即得出第一 URL地址安全的第一判断结果;其实,更准确的说,如果没有查杀出病毒,则认为该网址可能是安全的,还需要进一步地通过相似度来验证该第一 URL网址是否安全。一般来说,对于第二类网址和第三类网址而言,查杀病毒的时候,都是没有病毒的,但并不能因为没有查杀出病毒就得出该网址是安全的第一判断结果。
[0152]上述的病毒查杀引擎的组成结构如图3-4所示,所述病毒查杀引擎包括样本接收接口,该样本接收接口从网络爬虫集群或服务器接收文档、安装包、可执行文件等样本,将后将文档、安装包、可执行文件等样本分别输入病毒云查杀引擎和病毒特征引擎,其中,病毒云查杀引擎,用于在样本云库中对样本进行匹配和查杀;病毒特征引擎,用于在行为云库中对样本的特征进行匹配查杀。所述病毒查杀引擎还包括审核运营中心,用于负责样本云库和行文云库的运营。
[0153]基于上述的图3-2、图3-3和图3_4,本发明实施例提供基于上述图3_2至图3_4所示的信息资源处理模块在对第一 URL地址进行处理时的流程,如图3-5所示,该流程包括:
[0154]步骤351,服务器获取第一 URL地址;
[0155]步骤352,服务器判断是否有云查杀记录是否记录有所述第一 URL地址,是时,进入步骤353 ;否时,进入步骤354 ;
[0156]步骤353,服务器返回条码对应的信息;
[0157]这里,所述步骤353具体为:服务器总云查杀记录中获取条码对应的信息返回给客户端。其中,所述条码对应的信息包括第一判断结果、所述第一 URL地址所链接的网站的梗概信息和网站类型;所述第一判断结果是指所述第一 URL地址是否安全的结果。
[0158]步骤354,网络爬虫集群抓取第一信息资源;
[0159]具体得,服务器调用网络爬虫集群,网络爬虫集群根据所述第一 URL地址抓取第一信息资源,所述第一信息资源为所述第一 URL地址上的信息资源。
[0160]步骤355,判断第一信息资源中是否包括安装包,是时,进入步骤356,否时,进入步骤358 ;
[0161]步骤356,服务器调用病毒查杀引擎;
[0162]步骤357,服务器查询应用的黑白名单;
[0163]这里,步骤357还包括将条码的对应信息写入云查杀记录。
[0164]步骤358,服务器调用网址病毒扫描集群;
[0165]步骤359,服务器调用网址分析模块,
[0166]这里,步骤359还包括将条码的对应信息写入云查杀记录。
[0167]下面具体地陈述一下步骤355至步骤359,步骤355中,服务器对所述第一信息资源进行分类,根据第一信息资源的不同类别对第一信息资源进行不同的处理。所述第一信息资源的类别主要包括:文档、安装包、内嵌的URL地址、图片、可执行文件、网站的页面内容等;
[0168]根据第一信息资源的不同类别对第一信息资源进行不同的处理,例如对于文档、安装包、可执行文件将调用病毒查杀引擎(即步骤356);其中,安装包是条码关联的重要对象,因此,可以首先判断第一信息资源中是否包括安装包,对安装包除了进行病毒查杀外,还可以查询应用的黑白名单(步骤357),然后将步骤356和步骤357的结果进行综合得到条码对应的信息,返回给客户端(步骤353)。
[0169]根据第一信息资源的不同类别对第一信息资源进行不同的处理,例如,内嵌的URL地址、图片和网站的页面内容可以进入网址分析模块进行处理(步骤358),内嵌的URL地址还可以进入网址病毒扫描集群上进行处理(步骤359),然后将步骤358和步骤359的结果进行综合得到条码对应的信息,返回给客户端(步骤353)。
[0170]基于上述图3-2所示的信息资源处理模块,所述步骤304包括:
[0171]步骤C11,所述服务器调用预设的病毒扫描模块,将所述第一信息资源发送给病毒扫描模块,所述病毒扫描模块用于对信息资源进行病毒扫描;
[0172]这里,所述病毒扫描模块为图3-2中的病毒查杀引擎。
[0173]步骤C12,所述服务器接收所述病毒扫描模块返回的所述第一信息资源的安全性结果,将所述第一信息资源的安全性结果作为第三判断结果。
[0174]基于上述图3-2所示的信息资源处理模块,所述步骤304包括:
[0175]步骤C21,所述服务器调用预设的网址分析模块,将所述第一信息资源发送给网址分析模块,所述网址分析模块用于将所述第一信息资源与其他网站上的信息资源进行相似度对比;
[0176]这里,所述步骤C21中的网址分析模块可以是图3-2所示的网址分析模块。
[0177]步骤C22,所述服务器接收所述网址分析模块返回的相似度信息;
[0178]步骤C23,所述服务器根据所述相似度信息和预设的相似度阈值,判断所述第一信息资源的安全性,得到第三判断结果。
[0179]其中,所述服务器根据所述相似度信息和预设的相似度阈值之间的大小关系,判断所述第一信息资源的安全性,得到第三判断结果,包括:
[0180]步骤C231,所述服务器判断所述相似度信息与所述相似度阈值之间的大小关系;
[0181]步骤C232,当所述相似度信息大于所述相似度阈值时,得到所述第一信息资源的不安全的第三判断结果。
[0182]其中,所述服务器根据所述相似度信息和预设的相似度阈值之间的大小关系,判断所述第一信息资源的安全性,得到第三判断结果,包括:
[0183]步骤C231,所述服务器判断所述相似度信息与所述相似度阈值之间的大小关系;
[0184]步骤C233,当所述相似度信息小于等于所述相似度阈值时,得到所述第一信息资源的安全的第三判断结果。
[0185]本发明实施例中,当所述信息资源中包括第一应用安装包时,所述服务器判断所述第一信息资源的安全性,得到第三判断结果,还包括:
[0186]步骤C41,判断所述第一应用安装包的安全性,得到第四判断结果;
[0187]步骤C42,所述服务器获取所述第一安装包的应用类型、应用梗概信息;
[0188]步骤C43,所述服务器将所述第四判断结果、所述第一安装包的应用类型和应用梗概信息作为第三判断结果。
[0189]这里,所述步骤C41包括:
[0190]步骤C411,所述服务器解析所述第一应用安装包,得到所述第一应用安装包的ID信息;
[0191]步骤C412,判断预设的第二记录是否记录有所述第一应用安装包的ID信息,获得第二判断结果;
[0192]这里,所述第二记录可以是图3-2中所示的应用的黑名名单记录。
[0193]步骤C413,当所述第二判断结果表明所述第二记录中记录有所述第一应用安装包的ID信息时,所述服务器从所述第二记录中获取所述第四判断结果;
[0194]对应地,所述步骤C42包括:所述服务器从所述第二记录中,获取所述第一安装包的应用类型、应用梗概信息。
[0195]本发明实施例的主要优势在于云端的处理能力和整合能力,在云端服务器集成网站爬虫集群、病毒扫描引擎、网站病毒扫描引擎、网址分析模块、应用的黑白名单,从而使得二维码扫描一站式服务得以实现。
[0196]实施例四
[0197]一般来说,条码关联一个URL地址(即第一 URL网址),所述第一 URL地址上关联的信息资源可以分为两类,第一类是只有一个安装包,第二类则包括的内容更为丰富一些,一般包括页面内容、图片、广告、文档等等;关联上述第一类中安装包的条码一般旨在让用户下载安装包,用于安装应用(APP),而关联第二类的该网址通常是用来展示一些信息,例如某企业的官网、或者某购物网站等等,需要说明的是,上述对第一 URL地址中信息资源分类中第二类中也可以包括安装包,上述实施例一至三就上述第二类进行具体说明,下面就第一 URL地址上只关联安装包的情况进行具体说明。本发明实施例提供一种信息处理方法,图4为本发明实施例四信息处理方法的实现流程示意图,如图4所示,该方法包括:
[0198]步骤401,所述服务器获取第一 URL地址;
[0199
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1