一种检测下载文件安全性的方法及装置制造方法

文档序号：7799232阅读：152来源：国知局

一种检测下载文件安全性的方法及装置制造方法
【专利摘要】本发明公开了一种检测下载文件安全性的方法及装置，其中的方法具体包括：客户端采集下载文件的下载场景特征和文件特征，并上传至云服务器；云服务器将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果；其中，所述云规则为通过综合分析文件样本的下载场景特征和文件特征得到；云服务器将所述匹配结果下发给所述客户端。本发明对于现有技术中特征码未收录至安全特征码库的下载文件以及其它未知文件等文件具有较好的检测效果，且对于突发的的病毒文件有很好的检测效果。
【专利说明】一种检测下载文件安全性的方法及装置
【技术领域】
[0001]本发明涉及网络安全【技术领域】，具体涉及一种检测下载文件安全性的方法及装置。
【背景技术】
[0002]目前，随着社会的进步和技术的发展，人们越来越多地利用终端接入因特网来获取信息，包括信息浏览和文件下载等。而从网络中下载带毒文件已经成了计算机中招最主要的途径，因此下载文件的安全性已经被越来越多的人所重视。
[0003]为了防止带毒文件入侵系统，现有技术一种检测方法可以通过对已下载的可执行文件的MD5 (消息摘要算法第五版，Message Digest Algorithm)特征码的安全性分析,来快速确定可执行文件的安全性，具体地，安全监管服务器在对应客户端的请求对下载文件进行安全分析的过程中，首先扫描可执行文件的特征码，然后判断其是否在安全监管服务器的安全特征码库中；如果在，则表示该可执行文件没有被篡改过，是原始、安全的可执行文件，直接将相关的安全信息返回给客户端；如果不在安全特征码库中，则安全监管服务器对该可执行文件作进行分析，具体可以包括:该可执行文件是否存在盗取用户隐私、无法卸载、限制其它软件应用、自动联网、自动发短信或彩信、使系统变慢、甚至病毒木马等可能，如果有则判别该可执行文件存在的风险并将判别结果返回给客户端，如果没有则返回安全情况未知的信息给客户端。
[0004]上述检测方法能够快速确定安全特征码库中可执行文件的安全性。但是，安全特征码库的收集具有一定的延后性，对于新出现的病毒文件不能及时收录到安全特征码库中，也即，对于特征码未收录至安全特征码库的可执行文件的检测能力很有限。另外，仅仅适用于可执行文件的安全性检测，而对于压缩包、*doc、*txt等格式文件的检测能力有限。

【发明内容】

[0005]鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种检测下载文件安全性的方法及装置。
[0006]依据本发明的一个方面，提供了一种检测下载文件安全性的方法，包括:
[0007]客户端采集下载文件的下载场景特征和文件特征，并上传至云服务器；
[0008]云服务器将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果；其中，所述云规则为通过综合分析文件样本的下载场景特征和文件特征得到；
[0009]云服务器将所述匹配结果下发给所述客户端。
[0010]可选地，所述下载场景特征包括如下特征中的一项或多项:下载链接，下载工具或即时通讯工具的类型，是否处于网购或者支付模式。
[0011]可选地，所述文件样本的收集方式包括如下方式中的一项或多项:
[0012]主动抓取下载链接；[0013]获取用户举报的文件样本
[0014]获取第三方合作的网站提供的文件样本。
[0015]可选地，所述下载文件包括压缩包文件，则所述压缩包文件的文件特征包括:文件头格式、压缩前后文件格式、压缩前后文件名称、压缩前后文件大小；
[0016]则所述云规则包括:通过比较压缩包文件样本的压缩前后文件格式、压缩前后文件名称、压缩前后文件大小生成的规则。
[0017]可选地，所述客户端上传至云服务器的步骤为，所述客户端将所采集的下载文件的下载场景特征和文件特征以字符串的形式封装到数据包中，并将该数据包上传至云服务器；
[0018]则所述云服务器将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果的步骤，包括:
[0019]云服务器从该数据包中解析得到相应的字符串；
[0020]将该字符串输入所述云规则对应的至少一个决策机和与决策机数量相同的训练模型中，输出相应的判别结果。
[0021]根据本发明的另一方面，提供了一种检测下载文件安全性的系统，包括:客户端和云服务器；
[0022]其中，所述客户端，包括:
[0023]采集模块，用于采集下载文件的下载场景特征和文件特征；及
[0024]上传模块，用于将所采集的下载文件的下载场景特征和文件特征上传至云服务器；
[0025]所述云服务器，包括:
[0026]匹配模块，用于将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果；其中，所述云规则为通过综合分析文件样本的下载场景特征和文件特征得到 '及
[0027]下发模块，用于将所述匹配结果下发给所述客户端。
[0028]可选地，所述下载场景特征包括如下特征中的一项或多项:下载链接，下载工具或即时通讯工具的类型，是否处于网购或者支付模式。
[0029]可选地，所述文件样本的收集方式包括如下方式中的一项或多项:
[0030]主动抓取下载链接；
[0031]获取用户举报的文件样本
[0032]获取第三方合作的网站提供的文件样本。
[0033]可选地，所述下载文件为压缩包文件，则所述文件特征包括:文件头格式、压缩前后文件格式、压缩前后文件名称、压缩前后文件大小；
[0034]则所述云规则包括:通过比较压缩包文件样本的压缩前后文件格式、压缩前后文件名称、压缩前后文件大小生成的规则。
[0035]可选地，所述上传模块，具体用于将所采集的下载文件的下载场景特征和文件特征以字符串的形式封装到数据包中，并将该数据包上传至云服务器；
[0036]则所述匹配模块，包括:
[0037]解析子模块，用于云服务器从该数据包中解析得到相应的字符串；[0038]判别子模块，用于将该字符串输入所述云规则对应的至少一个决策机和与决策机数量相同的训练模型中，输出相应的判别结果。
[0039]根据本发明的检测下载文件安全性的方法及装置可以由客户端采集下载文件的下载场景特征和文件特征，并上传至云服务器，由云服务器利用通过综合分析文件样本的下载场景特征和文件特征得到的云规则对所述上传的下载文件的下载场景特征和文件特征进行匹配，得到相应的匹配结果；一方面，相对于现有技术仅仅利用MD5特征码进行安全性分析，本发明实施例在安全性分析的过程中综合考虑了下载场景特征和文件特征，因此，对于现有技术中特征码未收录至安全特征码库的下载文件以及其它未知文件等文件具有较好的检测效果；另一方面，能够发挥云服务器实时更新、升级速度快、计算能力强的优势，对于突发的的病毒文件有很好的检测效果。
[0040]上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0041]通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中:
[0042]图1示出了根据本发明一个实施例的检测下载文件安全性的方法的流程图；
[0043]图2示出了根据本发明一个实施例的检测下载文件安全性的方法的流程图；以及
[0044]图3示出了根据本发明一个实施例的检测下载文件安全性的装置的结构图。
【具体实施方式】
[0045]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0046]参照图1，示出了根据本发明一个实施例的检测下载文件安全性的方法的流程图，具体可以包括:
[0047]步骤101、客户端采集下载文件的下载场景特征和文件特征，并上传至云服务器；
[0048]在具体实现中，所述下载场景特征具体可以包括如下特征中的一项或多项:下载链接，下载工具或即时通讯工具的类型，是否处于网购或者支付模式。
[0049]在本发明的一些优选实施例中，在获取到上述下载信息之后，还可以进一步将这些下载信息保存到预设的下载日志中，以便于在后续过程中进行查询。在下载日志中存储这些下载信息时，可以将一个下载文件对应的下载信息存储为一条存储条目，在该条存储条目中，将每项下载信息分别作为该条存储条目中的一个信息项。在后续查询时，可以按照各个信息项进行查询。
[0050]另外，在通过下载日志保存了用户的所有下载行为后，还可以基于该下载日志建立各个下载文件之间的关系链，从而根据该关系链拦截恶意文件。例如，对于一个通过下载得到的文件，查询下载日志后就可以知道该下载文件是通过聊天工具传输过来的，还是通过某一下载工具下载下来的，而且还可以确定该下载文件下载时所对应的下载链，这里，下载链是指由该下载文件下载之前和之后所下载的文件构成的链表，由此能够建立起一个便于防御的关系链。例如，假设在淘宝购物的场景下，用户通过聊天工具接收了一个PE文件，这时，就可以根据下载日志对该PE文件进行重点监控，比如监控它移动到了哪个位置，做了哪些敏感操作(例如直接运行，修改注册表等危险操作)，这样，一旦该文件执行了敏感操作就将被拦截，由此提高了拦截恶意文件时的针对性。除此之外，通过下载日志还可以获取到下载文件的下载来源，并据此将误删除的文件找回。另外，如果通过下载日志表明用户经常从某一网站下载文件，也可以对该下载网站进行收藏，以方便用户的使用。
[0051]其中，所述下载链接主要指下载文件的URL (统一资源定位符，Uniform ResourceLocator)地址，通常从网络上下载的文件均有其独有的URL地址，即便是被重新指向的地址，最终指向的也是其独有的URL地址。如果URL地址对应的文件被证实是有危险的，那么无论是谁下载这个URL地址对应的文件也应该是危险的。虽然不排除URL地址对应的文件被没有病毒的文件替换的可能，但是这样的可能性非常小，因为蓄意破坏的人员的目的就是让对方中毒，因此无论是木马还是病毒都是以让对方中毒为目的，因此这种情况几乎不会发生。综上，利用URL地址确定下载文件是否安全是可行的。
[0052]所述下载工具是一种可以更快地从网上下载文本、图像、图像、视频、音频、动画等信息资源的软件，其采用了多点连接技术，充分利用了网络上的多余带宽，同时采用断点续传技术，随时接续上次中止部位继续下载，有效避免了重复劳动。这大大节省了下载者的连线下载时间。在实际中的下载工具具有可以包括:迅雷、网际快车、浏览器、各种下载站点等等，本发明实施例对具体的下载工具不加以限制。
[0053]所述即时通讯工具对应的下载文件主要可以包括:接收别人从QQ、MSN等即时通讯工具上发来的文件。
[0054]在本发明的一些优选实施例中，所述下载工具可以支持“按下载时间整理”、“按文件类型整理”以及“按下载工具整理”等功能选项。
[0055]假设用户执行了点击“按下载时间整理”的功能选项的动作，该动作将能够触发该功能选项向后台程序发送一个按照下载时间来显示各个下载文件以及每个下载文件的管理操作入口的指令，后台程序接收到该指令之后，则会查询存储的下载日志，并在下载日志中按照“下载时间”这一信息项对所有的存储条目进行排序，然后根据排序后的结果来显示各个下载文件以及每个下载文件的管理操作入口。这样，用户就可以按照下载时间从新到旧(或从旧到新)的顺序来浏览所有的已下载文件，从而便于用户按照时间顺序来查找某个已下载文件。并且，由于显示出的每个已下载文件都对应着相应的管理操作入口，例如，对于一个安全级的下载文件来说，其对应着打开入口、备份入口以及删除入口等入口；对于一个未知级的下载文件来说，其对应着隔离打开入口、备份入口以及删除入口等入口，因此，用户还可以方便地对查找到的已下载文件执行管理操作。
[0056]本发明实施例中，可以依据下载工具或即时通讯工具的类型锁定下载文件的范围，并将下载文件与已收集的同一范围内的文件样本进行比对，以得到相应的安全性结果。
[0057]由于网购涉及到付款流程，容易受到木马的攻击。例如，网购木马伪装成买家，与卖家进行沟通，伺机通过聊天工具发送所谓的商品图等压缩文件给卖家，卖家点击后，即感染木马，骗子再通过木马盗取卖家的账户密码，获取店铺的管理权限。接下来，骗子就可以冒充卖家对真正的买家实施诈骗了。而被骗的买家则将问题算到购物网站或是真正的卖家身上，也因此引发了很多纠纷；因此，是否处于网购或者支付模式为一个重要的用于检测安全性的下载场景特征。
[0058]通常的文件特征具体可以包括:文件名、文件格式和文件大小，也即，在无法获得下载文件的MD5特征时，本发明仍能检测其安全性。
[0059]步骤102、云服务器将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果；其中，所述云规则为通过分析文件样本的下载场景特征和文件特征得到；
[0060]在具体实现中，所述文件样本的收集方式具体可以包括如下方式中的一项或多项:
[0061]主动抓取下载链接；例如，可以主动抓取某下载工具上的下载链接，由于主动抓取下载链接为本领域的常用技术，故在此不作赘述。
[0062]获取用户举报的文件样本；
[0063]获取第三方合作的网站提供的文件样本。
[0064]在本发明的一种实施例中，在客户端的下载场景特征和文件特征命中某云规则时，还可以向客户端索取相应的下载文件，并进一步分析得到相应的云规则。在本发明的另一种实施例中，还可以将现有的未知文件作为文件样本。
[0065]在实际中，可以采用数据库存储所收集的文件样本，同时，该数据库还可以以日志的形式记录每次客户端上传的下载文件的下载场景特征和文件特征及相应的匹配结果。
[0066]总之，云服务器可以通过人工方式、用户举报、等各种方式收集文件样本，并对文件样本进行分析，以快速检测新型的病毒。
[0067]在实际应用中，所述文件样本具体可以包括:安全样本、危险样本、风险样本、可疑样本等等，可以通过分析文件样本的下载场景特征和文件特征得到相应的云规则；其中，每个云规则可以包括至少一项下载场景特征和至少一项文件特征。
[0068]其中每个云规则可具有对应的安全级别，若命中该云规则则对应的匹配结果为其安全等级。在本发明的一种应用示例中，所述安全等级具体可以包括安全等级、可疑/高度可疑等级、风险等级以及危险等级。对于等级的设置，可以设置匹配结果为10-29时为安全等级，匹配结果为30-49时为风险等级，匹配结果为50-69时为可疑/高度可疑等级，匹配结果大于或等于70时为恶意等级等等，本发明对具体的安全等级的划分，及匹配结果与安全等级的对应关系不加以限制。
[0069]在本发明的一种优选实施例中，所述客户端上传至云服务器的步骤具体可以为，所述客户端将所采集的下载文件的下载场景特征和文件特征以字符串的形式封装到数据包中，并将该数据包上传至云服务器；
[0070]在本发明的一种应用示例中，可以采用正则表达式验证上述字符串是否未符合指定安全等级的下载场景特征和文件特征。
[0071]例如，在本发明的一种应用示例中，所述字符串形式的下载场景特征和文件特征具体可以为:WWW.abc.com: \1.txt:下载工具，其中，www.abc.com用于表示下载链接，
1.txt用于表示文件名称，下载工具即表示对应的下载工具。[0072]在本发明的另一种应用示例中，所述字符串形式的下载场景特征和文件特征中可以记录有文件名、文件类型、对应的下载工具、存储位置以及下载时间。其中，文件名可以直接根据下载文件本身的名称得到，文件类型可以根据下载文件的文件名后缀等信息得到(也通过其他的类型分析方式得到)，对应的下载工具即为该下载文件在下载时所采用的下载工具，存储位置可以根据下载路径得到，下载时间可以根据下载文件下载完成时的系统时间得到。
[0073]需要说明的是，本发明实施例只要监测到了下载文件下载完成这一下载行为或者即时通讯工具传输完成这一传输行为就可以触发将所述下载场景特征和文件特征上传至云服务器的步骤，而无需访问各个下载工具的注册表等相关信息，因此能够及时检测下载文件的安全性。
[0074]在实际中，可以将一个或多个下载文件的字符串封装为TCP (传输控制协议，Transmission Control Protocol)或者 UDP (用户数据包协议，User Datagram Protocol)数据包，并进行上传。
[0075]在本发明的另一种应用示例中，所述云服务器将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果的步骤，具体可以包括:
[0076]步骤S100、云服务器从该数据包中解析得到相应的字符串；
[0077]步骤S101、将该字符串输入所述云规则对应的至少一个决策机和与决策机数量相同的训练模型中，输出相应的判别结果。
[0078]其中，不同的决策机使用相同或不同的方式对特征进行训练，相应的训练过程具体可以包括:使用支持向量机的决策机进行训练，或使用决策树的决策机进行训练；训练模型可以为带编码的训练模型、或压缩的训练模型。
[0079]以PE文件为例，可以按照PE文件的结构特征的特征分类的不同使用k个决策机，以及对应k个决策机的k个训练模型。其中，在分析PE文件后，抽取相应的PE文件的结构特征，将所抽取的PE文件的结构特征放入一个相应的特征向量之内，根据已经抽取到的特征，进行特征分类，例如，可以分为PE文件头特征分类、PE标准头特征分类、PE可选头特征分类、数据目录特征分类、常用节表特征分类，根据分类的结果，将不同类别的程序文件的特征向量和安全属性使用不同的决策机进行训练，得到相应的训练模型。这里的安全属性也即最终输出的判别结果，其具体可以包括:多个安全等级；其中，安全等级至少包括危险级和安全级。优选地，还可以对安全等级进行更多层次的划分，以便准确地确定出某一下载文件的危险指数。例如，可以将安全等级按照危险指数从高到低的顺序进一步划分为危险级、可疑级、未知级和安全级四个等级。
[0080]总之，通过上述训练模型和决策机的使用可以节省大量的人力，提高对病毒文件的识别效率；并且，在基于对海量程序进行数据挖掘的基础上，基于下载文件的下载场景特征和文件特征可以发现病毒文件的内在规律，对突发的病毒文件进行预防。
[0081]步骤103、云服务器将所述匹配结果下发给所述客户端。
[0082]客户端可以对收到的匹配结果进行解析得到相应的安全性结果，并发出相应的提示信息，如安全等级、可疑/高度可疑等级、风险等级以及危险等级对应的提示等等。
[0083]总之，本发明实施例由客户端采集下载文件的下载场景特征和文件特征，并上传至云服务器，由云服务器利用通过综合分析文件样本的下载场景特征和文件特征得到的云规则对所述上传的下载文件的下载场景特征和文件特征进行匹配，得到相应的匹配结果；一方面，相对于现有技术仅仅利用MD5特征码进行安全性分析，本发明实施例在安全性分析的过程中综合考虑了下载场景特征和文件特征，因此，对于现有技术中特征码未收录至安全特征码库的下载文件以及其它未知文件等文件具有较好的检测效果；另一方面，能够发挥云服务器实时更新、升级速度快、计算能力强的优势，对于突发的的病毒文件有很好的检测效果。
[0084]参照图2，示出了根据本发明一个实施例的检测下载文件安全性的方法的流程图，具体可以包括:
[0085]步骤201、客户端采集压缩包文件的下载场景特征和文件特征，并上传至云服务器；所述文件特征具体可以包括:文件头格式、压缩前后文件格式、压缩前后文件名称、压缩前后文件大小；
[0086]步骤202、云服务器将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果；其中，所述云规则为通过综合分析文件样本的下载场景特征和文件特征得到，所述云规则具体可以包括:通过比较压缩包文件样本的压缩前后文件格式、压缩前后文件名称、压缩前后文件大小生成的规则；
[0087]步骤203、云服务器将所述匹配结果下发给所述客户端。
[0088]相对于图1所示实施例，本实施例具体针对于压缩包文件安全性的检测，其中，具体地，可以通过比较压缩包文件样本的压缩前后文件格式、压缩前后文件名称、压缩前后文件大小生成相应的云规则，并利用该云规则进行压缩包文件的检测；所述云规则能够检测出文件格式和文件名称是否发生了改变，如果发生改变，则安全等级会下降，所述云规则还能检测出压缩前后文件大小的差异，如果差异过大(如压缩前文件大小为1G，压缩后文件大小为10M)，则安全等级也会很低；总之，本实施例能够在基于下载场景特征的云规则的基础上，灵活利用通过比较压缩包文件样本的压缩前后文件格式、压缩前后文件名称、压缩前后文件大小生成相应的云规则进行压缩包文件安全性的检测，能够及时检测到带有病毒的压缩包文件；其中，压缩包的格式可以包括ace、winrar、ar、ip、tar、cab、uue、jar、iso、z、7-zip、lzh、ar j、gzip、bz2 等多种格式。
[0089]当然除了压缩包文件外，本发明实施例中待检测的下载文件的格式还可以包括:*.doc, *.docx, *.txt, *.BMP, *.JPG, *.Al, *.xlsx等,或者,待检测的下载文件的格式还可以包括MHT (聚合HTML文档)、脚本等，例如，JS格式的样本，HTML格式的样本或者VBS类型的样本等等，本发明实施例对待检测的下载文件的格式不加以限制。
[0090]需要说明的是，除了上述实施例提到的方式外，在一种实现方式中，下载文件的文件特征信息还可以包括:该下载文件的文件内容对应的URL地址。这里，对于MHT格式的网页文件来说，文件内容对应的URL地址通常是指在文件内容(即网页文件的文件正文)中所包含的一个或多个URL地址，这些URL地址既可以采用可点击的超链接形式实现，也可以采用能够被复制的文本形式实现。对于其他格式的网页文件来说，文件内容对应的URL地址除了包括文件内容中所包含的一个或多个URL地址之外，还可以包括该网页文件本身的URL地址(即出现在该网页文件的地址栏中的URL地址，通过该地址能够打开该网页文件)。相应地，本地特征信息库中存储的信息项具体可以包括:多个安全等级的URL信息项。其中，安全等级至少可以包括危险级和安全级。优选地，还可以对安全等级进行更多层次的划分，以便准确地确定出某一下载文件的危险指数。例如，可以将安全等级按照危险指数从高到低的顺序进一步划分为危险级、可疑级、未知级和安全级四个等级，每个等级可以分别对应一个或多个URL信息项。其中，每个等级所对应的各个URL信息项既可以是完整的URL地址，也可以是URL地址中所包含的部分片段。具体地，在获取每个等级所对应的URL信息项时，可以通过机器学习算法对预设数量的样本进行分析得到。
[0091]在第二种实现方式中，下载文件的文件特征信息还可以包括:该下载文件的文件内容中包含的明文字符串。例如，文件内容中包含的以明文形式出现的中文字词、英文单词等均可以作为明文字符串。具体地，在获取这些明文字符串时，只需对文件内容进行分词处理即可。相应地，本地特征信息库中存储的信息项具体可以包括:多个安全等级的明文字符串集合。其中，安全等级可直接参照上面的划分方式进行划分，每个等级分别对应一个或多个明文字符串集合。例如，由“幸运用户”和“中奖”这两个明文字符串所构成的集合就可以作为危险级所对应的一个明文字符串集合，如果一个下载文件中包含该明文字符串集合，则很可能表示该下载文件为“钓鱼文件”。所谓“钓鱼文件”是指不法分子利用各种手段，仿冒真实网站的URL地址以及页面内容，或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码，以此来骗取用户银行或信用卡账号、密码等私人资料。具体地，在获取每个等级所对应的明文字符串集合时，也可以通过机器学习算法对预设数量的样本进行分析得到。
[0092]在第三种实现方式中，下载文件的文件特征信息还可以包括:文件内容对应的文件页面元素。这里提到的文件页面元素主要可以包括:图片、文本特征和网页链接等内容。第三种实现方式与第二种实现方式的主要区别在于:文件页面元素的概念与明文字符串的概念相比，前者所涵盖的内容更多更丰富，因而能够更全面地体现出文件的特征。例如，在本实施例中，可以通过文档对象模型DOM树来表示上述的文件页面元素。通过DOM树能够清楚地反映出一篇文档的页面结构和页面内容。在介绍DOM树的结构之前，先介绍一下网页文件的常见结构:在网页文件上包括多块内容，例如显示的文本内容(如关于该网页主题的文字表述),URL内容、显示的图片内容、视频内容等。每块内容对应一个页面组件,各页面组件有各自不同的数据内容，数据内容记载了该页面组件在页面上展示的结构和样式。以图片内容为例，其对应的页面组件的数据内容中包含在页面上展示的图片大小、图片标题相对于图片的位置、图片标题的文本格式，该文本格式包括字体大小、颜色、字体类型等。模块列表中包含了各页面组件模块的数据内容，数据内容包括超文本标记语言(HTML，HyperText Mark-up Language)、层叠样式表(CSS, Cascading Style Sheet)和 javascript 组装脚本等表现方式；模块列表中的页面组件模块可采用表格方式排列，也可采用图形方式表示各页面组件模块。DOM树就是一种通过树状结构来描述上述的网页文件结构的方式。在构建DOM树时，需要对文档进行分析，获取其中的根元素以及各个元素，据此明确整篇文档的结构，其中，根元素可以通过html标识，元素可以通过head、body、title等字节来标识；然后，还要获取各个元素对应的文本内容，该文本内容包括图片、链接等，据此明确整篇文档所表述的内容。由此可见，通过DOM树表示文件页面元素的方式能够全面地反应出一篇文档所包含的内容，因而不会遗漏任何钓鱼内容等恶意信息，达到全面扫描的目的。
[0093]参照图3，示出了根据本发明一个实施例的检测下载文件安全性的装置的结构图，具体可以包括:客户端301和云服务器302 ；[0094]其中，所述客户端301具体可以包括:
[0095]采集模块311，用于采集下载文件的下载场景特征和文件特征；及
[0096]上传模块312，用于将所采集的下载文件的下载场景特征和文件特征上传至云服务器；
[0097]所述云服务器302具体可以包括:
[0098]匹配模块321，用于将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果；其中，所述云规则为通过综合分析文件样本的下载场景特征和文件特征得到 '及
[0099]下发模块322，用于将所述匹配结果下发给所述客户端。
[0100]在本发明的一种优选实施例中，所述下载场景特征具体可以包括如下特征中的一项或多项:下载链接，下载工具或即时通讯工具的类型，是否处于网购或者支付模式。
[0101]在本发明的另一种优选实施例中，所述文件样本的收集方式具体可以包括如下方式中的一项或多项:
[0102]主动抓取下载链接；
[0103]获取用户举报的文件样本
[0104]获取第三方合作的网站提供的文件样本。
[0105]在本发明的再一种优选实施例中，述下载文件为压缩包文件，则所述文件特征具体可以包括:文件头格式、压缩前后文件格式、压缩前后文件名称、压缩前后文件大小；
[0106]则所述云规则具体可以包括:通过比较压缩包文件样本的压缩前后文件格式、压缩前后文件名称、压缩前后文件大小生成的规则。
[0107]在本发明实施例中，优选的是，所述上传模块312，可具体用于将所采集的下载文件的下载场景特征和文件特征以字符串的形式封装到数据包中，并将该数据包上传至云服务器；
[0108]则所述匹配模块321，具体可以包括:
[0109]解析子模块，用于云服务器从该数据包中解析得到相应的字符串；
[0110]判别子模块，用于将该字符串输入所述云规则对应的至少一个决策机和与决策机数量相同的训练模型中，输出相应的判别结果。
[0111]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0112]在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
[0113]类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】，其中每个权利要求本身都作为本发明的单独实施例。
[0114]本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0115]此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0116]本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP )来实现根据本发明实施例的检测下载文件安全性的方法及装置设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
[0117]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
【权利要求】
1.一种检测下载文件安全性的方法，包括: 客户端采集下载文件的下载场景特征和文件特征，并上传至云服务器；云服务器将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果；其中，所述云规则为通过综合分析文件样本的下载场景特征和文件特征得到；云服务器将所述匹配结果下发给所述客户端。
2.如权利要求1所述的方法，其特征在于，所述下载场景特征包括如下特征中的一项或多项:下载链接，下载工具或即时通讯工具的类型，是否处于网购或者支付模式。
3.如权利要求1所述的方法，其特征在于，所述文件样本的收集方式包括如下方式中的一项或多项: 主动抓取下载链接；获取用户举报的文件样本获取第三方合作的网站提供的文件样本。
4.如权利要求1所述的方法，其特征在于，所述下载文件包括压缩包文件，则所述压缩包文件的文件特征包括:文件头格式、压缩前后文件格式、压缩前后文件名称、压缩前后文件大小；则所述云规则包括:通过比较压缩包文件样本的压缩前后文件格式、压缩前后文件名称、压缩前后文件大小生成的规则。
5.如权利要求1所述的方法，其特征在于，所述客户端上传至云服务器的步骤为，所述客户端将所采集的下载文件的下载场景特征和文件特征以字符串的形式封装到数据包中，并将该数据包上传至云服务器；则所述云服务器将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果的步骤，包括: 云服务器从该数据包中解析得到相应的字符串；将该字符串输入所述云规则对应的至少一个决策机和与决策机数量相同的训练模型中，输出相应的判别结果。
6.—种检测下载文件安全性的系统,包括:客户端和云服务器；其中，所述客户端，包括: 采集模块，用于采集下载文件的下载场景特征和文件特征；及上传模块，用于将所采集的下载文件的下载场景特征和文件特征上传至云服务器；所述云服务器，包括: 匹配模块，用于将所述下载场景特征和文件特征与规则引擎中云规则进行匹配，得到相应的匹配结果；其中，所述云规则为通过综合分析文件样本的下载场景特征和文件特征得到 '及下发模块，用于将所述匹配结果下发给所述客户端。
7.如权利要求6所述的系统，其特征在于，所述下载场景特征包括如下特征中的一项或多项:下载链接，下载工具或即时通讯工具的类型，是否处于网购或者支付模式。
8.如权利要求6所述的系统，其特征在于，所述文件样本的收集方式包括如下方式中的一项或多项: 主动抓取下载链接；获取用户举报的文件样本获取第三方合作的网站提供的文件样本。
9.如权利要求6所述的系统，其特征在于，所述下载文件为压缩包文件，则所述文件特征包括:文件头格式、压缩前后文件格式、压缩前后文件名称、压缩前后文件大小；则所述云规则包括:通过比较压缩包文件样本的压缩前后文件格式、压缩前后文件名称、压缩前后文件大小生成的规则。
10.如权利要求6所述的系统，其特征在于，所述上传模块，具体用于将所采集的下载文件的下载场景特征和文件特征以字符串的形式封装到数据包中，并将该数据包上传至云服务器；则所述匹配模块，包括: 解析子模块，用于云服务器从该数据包中解析得到相应的字符串；判别子模块，用于将该字符串输入所述云规则对应的至少一个决策机和与决策机数量相同的训练模型中，输出相应的判别结果。
【文档编号】H04L29/08GK103914655SQ201410098964
【公开日】2014年7月9日申请日期:2014年3月17日优先权日:2014年3月17日
【发明者】魏志江, 孙晓骏申请人:北京奇虎科技有限公司, 奇智软件（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：魏志江;孙晓骏
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司
我是此专利的发明人

上一篇：用于捕捉和观察图像的装置和方法
上一篇：用于声学回声抵消器的基于倒谱距离的消波的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。