可信网站的识别方法和收集系统的制作方法

文档序号：7867637阅读：217来源：国知局

专利名称：可信网站的识别方法和收集系统的制作方法
技术领域：
本发明涉及网络领域，尤其涉及一种可信网站的识别方法和收集系统。
背景技术：
互联网时代大多数软件都是通过互联网分发的，其中，下载站、论坛、官方网站下载链接是软件发布的重要通道。目前，大部分下载站、论坛都允许用户自由提交内容。例如，很多下载站、论坛都提供了上传组件，普通的网站用户通过这些上传组件就可以将自己想发布的软件上传，供其他用户下载使用。而不法分子恰好可以利用这一点，传播病毒、木马、强制捆绑插件等恶意样本。这一方面带来了巨大的网络安全隐患，另一方面又给有下载需求的用户造成了很大的安全风险。
而官方网站发布的软件可信度很高。因此，为了保障有下载需求的用户的网络安全，需要识别出互联网中所有可信度较高的网站的下载链接，以供用户安全下载。发明内容
鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的可信网站的识别方法和收集系统。
根据本发明的一个方面，提供了一种可信网站的识别方法，包括
提取当前网站在一设定时间段内的下载日志，根据所述下载日志中的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量；
根据当前网站的所述样本数量和用户数量获取当前网站的可信度，并根据当前网站的可信度和样本数量识别所述当前网站是否为官方网站；
其中，根据当前网站的所述样本数量和用户数量获取当前网站的可信度进一步包括所述当前网站的可信度与所述样本数量成反比，与所述用户数量成正比。
根据本发明的另一个方面，提供了一种可信网站的收集系统，包括可信样本数据库以及服务器，其中所述服务器，适于提取当前网站在一设定时间段内的下载日志，根据提取的所述下载日志中的用户标识和下载文件标识并统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量，根据统计出的当前网站的所述样本数量和用户数量获取当前网站的可信度，根据获取的当前网站的可信度和统计出的样本数量识别所述当前网站是否为官方网站；
所述可信样本数据库，适于收集经所述服务器判定的官方网站。
可选地，所述服务器包括
提取模块，用于提取当前网站在一设定时间段内的下载日志；
统计模块，用于根据所述提取模块提取的所述下载日志中的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量；
获取模块，用于根据所述统计模块统计出的当前网站的所述样本数量和用户数量获取当前网站的可信度；
识别模块，用于根据所述获取模块获取的当前网站的可信度和所述统计模块统计出的样本数量识别所述当前网站是否为官方网站。
由于下载网站的链接中会有一些压缩包，有可能包括一些恶意脚本等，或者是被恶意程序利用的文件等，而通过本发明的可信网站的识别方法和收集系统，能够识别出可信度较高的官方网站，一方面，提高服务器收集正确的可信网站的效率，避免服务器下载到一些被恶意软件利用的文件，另外一方面为有下载需求的用户提供了可靠的下载网站，从而降低了用户下载到恶意样本的风险，提高了用户的网络安全保障。
上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式
。

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中
图I示意性示出了根据本发明一个实施例的可信网站的识别方法流程图2示意性示出了根据本发明一个实施例的可信网站的识别方法的另一流程图3示意性示除了根据本发明再一个实施例的可信网站的识别方法中更新样本阈值进行可信度判定的流程示意图。
图4示意性示出了根据本发明一个实施例的可信网站的识别装置的框图5示意性示出了根据本发明一个实施例的可信网站的识别装置的又一框图6示意性示出了根据本发明一个实施例的可信网站的收集系统的框图。
具体实施方式
下面结合附图和具体的实施方式对本发明作进一步的描述。
本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等坐寸ο
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
互联网上每天都会产生大量的新的文件，其中大部分是新的软件和升级补丁包，这些新的软件和升级补丁包可以收集到服务器端的白名单数据库中的文件。为了及时将这些新的软件和升级补丁包收录进入白名单数据库中，首先要查看这些软件的发布渠道，通常可以通过查看这些软件的官方网站来确定发布渠道，然后对这些官方网站进行监控。
服务器端的白名单数据库对合法程序的白名单还可以进行收集更新，具体可以由以下方式实现。
第一方式由技术人员周期性通过手工、利用蜘蛛或网络爬虫和/或用户上传对合法程序进行收集；通过手工或通过工具自动甄别所述合法程序的程序特征和或程序行为并保存在所述白名单中。
第二方式根据现有已知白名单中的合法程序特征及其对应的程序行为，对未知程序特征及程序行为进行分析，以更新白名单。
本发明实施例的识别可信网站的系统，可以通过获取下载文件的下载日志，并对下载日志进行分析，下载日志中提取当前网站，从当前网站中确认官方网站，最后将官方网站中外挂和/或私服网站过滤掉。通过对软件的下载日志进行分析，可以获取到更加准确的下载信息。
图I示意性示出了根据本发明一个实施例的可信网站的识别方法流程图。如图I 所示，本实施例中，可信网站的识别流程可以包括如下步骤
步骤S11，提取当前网站在一设定时间段内的下载日志；
当互联网中某个客户端设备在某个下载网站上下载某些软件的时候，可以采集客户端设备的下载行为，并将客户端设备的下载行为记载为软件的下载日志。该下载日志中会记录一些软件的下载信息，例如软件的下载路径、软件下载的网站信息等，通过这些下载信息，可以获取到软件下载的具体情况。
例如，下载日志中有两个软件的网站信息分别为http://www. badiu. com/xxxx和 http://www. baidu. com/yyyy,可以从这两个软件下载的网站信息中提取出侯选网站标识信息均为www. baidu. com。当然,还可以通过其他方式提取网站标识信息,本发明对此并不加以限制。其中，当前网站可以是下载站网站或论坛网站等等。
下载日志中一般包含如下信息客户端设备下载的软件的签名、客户端设备下载软件的路径、软件下载的网站信息和下载的软件文件名。当然，所述下载日志中还可以包括一些其他信息，例如软件的下载时间等，本发明实施例对此并不加以限制比如，下载日志中还可以包括用户id、下载文件的哈希值(hash值)、下载文件的父页面、用户下载文件当前页面的URL (UniformResource Locator,统一资源定位符)等。下载文件的哈希值用于唯一标识下载文件。哈希值也可以称为md5值，如果下载文件是压缩包文件，下载日志中还要包含压缩包里的文件的md5值。
步骤S12，根据步骤Sll提取的下载日志中的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量；
步骤S13，根据步骤S12统计得到的当前网站的样本数量和用户数量获取当前网站的可信度；
一般来说，在一设定时间段内从官方网站下载文件的种类比较少，因为官方网站上提供的下载文件的更新速度较慢，而且版本相对比较少。如果同一个人从一个网站下载的各文件相对随机，而且很多客户端在设定时间段内均从该网站下载了同一个文件，则可以判定该文件是相对可信的，而提供该文件的网站应该是官方网站。
有上述可知，假设一段时间内从某一网站有m个用户下载了 η种样本，如果η值比较小，m比较大，η值就比较可信。基于此，获取当前网站的可信度的一种方式可以是当前网站的可信度与样本数量(通过步骤S12获得)成反比，与用户数量(通过步骤S 12获得)成正比。
在本发明实施例中，可以通过如下的公式(I)计算可信度
ff=m/η 公式(I)
上述公式(I)中，W为当前网站的可信度，m为设定时间段内进行过下载操作的下载链接的用户数量，η为设定时间段内进行过下载操作的下载链接的样本数量。
步骤S14，根据步骤S13获取的当前网站的可信度和步骤S12统计得到的当前网站的样本数量识别当前网站是否为官方网站。
假设以上述的公式(I)来计算可信度，如果η值小于预设的样本数阈值，且W值大于预设的可信度阈值，则可以判定当前网站为官方网站。
其中，样本数阈值和可信度阈值可以根据经验获取。比如，取样本数阈值>=6的情况下，可信度阈值>=1.5的下载链接中有85% (正确率)都是官网下载链接，占全部官网下载站的75%(查全率)。调低样本数阈值，就会降低正确率，提升查全率；反之，调高样本数阈值，会提高正确率，降低查全率。调高可信度阈值，会提升正确率，降低查全率。
在本发明其他实施例中，若通过步骤S14判定当前网站为官方网站时，还可以进一步由该官方网站抓取下载链接。并且，还可以进一步将抓取的下载链接保存到白名单中。抓取操作可以通过各种网络爬虫业务和/或网站监控业务来完成。
通过步骤S14可以识别的官方网站中可能还包括外挂网站、私服网站等第三方网站。考虑到外挂网站样本、私服网站样本的特殊性，需要对外挂网站、私服网站单独处理。因此，可选地，在步骤S14之后，还可以进一步从识别出的官方网站中排除外挂网站、私服网站，以确定需要可信网站。若判定当前网站为可信网站时，还可以进一步由该可信网站抓取下载链接。并且，还可以进一步将抓取的下载链接保存到白名单中。
外挂网站和私服网站的去除可以利用贝叶斯分类器完成。本发明实施例中，利用贝叶斯文本分类器对网页中的文字信息做特征统计，计算给定网页属于外挂官网的概率，如果该概率值大于设定的概率阈值，则认为其是外挂官网。
除了需要去除外挂网站外，还可以去除私服网站具体方法可以如下
首先，获得私服网站的参考样本，利用贝叶斯文本分类器对私服网站参考样本参考样本的网页内容进行文本分词，并分别在私服网站类别上统计所分得的词组的词频从而得到两个参考向量
V-SOFT= {wordl_count, word2_count,…，wordn_count}
其次，获取一个待分类网页，将该待分类网页的内容进行文本分词，得到向量
V-UNKNOffN= {wordl_count, word2_count,…，wordn_count}
之后，分别计算由V-UNKN0WN到V-SOFT的距离，根据所获得的上述距离与相应阈值进行比对，上述距离小于对应阈值时，则说明待分类网页越靠近私服网站的类别，从而可以分辨是否是私服网站，通过这种方式对该待分类网站进行分类，当然本方式不仅限于分类私服网站，还可以用于分类其他网站。
最后，由官方网站中剔除私服网站、外挂网站。
本发明实施例的可信网站的识别方法，能够识别出可信度较高的官方网站，从而为有下载需求的用户提供了可靠的下载网站，降低了用户下载到恶意样本的风险，提高了用户的网络安全保障。
图2示意性示出了根据本发明一个实施例的可信网站的识别方法的另一流程图。如图2所示，可信网站的识别方法可以包括
步骤S21、根据当前网站的url确定对应的日志存储服务器的地址；一般地，用户对当前网站进行资源下载操作时，产生的一系列数据信息，这些信息以日志的形式记载在日志存储服务器上，每一行日志都记载着对日期、时间、使用者及下载当前网站上资源等相关操作的描述。
步骤S22、根据所述日志存储服务器地址的地址，提取当前网站在一设定时间内的下载日志；
为了可以快速有效地评估当前网站的可信性，优选地，从日志存储服务器上截取部分下载日志来进行处理，在截取时，可以以时间点为依据进行时间段的划分，提取某一时间段内即设定时间段内的下载日志，以便进行快速有效的分析。该设定时间段的长短并不做特别限定，可以依据数据运算效率以及可信性判定的可靠性来进行设置。
步骤S23、从提取到的下载日志中获取用户标识和下载文件标识；
由于下载日志中，大多都包含下载当前网站资源的用户标识(id)、以及当前网站上被下载的资源即下载文件标识(id)，通过用户标识可以识别出在当前网站上，设定时间段内下载了资源的用户，而通过下载文件标识即可识别出当前网站上被用户下载的文件。
步骤S24、根据提取的设定时间段内的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量；
如前所述，由于本实施例中只是提取了设定时间段内容的下载日志，因此，在统计分析时，相应地，只针对设定时间段内，下载日志中的用户标识和下载文件标识进行，可以通过登录并下载当前网站资源的注册用户名进行统计，也可以根据匿名访问当前网站并下载资源的IP地址进行统计。
步骤S25、根据当前网站的可信度与样本数量成反比，与用户数量成正比，获取当前网站的可信度；
在本发明实施例中，可以通过如下的公式(I)计算可信度
ff=m/η 公式(I)
上述公式(I)中，W为当前网站的可信度，m为设定时间段内进行过下载操作的下载链接的用户数量，η为设定时间段内进行过下载操作的下载链接的样本数量。
可理解的，本发明实施例也可以采用其他类似非线性的可信度计算方法，来获取当前网站的可信度，在此不再赘述。
步骤S26、判断可信度是否不小于设定的可信度阈值，如果是则执行步骤S27 ;否则，执行步骤29 ；
步骤S27、判断样本数量是否不小于设定的样本阈值，如果是，则执行步骤30 ;否则，执行步骤29。8
步骤29、判定当前网站为非官方网站；
步骤30、判定当前网站为官方网站。
在步骤S30之后，可以去除官方网站中的私服网站、外挂网站等第三方网站后得到可信网站，并且收集到可信网站后，可以周期性通过手工、利用蜘蛛或网络爬虫和/或用户上传对可信网站的文件进行收集；后续通过手工或通过工具自动甄别文件相关的程序的程序特征和或程序行为并保存在白名单数据库。
可以进一步的根据现有已知白名单中的合法程序特征及其对应的程序行为，对未知程序特征及程序行为进行分析，以更新白名单。
图3示意性示除了根据本发明再一个实施例的可信网站的识别方法中更新样本阈值进行可信度判定的流程示意图。如图3所示，本实施例中，与上述图2所示实施例不同的是，为了提高可信判定的准确率，防止错判的情况出现，针对不同时长的设定时间段的可信度进行处理，与此同时更新样本阈值，其可以包括如下步骤
步骤S31、针对当前设定时间段内，根据当前网站的可信度与样本数量成反比，与用户数量成正比，获取当前设定时间段内容当前网站的可信度；
在本发明实施例中，可以通过如下的公式(I)计算可信度
ff=m/n 公式(I)
上述公式(I)中，W为当前网站的可信度，m为设定时间段内进行过下载操作的下载链接的用户数量，η为设定时间段内进行过下载操作的下载链接的样本数量。
可理解的，本发明实施例也可以采用其他类似非线性的可信度计算方法，来获取当前网站的可信度，在此不再赘述。
步骤S32、判断针对当前设定时间段内对应的可信度是否不小于设定的可信度阈值，如果是则执行步骤S33 ;否则，执行步骤S34 ；
步骤S33、判断针对当前设定时间段内样本数量是否不小于设定的样本阈值，如果是，则执行步骤S35 ;否则，执行步骤S34。
步骤S34、判定当前网站为非官方网站；
步骤S35、针对另一设定时间段内，根据当前网站的可信度与样本数量成反比，与用户数量成正比，获取另一设定时间段内容当前网站的可信度，并执行步骤S36 ；
步骤S35中，获取另一设定时间段内的可信度可参见上述图I中针对当前时间段内可信度的计算方法，在此不再赘述。
步骤S36、判断针对该另一设定时间段内对应的可信度是否不小于设定的可信度阈值，如果是则执行步骤S37 ;否则，执行步骤34 ；
步骤S37、更新样本阈值；
步骤S38、判断针对该另一设定时间段内样本数量是否不小于更新后的样本阈值，如果是，则执行步骤39 ;否则，执行步骤S35。
步骤S39、判定当前网站为官方网站。
在步骤S39之后，可以去除官方网站中的私服网站、外挂网站等第三方网站后得到可信网站，并且收集到可信网站后，可以周期性通过手工、利用蜘蛛或网络爬虫和/或用户上传对可信网站的文件进行收集；后续通过手工或通过工具自动甄别文件相关的程序的程序特征和或程序行为并保存在白名单数据库。
可以进一步的根据现有已知白名单中的合法程序特征及其对应的程序行为，对未知程序特征及程序行为进行分析，以更新白名单。
由于本方案能提高了收集的文件的来源网站可信的几率，所以可以提高白名单 (可信网站)的收集的效率。
需要说明的是，参照图3所示的实施例，可以有多个设定的时间内，并分别统计多个对应的可信度，依据该多个对应的可信度，来进行当前网站的可信性判断，详述过程在此不再赘述。
另外，根据步骤S14中的描述，调低样本数阈值，就会降低正确率，提升查全率；反之，调高样本数阈值，会提高正确率，降低查全率。调高可信度阈值，会提升正确率，降低查全率。因此，本实施例中仅通过更新样本阈值来进行网站可信性的判断。
在另一实施例中还可以通过更新可信度阈值来进行网站可信性的判断，在此不再赘述。
图4示意性示出了根据本发明一个实施例的可信网站的识别装置的框图。如图4 所示，本实施例中，可信网站的识别装置可以包括提取模块41、统计模块42、获取模块43和识别模块44。提取模块41用于提取当前网站在一设定时间段内的下载日志。统计模块42 用于根据提取模块41提取的所述下载日志中的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量。获取模块43 用于根据统计模块42统计出的当前网站的所述样本数量和用户数量获取当前网站的可信度。识别模块44用于根据获取模块43获取的当前网站的可信度和统计模块42统计出的样本数量识别所述当前网站是否为官方网站。识别模块44还用于从识别的所述官方网站中清理第三方网站后，获得可信网站。
其中，识别模块44还可以用于在样本数量小于预设的样本数阈值，且当前网站的可信度大于预设的可信度阈值时，判定当前网站为官方网站。
在本发明实施例中，图5示意性示出了根据本发明一个实施例的可信网站的识别装置的又一框图。可信网站的识别装置还可以包括抓取模块45。抓取模块45与识别模块 44相连，用于在识别模44块判定当前网站为官方网站时，由所述官方网站抓取下载链接；所述抓取模块45还用于在所述识别模块44判定所述当前网站为可信网站时，由所述可信网站抓取下载链接。进一步地，可信网站的识别装置还可以包括保存模块46。保存模块46 与上述的抓取模块45相连，用于将抓取模块45抓取的下载链接保存到白名单数据库中。
其中，当前网站的可信度可以与所述样本数量成反比，与所述用户数量成正比。
其中，当前网站可以是下载站网站或论坛网站等等。
本发明实施例的可信网站的识别装置，通过执行上述的可信网站的识别方法，能够识别出可信度较高的官方网站，从而为有下载需求的用户提供了可靠的下载网站，降低了用户下载到恶意样本的风险，提高了用户的网络安全保障。
图6示意性示出了根据本发明一个实施例的可信网站的收集系统的框图。如图5 所示，本实施例中，可信网站的收集系统可以包括服务器51和可信样本数据库52。
服务器51包括CPU或者DSP等具有数据处理功能的处理器集群511，以执行提取当前网站在一设定时间段内的下载日志、根据提取的所述下载日志中的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和1用户数量、根据所统计出的当前网站的所述样本数量和用户数量获取当前网站的可信度、根据获取的当前网站的可信度和统计出的样本数量识别所述当前网站是否为官方网站；
在服务器51，可以通过其CPU或者DSP控制有线网卡或者无线网卡访问当前网站以提取当前网站的下载日志。
可信样本数据库52用于收集经所述服务器51判定的官方网站。
可选地，所述服务器包括
提取模块，用于提取当前网站在一设定时间段内的下载日志；
统计模块，用于根据所述提取模块提取的所述下载日志中的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量；
获取模块，用于根据所述统计模块统计出的当前网站的所述样本数量和用户数量获取当前网站的可信度；
识别模块，用于根据所述获取模块获取的当前网站的可信度和所述统计模块统计出的样本数量识别所述当前网站是否为官方网站。
可选地，所述识别模块还用于在所述样本数量小于预设的样本数阈值，且所述当前网站的可信度大于预设的可信度阈值时，判定所述当前网站为官方网站。
可选地，所述服务器还包括抓取模块，与所述识别模块相连，用于在所述识别模块判定所述当前网站为官方网站时，由所述官方网站抓取下载链接。
可选地，所述识别模块，还用于从识别的所述官方网站中清理第三方网站后，获得可信网站。
可选地，所述抓取模块，还用于在所述识别模块判定所述当前网站为可信网站时，由所述可信网站抓取下载链接。
可选地，所述服务器还包括保存模块，与所述抓取模块相连，用于将所述抓取模块抓取的下载链接保存到白名单数据库中。
本实施例中，有关官方网站识别装置及其各个功能模块的技术描述可参见上述实施例，在此不再赘述。
本发明实施例的可信网站的收集系统，可以通过获取下载文件的下载日志，并对下载日志进行分析，下载日志中提取当前网站，从当前网站中确认官方网站，最后将官方网站中外挂和/或私服网站等第三方网站过滤掉。通过对软件的下载日志进行分析，可以获取到更加准确的下载信息。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。
权利要求
1.一种可信网站的识别方法，其特征在于，包括提取当前网站在一设定时间段内的下载日志，根据所述下载日志中的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量；根据当前网站的所述样本数量和用户数量获取当前网站的可信度，并根据当前网站的可信度和样本数量识别所述当前网站是否为官方网站；其中，根据当前网站的所述样本数量和用户数量获取当前网站的可信度进一步包括所述当前网站的可信度与所述样本数量成反比，与所述用户数量成正比。
2.如权利要求I所述的可信网站的识别方法，其特征在于，还包括若判定所述当前网站为官方网站时，由所述官方网站抓取下载链接，将抓取的下载链接保存到白名单数据库中。
3.根据权利要求I所述的可信网站的识别方法，其特征在于，还包括从识别的所述官方网站中清理第三方网站后，获得可信网站。
4.如权利要求3所述的方法，其特征在于，还包括若判定所述当前网站为可信网站时，由所述可信网站抓取下载链接，将抓取的下载链接保存到白名单数据库中。
5.如权利要求I所述的可信网站的识别方法，其特征在于，根据当前网站的可信度和样本数量识别所述当前网站是否为官方网站，进一步包括若所述样本数量小于预设的样本数阈值，且所述当前网站的可信度大于预设的可信度阈值，则判定所述当前网站为官方网站。
6.一种可信网站的收集系统，包括可信样本数据库以及服务器，其中服务器，适于提取当前网站在一设定时间段内的下载日志，根据提取的所述下载日志中的用户标识和下载文件标识并统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量，根据统计出的当前网站的所述样本数量和用户数量获取当前网站的可信度，根据获取的当前网站的可信度和统计出的样本数量识别所述当前网站是否为官方网站；可信样本数据库，适于收集经所述服务器判定的官方网站。
7.如权利要求6所述的收集系统，其特征在于，所述服务器包括提取模块，用于提取当前网站在一设定时间段内的下载日志；统计模块，用于根据所述提取模块提取的所述下载日志中的用户标识和下载文件标识，统计出当前网站在所述设定时间段内进行过下载操作的下载链接的样本数量和用户数量; 获取模块，用于根据所述统计模块统计出的当前网站的所述样本数量和用户数量获取当前网站的可信度；识别模块，用于根据所述获取模块获取的当前网站的可信度和所述统计模块统计出的样本数量识别所述当前网站是否为官方网站。
8.如权利要求7所述的收集系统，其特征在于，所述识别模块还用于在所述样本数量小于预设的样本数阈值，且所述当前网站的可信度大于预设的可信度阈值时，判定所述当前网站为官方网站。
9.如权利要求7所述的收集系统，其特征在于，所述服务器还包括抓取模块，与所述识别模块相连，用于在所述识别模块判定所述当前网站为官方网站时，由所述官方网站抓取下载链接。
10.根据权利要求7所述的收集系统，其特征在于，所述识别模块，还用于从识别的所述官方网站中清理第三方网站后，获得可信网站。
11.如权利要求10所述的收集系统，其特征在于，所述抓取模块，还用于在所述识别模块判定所述当前网站为可信网站时，由所述可信网站抓取下载链接。
12.如权利要求9或11所述的收集系统，其特征在于，所述服务器还包括保存模块，与所述抓取模块相连，用于将所述抓取模块抓取的下载链接保存到白名单数据库中。
全文摘要
本发明公开了一种可信网站的识别方法和收集系统。该收集系统包括可信样本数据库和服务器，该服务器适于提取当前网站在一设定时间段内的下载日志，根据提取的所述下载日志中的用户标识和下载文件标识并统计出当前网站在设定时间段内进行过下载操作的下载链接的样本数量和用户数量，根据统计出的当前网站的样本数量和用户数量获取当前网站的可信度，根据获取的当前网站的可信度和统计出的样本数量识别当前网站是否为官方网站；可信样本数据库，适于收集经服务器判定的官方网站。采用本发明的技术方案，能够识别出可信度较高的官方网站，从而为有下载需求的用户提供了可靠的下载网站，降低了用户下载到恶意样本的风险，提高了用户的网络安全保障。
文档编号H04L29/08GK102984162SQ20121051847
公开日2013年3月20日申请日期2012年12月5日优先权日2012年12月5日
发明者于春功, 张超旭申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于春功;张超旭
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。