一种文件识别方法、装置及服务器的制造方法

文档序号：7985288阅读：193来源：国知局

一种文件识别方法、装置及服务器的制造方法
【专利摘要】本发明适用于信息安全【技术领域】，提供了一种文件识别方法、装置及服务器，包括：根据客户端上报的扫描结果建立数据库，所述数据库中记录了从所述扫描结果中提取的每个所述客户端的GUID及其上报的被扫描文件的校验码；根据所述被扫描文件的校验码，分别在所述数据库中查询每个所述被扫描文件的上报客户端的GUID；根据查询出的每个所述被扫描文件的上报客户端的GUID，分别获取第一所述被扫描文件与每个第二所述被扫描文件之间的共存率；根据所述共存率高于预设阈值的第二所述被扫描文件的属性，确定第一所述被扫描文件的属性。本发明进一步提高了服务器对被扫描文件识别的准确性，加强了对客户端的信息安全保障。
【专利说明】一种文件识别方法、装置及服务器
【技术领域】
[0001]本发明属于信息安全【技术领域】，尤其涉及一种文件识别方法、装置及服务器。
【背景技术】
[0002]在当前的云查杀技术中，当客户端在用户机器上扫描出未知或者行为可疑的文件且服务器的文件信息库中不存在该文件的状态信息时，则由客户端将该文件进行上报，月艮务器的虚拟化数据中心(Virtual Data Center，VDC)系统根据该文件的内容或者程序行为等一系列鉴定逻辑判断该文件的属性为黑文件(病毒文件)或者白文件(安全文件)。服务器在将判断结果返回给客户端的同时，还将判断结果记录在文件信息库中，以使得此后能够直接向查询该文件属性的客户端返回该文件的属性。
[0003]然而，服务器在对未知或者行为可疑的文件进行判断时，只能针对每个文件进行单独的分析与判断，在判断过程中没有考虑到一个文件与其他文件之间的父子关系或者依赖关系。例如，一个新的病毒母体文件A.exe在运行过程中会在某目录中释放两个病毒子体文件B.exe和B.dll，其中，B.dll为具有危害行为的病毒模块，而B.exe本身并没有实质的危害行为，其只负责在系统启动后运行并加载B.dll。上述三个病毒文件在被客户端捕获并上报给服务器后，服务器无法获知这三个病毒文件之间的关系，使得B.exe有极大可能被鉴定为安全的白文件，降低了服务器对文件的识别准确率。

【发明内容】

[0004]本发明实施例的目的在于提供一种文件识别方法，旨在解决现有技术中服务器对客户端上报的文件识别准确率低的问题。
[0005]本发明实施例是这样实现的，一种文件识别方法，包括:
[0006]根据客户端上报的扫描结果建立数据库，所述数据库中记录了从所述扫描结果中提取的每个所述客户端的全球唯一标识符GUID及其上报的被扫描文件的校验码；
[0007]根据所述被扫描文件的校验码，分别在所述数据库中查询每个所述被扫描文件的上报客户端的GUID ；
[0008]根据查询出的每个所述被扫描文件的上报客户端的GUID，分别获取第一所述被扫描文件与每个第二所述被扫描文件之间的共存率；
[0009]根据所述共存率高于预设阈值的第二所述被扫描文件的属性，确定第一所述被扫描文件的属性。
[0010]本发明实施例的另一目的在于提供一种文件识别装置，包括:
[0011]数据库建立单元，用于根据客户端上报的扫描结果建立数据库，所述数据库中记录了从所述扫描结果中提取的每个所述客户端的全球唯一标识符GUID及其上报的被扫描文件的校验码；
[0012]查询单元，用于根据所述被扫描文件的校验码，分别在所述数据库中查询每个所述被扫描文件的上报客户端的GUID ；[0013]获取单元，用于根据查询出的每个所述被扫描文件的上报客户端的GUID，分别获取第一所述被扫描文件与每个第二所述被扫描文件之间的共存率；
[0014]确定单元，用于根据所述共存率高于预设阈值的第二所述被扫描文件的属性，确定第一所述被扫描文件的属性。
[0015]本发明实施例的另一目的在于提供一种服务器，所述服务器包括如上所述的文件识别装置。
[0016]本发明实施例在由服务器对客户端上报的未知或者行为可疑的被扫描文件进行识别时，通过考察被扫描文件与其他文件共存于一台机器上的情况，根据共存率最高的文件的属性来确定被扫描文件的属性，进一步提高了服务器对被扫描文件识别的准确性，力口强了对客户端的信息安全保障。
【专利附图】

【附图说明】
[0017]图1是本发明实施例提供的文件识别方法的实现流程图；
[0018]图2是本发明实施例提供的文件识别方法步骤SlOl的具体实现流程图；
[0019]图3是本发明实施例提供的文件识别方法步骤SlOl数据库建立的原理示意图；
[0020]图4是本发明实施例提供的文件识别方法步骤S103的具体实现流程图；
[0021]图5是本发明实施例提供的文件识别装置的结构框图。
【具体实施方式】
[0022]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0023]本发明实施例在由服务器对客户端上报的未知或者行为可疑的被扫描文件进行识别时，通过考察被扫描文件与其他文件共存于一台机器上的情况，根据共存率最高的文件的属性来确定被扫描文件的属性，进一步提高了服务器对被扫描文件识别的准确性，力口强了对客户端的信息安全保障。
[0024]图1示出了本发明实施例提供的文件识别方法的实现流程，详述如下:
[0025]在步骤SlOl中，根据客户端上报的扫描结果建立数据库，所述数据库中记录了从扫描结果中提取的每个客户端的全球唯一标识符(Globally Unique Identifier,⑶ID)及其上报的被扫描文件的校验码。
[0026]在本实施例中，当接收到进行病毒或者木马查杀的客户端上报的扫描结果，服务器可以从该扫描结果中提取出上报该扫描结果的客户端的GUID以及该客户端上报的每个被扫描文件的校验码。其中，GUID作为客户端的唯一标识，可以用于区别于其他客户端，进一步地，也可以用于区分不同客户端所在的计算机设备，而校验码包括但不限于文件的消息摘要算法第五版(Message Digest Algorithm,MD5)校验码或者文件的哈希(Hash)校验码，在此作为区分不同被扫描文件的唯一标识。
[0027]在具体实现中，数据库的建立可以参考图2所示流程:
[0028]在步骤S201中，获取每个客户端每次进行文件扫描的日志信息并存储。
[0029]具体地，可以通过在客户端部署旁路程序，该程序用于记录客户端的每次扫描的日志信息，并将日志信息存储在诸如文件传输协议(File Transfer Protocol,FTP)服务器等大容量存储设备中。其中，日志信息中包括了每个客户端的GUID、所有的被扫描文件的校验码及相关的文件属性，例如被扫描文件的PE结构信息、被扫描文件在用户环境的路径信息、被扫描文件PE资源的属性信息或者被扫描文件的数字签字等等，在此不一一限定，同时，日志信息中还可以指示该日志信息产生的条件，例如是通过全盘扫描产生，或者通过指定位置扫描广生，等等。
[0030]在步骤S202中，在预设时间点对存储的日志信息进行统计和消重处理后，提取日志信息中每个客户端的GUID和每个客户端上报过的被扫描文件的校验码，根据提取结果建立数据库。
[0031]由于对每个客户端来说，可能会在短时间内反复地进行多次文件扫描，因此，存储在大容量存储设备中的日志信息存在着数据重复现象。在本实施例中，通过设置固定的时间点，在该时间点对存储的日志信息进行统计和消重处理后，提取每个客户端的GUID及每个客户端上报过的被扫描文件的校验码，从而完成数据库的建立。
[0032]优选地，为了方便后续查找，可以将提取出的数据分别存储在四个K-V关系的NoSQL数据库中，这四个数据库分别为:校验码信息数据库、GUID信息数据库、校验码索引数据库和GUID索引数据库。
[0033]数据库建立的相关原理在此不用于限定本发明，作为数据库建立的一种实现方式，具体可以参考图3所示的数据库建立原理示意图，在此不再赘述。
[0034]在步骤S102中，根据被扫描文件的校验码，分别在数据库中查询每个被扫描文件的上报客户端的⑶ID。
[0035]在本实施例中，被扫描文件的上报客户端为上报过该被扫描文件的客户端，通过步骤SlOl中建立的数据库，针对客户端上报的每一个被扫描文件，均可以在数据库中查询到上报过该被扫描文件的客户端的GUID,即能够获知每一个被扫描文件存在于哪些客户端所在的计算机设备中。
[0036]在步骤S103中，根据查询出的每个被扫描文件的上报客户端的GUID，分别获取第一被扫描文件与每个第二被扫描文件之间的共存率。
[0037]其中，第一被扫描文件为当前需要识别的被扫描文件，其可以为当前上报扫描结果的客户端上报的未知属性或者可疑的文件，也可以为服务器的文件信息库中已经存储的未知属性的灰文件。在本实施例中，两个被扫描文件之间的共存率能够反映出这两个被扫描文件之间的亲缘关系，即共存率越高，两个被扫描文件之间的亲缘关系最近，其属性可能就越接近，相反地，若共存率越低，则表示两个被扫描文件之间没有直接联系的可能性越大。
[0038]作为本发明的一个实施例，共存率可以根据同时拥有两个被扫描文件的计算机设备的数量来决定，也可以根据同时拥有两个被扫描文件的计算机设备的数量，以及拥有每个被扫描文件的计算机设备的数量来共同决定。优选地，图4示出了本发明实施例提供的文件识别方法步骤S103的具体实现流程，详述如下:
[0039]在步骤S401中，获取第一被扫描文件的上报客户端的第一数量。
[0040]根据步骤S102中查询到的第一被扫描文件的上报客户端的⑶ID，可以确定出第一被扫描文件的上报客户端的第一数量，即拥有第一被扫描文件的计算机设备的第一数量。
[0041]在步骤S402中，获取第二被扫描文件的上报客户端的第二数量。
[0042]根据步骤S102中查询到的第二被扫描文件的上报客户端的⑶ID，可以确定出第二被扫描文件的上报客户端的第二数量，即拥有第二被扫描文件的计算机设备的第二数量。
[0043]在步骤S403中，根据查询出的每个被扫描文件的上报客户端的GUID，确定同时上报了第一被扫描文件与第二被扫描文件的上报客户端的第三数量。
[0044]由于不同的⑶ID唯一标识了一个客户端，因此，根据步骤S102中查询到的第一被扫描文件的上报客户端的GUID以及第二被扫描文件的上报客户端的GUID，即可以知道哪些客户端同时上报了第一被扫描文件和第二被扫描文件，由此确定出同时上报了第一被扫描文件和第二被扫描文件的上报客户端的第三数量，即同时拥有第一被扫描文件和第二被扫描文件的计算机设备的第三数量。
[0045]在步骤S404中，根据第一数量、第二数量及第三数量确定共存率。
[0046]根据上述三个数量参数，即可以计算出第一被扫描文件与第二被扫描文件在同一台机器上共存的共存率。作为本发明的一个实现示例，可以通过以下公式计算第一被扫描文件与第二被扫描文件的共存率:
【权利要求】
1.一种文件识别方法，其特征在于，包括: 根据客户端上报的扫描结果建立数据库，所述数据库中记录了从所述扫描结果中提取的每个所述客户端的全球唯一标识符GUID及其上报的被扫描文件的校验码；根据所述被扫描文件的校验码，分别在所述数据库中查询每个所述被扫描文件的上报客户端的GUID ；根据查询出的每个所述被扫描文件的上报客户端的GUID，分别获取第一所述被扫描文件与每个第二所述被扫描文件之间的共存率；根据所述共存率高于预设阈值的第二所述被扫描文件的属性，确定第一所述被扫描文件的属性。
2.如权利要求1所述的方法，其特征在于，所述校验码包括消息摘要算法第五版MD5校验码或者哈希Hash校验码。
3.如权利要求1或2所述的方法，其特征在于，所述根据查询出的每个所述被扫描文件的上报客户端的GUID，分别获取第一所述被扫描文件与每个第二所述被扫描文件之间的共存率包括: 获取第一所述被扫描文件的上报客户端的第一数量；获取第二所述被扫描文件的上报客户端的第二数量；根据查询出的每个所述被扫描文件的上报客户端的GUID，确定同时上报了第一所述被扫描文件与第二所述被扫描文件的上报客户端的第三数量；根据所述第一数量、所述第二数量及所述第三数量确定所述共存率。
4.如权利要求3所述的方法，其特征在于，所述根据所述第一数量、所述第二数量及所述第三数量确定所述共存率包括: A ,I十d 根据i = 1- 1 ^ rj * ,—i7—^—疒确定所述共存率，
I+ "vd{a + H-U) 其中，所述A为所述共存率，所述I为常量，所述a为第一数量，所述b为第二数量，所述d为第三数量。
5.一种文件识别装置，其特征在于，包括: 数据库建立单元，用于根据客户端上报的扫描结果建立数据库，所述数据库中记录了从所述扫描结果中提取的每个所述客户端的全球唯一标识符GUID及其上报的被扫描文件的校验码；查询单元，用于根据所述被扫描文件的校验码，分别在所述数据库中查询每个所述被扫描文件的上报客户端的GUID ；获取单元，用于根据查询出的每个所述被扫描文件的上报客户端的GUID，分别获取第一所述被扫描文件与每个第二所述被扫描文件之间的共存率；确定单元，用于根据所述共存率高于预设阈值的第二所述被扫描文件的属性，确定第一所述被扫描文件的属性。
6.如权利要求5所述的装置，其特征在于，所述校验码包括消息摘要算法第五版MD5校验码或者哈希Hash校验码。
7.如权利要求5或6所述的装置，其特征在于，所述获取单元包括:第一获取子单元，用于获取第一所述被扫描文件的上报客户端的第一数量；第二获取子单元，用于获取第二所述被扫描文件的上报客户端的第二数量；第一确定子单元，用于根据查询出的每个所述被扫描文件的上报客户端的GUID，确定同时上报了第一所述被扫描文件与第二所述被扫描文件的上报客户端的第三数量；第二确定子单元，用于根据所述第一数量、所述第二数量及所述第三数量确定所述共存率。
8.如权利要求7所述的装置，其特征在于，所述第二确定子单元具体用于根据
9.一种服务器，其特征在于，所述服务器包括如权利要求51任一项所述的文件识别装置。
10.如权利要求9所述的服务器，其特征在于，所述服务器为云服务器。
【文档编号】H04L29/06GK103812825SQ201210440933
【公开日】2014年5月21日申请日期:2012年11月7日优先权日:2012年11月7日
【发明者】周吉文, 庾洋申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周吉文;庾洋
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。