一种文件处理方法_2

文档序号:8339912阅读:来源:国知局
给出判定结果的基本保证。
[0022] 本发明在提取文件内容特征、计算文件相似度的过程中保证提高效率的同时不失 运算结果的准确性。
[0023] 首先要求算法针对的目标不能过于复杂,如果针对目标过于复杂,那么需要对这 个目标进行缩减,选出其中关键的要素进行对比;其次算法效率高;最后,在构建算法过程 的时候,要尽可能对算法的运行环境进行优化,减少算法的中间步骤,削减算法中可能引起 大量时间和空间消耗的内容。
[0024] 首先需要选择合适的特征文件,一个应用安装文件中的文件从几百个到几千个不 等,如对全部文件的内容进行特征提取,容易造成目标过于复杂、分析效率低下的结果,且 容易受到插入无用文件的干扰。因此本发明根据普遍性、代表性和可度量性原则,选择部分 合适的文件类型作为特征文件,在最大程度保证特征文件有效表示应用安装文件的情况下 缩小特征规模,从而减小运算量。
[0025] 接下来,从安装文件中提取已选定文件的特征,获取安装文件的文件接口,根据压 缩文件位置偏移定位特征文件,省去对其他无关文件进行解压的步骤以提高运算效率。首 先对应用中的特征文件进行统计,根据统计规律对比不同的算法实现,对算法进行最合适 的优化,在保证准确性的前提下采用效率最高的算法,并在提取过程中应用多线程方案,重 写不支持多线程的部分函数,保证所有运算的线程安全性,进一步提高运算效率。
[0026] 最后,基于文件内容特征进行伪装识别,在相似度度量算法设计时,根据应用的统 计特征,采用哈希表计数,用空间消耗换取时间优化。
[0027] 通过文件内容特征计算文件相似度,首先要从复杂的文件类型中选择合适的特征 文件。合适的特征文件需要具有以下三个特点。大多数安装文件内包含该类型的文件,如 果某个文件类型仅在少数应用内存在,则无法通过该类文件内容特征进行相似度比较;文 件内容特征具有"签名"特性,可以代表该应用,不同应用中提取出的文件内容特征具有差 异性;文件内容具有距离特性,相似文件中的文件内容距离近,反之不同文件中的文件内容 距离远。在一个实施例中,选择界面描述文件、图像文件、音频文件作为特征文件,可描述为 appfile = {image ;audio ;profile},主要思路是计算文件内容特征相似度,以此分析相似 度,可用以下公式表示:
[0028] com (app I,app2) = com (appfile 1,appfile2)。
[0029] 本发明用这三类文件的内容特征表示安装文件的特征。每类文件内容特征集合包 含了此类所有文件的特征,用如下公式表示:
【主权项】
1. 一种文件处理方法,用于识别伪装的应用程序安装文件,其特征在于,包括: 从安装文件中选择预定义类型的特征文件,所述预定义类型的特征文件包括界面描述 文件、音频文件和图像文件,利用特征提取步骤提取上述特征文件的特征,基于所述特征, 通过比较相似度和预设阈值的大小识别安装文件是否被伪装。
2. 根据权利要求1所述的方法,其特征在于,还包括: 将应用安装文件描述为集合app = {exe ;lib ;profile ;image ;audio ;etc},其中exe 表示安装文件中的可执行字节码,lib表示程序中的原生代码库,profile表示用于程序数 据存储和布局描述的XML文档,image表示程序中的图像文件,etc表示程序中的其他文件。
3. 根据权利要求2所述的方法,其特征在于,在特征提取过程中,当提取图像文件的特 征时, 首先缩小安装文件中的图像尺寸,并将彩色图像转换为灰度图像,计算平均灰度级,根 据相似度哈希算法提取图像内容特征,根据图像的亮度和构图为每张图像生成一个字符串 作为图像的指纹,根据指纹之间的近似度确定图像之间的相似度; 其中缩小图像尺寸是将图像缩小到KXK像素,用于消除图像分辨率对相似度比较的 干扰、去除图像尺寸和图像比例的差异,只保留结构、亮度等基本信息,K值设为128 ;并且 其中,图像内容相似度比较包括计算指纹的汉明距离。
4. 根据权利要求3所述的方法,其特征在于,在特征提取过程中,当提取以XML文件格 式存储的界面描述文件的特征时, XML文件相似度比较包括结构相似度和内容相似度,将XML文件转换为树结构,通过比 较树的差异得到XML结构差异,通过比较树的节点差异得到XML内容差异,在应用中界面描 述文件是按照预定规则存储,根据界面描述文件说明,得到结构名列表;然后根据结构名列 表提取结构特征,过滤界面描述文件内的结构特征和符号信息,得到内容信息;最终对结构 和内容信息计算哈希值,得到结构特征值和内容特征,界面描述文件经过处理后得到一个 哈希数组,从而将界面描述文件的内容相似度转化为比较哈希数组的相似度。
5. 根据权利要求4所述的方法,其特征在于,在特征提取过程中,当提取音频文件的特 征时, 采用文件哈希值作为音频文件特征,输入音频文件流S,并预设常量字符串M,计算输 入音频文件流S的MD5哈希值H1,然后将输入音频文件流S与预设常量字符串M相加,并计 算相加结果的MD5哈希值H2,对H1和H2进行求和,得到最终哈希值,作为音频文件的内容 特征。
【专利摘要】本发明提供了一种文件处理方法,该方法包括:从安装文件中选择预定义类型的特征文件,所述预定义类型的特征文件包括界面描述文件、音频文件和图像文件,利用特征提取步骤提取上述特征文件的特征,基于所述特征,通过比较相似度和预设阈值的大小识别安装文件是否被伪装。本发明提出了一种文件处理,通过提取应用安装文件内容特征进行识别,且可以有效抵抗文件和目录的伪装和恶意修改带来的干扰,利用特征提取过程缩小文件内容特征规模,提高运算效率。
【IPC分类】G06F21-56
【公开号】CN104657665
【申请号】CN201510108614
【发明人】罗阳, 陈虹宇, 王峻岭
【申请人】四川神琥科技有限公司
【公开日】2015年5月27日
【申请日】2015年3月12日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1