一种文件处理方法

文档序号:8339912阅读:289来源:国知局
一种文件处理方法
【技术领域】
[0001] 本发明涉及文件处理,特别涉及一种应用安装文件安全处理方法。
【背景技术】
[0002] 在移动应用领域中,开发者将应用程序提交给应用市场,用户通过应用市场下载 应用。但是官方市场内依然无法避免恶意软件的存在;安全保障机制不够完善,导致恶意软 件的比例居高不下。其中,嵌入已知代码和伪装应用安装文件是主要威胁。现有的技术方 案采用反编译工具或者动态行为分析工具得到应用行为序列,对行为序列进行预处理得到 行为序列特征,通过比较行为序列特征的距离得到应用是否被伪装的量化数据。该方法可 以识别应用代码的改变,但是行为序列特征的提取容易受到代码混淆技术的影响,因而在 针对实际问题进行分析时具有一定的局限性。
[0003] 因此,针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。

【发明内容】

[0004] 为解决上述现有技术所存在的问题,本发明提出了一种文件处理方法,包括:
[0005] 从安装文件中选择预定义类型的特征文件,所述预定义类型的特征文件包括界面 描述文件、音频文件和图像文件,利用特征提取步骤提取上述特征文件的特征,基于所述特 征,通过比较相似度和预设阈值的大小识别安装文件是否被伪装。
[0006] 优选地,将应用安装文件描述为集合app = {exe ;lib ;profile ;image ;audio ; etc},其中exe表示安装文件中的可执行字节码,lib表示程序中的原生代码库,profile表 示用于程序数据存储和布局描述的XML文档,image表示程序中的图像文件,etc表示程序 中的其他文件。
[0007] 优选地,在特征提取过程中,当提取图像文件的特征时,
[0008] 首先缩小安装文件中的图像尺寸,并将彩色图像转换为灰度图像,计算平均灰度 级,根据相似度哈希算法提取图像内容特征,根据图像的亮度和构图为每张图像生成一个 字符串作为图像的指纹,根据指纹之间的近似度确定图像之间的相似度;
[0009] 其中缩小图像尺寸是将图像缩小到KXK像素,用于消除图像分辨率对相似度比 较的干扰、去除图像尺寸和图像比例的差异,只保留结构、亮度等基本信息,K值设为128 ; 并且其中,图像内容相似度比较包括计算指纹的汉明距离。
[0010] 在特征提取过程中,当提取以XML文件格式存储的界面描述文件的特征时,
[0011] XML文件相似度比较包括结构相似度和内容相似度,将XML文件转换为树结构,通 过比较树的差异得到XML结构差异,通过比较树的节点差异得到XML内容差异,在应用中界 面描述文件是按照预定规则存储,根据界面描述文件说明,得到结构名列表;然后根据结构 名列表提取结构特征,过滤界面描述文件内的结构特征和符号信息,得到内容信息;最终对 结构和内容信息计算哈希值,得到结构特征值和内容特征,界面描述文件经过处理后得到 一个哈希数组,从而将界面描述文件的内容相似度转化为比较哈希数组的相似度。
[0012] 在特征提取过程中,当提取音频文件的特征时,
[0013] 采用文件哈希值作为音频文件特征,输入音频文件流S,并预设常量字符串M,计 算输入音频文件流S的MD5哈希值Hl,然后将输入音频文件流S与预设常量字符串M相加, 并计算相加结果的MD5哈希值H2,对Hl和H2进行求和,得到最终哈希值,作为音频文件的 内容特征。
[0014] 本发明相比现有技术,具有以下优点:
[0015] 本发明提出了一种文件处理,通过提取应用安装文件内容特征进行识别,且可以 有效抵抗文件和目录的伪装和恶意修改带来的干扰,利用特征提取过程缩小文件内容特征 规模,提尚运算效率。
【附图说明】
[0016] 图1是根据本发明实施例的文件处理方法的流程图。
【具体实施方式】
[0017] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权 利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节 以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中 的一些或者所有细节也可以根据权利要求书实现本发明。
[0018] 图1是根据本发明实施例的文件处理方法流程图。提出了一种应用程序安装文件 的伪装识别方法。通过分析应用安装文件属性,选择文件类型,提取内容特征,并根据文件 类型采用不同的内容特征提取算法,对其相似度赋予权值,从而提高应用程序伪装识别的 准确性和运算效率。
[0019] 应用安装文件以压缩文件的形式存在,内部以目录的形式组织存放可执行字节码 文件、证书文件和资源文件,其中可执行字节码存储在类文件中;证书文件是应用的签名文 件;资源文件包括数据库文件、函数库文件、XML文件、图像文件等。
[0020] 在一个实施例中,将应用安装文件描述为集合app = {exe ;lib ;profile ;image ; audio ;etc},其中exe表示安装文件中的可执行字节码,lib表示程序中的原生代码库, profile表示用于程序数据存储和布局描述的XML文档,image表示程序中的图像文件, etc表示程序中的其他文件。根据集合app的描述可知:本发明的目标是根据exe,lib, profile,image等相关文件的内容特征,执行应用程序安装文件的伪装识别。
[0021] 为了准确、有效地通过文件内容分析安装文件是否被伪装,并符合实际的识别需 求,本发明提出的方法着力达到以下三个目标:1)适应大数据运算,应用市场内的数量大、 增长快,能快速处理大量数据的系统框架是适应大数据运算的基础;2)选择合适的特征文 件,安装文件内有上千种文件类型,提取哪些文件的内容直接影响伪装识别的效率和准确 性;3)高效的特征提取和准确的特征算法,提取文件内容特征的速度决定了系统效率,同 时准确的特征算法是保证系统能够正确
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1