一种文件快速识别方法

文档序号:8339751阅读:198来源:国知局
一种文件快速识别方法
【技术领域】
[0001] 本发明涉及文件处理,特别涉及一种应用安装文件的处理方法。
【背景技术】
[0002] 在移动应用领域中,开发者将应用程序提交给应用市场,用户通过应用市场下载 应用。但是官方市场内依然无法避免恶意软件的存在;安全保障机制不够完善,导致恶意软 件的比例居高不下。其中,嵌入已知代码和伪装应用安装文件是主要威胁。现有的技术方 案采用反编译工具或者动态行为分析工具得到应用行为序列,对行为序列进行预处理得到 行为序列特征,通过比较行为序列特征的距离得到应用是否被伪装的量化数据。该方法可 以识别应用代码的改变,但是行为序列特征的提取容易受到代码混淆技术的影响,因而在 针对实际问题进行分析时具有一定的局限性。
[0003] 因此,针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。

【发明内容】

[0004] 为解决上述现有技术所存在的问题,本发明提出了一种文件快速识别方法,包 括:
[0005] 分析应用安装文件属性,选择特定文件类型,并根据不同的文件类型采用不同的 特征提取过程来提取文件的内容特征,获取应用安装文件的不同版本之间各种类型文件的 相似度,通过加权后的相似度总和来识别伪装的应用安装文件。
[0006] 优选地,所述应用安装文件以压缩文件的形式存在,文件内部以目录的形式组织 存放可执行字节码文件、证书文件和资源文件,其中可执行字节码存储在类文件中;证书文 件是应用的签名文件;资源文件包括数据库文件、函数库文件、XML文件、图像文件。
[0007] 优选地,所述特定文件类型文件具备以下条件:文件内容特征具有签名特性,不同 应用中提取出的文件内容特征具有差异性,文件内容具有距离特性;并且所述特征提取过 程进一步包括,获取安装文件的文件接口,根据压缩文件位置偏移定位特征文件,对应用中 的特征文件进行统计,根据统计结果对比不同的算法,对算法进行优化,并且在提取过程中 应用多线程方案,重写不支持多线程的部分函数,在特征提取之后,基于文件内容特征进行 识别,根据应用的统计特征,采用哈希表计数进行相似度度量。
[0008] 本发明相比现有技术,具有以下优点:
[0009] 本发明提出了一种文件处理,通过提取应用安装文件内容特征进行识别,且可以 有效抵抗文件和目录的伪装和恶意修改带来的干扰,利用特征提取过程缩小文件内容特征 规模,提尚运算效率。
【附图说明】
[0010] 图1是根据本发明实施例的文件快速识别方法的流程图。
【具体实施方式】
[0011] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权 利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节 以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中 的一些或者所有细节也可以根据权利要求书实现本发明。
[0012] 图1是根据本发明实施例的文件快速识别方法流程图。提出了一种应用程序安装 文件的伪装识别方法。通过分析应用安装文件属性,选择文件类型,提取内容特征,并根据 文件类型采用不同的内容特征提取算法,对其相似度赋予权值,从而提高应用程序伪装识 别的准确性和运算效率。
[0013] 应用安装文件以压缩文件的形式存在,内部以目录的形式组织存放可执行字节码 文件、证书文件和资源文件,其中可执行字节码存储在类文件中;证书文件是应用的签名文 件;资源文件包括数据库文件、函数库文件、XML文件、图像文件等。
[0014] 在一个实施例中,将应用安装文件描述为集合app = {exe ;lib ;profile ;image ; audio ;etc},其中exe表示安装文件中的可执行字节码,lib表示程序中的原生代码库, profile表示用于程序数据存储和布局描述的XML文档,image表示程序中的图像文件, etc表示程序中的其他文件。根据集合app的描述可知:本发明的目标是根据exe,lib, profile,image等相关文件的内容特征,执行应用程序安装文件的伪装识别。
[0015] 为了准确、有效地通过文件内容分析安装文件是否被伪装,并符合实际的识别需 求,本发明提出的方法着力达到以下三个目标:1)适应大数据运算,应用市场内的数量大、 增长快,能快速处理大量数据的系统框架是适应大数据运算的基础;2)选择合适的特征文 件,安装文件内有上千种文件类型,提取哪些文件的内容直接影响伪装识别的效率和准确 性;3)高效的特征提取和准确的特征算法,提取文件内容特征的速度决定了系统效率,同 时准确的特征算法是保证系统能够正确给出判定结果的基本保证。
[0016] 本发明在提取文件内容特征、计算文件相似度的过程中保证提高效率的同时不失 运算结果的准确性。
[0017] 首先要求算法针对的目标不能过于复杂,如果针对目标过于复杂,那么需要对这 个目标进行缩减,选出其中关键的要素进行对比;其次算法效率高;最后,在构建算法过程 的时候,要尽可能对算法的运行环境进行优化,减少算法的中间步骤,削减算法中可能引起 大量时间和空间消耗的内容。
[0018] 首先需要选择合适的特征文件,一个应用安装文件中的文件从几百个到几千个不 等,如对全部文件的内容进行特征提取,容易造成目标过于复杂、分析效率低下的结果,且 容易受到插入无用文件的干扰。因此本发明根据普遍性、代表性和可度量性原则,选择部分 合适的文件类型作为特征文件,在最大程度保证特征文件有效表示应用安装文件的情况下 缩小特征规模,从而减小运算量。
[0019] 接下来,从安装文件中提取已选定文件的特征,获取安装文件的文件接口,根据压 缩文件位置偏移定位特征文件,省去对其他无关文件进行解压的步骤以提高运算效率。首 先对应用中的特征文件进行统计,根据统计规律对比不同的算法实现,对算法进行最合适 的优化,在保证准确性的前提下采用效率最高的算法,并在提取过程中应用多线程方案,重 写不支持多线程的部分函数,保证所有运算的线程安全性,进一步提高运算效率。
[0020] 最后,基于文件内容特征进行伪装识别,在相似度度量算法设计时,根据应用的统 计特征,采用哈希表计数,用空间消耗换取时间优化。
[0021 ] 通过文件内容特征计算文件相似度,首先要从复杂的文件类型中选择合适的特征 文件。合适的特征文件需要具有以下三个特点。大多数安装文件内包含该类型的文件,如 果某个文件类型仅在少数应用内存在,则无法通过该类文件内容特征进行相似度比较;文 件内容特征具有"签名"特性,可以代表该应用,不同应用中提取出的文件内容特征具有差 异性;文件内容具有距离特性,相似文件中的文件内容距离近,反之不同文件中的文件内容 距离远。在一个实施例中,选择界面描述文件、图像文件、音频文件作为特征文件,可描述为 appfile = {image ;audio ;profile},主要思路是计算文件内容特征相似度,以此分析相似 度,可用以下公式表示:
[0022] com(appl,app2) = com (appfile I,appfile2) 〇
[0023] 本发明用这三类文件的内容特征表示安装文件的特征。每类文件内容特征集合包 含了此类所有文件的特征,用如下公式表示:
【主权项】
1. 一种文件快速识别方法,用于识别伪装的应用程序安装文件,其特征在于,包括: 分析应用安装文件属性,选择特定文件类型,并根据不同的文件类型采用不同的特征 提取过程来提取文件的内容特征,获取应用安装文件的不同版本之间各种类型文件的相似 度,通过加权后的相似度总和来识别伪装的应用安装文件。
2. 根据权利要求1所述的方法,其特征在于,所述应用安装文件以压缩文件的形式存 在,文件内部以目录的形式组织存放可执行字节码文件、证书文件和资源文件,其中可执行 字节码存储在类文件中;证书文件是应用的签名文件;资源文件包括数据库文件、函数库 文件、XML文件、图像文件。
3. 根据权利要求2所述的方法,其特征在于,所述特定文件类型文件具备以下条件:文 件内容特征具有签名特性,不同应用中提取出的文件内容特征具有差异性,文件内容具有 距离特性;并且所述特征提取过程进一步包括,获取安装文件的文件接口,根据压缩文件位 置偏移定位特征文件,对应用中的特征文件进行统计,根据统计结果对比不同的算法,对算 法进行优化,并且在提取过程中应用多线程方案,重写不支持多线程的部分函数,在特征提 取之后,基于文件内容特征进行识别,根据应用的统计特征,采用哈希表计数进行相似度度 量。
4. 根据权利要求3所述的方法,其特征在于,其中特定类型的特征文件包括界面描 述文件、图像文件、音频文件,并将应用程序安装文件描述为appfile = {image ;audio ; profile},每类文件内容特征集合包含了该类所有文件的特征,表示为:
其中imagepaudicvfPl profile {分别表示图像文件、音频文件、界面描述文件的特征,η 表示每种文件类型包含的文件数量,并且计算文件内容特征相似度函数com()的过程表示 为: com(appl,app2) = com(appfilel, appfile2) 对两个应用的每种特征进行对比,获得文件特征相似度计算如下,表示安装文件内文 件相似度等价于两个应用安装文件内所有该类型的相似度:
其中m表示每种文件类型包含的文件数量; 对三种文件内容相似度赋予权值,通过三种文件内容特征的加权相似度表示应用安装 文件相似度,加权相似度公式表示如下: com(appl,app2) = com(appfilel,appfile2)= com-imageX a +com-audioX β +com-profileX γ ; 其中α,β,γ的值根据com_image,com_audio,com_profile内容的不同而动态变化, 即根据com_image,com_audio, com_profile三个值的大小赋予权值,通过学习确定三个最 优权值。
【专利摘要】本发明提供了一种文件快速识别方法,该方法包括:分析应用安装文件属性,选择特定文件类型,并根据不同的文件类型采用不同的特征提取过程来提取文件的内容特征,获取应用安装文件的不同版本之间各种类型文件的相似度,通过加权后的相似度总和来识别伪装的应用安装文件。本发明提出了一种文件处理,通过提取应用安装文件内容特征进行识别,且可以有效抵抗文件和目录的伪装和恶意修改带来的干扰,利用特征提取过程缩小文件内容特征规模,提高运算效率。
【IPC分类】G06F17-30
【公开号】CN104657504
【申请号】CN201510109944
【发明人】罗阳, 陈虹宇, 王峻岭
【申请人】四川神琥科技有限公司
【公开日】2015年5月27日
【申请日】2015年3月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1