检测移动终端隐私泄露的方法及装置的制造方法

文档序号:10578159阅读:206来源:国知局
检测移动终端隐私泄露的方法及装置的制造方法
【专利摘要】本发明公开了一种检测移动终端隐私泄露的方法及装置,该方法包括:利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流,所述粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的;若检测到所述移动终端当前的网络数据流中包含所述头域特征关键字和/或URL参数特征字符串,则判定所述移动终端当前的网络数据流存在隐私泄露。通过上述方式,本发明能够全面检测现有的隐私泄露,且适合大规模网络环境。
【专利说明】
检测移动终端隐私泄露的方法及装置
技术领域
[0001] 本发明设及移动终端安全技术领域,特别是设及一种检测移动终端隐私泄露的方 法及装置。
【背景技术】
[0002] 随着移动智能终端的普及和移动应用(App)的广泛使用,移动终端上安全问题频 发,导致移动用户频频遭受经济损失,隐私信息被恶意窃取。因此,如何从流量中有效检测 隐私信息,尤其是明文传输的隐私信息,对于保护用户隐私安全具有较大的意义。
[0003] 传统隐私信息对用户而言是不会随时间变化的,而位置隐私信息则不然,例如用 户的坐标数据随着时间不同可能会不断变化。一方面,现有的隐私数据检测方法大都关注 某类App甚至是某一个App产生的数据流量特点,缺乏普适性。为了能够从网络流量中准确 检测位置隐私泄露,需要总结出适用于大规模网络流的位置隐私特征,覆盖大部分应用流 量,W保证检测的结果有效。而现有的特征提取算法对未知特点的隐私泄露检测W及大规 模网络流量的隐私泄露检测都不太适用。
[0004] 另一方面,还有一种移动终端隐私窃取行为的监控方法,主要通过在移动终端中 预设隐私信息模拟配置库,模拟用户隐私信息及硬件数据信息,并监控移动终端的通讯行 为,将移动终端通讯行为中所携带信息与预设隐私信息模拟配置库中的信息进行比对,如 果比对成功,则认为存在隐私窃取行为,要求用户判断是否允许行为继续,否则认为不存在 隐私窃取行为,对该行为进行过滤放行。但是,该技术仅适用于在特定移动终端上判断是否 有应用开展隐私窃取操作,不适合大规模网络环境下判断是否有隐私窃取行为,且依赖于 用户配置。

【发明内容】

[0005] 本发明主要解决的技术问题是提供一种检测移动终端隐私泄露的方法及装置,能 够全面检测现有的隐私泄露,且适合大规模网络环境。
[0006] 为解决上述技术问题,本发明采用的一个技术方案是:提供一种检测移动终端隐 私泄露的方法,所述方法包括:利用已构建的粗粒度检测模型监控并检测移动终端当前的 网络数据流,所述粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关 联的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的;若检测 到所述移动终端当前的网络数据流中包含所述头域特征关键字和/或U化参数特征字符串, 则判定所述移动终端当前的网络数据流存在隐私泄露。
[0007] 其中,所述隐私信息包括位置信息和/或用户标识信息。
[000引其中,所述位置信息包括小区信息和全球定位系统GI^信息中的至少一个。
[0009] 其中,所述用户标识信息包括国际移动用户识别码IMSI、国际移动设备标识IMEI、 移动台综合业务数字网号码MSISDN中的至少一个。
[0010] 其中,所述利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流 的步骤之前,还包括:将所述网络数据流样本标记为包含隐私信息泄露的网络数据流样本 和不包含隐私信息泄露的网络数据流样本;从标记后的网络数据流样本的HTTP数据包中进 行头域特征关键字的提取,进而获得与隐私信息泄露相关联的头域特征关键字集合;从标 记后的网络数据流样本的U化路径中进行U化参数特征字符串的提取,进而获得与隐私信息 泄露相关联的ML参数特征字符串集合;基于所述头域特征关键字集合和所述U化参数特征 字符串集合,采用有监督学习方法或无监督学习方法进行学习训练,获得所述粗粒度检测 模型。
[0011] 其中,所述方法还包括:利用分别与不同隐私信息类型对应的数据匹配正则表达 式集合对判定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配, 进而确定所述移动终端当前的网络数据流所泄露的隐私信息类型。
[0012] 其中,所述利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对W判 定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配的步骤之前, 进一步包括:对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型进行标 记;根据各隐私信息类型下的隐私信息形成所述数据匹配正则表达式。
[OOU]其中,所述从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提 取的步骤包括:基于n-gram模型对所述标记后的网络数据流样本的U化路径进行ML参数特 征字符串的提取。
[0014] 其中,所述基于n-gram模型对所述标记后的网络数据流样本的U化路径进行U化参 数特征字符串的提取的步骤,包括:从所述标记后的网络数据流样本的m?L路径中获取URL 参数文本集合;通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参数特 征字符串;根据各所述U化参数特征字符串被标记为包含隐私信息泄露和不包含隐私信息 泄露的概率计算所述U化参数特征字符串的信息增益;若计算出来的U化参数特征字符串的 信息增益大于临界阔值,则将所述抓L参数特征字符串加入到所述与隐私信息泄露相关联 的ML参数特征字符串集合中。
[0015] 为解决上述技术问题,本发明采用的另一个技术方案是:提供一种检测移动终端 隐私泄露的装置,所述装置包括:监控与检测模块,用于利用已构建的粗粒度检测模型监控 并检测移动终端当前的网络数据流,所述粗粒度检测模型是通过从网络数据流样本中提取 的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符ML参数特征字符串集 合构建而成的;判定模块,用于在检测到所述移动终端当前的网络数据流中包含所述头域 特征关键字和/或U化参数特征字符串时,判定所述移动终端当前的网络数据流存在隐私泄 露。
[0016] 其中,所述隐私信息包括位置信息和/或用户标识信息。
[0017] 其中,所述位置信息包括小区信息和全球定位系统GI^信息中的至少一个。
[0018] 其中,所述用户标识信息包括国际移动用户识别码IMSI、国际移动设备标识IMEI、 移动台综合业务数字网号码MSISDN中的至少一个。
[0019] 其中,所述装置还包括:第一标记模块,用于将所述网络数据流样本标记为包含隐 私信息泄露的网络数据流样本和不包含隐私信息泄露的网络数据流样本;第一提取模块, 用于从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提取,进而获得与 隐私信息泄露相关联的头域特征关键字集合;第二提取模块,用于从标记后的网络数据流 样本的U化路径中进行U化参数特征字符串的提取,进而获得与隐私信息泄露相关联的URL 参数特征字符串集合;学习训练模块,用于基于所述头域特征关键字集合和所述m?L参数特 征字符串集合,采用有监督学习方法或无监督学习方法进行学习训练,获得所述粗粒度检 测模型。
[0020] 其中,所述装置还包括:匹配模块,用于利用分别与不同隐私信息类型对应的数据 匹配正则表达式集合对判定为存在隐私泄露的所述移动终端当前的网络数据流中的隐私 信息进行匹配,进而确定所述移动终端当前的网络数据流所泄露的隐私信息类型。
[0021] 其中,所述装置还包括:第二标记模块,用于对包含隐私信息泄露的网络数据流样 本中的隐私信息的隐私信息类型进行标记;形成模块,用于根据各隐私信息类型下的隐私 信息形成所述数据匹配正则表达式。
[0022] 其中,所述第二提取模块具体用于基于n-gram模型对所述标记后的网络数据流样 本的U化路径进行U化参数特征字符串的提取。
[0023] 其中,所述第二提取模块包括:获取单元,用于从所述标记后的网络数据流样本的 m?L路径中获取URL参数文本集合;切分单元,用于通过n-gram算法将URL参数文本集合的 U化参数文本切分为多个U化参数特征字符串;计算单元,用于根据各所述ML参数特征字符 串被标记为包含隐私信息泄露和不包含隐私信息泄露的概率计算所述U化参数特征字符串 的信息增益;加入单元,用于在计算出来的TOL参数特征字符串的信息增益大于临界阔值 时,将所述U化参数特征字符串加入到所述与隐私信息泄露相关联的U化参数特征字符串集 合中。
[0024] 本发明的有益效果是:区别于现有技术的情况,本发明利用已构建的粗粒度检测 模型监控并检测移动终端当前的网络数据流,粗粒度检测模型是通过从网络数据流样本中 提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符ML参数特征字符 串集合构建而成的;若检测到移动终端当前的网络数据流中包含头域特征关键字和/或U化 参数特征字符串,则判定移动终端当前的网络数据流存在隐私泄露。由于粗粒度检测模型 是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合和统一 资源定位符U化参数特征字符串集合构建而成的,通过运种方式,能够全面检测现有的隐私 泄露,且适合大规模网络环境。
【附图说明】
[0025] 图1是本发明检测移动终端隐私泄露的方法一实施方式的流程图;
[0026] 图2是本发明检测移动终端隐私泄露的方法另一实施方式的流程图;
[0027] 图3是本发明检测移动终端隐私泄露的方法又一实施方式的流程图;
[0028] 图4是本发明检测移动终端隐私泄露的方法又一实施方式的流程图;
[0029] 图5是本发明检测移动终端隐私泄露的方法又一实施方式的流程图;
[0030] 图6是本发明检测移动终端隐私泄露的装置一实施方式的结构示意图;
[0031 ]图7是本发明检测移动终端隐私泄露的装置另一实施方式的结构示意图;
[0032] 图8是本发明检测移动终端隐私泄露的装置又一实施方式的结构示意图;
[0033] 图9是本发明检测移动终端隐私泄露的装置又一实施方式的结构示意图;
[0034] 图10是本发明检测移动终端隐私泄露的装置又一实施方式的结构示意图。
【具体实施方式】
[0035] 在详细介绍本发明之前,先说明一下现有移动终端的用户面临的个人隐私泄露的 问题。
[0036] 在日常生活与互联网紧密结合的今天,用户的个人信息已经不可避免在网络上传 输。小到用户的邮箱账户、网络昵称、通信录、手机号码、设备标识、移动用户标识、所在位置 信息,大到用户的银行账号、财产信息等。通常一些应用或合理的申请使用运些资源,由于 移动互联网通道的不安全性,例如公共Wifi、钓鱼Wifi、家庭/小区宽带被窃听等现象时有 发生,运些信息在传输过程中存在泄露的风险,用户的一切情况都会暴露在互联网之上,毫 无隐私可言。
[0037] 因此,很有必要提供一种能够全面、且适应强的检测移动终端隐私泄露的方法。本 发明检测移动终端隐私泄露的方法及装置由于粗粒度检测模型是通过从网络数据流样本 中提取的与隐私信息泄露相关联的头域特征关键字集合和统一资源定位符ML参数特征字 符串集合构建而成的,利用粒度检测模型检测移动终端当前的网络数据流是否存在隐私泄 露,通过运种方式,能够全面检测现有的隐私泄露,且适合大规模网络环境。
[0038] 下面结合附图和实施方式对本发明进行详细说明。需要说明的是,本发明检测移 动终端隐私泄露的方法及装置是从网络侧进行检测的,因此,适应性强,可W适合各种各样 的网络环境。
[0039] 参阅图1,图1是本发明检测移动终端隐私泄露的方法一实施方式的流程图,包括:
[0040] 步骤SlOl:利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据 流,粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征 关键字集合和统一资源定位符URL参数特征字符串集合构建而成的。
[0041] 网络数据流样本是从移动终端的网络数据流中获取的、包括当前各种隐私信息的 数据流。由于网络数据流样本包括当前各种各样的隐私信息的数据,因此,该网络数据流样 本极具有代表性,从样本的角度尽最大可能避免隐私信息泄露的漏检,尽可能保证隐私信 息均能检测得到。
[0042] 头域化eader)是HTTP协议中请求(Request)和响应(Response)中的头部信息,是 HTTP通信的操作参数,意思是告诉服务器和浏览器怎样处理该通信,简单说是给服务器或 客户端的附言。
[0043] 统一资源定位符(Uniform Resource Locator,简写URL)是对可W从互联网上得 到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的 每个文件都有一个唯一的URL,它包含的信息指出文件的位置W及浏览器应该怎么处理它。 带参数的U化是指地址尾部带有"?"的URL。参数存在的意义是带有指示性的,运些参数既可 W传递信息,又可W作为提示性语言。
[0044] ?是第一个参数,&是后面的参数,
[0045] 比女曰:http: //xxxxx/abc?name = admin,参数是:name = admin ;
[0046] 如果再有一个参数,就再后面加&,第一个参数不能使用&,
[0047] 比女曰:http://xxxxx/abc?name = admin&password = admin,第一个参数是= Hame = admin,第二个参数是 password = admin。
[0048] 隐私信息是用户比较保密的、不愿意透漏或公开的信息,小到用户的邮箱账户、网 络昵称、通信录、手机号码、设备标识、移动用户标识、所在位置信息,大到用户的银行账号、 财产信息等。
[0049] 隐私信息有时候在数据包的头域中,有时候在TOL的参数部分,特别是位置信息, 位置信息通常是变动的,坐标经常会发生变化,运些位置信息在头域和/或U化的参数部分 可W找到。
[0050] 头域特征关键字是指位于头域中、与隐私信息泄露相关联的具有特征性的关键 字,将运些头域特征关键字集中在一起,即为头域特征关键字集合。m?L参数特征字符串是 指位于U化参数部分的、与隐私信息泄露相关联的具有特征性的字符串,将运些TOL参数特 征字符串集中在一起,即为URL参数特征字符串集合。
[0051] 网络数据流样本极具有代表性,头域特征关键字集合和m?L参数特征字符串集合 均与隐私信息泄露相关联,因此,利用上述方式构建的粗粒度检测模型监控并检测移动终 端当前的网络数据流,不容易漏检。
[0052] 步骤S102:若检测到移动终端当前的网络数据流中包含头域特征关键字和/或URL 参数特征字符串,则判定移动终端当前的网络数据流存在隐私泄露。
[0053] 由于头域特征关键字集合和TOL参数特征字符串集合均与隐私信息泄露相关联, 当检测到移动终端当前的网络数据流中包含头域特征关键字和/或ML参数特征字符串时, 即可判定移动终端当前的网络数据流存在隐私泄露。
[0054] 本发明实施方式利用已构建的粗粒度检测模型监控并检测移动终端当前的网络 数据流,粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域 特征关键字集合和统一资源定位符册L参数特征字符串集合构建而成的;若检测到移动终 端当前的网络数据流中包含头域特征关键字和/或ML参数特征字符串,则判定移动终端当 前的网络数据流存在隐私泄露。由于粗粒度检测模型是通过从网络数据流样本中提取的与 隐私信息泄露相关联的头域特征关键字集合和统一资源定位符U化参数特征字符串集合构 建而成的,通过运种方式,能够全面检测现有的隐私泄露,且适合大规模网络环境。
[0055] 其中,隐私信息包括位置信息和/或用户标识信息。而位置信息包括小区信息和全 球定位系统GI^信息中的至少一个。用户标识信息包括国际移动用户识别码IMSI、国际移动 设备标识IMEI、移动台综合业务数字网号码MSISDN中的至少一个。
[0056] 由于在实施本发明的方法时,需要利用粗粒度检测模型,因此,首先需要构建粗粒 度检测模型。参见图2,步骤SlOl之前,还包括:
[0057] 步骤S201:将网络数据流样本标记为包含隐私信息泄露的网络数据流样本和不包 含隐私信息泄露的网络数据流样本。
[0058] 网络数据流样本中既包括隐私信息泄露的网络数据流样本,也包括其他不包含隐 私信息泄露的网络数据流样本,提取的与隐私信息泄露相关联的头域特征关键字集合和 U化参数特征字符串集合,均是在包括隐私信息泄露的网络数据流样本中进行的,因此,需 要将网络数据流样本分别进行标记,W确定哪些是包含隐私信息泄露的网络数据流样本, 哪些是不包含隐私信息泄露的网络数据流样本。
[0059] 例如:对获取的网络数据流样本进行人工标注,标注的隐私数据类型有:标注 MSISDN数据、标注IMS I数据、标注IMEI数据、标注位置信息数据等。
[0060] 步骤S202:从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提 取,进而获得与隐私信息泄露相关联的头域特征关键字集合。
[0061] 例如:从标注MSISDN数据的网络数据流样本中进行头域特征关键字的提取,进而 获得与MSISDN泄露相关联的头域特征关键字集合;从标注IMSI数据的网络数据流样本中进 行头域特征关键字的提取,进而获得与IMSI泄露相关联的头域特征关键字集合;从标注 IMEI数据的网络数据流样本中进行头域特征关键字的提取,进而获得与IMEI泄露相关联的 头域特征关键字集合;从标注位置信息数据的网络数据流样本中进行头域特征关键字的提 取,进而获得与位置信息泄露相关联的头域特征关键字集合。
[0062] 步骤S203:从标记后的网络数据流样本的U化路径中进行ML参数特征字符串的提 取,进而获得与隐私信息泄露相关联的ML参数特征字符串集合。
[0063] 例如:从标注MSISDN数据的网络数据流样本的U化路径中进行U化参数特征字符串 的提取,进而获得与MSISDN泄露相关联的U化参数特征字符串集合;从标注IMSI数据的网络 数据流样本的TOL路径中进行U化参数特征字符串的提取,进而获得与IMSI泄露相关联的 抓L参数特征字符串集合;从标注IMEI数据的网络数据流样本的U化路径中进行U化参数特 征字符串的提取,进而获得与IMEI泄露相关联的ML参数特征字符串集合;从标注位置信息 数据的网络数据流样本的U化路径中进行ML参数特征字符串的提取,进而获得与位置信息 泄露相关联的ML参数特征字符串集合。
[0064] 需要说明的是,步骤S202和步骤S203没有明显的先后顺序,是并列的步骤。
[0065] 步骤S204:基于头域特征关键字集合和U化参数特征字符串集合,采用有监督学习 方法或无监督学习方法进行学习训练,获得粗粒度检测模型。
[0066] 有监督学习方法,是对具有概念标记(分类)的训练样本进行学习,W尽可能对训 练样本集外的数据进行标记(分类)预测;由于所有的标记(分类)是已知的,因此,训练样本 的岐义性低。无监督学习方法,是对没有概念标记(分类)的训练样本进行学习,W发现训练 样本集中的结构性知识;由于所有的标记(分类)是未知的,因此,训练样本的岐义性高。
[0067] 例如,基于与MSISDN泄露相关联的头域特征关键字集合和U化参数特征字符串集 合,进行学习训练后,获得MSISDN的粗粒度检测模型。基于与IMSI泄露相关联的头域特征关 键字集合和U化参数特征字符串集合,进行学习训练后,获得IMSI的粗粒度检测模型。基于 与IMEI泄露相关联的头域特征关键字集合和m?L参数特征字符串集合,进行学习训练后,获 得IMEI的粗粒度检测模型。基于与位置信息泄露相关联的头域特征关键字集合和U化参数 特征字符串集合,进行学习训练后,获得位置信息的粗粒度检测模型。
[0068] 通过上述方式,可W获得针对不同隐私信息的粗粒度检测模型,从而能够检测移 动终端网络数据流中不同隐私类型的隐私信息的泄露,从而避免漏检。
[0069] 在实际应用中,粗粒度检测模型只能向用户表明存在隐私信息,例如:位置信息的 泄露,但是没有办法表明具体存在哪一种类型的位置信息的泄露,是小区信息的泄露还是 GPS信息的泄露,运无从得知。
[0070] 因此,参见图3,在一实施方式中,为了进一步确定具体是哪一种类型的隐私信息 的泄露,该方法在步骤S102之后,还可W包括:
[0071] 步骤S103:利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定 为存在隐私泄露的移动终端当前的网络数据流中的隐私信息进行匹配,进而确定移动终端 当前的网络数据流所泄露的隐私信息类型。
[0072] 正则表达式(Regular Expression),又称正规表示法、常规表示法。在代码中常简 写为regex Jegexp或RE,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹 配一系列符合某个句法规则。数据匹配正则表达式是与各隐私信息类型下的网络数据相匹 配的、可W据此确定具体隐私信息类型的正则表达式;将数据匹配正则表达式集中在一起, 即可获得数据匹配正则表达式集合。
[0073] 由于数据匹配正则表达式是与各隐私信息类型下的网络数据相匹配,因此,通过 运种方式,能够更加精细化地确定移动终端当前的网络数据流所泄露的隐私信息类型。
[0074] 其中,参见图4,在步骤Sl 03之前,进一步包括:
[0075] 步骤S301:对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型 进行标记。
[0076] 步骤S302:根据各隐私信息类型下的隐私信息形成数据匹配正则表达式。
[0077] 其中,步骤S203具体可W是基于n-gram模型对标记后的网络数据流样本的U化路 径进行ML参数特征字符串的提取。
[0078] n-gram模型是大词汇连续语音识别中常用的一种语言模型,对中文而言,也称之 为汉语语言模型(化inese Language Model,简写CLM)。该模型利用上下文中相邻词间的搭 配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句 子)时,可W计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择, 避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。该模型基于运样 一种假设,第n个词的出现只与前面N-I个词相关,而与其它任何词都不相关,整句的概率就 是各个词出现概率的乘积。运些概率可W通过直接从语料中统计N个词同时出现的次数得 到。
[00巧]此时,参见图5,步骤S203可W包括:子步骤S2031、子步骤S2032、子步骤S2033W及 子步骤S2034。
[0080]子步骤S2031:从标记后的网络数据流样本的U化路径中获取U化参数文本集合。 [0081 ]子步骤S2032:通过n-gram算法将U化参数文本集合的U化参数文本切分为多个URL 参数特征字符串。
[0082] 子步骤S2033:根据各ML参数特征字符串被标记为包含隐私信息泄露和不包含隐 私信息泄露的概率计算ML参数特征字符串的信息增益。
[0083] 子步骤S2034:若计算出来的TOL参数特征字符串的信息增益大于临界阔值,则将 ML参数特征字符串加入到与隐私信息泄露相关联的ML参数特征字符串集合中。
[0084] 在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越 多,该特征越重要。对一个特征而言,系统有它和没它时信息量将发生变化,而前后信息量 的差值就是运个特征给系统带来的信息量。所谓信息量,就是赌。假如有变量X,其可能的取 值有n种,每一种取到的概率为Pi,那么X的赌就定义为:
[0085]
[0086] 也就是说X可能的变化越多,X所携带的信息量越大,赌也就越大。对于文本分类或 聚类而言,就是说文档属于哪个类别的变化越多,类别的信息量就越大。所W特征T给聚类C 或分类C带来的信息增益为IG(T) =H(C)-H(C I T)。
[0087] H(ClT)包含两种情况:一种是特征T出现,标记为t,一种是特征T不出现,标记为 t'。所WH(C|T)=P(t化(引〇+口(*'化((:|*'),再由赌的计算公式便可推得特征与类别的信 息增益公式。
[0088] 例如:U化参数文本集合为D,其中,D={{W(m,i)}}。
[0089] 该文本集合含有M个参数文本串,w(m,i)代表第m个参数文本串中的第i个字符;Nm 是参数文本串m中所考虑的总字节数:首先统计集合D中所有的2到n阶的所有n-gram元素的 个数。具体地说,一个n-gram元素是包含有至少n个元素序列的n元素子序列。例如,给定数 据报文m的字节序W(m,l),W(m,2),W(m,3),W(m,4),......,在3-gram语言模型下W(m,i-2), W(m, i-1),W(m, i)代表W-个3-gram元素的特征串。
[0090] 将文本集合D中的参数文本串被标记为两种类型,一种类型是参数文本串对应隐 私信息的泄露,用t表示,另一类型是参数本文串对应没有隐私信息的泄露,用^表示。
[00川在运里,用c(t IW)表示在D中被标记为t类型且包含子串W的数目,用W I可表示在 D中被标记为t类型且不包含子串W的数目,C(W)表示在D中子串W的数目;利用条件概率公式 计算在t类型中包含子串W的概率P(t Iw)和在t类型中不包含子串W的概率巧/而),其中, 戶(小句= c(/ I w)/c(w),WI而=嗦而/c(而,如果子串W能够成为t类型的特征串,则P(t IW) 要高而巧f I兩要低。使用增益信息来判断子串W和类型t之间的关联度:
[0092]
[0093] 对D中所有的n-gram子串m都进行互信息的计算,如果某一个子串的互信息满足我 们设定的终止条件L(即大于临界阔值),那么选择该子串进入ML参数特征字符串集合。
[0094] 通过上述方式,能够比较客观地、高准确性地、快速地选择到与隐私信息泄露相关 联的ML参数特征字符串进入到U化参数特征字符串集合中。
[00%]总结来说,利用本发明的方法能对移动互联网中用户标识信息或位置信息泄露进 行有效的检测,与现有技术相比,具有W下优点:
[0096] (1)能够自动化的提取已标记的用户标识信息或位置信息的网络数据流样本中的 特征集合,通过有监督或无监督或半监督的方法训练学习到用户标识或位置信息的粗粒度 检测模型。进一步地对不同的隐私数据类型设计数据匹配正则表达式,提供更加精细化的 检测。
[0097] (2)能够对未知流量中的用户标识信息或位置信息隐私泄露进行检测,从中发现 有助于提高数据多样性的流量样本,从而进一步的提高系统的检测效果。
[0098] 参见图6,图6是本发明检测移动终端隐私泄露的装置一实施方式的结构示意图, 该装置可W执行上述方法中的步骤,相关内容的详细说明请参见上述方法部分,在此不再 寶叙。
[0099] 该装置包括:监控与检测模块101、判定模块102。
[0100] 监控与检测模块101用于利用已构建的粗粒度检测模型监控并检测移动终端当前 的网络数据流,粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联 的头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的。
[0101] 判定模块102用于在检测到移动终端当前的网络数据流中包含头域特征关键字 和/或ML参数特征字符串时,判定移动终端当前的网络数据流存在隐私泄露。
[0102] 本发明实施方式利用已构建的粗粒度检测模型监控并检测移动终端当前的网络 数据流,粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域 特征关键字集合和统一资源定位符册L参数特征字符串集合构建而成的;若检测到移动终 端当前的网络数据流中包含头域特征关键字和/或ML参数特征字符串,则判定移动终端当 前的网络数据流存在隐私泄露。由于粗粒度检测模型是通过从网络数据流样本中提取的与 隐私信息泄露相关联的头域特征关键字集合和统一资源定位符U化参数特征字符串集合构 建而成的,通过运种方式,能够全面检测现有的隐私泄露,且适合大规模网络环境。
[0103] 其中,隐私信息包括位置信息和/或用户标识信息。
[0104] 其中,位置信息包括小区信息和全球定位系统GI^信息中的至少一个。
[0105] 其中,用户标识信息包括国际移动用户识别码IMSI、国际移动设备标识IMEI、移动 台综合业务数字网号码MSISDN中的至少一个。
[0106] 参见图7,该装置还包括:第一标记模块201、第一提取模块202、第二提取模块203 W及学习训练模块204。
[0107] 第一标记模块201用于将网络数据流样本标记为包含隐私信息泄露的网络数据流 样本和不包含隐私信息泄露的网络数据流样本。
[0108] 第一提取模块202用于从标记后的网络数据流样本的HTTP数据包中进行头域特征 关键字的提取,进而获得与隐私信息泄露相关联的头域特征关键字集合。
[0109] 第二提取模块203用于从标记后的网络数据流样本的U化路径中进行U化参数特征 字符串的提取,进而获得与隐私信息泄露相关联的ML参数特征字符串集合。
[0110] 学习训练模块204用于基于头域特征关键字集合和抓L参数特征字符串集合,采用 有监督学习方法或无监督学习方法进行学习训练,获得粗粒度检测模型。
[0111] 参见图8,该装置还包括:匹配模块103。
[0112] 匹配模块103用于利用分别与不同隐私信息类型对应的数据匹配正则表达式集合 对判定为存在隐私泄露的移动终端当前的网络数据流中的隐私信息进行匹配,进而确定移 动终端当前的网络数据流所泄露的隐私信息类型。
[0113] 其中,参见图9,该装置还包括:第二标记模块301和形成模块302。
[0114] 第二标记模块301用于对包含隐私信息泄露的网络数据流样本中的隐私信息的隐 私信息类型进行标记。
[0115] 形成模块302用于根据各隐私信息类型下的隐私信息形成数据匹配正则表达式。
[0116] 其中,第二提取模块203具体用于基于n-gram模型对标记后的网络数据流样本的 U化路径进行U化参数特征字符串的提取。
[0117] 进一步地,参见图10,第二提取模块203包括:获取单元2031、切分单元2032、计算 单元2033 W及加入单元2034。
[0118] 获取单元2031用于从标记后的网络数据流样本的U化路径中获取U化参数文本集 厶 1=1 O
[0119] 切分单元2032用于通过n-gram算法将URL参数文本集合的URL参数文本切分为多 个U化参数特征字符串。
[0120] 计算单元2033用于根据各U化参数特征字符串被标记为包含隐私信息泄露和不包 含隐私信息泄露的概率计算ML参数特征字符串的信息增益。
[0121] 加入单元2034用于在计算出来的TOL参数特征字符串的信息增益大于临界阔值 时,将ML参数特征字符串加入到与隐私信息泄露相关联的ML参数特征字符串集合中。
[0122] W上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本 发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的 技术领域,均同理包括在本发明的专利保护范围内。
【主权项】
1. 一种检测移动终端隐私泄露的方法,其特征在于,所述方法包括: 利用已构建的粗粒度检测模型监控并检测移动终端当前的网络数据流,所述粗粒度检 测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的头域特征关键字集合 和统一资源定位符URL参数特征字符串集合构建而成的; 若检测到所述移动终端当前的网络数据流中包含所述头域特征关键字和/或URL参数 特征字符串,则判定所述移动终端当前的网络数据流存在隐私泄露。2. 根据权利要求1所述的方法,其特征在于,所述隐私信息包括位置信息和/或用户标 识信息。3. 根据权利要求2所述的方法,其特征在于,所述位置信息包括小区信息和全球定位系 统GPS信息中的至少一个。4. 根据权利要求2所述的方法,其特征在于,所述用户标识信息包括国际移动用户识别 码頂SI、国际移动设备标识頂EI、移动台综合业务数字网号码MSISDN中的至少一个。5. 根据权利要求1所述的方法,其特征在于,所述利用已构建的粗粒度检测模型监控并 检测移动终端当前的网络数据流的步骤之前,还包括: 将所述网络数据流样本标记为包含隐私信息泄露的网络数据流样本和不包含隐私信 息泄露的网络数据流样本; 从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字的提取,进而获得与 隐私信息泄露相关联的头域特征关键字集合; 从标记后的网络数据流样本的URL路径中进行URL参数特征字符串的提取,进而获得与 隐私信息泄露相关联的URL参数特征字符串集合; 基于所述头域特征关键字集合和所述URL参数特征字符串集合,采用有监督学习方法 或无监督学习方法进行学习训练,获得所述粗粒度检测模型。6. 根据权利要求5所述的方法,其特征在于,所述方法还包括: 利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定为存在隐私泄 露的所述移动终端当前的网络数据流中的隐私信息进行匹配,进而确定所述移动终端当前 的网络数据流所泄露的隐私信息类型。7. 根据权利要求6所述的方法,其特征在于,所述利用分别与不同隐私信息类型对应的 数据匹配正则表达式集合对以判定为存在隐私泄露的所述移动终端当前的网络数据流中 的隐私信息进行匹配的步骤之前,进一步包括: 对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息类型进行标记; 根据各隐私信息类型下的隐私信息形成所述数据匹配正则表达式。8. 根据权利要求5所述的方法,其特征在于,所述从标记后的网络数据流样本的URL路 径中进行URL参数特征字符串的提取的步骤包括: 基于n-gram模型对所述标记后的网络数据流样本的URL路径进行URL参数特征字符串 的提取。9. 根据权利要求8所述的方法,其特征在于,所述基于n-gram模型对所述标记后的网络 数据流样本的URL路径进行URL参数特征字符串的提取的步骤,包括: 从所述标记后的网络数据流样本的URL路径中获取URL参数文本集合; 通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参数特征字符串; 根据各所述URL参数特征字符串被标记为包含隐私信息泄露和不包含隐私信息泄露的 概率计算所述URL参数特征字符串的信息增益; 若计算出来的URL参数特征字符串的信息增益大于临界阈值,则将所述URL参数特征字 符串加入到所述与隐私信息泄露相关联的URL参数特征字符串集合中。10. -种检测移动终端隐私泄露的装置,其特征在于,所述装置包括: 监控与检测模块,用于利用已构建的粗粒度检测模型监控并检测移动终端当前的网络 数据流,所述粗粒度检测模型是通过从网络数据流样本中提取的与隐私信息泄露相关联的 头域特征关键字集合和统一资源定位符URL参数特征字符串集合构建而成的; 判定模块,用于在检测到所述移动终端当前的网络数据流中包含所述头域特征关键字 和/或URL参数特征字符串时,判定所述移动终端当前的网络数据流存在隐私泄露。11. 根据权利要求10所述的装置,其特征在于,所述隐私信息包括位置信息和/或用户 标识信息。12. 根据权利要求11所述的装置,其特征在于,所述位置信息包括小区信息和全球定位 系统GPS信息中的至少一个。13. 根据权利要求11所述的装置,其特征在于,所述用户标识信息包括国际移动用户识 别码頂SI、国际移动设备标识頂EI、移动台综合业务数字网号码MSISDN中的至少一个。14. 根据权利要求10所述的装置,其特征在于,所述装置还包括: 第一标记模块,用于将所述网络数据流样本标记为包含隐私信息泄露的网络数据流样 本和不包含隐私信息泄露的网络数据流样本; 第一提取模块,用于从标记后的网络数据流样本的HTTP数据包中进行头域特征关键字 的提取,进而获得与隐私信息泄露相关联的头域特征关键字集合; 第二提取模块,用于从标记后的网络数据流样本的URL路径中进行URL参数特征字符串 的提取,进而获得与隐私信息泄露相关联的URL参数特征字符串集合; 学习训练模块,用于基于所述头域特征关键字集合和所述URL参数特征字符串集合,采 用有监督学习方法或无监督学习方法进行学习训练,获得所述粗粒度检测模型。15. 根据权利要求14所述的装置,其特征在于,所述装置还包括: 匹配模块,用于利用分别与不同隐私信息类型对应的数据匹配正则表达式集合对判定 为存在隐私泄露的所述移动终端当前的网络数据流中的隐私信息进行匹配,进而确定所述 移动终端当前的网络数据流所泄露的隐私信息类型。16. 根据权利要求15所述的装置,其特征在于,所述装置还包括: 第二标记模块,用于对包含隐私信息泄露的网络数据流样本中的隐私信息的隐私信息 类型进行标记; 形成模块,用于根据各隐私信息类型下的隐私信息形成所述数据匹配正则表达式。17. 根据权利要求14所述的装置,其特征在于,所述第二提取模块具体用于基于n-gram 模型对所述标记后的网络数据流样本的URL路径进行URL参数特征字符串的提取。18. 根据权利要求17所述的装置,其特征在于,所述第二提取模块包括: 获取单元,用于从所述标记后的网络数据流样本的URL路径中获取URL参数文本集合; 切分单元,用于通过n-gram算法将URL参数文本集合的URL参数文本切分为多个URL参 数特征字符串; 计算单元,用于根据各所述URL参数特征字符串被标记为包含隐私信息泄露和不包含 隐私信息泄露的概率计算所述URL参数特征字符串的信息增益; 加入单元,用于在计算出来的URL参数特征字符串的信息增益大于临界阈值时,将所述 URL参数特征字符串加入到所述与隐私信息泄露相关联的URL参数特征字符串集合中。
【文档编号】H04L29/06GK105939359SQ201610448204
【公开日】2016年9月14日
【申请日】2016年6月20日
【发明人】黄亮, 陈训逊, 李超, 王东安, 王博, 薛晨, 洪筱筱, 徐杰, 熊刚, 刘文浩
【申请人】国家计算机网络与信息安全管理中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1