码本生成方法与隐蔽通信系统的制作方法

文档序号:7763160阅读:439来源:国知局
专利名称:码本生成方法与隐蔽通信系统的制作方法
技术领域
本发明涉及信息安全领域,特别涉及一种码本生成方法与隐蔽通信系统。
背景技术
以信息隐藏技术为基础的隐蔽通信是当前技术发展的一个热点。与只能够让外部 的第三方无法了解通信内容的加密通信相比,隐蔽通信不仅仅能够隐藏通信的内容,还能 够隐蔽通信的发起者与接受者,甚至让第三方无法察觉到此次通信过程的存在。现有技术中对隐蔽通信已经有一定的研究,Web通信作为目前互联网最为常见的 通信行为已经成为进行隐蔽通信的主要方式之一。现有技术中基于Web通信行为实现的隐 蔽通信方式又有多种。以往基于TCP/IP协议或者HTTP协议的隐蔽通信方式通常利用协议 本身各个字段的特点,将信息隐藏在协议的各个字段中,这种方式往往会具有某种结构特 征。而基于计时的隐蔽通信方式又往往具有某种流模式。由此,本领域技术人员提出了利 用HTTP协议中上传隧道和下载隧道的不对称性进行隐蔽通信的方法。该方法将隐蔽通信 协议的命令信息隐蔽在上传Web通信行为中,将信息传输过程中的内容信息利用隐写术隐 蔽在下行网络流量中,从而抵御流量审查和流量规格化攻击。此外,在信息传输中还可采用 加密认证的方式来保证信息内容的安全性,利用免费代理和志愿者代理来达到抵御追踪的 目的,从而在隐蔽通信客户端和隐蔽通信服务端之间构成一条隐蔽隧道。在参考文献 l“Travis Gagie,Dynamic asymmetric communication, information processing letters,November 2008,Vol. 108,no. 6,pp. 352-355” 中,Adler 禾口 Maggs 基 于不对称通信理论提出了非对称通信模型,在该通信模型中,由于隐蔽通信服务端可以知 道所有来自客户端的知识(即HTTP请求信息),而客户端只知道它自己的请求信息,因此, 服务器端可以精确计算出来自所有客户端请求信息的概率分布,这样就可以利用这种非对 称通信通道维护掩体服务器上所有存在的web页面的频率分布,即客户可能发送到服务端 的HTTP请求(URL)和该HTTP请求所对应的频率,以此来减少隐蔽通信客户端发送到隐蔽 通信服务段的请求次数。在参考文献 2 "M. Adler, B. Maggs, protocols for asymmetric communication channels, in proceeding of 39th IEEE symposium on foundations of computer science (F0CS), Palo Alto, CA,1998” 中,Feamster 等人基于 Adler 与 Maggs 所提出的不 对称通信模型设计出一个抗流量审查的隐蔽通信系统Infranet,该隐蔽通信系统中的客户 端将用户实际需要的HTTP请求通过一系列为审查者可见的掩体HTTP请求隐藏起来,由服 务器负责找出用户实际需要的目标内容,然后再将这些目标内容隐写在掩体资源文件中, 审查者只能看到掩体资源文件而无法看到其中所隐写的内容,因此目标内容可在客户端被 读出并返还给用户浏览器。这一系统的缺点在于HTTP交互次数过多,延时过长。

发明内容
本发明的目的是克服现有技术中的隐蔽通信方法和系统HTTP交互次数过多,延时过长等缺陷,从而提供一种用时短的隐蔽通信系统。为了实现上述目的,本发明提供了一种码本生成方法,包括步骤1)、收集用户的互联网访问历史记录;步骤2)、根据历史访问记录计算出推荐URL序列;步骤3)、由范围映射算法生成动态字典;步骤4)、根据步骤2)得到的推荐URL序列与步骤3)得到的动态字典生成最终的 码本。上述技术方案中,在所述的步骤1)中还包括对所述的互联网访问历史记录的预 处理;所述预处理包括用于识别不同用户的活动以及同一用户不同访问的会话识别;用于识别不同用户的用户识别;用于识别用户所访问的网页的访问页识别。上述技术方案中,所述的互联网访问历史记录包括IP地址、时间、请求、身份、大 小、引用、代理;所述的会话识别根据请求的主机信息和引用信息实现;所述的用户识别根 据所述的IP地址与代理信息实现;所述的访问页识别根据所述请求和引用实现。上述技术方案中,所述的步骤2)包括步骤2-1)、计算出用户可能访问的目标页面的概率;步骤2-2)、对步骤2-1)所得到的概率进行排序,按照从大到小的顺序选择某个阈 值范围内的几个相应页面的URL作为推荐URL序列。上述技术方案中,在所述的步骤2-1)中,采用增量学习的全K阶的马尔科夫树来 计算概率;包括步骤2-1-1)、首先将由所述历史访问记录中所得到的用户历史上的HTTP请求序 列增量插入到马尔科夫树中;步骤2-1-2)、然后将前面若干次访问的URL作为一个会话序列传入所述马尔科夫 树,根据所述马尔科夫树得到该用户在前面访问序列下,下一次访问某个页面的概率的大上述技术方案中,在所述的步骤2-1-1)中,还包括对马尔科夫树做剪枝操作,剪 去所述马尔科夫树中访问概率较低的页面。上述技术方案中,所述的步骤4)包括步骤4-1)、对于所述推荐URL序列中的每一个URL执行下列步骤;步骤4-2)、在所述动态字典中查找第i个候选的目标URL,使得该候选的目标URL 在动态字典中的顺序刚好大于或等于该推荐URL,然后返回与该候选的目标URL所对应的 掩体页面的URL ;步骤4-3)、将所返回的掩体页面的URL与所述的推荐URL组成一个URL对,将这一 URL对添加到所述动态字典中。本发明还提供了一种隐蔽通信系统,该系统包括隐蔽通信客户端、隐蔽通信服务 器端;所述的隐蔽通信客户端通过网络与隐蔽通信服务器端连接,所述的隐蔽通信服务器 端还通过网络连接到隐蔽通信的目标服务器以及提供掩体信息的掩体信息服务器;其中,所述的隐蔽通信客户端根据隐蔽通信协议将用户的请求编码后发送给所述的隐
5蔽通信服务器端;所述的隐蔽通信服务器端采用根据用户的互联网访问历史记录来生成码 本的码本生成方法生成码本,根据该码本找出所述的目标服务器,访问目标服务器获取用 户的目标信息,访问掩体信息服务器获取掩体信息,将用户目标信息隐藏在掩体信息中,然 后经由隐蔽通信客户端返回给用户。上述技术方案中,还包括代理资源发布模块,所述代理资源发布模块位于所述隐 蔽通信客户端上;它根据代理发布策略定时发布一批可用的代理资源列表,所述隐蔽通信 客户端通过代理资源列表中的信息找寻代理服务器,通过找寻到的代理服务器连接到所述 的隐蔽通信服务器端。本发明的优点在于本发明能够有效降低隐蔽通信客户端与服务器端之间的交互次数,减少通信过程 中的延时。


图1为现有技术中的Infranet隐蔽通信系统的结构图;图2为在现有的Infranet隐蔽通信系统中隐蔽访问一个网站的实例图;图3为本发明的隐蔽通信系统的结构图;图4为采用现有技术中的码本生成方法进行隐蔽通信时客户端与服务器端之间 交换码本的次数与采用本发明的码本生成方法进行隐蔽通信时客户端与服务器端之间交 换码本的次数的比较图;图5为码本大小为8时,现有技术方法与本发明方法的迭代次数比较图;图6为现有技术中的范围映射算法的流程图。
具体实施例方式下面结合附图和具体实施方式
对本发明加以说明。图1中为前述参考文献2中所提到的Infranet系统的结构图,从该图中可以看 出,该系统包括位于用户浏览器端的Infranet客户端以及Infranet服务器,Infranet客 户端与Infranet服务器通过网络连接,所述Infranet服务器还与用户真正希望访问的 目标服务器通过网络连接。在背景技术中已经给出了 Infranet系统的工作过程,其中的 Infranet客户端将用户实际需要的HTTP请求通过一系列为审查者可见的掩体HTTP请求隐 藏起来,由Infranet服务器负责找出用户实际需要的目标内容,然后再将这些目标内容隐 写在掩体资源文件中,使得网络中的审查者只能看到掩体资源文件而无法看到其中所隐写 的内容,因此目标内容可在Infranet客户端被读出并返还给用户浏览器。在Infranet系统的上述工作过程中,如何编码HTTP请求,即如何用一系列掩体 HTTP请求代替用户实际需要的目标HTTP请求,并能为Infranet服务器所理解是其中的关 键问题。Infranet系统采用了范围映射算法来生成用于描述目标URL与掩体页面URL间对 应关系的码本(codebook),利用所述的码本解决这一问题。所述的范围映射算法如图6所 示,其输入为掩体服务器的页面概率分布、当前收到的HTTP请求、上次计算出来字符串的 上边界string.和下边界string.,所得到的结果为所述码本,具体实现步骤如下步骤1)、首先判断字符串的迭代范围(即字符串中字符的取值范围)是否为0,若为0(即上次的上界和下界相等),则代表找到了目标页面,将所找到的目标页面信息保存 在码本中,停止本算法的操作,若不为0,则执行下一步;步骤2)、通过求字符串上边界与字符串下边界之差来计算总的迭代范围;然后初 始化第一次迭代的下边界;步骤3)、接着对于所有的掩体站点页面做如下操作根据当前HTTP请求的页面概 率设定本次迭代的字符串上边界,根据字符串的上边界计算出分割字符串,保存当前分割 字符串和掩体页面,并把字符串上边界修改为本次计算的最小上边界;步骤4)、对所有的掩体站点页面完成上述操作后,得到由分割字符和掩体页面所 组成的对,由这些对形成码本,最后进入下一次迭代。参考图2,假设有一个用户在Infranet系统中希望访问CNN的官方网站(www. cnn. com),出于某种原因,他不希望被网络中的审查者知道他的这一请求,即他希望秘密请 求访问CNN官方网站。客户端首先会请求隐蔽通信服务器(即图1中的Infranet服务 器),并从该服务器端接收到一个初始的码本,这一码本通常被隐写在一个图片中。所述码 本中包括两个部分,一部分为目标URL候选集,例如图2中从左到右数第一个码本的左半部 分;另一部分为掩体页面,如图2中的前述第一个码本的右半部分。目标URL候选集中包括 有限个数的目标URL,客户端从目标URL候选集中寻找是否有他希望秘密访问的网站地址, 如果没有的话则从目标URL候选集中寻找一个与其希望秘密访问的网站地址“最为接近 的”URL,如图2的第一个码本中的“cctv. com”,根据码本,该URL所对应的掩体页面的URL 为“url3. html ”。在得到前述掩体页面的URL后,该掩体URL会通过一次正常的HTTP请求 告知Infranet服务器,由该服务器从相应的内容服务器端寻址生成相应的掩体页面。与此 同时,Infranet服务器需要根据前次的目标URL选择结果,根据前述的范围映射算法生成 新的码本。所生成的新码本如图2中的从左到右数的第二个码本,所生成的新码本会被隐 写到前述“url3. html”所对应的页面中,随着该页面传输到所述Infranet系统的客户端。 客户端接收到新的码本后,继续寻找与所希望秘密访问的网站地址最为接近的URL,如图2 中第二个码本中的“cnki. net”,与前面的操作相似,由该URL所对应的掩体页面隐写新生 成的码本,如此循环往复,直到所希望秘密访问的网站CNN的URL地址被找到,从该网站所 得到的信息被隐写在对应的隐藏页面中并返回给Infranet系统的客户端,由客户端读出 被隐写的数据后返回给用户。在这一过程中,网络中的审查者只能看到掩体页面的内容,而 无法看到包括码本、秘密访问的网站中的内容。由于在诸如Infranet系统的非对称通信模型中,隐蔽通信服务端只知道所有来 自客户端的HTTP请求信息,而不会利用客户端访问历史知识,预测下一次用户最有可能访 问的URL,因此,隐蔽通信服务器端只能精确计算出来自所有客户端请求掩体资源信息的概 率分布,而不知道目标资源的访问概率分布,造成了现有的Infranet系统具有HTTP交互次 数过多,延时过长等缺陷。从现有技术的上述缺陷来看,减少HTTP交互次数,缩短延时的关键在于如何提高 服务器端新生成的码本与用户历史记录的耦合性,使得新生成的码本尽可能地包含用户希 望秘密访问的网站的URL。因此在本发明中首先要提供一种新的码本生成方法。下面首先对本发明中的生成新的码本的相关方法加以说明,这一方法也被称为自 适应算法。
7
步骤1)、收集用户的互联网访问历史记录,并对其进行预处理。对于一个特定的用 户,只要不是初次登录互联网,其对互联网上网站的访问情况都会有相应的历史记录。这些 访问历史记录包括该用户过去经常访问哪些web网站,由这些访问历史记录还可以知道哪 些web网站会被大多数人经常访问。本发明中需要收集这些访问历史记录并保存在与隐蔽 通信有关的服务器端,所述服务器端得到这些访问历史记录后,在后续操作中就可以根据 这些访问历史记录计算最有可能访问的web页面。访问历史记录中包含有比较丰富的信息,在下面的表1中给出了预处理之前的访 问历史记录的基本格式。
权利要求
一种码本生成方法,包括步骤1)、收集用户的互联网访问历史记录;步骤2)、根据历史访问记录计算出推荐URL序列;步骤3)、由范围映射算法生成动态字典;步骤4)、根据步骤2)得到的推荐URL序列与步骤3)得到的动态字典生成最终的码本。
2.根据权利要求1所述的码本生成方法,其特征在于,在所述的步骤1)中还包括对所 述的互联网访问历史记录的预处理;所述预处理包括用于识别不同用户的活动以及同一用户不同访问的会话识别; 用于识别不同用户的用户识别; 用于识别用户所访问的网页的访问页识别。
3.根据权利要求2所述的码本生成方法,其特征在于,所述的互联网访问历史记录包 括IP地址、时间、请求、身份、大小、引用、代理;所述的会话识别根据请求的主机信息和引 用信息实现;所述的用户识别根据所述的IP地址与代理信息实现;所述的访问页识别根据 所述请求和引用实现。
4.根据权利要求1或2所述的码本生成方法,其特征在于,所述的步骤2)包括 步骤2-1)、计算出用户可能访问的目标页面的概率;步骤2-2)、对步骤2-1)所得到的概率进行排序,按照从大到小的顺序选择某个阈值范 围内的几个相应页面的URL作为推荐URL序列。
5.根据权利要求4所述的码本生成方法,其特征在于,在所述的步骤2-1)中,采用增量 学习的全K阶的马尔科夫树来计算概率;包括步骤2-1-1)、首先将由所述历史访问记录中所得到的用户历史上的HTTP请求序列增 量插入到马尔科夫树中;步骤2-1-2)、然后将前面若干次访问的URL作为一个会话序列传入所述马尔科夫树, 根据所述马尔科夫树得到该用户在前面访问序列下,下一次访问某个页面的概率的大小。
6.根据权利要求5所述的码本生成方法,其特征在于,在所述的步骤2-1-1)中,还包括 对马尔科夫树做剪枝操作,剪去所述马尔科夫树中访问概率较低的页面。
7.根据权利要求1或2所述的码本生成方法,其特征在于,所述的步骤4)包括 步骤4-1)、对于所述推荐URL序列中的每一个URL执行下列步骤;步骤4-2)、在所述动态字典中查找第i个候选的目标URL,使得该候选的目标URL在动 态字典中的顺序刚好大于或等于该推荐URL,然后返回与该候选的目标URL所对应的掩体 页面的URL ;步骤4-3)、将所返回的掩体页面的URL与所述的推荐URL组成一个URL对,将这一 URL 对添加到所述动态字典中。
8.一种隐蔽通信系统,其特征在于,该系统包括隐蔽通信客户端、隐蔽通信服务器端; 所述的隐蔽通信客户端通过网络与隐蔽通信服务器端连接,所述的隐蔽通信服务器端还通 过网络连接到隐蔽通信的目标服务器以及提供掩体信息的掩体信息服务器;其中,所述的隐蔽通信客户端根据隐蔽通信协议将用户的请求编码后发送给所述的隐蔽通 信服务器端;所述的隐蔽通信服务器端采用根据用户的互联网访问历史记录来生成码本的 码本生成方法生成码本,根据该码本找出所述的目标服务器,访问目标服务器获取用户的目标信息,访问掩体信息服务器获取掩体信息,将用户目标信息隐藏在掩体信息中,然后经 由隐蔽通信客户端返回给用户。
9.根据权利要求8所述的隐蔽通信系统,其特征在于,还包括代理资源发布模块,所述 代理资源发布模块位于所述隐蔽通信客户端上;它根据代理发布策略定时发布一批可用的 代理资源列表,所述隐蔽通信客户端通过代理资源列表中的信息找寻代理服务器,通过找 寻到的代理服务器连接到所述的隐蔽通信服务器端。
全文摘要
本发明提供一种码本生成方法,包括收集用户的互联网访问历史记录;根据历史访问记录计算出推荐URL序列;由范围映射算法生成动态字典;根据推荐URL序列与动态字典生成最终的码本。本发明还提供了一种隐蔽通信系统,该系统包括隐蔽通信客户端、隐蔽通信服务器端;所述的隐蔽通信客户端通过网络与隐蔽通信服务器端连接,所述的隐蔽通信服务器端还通过网络连接到隐蔽通信的目标服务器以及提供掩体信息的掩体信息服务器。本发明能够有效降低隐蔽通信客户端与服务器端之间的交互次数,减少通信过程中的延时。
文档编号H04L29/06GK101984620SQ20101052002
公开日2011年3月9日 申请日期2010年10月20日 优先权日2010年10月20日
发明者时金桥, 王啸, 谭庆丰 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1