一种Web通讯应用的通讯监控方法和装置与流程

文档序号：11681122阅读：164来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本申请涉及互联网技术领域，特别是涉及一种web通讯应用的通讯监控方法和一种web通讯应用的通讯监控装置。

背景技术：

随着互联网的发展，出现了通过互联网非法牟利的黑色产业。黑色产业通常通过各类通讯应用进行信息交流和交易，因为黑色产业在通讯应用上交流和交易的隐蔽性，目前仅仅针对黑色产业在互联网上公开的信息进行监控的方法，难以有效地监控黑色产业。

因此，目前的信息监控方法存在着监控效率较低的问题。

技术实现要素：

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种web通讯应用的通讯监控方法和相应的一种web通讯应用的通讯监控装置。

为了解决上述问题，本申请公开了一种web通讯应用的通讯监控方法，包括：

采集所述web通讯应用与服务器之间基于网络协议的交互数据；

通过逆向解析所述网络协议，从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容；

识别所述通讯内容，并根据识别结果判断是否对所述通讯账户添加特征标识。

可选地，所述方法应用于代理服务器，所述采集所述web通讯应用与服务器之间基于网络协议的交互数据包括：

监控位于所述web端与所述服务器之间的代理服务器的目标端口，钩取所述web应用与所述服务器之间经过所述目标端口传输的交互数据。

可选地，所述交互数据包括所述web端发送至所述服务器的请求数据，以及，所述服务器针对所述请求数据的反馈数据；

所述逆向解析所述网络协议包括：

比对所述请求数据和反馈数据，确定所述通讯账户和所述通讯内容分别在所述通讯内容中的存放位置。

可选地，所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容为：

根据确定的存放位置从所述请求数据中提取所述通讯账户和所述通讯内容。

可选地，所述交互数据中存放所述通讯账户的账户标识；

所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容为：

从所述交互数据中提取所述通讯账户的账户标识以及所述通讯内容，进一步从账户信息获取接口获取所述账户标识对应的通讯账户。

可选地，所述方法还包括：

从所述交互数据中提取所述通讯账户的验证信息；

在所述从账户信息获取接口获取所述账户标识对应的通讯账户之前，所述方法还包括：

将所述验证信息传送至所述账户信息获取接口：

所述从账户信息获取接口获取所述账户标识对应的通讯账户为：

从账户信息获取接口获取对所述验证信息验证成功后反馈的通讯账户。

可选地，所述述账户信息获取接口包括通讯账户管理接口和通讯账户访问接口；

所述从账户信息获取接口获取所述账户标识对应的通讯账户包括：

访问所述通讯账户管理接口，根据所述账户标识获取对应的账户名；

访问所述通讯账户访问接口，根据所述账户名获取对应的通讯账户。

可选地，所述通讯账户为个体账户，所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容包括：

从所述交互数据中提取所述通讯账户以及所述个体账户的通讯内容。

可选地，所述通讯账户为群体账户，所述通讯内容为所述群体账户中所有个体账户的通讯内容，所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容包括：

从所述交互数据中提取个体账户以及所述个体账户的通讯内容；

查找所述个体账户所属的群体账户和所述群体账户中其他个人账户，并聚合所有个体账户的通讯内容。

可选地，所述方法还包括：

从所述交互数据中提取各个个体账户的通讯内容对应的通讯时间；

所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容还包括：

按照对应的通讯时间对各个体账户的通讯内容进行排序。

可选地，所述识别所述通讯内容包括：

根据预置的识别规则识别所述通讯内容是否包括敏感信息；

所述根据识别结果判断是否对所述通讯账户添加特征标识包括：

若所述通讯内容包括敏感信息，则对所述通讯账户添加所述特征标识。

可选地，在所述识别所述通讯内容之前，所述方法还包括：

去除所述通讯内容的冗余信息。

可选地，在所述识别所述通讯内容之前，所述方法还包括：

提取与预置正则表达式匹配的通讯内容。

可选地，在所述识别所述通讯内容之前，所述方法还包括：

对所述通讯内容进行分词；

对分词结果进行聚类，得到至少一种分词类别的分词结果；

所述根据预置的识别规则识别所述通讯内容是否包括敏感信息为：

根据针对不同分词类别设置的识别规则，识别所述分词类别对应的分词结果是否包括敏感信息。

可选地，所述网络协议为http协议，所述交互数据包括通过get方法、post方法和connect方法中至少一种发送的请求数据。

为了解决上述问题，本申请还公开了一种web通讯应用的通讯监控装置，包括：

交互数据采集模块，用于采集所述web通讯应用与服务器之间基于网络协议的交互数据；

网络协议逆向解析模块，用于通过逆向解析所述网络协议，从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容；

通讯内容识别模块，用于识别所述通讯内容，并根据识别结果判断是否对所述通讯账户添加特征标识。

可选地，所述装置部署于代理服务器，所述交互数据采集模块包括：

交互数据钩取子模块，用于监控位于所述web端与所述服务器之间的代理服务器的目标端口，钩取所述web应用与所述服务器之间经过所述目标端口传输的交互数据。

可选地，所述交互数据包括所述web端发送至所述服务器的请求数据，以及，所述服务器针对所述请求数据的反馈数据；

所述网络协议逆向解析模块包括：

数据比对子模块，用于比对所述请求数据和反馈数据，确定所述通讯账户和所述通讯内容分别在所述通讯内容中的存放位置。

可选地，所述网络协议逆向解析模块具体用于：

根据确定的存放位置从所述请求数据中提取所述通讯账户和所述通讯内容。

可选地，所述交互数据中存放所述通讯账户的账户标识；

所述网络协议逆向解析模块具体用于：

从所述交互数据中提取所述通讯账户的账户标识以及所述通讯内容，进一步从账户信息获取接口获取所述账户标识对应的通讯账户。

本申请实施例包括以下优点：

根据本申请实施例，通过对web通讯应用与服务器之间进行数据交互所使用的网络协议进行逆向解析，使得可以从交互数据中提取到web通讯应用的通讯账户以及该通讯账户的通讯内容，在确定了通讯账户和通讯内容的对应关系的基础上，可以有效地对web通讯应用上的通讯内容进行监控，提升了监控效率。

在针对黑色产业进行监控的应用场景中，即使黑色产业通过基于私密性网络协议进行数据交互的通讯应用交流和交易，也可以利用本申请实施例获取到其通讯内容和确定产生该通讯内容的通讯账户，从而可以有效地监控黑色产业。

附图说明

图1是本申请的一种web通讯应用的通讯监控方法实施例一的步骤流程图；

图2是本申请的一种web通讯应用的通讯监控方法实施例二的步骤流程图；

图3是本申请的一种web通讯应用的通讯监控装置实施例一的结构框图；

图4是本申请的一种web通讯应用的通讯监控装置实施例二的结构框图；

图5是本申请一种通讯监控系统的架构示意图；

图6是本申请一种交互数据监控的流程示意图；

图7是本申请一种交互数据的监听、分析和信息提取的流程示意图；

图8是本申请一种交互数据的消息源定位流程示意图；

图9是本申请一种通讯内容识别的流程示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种web通讯应用的通讯监控方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，采集所述web通讯应用与服务器之间基于网络协议的交互数据。

上述的web通讯应用可以为任意基于b/s架构(browser/server，浏览器/服务器端)的通讯软件，例如阿里旺旺网页版、微博网页版等。基于b/s架构的web通讯应用可以通过各类web浏览器客户端，与服务器端进行数据交互。相比起基于c/s架构(client/server，客户端/服务器端)的通讯应用，可以简化客户端载荷，也减轻了系统维护与升级的成本和工作量。

web通讯应用可以基于一定的网络协议与服务器进行数据交互。目前web通讯应用与服务器交互数据通常是基于应用层的网络协议，例如，http协议(超文本传输协议，hypertexttransferprotocol)、dhcp协议(动态主机配置协议，dynamichostconfigurationprotocol)、ftp协议(文件传输协议，filetransferprotocol)等。当然，在实际应用中，不同的web通讯应用、服务器、网络结构可能会基于不同的网络协议进行不同方式的数据交互，本申请实施例对此不作限制。

web通讯应用与服务器进行数据交互的方式可以有多种，例如，通过代理服务器进行，代理服务器可以将从web通讯应用通过web端发送的请求数据转发给服务器，并将服务器返回的反馈数据转发给web端；或者web通讯应用直接与服务器进行数据交互。

可以针对web通讯应用与服务器之间的交互数据进行采集。采集的方式可以有多种，具体可以根据数据交互方式而定。例如，针对于通过代理服务器进行数据交互的方式，可以针对代理服务器上的web端和服务器之间的数据交互端口进行监控，数据经过该端口进行传输时，将其钩取以采集到web通讯应用与服务器交互的数据；又例如，在web端和服务器分别部署端口监听应用，在监听到数据通过特定端口传输至web端或服务器，将其读取以采集到交互数据。

步骤102，通过逆向解析所述网络协议，从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容。

通讯账户可以为用于区分通讯来源而注册的个体账户，和/或某个通讯用户所属的用于群发通讯内容给多个其他通讯账户的群体账户，通讯内容可以为通讯账户产生的文字、图片、音频、视频等的信息内容。

实际应用中，为了保护通讯账户及通讯内容的安全，经过加密性的网络协议处理的数据在数据包中并没有固定的存放位置。因此可以逆向解析用于处理数据的网络协议，以确定通讯账户及对应的通讯内容的存放位置以便提取。逆向解析通常采用逆向分析的思想，解析出加密的应用和数据所使用的网络协议的格式以及各个协议字段所对应的网络协议，逆向解析的具体方式可以有多种，例如通过对数据的关联性分析，或者针对web端和服务器交互的数据的结构进行比对。通过逆向解析的网络协议，可以还原出数据的原字符串所表示的含义，即可以确定各个字符串所代表的内容是否为web通讯应用的通讯账户和该账户对应的通讯内容。

针对已经确定存放位置的通讯账户和通讯内容进行提取，以便于进一步的识别处理。

步骤103，识别所述通讯内容，并根据识别结果判断是否对所述通讯账户添加特征标识。

可以针对提取的通讯内容进行识别。具体的识别方式可以有多种，例如预先设置针对敏感信息的识别规则，将识别规则与通讯内容进行匹配以判断通讯内容是否包含有敏感信息，如一些交易词汇“买”、“卖”或“多少钱”；又例如，可以判断通讯内容中某个热度词在预设时间段内出现次数是否超过预设阈值；又例如通过文本分析的方法分析通讯内容，从大量的通讯内容中抽出多个特征值，比较特征值的相似度并统计相似度大于预设阈值的内容的出现次数，从而可以识别出一些反复出现的宣传广告。

本领域技术人员可以根据识别的目的和实际情况采用不同的识别方式，本申请实施例对此不作限制。

对通讯内容的识别可以有不同的识别结果，可以根据识别结果判断是否对该通讯内容对应的通讯账户添加特征标识，以便采取进一步的监控处理。例如对该通讯账户的通讯内容重点监控，或者查找该通讯账户的其他关联账户以挖掘出更多其通讯内容。

参照图2，示出了本申请的一种web通讯应用的通讯监控方法实施例二的步骤流程图，所述方法可以应用于代理服务器，所述方法具体可以包括如下步骤：

步骤201，采集所述web通讯应用与服务器之间基于网络协议的交互数据；所述交互数据包括所述web端发送至所述服务器的请求数据，以及，所述服务器针对所述请求数据的反馈数据；所述交互数据中存放所述通讯账户的账户标识。

web通讯应用所处的web端和服务器之间可以通过代理服务器进行数据交互，因此可以将本申请实施例应用于代理服务器上。在数据交互过程中，代理服务器可以接收到web端发送至所述服务器的请求数据，并将其转发至相应的服务器；服务器可以针对请求数据返回反馈数据至代理服务器，代理服务器可以在接收到反馈数据后返回给web端。由此，web通讯应用与服务器之间的交互数据均经由代理服务器进行中转处理，代理服务器可以将这些中转的交互数据采集，以便进一步的分析和识别。

此外，web通讯应用通常不会在数据交互中使用真实的通讯账户，而是使用一种转换算法将真实的通讯账户对应转换成账户标识，例如，例如经审核机构审核后分配给注册者的uin(useridentificationnumber，身份验证码)，uin可以为一段数字串或字符串。因此在交互数据中存放的可以为通讯账户的账户标识，而并非真实的通讯账户本身。

作为本申请实施例的优选示例，所述网络协议可以为http协议，所述交互数据包括通过get方法、post方法和connect方法中至少一种发送的请求数据。

目前较多的web通讯应用基于http协议与服务器交互数据。在利用http代理服务器对基于http协议的数据交互中，web端、服务器、代理服务器通常通过get(查询)、post(提交更新)和connect(转发)等方法发送、接收和转发请求数据。当然也可以是其他的发送方法，例如put(添加)和delete(删除)等。

作为本申请实施例的优选示例，所述步骤201可以包括：

监控位于所述web端与所述服务器之间的代理服务器的目标端口，钩取所述web应用与所述服务器之间经过所述目标端口传输的交互数据。

代理服务器上可以设置有接收和转发交互数据的端口，针对该端口进行监控，以钩取web应用与服务器之间经过端口传输的交互数据。实际应用中，可以在代理服务器上部署监控代理模块，通过对tornado进行修改以实现对代理服务器的端口监控，当然也可以通过其他方式部署代理监控。

针对基于http协议的数据交互，可以对通过get、post、connect方法发送的请求数据进行钩取(hook)，以提取必要的数据。数据钩取可以通过设置钩子程序实现，钩子程序实际上是一个处理数据的程序段，通过系统调用，把它挂入系统。每当特定的数据发出，在没有到达目的窗口前，钩子程序就先捕获该数据。

为了便于本领域技术人员理解本申请实施例，图6示出了本申请一种交互数据监控的流程示意图。从图中可见，可以监听代理服务器的数据交互端口，当接收到web端的web通讯应用通过浏览器发送的请求数据，判断浏览器的数据请求方法。如果是通过get方法和post方法请求数据，代理服务器可以基于用于简化处理逻辑的asynchttpclient类扩展异步，请求服务器反馈，以提高数据交互性能；当服务器针对请求数据返回反馈数据，代理服务器可以在回调函数中处理，并转发给web端的浏览器以响应浏览器的请求。如果是通过connect方法请求数据，可以基于tcp协议(transmissioncontrolprotocol传输控制协议)，利用iostream(inputoutputstream，输入输出流)的异步socket(接口)对数据进行转发，以完成针对connect方法发送数据的处理并响应浏览器的请求。

步骤202，比对所述请求数据和反馈数据，确定所述通讯账户和所述通讯内容分别在所述通讯内容中的存放位置，从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容。

作为本申请实施例的优选示例一，所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容具体可以为：

根据确定的存放位置从所述请求数据中提取所述通讯账户和所述通讯内容。

为了保护通讯账户及通讯内容的安全，经过加密性的网络协议处理的数据在数据包中并没有明确和固定的存放位置。因此，针对于钩取到的web端发送的请求数据和服务器返回的反馈数据，可以将两者进行结构比对，从而逆向解析出网络协议中各个字段的含义，确定了各个协议字段的含义，即可确定通讯账户对应的通讯内容分别在通讯内容中的存放位置。在确定的存放位置可以提取到对应于通讯账户的通讯内容。此外，还可以提取其他关联的通讯信息，例如通讯账户的创建时间、用于验证的验证信息、通讯发起时间、通讯持续时间等信息。

作为本申请实施例的优选示例二，所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容具体可以为：

从所述交互数据中提取所述通讯账户的账户标识以及所述通讯内容，进一步从账户信息获取接口获取所述账户标识对应的通讯账户。

如上文所述，交互数据中并不会存放真实的通讯账户，而是使用一种转换算法将真实的通讯账户对应转换成账户标识。因此，可以利用上述步骤提供的方法确定账户标识及对应的通讯内容的存放位置并相应提取。基于http协议的数据交互中，通常具有关于账户标识和通讯账户对应关系信息的账户信息获取接口，通过该接口可以根据提取的账户标识，获取所对应的通讯账户。

作为本申请实施例的优选示例，所述述账户信息获取接口可以包括通讯账户管理接口和通讯账户访问接口；

所述从账户信息获取接口获取所述账户标识对应的通讯账户可以包括：

子步骤s11，访问所述通讯账户管理接口，根据所述账户标识获取对应的账户名。

子步骤s12，访问所述通讯账户访问接口，根据所述账户名获取对应的通讯账户。

实际的应用中，web通讯应用所提供的接口，对于真实通讯账户的查询权限可能仅限制在与该通讯账户具有关联关系的其他通讯账户，而没有建立关联关系的通讯账户或外部设备无法追溯该真实通讯账户。因此可以首先通过访问一个具有账户标识与账户名对应关系信息的通讯账户管理接口，根据账户标识获取账户名。账户名可以是用户针对通讯账户预设的昵称、抬头等的个人定义名称信息。然后通过访问依据具有账户名与通讯账户对应关系信息的通讯账户访问接口，根据账户名获取通讯账户。

当然，本领域技术人员可以根据实际情况采用各种方式根据账户标识获取通讯账户，例如可以通过具有账户标识与通讯账户对应关系信息的接口，直接根据账户标识获取通讯账户。

作为本申请实施例的优选示例，所述方法可以还包括：从所述交互数据中提取所述通讯账户的验证信息；

在所述从账户信息获取接口获取所述账户标识对应的通讯账户之前，所述方法可以还包括：将所述验证信息传送至所述账户信息获取接口。

所述从账户信息获取接口获取所述账户标识对应的通讯账户可以具体为：从账户信息获取接口获取对所述验证信息验证成功后反馈的通讯账户。

在实际应用中，在从账户信息获取接口获取信息时需要经过验证。因此可以从交互数据中提取web通讯应用中对应通讯账户的验证信息，例如ptwebapp、vfwebapp等验证信息，其中webapp为web应用名称，将该验证信息发送至账户信息获取接口以进行验证，验证成功后即可从接口获取其根据请求反馈的通讯账户。

作为本申请实施例的优选示例三，所述通讯账户为个体账户，所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容可以包括：

从所述交互数据中提取所述通讯账户以及所述个体账户的通讯内容。

实际应用中，通讯账户可以分为个体账户和群体账户。个体账户是针对个人使用的通讯账户，个体账户之间的通讯内容仅限于个体账户之间交互。群体账户可以为多个个体账户的集合，当个体账户向群体账户发送通讯内容，也即是向该群体账户包含的多个个体账户发送。

当通讯账户为个体账户时，可以从交互数据中提取该个体账户，以及该个体账户发送及接收到的通讯内容。

作为本申请实施例的优选示例四，所述通讯账户为群体账户，所述通讯内容为所述群体账户中所有个体账户的通讯内容，所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容可以包括：

子步骤s21，从所述交互数据中提取个体账户以及所述个体账户的通讯内容。

子步骤s22，查找所述个体账户所属的群体账户和所述群体账户中其他个人账户，并聚合所有个体账户的通讯内容。

当通讯账户为群体账户，通讯内容可以是该群体账户中包含的所有个体账户的通讯内容。在提取通讯内容时，可以先从交互数据中提取某个个体账户的通讯内容，再查找该个体账户所属的群体账户，以及该群体账户中所包含的其他个体账户，将各个查找到的个体账户的通讯内容聚合，从而可以扩展监控的对象范围。

作为本申请实施例的优选示例，所述方法可以还包括：从所述交互数据中提取各个个体账户的通讯内容对应的通讯时间。

所述从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容可以还包括：按照对应的通讯时间对各个体账户的通讯内容进行排序。

除了通讯账户以及通讯内容，还可以从交互数据中提取各个个体账户的通讯内容对应的通讯时间，按照通讯时间对通讯内容进行排序，以便于后续进行某个通讯内容的某个通讯信息在一段时间内的出现次数的统计处理，并基于统计结果识别通讯内容。

此外，还可以将提取的通讯账户、通讯内容、验证信息、通讯时间等的信息存储在预置信息库中，以待后续的进一步分析。

实际应用中，可以在代理服务器上部署协议分析模块，以进行交互数据的数据分析和数据提取等处理。协议分析模块可以根据不同的web通讯应用所使用的网络协议而进行调整。在通过协议分析模块实施本申请实施例齐前，可以进行相应的配置文件的配置，并开启监控框架，从而实现交互数据的记录和提取。此外，可以在web通讯应用的数据交互过程中所涉及到的重要参数进行记录，通过审计web端的javascript代码，定位到相应的加密和处理代码，并将其运用到分析框架中。

为了便于本领域技术人员理解，以下结合图7和图8说明本申请实施例。

图7示出了本申请一种交互数据的监听、分析和信息提取的流程示意图。从图中可见，可以通过端口监听请求数据和对数据进行相应的转发，钩取请求数据，通过逆向分析请求数据和反馈数据确定账户标识uin和通讯内容的存放位置并提取，通过通讯账户管理接口，根据账户标识uin查询到账户名，并通过通讯账户访问接口，根据账户名查询到真实的个体账户和群体账户，将提取的通讯内容与通讯账户对应存储。

图8示出了本申请一种交互数据的消息源定位流程示意图。从图中可见，可以针对交互数据进行钩取处理，并初始化分析框架，初始化时可以创建信息库，信息库可以分别保存有为从通讯账户管理接口根据账户标识获取的对应账户名，和从通讯账户访问接口根据账户名获取的对应通讯账户。通过分析框架在信息库中查询通讯内容对应的通讯账户，从而定位产生某个通讯内容的消息源。

步骤203，根据预置的识别规则识别所述通讯内容是否包括敏感信息，若所述通讯内容包括敏感信息，则对所述通讯账户添加所述特征标识。

可以预先设置针对敏感信息的识别规则，将识别规则与通讯内容进行匹配以判断通讯内容是否包含有敏感信息，若某个通讯内容包含有敏感信息，则可以对产生该通讯内容的通讯账户添加特征标识，以便采取进一步的监控处理。

互联网中的黑色产业分布和行踪比较隐蔽，某些通讯应用成为了黑色产业发展和交易的工具。因此，在针对黑色产业的监控场景中，监控重点是通讯内容中的敏感信息。敏感信息可以根据实际需要由本领域技术人员设定，例如针对黑色产业，敏感信息通常为“买”、“卖”、“价格”等的交易信相关息，或者不同的具体黑色产业具有其特定的行业专用词汇，也可以将其作为敏感信息以监控。当然，也可以将本申请实施例应用于其他通讯内容的监控，例如将出现频率较高的词汇作为敏感信息进行监控，本申请实施例不对敏感信息的具体内容作限制。

根据本申请实施例，通过监控web端与服务器之间的代理服务器的目标端口，钩取web通讯应用与服务器之间基于明文的http协议交互的请求数据和反馈数据，并比对请求数据和反馈数据，以确定通讯账户以及通讯账户的通讯内容的存放位置，并在该存放位置提取通讯账户和通讯内容，从而确定了通讯账户和通讯内容的对应关系。在确定了通讯账户和通讯内容的对应关系的基础上，可以有效地对web通讯应用上的通讯内容进行监控，提升了监控效率。

为了便于本领域技术人员理解本申请实施例，图5示出了本申请一种通讯监控系统的架构示意图。从图中可见，本申请的监控系统可以包括任意一款可以运行b/s架构的web通讯应用的浏览器，实现异步非阻塞的自定义代理服务器，协议分析模块、通讯内容分析模块和mysql数据库等。web通讯应用通过浏览器向代理服务器发送请求数据，通过协议分析模块提取到相应的通讯内容，并可以将其存储在mysql数据库中。通讯内容分析模块可以从协议分析模块中提取的通讯内容或数据库中获取通讯内容，从而进行通讯内容是否包含敏感信息的识别处理。

作为本申请实施例的优选示例，在所述步骤203之前，所述方法可以还包括以下至少一种：

步骤s1，去除所述通讯内容的冗余信息。

步骤s2，提取与预置正则表达式匹配的通讯内容。

步骤s3，对所述通讯内容进行分词。

步骤s4，对分词结果进行聚类，得到至少一种分词类别的分词结果。

实际应用中，通讯内容可能包含有繁杂和冗余的信息，可以基于中文自然语言处理技术，对通讯内容进行分词、去停用词(stopwords)、正则表达式(regularexpression)提取信息等的预处理，以便于后续的识别处理。

具体地，通讯内容可能包含有没有实质意义的冗余信息，如语气助词“啊”，或介词“的”、“地”等停用词。因此，可以从通讯内容中剔除该部分内容。

此外，可以预设有正则表达式。正则表达式可以使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，从而可以过滤提取关键的通讯内容。

此外，可以对通讯内容按照内容属性或内容涉及的行业类别进行分词处理，针对分词结果，可以通过如k-means聚类算法等的方式进行分词聚类处理，从而得到多个分词类别的分词结果，以便于后续按照不同分词类别设置的识别规则进行识别。

所述根据预置的识别规则识别所述通讯内容是否包括敏感信息可以具体为：

根据针对不同分词类别设置的识别规则，识别所述分词类别对应的分词结果是否包括敏感信息。

可以根据不同的分词类别预设不同的识别规则，针对某个分词类别对应的分词结果，可以采用相应的识别规则识别是否包含敏感信息。

需要说明的是，本领域技术人员可以根据实际情况采用上述步骤所提供的一种或多种预处理手段的组合。而且，实际应用中也可以直接对通讯内容进行识别而无需经过预处理。

为了便于本领域技术人员理解本申请实施例，图9示出了本申请一种通讯内容识别的流程示意图。从图中可见，可以通过监控框架监控基于b/s架构的web通讯应用，获取web通讯应用的通讯内容。然后通过自然语言处理、聚类算法等分析手段，获取到有用的情报信息。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图3，示出了本申请的一种web通讯应用的通讯监控装置实施例一的结构框图，具体可以包括如下模块：

交互数据采集模块301，用于采集所述web通讯应用与服务器之间基于网络协议的交互数据。

网络协议逆向解析模块302，用于通过逆向解析所述网络协议，从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容。

通讯内容识别模块303，用于识别所述通讯内容，并根据识别结果判断是否对所述通讯账户添加特征标识。

参照图4，示出了本申请的一种web通讯应用的通讯监控装置实施例二的结构框图，具体可以包括如下模块：

交互数据采集模块401，用于采集所述web通讯应用与服务器之间基于网络协议的交互数据。

网络协议逆向解析模块402，用于通过逆向解析所述网络协议，从所述交互数据中提取所述web通讯应用的通讯账户以及所述通讯账户的通讯内容。

通讯时间提取模块403，用于从所述交互数据中提取各个个体账户的通讯内容对应的通讯时间。

通讯内容排序模块404，用于按照对应的通讯时间对各个体账户的通讯内容进行排序。

冗余信息去除模块405，用于去除所述通讯内容的冗余信息。

正则表达式匹配模块406，用于提取与预置正则表达式匹配的通讯内容。

分词模块407，用于对所述通讯内容进行分词。

聚类模块408，用于对分词结果进行聚类，得到至少一种分词类别的分词结果。

通讯内容识别模块409，用于识别所述通讯内容，并根据识别结果判断是否对所述通讯账户添加特征标识。

作为本申请实施例的优选示例，所述装置可以部署于代理服务器，所述交互数据采集模块401可以包括：

作为本申请实施例的优选示例，所述交互数据包括所述web端发送至所述服务器的请求数据，以及，所述服务器针对所述请求数据的反馈数据；

所述网络协议逆向解析模块402可以包括：

数据比对子模块，用于比对所述请求数据和反馈数据，确定所述通讯账户和所述通讯内容分别在所述通讯内容中的存放位置。

作为本申请实施例的优选示例，所述网络协议逆向解析模块402可以具体用于：

根据确定的存放位置从所述请求数据中提取所述通讯账户和所述通讯内容。

作为本申请实施例的优选示例，所述交互数据中存放所述通讯账户的账户标识；

所述网络协议逆向解析模块402可以具体用于：

从所述交互数据中提取所述通讯账户的账户标识以及所述通讯内容，进一步从账户信息获取接口获取所述账户标识对应的通讯账户。

作为本申请实施例的优选示例，所述装置可以还包括：

验证信息提取模块，用于从所述交互数据中提取所述通讯账户的验证信息。

验证信息发送模块，用于将所述验证信息传送至所述账户信息获取接口。

所述网络协议逆向解析模块402可以具体用于：

从账户信息获取接口获取对所述验证信息验证成功后反馈的通讯账户。

作为本申请实施例的优选示例，所述述账户信息获取接口可以包括通讯账户管理接口和通讯账户访问接口；

所述网络协议逆向解析模块402可以包括：

账户名获取子模块，用于访问所述通讯账户管理接口，根据所述账户标识获取对应的账户名。

通讯账户获取子模块，用于访问所述通讯账户访问接口，根据所述账户名获取对应的通讯账户。

作为本申请实施例的优选示例，所述通讯账户为个体账户，所述网络协议逆向解析模块402可以包括：

第一个体账户通讯内容提取子模块，用于从所述交互数据中提取所述通讯账户以及所述个体账户的通讯内容。

作为本申请实施例的优选示例，所述通讯账户为群体账户，所述通讯内容为所述群体账户中所有个体账户的通讯内容，所述网络协议逆向解析模块402可以包括：

第二个体账户通讯内容提取子模块，用于从所述交互数据中提取个体账户以及所述个体账户的通讯内容。

通讯内容聚合子模块，用于查找所述个体账户所属的群体账户和所述群体账户中其他个人账户，并聚合所有个体账户的通讯内容。

作为本申请实施例的优选示例，所述通讯内容识别模块409可以包括：

敏感信息识别子模块，用于根据预置的识别规则识别所述通讯内容是否包括敏感信息。

特征标识添加子模块，用于若所述通讯内容包括敏感信息，则对所述通讯账户添加所述特征标识。

作为本申请实施例的优选示例，所述敏感信息识别子模块可以具体用于：

根据针对不同分词类别设置的识别规则，识别所述分词类别对应的分词结果是否包括敏感信息。

作为本申请实施例的优选示例，所述网络协议为http协议，所述交互数据包括通过get方法、post方法和connect方法中至少一种发送的请求数据。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种web通讯应用的通讯监控方法和一种web通讯应用的通讯监控装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崇瑞
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种清水混凝土看台板的制造方法与工艺
上一篇：一种开颅机器人的协同交互控制系统的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。