一种检测业务提供商sp站点可靠性的方法及系统的制作方法

文档序号:7751046阅读:189来源:国知局
专利名称:一种检测业务提供商sp站点可靠性的方法及系统的制作方法
技术领域
本发明涉及数据业务技术领域,尤其涉及一种检测业务提供商SP站点可靠性的方法及系统。
背景技术
移动互联网是以移动终端为基础,互联网为原型的一种网络服务。随着移动终端用户的普及,移动互联网也随之迅速发展。目前,移动终端与互联网进行数据交互主要通过 WAP (Wireless Application Protocol,无线通讯协议)网关,基于WAP网关实现的数据交互包括文本信息、音乐下载、流媒体、视频、定位服务以及企业内部数据库等。移动终端的多媒体应用给用户带来了丰富的娱乐方式,但近几年,很多不法分子利用移动终端上网的便利特点,大量地发布和宣传色情、反动的内容,使得移动终端用户接收到很多带有色情和反动内容的图片、网页以及邮件等,严重影响了用户正常的生活。尤其随着时代科技的发展,青少年移动终端用户日益增加,使用移动终端访问无线互联网获取网络内容更为容易,导致部分SP(Service Provider,业务提供商)依靠WAP网关提供色情内容以吸引用户,经由梦网业务盗链收费,对梦网形象造成不良影响。那么,如何防止有害信息通过移动终端上网的途径产生和传播,提高对WAP网站的管理水平和服务质量,以满足对互联网的安全性要求成为亟待解决的问题。目前,运营商推出的针对WAP业务的内容监管主要通过拨测审核机制,即通过拨测终端模拟用户访问以获取WAP站点提供的内容,通过人工审核确定出不良内容。而随着网络业务的不断扩展以及网络内容的不断增长,在实际使用中,采用拨测审核的方式审核业务内容存在诸多缺点,例如,由于需要人工审核,工作强度以及工作量非常大,尤其在面对海量网络内容时,拨测审核并不能达到有效监控的目的;并且,拨测审核的工作效率低, 无法实现对于网络内容的全面审核以及实时审核,存在大量的监管盲区。综上所述,现有的拨测审核方式工作效率低,缺乏广泛性以及实时性,因此不能有效地对提供网络内容的SP站点进行监控。

发明内容
有鉴于此,本发明实施例提供一种检测业务提供商SP站点可靠性的方法及系统, 采用该技术方案,能够有效地对SP站点进行监控。本发明实施例通过如下技术方案实现根据本发明实施例的一个方面,提供了一种检测业务提供商SP站点可靠性的方法。根据本发明实施例提供的检测业务提供商SP站点可靠性的方法,包括确定待检测的统一资源定位符URL ;根据所述URL获取与所述URL对应业务提供商SP站点提供的无线通讯协议WAP 内容,并对所述WAP内容进行检测;
根据对所述WAP内容的检测结果,确定所述URL对应的SP站点的可靠性。根据本发明实施例的另一个方面,还提供了一种检测业务提供商SP站点可靠性的系统。根据本发明实施例提供的检测业务提供商SP站点可靠性的系统,包括URL确定子系统,用于确定待检测的统一资源定位符URL ;内容获取子系统,用于根据所述URL确定子系统确定的URL获取与所述URL对应业务提供商SP站点提供的无线通讯协议WAP内容;数据处理子系统,用于对所述内容获取子系统获取的WAP内容进行检测,并根据对所述WAP内容的检测结果,确定所述URL对应的SP站点的可靠性。通过本发明实施例提供的上述至少一个技术方案,首先确定待检测的URL,并根据确定的URL获取与该URL对于SP站点提供的WAP内容,进一步对获取的WAP内容进行检测, 并根据对获取的WAP内容的检测结果,确定该URL对应的SP站点的可靠性。采用该技术方案,无需人工审核WAP内容,从而提高了对网络内容监控的效率以及准确度;并且,能够基于用户的访问请求进行内容检测,具有较高的实时性以及广泛性。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中图1为本发明实施例提供的检测SP站点可靠性的方法流程图;图2为本发明实施例提供的确定SP站点对应的URL的流程图;图3为本发明实施例提供的根据确定的URL获取WAP内容的流程图一;图4为本发明实施例提供的根据确定的URL获取WAP内容的流程图二 ;图5为本发明实施例提供的根据确定的URL获取WAP内容的流程图三;图6为本发明实施例提供的向用户发送告警信息的流程图;图7为本发明实施例提供的检测SP站点可靠性的系统示意图一;图8为本发明实施例提供的检测SP站点可靠性的系统示意图二 ;图9为本发明实施例提供的检测SP站点可靠性的系统示意图三;图10为本发明实施例提供的检测SP站点可靠性的系统涉及的网络实体示意图;图11为本发明实施例提供的维护私网IP地址和MISDN号的映射表的流程图。
具体实施例方式为了给出有效监控SP站点的实现方案,本发明实施例提供了一种检测SP站点可靠性的方法及系统,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。根据本发明实施例的检测SP站点可靠性的方法,首先需要确定待检测的URL,并根据该URL获取与该URL对应SP站点提供的WAP内容,对该WAP内容进行检测,根据对WAP 内容的检测结果,确定该URL对应的SP站点的可靠性。其中,确定待检测的URL,可以优选地包括如下两种方式根据用户行为确定URL,即根据用户访问SP站点的请求,确定该SP站点对应的 URL为待检测URL ;或主动监控方式,即根据系统设定的主动检测SP站点,确定该主动检测SP站点对应的URL为待检测URL。根据本发明一个优选实施例中,首先提供了一种检测SP站点可靠性的方法,该方法根据用户行为确定URL,具体如图1所示,该方法主要包括如下步骤步骤101、根据用户访问SP站点的请求,确定该SP站点对应的URL(Uniform Resource Locator,统一资源定位符)。步骤102、根据确定的URL获取该SP站点提供的WAP内容。步骤103、对获取的WAP内容进行检测。步骤104、判断对获取的WAP内容的检测结果是否满足对不可靠SP站点对应的 WAP内容设定的要求,若是,执行步骤105,否则执行步骤106。步骤105、确定该URL对应的SP站点不可靠,并将该URL列为不可靠URL。步骤106、确定该URL对应的SP站点可靠,并将该URL列为可靠URL。上述步骤105中,可以通过维护一个动态的不可靠URL列表实现,在URL列为不可靠URL后,将该URL加入到该不可靠URL列表中,并且可以对该不可靠URL列表中保存的URL信息进行删除;同理,步骤106中,可以通过维护一个动态的可靠URL列表实现,在将 URL列为可靠URL后,将该URL加入到该可靠URL列表中,并且可以对该可靠URL列表中保存的URL信息进行删除。本发明一个优选实施例中,图1所示流程的步骤101中,根据用户访问SP站点的请求,确定该SP站点对应的URL,即通过获取WAP网关与GGSN之间的传输控制协议TCP数据包,通过对TCP数据包进行协议解析以及封装处理,确定SP站点的URL。具体如图2所示,包括如下步骤步骤201、监控用户访问SP站点的请求。步骤202、监控到用户访问SP站点的请求后,获取WAP网关与GGSN (Gateway GPRS Support Node,网关 GPRS 支持节点)之间的 TCP (TransmissionControl Protocol,传输控制协议)数据包。该步骤中,一个TCP数据包中可能包含SP站点的完整URL信息,也可能包含SP站点的部分URL信息。步骤203、将获取的TCP数据包进行协议解析后,封装为HTTP (HyperTextTransfer ftx)t0C0l,超文本传送协议)数据包。该步骤中,对TCP数据包进行协议解析以及封装处理得到的HTTP数据包中包含SP 站点的完整URL。步骤204、从封装得到的HTTP数据包中提取URL作为检测该SP站点的URL。本发明一个优选实施例中,图1所示流程应用于实际网络时,能够支持对多个SP 站点的监控,具体地,在步骤101中,根据用户访问SP站点的请求,确定该SP站点对应的URL,具体包括根据多个用户访问SP站点的请求,分别确定各SP站点对应的URL ;相应地,为了避免对于同一 URL对于的站点提供的WAP内容的重复检测,在执行上述步骤102之前,即在获取该URL对应的SP站点提供的WAP内容之前,还包括对确定的URL进行滤重处理,即对于多个相同的URL,去掉重复的URL,只保留一个 URL进行WAP内容检测。本发明一个优选实施例中,图1所示流程的步骤102中,根据确定的URL获取该SP 站点提供的WAP内容,其中,获取的WAP内容可以包括视频文件或/和图片,如图3所示,具体包括如下步骤步骤301、根据确定的URL进入SP站点的业务页面。步骤302、扫描进入的业务页面上的链接。步骤303、进入扫描得到的链接,并获取该链接对应页面下的视频文件或/和图片。本发明一个优选实施例中,为了防止不法分子采用盗链方式将不可靠内容链接于可靠WAP站点的页面下,如图4所示,在上述步骤303之后,还可以进一步包括如下步骤步骤401、扫描当前页面下的子链接。步骤402、判断是否扫描到对应的子链接,若是,则执行步骤403,若否,则结束。步骤403、进入该子链接,并获取该子链接对应页面下的视频文件或/和图片。步骤404、判断扫描子链接的次数是否达到设定次数,若否,则返回步骤401,若是,则结束。通过图4所示的流程,可以根据系统设定不断扫描子链接,直到进入的子链接不包括新的子链接或进入子链接的次数达到设定次数。本发明一个优选实施例中,图1所示流程的步骤102中,根据确定的URL获取该SP 站点提供的WAP内容,其中获取的WAP内容还可以包括文本内容,如图5所示,具体包括如下步骤步骤501、根据确定的URL进入SP站点的业务页面。
步骤502、根据设定的关键词获取该业务页面上的文本内容。本发明一个优选实施例中,图1所示流程的步骤102中,根据确定的URL获取该SP 站点提供的WAP内容时,还需要进一步考虑SP站点对应用户登录的需求,具体包括如下情况在SP站点无需用户登录时,直接根据确定的URL获取SP站点提供的WAP内容;在SP站点需要用户登录时,首先模拟用户登录该SP站点,并根据确定的URL获取该SP站点提供的WAP内容。本发明一个优选实施例中,图1所示流程的步骤103中,对获取的WAP内容进行检测,包括如下过程分别对不同类型的WAP内容(如视频、图片或文本)进行检测,并以WAP内容的类型为索引分别建立用于保存对不同类型的WAP内容检测得到的检测结果的数据库;该数据库保存的信息用于为确定对WAP内容的检测结果是否满足对不可靠SP站点对应的WAP内容设定的要求提供依据。
7
本发明一个优选实施例中,为了减少对SP站点内容检测的工作量,可以对设定 ULR对应的SP站点进行检测,优选地,在根据确定的URL获取SP站点提供的内容之前,即对 SP站点进行监控之前,还可以进一步包括如下确定待检测SP站点的步骤,即确定本次用户访问之前未根据该URL获取SP站点提供的WAP内容并检测;或确定本次用户访问之前该URL对应的SP站点被确定为可靠SP站点,即判断该SP 站点对应的URL是否在可靠URL列表中,与此相应,图1所示流程的步骤106中,在确定URL 为可靠URL时,可以维护一个可靠URL的列表(即红名单),通过查询该列表即可以确定本次用户访问之前该URL是否被确定为可靠URL。同理,图1所示流程的步骤105中,在确定 URL为不可靠URL时,可以维护一个不可靠URL的列表(即黑名单),通过查询该列表即可以确定本次用户访问之前该URL是否被确定为不可靠URL。根据该实施例,若确定本次用户访问之前该URL被确定为不可靠URL时,即该URL 在黑名单中时,也就是说,该URL对于的SP站点在上次检测时被确定为不可靠SP站点时, 还包括如下步骤向访问该URL对应的SP站点的用户发送告警信息,即告知该用户其当前访问的 URL对于的SP站点为不可靠SP站点。本发明一个优选实施例中,在图1所示流程的步骤105确定该URL对应的SP站点不可靠,即该URL为不可靠URL后,一方面将该URL加入黑名单列表,一方面还执行如下步骤向访问该URL对应的SP站点的用户发送告警信息,即告知该用户其当前访问的 URL对于的SP站点为不可靠SP站点。其中,向访问该URL对应的SP站点的用户发送告警信息的方式,如图6所示,包括如下步骤步骤601、获取WAP网关以及GGSN之间的RADIUS(RemoteAuthentication Dial In User krvice,远程用户拨号认证系统)协议数据包。步骤602、解析该RADIUS协议数据包,获取其中的私网IP地址。步骤603、根据该IP地址确定用户的MISDN(移动综合业务数字网)号,并向与该 MISDN号对应的用户发送告警信息。本发明一个优选实施例中,还可以采用主动检测的方式确定待检测URL,即根据系统设定的主动检测SP站点,确定该主动检测SP站点对应的URL为待检测URL,并进一步对确定的URL对应的SP站点的内容进行主动检测,即在无需通过用户访问SP站点触发的情况下,根据设定周期对设定的主动检测SP站点提供的内容进行获取以及检测,并根据检测结果确定该URL对应的SP站点是否为可靠SP站点,具体处理流程与图1所示流程的步骤 102 步骤106的基本原理一致,此处不再赘述。上述实施例中,检测的WAP内容可以包括文本、图片以及视频等类别,具体地,针对各种类别的检测方式如下文本根据文本内容进行关键词匹配和语义分析,检测出不良文本;图片计算图片特征,利用特征库检测图片是否包括不良信息;即预先建立不良信息特征库,在对图片检测时,首先计算当前图片的图片特征,然后与该不良信息特征库进行匹配,根据匹配率确定该图片是否为不良图片;
视频对视频进行解码,抽取关键帧,对抽取的帧图像进行检测,根据抽取帧的检测结果判断视频内是否包含不良信息;其中,对帧图像的检测过程与对图片的检测过程基本一致,此处不再赘述。以上所述的检测技术为本发明优选实施例所采用的检测技术,根据本发明实施例,还可以采用其他检测算法进行检测,此处不再详细描述。可以根据系统检测需求设定对不可靠SP站点对应的WAP内容的要求,例如,当某一 URL对应的SP站点提供的内容被检测为不可靠内容的数据量大于设定阈值时,则确定该 URL对应的SP站点为不可靠SP站点,也即该URL为不可靠URL。当然,该要求可以根据需要灵活设置,例如,也可以对某URL对应SP站点提供的图片进行重点监控,当被检测为不可靠图片的数量超过其提供图片总数量的设定百分比或被检测为不可靠图片的数量达到设定值时,则确定该URL对应的SP站点为不可靠SP站点,此处不再一一列举。相应地,与上述方法流程对应,本发明实施例还提供了一种检测SP站点可靠性的系统,如图7所示,该系统包括URL确定子系统701、内容获取子系统702以及数据处理子系统703 ;其中URL确定子系统701,用于确定待检测的统一资源定位符URL ;内容获取子系统702,用于根据URL确定子系统701确定的URL获取与该URL对于 SP站点提供的WAP内容;数据处理子系统703,用于对内容获取子系统702获取的WAP内容进行检测,并根据对该WAP内容的检测结果,确定该URL对应的SP站点的可靠性。本发明一个优选实施例中,图7所示的URL确定子系统701可以根据其确定URL 的方式进一步划分为第一 URL确定单元和第二 URL确定单元(未在图中标出),其中第一 URL确定单元,用于根据用户访问SP站点的请求,确定所述SP站点对应的 URL为待检测URL ;第二 URL确定单元,用于根据系统设定的主动检测SP站点,确定所述主动检测SP 站点对应的URL为待检测URL。根据本发明实施例,若URL确定子系统701通过一种方式确定URL,则根据其采用的方式,可以只包括上述的第一 URL确定单元,或只包括上述的第二 URL确定单元。本发明一个优选实施例中,上述第一 URL确定单元,具体用于根据用户访问业务提供商SP站点的请求,获取WAP网关与网关GPRS支持节点 GGSN之间的传输控制协议TCP数据包;将所述TCP数据包封装为超文本传送协议HTTP数据包,并从所述HTTP数据包中提取URL作为所述SP站点对应的URL。本发明一个优选实施例中,图7所示的URL确定子系统701,具体用于根据多个用户访问业务提供商SP站点的请求,分别确定所述SP站点对应的URL ;所述系统还包括数据汇接子系统,用于对所述URL确定子系统确定的所述URL进行滤重处理,将滤重处理后的URL提供给所述内容获取子系统。本发明一个优选实施例中,图7所示的内容获取子系统702,还用于在根据所述URL确定子系统701确定的URL获取所述SP站点提供的无线通讯协议WAP内容之前,确定本次用户访问之前未根据所述URL获取所述SP站点提供的WAP内容并检测;或确定本次用户访问之前所述URL对应的SP站点未被确定为不可靠SP站点。如图8所示,本发明一个优选实施例中,图7所示的检测SP站点可靠性的系统还可以进一步包括告警子系统704,用于在内容获取子系统702确定本次用户访问之前所述URL对应的SP站点被确定为不可靠SP站点时,向访问所述URL对应的SP站点的用户发送告警信肩、ο如图8所示,本发明一个优选实施例中,图7所示的检测SP站点可靠性的系统还可以进一步包括告警子系统704,用于在数据处理子系统703确定URL对应的SP站点不可靠后,向访问该URL对应的SP站点的用户发送告警信息。本发明一个优选实施例中,图8所示的告警子系统704根据其实现的功能可以只与内容获取子系统702连接,或者只与数据处理子系统703连接。本发明一个优选实施例中,图8所示的告警子系统704,具体用于获取WAP网关以及GGSN之间的远程用户拨号认证系统RADIUS协议数据包;解析所述RADIUS协议数据包,获取其中的私网IP地址,并根据所述私网IP地址确定用户的移动综合业务数字网MISDN号;向与URL确定子系统701确定的MISDN号对应的用户发送告警信息。本发明一个优选实施例中,图7所示的内容获取子系统702,具体用于在所述SP站点无需用户登录时,直接根据所述URL获取所述SP站点提供的WAP 内容;在所述SP站点需要用户登录时,模拟用户登录所述SP站点,并根据所述URL获取所述SP站点提供的WAP内容。本发明一个优选实施例中,图7所示的内容获取子系统702,具体用于扫描根据所述URL进入的SP站点的业务页面上的链接,进入所述链接获取所述链接对应页面下的视频文件或/和图片。进一步地,本实施例中,该内容获取子系统702,还可以进一步具体用于进入所述链接获取所述链接对应页面下的视频文件或/和图片后,扫描所述链接对应页面下的子链接,进入所述子链接获取所述子链接对应页面下的视频文件或/和图片,直到进入的子链接不包括新的子链接或进入子链接的次数达到设定次数。本发明一个优选实施例中,图7所示的内容获取子系统702,具体用于根据所述URL进入所述SP站点的业务页面;根据设定关键词获取所述业务页面上的文本内容。如图9所示,本发明一个优选实施例中,图7所示的检测SP站点可靠性的系统还可以进一步包括索引子系统705,用于在数据处理子系统703对WAP内容进行检测的过程中,分别对不同类型的WAP内容进行检测,并以WAP内容的类型为索引分别建立用于保存对不同类型的WAP内容检测得到的检测结果的数据库;所述数据库保存的信息用于为确定对所述WAP内容的检测结果是否满足对不可靠SP站点对应的WAP内容设定的要求提供依据。本发明一个优选实施例中,图7所示的内容获取子系统702,还用于根据系统设定的URL获取与所述URL对应的SP站点提供的WAP内容。本发明一个优选实施例中,图7所示的URL确定子系统701可以被部署于各个WAP 网关中。应当理解,以上系统包括的子系统仅为根据该系统实现的功能进行的逻辑划分, 实际应用中,可以进行上述子系统的叠加或拆分。并且该实施例提供的检测SP站点可靠性的系统所实现的功能与上述实施例提供的检测SP站点可靠性的方法流程一一对应,对于该系统所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。为了更好地理解本发明实施例,以下结合具体应用对本发明实施例中涉及的更为详细的技术细节进行说明本申请实施例提供的检测SP站点可靠性的系统,应用于具体网络架构时,包括不良WAP内容的提醒功能,能够根据用户使用移动终端GPRS (Generall^acket Radio Service, 通用分组无线业务)访问WAP网络的情况,及时识别其所访问的网站是否存在不可靠内容。 并且,还可以定期对一些FREE WAP网站的网站进行动态拨测,即对一些设定的URL进行检测,确定出提供不良信息的网站并纳入黑名单,用户在访问黑名单网站时将下行短信提醒, 同时还可以在扫描检测的基础上,对一些优秀的WAP网站进行推荐,可以正确引导用户访问健康的网站。如图10所示,为本发明实施例提供的检测SP站点可靠性的系统所涉及的实体示意图,该检测SP站点可靠性的系统(为叙述方便,后面称该系统为检测系统)涉及的网络实体包括WAP网关、GGSN、分光器以及短信网关;该检测系统与上述网络实体的交互过程如下用户通过其移动终端发起访问WAP内容的请求,该访问请求通过GGSN被传送至 WAP网关,WAP网关响应该用户请求;同时分光器获取WAP网关和GGSN之间传送的数据包提交到检测系统;检测系统从中解析用户请求访问的SP站点对应的ULR ;以上流程是检测系统根据用户行为确定URL的过程,本申请实施例中,还可以采用主动监控方式确定URL,检测系统也可以根据系统设定的主动检测SP站点,确定主动监测SP站点的URL进行检测,以下描述中,重点对根据用户行为确定的URL进行检测的过程进行详细描述,对于采用主动监控方式确定的URL进行检测的过程与此基本相同,区别在于确定URL的方式不同。根据确定的URL获取对应的SP站点提供的WAP内容进行检测,并确定出不可靠 URL以及对于的SP站点,并在用户访问该被确定为不可靠URL对应的SP站点时,通过短信网关向用户发送提示信息。实际应用中,如果用户A访问的是被列为黑名单(即不可靠URL)对应的网站时, 则通过对网络层数据的协议分析后,本测试系统则对非法站点访问的用户A提醒,其中可以通过以下接口
通过短信网关接口,向用户发送提示信息,接口协议为CMPP V3,短信服务号可以为 106586969 ;通过网络分路器设备,将WAP网关的访问流量复制出一份传送给URL确定子系统。 其中,分路器只是将包含HTTP请求的上行链路数据传送到URL确定子系统,不处理包含 HTTP响应的下行链路数据。为了实现用户提醒的目的,需要对用户A手机号码信息进行获取,由于现有WAP网关只对白名单地址发送访问用户的手机号码信息(MISDN号),发送给WAP站点的HTTP请求通常都不会带有用户的手机号码信息。因此只能在WAP网关的前端增加分光器,对用户上行到WAP网关的请求和WAP网关与GGSN之间的交互通讯数据进行综合处理,才能满足实际要求。具体地,用户A每次连接GPRS通道时,GGSN都会给用户分配相应的私网IP地址,同时通知WAP网关用户的MISDN号和分配的私网IP地址之间的映射关系。在用户断开GPRS 通道时,GGSN会通知WAP网关去掉原有的MISDN号和分配的私网地址之间的映射关系。为了获得该映射关系,检测系统需要分析WAP网关和GGSN之间的通讯流量,保持一张私网IP地址和MISDN号的映射表,这样就可以根据用户请求的IP包中的私网地址查到用户的MISDN 号,从而实现给用户A下发短信提醒的目的。具体维护私网IP地址和MISDN号的映射表的过程如图11所示,包括如下步骤步骤1101、GGSN向WAP网关发送用户计费请求开始数据包(即RADIUS数据包)。步骤1102、分光器获取GGSN发送给WAP网关的计费请求开始数据包,发送到检测系统。步骤1103、检测系统获得计费请求开始数据包后对该数据包进行解析,获得GGSN 发送的最新的私网IP地址与MISDN号的对应关系。步骤1104、更新内部维护的IP与MISDN号的映射表,把新增的映射关系加入映射表。步骤1105、GGSN向WAP网关发送用户计费请求结束数据包。步骤1106、分光器获取GGSN发送给WAP网关的计费请求结束数据包,发送到检测系统。应当理解,本实施例中,分光器获取的数据包不止是以上由用户主动发起的访问请求产生的数据包,还有WAP网关通过模拟用户访问产生的数据包。步骤1107、检测系统对该数据包进行解析,获得GGSN发送的需要解除映射关系的私网IP地址与MISDN的对应关系。步骤1108、检测系统更新内部维护的IP与MISDN的映射表,把需要解除的映射关
系去掉。在用户通过访问WAP站点触发检测流程后,检测系统确定被访问URL后,根据该 URL获取WAP内容进行检测时,模拟用户A访问相应的SP站点并获取WAP内容保存。该过程和具体业务实现时的流程基本没有关系,不是用户发起访问,不需要进行计费,不需要进行接口调用。该检测系统在实际网络中所处的位置类似于WTBS,功能是获取SP站点提供的 WAP服务的所有内容。内容获取后进行分析和扫描,分析出页面上新的链接继续抓取,管理员可以定义抓取的层数,在抓取的页面层数已经到达管理员定义的数值或是已经没有新的子链接可以抓取时,自动停止抓取。
实际应用中,内容获取可以通过完成URL确定子系统功能的服务器中的网卡实现,在打开网卡的混杂模式后,网卡会将从以太网接收到的所有数据包提交上层系统处理, 对网卡送来的数据包进行协议识别,提取其中的TCP数据包进行协议识别和重新封装,获取重新封装后的数据包中的URL,最后经过URL滤重后提交完成内容获取子系统功能的服务器。实际应用中,对以太网中底层TCP协议数据包进行封装,对其中HTTP、WSP和 Radius协议请求包格式内容进行分析过滤,然后将分析后获得的新的URL地址提交内容获取子系统进行内容下载检测。为防止数据量过大,整个系统会实现全局URL滤重机制,避免同一 URL多次下载,对存储造成冲击。通过该网络层分析,可以解决用户不通过梦网业务链接而通过其它渠道访问不良内容页面,原有的抓取系统无法获取其内容的问题,保证MDC机房服务器的内容健康性。在具体实现时,检测系统包括的各子系统在现网中部署如下(I)URL确定子系统URL确定子系统部署在被检测WAP链路所在机房,通过TAP将WAP网关VPN-CMNET 防火墙链路的数据采用分光的方式采集数据。URL确定子系统在打开网卡的混杂模式后,网卡会将从以太网接收到的所有数据包提交上层系统处理,通过运行在内核空间的netfilter部分实现网络分组过滤,捕获被检测链路的数据,用netlink多播组(multicast group)向用户空间发送捕捉到的消息,发送到用户空间的消息由该URL确定子系统捕捉。具体地,URL确定子系统在采用根据用户行为确定URL的方式时,可以划分为如下模块网络协议分析模块对网络流量中不同协议的数据包进行解析处理,提取HTTP请 ^^^Sifn 息 ο分路器只是将包含HTTP请求的上行链路数据传送到URL确定子系统。对下行链路的数据(流量很高)不作处理,既减轻了系统运算负荷,也避免了侵犯用户隐私数据。黑名单维护模块通过分析用户的HTTP请求,比对系统黑名单,当用户访问的URL 列入黑名单中时向告警子系统发送提醒短信请求,由告警子子系统统一通过短信网关接口发送给用户。日志模块将数据采集结果写入日志,供需要时查询,关键数据提供加密处理,大数据量数据提供压缩处理。内容地址排重对用户访问过的URL进行排重处理,每个被访问的地址均只记录一次,保证下载的效率。(2)数据汇接子系统数据汇接子系统负责接收分布在各个WAP网关的URL确定子系统传递的URL信息,进行二次排重,将唯一的URL信息提交给内容获取子系统。(3)内容获取子系统—方面,内容获取子系统能够采用网络爬虫的方式,定期扫描URL确定子系统根据主动监控方式确定的列入主动检测列表的梦网WAP业务和独立WAP站点,抓取站点的文本、图片、视频内容,提交给数据处理子系统进行分析处理。
另一方面,内容获取子系统负责根据数据汇接子系统提供的URL抓取站点各种信息,具体包括下载任务调度服务模块,用于对下载任务进行调度;以及数据下载集群模块, 用于对下载任务进行分析。(4)数据处理子系统数据处理子系统主要负责对内容获取子系统获取的WAP内容进行检测,可以划分为如下模块内容分析模块(文本分析、图片分析、图像分析)和数据分析模块。其中内容分析模块负责对文本数据进行索引、以及内容分析;数据分析模块结合内容分析模块的结果,根据设定要求确定色情站点的URL。(5)数据处理子系统该数据处理子系统用户对WAP内容进行审核,具体地,该数据处理子系统可以根据其实现的功能划分为以下几个模块不良站点管理模块通过对站点内容的分析,发现不良站点,提供管理界面供管理人员管理。经人工确认或是自动分析出的内容URL和站点,在系统中会形成黑名单文件, WAP网关可以定期查询同步黑名单库。内容审核模块对获取的WAP内容进行审核,例如,判断图片类别。一个具体审核过程如下对WAP网关提供的图片数据在WAP网关内容审核、Freeffap内容审核或移动梦网内容审核进行针对性审核;通过对日期的筛选确定出问题网站中的图片内容。如果知道具体的网站,则按域名查询,即输入网站URL查询出其对应的不良信息;按日期查询,则查询结果为η个问题网站及其相应图片结果信息。可以进一步结合人工审核,确定出哪类是色情图片、哪类是低俗图片,并记录审核图片数量以及图片类别。内容查询模块通过对审核过的图片进行汇总,查询到所有发现过色情和低俗图片的问题域名,并在此加入到黑名单中,并在WAP网关问题站点、移动问题内容审核和 Freeffap问题内容审核中对已审核过的图片进行检查,检查过的色情图片数达到一定值并且未在黑名单库的域名时,加入黑名单,对已加入黑名单的问题域名同步到黑名单库中。短信提示模块短信提示模块的功能主要提供客服人员对短信提醒的功能进行控制,若用户访问的是黑名单库中的站点,则发送短信提醒;或自动触发告警短信。(6)索引子系统索引子系统可以划分为如下模块索引生成模块将内容分析的结果输入到索引组件,由各个字段索引器进行索引,生成索引结果, 其中,字段索引器中设置的字段可以为WAP内容的类别,如图片、视频、文本等。索引存储模块相当于虚拟文件系统,具有数据存储、读取和修改等接口,而具体的数据存储方式,存储位置,和压缩算法对于上层的索引组件来说是透明的。索引压缩模块
采用先进的压缩算法对生成的索引进行压缩,压缩和解压缩速度非常快,而且支持局部解压缩,压缩后的索引大小一般是原始文档的50%左右。索引检索模块支持多种方式的检索,可分字段检索,通过该方式,对于突发的内容或是关键字, 可以及时的加以定向跟踪,保证监控的及时性。索引读取模块具体实现可以通过代理组件,封装索引组件的只读访问接口,不提供任何写和修改的接口,以防用户的误操作破坏索引数据通过本发明实施例提供的上述至少一个技术方案,首先确定待检测的URL,并根据确定的URL获取与该URL对于SP站点提供的WAP内容,进一步对获取的WAP内容进行检测, 并根据对获取的WAP内容的检测结果,确定该SP以及对应的URL的可靠性。采用该技术方案,无需人工审核WAP内容,从而提高了对网络内容监控的效率以及准确度;并且,能够基于用户的访问请求进行内容检测,具有较高的实时性以及广泛性。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种检测业务提供商SP站点可靠性的方法,其特征在于,包括 确定待检测的统一资源定位符URL ;根据所述URL获取与所述URL对应业务提供商SP站点提供的无线通讯协议WAP内容, 并对所述WAP内容进行检测;根据对所述WAP内容的检测结果,确定所述URL对应的SP站点的可靠性。
2.如权利要求1所述的方法,其特征在于,确定待检测统一资源定位符URL,包括 根据用户访问SP站点的请求,确定所述SP站点对应的URL为待检测URL ;或根据系统设定的主动检测SP站点,确定所述主动检测SP站点对应的URL为待检测URL。
3.如权利要求2所述的方法,其特征在于,根据用户访问SP站点的请求,确定所述SP 站点对应的URL,包括根据用户访问SP站点的请求,获取WAP网关与网关GPRS支持节点GGSN之间的传输控制协议TCP数据包,通过对所述TCP数据包进行协议解析以及封装处理,确定所述SP站点的 URL。
4.如权利要求1所述的方法,其特征在于,在根据所述URL获取与所述URL对应的SP 站点提供的无线通讯协议WAP内容之前,还包括确定本次用户访问之前未根据所述URL获取与所述URL对应SP站点提供的WAP内容并检测;或确定本次用户访问之前所述URL对应的SP站点未被确定为不可靠SP站点。
5.如权利要求4所述的方法,其特征在于,还包括若确定所述URL对应的SP站点不可靠,则向访问所述URL对应的SP站点的用户发送告警信息。
6.如权利要求5所述的方法,其特征在于,向访问所述URL对应的SP站点的用户发送告警信息的方式,包括获取WAP网关以及GGSN之间的远程用户拨号认证系统RADIUS协议数据包; 解析所述RADIUS协议数据包,获取其中的私网IP地址;根据所述私网IP地址以及私网IP地址与移动综合业务数字网MISDN号的对应关系, 确定所述用户的MISDN号;向与所述MISDN号对应的用户发送告警信息。
7.如权利要求1所述的方法,其特征在于,根据所述URL获取与所述URL对应SP站点提供的无线通讯协议WAP内容,包括扫描根据所述URL进入的SP站点的业务页面上的链接,进入所述链接获取所述链接对应页面下的视频文件或/和图片,扫描所述链接对应页面下的子链接,进入所述子链接获取所述子链接对应页面下的视频文件或/和图片,直到进入的子链接不包括新的子链接或进入子链接的次数达到设定次数;或/和根据所述URL进入所述SP站点的业务页面,并根据设定关键词获取所述业务页面上的文本内容。
8.—种检测业务提供商SP站点可靠性的系统,其特征在于,包括 URL确定子系统,用于确定待检测的统一资源定位符URL ;内容获取子系统,用于根据所述URL确定子系统确定的URL获取与所述URL对应业务提供商SP站点提供的无线通讯协议WAP内容;数据处理子系统,用于对所述内容获取子系统获取的WAP内容进行检测,并根据对所述WAP内容的检测结果,确定所述URL对应的SP站点的可靠性。
9.如权利要求8所述的系统,其特征在于,所述URL确定子系统,具体包括第一 URL确定单元,用于根据用户访问SP站点的请求,确定所述SP站点对应的URL为待检测URL ;或第二 URL确定单元,用于根据系统设定的主动检测SP站点,确定所述主动检测SP站点对应的URL为待检测URL。
10.如权利要求9所述的系统,其特征在于,所述第一URL确定单元,具体用于 根据用户访问SP站点的请求,获取WAP网关与网关GPRS支持节点GGSN之间的传输控制协议TCP数据包,通过对所述TCP数据包进行协议解析以及封装处理,确定所述SP站点的 URL。
11.如权利要求8所述的系统,其特征在于,所述内容获取子系统,还用于在根据所述URL确定子系统确定的URL获取所述SP站点提供的无线通讯协议WAP内容之前,确定本次用户访问之前未根据所述URL获取与所述SP站点提供的WAP内容并检测; 或确定本次用户访问之前所述URL对应的SP站点未被确定为不可靠SP站点。
12.如权利要求11所述的系统,其特征在于,还包括告警子系统,用于在所述内容获取子系统确定所述URL对应的SP站点不可靠时,向访问所述URL对应的SP站点的用户发送告警信息;或在所述数据处理子系统确定所述URL对应的SP站点不可靠时,向访问所述URL对应的 SP站点的用户发送告警信息。
13.如权利要求12所述的系统,其特征在于,所述告警子系统,具体用于 获取WAP网关以及GGSN之间的远程用户拨号认证系统RADIUS协议数据包;解析所述RADIUS协议数据包,获取其中的私网IP地址,并根据所述私网IP地址确定用户的移动综合业务数字网MISDN号;向与所述URL确定子系统确定的MISDN号对应的用户发送告警信息。
14.如权利要求8所述的系统,其特征在于,所述内容获取子系统,具体用于 扫描根据所述URL进入的SP站点的业务页面上的链接,进入所述链接获取所述链接对应页面下的视频文件或/和图片,扫描所述链接对应页面下的子链接,进入所述子链接获取所述子链接对应页面下的视频文件或/和图片,直到进入的子链接不包括新的子链接或进入子链接的次数达到设定次数;或/和根据所述URL进入所述SP站点的业务页面,并根据设定关键词获取所述业务页面上的文本内容。
全文摘要
本发明公开了一种检测业务提供商SP站点可靠性的方法及系统,主要技术方案包括确定待检测的统一资源定位符URL;根据所述URL获取与所述URL对应业务提供商SP站点提供的无线通讯协议WAP内容,并对所述WAP内容进行检测;根据对所述WAP内容的检测结果,确定所述URL对应的SP站点的可靠性。采用该技术方案,无需人工审核WAP内容,从而提高了对网络内容监控的效率以及准确度;并且,能够基于用户的访问请求进行内容检测,具有较高的实时性以及广泛性。
文档编号H04W80/12GK102271331SQ20101019631
公开日2011年12月7日 申请日期2010年6月2日 优先权日2010年6月2日
发明者姚琨, 梁春贵, 王磊, 陈雅娟 申请人:中国移动通信集团广东有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1