一种手机号码提取方法和装置与流程

文档序号:11147745
一种手机号码提取方法和装置与制造工艺
本发明涉及移动通信与移动互联网
技术领域
,更具体地,涉及一种手机号码提取方法和装置。
背景技术
:现如今,互联网的普及率越来越高,在人们的日常生活中,互联网几乎在每个领域与我们24小时相伴,不仅为人们带来了非常多的便利,也在很大程度是成为了我们的一种生活习惯。在我国的网络用户中,移动网络用户和固网用户占据了绝大多数比例。移动网络(MobileWeb)指的是使用移动设备,如手机,掌上电脑或其它便携式工具连接到公共网络,实现互联网访问的方式。移动网络不需要固定的设备进行访问。移动网络主要指的是基于浏览器的万维网(Web)服务。然而,由于不兼容格式的大量信息在互联网上提供的移动设备和部分是由于物理尺寸的小屏幕的移动设备和其他设备的限制等多种原因,移动网络接入今天仍然存在着互操作性和可用性问题。固网指的是固定电话网络,一般指在固定电话公司提供的固定点与点之间的通信网路系统。目前,中国的固网公司有:中国联通、中国电信等。固定电话网络用户上网报文中含有丰富的用户身份信息,如手机号码,邮箱,即时通讯服务账号等。这些信息里就包含用户的手机号码,例如很多网站的用户账号、用户注册邮箱的用户名等。然而,现有的从固网用户发送的超文本传输协议(HypertextTransferProtocol,HTTP)Get报文中识别和提取用户手机号码的技术,所提取的手机号准确度低。技术实现要素:本发明提供了一种手机号码提取方法和装置,以解决现有技术中从固网HTTPGet报文中提取用户手机号码准确度低的问题。为了解决上述问题,本发明公开了一种手机号码提取方法,所述方法包括:从移动网络发送的超文本传输协议HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;获取固网发送的HTTPGet报文;依据所述移动网络URL特征信息,解析所述固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息;从所述固网URL特征信息中提取第一手机号码信息;从所述固网发送的HTTPGet报文中分离缓存文本Cookie字段信息;通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息;依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息;对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。优选地,在所述从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络URL特征信息的步骤之前,所述方法还包括:获取移动网络发送的HTTPGet报文。优选地,所述通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息的步骤包括:利用正则表达式,从所述Cookie字段信息中解析邮箱用户名信息;过滤所述邮箱用户名信息,获得第二手机号码信息。优选地,所述依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息的步骤包括:从所述Cookie字段信息中提取包含手机号信息的数据;依据固网URL特征信息对所述数据进行校验,统计可提取手机号信息的Cookie特征信息;依据所述Cookie特征信息,从所述Cookie字段信息中提取第三手机号码。优选地,所述对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码的步骤包括:汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;提取所述固网发送的HTTPGet报文和所述移动网络发送的HTTPGet报文中的地域信息;获取所述汇总信息中,各号码所对应的归属地信息;利用所述地域信息和所述归属地信息,过滤所述汇总信息,获得目标手机号码。为了解决上述问题,本发明公开了一种手机号码提取装置,所述装置包括:特征提取模块,用于从移动网络发送的超文本传输协议HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;固网报文获取模块,用于获取固网发送的HTTPGet报文;固网报文解析模块,用于依据所述移动网络URL特征信息,解析所述固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息;第一手机号码提取模块,用于从所述固网URL特征信息中提取第一手机号码信息;Cookie字段信息模块,用于从所述固网发送的HTTPGet报文中分离缓存文本Cookie字段信息;第二手机号码提取模块,用于通过解析邮箱用户名信息的方式,从所述Cookie字段信息中提取第二手机号码信息;第三手机号码提取模块,用于依据所述固网URL特征信息和所述Cookie字段信息,提取第三手机号码信息;过滤模块,用于对所述第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。优选地,所述装置还包括:移动网络报文获取模块,用于获取移动网络发送的HTTPGet报文。优选地,所述第二手机号码提取模块包括:解析子模块,用于利用正则表达式,从所述Cookie字段信息中解析邮箱用户名信息;过滤子模块,用于过滤所述邮箱用户名信息,获得第二手机号码信息。优选地,所述第三手机号码提取模块包括:Cookie字段提取子模块,用于从所述Cookie字段信息中提取包含手机号信息的数据;统计子模块,用于依据固网URL特征信息对所述数据进行校验,统计可提取手机号信息的Cookie特征信息;手机号提取子模块,用于依据所述Cookie特征信息,从所述Cookie字段信息中提取第三手机号码。优选地,所述过滤模块包括:汇总子模块,用于汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;地域信息子模块,用于提取所述固网发送的HTTPGet报文和所述移动网络发送的HTTPGet报文中的地域信息;归属地信息子模块,用于获取所述汇总信息中,各号码所对应的归属地信息;过滤执行子模块,用于利用所述地域信息和所述归属地信息,过滤所述汇总信息,获得目标手机号码。与现有技术相比,本发明具有以下优点:本发明实施例提供的一种手机号码提取方法和装置,能通过利用移动网的HTTPGet报文的特征,解析固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息,同时分离固网报文中的缓存文本Cookie字段信息,从URL特征信息及Cookie信息中获取手机号并过滤,从而提高了从固网HTTPGet报文中提取用户手机号码的准确度。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本发明实施例一的一种手机号码提取方法的步骤流程图;图2为本发明实施例二的一种手机号码提取方法的步骤流程图;图3为本发明实施例三提供的一种手机号码提取装置的结构示意图;图4为本发明实施例四提供的一种手机号码提取装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一参照图1,示出了本发明实施例一的一种手机号码提取方法的步骤流程图,本发明实施例的手机号码提取方法包括以下步骤:步骤101:从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息。使用移动网络中的用户上网报文,找到可以匹配到用户手机号的URL特征集合。移动网络的用户上网报文中,含有用户上网手手机号信息和用户访问的URL信息。比如,通过对含有手机号18969339626的一条上网报文的querystringparameters参数进行解析,获得如表1中所示以下结果:表1role1imeiA0000049B3069Darea0os4.3uuid43BB65F3297C6813B75E14489F8B246Ecity_id0dviceid5bfc8075a90a8d6e84f2ce4f130783a6phone_num18969339626modelHUAWEIY535-C00appversion4.2.3phone18969339626maptypesososigde9f2469657de452cce493ceca382d0bd9817f5achannel92lat0userlng0对参数进行判断,发现phone_num参数和phone参数对应的值的长度是11位数字,并且是以特定数字开头(13,14,18…),认为是疑似手机号,输出如表2中所示的记录:表2用户手机号HostURL参数关键字疑似手机号18969339626api.abc.comphone_num1896933962618969339626api.abc.comphone18969339626对一定时间内的数据(一般是一周)进行统计分析,可以统计出在特定host和url参数关键字作为特征的条件下,疑似手机号和用户真实手机号一致的比率,把这个比率认为正确率,得到类似如表3中所示的特征集合:表3需要说明的是,在具体实现过程中,对疑似手机号的特定数字开头,数据进行统计分析的时间段以及phone_num参数和phone参数对应的值的长度等,可以由本领域技术人员根据实际需求进行设置,本发明实施例中对此不作具体限定。步骤102:获取固网发送的HTTPGet报文。步骤103:依据移动网络URL特征信息,解析固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息。将步骤101产生的特征集合中,正确率大于70%的特征作为有效特征,对固网的HTTPGet报文中进行解析,对满足上述特征的用户数据进行输出,就可以相应的获得含有手机号码信息的固网URL特征信息。需要说明的是,在具体实现过程中,有效特征的正确率并不局限于70%,具体数值可以由本领域技术人员根据实际需求进行设置,本发明实施例中对此不作具体限定。步骤104:从固网URL特征信息中提取第一手机号码信息。步骤105:从固网发送的HTTPGet报文中分离Cookie字段信息。其中,Cookie即缓存文本。对于使用ADSL拨号上网的用户,可以进一步解析出来用户ADSL帐号和手机号的关系,这个数据会做为一个验证数据集对步骤103中产出的数据进行验证。从固网的HTTPGet报文的Cookie数据中,产出可以匹配手机号的Cookie特征集合。对于ADSL拨号上网用户,上网的报文含有信息及示例如下:其中,表4中所示的为上网的报文含有信息。表4通过解析一段时间(一周)用户上网报文中的cookie字段,把疑似手机号的cookie字段信息输出,形成如表5中所示的记录:表5ADSLCookie域Cookie参数疑似手机号OHsEfEp8XAQ=abc.comc_mobil13135573886OHsEfEp8XAQ=abc.comu_account13135573886将这个结果和步骤103中产出的验证数据进行比较。具体方法为,在相同ADSL下面,通过Cookie解析出来的疑似手机号和步骤103中的手机号比较是否一致。可以得到如表6中所示的cookie特征集合:表6步骤106:通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息。步骤107:依据固网URL特征信息和Cookie字段信息,提取第三手机号码信息。步骤108:对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。通过本发明实施例提供的一种手机号码提取方法,能通过利用移动网的HTTPGet报文的特征,解析固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息,同时分离固网报文中的缓存文本Cookie字段信息,从URL特征信息及Cookie信息中获取手机号并过滤,从而提高了从固网HTTPGet报文中提取用户手机号码的准确度。实施例二参照图2,示出了本发明实施例二的一种手机号码提取方法流程图,本发明实施例的一种手机号码提取方法包括以下步骤:步骤201:获取移动网络发送的HTTPGet报文。步骤202:从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息。步骤203:获取固网发送的HTTPGet报文。步骤204:依据移动网络URL特征信息,解析固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息。步骤205:从固网URL特征信息中提取第一手机号码信息。步骤206:从固网发送的HTTPGet报文中分离Cookie字段信息;步骤207:通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息。一种优选的通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息的方式如下:S1:利用正则表达式,从Cookie字段信息中解析邮箱用户名信息;S2:过滤邮箱用户名信息,获得第二手机号码信息。步骤208:从Cookie字段信息中提取包含手机号信息的数据。步骤209:依据固网URL特征信息对数据进行校验,统计可以提取手机号信息的Cookie特征信息。步骤210:依据Cookie特征信息,从Cookie字段信息中提取第三手机号码信息。步骤211:对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。一种优选的对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码的方式如下:S1:汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;S2:提取固网发送的HTTPGet报文和移动网络发送的HTTPGet报文中的地域信息;S3:获取汇总信息中,各号码所对应的归属地信息;提取出来的第一手机号码信息、第二手机号码信息和第三手机号码信息,仍然有大量的噪声,如长度为11位的数字,也可能是随机ID。固网数据是哪个省的用户请求信息是已知的,通过判断手机号段的归属地,可以进一步对手机号的有效性进行过滤。S4:利用地域信息和归属地信息,过滤汇总信息,获得目标手机号码。本发明实施例提供的一种手机号码提取方法,除了具有实施例一中的手机号码提取方法所具有的有益效果外,还通过利用固网地域信息和手机归属地信息过滤获取的手机号码,进一步提高了从固网HTTPGet报文中提取用户手机号码准确度。实施例三参照图3,示出了本发明的一种手机号码提取装置的结构示意图。本实施例所示的手机号码提取装置包括:特征提取模块301,用于从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;固网报文获取模块302,用于获取固网发送的HTTPGet报文。固网报文解析模块303,用于依据移动网络URL特征信息,解析固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息。第一手机号码提取模块304,用于从固网URL特征信息中提取第一手机号码信息。Cookie字段信息模块305,用于从固网发送的HTTPGet报文中分离缓存文本Cookie字段信息。第二手机号码提取模块306,用于通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息。第三手机号码提取模块307,用于依据固网URL特征信息和Cookie字段信息,提取第三手机号码信息。过滤模块308,用于对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。通过本发明实施例提供的一种手机号码提取装置,能通过利用移动网的HTTPGet报文的特征,解析固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息,同时分离固网报文中的缓存文本Cookie字段信息,从URL特征信息及Cookie信息中获取手机号并过滤,从而提高了从固网HTTPGet报文中提取用户手机号码的准确度。实施例四参照图4,示出了本发明的一种手机号码提取装置的结构示意图。本实施例所示的手机号码提取装置包括:特征提取模块401,用于从移动网络发送的HTTPGet报文中,提取含有手机号码信息的移动网络统一资源定位符URL特征信息;固网报文获取模块402,用于获取固网发送的HTTPGet报文;固网报文解析模块403,用于依据移动网络URL特征信息,解析固网发送的HTTPGet报文,获得含有手机号码信息的固网URL特征信息;第一手机号码提取模块404,用于从固网URL特征信息中提取第一手机号码信息;Cookie字段信息模块405,用于从固网发送的HTTPGet报文中分离缓存文本Cookie字段信息;第二手机号码提取模块406,用于通过解析邮箱用户名信息的方式,从Cookie字段信息中提取第二手机号码信息;第三手机号码提取模块407,用于依据固网URL特征信息和Cookie字段信息,提取第三手机号码信息;过滤模块408,用于对第一手机号码信息、第二手机号码信息和第三手机号码信息,进行过滤,获得目标手机号码。优选地,本实施例所示的手机号码提取装置还包括:移动网络报文获取模块409,用于获取移动网络发送的HTTPGet报文。优选地,第二手机号码提取模块406包括:解析子模块4061,用于利用正则表达式,从Cookie字段信息中解析邮箱用户名信息;过滤子模块4062,用于过滤邮箱用户名信息,获得第二手机号码信息。优选地,第三手机号码提取模块407包括:Cookie字段提取子模块4071,用于从Cookie字段信息中提取包含手机号信息的数据;统计子模块4072,用于依据固网URL特征信息对数据进行校验,统计可提取手机号信息的Cookie特征信息;手机号提取子模块4073,用于依据Cookie特征信息,从Cookie字段信息中提取第三手机号码。优选地,过滤模块包括408:汇总子模块4081,用于汇总第一手机号码信息、第二手机号码信息和第三手机号码信息,获得汇总信息;地域信息子模块4082,用于提取固网发送的HTTPGet报文和移动网络发送的HTTPGet报文中的地域信息;归属地信息子模块4083,用于获取汇总信息中,各号码所对应的归属地信息;过滤执行子模块4084,用于利用地域信息和归属地信息,过滤汇总信息,获得目标手机号码。本发明实施例的装置用于实现前述实施例一以及实施例二中相应的手机号码提取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上对本发明所提供的手机号码提取方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的实施步骤及实现装置进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词固网、移动网、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。当前第1页1 2 3 
再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1