快速补全终端信息库的方法及装置与流程

文档序号:11437787阅读:117来源:国知局
快速补全终端信息库的方法及装置与流程
本发明涉及手机终端信令监测技术,尤其涉及一种快速补全终端信息库的方法及装置。
背景技术
:现有技术中,获取终端信息时,通常是从手机终端生产厂家获取国际移动设备标识(internationalmobileequipmentidentity,imei),以及与手机终端型号对应的终端信息,或者通过全球移动通信协会(globalsystemformobilecommunicationsalliance,gsma)及其授权机构为某个手机终端分配的imei库进行查询,这类过程一般为人工干预。现有技术也可以从超文本传输协议(hypertexttransferprotocol,http)的用户代理(user-agent)获取终端信息,但能获取到的终端信息有限,同一款终端使用不同的业务时能获取到不同的user-agent,终端识别的准确性无法保证。技术实现要素:有鉴于此,本发明实施例期望提供一种快速补全终端信息库的方法及装置,以实现快速获取新入网终端的imei和终端类型信息,并自动补全终端信息库。本发明实施例的技术方案是这样实现的:一种快速补全终端信息库的方法,所述方法包括:获取数据业务的关键信息记录;从所述关键信息记录中解析出所有使用超文本传输协议http业务的统一资源定位符url信息;从所述url信息中获取包含终端信息的关键url信息并保存;从保存的所述关键url信息中提取imei识别信息;对所述imei识别信息与终端型号进行统一性分析,并根据分析结果补全所述终端信息库。如上所述的方法,其中,所述从所述url信息中获取包含终端信息的关键url信息并保存,包括:从所述url信息中获取包含预设关键词的url信息;利用关键字匹配从所述包含预设关键词的url信息中获取所述关键url信息;所述关键url信息包含终端的imei识别信息、终端品牌信息、终端型号信息及系统版本信息。如上所述的方法,其中,所述从保存的所述关键url信息中提取imei识别信息,包括:从所述关键词的url信息中识别出imei识别信息,并利用第一公式验证所述imei识别信息的有效性;所述第一公式为:其中,u(x)函数用于通过判断http消息中的host域判断出用户访问的服务的性质,验证所述imei识别信息的有效性;r(y)函数用于通过判断http消息中的url域识别用户行为特性,验证所述imei识别信息的有效性;将有效性验证通过的imei识别信息作为最终提取的所述imei识别信息。如上所述的方法,其中,所述对所述imei识别信息与终端型号进行统一性分析,并根据分析结果补全所述终端信息库,包括:提取所述imei识别信息的型号核准号码tac,并计算tac映射率;所述tac映射率为所述tac对应次数最多的终端型号的次数累加与所述tac对应的所有终端型号的次数累加的比值;在tac映射率达到预设阈值时,确定所述tac与所述对应次数最多的终端型号对应;将确定的终端型号和所述imei识别信息与现有的终端信息库中的信息进行匹配,若匹配失败,则增加与所述imei识别信息对应的终端信息,若匹配成功,则将现有的终端信息库中的终端信息与所述imei识别信息进行一致性验证。如上所述的方法,其中,所述将现有的终端信息库中的终端信息与所述imei识别信息进行一致性验证,包括:对所述imei识别信息进行格式化修正,提取格式化修正后的imei识别信息中的tac,在所述现有的终端信息库中查询所述tac,进行一致性验证。一种快速补全终端信息库的装置,所述装置包括:获取模块,用于获取数据业务的关键信息记录;解析模块,用于从所述关键信息记录中解析出所有使用超文本传输协议http业务的统一资源定位符url信息;所述获取模块用于从所述url信息中获取包含终端信息的关键url信息并保存;从保存的所述关键url信息中提取imei识别信息;补全模块,用于对所述imei识别信息与终端型号进行统一性分析,并根据分析结果补全所述终端信息库。如上所述的装置,其中,所述获取模块具体用于:从所述url信息中获取包含预设关键词的url信息;利用关键字匹配从所述包含预设关键词的url信息中获取所述关键url信息;所述关键url信息包含终端的imei识别信息、终端品牌信息、终端型号信息及系统版本信息。如上所述的装置,其中,所述获取模块具体用于:从所述关键词的url信息中识别出imei识别信息,并利用第一公式验证所述imei识别信息的有效性;所述第一公式为:其中,u(x)函数用于通过判断http消息中的host域判断出用户访问的服务的性质,验证所述imei识别信息的有效性;r(y)函数用于通过判断http消息中的url域识别用户行为特性,验证所述imei识别信息的有效性;将有效性验证通过的imei识别信息作为最终提取的所述imei识别信息。如上所述的装置,其中,所述补全模块具体用于:提取所述imei识别信息的型号核准号码tac,并计算tac映射率;所述tac映射率为所述tac对应次数最多的终端型号的次数累加与所述tac对应的所有终端型号的次数累加的比值;在tac映射率达到预设阈值时,确定所述tac与所述对应次数最多的终端型号对应;将确定的终端型号和所述imei识别信息与现有的终端信息库中的信息进行匹配,若匹配失败,则增加与所述imei识别信息对应的终端信息,若匹配成功,则将现有的终端信息库中的终端信息与所述imei识别信息进行一致性验证。如上所述的装置,其中,所述补全模块具体用于:对所述imei识别信息进行格式化修正,提取格式化修正后的imei识别信息中的tac,在所述现有的终端信息库中查询所述tac,进行一致性验证。本发明实施例提供的快速补全终端信息库的方法及装置,通过获取数据业务的关键信息记录;从所述关键信息记录中解析出所有使用http业务的统一资源定位符(uniformresourelocator,url)信息;从所述url信息中获取包含终端信息的关键url信息并保存;从保存的所述关键url信息中提取imei识别信息;对所述imei识别信息与终端型号进行统一性分析,并根据分析结果补全所述终端信息库。如此,能够快速的获取新入网手机终端的终端信息,并自动补全终端信息库。附图说明图1为本发明实施例提供的快速补全终端信息库的方法的流程图;图2为本发明实施例提供的快速补全终端信息库的装置的结构示意图。具体实施方式在本发明的各实施例中,通过获取手机终端的数据业务的关键信息记录,能够快速的获取新入网终端的imei、终端类型信息,通过对信令中url的分析找出imei与终端型号的对应关系,通过多次过滤与验证提升自动化匹配的成功率。图1为本发明实施例提供的快速补全终端信息库的方法的流程图。如图1所示,本实施例提供的方法可以由快速补全终端信息库的装置执行,本实施例提供的方法具体可以包括:步骤101、获取数据业务的关键信息记录。本步骤中,可以通过采集并解码原始码流,提取包含用户使用数据业务的关键信息记录,采集数据时具体可以从gb接口、iups接口、gn接口或s1-u接口采集。步骤102、从所述关键信息记录中解析出所有使用http业务的统一资源定位符url信息。在采集的数据中,用户上网时,某些浏览器、业务的app软件会自动把用户的关键信息上报,如手机号码、imsi、imei、终端类型、系统类型及对应版本信息等;此类信息都可能在http记录的url中出现,url的记录内容可能如下:/config/start?appversion=3.9.5&channel=102&city_id=1&datatype=101&imsi=460021038003510imagetype=2&imei=358584057426497&maptype=soso&model=iphone6&os=8.4&sig=ba9070aef4fad4af91a611a6492d6878bef2adb4&token=g5zkvwbochrxoj上例中的url包含了imsi、imei、终端品牌、终端型号、系统版本等关键信息,可以利用这些信息判断终端信息。步骤103、从所述url信息中获取包含终端信息的关键url信息并保存。在本步骤中,首先需要对url信息进行初步过滤,即,从所述url信息中获取包含预设关键词的url信息,例如,对所有的url信息按照“imei”,”imei”,”imei”等关键词进行搜索,只要url信息中包含此类关键词就将该记录筛选出来进行下一步过滤。其次,对初步过滤出来的信息进行二次分析,即,利用关键字匹配从所述包含预设关键词的url信息中获取所述关键url信息;所述关键url信息包含终端的imei识别信息、终端品牌信息、终端型号信息及系统版本信息。步骤104、从保存的所述关键url信息中提取imei识别信息。具体的,通过关键字匹配识别出imei识别信息、终端品牌、终端型号、系统版本等信息;由于不同的数据业务的关键字不同,在提供尽可能多的关键字筛选的同时,为了避免出现误识别情况,使用业务识别判断当前业务是否可能存在imei、终端等关键信息;比如记录为用户注册或者微博访问的http,在url中存在imei等信息比较可信;而浏览新闻类业务的http,即使里面存在imei等信息也不提取。本实施例中,从所述关键词的url信息中识别出imei识别信息时,利用第一公式验证所述imei识别信息的有效性;所述第一公式为:其中,u(x)函数用于通过判断http消息中的host域判断出用户访问的服务的性质,验证所述imei识别信息的有效性;r(y)函数用于通过判断http消息中的url域识别用户行为特性,验证所述imei识别信息的有效性;将有效性验证通过的imei识别信息作为最终提取的所述imei识别信息。具体的,如果f(x,y)=0,则imei属于无效imei,如果f(x,y)=1,则imei属于有效imei。u(x)函数用来通过判断http消息中的host域来判断用户访问服务的性质,例如是否是微博访问、导航、打车等业务特性来识别该imei的有效性,x代表 host;当x属于可信host集合{“api.udache.com”,“m.simba.taobao.com”,“vectors.map.qq.com,api.m.taobao.com”,“andmlbf.tj.ijinshan.com”,“api.diditaxi.com.cn”,“wx.houyi.baofeng.net”,“notice.diditaxi.com.cn”,“api.app.i.sogou.com”,“common.diditaxi.com.cn”,......}时,u(x)=1。r(y)函数用来通过判断http消息中的url域来识别用户行为特性,例如注册、登录、隐私上报等,从而判断该imei的有效性,y代表url。当y包含关键词集合{“mobile”,“login”,“register”,“register”,“sign=”,“config”,“report”,“start_time=”,......}中的一项或几项时,r(y)=1。u(x)、r(y)取值只能为0或1,仅当u(x)=0且r(y)=0时,imei属于无效imei;其他情况都是有效imei。实际应用中,还可使用别名匹配的方式提高imei、终端品牌、终端型号、系统版本的匹配度,别名是指终端型号的一种数据化描述方式,如iphone5s对应的一种别名为a1530。具体的实现方式是:筛选出有imei识别信息、别名信息而无法区分终端型号的记录,imei识别信息为35878705****375,别名为a1530,但区分不出终端型号,如表一所示。表一imei识别信息终端品牌信息终端型号信息别名网络类型信息35878705****375a1530在记录中匹配与该tac相同的记录,记录中应该包含imei识别信息、终端品牌信息、终端型号信息、别名、网络类型信息,例如imei识别信息为35878605****497,别名为a1530,记录中的终端品牌信息为苹果,终端型号信息为iphone5s,网络类型信息为tdd-lte,如表二所示。表二imei识别信息终端品牌信息终端型号信息别名网络类型信息35878605****497苹果iphone5sa1530tdd-lte根据查找到的tac、终端品牌信息、终端型号信息、别名、网络类型信息补全上述记录,则imei识别信息为35878705****375,别名为a1530的终端对应的终端品牌信息为苹果,终端型号信息为iphone5s,网络类型信息为tdd-lte,如表三所示。表三imei识别信息终端品牌信息终端型号信息别名网络类型信息35878705****375苹果iphone5sa1530tdd-lte步骤105、对所述imei识别信息与终端型号进行统一性分析,并根据分析结果补全所述终端信息库。在实际应用中,有些终端可以修改终端名称,即终端型号,大部分的安卓终端都支持自由修改终端名称,如果不对其处理就可能将一款终端识别为其他品牌终端或者该品牌的其他型号。提取imei识别信息的前8位,即tac,并利用tac与终端型号的映射关系进行统计,当某一型号的tac映射率达到阈值时,可认为该tac与终端型号一一对应,再按照终端型号与品牌、网络类型等参数关系补全其他参数信息,按照该方法实现所有tac的分析。具体的,提取所述imei识别信息的tac,并计算tac映射率;所述tac映射率为所述tac对应次数最多的终端型号的次数累加与所述tac对应的所有终端型号的次数累加的比值;在tac映射率达到预设阈值时,确定所述tac与所述对应次数最多的终端型号对应;将确定的终端型号和所述imei识别信息与现有的终端信息库中的信息进行匹配,若匹配失败,则增加与所述imei识别信息对应的终端信息,若匹配成功,则将现有的终端信息库中的终端信息与所述imei识别信息进行一致性验证。在所述将现有的终端信息库中的终端信息与所述imei识别信息进行一致性验证时,对所述imei识别信息进行格式化修正,提取格式化修正后的imei识别信息中的tac,在所述现有的终端信息库中查询所述tac,进行一致性验 证。需要说明的是,只有当imei识别信息、终端品牌信息、终端型号信息、支持网络制式参数全部相同,才可以认为一致性验证通过;否则需要对其进行标识,后续对其人工校验。本实施例提供的技术方案,可以快速的获取新入网手机终端的终端信息,并自动补全终端信息库。图2为本发明实施例提供的快速补全终端信息库的装置的结构示意图。如图2所示,本实施例提供的装置具体可以包括:获取模块11,解析模块12,和补全模块13。其中,获取模块11,用于获取数据业务的关键信息记录;解析模块12,用于从所述关键信息记录中解析出所有使用http业务的url信息;所述获取模块11用于从所述url信息中获取包含终端信息的关键url信息并保存;从保存的所述关键url信息中提取imei识别信息;补全模块13,用于对所述imei识别信息与终端型号进行统一性分析,并根据分析结果补全所述终端信息库。所述获取模块11具体用于:从所述url信息中获取包含预设关键词的url信息;利用关键字匹配从所述包含预设关键词的url信息中获取所述关键url信息;所述关键url信息包含终端的imei识别信息、终端品牌信息、终端型号信息及系统版本信息。进一步地,所述获取模块11具体用于:从所述关键词的url信息中识别出imei识别信息,并利用第一公式验证所述imei识别信息的有效性;所述第一公式为:其中,u(x)函数用于通过判断http消息中的host域判断出用户访问的服务的性质,验证所述imei识别信息的有效性;r(y)函数用于通过判断http 消息中的url域识别用户行为特性,验证所述imei识别信息的有效性;将有效性验证通过的imei识别信息作为最终提取的所述imei识别信息。进一步的,所述补全模块13具体用于:提取所述imei识别信息的tac,并计算tac映射率;所述tac映射率为所述tac对应次数最多的终端型号的次数累加与所述tac对应的所有终端型号的次数累加的比值;在tac映射率达到预设阈值时,确定所述tac与所述对应次数最多的终端型号对应;将确定的终端型号和所述imei识别信息与现有的终端信息库中的信息进行匹配,若匹配失败,则增加与所述imei识别信息对应的终端信息,若匹配成功,则将现有的终端信息库中的终端信息与所述imei识别信息进行一致性验证。进一步的,在对现有的所述补全模块13具体用于:对所述imei识别信息进行格式化修正,提取格式化修正后的imei识别信息中的tac,在所述现有的终端信息库中查询所述tac,进行一致性验证。本实施例提供的快速补全终端信息库的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。在实际应用中,该获取模块11,解析模块12,和补全模块13可由位于快速补全终端信息库的装置上的中央处理器(cpu)、微处理器(mpu)、数字信号处理器(dsp)或现场可编程门阵列(fpga)等器件实现。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可 编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1