一种电信运营商用户号码采集的方法

文档序号:7967402阅读:305来源:国知局
专利名称:一种电信运营商用户号码采集的方法
技术领域
本发明涉及一种电信运营商用户号码采集的方法,该方法涉及电信运营商 获取异网用户数据和本网用户流失信息的一种手段,从中获取不同电信运营商 的用户号码,并根据最后使用的时间,判断用户是否在网的方法,特别适合于 分析各个电信运营商的用户数量,并能记录号码信息的动态变化过程,属于电 通信技术领域。
背景技术
对电信运营商而言,用户号码是其最宝贵的资源之一,由于目前各个运营 商间相对独立和市场竞争,各自的号码资源不能充分共享,这样不利于充分利 用号码资源,也不利于监管机构对电信运营商的监管。目前获取号码资源的方法是从电信运营商的号码资源库中读取记录,这种 方式注重了本运营商的号码占用情况,对其他运营商的号码占用情况了解不多, 在竞争过程中处于不利地位,不能有针对性的提高用户服务质量,扩大用户群。采集用户号码, 一般需要区分本地网和运营商,并记录每天各自的新增用 户、退网用户即超过三个月未使用的号码、总用户数,以及对应的用户号码列 表。要得到这些数据,就需要记录每个本地网及运营商所有号码、号码最先出 现曰期,用于分析每天新增用户、最后出现日期,用于分析退网用户。一般处理系统对于数据的比较分析都在计算机内存中进行,处理过程方便 快捷。但用户号码是海量数据,例如, 一个具有一亿号码的大本地网,如果将号码排序置入内存中进行,以平均每个号码占10字节计算,就需要大约1G内
存,再加上与号码相关的信息,总体需要约3G大小的内存,这超出了目前32 位计算机的处理能力,如果监测范围有多个本地网,则占用的内存空间还需更 大。发明内容本发明的目的是提供一种能够提高分析效率、运行在普通32位PC机上的 电信运营商用户号码采集的方法。为实现以上目的,本发明的技术方案是提供一种电信运营商用户号码采集 的方法,其特征在于,利用散列文件记录号码的信息,通过对散列文件的分析,得出各运营商的用户号码信息,其方法为步骤h初始化散列文〈牛在监测范围内,根据号码的本地网和运营商从已建立的七号信令监测系统 获取呼叫记录,以号码的后六位数字作为散列键,组合生成一批散列文件,每个散列文件每行固定字节数,为200字节,共1000000行,每行的行号就是号 码的后六位数字,再生成一个空的溢出文件;步骤2:分析呼叫记录,提取呼叫中的主被叫信息等待从七号信令监测系统中获取呼叫记录,并根据呼叫记录的有效性,提 取有效呼叫记录中的主被叫号码,并分析其所在本地网和所属运营商,査找、修改或创建号码散列文件中的数据;根据号码的本地网和运营商,找到所属散列文件,取号码的后6位,组成 一个整数,作为散列文件的检索索引,不足6位,就以该号码对应的整数作为号码散列文件的检索索引,艮P:首先,对号码散列文件读取指针进行偏移,偏移量为检索索引x每行字节数;然后,读取该行数据,根据分隔符的位置,判断是否有对应用户号码,如
果有对应的用户号码,修改该号码的最后出现日期,如果没有对应用户号码, 在分隔符后添加该号码,并注明第一次出现日期和最后出现日期; 步骤3:重复步骤l、 2直至软件退出或呼叫记录处理完毕; 步骤4:处理散列文件以定时处理或按需处理的方式,读取号码散列文件,根据每个号码的第一 次出现日期和最后出现日期得出每天的新增用户和退网用户。目前,各地主要运营商均建立了七号信令监测系统,该系统的一个重要作 用是产生监测范围内的所有呼叫记录。本发明就是从七号信令监测系统获取呼 叫记录,从中提取用户号码,并利用散列文件记录号码的相关信息,通过对散 列文件的分析,得出各运营商的用户号码信息。为了克服分析海量号码带来的计算机内存问题,又能提高分析速度,本发 明利用散列文件方式进行号码处理,以号码的后六位数字作为散列键,建立一个ASCII文件即称为散列文件,该方法首先按本地网和运营商的组合,建立一 批散列文件,每个散列文件每行固定字节数,通常为200字节,共1000000行, 每行的行号就是号码的后六位数字。整个文件的大小通常约200M,这样每行 可以记录6个号码的信息,文件大小合适便于读取,且不会造成太多的存储空 间浪费,另外,为了防止一行不够记录所有相同散列键的号码即称为溢出,还 需生成一个溢出文件,溢出文件每行的格式与散列文件相同,但行数按需生成, 按照现有的一个省网的号码量计算,溢出总行数不会超过一千万行,即总大小 不会超过2G,在目前32位计算机的处理能力之内。在分析时,每次读取七号信令监测系统的一条呼叫记录,首先判断是不是 可以分析的有效记录,从有效的呼叫记录中分析出号码,并判断出其所属本地 网和运营商,找到其存储的散列文件,取其后6位数字作为一个整数,并以此 整数作为散列文件的检索索引。小于6位数字的号码就以该号码对应的整数作 为散列文件的检索索引。在文件中偏移检索索引X每行字节数,即可定位到该 号码所在的存储位置。如果该号码第一次出现,则在该行数据中写入相关的日 期信息和6位数字以外的号码信息;如果该号码不是第一次出现,则在该行数 据中修改对应的最后出现日期记录,以明确该号码的第一次出现日期和最后一 次出现日期。如果某一行溢出,则在溢出文件的最后添加一行,并将行号记录 在散列文件中。如果溢出文件的行记录也溢出,则也在溢出文件的最后添加一 行,将新行号记录在前一溢出行中。当需要获取号码集合时,根据各本地网和运营商,选择散列文件,通过扫 描该散列文件获取不同运营商当前的号码资料,并统计计数,保存入库,便于 今后查询各个运行商的用户数量的变化曲线。本发明的优点是1. 能够达到较高的分析效率,并通过使用格式化的散列文件方式避免了对 处理机内存的过度使用,可以在一台32位PC机上完成,对处理机CPU的要 求不高;2. 由于文件具有可以长期保存的特点,满足对电信用户号码的长期监测, 经过长期的数据积累,数据的准确性和有效性得到极大提高,加上文件格式的 可读性,可以随时读出各个运营商的用户数量、列表及新增、流失情况;3. 分析七号信令监测系统中的呼叫记录,也是对系统已有数据的深入挖掘 的一种方式,提高了系统的利用效率,增强了系统的支撑作用。


图1为一种电信运营商用户号码采集的方法技术方案的流程图; 图2为一种电信运营商用户号码采集的方法实施的程序流程图。
具体实施方式
以下结合附图和实施例对本发明作进一步说明。但本实施例并不用于限制 本发明,凡是采用本发明的相似结构、相似方法及其相似变化,均应列入本发 明的保护范围。实施例如图1所示,为一种电信运营商用户号码采集的方法技术方案的流程图, 如图2所示,为一种电信运营商用户号码采集的方法实施的程序流程图,左图 为以散列文件的方法记录用户号码信息的流程,右图为从散列文件统计分析用 户号码的流程。现以上海地区为例,分析02155886688这个号码,说明该号码采集方法的 实施步骤-步骤l:初始化号码散列文件根据本电信领域用户号码采集单元所监测的范围即本地网与所关心的运营 商确定所需的散列文件,通常一个本地网有中国电信、中国网通、中国移动、 中国联通和中国铁通5个运营商,每个本地网和运营商的组合为一个文件,如 上海电信的散列文件可标识为21—1, "21"为上海本地网代号,"1"为中国电 信编号;步骤2:分析呼叫记录,提取呼叫中的主被叫信息;从七号信令监测系统中获取呼叫记录,并根据呼叫记录的有效性,提取有 效呼叫记录中的主被叫号码,呼叫有效性判断依据是应答呼叫或呼损为用户 忙的呼叫,然后根据运营商的号段,找出该号码所在本网和所属运营商,剔除 号码的长途字冠,本例021为上海,运营商为电信,去除长途字冠后的号码为55886688,査找、修改或创建号码序列文件中的数据。 根据号码所在本地网和所属运营商,确定散列文件为21一1,根据号码的后 6位,组成一个整数,作为散列文件的检索索引即散列键,不足6位,就以该号码对应的整数作为号码散列文件的检索索引,艮P:首先,对号码散列文件读取指针进行偏移,偏移量为检索索引X每行字节 数为886688X200;然后,读取该行数据,根据分隔符的位置, 一般为V,判断是否有对应用 户号码,如果有对应的用户号码,修改该号码的最后出现日期;如果没有对应用户号码,在分隔符后添加该号码,并注明第一次出现日期和最后出现日期,本例结果886688\t0000000\t66, 20060723, 20060724\t55, 20060724, 20060724\t\0\ 0\0\0\0... \0,其中886688的部分为号码后六位,第一个V之后的7个0用 于记录溢出行,接着是号码剩余的前几位、第一次出现日期和最后出现日期, 然后是另一个号码的记录,最后是填充若干个\0直至使整行为200字节;散列文件中每一行为固定大小,如200字节,只能记录有限个号码,如果 具有相同散列键(号码后6位)的号码超过一行所能记录的大小(称为溢出), 则在溢出文件的最后添加一行,并将行号记录在散列文件相应的行上。如果溢 出文件中的行还溢出,则在溢出文件最后再添加一行,将新行号记录在上一溢 出行中。步骤3:重复步骤l、 2直至软件退出或呼叫记录处理完毕;步骤4:处理号码散列文件以定时处理或按需处理的方式,读取号码散列文件,根据每个号码的第一 次出现日期和最后出现日期得出每天的新增用户和退网用户,统计每个运营商 的总用户数、新增用户数及退网用户数,并提供号码列表。本实施例在上海电信调试,调试机器为台式PC机,配置为Intel P4CPU、
IDE接口 7200转硬盘一个、Windows2003中文操作系统,代码采用Cll编写。分 析一个月左右的呼叫记录,发现两千多万个用户号码,运营商分别是上海电信、 上海网通、上海铁通、上海移动、上海联通,溢出文件大小238M。分析时由任 务程序定时从七号信令监测系统下载呼叫记录文件,分析程序只要发SL有未分 析的文件就继续读取并分析。按照上述配置,集中分析一天的呼叫记录大约需 要6小时,速度上完全能达到实际的需求。如果提高硬盘的转速即采用SCSI接 口的万转以上硬盘、将呼叫记录文件与散列文件分别存放在两个物理盘中,分 析速度将会大大地提高。
权利要求
1.一种电信运营商用户号码采集的方法,其特征在于,利用散列文件记录号码的信息,通过对散列文件的分析,得出各运营商的用户号码信息,其方法为步骤1初始化散列文件在监测范围内,根据号码的本地网和运营商从已建立的七号信令监测系统获取呼叫记录,以号码的后六位数字作为散列键,组合生成一批散列文件,每个散列文件每行固定字节数,为200字节,共1000000行,每行的行号就是号码的后六位数字,再生成一个空的溢出文件;步骤2分析呼叫记录,提取呼叫中的主被叫信息等待从七号信令监测系统中获取呼叫记录,并根据呼叫记录的有效性,提取有效呼叫记录中的主被叫号码,并分析其所在本地网和所属运营商,查找、修改或创建号码散列文件中的数据;根据号码的本地网和运营商,找到所属散列文件,取号码的后6位,组成一个整数,作为散列文件的检索索引,不足6位,就以该号码对应的整数作为号码散列文件的检索索引,即首先,对号码散列文件读取指针进行偏移,偏移量为检索索引×每行字节数;然后,读取该行数据,根据分隔符的位置,判断是否有对应用户号码,如果有对应的用户号码,修改该号码的最后出现日期,如果没有对应用户号码,在分隔符后添加该号码,并注明第一次出现日期和最后出现日期;步骤3重复步骤1、2直至软件退出或呼叫记录处理完毕;步骤4处理散列文件以定时处理或按需处理的方式,读取号码散列文件,根据每个号码的第一次出现日期和最后出现日期得出每天的新增用户和退网用户。
全文摘要
一种电信运营商用户号码采集的方法,其特征在于,利用散列文件记录号码的信息,通过对散列文件的分析,得出各运营商的用户号码信息,本发明的优点是能够达到较高的分析效率,并通过使用格式化的散列文件方式避免了对处理机内存的过度使用,可以在一台32位PC机上完成,对处理机CPU的要求不高;由于文件具有可以长期保存的特点,满足对电信用户号码的长期监测,经过长期的数据积累,数据的准确性和有效性得到极大提高,加上文件格式的可读性,可以随时读出各个运营商的用户数量、列表及新增、流失情况;分析七号信令监测系统中的呼叫记录,提高了系统的利用效率,增强了系统的支撑作用。
文档编号H04W24/00GK101150822SQ200610116140
公开日2008年3月26日 申请日期2006年9月18日 优先权日2006年9月18日
发明者伟 刘, 洋 施, 蒋乃华 申请人:上海欣泰通信技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1