基于递归的电话号码的识别方法及装置的制造方法_3

文档序号:9436225阅读:来源:国知局
数的号码串不满足第一类别电话号码的属性特征,则选取新的符合 电话号码格式的划分规则对目标待识别电话号码串重新进行划分,得到第二指定位数的号 码串,进而判断第二指定位数的号码串是否满足第二类别电话号码的属性特征,若是,则根 据第二类别电话号码的属性特征,对第二指定位数的号码串进行补全,得到第二指定位数 的号码串对应的电话号码。
[0120] 以中国市、区、县电话号码为例,在选取符合移动电话号码格式的划分规则时,由 于移动电话包含11位,根据其前7位可以判断其正确性及所属区域(这里,移动电话一 般以13、14、15、17、18或19开头,可以利用移动电话归属表判断前7位的正确性及所属区 域),因而可以根据符合移动电话号码格式的划分规则对目标待识别电话号码串进行划分, 得到第一指定位数为7位的号码串。
[0121] 另外,在选取符合固定电话号码格式的划分规则时,由于固定电话分为官方400 或800开头的10位号码电话、包含3位或4位区号的普通7位或8位的区域电话及特殊官 方5位电话号码,因而可以根据符合固定电话号码格式的划分规则对目标待识别电话号码 串进行划分,得到第一指定位数为3位、4位或5位的号码串。
[0122] 例如,从P0I信息中提取的原始待识别电话号码串为"+8613651464541, 28-84876877",对该原始待识别电话号码进行与电话号码格式相关的预处理操作,依次为 根据分隔符预切分、国家区号的识别和去除、地区区号的识别和补充,则处理后的目标待识 别电话号码串为" 13651464541"和"028-84876877"。进一步,从初始位置起,根据符合移动 电话号码格式的划分规则对目标待识别电话号码串" 13651464541"进行划分,得到第一指 定位数为7位的号码串"1365146"。或者,从初始位置起,根据符合固定电话号码格式的划 分规则对目标待识别电话号码串"028-84876877"进行划分,得到第一指定位数为3位的号 码串"028"。
[0123] 在本发明一实施例中,若目标待识别电话号码串的头部具有地区区号,则从初始 位置起,根据符合移动电话号码格式的划分规则,对除去头部的地区区号后的目标待识别 电话号码串进行划分,得到第一指定位数为7位的号码串。例如,上文表2中,目标待识别电 话号码串为"0755-13651464541",该目标待识别电话号码串的头部具有地区区号"0755", 则从初始位置起,根据符合移动电话号码格式的划分规则,对除去头部的地区区号后的目 标待识别电话号码串进行划分,得到第一指定位数为7位的号码串"1365146"。
[0124] 在本发明一实施例中,可以首先选取符合移动电话号码格式的划分规则对目标待 识别电话号码串进行划分,得到第一指定位数为7位的号码串,判断第一指定位数为7位的 号码串是否满足第一类别电话号码(即,移动电话)的属性特征,若是,则根据第一类别电 话号码(即,移动电话)的属性特征,对第一指定位数为7位的号码串进行补全,得到第一 指定位数为7位的号码串对应的电话号码(即,移动电话)。
[0125] 仍然以原始待识别电话号码串为"+8613651464541,28-84876877"为例,对该原始 待识别电话号码进行与电话号码格式相关的预处理操作,如删除国家区号,得到处理后的 目标待识别电话号码串为" 13651464541,28-84876877"。进一步,从初始位置起,根据符合 移动电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数为7 位的号码串"1365146",进而根据步骤S106可以识别出第一指定位数为7位的号码串对应 的电话号码为移动电话" 13651464541 "。
[0126] 若第一指定位数为7位的号码串不满足第一类别电话号码(即,移动电话)的属 性特征,则选取符合固定电话号码格式的划分规则对目标待识别电话号码串重新进行划 分,得到第二指定位数为3位、4位或5位的号码串,进而判断第二指定位数为3位、4位或5 位的号码串是否满足第二类别电话号码(即,固定电话)的属性特征,若是,则根据第二类 别电话号码(即,固定电话)的属性特征,对第二指定位数为3位、4位或5位的号码串进行 补全,得到第二指定位数为3位、4位或5位的号码串对应的电话号码(即,固定电话)。
[0127] 例如,上文表2中,在对原始待识别电话号码串"286990619869906199"进行预处 理操作后,得到目标待识别电话号码串为"0286990619869906199",接下来从初始位置起, 根据符合移动电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定 位数为7位的号码串为"0286990",该第一指定位数为7位的号码串不满足第一类别电话号 码(即,移动电话)的属性特征,则选取符合固定电话号码格式的划分规则对目标待识别电 话号码串重新进行划分,得到第二指定位数为3位的号码串为"028",识别出第二指定位数 为3位的号码串"028"对应的电话号码为固定电话,分别为7位的"0286990619"或者8位 的"02869906198"。
[0128] 在本发明的另一实施例中,也可以首先选取符合固定电话号码格式的划分规则对 目标待识别电话号码串进行划分,得到第一指定位数为3位、4位或5位的号码串,判断第一 指定位数为3位、4位或5位号码串是否满足第一类别电话号码(即,固定电话)的属性特 征,若是,则根据第一类别电话号码(即,固定电话)的属性特征,对第一指定位数为3位、4 位或5位的号码串进行补全,得到第一指定位数为3位、4位或5位的号码串对应的电话号 码(即,固定电话)。
[0129] 若第一指定位数为3位、4位或5位的号码串不满足第一类别电话号码(即,固定 电话)的属性特征,则选取符合移动电话号码格式的划分规则对目标待识别电话号码串重 新进行划分,得到第二指定位数为7位的号码串,进而判断第二指定位数为7位的号码串 是否满足第二类别电话号码(即,移动电话)的属性特征,若是,则根据第二类别电话号码 (BP,移动电话)的属性特征,对第二指定位数为7位的号码串进行补全,得到第二指定位数 为7位的号码串对应的电话号码(即,移动电话)。
[0130] 以上列举的第一指定位数为7位,第一类别电话号码为移动电话,第二指定位数 为3位、4位或5位,第二类别电话号码为固定电话;或者,第一指定位数为3位、4位或5位, 第一类别电话号码为固定电话,第二指定位数为7位,第二类别电话号码为移动电话,是根 据中国市、区、县电话号码的特点进行的设置,需要说明的是,对于其他国家的电话号码的 识别,可以结合其他国家的电话号码的特点对第一指定位数、第一类别电话号码、第二指定 位数以及第二类别电话号码进行相应的设置。
[0131] 在本发明的另一实施例中,上文步骤S106中识别出第一指定位数的号码串对应 的电话号码的类别,本发明实施例提供了另一可选的方案。图2示出了根据本发明一实施 例的识别第一指定位数的号码串对应的电话号码的类别的流程图。参见图2,该方法至少可 以包括步骤S202至步骤S210。
[0132] 步骤S202,判断第一指定位数的号码串是否满足第一类别电话号码的属性特征, 若是,则继续执行步骤S204,否则,继续执行步骤S210。
[0133] 步骤S204,根据第一类别电话号码的属性特征,确定至少两个探测位数。
[0134] 步骤S206,分别采用各个探测位数对目标待识别电话号码串进行切分,得到切分 结果。
[0135] 在该步骤中,对于各个探测位数,利用该探测位数对目标待识别电话号码串的、第 一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码,比 较第一切分号码和第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数 对应的切分结果。
[0136] 步骤S208,根据切分结果,从至少两个探测位数中选取最优探测位数对第一指定 位数的号码串进行补全。
[0137] 在该步骤中,比较各个探测位数对应的号码相同的位数,从各个探测位数中,选取 对应号码相同的位数最大的作为最优探测位数,对第一指定位数的号码串补全最优探测位 数。
[0138] 步骤S210,选取新的符合电话号码格式的划分规则对目标待识别电话号码串重新 进行划分,得到新的第一指定位数的号码串,并返回执行步骤S202。
[0139] 在上文的例子中,识别出第一指定位数为3位的号码串"028"对应的电话号码为 固定电话,且该固定电话由于不是以400或800开头,则确定7位和8位两个探测位数。
[0140] 对于7位的探测位数,利用该探测位数对目标待识别电话号码串的、第一指定 位数的号码串之后的电话号码串(即,6990619869906199)进行切分,得到第一切分号码 "6990619"和第二切分号码"8699061",确定两者对应位置上号码相同的位数为1。
[0141] 对于8位的探测位数,利用该探测位数对目标待识别电话号码串的、第一指定 位数的号码串之后的电话号码串(即,6990619869906199)进行切分,得到第一切分号码 "69906198"和第二切分号码"69906199",确定两者对应位置上号码相同的位数为7。
[0142] 随后,从7位和8位的探测位数中,选取对应号码相同的位数最大的作为最优探测 位数,即选取8位的探测位数作为最优探测位数,对第一指定位数的号码串"028"补全最优 探测位数得到的固定电话为"02869906198"。这里,选择此计算方法的依据是出现在同一个 电话单元中的两个固定电话或移动电话有很大的相似性。
[0143] 在本发明的又一实施例中,在补全得到第一指定位数或第二指定位数的号码串对 应的电话号码之后,可以输出补全得到第一指定位数或第二指定位数的号码串对应的电 话号码。例如,在从目标待识别电话号码串" 0286990619869906199 "中识别出固定电话 "02869906198" 后,可以输出固定电话 "02869906198"。
[0144] 进一步,对于剩余的待识别电话号码串"69906199",则需要再次执行步骤S102 中的预处理操作、步骤S104中的划分操作以及步骤S106中的识别操作,直至剩余的待识 别电话号码串被全部识别完。即,首先补全地区区号"028",得到目标待识别电话号码串 "02869906199"。接着,从初始位置起,根据符合固定电话号码格式的划分规则对目标待 识别电话号码串"02869906199"进行划分,得到第一指定位数为3位的号码串"028",进 而根据步骤S108可以识别出第一指定位数为3位的号码串对应的电话号码为固定电话 "02869906199"。
[0145] 再例如,上文表2中,目标待识别电话号码串为"400-890-0000转805530",从初始 位置起,根据符合固定电话号码格式的划分规则对目标待识别电话号码串"400-890-0000 转805530"进行划分,得到第一指定位数为3位的号码串"400",进而根据步骤S108可以识 别出第一指定位数为3位的号码串对应的电话号码为固定电话"400-890-0000"。对于剩余 的待识别电话号码串"转805530"识别出为分机号,则添加到固定电话"400-890-0000"的 末尾,得到 "400-890-0000 转 805530"。
[0146] 下面通过一具体实施例详细介绍本发明提供的基于递归的电话号码的识别方法 的实现过程,在该实施例中,以中国市、区、县电话号码为例,从网页中获取P0I信息,并从 P0I信息中提取原始待识别电话号码串。图3示出了根据本发明另一实施例的识别电话号 码的方法的流程图。参见图3,该方法至少可以包括步骤
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1