基于递归的电话号码的识别方法及装置的制造方法

文档序号:9436225阅读:260来源:国知局
基于递归的电话号码的识别方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网应用技术领域,特别是一种基于递归的电话号码的识别方法及 装置。
【背景技术】
[0002] POI (Point of Interest),即兴趣点,是整个地图导航产业的基石,尤其在当前移 动互联网时代,地图信息数据就变得更加不可或缺了。海量网页中包含大量的P0I信息,每 个P0I信息包含名称、地址、经炜度、电话号码等信息,不同网页的P0I数据质量层次不齐, 而电话作为联系兴趣点的重要方式,其准确性是衡量一个P0I数据质量的重要指标。
[0003] 海量网页中包含了数以亿计的P0I信息,电话号码的呈现方式也复杂多样,同一 个P0I信息可能会包含多个固定电话或者移动电话,并且交错合并到一起。此外,从互联网 中提取的P0I信息可能存在大量的错误的数据,P0I的电话号码也是如此,而错误的电话号 码在应用时会给用户带来体验上的伤害,所以如何准确地识别出网页P0I信息中的电话号 码成为目前亟待解决的技术问题。

【发明内容】

[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的基于递归的电话号码的识别方法及相应的装置。
[0005] 依据本发明的一方面,提供了一种基于递归的电话号码的识别方法,包括:
[0006] 预处理操作,对原始待识别电话号码串进行与电话号码格式相关的预处理,得到 处理后的目标待识别电话号码串;
[0007] 划分操作,从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别 电话号码串进行划分,得到第一指定位数的号码串;
[0008] 识别操作,识别出所述第一指定位数的号码串对应的电话号码的类别;
[0009] 递归操作,如果仍然存在剩余的待识别电话号码串,则对剩余的待识别电话号码 串进行重复递归,直至剩余的待识别电话号码串被全部识别完。
[0010] 可选地,对剩余的待识别电话号码串进行重复递归,包括:
[0011] 对剩余的待识别电话号码串执行所述预处理操作、所述划分操作以及所述识别操 作。
[0012] 可选地,所述对原始待识别电话号码串进行与电话号码格式相关的预处理操作, 得到处理后的目标待识别电话号码串,包括:
[0013] 确定所述原始待识别电话号码串中是否包含指定的分隔符;
[0014] 若所述原始待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述原 始待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
[0015] 可选地,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖 杆。
[0016] 可选地,在得到切分后的至少两个目标待识别电话号码串之后,还包括:
[0017] 对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有 国家区号;
[0018] 若是,则去除该目标待识别电话号码串头部的国家区号。
[0019] 可选地,在去除该目标待识别电话号码串头部的国家区号之后,还包括:
[0020] 分析去除了国家区号之后的所述目标待识别电话号码串;
[0021] 若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充 该地区区号使其完整;
[0022] 若所述目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地 区区号进行去重处理。
[0023] 可选地,识别出所述第一指定位数的号码串对应的电话号码的类别,包括:
[0024] 判断所述第一指定位数的号码串是否满足第一类别电话号码的属性特征;
[0025] 若是,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
[0026] 分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
[0027] 根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指 定位数的号码串进行补全。
[0028] 可选地,所述分别采用各个探测位数对所述目标待识别电话号码串进行切分,得 到切分结果,包括:
[0029] 对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第一 指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
[0030] 比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位 数,作为该探测位数对应的切分结果。
[0031] 可选地,根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所 述第一指定位数的号码串进行补全,包括:
[0032] 比较所述各个探测位数对应的号码相同的位数;
[0033] 从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
[0034] 对所述第一指定位数的号码串补全所述最优探测位数。
[0035] 可选地,在判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特 征之后,还包括:
[0036] 若所述第一指定位数的号码串不符合第一类别电话号码的属性特征,则选取新的 符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定 位数的号码串;
[0037] 判断所述第二指定位数的号码串是否符合第二类别电话号码的属性特征;
[0038] 若是,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串 进行补全。
[0039] 可选地,通过以下步骤获取所述原始待识别电话号码串:
[0040] 从网页中获取兴趣点P0I信息;
[0041] 从所述P0I信息中提取所述原始待识别电话号码串。
[0042] 依据本发明的另一方面,还提供了一种基于递归的电话号码的识别装置,包括:
[0043] 预处理模块,适于对原始待识别电话号码串进行与电话号码格式相关的预处理操 作,得到处理后的目标待识别电话号码串;
[0044] 划分模块,适于从初始位置起,根据符合电话号码格式的划分规则对所述目标待 识别电话号码串进行划分,得到第一指定位数的号码串;
[0045] 识别模块,适于识别出所述第一指定位数的号码串对应的电话号码的类别;
[0046] 递归模块,适于如果仍然存在剩余的待识别电话号码串,则对剩余的待识别电话 号码串进行重复递归,直至剩余的待识别电话号码串被全部识别完。
[0047] 可选地,所述递归模块还适于:
[0048] 对于剩余的待识别电话号码串,触发所述预处理模块执行预处理操作、所述划分 模块执行划分操作以及所述识别模块执行识别操作,直至剩余的待识别电话号码串被全部 识别完。
[0049] 可选地,所述预处理模块还适于:
[0050] 确定所述原始待识别电话号码串中是否包含指定的分隔符;
[0051] 若所述原始待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述原 始待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
[0052] 可选地,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖 杆。
[0053] 可选地,所述预处理模块还适于:
[0054] 在得到切分后的至少两个目标待识别电话号码串之后,对于各个目标待识别电话 号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
[0055] 若是,则去除该目标待识别电话号码串头部的国家区号。
[0056] 可选地,所述预处理模块还适于:
[0057] 在去除该目标待识别电话号码串头部的国家区号之后,分析去除了国家区号之后 的所述目标待识别电话号码串;
[0058] 若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充 该地区区号使其完整;
[0059] 若所述目标待识别电话号码串的头部具有地区区号且该地区区号重复,则对该地 区区号进行去重处理。
[0060] 可选地,所述识别模块还适于:
[0061] 判断所述第一指定位数的号码串是否满足第一类别电话号码的属性特征;
[0062] 若是,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
[0063] 分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
[0064] 根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指 定位数的号码串进行补全。
[0065] 可选地,所述识别模块还适于:
[0066] 对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第一 指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
[0067] 比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位 数,作为该探测位数对应的切分结果。
[0068] 可选地,所述识别模块还适于:
[0069] 比较所述各个探测位数对应的号码相同的位数;
[0070] 从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
[0071] 对所述第一指定位数的号码串补全所述最优探测位数。
[0072] 可选地,所述划分模块,还适于在所述识别模块判断所述第一指定位数的号码串 是否符合第一类别电话号码的属性特征之后,若所述第一指定位数的号码串不符合第一类 别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对所述目标待识别电话 号码串重新进行划分,得到第二指定位数的号码串;
[0073] 所述识别模块,还适于判断所述第二指定位数的号码串是否符合第二类别电话号 码的属性特征;若是,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号 码串进行补全。
[0074] 可选地,所述装置还包括获取模块,适于通过以下步骤获取所述原始待识别电话 号码串:
[0075] 从网页中获取兴趣点P0I信息;
[0076] 从所述P0I信息中提取所述原始待识别电话号码串。
[0077] 在本发明实施例中,首先对原始待识别电话号码串进行与电话号码格式相关的 预处理操作,使得预处理操作后的目标待识别电话号码串与电话号码格式一致,以便于后 续基于预处理操作后的目标待识别电话号码串进行电话号码的识别,提高电话号码的识别 率。并且,本发明实施例结合不同类别的电话号码(如固定电话或移动电话等)具有的特 征,采用不同类别的电话号码对应的电话号码格式的划分规则对目标待识别电话号码串进 行划分,根据划分得到的第一指定位数的号码串识别出其对应的电话号码的类别,实现对 不同类别的电话号码的有效识别。进一步,在识别出第一指定位数的号码串对应的电话号 码的类别之后,如果仍然存在剩余的待识别电话号码串,则本发明实施例基于递归操作,则 对剩余的待识别电话号码串进行重复递归,直至剩余的待识别电话号码串被全部识别完。
[0078] 另外,本发明实施例还结合了同一个电话单元中的两个固定电话或移动电话有很 大的相似性的特点,采用后向探测位数判定的方案,对目标待识别电话号码串进行探测、识 另IJ,进一步提高了电话号码识别的准确性。
[0079] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1