一种电话号码识别方法及装置与流程

文档序号:12068418阅读:来源:国知局

技术特征:

1.一种电话号码识别方法,其特征在于,包括:

对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,所述网页包括电话号码和文本信息;

对所述电话号码进行特征提取,得到至少一个第一特征信息;

对所述电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息;

根据所述第一特征信息和所述第二特征信息,识别所述电话号码的号码类型。

2.根据权利要求1所述方法,其特征在于,所述对所述电话号码进行特征提取,得到至少一个第一特征信息,包括:

根据第一特征提取项对所述电话号码进行特征提取,得到各个所述第一特征信息,其中,所述第一特征提取项包括所述电话号码的号码历史热度、号码字符串特点、号码行为模式、所述电话号码是否属于黄页、所述电话号码是否属于黑名单、所述电话号码在安全客户端的标记情况或者所述电话号码在安全客户端被标记为指定号码类型的情况中的一种或者多种。

3.根据权利要求1或2所述方法,其特征在于,所述第一特征信息包括以下至少一项:

获取所述电话号码在预设时间段内的通话次数;

检测所述电话号码与号码数据库中的电话号码是否相同;

统计用户通过安全客户端对电话号码进行标记的标记次数与所述安全客户端的用户量之间的比例;

统计用户通过所述安全客户端将所述电话号码标记为指定号码类型的标记次数与用户通过所述安全客户端对所述电话号码进行标记的标记次数之间的比例。

4.根据权利要求1所述方法,其特征在于,所述对所述电话号码对应的文 本信息进行特征提取,得到至少一个第二特征信息,包括:

根据第二特征提取项对所述电话号码对应的文本信息进行特征提取,得到各个所述第二特征信息,其中,所述第二特征提取项包括所述电话号码在搜索引擎的返回页面结果,所述电话号码在指定网页被用户提到的内容,所述电话号码是否在指定网址页面出现中的一种或者多种。

5.根据权利要求1或4所述方法,其特征在于,所述第二特征信息包括以下至少一项:

检测所述电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配;

检测包含所述电话号码的其他网页中的文本信息与所述第二关键字数据库中的第二关键字是否匹配;

检测包含所述电话号码的任一网页与网页数据库中的网页是否匹配。

6.根据权利要求1所述方法,其特征在于,所述对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,包括:

根据第一关键字数据库中的第一关键字,搜索与所述第一关键字匹配的网页;

对搜索得到的网页进行内容解析,得到各个电话号码及其对应的文本信息。

7.根据权利要求6所述方法,其特征在于,所述根据第一关键字数据库中的第一关键字,搜索与所述第一关键字匹配的网页,包括:

通过爬虫模块爬取与所述第一关键字匹配的网页。

8.根据权利要求1所述方法,其特征在于,所述根据所述第一特征信息和所述第二特征信息,识别所述电话号码的号码类型,包括:

通过机器学习方法,对所述第一特征信息和所述第二特征信息进行统计学习,以判断所述电话号码的号码类型是否为诈骗电话。

9.根据权利要求1所述方法,其特征在于,所述根据所述第一特征信息和 所述第二特征信息,识别所述电话号码的号码类型之后,还包括:

向安全客户端发送风险提示信息,所述风险提示信息包括所述电话号码的号码类型。

10.一种电话号码识别装置,其特征在于,包括:

内容解析单元,用于对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,所述网页包括电话号码和文本信息;

特征提取单元,用于对所述电话号码进行特征提取,得到至少一个第一特征信息;

所述特征提取单元,还用于对所述电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息;

号码类型识别单元,用于根据所述第一特征信息和所述第二特征信息,识别所述电话号码的号码类型。

11.根据权利要求10所述装置,其特征在于,所述特征提取单元对所述电话号码进行特征提取,得到至少一个第一特征信息,具体用于:

根据第一特征提取项对所述电话号码进行特征提取,得到各个所述第一特征信息,其中,所述第一特征提取项包括所述电话号码的号码历史热度、号码字符串特点、号码行为模式、所述电话号码是否属于黄页、所述电话号码是否属于黑名单、所述电话号码在安全客户端的标记情况或者所述电话号码在安全客户端被标记为指定号码类型的情况中的一种或者多种。

12.根据权利要求10或11所述装置,其特征在于,所述第一特征信息包括以下至少一项:

获取所述电话号码在预设时间段内的通话次数;

检测所述电话号码与号码数据库中的电话号码是否相同;

统计用户通过安全客户端对所述电话号码进行标记的标记次数与所述安全客户端的用户量之间的比例;

统计用户通过所述安全客户端将所述电话号码标记为指定号码类型的标记次数与用户通过所述安全客户端对所述电话号码进行标记的标记次数之间的比 例。

13.根据权利要求10所述装置,其特征在于,所述特征提取单元对所述电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息,具体用于:

根据第二特征提取项对所述电话号码对应的文本信息进行特征提取,得到各个所述第二特征信息,其中,所述第二特征提取项包括所述电话号码在搜索引擎的返回页面结果,所述电话号码在指定网页被用户提到的内容,所述电话号码是否在指定网址页面出现中的一种或者多种。

14.根据权利要求10或13所述装置,其特征在于,所述第二特征信息包括以下至少一项:

检测所述电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配;

检测包含所述电话号码的其他网页中的文本信息与所述第二关键字数据库中的第二关键字是否匹配;

检测包含所述电话号码的任一网页与网页数据库中的网页是否匹配。

15.根据权利要求10所述装置,其特征在于,所述内容解析单元,具体用于:

根据第一关键字数据库中的第一关键字,搜索与所述第一关键字匹配的网页;

对搜索得到的网页进行内容解析,得到各个电话号码及其对应的文本信息。

16.根据权利要求15所述装置,其特征在于,所述内容解析单元根据所述第一关键字数据库中的第一关键字,搜索与所述第一关键字匹配的网页,具体用于:

通过爬虫模块爬取与所述第一关键字匹配的网页。

17.根据权利要求10所述装置,其特征在于,所述号码类型识别单元根据所述第一特征信息和所述第二特征信息,识别所述电话号码的号码类型,具体 用于:

通过机器学习方法,对所述第一特征信息和所述第二特征信息进行统计学习,以判断所述电话号码的号码类型是否为诈骗电话。

18.根据权利要求10所述装置,其特征在于,所述装置还包括:

提示信息发送单元,用于所述号码类型识别单元根据所述第一特征信息和所述第二特征信息,识别所述电话号码的号码类型之后,向安全客户端发送风险提示信息,所述风险提示信息包括所述电话号码的号码类型。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1