号码的标识方法和装置与流程

文档序号:12496325阅读:324来源:国知局
号码的标识方法和装置与流程

技术领域

本申请涉及计算机技术领域,特别是涉及号码的标识方法和装置。



背景技术:

移动通信终端(例如手机等)作为常用的通讯工具,可以极大的方便用户和他人取得联系,建立通话。然而,由于个人号码信息会通过很多渠道被他人知晓,甚至被恶意的泄露和获取,使得用户在使用移动电话的过程中,受到很多陌生号码的来电打扰。

移动电话的用户在收到陌生来电显示时,在未通话之前,无法了解此联系人的通话目的。在一些情况下,陌生通话的内容可能涉及保险推销,房屋中介,甚至是恶意诈骗等,用户在接听这些电话时,会使正常的生活受到干扰,甚至会侵害到自身的财产安全。同时,在另一些情况下,陌生通话的内容可能涉及到用户关心的信息,比如需要他签收的邮件已经送到,更换了新号码的朋友主动联系等,在这些情况下,陌生来电的通话内容对用户是有用,甚至是意义重大的。因此,一般情况下,用户只能冒着被干扰等风险来接听陌生来电,但对于骚扰电话或者恶意诈骗电话而言,一旦用户接听了,就使得正常生活被干扰成为既定事实,同时也给来电者留下了可乘之机,使得用户的自身财产安全遭受侵害的可能性大大上升。

为了减少这类可能会为接听者带来风险的电话继续危害或骚扰他人的可能,传统方式中,接听了这类电话的用户可以通过登录相关网页,针对这类电话的号码提交评价,以提示其他用户这类号码可能是具有的危害性。但是登录网页所提交的评价内容需要用户思考总结形成通顺语句后录入,操作繁琐,导致很多情况下,用户在接听的这类电话后并不会进行评价,使得这类电话可以继续危害或骚扰其他用户,难以降低这类电话危害其他用户的概率。



技术实现要素:

为了解决上述技术问题,本申请提供了号码的标识方法和装置,便利的操作提高了用户标识这种可能危害或骚扰他人号码的积极性。

本申请实施例公开了如下技术方案:

第一方面,本发明实施例提供了一种号码的标识方法,所述方法包括:

当监测到用户接听了一号码的来电时,在通信终端上为所述用户提供标记入口,所述标记入口的标记界面包括使用者身份标记候选项,所述使用者身份标记候选项包括常见的陌生电话类型;

向服务器发送所述用户针对所述号码所选择的使用者身份标记信息,使得所述服务器端创建或更新号码信息数据库,其中,所述号码信息数据库用于所述服务器端查询所述号码对应的使用者身份信息。

可选的,所述号码为相对于所述用户的陌生号码或者不常用号码。

可选的,通过以下方式接收用户通过所述标记入口输入的某号码的使用者身份标记信息:

当所述用户从所述标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

可选的,所述为用户提供标记入口包括:

在通信终端的选项菜单中注入所述标记入口。

可选的,通过以下方式接收用户通过所述标记入口输入的某号码的使用者身份标记信息:

当用户选中一号码并选择从所述选项菜单中的标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

可选的,还包括:

将用户对号码的标记情况进行记录;

当用户发起对同一号码的再次标记请求时,提示用户操作无效。

可选的,还包括:

对使用通信终端过程中的应用场景进行监测,获取应用场景中出现的目标号码;

获取所述目标号码对应的使用者身份信息;

将获取到的所述目标号码对应的使用者身份信息提示给所述用户。

可选的,所述将获取到的所述目标号码对应的使用者身份信息提示给所述用户,包括:

依据提示用户与所述号码的使用者身份标记信息的标记者之间的关系,对所述标记者标记的所述号码的使用者身份标记信息进行处理。

可选的,所述获取所述目标号码对应的使用者身份信息包括:

将所述目标号码上传到服务器端;

根据所述服务器端返回的信息,获取所述目标号码对应的使用者身份信息,所述服务器端返回的信息包括所述服务器端通过查询预先建立的号码信息数据库所获取的所述目标号码对应的使用者身份信息。

可选的,所述目标号码对应的使用者身份信息是所述服务器端根据用户上传的号码以及使用者身份标记信息确定的。

可选的,所述目标号码对应的使用者身份信息是所述服务器根据至少两个用户上传的使用者身份标记信息所确定的。

可选的,所述目标号码对应的使用者身份信息是所述服务器当不同用户针对所述目标号码上传了不同的使用者身份标记信息时,根据各个使用者身份标记信息的被上传次数,从各个使用者身份标记信息中为所述目标号码选择的。

可选的,所述获取所述目标号码对应的使用者身份信息包括:

如果所述目标号码的标记者出现在被提示用户的联系人中,则获取该目标号码的各个标记者针对该目标号码上传的使用者身份标记信息,所述目标号码的各个标记者为执行上传操作的用户;

所述将获取到的所述目标号码对应的使用者身份信息提示给用户包括:

将出现在联系人中的标记者上传的使用者身份标记信息单独提示给用户。

第二方面,本发明实施例提供了一种号码的标识装置,所述装置包括提供单元和发送单元:

所述提供单元,用于当监测到用户接听了一号码的来电时,在通信终端上为所述用户提供标记入口,所述标记入口的标记界面包括使用者身份标记候选项,所述使用者身份标记候选项包括常见的陌生电话类型;

所述发送单元,用于向服务器发送所述用户针对所述号码所选择的使用者身份标记信息,使得所述服务器端创建或更新号码信息数据库,其中,所述号码信息数据库用于所述服务器端查询所述号码对应的使用者身份信息。

可选的,所述号码为相对于所述用户的陌生号码或者不常用号码。

可选的,所述提供单元还用于通过以下方式接收用户通过所述标记入口输入的某号码的使用者身份标记信息:

当所述用户从所述标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

可选的,所述提供单元还用于在通信终端的选项菜单中注入所述标记入口。

可选的,所述提供单元还用于通过以下方式接收用户通过所述标记入口输入的某号码的使用者身份标记信息:

当用户选中一号码并选择从所述选项菜单中的标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

可选的,还包括记录单元:

所述记录单元,用于将用户对号码的标记情况进行记录;当用户发起对同一号码的再次标记请求时,提示用户操作无效。

可选的,还包括监测单元和获取单元:

所述检测单元,用于对使用通信终端过程中的应用场景进行监测,获取应用场景中出现的目标号码;

所述获取单元,用于获取所述目标号码对应的使用者身份信息;

所述提供单元还用于将获取到的所述目标号码对应的使用者身份信息提示给所述用户。

可选的,所述提供单元还用于依据提示用户与所述号码的使用者身份标记信息的标记者之间的关系,对所述标记者标记的所述号码的使用者身份标记信息进行处理。

可选的,所述获取单元还用于将所述目标号码上传到服务器端;根据所述服务器端返回的信息,获取所述目标号码对应的使用者身份信息,所述服务器端返回的信息包括所述服务器端通过查询预先建立的号码信息数据库所获取的所述目标号码对应的使用者身份信息。

可选的,所述目标号码对应的使用者身份信息是所述服务器端根据用户上传的号码以及使用者身份标记信息确定的。

可选的,所述目标号码对应的使用者身份信息是所述服务器根据至少两个用户上传的使用者身份标记信息所确定的。

可选的,所述目标号码对应的使用者身份信息是所述服务器当不同用户针对所述目标号码上传了不同的使用者身份标记信息时,根据各个使用者身份标记信息的被上传次数,从各个使用者身份标记信息中为所述目标号码选择的。

可选的,所述获取单元还用于如果所述目标号码的标记者出现在被提示用户的联系人中,则获取该目标号码的各个标记者针对该目标号码上传的使用者身份标记信息,所述目标号码的各个标记者为执行上传操作的用户;

所述提供单元还用于将出现在联系人中的标记者上传的使用者身份标记信息单独提示给用户。

第三方面,本发明实施例提供了一种号码的标识方法,所述方法包括:

服务器端获取目标号码对应的使用者身份信息,所述目标号码是其他用户在使用通信终端中的出现的,所述目标号码对应的使用者身份信息是所述其他用户根据所述目标号码在通信终端上所提供标记入口的标记界面中使用者身份标记候选项所选择的使用者身份标记信息,其中,所述号码信息数据库用于所述服务器端端查询所述号码对应的使用者身份信息;

所述服务器端将获取到的所述目标号码对应的使用者身份信息提示给所述用户。

可选的,还包括:

所述服务器端针对其他用户根据所述目标号码在通信终端上所提供标记入口的标记界面中使用者身份标记候选项所选择的使用者身份标记信息创建或更新号码信息数据库。

可选的,所述服务器端将获取到的所述目标号码对应的使用者身份信息提示给所述用户,包括:

所述服务器端依据提示用户与所述号码的使用者身份标记信息的标记者之间的关系,对所述标记者标记的所述号码的使用者身份标记信息进行处理。

可选的,所述服务器端获取所述目标号码对应的使用者身份信息包括:

所述服务器端获取所述目标号码;

所述服务器端通过查询预先建立的号码信息数据库,获取所述目标号码对应的使用者身份信息并返回给客户端。

可选的,还包括:

所述服务器端根据用户上传的号码以及使用者身份标记信息,确定号码对应的使用者身份信息。

可选的,所述服务器端根据用户上传的号码以及使用者身份标记信息,确定号码对应的使用者身份信息,包括:

所述服务器端针对同一号码,根据至少两个用户上传的使用者身份标记信息,确定号码对应的使用者身份信息。

可选的,所述服务器端针对同一号码,根据至少两个用户上传的使用者身份标记信息,确定号码对应的使用者身份信息包括:

当不同用户针对同一号码上传了不同的使用者身份标记信息时,所述服务器端根据各个使用者身份标记信息的被上传次数,从各个使用者身份标记信息中为号码选择使用者身份信息。

可选的,还包括:

所述服务器端将执行上传操作的用户记录为号码的标记者,并分别记录各个标记者针对同一号码上传的使用者身份标记信息;

所述服务器端获取所述目标号码对应的使用者身份信息包括:

如果所述目标号码的标记者出现在被提示用户的联系人中,则所述服务器端获取该目标号码的各个标记者针对该目标号码上传的使用者身份标记信息;

所述服务器端将获取到的所述目标号码对应的使用者身份信息提示给用户包括:

所述服务器端将出现在联系人中的标记者上传的使用者身份标记信息进行加权;或者,将出现在联系人中的标记者上传的使用者身份标记信息单独提示给用户。

可选的,在所述服务器端获取所述目标号码对应的使用者身份信息之后,还包括:

所述服务器端为所述使用者身份信息设置有效时间;

若所述服务器端获取所述使用者身份信息的时间超过所述有效时间,所述服务器端将所述使用者身份信息作为无效的使用者身份信息。

可选的,还包括:通过以下方式建立或更新所述号码信息数据库:

所述服务器端对网络中的网页进行抓取;

所述服务器端根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,建立所述号码信息数据库。

可选的,所述服务器端对网络中的网页进行抓取包括:

所述服务器端对网络中特定站点下的网页进行抓取;

所述服务器端根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:

所述服务器端针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。

可选的,还包括:

所述服务器端通过机器学习的方式获取所述抽取规则。

可选的,所述服务器端通过机器学习的方式获取所述抽取规则,包括:

所述服务器端从预置站点中提取预置数量的网页作为训练样本;

所述服务器端根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;

如果存在,则所述服务器端根据训练样本网页的HTML代码创建DOM树;

所述服务器端通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;

所述服务器端将所述最小循环单元的父节点确定为用户评论列表节点;

所述服务器端记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则。

可选的,所述服务器端根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,包括:

所述服务器端根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;

所述服务器端根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

可选的,还包括:

所述服务器端使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;

所述服务器端根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,包括:

所述服务器端根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;

所述服务器端根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;

所述服务器端根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

可选的,所述目标号码为未出现在所述通信终端的通讯录中的陌生号码。

第四方面,本发明实施例提供了一种号码的标识装置,所述装置包括获取单元和提示单元:

所述获取单元,用于获取目标号码对应的使用者身份信息,所述目标号码是其他用户在使用通信终端中的出现的,所述目标号码对应的使用者身份信息是所述其他用户根据所述目标号码在通信终端上所提供标记入口的标记界面中使用者身份标记候选项所选择的使用者身份标记信息,其中,所述号码信息数据库用于所述服务器端端查询所述号码对应的使用者身份信息;

所述提示单元,用于将获取到的所述目标号码对应的使用者身份信息提示给所述用户。

可选的,还包括创建更新单元:

所述创建更新单元,用于针对其他用户根据所述目标号码在通信终端上所提供标记入口的标记界面中使用者身份标记候选项所选择的使用者身份标记信息创建或更新号码信息数据库。

可选的,所述提供单元还用于依据提示用户与所述号码的使用者身份标记信息的标记者之间的关系,对所述标记者标记的所述号码的使用者身份标记信息进行处理。

可选的,所述获取单元还用于获取所述目标号码;通过查询预先建立的号码信息数据库,获取所述目标号码对应的使用者身份信息并返回给客户端。

可选的,还包括确定单元:

所述确定单元,用于根据用户上传的号码以及使用者身份标记信息,确定号码对应的使用者身份信息。

可选的,所述确定单元还用于针对同一号码,根据至少两个用户上传的使用者身份标记信息,确定号码对应的使用者身份信息。

可选的,所述确定单元还用于当不同用户针对同一号码上传了不同的使用者身份标记信息时,根据各个使用者身份标记信息的被上传次数,从各个使用者身份标记信息中为号码选择使用者身份信息。

可选的,还包括标记单元:

所述标记单元,用于将执行上传操作的用户记录为号码的标记者,并分别记录各个标记者针对同一号码上传的使用者身份标记信息;

所述获取单元还用于如果所述目标号码的标记者出现在被提示用户的联系人中,则获取该目标号码的各个标记者针对该目标号码上传的使用者身份标记信息;

所述提示单元还用于将出现在联系人中的标记者上传的使用者身份标记信息进行加权;或者,将出现在联系人中的标记者上传的使用者身份标记信息单独提示给用户。

可选的,还包括设置单元:

所述设置单元,用于为所述使用者身份信息设置有效时间;若获取所述使用者身份信息的时间超过所述有效时间,将所述使用者身份信息作为无效的使用者身份信息。

可选的,所述建立更新单元还用于对网络中的网页进行抓取;根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,建立所述号码信息数据库。

可选的,所述建立更新单元还用于对网络中特定站点下的网页进行抓取;根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。

可选的,所述建立更新单元还用于通过机器学习的方式获取所述抽取规则。

可选的,所述建立更新单元还用于从预置站点中提取预置数量的网页作为训练样本;根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;如果存在,则根据训练样本网页的HTML代码创建DOM树;通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;将所述最小循环单元的父节点确定为用户评论列表节点;记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则。

可选的,所述建立更新单元还用于根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

可选的,还包括生成单元:

所述生成单元,用于使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;

所述建立更新单元还用于根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

可选的,所述目标号码为未出现在所述通信终端的通讯录中的陌生号码。

一种号码信息提示方法,包括:

对使用通信终端过程中的应用场景进行监测,获取应用场景中出现的目标号码;

获取所述目标号码对应的使用者身份信息;

将获取到的所述目标号码对应的使用者身份信息提示给用户。

其中,所述获取所述目标号码对应的使用者身份信息包括:

将所述目标号码上传到服务器端;

所述服务器端通过查询预先建立的号码信息数据库,获取所述目标号码对应的使用者身份信息并返回给客户端;

根据所述服务器端返回的信息,获取所述目标号码对应的使用者身份信息。

其中,还包括:通过以下方式建立所述号码信息数据库:

为用户提供标记入口;

根据用户通过所述标记入口上传的对号码的使用者身份标记信息,建立所述号码信息数据库。

其中,所述为用户提供标记入口包括:

对用户使用通信终端过程中的应用场景进行监测;

当监测到用户接听了一号码的来电时,如果该号码为陌生号码或者不常用号码,则在用户界面为用户提供标记入口。

其中,通过以下方式接收用户通过所述标记入口输入的某号码的使用者身份标记信息:

当用户从所述标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

其中,所述为用户提供标记入口包括:

在通信终端的选项菜单中注入标记入口。

其中,通过以下方式接收用户通过所述标记入口输入的某号码的使用者身份标记信息:

当用户选中一号码并选择从所述选项菜单中的标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

其中,还包括:

在所述标记界面中显示使用者身份标记信息候选项,以便用户通过选择所述候选项来输入使用者身份标记信息。

其中,还包括:

对用户对号码的标记情况进行记录;

当用户发起对同一号码的再次标记请求时,提示用户操作无效。

其中,所述服务器端根据用户上传的号码以及使用者身份标记信息,确定号码对应的使用者身份信息包括:

针对同一号码,根据至少两个用户上传的使用者身份标记信息,确定号码对应的使用者身份信息。

其中,所述针对同一号码,根据至少两个用户上传的使用者身份标记信息,确定号码对应的使用者身份信息包括:

当不同用户针对同一号码上传了不同的使用者身份标记信息时,根据各个使用者身份标记信息的被上传次数,从各个使用者身份标记信息中为号码选择使用者身份信息。

其中,还包括:

将执行上传操作的用户记录为号码的标记者,并分别记录各个标记者针对同一号码上传的使用者身份标记信息;

所述获取所述目标号码对应的使用者身份信息包括:

如果所述目标号码的标记者出现在被提示用户的联系人中,则获取该目标号码的各个标记者针对该目标号码上传的使用者身份标记信息;

所述将获取到的所述目标号码对应的使用者身份信息提示给用户包括:

将出现在联系人中的标记者上传的使用者身份标记信息进行加权;或者,将出现在联系人中的标记者上传的使用者身份标记信息单独提示给用户。

其中,还包括:通过以下方式建立所述号码信息数据库:

对网络中的网页进行抓取;

根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,建立所述号码信息数据库。

其中,所述对网络中的网页进行抓取包括:

对网络中特定站点下的网页进行抓取;

所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:

针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。

其中,还包括:

通过机器学习的方式获取所述抽取规则。

其中,所述通过机器学习的方式获取所述抽取规则包括:

从预置站点中提取预置数量的网页作为训练样本;

根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;

如果存在,则根据训练样本网页的HTML代码创建DOM树;

通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;

将所述最小循环单元的父节点确定为用户评论列表节点;

记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则。

其中,所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:

根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;

根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

其中,还包括:

使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;

所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:

根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;

根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;

根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

其中,所述目标号码为未出现在所述通信终端的通讯录中的陌生号码。

一种号码信息提示系统,包括:

监测单元,用于对使用通信终端过程中的应用场景进行监测,获取应用场景中出现的目标号码;

身份信息获取单元,用于获取所述目标号码对应的使用者身份信息;

身份信息提示单元,用于将获取到的所述目标号码对应的使用者身份信息提示给用户。

其中,所述身份信息获取包括:

号码上传子单元,用于将所述目标号码上传到服务器端;

信息查询子单元,用于所述服务器端通过查询预先建立的号码信息数据库,获取所述目标号码对应的使用者身份信息并返回给客户端;

信息获取子单元,用于根据所述服务器端返回的信息,获取所述目标号码对应的使用者身份信息。

其中,还包括:

入口提供单元,用于为用户提供标记入口;

数据库建立单元,用于根据用户通过所述标记入口上传的对号码的使用者身份标记信息,建立所述号码信息数据库。

其中,所述入口提供单元包括:

监测子单元,用于对用户使用通信终端过程中的应用场景进行监测;

第一入口提供子单元,用于当监测到用户接听了一号码的来电时,如果该号码为陌生号码或者不常用号码,则在用户界面为用户提供标记入口。

其中,所述数据库建立单元包括:

第一界面显示子单元,用于当用户从所述标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

其中,所述入口提供单元包括:

第二入口提供子单元,用于在通信终端的选项菜单中注入标记入口。

其中,所述数据库建立单元包括:

第二界面显示子单元,用于当用户选中一号码并选择从所述选项菜单中的标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

其中,还包括:

候选项显示单元,用于在所述标记界面中显示使用者身份标记信息候选项,以便用户通过选择所述候选项来输入使用者身份标记信息。

其中,还包括:

记录单元,用于对用户对号码的标记情况进行记录;

无效提示单元,用于当用户发起对同一号码的再次标记请求时,提示用户操作无效。

其中,所述数据库建立单元包括:

身份信息确定子单元,用于针对同一号码,根据至少两个用户上传的使用者身份标记信息,确定号码对应的使用者身份信息。

其中,所述身份信息确定子单元包括:

选择子单元,用于当不同用户针对同一号码上传了不同的使用者身份标记信息时,根据各个使用者身份标记信息的被上传次数,从各个使用者身份标记信息中为号码选择使用者身份信息。

其中,还包括:

记录单元,用于将执行上传操作的用户记录为号码的标记者,并分别记录各个标记者针对同一号码上传的使用者身份标记信息;

所述身份信息获取单元具体用于:

如果所述目标号码的标记者出现在被提示用户的联系人中,则获取该目标号码的各个标记者针对该目标号码上传的使用者身份标记信息;

所述身份信息提示单元具体用于:

将出现在联系人中的标记者上传的使用者身份标记信息进行加权;或者,将出现在联系人中的标记者上传的使用者身份标记信息单独提示给用户。

其中,还包括:

网页抓取单元,用于对网络中的网页进行抓取;

信息抽取单元,用于根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,建立所述号码信息数据库。

其中,所述网页抓取单元包括:

特定站点网页抓取子单元,用于对网络中特定站点下的网页进行抓取;

所述信息抽取单元包括:

特定站点网页信息抽取子单元,用于针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。

其中,还包括:

机器学习单元,用于通过机器学习的方式获取所述抽取规则。

其中,所述机器学习单元包括:

训练样本获取子单元,用于从预置站点中提取预置数量的网页作为训练样本;

判断子单元,用于根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;

DOM树创建子单元,用于如果存在,则根据训练样本网页的HTML代码创建DOM树;

计算子单元,用于通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;

节点确定子单元,用于将所述最小循环单元的父节点确定为用户评论列表节点;

路径记录子单元,用于记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则。

其中,所述信息抽取单元包括:

第一用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;

第一信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

其中,还包括:

URL抽取规则生成单元,用于使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;

所述信息抽取单元包括:

URL匹配子单元,用于根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;

第二用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;

第二信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

其中,所述目标号码为未出现在所述通信终端的通讯录中的陌生号码。

由上述技术方案可以看出,当确定用户接听了一号码的来电时,可以在通信终端上为用户提供标记入口,通过标记入口的标记界面为用户展示常见陌生电话类型的使用者身份标记候选项,用户在标记界面中选择符合接听该号码的通话内容的候选项作为使用者身份信息即可完成对该号码的标识,从而不用进行如传统方式中登录网页那种复杂的操作,也不用自己总结需要提交的语句内容,便利的操作提高了用户标识这种可能危害或骚扰他人号码的积极性,使得用户提示其他用户这类号码可能是具有危害性的可能性更高。而针对该号码的使用者身份信息可以发送到服务器,以便服务器创建或更新用于查询号码对应使用者身份信息的号码信息数据库;当有某位用户看到该号码的来电时,通过该服务器的号码信息数据库,可以为这位用户提供针对该号码的使用者身份标记信息以提示这位用户,从而降低了该号码危害其他用户的概率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的方法的流程图;

图2是本发明实施例提供的方法中一抽取结果示意图;

图3是本发明实施例提供的方法中抽取结果对应的页面区域示意图;

图4是本发明实施例提供的方法中第一用户界面示意图;

图5是本发明实施例提供的方法中第二用户界面示意图;

图6是本发明实施例提供的方法中第三用户界面示意图;

图7是本发明实施例提供的方法中第四用户界面示意图;

图8是本发明实施例提供的方法中第五用户界面示意图;

图9是本发明实施例提供的方法中第六用户界面示意图;

图10是本发明实施例提供的系统的示意图。

具体实施方式

下面结合附图,对本申请的实施例进行描述。

参见图1,本发明实施例提供的号码信息提示方法包括以下步骤:

S101:对使用通信终端过程中的应用场景进行监测,获取应用场景中出现的目标号码;

其中,本发明实施例所述的目标号码可以是陌生号码(也就是说用户的通讯录中不存在的号码),或者也可以是通讯录中没有详细记载使用者身份信息的号码,例如,用户可能仅在通讯录中记录了“张先生”等非特定性的身份信息,则用户也可能会无法及时分辨出当前应用场景中的号码对应的使用者身份,因此,也可以作为目标号码获取到,并通过后续的步骤为用户提供号码的使用者身份信息。当然,在实际应用中,也可以将应用场景中涉及到的全部的号码都作为目标号码来看待。但为了便于描述,下文中均以对陌生号码进行提示为例进行介绍,当然,这种示例行的介绍并不应作为对本发明的限制。

具体实现时,通信终端设备中的操作系统一般会为应用程序开放一些接口,供应用程序从系统中获取所需的信息。因此,在本发明实施例中,为了能够对通信终端的应用场景(包括接到来电、拨打电话、添加号码到通讯录、收发短信等等)进行监测,本发明实施例在通过应用程序的方式实现各个步骤时,就可以利用通信终端系统的这一特点,在操作系统中对应用程序进行注册,这样,当操作系统广播通知消息时,应用程序就能够收听到这种通知消息,并从中获取所需的信息。例如,当接收来电时,通信终端的操作系统就会广播该来电消息,并携带来电号码,这样,应用程序就能够监测到该事件,并从中获取到来电的号码;或者,当用户拨打电话时,在用户按下“呼叫”按钮之后,系统就会向应用程序广播拨打电话这一消息,并携带具体的呼叫号码,这样,应用程序同样能够监测到拨打电话这一事件,并获取到被叫的号码;同样,在向通讯录中添加联系人号码时,应用程序同样可以通过收听系统的广播消息,或者这一事件,并获取到用户将要添加的号码,等等。

应用程序在获取到具体应用场景中的号码之后,就可以通过系统的接口,获取到用户保存在通信终端的通讯录,然后与通讯录中的信息进行比对,如果发现号码没有出现在通讯录中,就可以将其作为一个陌生号码来对待。

需要说明的是,一些通信终端的操作系统可能并不会直接将其接口向应用程序公开,此时,可以通过一些手段获知到这样的接口,进而获取到具体应用场景中的陌生号码。但具体的手段并不属于本发明实施例的重点内容,因此,这里不再详述。

另外,对于拨打电话这种应用场景而言,用户一般可以通过多种方式来发起呼叫,例如,可能直接在通话记录列表(例如已接电话列表、未接电话列表、已拨电话列表等等)中选中目标号码,然后点击呼叫按钮,也有可能是通过按下通信终端的数字键输入被叫号码,然后点击呼叫按钮;在通过监听系统的广播消息来监测的情况下,一般都是在用户按下呼叫按钮之后,系统才会发出广播消息,进而应用程序也是在用户按下呼叫按钮之后才能获取到该号码,并进行后续的判断以及信息提示等操作。但在实际应用中,一旦用户已经按下呼叫按钮发起了呼叫,就已经开始占用本地及通信系统的资源,并且一旦接通,也许用户的经济等方面已经遭受损失。因此,对于用户先输入号码再发起呼叫的情况,如果能在用户按下呼叫按钮发起呼叫之前就能给用户一些提示信息,则可能会更有意义。因此,具体实现时,在系统提供了接口的情况下,也可以通过类似“钩子函数”功能的函数,在用户输入号码的过程中,抓取到用户输入的具体字符,也即,用户每输入一个字符,都可以抓取到用户输入的具体是什么,这样,当通过一些规则判断出用户已经输入完一个完整的电话号码之后,就发起查询,并将查询结果提示给用户(关于查询以及提示的相关步骤,后文中会有详细地介绍),以期在用户真正发起呼叫之前就对被叫号码的使用者身份信息有所了解,从而进一步降低遭受损失的概率。

其中,这里用到的具体的判断规则,可以根据通信协议中对号码的编码情况而定。例如,一般一个完整的电话号码的位数可能是固定的,如,手机号码一般是11位,固定电话号码一般是7位或8位,如果加上服务区号,则固定电话也一般为11位,因此,在抓取到用户输入的第一个字符的同时,还可以启动一个计数器,并将其初始值设为1,每抓取到一个新的字符,就将计数器加一,这样,当计数器的数字达到一定长度时,就可以认为已经获得了一个完整的号码,然后发起查询即可。当然,如前文所述,一个完整的号码的总长度可能并不是唯一的,因此,在抓取到第一个字符时,还可以根据第一个字符来判断下,此次输入的号码总长度应该是多少。例如,对于手机号码而言,一般都是以数据“1”开头的,固定电话的区号一般是以数字“0”开头的,因此,如果抓取到的第一个数字是“1”或“0”,则可以基本确定总长度应该是11位。如果是抓取到的第一个数字既不是“1”也不是“0”,则证明用户可能要输入一个不带区号的固定电话号码,则其长度可能为7位,也可能为8位,此时,可以在抓取到7位数字时就查询一次,如果之后又抓取到一位,则再将完整的8位数字的号码再发起一次查询即可。此外,在实际应用中,一些运营商可能提供一些“IP电话业务”等,使用这种业务可以节省资费,但需要用户在拨号时加拨特殊的IP业务号码(例如17951等)。当然这种IP业务号码也有固定的编码规则,例如,一般都是五位固定的数字,后面跟电话号码,因此,针对这种情况,可以预先收集可能的IP业务号码,当抓取到用户输入的号码时,可以首先将抓取到的前五位取出,如果发现属于其中某一IP业务号码,再从第六位开始重新计数,并将第六位之后抓取到的字符确定为被叫号码,并将完整的号码发起查询即可。

S102:获取所述目标号码对应的使用者身份信息;

首先需要说明的是,在本发明实施例中,号码对应的使用者身份信息是指,号码的拥有者具有怎样的身份,例如,是否为骗子、房产中介、保险推销、快递等等,总之通过这样的使用者身份信息,用户可以分辨出是否要接听一个陌生来电,或者拨打一个陌生电话时是否安全。

在本发明实施例中,为了能够在发现应用场景中的陌生号码之后获取到陌生号码对应的使用者身份信息,可以在已联网的情况下,直接在客户端本地通过搜索等手段获取陌生号码的使用者身份信息。当然,为了提高效率,可以在服务器端创建并维护一个数据库,该数据库中收集了通过各种途径获取到的电话号码及其对应的使用者身份信息;这样,当在通信终端发现一个陌生号码之后,就可以向服务器发起查询,服务器通过查询自己维护的数据库,获取到陌生号码对应的使用者身份信息,然后返回给通信终端。其中,通信终端可以在已经联网(GPRS(General Packet Radio Service,通用分组无线服务)/3G(3rd-generation,第三代移动通信技术)/WiFi(Wireless Fidelity,无线保真)等)的情况下,将发现的陌生号码使用http get或者post请求将陌生号码上传到服务器,陌生号码可以作为字符串封装在http url中,也可以作为二进制数据封装在http body里。相应的,服务器的返回内容中,可以使用JSON(JavaScript Object Notation,是一种轻量级的数据交换格式)格式封装号码信息,也可以使用XML(Extensible Markup Language,可扩展标记语言)格式或其它结构化数据协议封装号码信息。另外,客户端与服务器端的通信也可以使用TCP(Transmission Control Protocol,传输控制协议)、UDP(User Datagram Protocol,用户数据包协议)或其他自定义协议实现。当然,为了不依赖于互联网(GPRS/3G/Wifi),客户端与服务器端的通讯也可以利用移动通信信道实现,类似于发送/接收短消息的技术,其优点在于不依赖于手机端互联网是否连通,只要手机信号畅通即可。

服务器端在创建并维护数据库时,可以通过多种数据源中获取所需的信息。例如,在一种方式下,由于互联网中包含各种各样的网页,其中包含的信息也是异常丰富,甚至还有些网页是专门用于收集诈骗电话等信息供用户查询的,因此,可以利用搜索引擎技术抓取网页中的目标号码(也即本发明实施例中涉及的诈骗电话、中介电话、保险销售电话等等)及对应的使用者身份信息,然后进行保存。具体实现时,针对各类身份,可以分别设定一些搜索的范围,然后在具体的搜索范围内,根据目标电话在网页中的特征,从网页中抽取出目标电话及对应的使用者身份信息。

例如,对于诈骗电话,搜索的范围可以覆盖一些主要用于收录诈骗电话信息的站点,这些站点中收录了很多带有网友评论的号码信息,比如指定某个电话为响一声就挂、吸费电话、诈骗电话等等。因此,可以根据信息抽取规则,从这些站点中抽取出目标号码及其对应的使用者身份信息。又如,对应房产中介电话,搜索的范围可以覆盖一些提供房屋买卖、租赁等服务信息的站点,在这些站点中,信息发布者一般会提供自己的联系电话,并且站点会对中介及个人进行分类,在一些中介冒充个人发布信息的情况下,站点允许用户对其发现的房产中介电话进行标记,等等。因此,同样可以根据中介电话在网页中具有的规则,从网页中抽取出目标电话及对应的使用者身份信息。

其中,对于使用的抽取规则,可以是预先由人为等方式设置,但在本发明实施例中,还可以使用机器学习的方法来生成抽取规则。具体实现时,对于各类目标电话,在选定搜索范围之后,可以首先分别针对各个选中的站点,选出一些网页,由机器学习模块对这些网页进行分析,然后从中总结出抽取规则。也即,针对某一类目标电话,在选中了几个站点之后,分别针对每个站点会学习出抽取规则,然后分别用各自的抽取规则到站点内的网页中抽取出号码及其对应的使用者身份信息。

例如,对于诈骗类的号码,搜索范围内的站点包括搜电话(http://www.soudianhua.com/)、哪个打的(http://www.nagedade.com/)、防骗数据库(http://www.fpsjk.com)、查号吧(http://www.chahaoba.com)、手机号码归属地查询(http://www.096.me/)、无地遁形(http://www.unxing.com/)、我要搜号(http://www.51sh.cc/)等等。由于这些网站的页面中一般会包含用户到手机号的评论信息,从评论信息中就能抽取出号码对应的使用者身份信息。因此,抽取规则可以根据评论信息来设置。在机器学习抽取规则时,相当于是需要通过程序去发现作为训练样本的网页中是否存在用户评论,获取到用户评论的抽取规则。

具体实现时,可以基于DOM树来学习抽取规则。其中,DOM是专门适用于HTML/XHTML的文档对象模型,可以将DOM理解为网页的API。它把所有的数据以父子的节点层次结构装入内存构成一棵树,这些节点的类型可以是元素、文本、属性、注释或其它。它允许开发者读取、创建、删除和编辑HTML数据。因此,通过分析DOM树中的各个节点,就可以从中获取到想要的信息。对于本发明实施例中想要获取的对号码的用户评论而言,用户评论列表本身对应着DOM树中的一个节点,并且同一个站点下的各个网页的结构会比较相似,甚至可能是采用一种或者几种结构,也就是说,从根节点到用户评论列表节点的路径可能是相同的,或者可能分为几种情况,因此,在机器学习的过程中,就可以从作为训练样本的网页中找出从根节点到用户评论列表节点的路径,以此作为提取规则。

在机器学习的过程中,如何从作为训练样本的网页中发现用户评论列表节点是比较关键的问题,下面对此进行介绍。由于同一页面中一般都是针对同一号码的用户评论,并且评论列表中一般可能会有多条,各条评论信息在页面的DOM树中,是同一父节点(该父节点即为评论列表节点)下的各个子节点,并且各个子节点之间的相似度比较高(例如索引、标签名、属性名等都会比较相似)。因此,就可以基于这一特点,来查找到评论列表节点。具体实现时,就可以首先针对一个站点中的指定网页,根据号码的特征(如前文所述的移动电话11位、区号+号码、网络电话号码等等),判断页面中是否包含电话号码;如果包含,则根据该页面的HTML代码创建该页面的DOM树,并通过基于编辑距离的方式计算各个节点之间的相似度,找到其中包含的最小重复单元,每一个最小重复单元就相当于对应着一条用户评论,然后就可以将这些最小重复单元对应的共同父节点确定为用户评论节点,记录下从根节点到该用户评论节点的路径,就可以将该路径作为这一类网页的一种规则模板,也即路径抽取规则。当然,如前文所述,同一站点下的各个网页可能会具有几种(一般不会太多)不同的结构,在每种结构下对应的从根节点到用户评论列表节点的路径也不尽相同,因此,针对不同的页面结构,可以分别学习出不同的路径抽取规则,分别进行存储即可。

在通过机器学习的方式获取到上述路径抽取规则之后,就可以在同一站点下的其他网页中,利用上述路径抽取规则抽取出网页中包含的目标号码以及使用者身份信息。具体实现时,可以针对同一站点下的各个网页,分别使用路径抽取规则抽取出用户评论列表节点下的具体信息内容。例如,使用路径抽取规则抽取到的用户评论信息如图2所示,对应的页面中的区域如图3所示。进而,根据抽取出的用户评论信息,可以判断其中是否存在预置的检测特征词(例如诈骗、骚扰等等),如果包含,就可以提取出来,进而就可以根据提取出的特征词,来确定目标号码对应的使用者身份信息。当然,如前文所述,同一站点下可能包括多种路径抽取规则,此时,可以使用各种路径抽取规则进行轮询,直到成功抽取出所需信息为止。

另外,在其他实施例中,在提取从根节点到用户评论列表节点的路径作为抽取规则的同时,还可以对符合上述特征的网页的URL提取出来,并根据各个URL中存在的共性部分,使用正则表达式对URL进行归一化,得到URL的提取规则。例如,针对形如以下所示的URL:http://www.51sh.cc/index.php?type=code&sky=18647777777&v=vh,归一化之后可以得到:http://www.51sh.cc/index.php\?type=code&sky=\d+&v=vh$。需要说明的是,在进行上述归一化时,需要将相同网页结构的网页的URL进行归一化,也就是说,在提取从根节点到用户评论列表节点的路径时,在同一站点下,有可能提取出多种,此时,同一种下的网页URL可以进行归一化,得到URL抽取规则,并且可以与提取到的路径抽取规则相对应。

在通过机器学习得到上述路径抽取规则以及URL抽取规则之后,就可以使用搜索引擎技术抓取到同一站点下的其他网页,然后,使用这种规则到这些网页中进行匹配抽取。具体的,首先可以利用URL抽取规则抽取到匹配的网页,然后再利用对应的路径抽取规则,从网页中抽取出其中包含的号码,以及用户评论列表下的各条评论信息。然后,通过对抽取到的用户评论信息中包含的关键词,即可获取到号码对应的可能的使用者身份信息。例如,针对某号码131****2751,从网页中抽取出的用户评论信息中包括“骚扰”、“只响一声”、“胡乱骂人”等特征词,则可以根据这些信息最终将该号码对应的使用者身份信息确定为“骚扰”,等等。这种使用路径抽取规则以及URL抽取规则进行抽取的方式,相当于首先利用URL抽取规则对站点下的网页进行过滤,然后再使用路径抽取规则从剩余的网页中抽取需要的信息,因此,可以降低计算量,提高效率。

针对其他目标站点,也可以分别进行上述处理,最终就可以从众多的网页中抽取出大量的号码及其对应的使用者身份信息,保存这些信息即可创建起号码信息数据库,以供查询使用。

当然,除了上述网页中包含有用户对电话号码的评论信息的站点之外,还有一些站点的网页中可能会包含针对某号码非常明显的使用者身份信息。例如,在房产买卖或租赁的网站中,可能会规定用户在发布消息时,提供自己的身份信息,或者需要用户在自己所属的身份类别中进行发布,等等。也就是说,在一个页面中显示发布者的电话号码时,会同时显示出发布者的身份信息。例如,某用户发布出租房屋的消息时,如果是中介公司的职员,则在其信息发布页面中显示该用户的电话号码的同时,会有明显的“中介”字样,甚至还可能提供所属的中介公司,等等。针对这种情况,就可以直接在网页中提取其中包含的电话号码及其对应的使用者身份信息。具体实现时,同样可以预先设置搜索的覆盖范围,例如在抽取中介电话时,可以使得搜索范围覆盖一些常用的提供房租买卖、租赁服务的站点,例如,搜房网soufun.com、搜狐焦点51f.com、安居客anjuke.com等等。然后使用搜索引擎技术抓取这些站点下的所有网页,然后根据电话号码的特征从网页中提取出电话号码,同时提取出网页中包含的特征词。最终,就可以根据提取出的特征词,来确定目标号码对应的使用者身份信息。

除了上述通过搜索引擎技术在网页中抽取目标电话及其对应的使用者身份信息之外,本发明实施例还提供了另一种建立数据库的方法:通过用户标记来获取电话对应的使用者身份信息并建立数据库。也即,可以在通信终端中为用户提供操作入口,当用户接听了一个陌生电话之后发现对应的使用者身份信息之后,可以对电话进行标记并上传到服务器,这样,通过大量用户的反馈,服务器端就可以创建并不断更新数据库。具体实现时,可以在通信终端上对用户接听来电的事件进行监测,监测到用户接听了某陌生来电(具体的监测、获取号码以及判断是否为陌生号码的方法可以与前文所述相同)时,可以为用户提供标记入口,例如,如图4所示,用户可以通过“标记此号码”这一入口进入标记的界面,可以在标记界面中显示一输入框,用户可以在输入框中输入自己判断出来的使用者身份信息;或者,为了便于用户标记,还可以在标记界面中将常见的陌生电话类型显示给用户供用户选择,例如,如图5所示,可以将“保险推销”、“房产中介”、“猎头”、“快递”显示给用户,如果用户判断出某电话对应的使用者身份信息是其中的某一个,则直接点击对应的按钮,即可完成标记的操作。如果用户判断出的使用者身份信息不是上述中的任一个,则还可以点击“更多”按钮,此时,还可以显示出更多的可选使用者身份信息,同时用户也可以选择手工输入使用者身份信息,如图6所示。在用户点击选择了某使用者身份信息或输入了某使用者身份信息之后,还可以通过另一个入口,将标记的信息发送到服务器,当然,在点击选择候选使用者身份信息的情况下,也可以直接通过用户的点击操作来触发向服务器端的发送操作。需要说明的是,除了上述通过显示标记界面的方式来接收用户的输入之外,还可以通过其他方式,例如,还可以在用户通过标记入口进入之后,打开通信终端上的音频接收器,这样,用户可以通过语音的方式来输入陌生号码使用者身份信息。或者,还可以直接以语音的方式为用户提供标记入口,也即以语音的方式提示用户是否需要进行标记,同时打开通信终端上的音频接收器,如果用户需要标记,则可以直接以口述的方式输入使用者身份标记信息。之后,就可以将接收到的音频信号转换为文本,并上传到服务器,当然,还可以直接将接收到的音频信号上传到服务器,在服务器端将音频转换为文本。

当然,在实际应用中,如果用户接听的是一个位于通讯录中、但是并不常用的电话,也可以在接听完之后,提示用户进行标记,或者也可以结合通讯录中的信息确定是否需要用户进行标记。例如,如果某号码在通讯录中的用户名信息是“中介***”,则可以提示用户进行标记,等等。其中,为了判断通讯录中的号码是否为用户常用,可以对各个号码的使用次数进行统计,根据统计结果获知各个号码是否常用。另外,也可以不是在用户接听完一个陌生电话或者非常用电话之后就马上提示用户进行标记,而是可以通过提供菜单选项的方式,使得用户能够在需要的任意时刻选择对某号码进行标记并上传到服务器。例如,用户在翻看过去的通话记录或者通讯录时,发现需要对某号码进行标记,则可以在选项菜单中选择入口进入标记界面,等等。

需要说明的是,在这种实施方式下,不同的用户针对同一电话可能会有不同的身份标记信息,尤其是在用户手动输入使用者身份信息的情况下。因此,为了保证数据库中的数据质量,可以通过一些手段进行优化:

第一,只有接听了陌生来电才能上传使用者身份信息。要满足此条件,首先必须是陌生来电主动呼叫用户,用户自己呼出的陌生电话号码不可作标记,以防止恶意的标记行为;其次,用户必须接通陌生来电,产生通话信息之后才能上传,即只有在用户和对方通话之后才有可能获取有效的使用者身份信息。

第二,同一用户对同一号码只能标记一次,防止用户重复标记某一个陌生号码,影响数据的准确性。当某个用户标记了一个号码后,可以在通信终端对已标记的号码进行存储,该用户下次再尝试此行为时,会收到“重复标记”的提示信息,并将此次操作视为无效。

第三,只有达到一定标记数量的情况下,才视为有效信息,例如,针对146XXXX0987这一号码,需要有至少N(N≥2)个以上的用户将其标记为“中介”,才将此作为该号码对应的使用者身份信息,并保存在数据库中。

第四,当服务器收集到多条针对某一号码的标记信息后,可以通过筛选策略选择最佳的使用者身份信息匹配此号码。具体的筛选策略可以有多种,例如,可以将多个用户的标记信息汇总,根据各种标记结果分别在总的标记次数中所占的比例,来确定该号码最终的使用者身份信息。例如,有四个用户将某号码标记为“中介”,两个用户将该号码标记为“快递”,则最终可以判定此号码的使用者身份信息为“中介”。或者,还可以通过标记者与被提示用户之间的关系(“标记者”是指之前上传了使用者身份标记信息的人,“当前用户”是当前正在接收到某陌生来电,或者正在拨打陌生电话的人,等待被提示的人,“标记者”与“被提示用户”可能是同一个人,也可能不同),生成动态的筛选策略。例如,可以增加联系人标记的权重,例如,陌生号码146XXXX0876之前被用户甲通讯录中的某个联系人乙标记为“中介”(此时,该联系人乙是该号码的一个标记者),则此信息会自动分享,当用户甲收到该号码的来电时,或者正在拨打该号码时,发现该号码的标记者乙出现在该用户甲的联系人中,则可以将该标记者乙当时上传的使用者身份标记信息的权重增加,之后再重新综合各个标记者针对该号码上传的使用者身份标记信息,确定出该号码的使用者身份信息之后,再提示给用户甲。或者直接将其联系人乙的标记情况显示给用户,如图7所示,也即,综合该号码的各个标记者的标记情况,该号码的使用者身份信息为“保险推销”,但是有一个联系人乙把该号码标记为“房产中介”。

第五,如果某号码的使用者身份改变,则当此号码的新身份获得足够多的标记数量时,系统可以自动更新此号码对应的使用者身份信息。具体实现时,为了实现这种自动更新,用户上传的标记信息可以具有“有效时间”的属性,比如针对某一号码的“中介”标记只能保持一个月,过期后的标记将在规则审核时视为无效,以此来规避号码对应的用户身份转变问题。比如某个被标记为“中介”的号码持有人,转行做了“快递”,则原有的针对他中介身份的标记会逐渐失效,以确保他的新身份能够更新。当然,在实际应用中,如果某号码对应的使用者身份信息发生变化,则在需要向用户提示该号码对应的使用者身份信息时,除了更新后的使用者身份信息之外,还可以将该号码过去对应的使用者身份信息一并提示给用户

第六,标记异常处理,如果某用户在短时间内频繁标记陌生号码,超出正常用户接收陌生来电的数据量,则服务器可以对它所上传的标记信息进行严格的审核。另一方面,如果某一个号码,在短时间内被大量用户频繁标记,超出了正常号码被标记的数据量,则服务器也可以严格审核针对此号码的标记信息。

除了上述两种实施方式外,服务器还可以通过其他的方式来收集信息,创建并维护数据库,这里不再一一介绍。

S103:将获取到的所述目标号码对应的使用者身份信息提示给用户。

在获取到号码的使用者身份信息之后,就可以将身份信息显示在用户界面中。也即,当用户的通信终端中有新的来电时,就可以在显示来电号码的同时,将来电号码对应的使用者身份信息显示给用户,用户在接听之前,就可以对来电者的身份有所了解。或者,在用户想要拨打某陌生电话时,在按下呼叫按钮之前或之后,也可以将被叫号码的使用者身份信息提示给用户,使得用户对被叫号码的使用者身份有所了解。

其中,具体在显示陌生号码的使用者身份信息时,可以通过在显示来电号码或呼叫号码的界面之上增加一个悬浮的对话框的方式来实现,或者,也可以hook系统界面之后,直接在界面中添加陌生号码的使用者身份信息,等等。

例如,可以在手机来电界面展现给用户相关号码的使用者身份信息。具体的,当客户端监测到用户接到一个陌生号码的来电时,则利用系统相关API获取该陌生号码,并利用Wifi网络等,将该号码以字符串等形式封装在url中,使用http get请求提交到服务器端进行查询,服务器端查询服务模块收到该请求后,在号码信息数据库中查询该号码的身份信息,并返回给客户端,客户端调用显示模块在系统来电界面显示信息,就能够有效的提示用户决定是否接听该来电。如图8所示,当用户接收到“146****0876”的来电时,就可以将使用者身份信息“北京市人才市场”显示在用户界面中。

又如,可以在手机拨号界面根据用户所拨号码展现相关的使用者身份信息。具体的,当客户端监测到用户在手机拨号界面输入号码时,与前文类似,向服务器进行查询并获取用户所输号码的使用者身份信息,然后显示给用户。如图9所示:当用户呼叫“010-62793650”时,可以将该号码的使用者身份信息“招商银行北京分行清华园支行”显示在用户界面中。

当然,在实际应用中,在向用户提示陌生号码对应的使用者身份信息时,并不限于上述在用户界面上展现这一种方式,例如,还可以采用语音播报等其他方式,这里不再一一详述。

与本发明实施例提供的号码信息提示方法相对应,本发明实施例还提供了一种号码信息提供系统,参见图10,该系统可以包括:

监测单元1001,用于对使用通信终端过程中的应用场景进行监测,获取应用场景中出现的目标号码;

身份信息获取单元1002,用于获取所述目标号码对应的使用者身份信息;

身份信息提示单元1003,用于将获取到的所述目标号码对应的使用者身份信息提示给用户。

其中,身份信息获取1002可以包括:

号码上传子单元,用于将所述目标号码上传到服务器端;

信息查询子单元,用于所述服务器端通过查询预先建立的号码信息数据库,获取所述目标号码对应的使用者身份信息并返回给客户端;

信息获取子单元,用于根据所述服务器端返回的信息,获取所述目标号码对应的使用者身份信息。

具体实现时,还包括:

入口提供子单元,用于为用户提供标记入口;

数据库建立子单元,用于根据用户通过所述标记入口上传的对号码的使用者身份标记信息,建立所述号码信息数据库。

其中,入口提供单元可以包括:

监测子单元,用于对用户使用通信终端过程中的应用场景进行监测;

第一入口提供子单元,用于当监测到用户接听了一号码的来电时,如果该号码为陌生号码或者不常用号码,则在用户界面为用户提供标记入口。

其中,所述数据库建立单元可以包括:

第一界面显示子单元,用于当用户从所述标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

或者,入口提供单元也可以包括:

第二入口提供子单元,用于在通信终端的选项菜单中注入标记入口。

此时,所述数据库建立单元可以包括:

第二界面显示子单元,用于当用户选中一号码并选择从所述选项菜单中的标记入口进入时,显示标记界面,以便用户在所述标记界面中输入使用者身份标记信息。

为了便于用户进行标记,该系统还可以包括:

候选项显示单元,用于在所述标记界面中显示使用者身份标记信息候选项,以便用户通过选择所述候选项来输入使用者身份标记信息。

具体实现时,还可以包括:

记录单元,用于对用户对号码的标记情况进行记录;

无效提示单元,用于当用户发起对同一号码的再次标记请求时,提示用户操作无效。

其中,所述数据库建立单元包括:

身份信息确定子单元,用于针对同一号码,根据至少两个用户上传的使用者身份标记信息,确定号码对应的使用者身份信息。

其中,所述身份信息确定子单元包括:

选择子单元,用于当不同用户针对同一号码上传了不同的使用者身份标记信息时,根据各个使用者身份标记信息的被上传次数,从各个使用者身份标记信息中为号码选择使用者身份信息。

可选的,还可以包括:

记录单元,用于将执行上传操作的用户记录为号码的标记者,并分别记录各个标记者针对同一号码上传的使用者身份标记信息;

身份信息获取单元1002具体用于:

如果所述目标号码的标记者出现在被提示用户的联系人中,则获取该目标号码的各个标记者针对该目标号码上传的使用者身份标记信息;

身份信息提示单元1003具体用于:

将出现在联系人中的标记者上传的使用者身份标记信息进行加权;或者,将出现在联系人中的标记者上传的使用者身份标记信息单独提示给用户。

在另一种实施方式先,该系统还可以包括:

网页抓取单元,用于对网络中的网页进行抓取;

信息抽取单元,用于根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息。

其中,所述网页抓取单元包括:

特定站点网页抓取子单元,用于对网络中特定站点下的网页进行抓取;

所述信息抽取单元包括:

特定站点网页信息抽取子单元,用于针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。

可选的,该系统还可以包括:

机器学习单元,用于通过机器学习的方式获取所述抽取规则。

其中,所述机器学习单元包括:

训练样本获取子单元,用于从预置站点中提取预置数量的网页作为训练样本;

判断子单元,用于根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;

DOM树创建子单元,用于如果存在,则根据训练样本网页的HTML代码创建DOM树;

计算子单元,用于通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;

节点确定子单元,用于将所述最小循环单元的父节点确定为用户评论列表节点;

路径记录子单元,用于记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则。

所述信息抽取单元可以包括:

第一用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;

第一信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

或者,为了提高效率,该系统还可以包括:

URL抽取规则生成单元,用于使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;

所述信息抽取单元包括:

URL匹配子单元,用于根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;

第二用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;

第二信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。

其中,所述目标号码为未出现在所述通信终端的通讯录中的陌生号码。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上对本发明所提供的号码信息提示方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1