通过黄页信息提取电话号码的方法及云端服务器的制造方法

文档序号:6623131阅读:230来源:国知局
通过黄页信息提取电话号码的方法及云端服务器的制造方法
【专利摘要】本发明提供一种通过黄页信息提取电话号码的方法及云端服务器,所述方法包括:根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。该方法解决了用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息,进而判断该号码的安全性,并做出恰当的处理。
【专利说明】通过黄页信息提取电话号码的方法及云端服务器

【技术领域】
[0001]本发明涉及通信技术,尤其涉及一种通过黄页信息提取电话号码的方法及云端服务器。

【背景技术】
[0002]随着通信技术的发展,被叫用户并不能够直接根据号码直接判断来电者的身份和其他资料,如此导致无法分出骚扰电话或者具有正当用意的电话,进而无法对陌生号码做出恰当的判断。
[0003]现有技术中,在进行来电显示或去电显示时,一般是根据本地通讯录中保存的联系人信息来获取的,或者是一些企业电话的拥有者为自己的电话号码设置的相关联的信息,并进行展现给用户。但是有些来电或者去电对应的电话号码可能是某快餐店的客户电话、某快递公司的客服电话或者一些企业的电话等。对于这些电话而言,用户不会将其作为联系人将相关信息保存在通讯录中,且这些电话的拥有者一般也不会自己的电话号码设置相关联的信息。
[0004]鉴于此,如何使用户在拨打陌生号码或者接听陌生号码的过程中获知该号码的黄页信息成为当前需要解决的技术问题。


【发明内容】

[0005]本发明提供了一种通过黄页信息提取电话号码的方法及云端服务器,使得用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息。
[0006]第一方面,本发明提供一种通过黄页信息提取电话号码的方法,包括:
[0007]根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;
[0008]接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;
[0009]根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;
[0010]其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。
[0011]可选的,所述黄页信息包括:电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址;
[0012]所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
[0013]所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
[0014]所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页。
[0015]可选的,根据预设的训练号码,建立获取黄页信息的至少一个模型/规则,包括:
[0016]针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
[0017]搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
[0018]将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
[0019]如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
[0020]根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
[0021]可选的,所述搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括:
[0022]采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
[0023]根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
[0024]对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
[0025]可选的,所述根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容,包括:
[0026]在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
[0027]或者,
[0028]采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
[0029]或者,
[0030]采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。
[0031]可选的,所述对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括:
[0032]对每一个训练号码,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息。
[0033]可选的,所述方法还包括:
[0034]定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
[0035]相应地,根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
[0036]第二方面,本发明还提供一种显示电话号码黄页信息的方法,包括:
[0037]对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码;
[0038]如果目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则从云端服务器获取所述目标电话号码的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息;
[0039]在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
[0040]可选的,所述目标电话号码的黄页信息包括:
[0041]目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。
[0042]第三方面,本发明还提供一种云端服务器,包括:
[0043]模型建立模块,用于根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;
[0044]黄页信息获取模块,用于接收多个客户端发送的电话号码,采用所述模型建立模块建立的至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;
[0045]数据库生成模块,用于根据所述电话号码,与所述黄页信息获取模块获取的该电话号码的黄页信息,生成黄页数据库;
[0046]其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。
[0047]可选的,所述黄页信息包括:
[0048]电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址;
[0049]所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
[0050]所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
[0051]所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页。
[0052]可选的,所述模型建立模块,具体用于
[0053]针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
[0054]搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
[0055]将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
[0056]如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
[0057]根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
[0058]可选的,所述模型建立模块,具体用于
[0059]采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
[0060]根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
[0061]对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
[0062]可选的,所述模型建立模块,具体用于:
[0063]在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
[0064]或者,
[0065]采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
[0066]或者,
[0067]采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。
[0068]可选的,所述模型建立模块,具体用于
[0069]针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
[0070]对每一个训练号码,搜索出现所述训练号码的网页,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息;
[0071]将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
[0072]如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
[0073]根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
[0074]可选的,所述云端服务器还包括:数据更新模块;
[0075]所述数据更新模块,用于定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
[0076]相应地,所述模型建立模块还用于根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
[0077]第四方面,本发明还提供一种显示电话号码黄页信息的装置,包括:
[0078]目标电话获取模块,用于对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码;
[0079]判断模块,用于判断目标电话号码是否为所述终端的通讯录数据库中的号码;
[0080]发送模块,用于在所述判断模块确定所述目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则向云端服务器发送所述目标电话号码,以使所述云端服务器获取与所述目标电话号码对应的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息;
[0081]接收模块,用于接收所述云端服务器发送的所述目标电话号码的黄页信息;
[0082]黄页信息显示模块,用于在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
[0083]可选的,所述目标电话信息的黄页信息包括:
[0084]目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。
[0085]由上述技术方案可知,本发明提出了一种通过黄页信息提取电话号码的方法及云端服务器。通过根据预设的训练号码,建立获取黄页信息的模型/规则,当接听/拨打陌生电话时,通过模型/规则从陌生电话的相关网页中提取陌生电话号码的黄页信息,并将信息显示在用户的通信终端上,该方法解决了用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息,进而判断该号码的安全性,并做出恰当的处理。

【专利附图】

【附图说明】
[0086]图1A为本发明一实施例提供的通过黄页信息提取电话号码的方法的流程图;
[0087]图1B为本发明一实施例中提供的获取电话号码的相关网页的示意图;
[0088]图2A为本发明另一实施例提供的通过黄页信息提取电话号码的方法的部分流程图;
[0089]图2B为本发明一实施例提供的获取电话号码的相关网页中的关键词/信息的示意图;
[0090]图3A为本发明另一实施例提供的显示电话号码黄页信息的方法流程图;
[0091]图3B至图3F为本发明另一实施例提供的显示电话号码黄页信息的示意图;
[0092]图4为本发明另一实施例提供的云端服务器的结构示意图;
[0093]图5为本发明另一实施例提供的显示电话号码黄页信息的装置的结构示意图。

【具体实施方式】
[0094]下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0095]图1A示出了本发明一实施例提供的通过黄页信息提取电话号码的方法的流程图,如图1A所示,所述方法包括下述步骤:
[0096]S101、根据预设的训练号码,建立获取黄页信息的至少一个模型/规则。
[0097]举例来说,训练号码可为移动终端中白名单中的号码,或者,云端服务器获取的白名单中的号码,例如,400XX8888、10086、10010、114、12580 等等。
[0098]可理解的是,本实施例中的训练号码可为预先获知黄页信息的号码,训练号码可为在现有的黄页库中随机抽样的一百万、两百万个电话号码。本实施例是通过这些已知的号码以及黄页信息来建立获取该训练号码的黄页信息的至少一个模型/规则。
[0099]一个模型/规则可为获取一类公司主页的公司名称、公司地址、公司电话等黄页信息;另一个模型/规则可为获取58同城、赶集网等主页中的公司名称、公司地址、电话等黄页信息。
[0100]S102、接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息。
[0101]举例来说,通过采用已建立的模型/规则,定向抓取与电话号码对应的网页中的内容,进而可将与电话号码对应的网页中的与该电话号码相关联的数据抓取,并整理,获得该电话号码的黄页信息。
[0102]在具体应用中,还可对至少一个模型/规则从所述电话号码的相关网页中抓取所述电话号码的黄页信息进行筛选,自动筛选符合的数据作为该电话号码的黄页信息。
[0103]本实施例中客户端发送的电话号码可为客户端监测该客户端连接的移动终端中的来电/去电事件中的不属于移动终端的通讯录数据库中的电话号码。
[0104]客户端发送的电话号码可为前述的训练号码,或者,可为其它电话号码如陌生的移动电话号码、陌生的固定电话号码等等,本实施例不对其进行限定。
[0105]电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页和/或高流量网站的网页等等,本实施例的相关网页,可为将电话号码在搜索中搜索,排在前N个的网页可作为相关网页,如图1B所示,10086对应的前4个的网页可作为10086的相关网页。
[0106]在具体应用中,还可在接收客户端发送的电话号码之后确定所述电话号码是否属于现有的黄页库中的电话号码,如果是,则从黄页库中获取该电话号码的黄页信息,如果该电话号码不属于黄页库中的电话号码,则可直接执行上述步骤S102。
[0107]现有的黄页库中存放有已知的多个电话号码以及多个号码对应的黄页信息。
[0108]S103、根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;
[0109]黄页数据库中包括训练号码及训练号码的黄页信息,还包括将其它电话号码及通过模型/规则获取其它电话号码的黄页信息。
[0110]前述的黄页信息可包括:电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址等。本实施例仅为举例说明黄页信息的内容,不限定黄页信息的内容。
[0111]另外,本实施例中提及的客户端发送的电话号码可包括:移动电话号码、固定电话号码和公共服务类的电话号码等等,本实施例不对其进行限制;
[0112]前述步骤SlOl中的训练号码可包括:移动电话号码、固定电话号码和公共服务类的电话号码等,本实施例中的训练号码可为人工获取有训练号码的黄页信息,还可为其他方式自动获取的训练号码的黄页信息等,本实施例不限定获取训练号码的黄页信息的方式。
[0113]本实施例中的通过黄页信息提取电话号码的方法,通过把一些企业或者一些服务行业等的电话号码以及与所述电话号码相匹配的相关黄页信息进行关联,生成黄页数据库,使得用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息。
[0114]在具体应用中,前述的方法可在步骤S103之后,还可包括图中未示出的步骤S104:
[0115]S104、定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
[0116]相应地,前述的步骤SlOl还可具体为下述的图中未示出的步骤S101’:
[0117]S101’、根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
[0118]上述方法不仅实现了对训练号码的数量以及所述训练号码所对应的黄页信息进行更新,同时还能够更新获取黄页信息的模型/规则,进而提高获取电话号码的黄页信息的准确率。
[0119]图2A示出了本发明另一实施例提供的通过黄页信息提取电话号码的方法的部分流程图,如图2A所示,本实施例中的方法可为前述图1A中的步骤SlOl的具体实现过程:
[0120]S1011、针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息。
[0121]例如,10086的部分黄页信息可为:中国移动,北京的客户服务热线,对该部分黄页信息进行分词处理之后,得到该训练号码对应的部分特征词/特征信息可为:“中国移动”、“北京”、“客户服务热线”。
[0122]S1012、搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
[0123]举例来说,针对每一个训练号码,对所述网页中的文本内容进行分词处理后,可采用条件随机场模型获取所述分词处理后的文本内容的关键词/关键信息。
[0124]或者,针对每一个训练号码,对所述网页中的文本内容进行分词处理后,可采用关键词正则方式获取分词处理后的文本内容的关键词/关键信息等。
[0125]或者,针对每一个训练号码,对所述网页中的文本内容进行分词处理后,可通过统计方式建立对应训练号码的关键词/关键信息,例如,在图2B中,10086 —个相关网页中,出现10086的词/信息可包括“中国移动”、“北京”、“服务与支持”、“客户服务热线”、“营业厅”等等。在10086的多个相关网页中出现“中国移动”、“北京”、“客户服务热线”等次数较多,则可将“中国移动”、“北京”、“客户服务热线”作为10086的关键词/关键信息。
[0126]S1013、将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配。
[0127]结合上述10086的关键词和特征词,关键词为“中国移动”、“北京”、“客户服务热线”,特征词为“中国移动”、“北京”、“客户服务热线”等。
[0128]S1014、如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性。
[0129]由于10086的关键词和特征词匹配,则结合上述10086对应的关键词和特征词,则确定在图2B所对应的网页中位置信息,和词性(如动词、名词、形容词等)。
[0130]位置信息如图2B中圆圈所表表示的位置,以及还可确定关键词的颜色、上下文关系,是否着重处理等?目息。
[0131]S1015、根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
[0132]结合上述10086的相关中的位置信息、词性等信息,可建立一个模型,该模型对应获取服务支持类公司的网页中的标题、具体说明的第一个关键信息、子标题栏的说明等信肩、O
[0133]所述电话号码的相关网页包括:公司主页、微博/论坛网页(如大众点评网、b2b网站)、服务网站的网页(如中国移动、中国联通)、聚合类网站的网页(如携程网、途牛网)、和高流量网站的网页(如苏宁易购)。
[0134]具体来说,所述训练号码都为已知号码,并且与所述号码相关联的黄页信息也已知。上述方法能够提高获取黄页信息的效率,同时提高获取黄页信息的准确率。
[0135]上述方法训练的模型/规则,具体为通过定向抓取一些网站/网页进行页面解析,把网页信息中的关键词/关键信息,以及该关键词/关键信息的上下文关系全都找到,进而与特征词/特征信息进行匹配。
[0136]在具体应用中,上述步骤S1012还可以包括如下图中未示出的子步骤:
[0137]A01、采用网络爬虫获取出现所述训练号码的网页的URL (Uniform/UniversalResource Locator,统一资源定位符),根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
[0138]在具体应用中,上述步骤AOl可以举例来说,可以通过蜘蛛或者爬虫算法定向抓取一些网站/网页信息进行页面解析,网络爬虫可分为传统爬虫和聚焦爬虫。传统爬虫从一个或若干初始网页的URL开始,获得初始网页的URL ;在抓取网页的过程中,不断从当前页面上抽取新的网页的URL放入队列,直到满足设定的停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列;然后,根据一定的搜索策略从队列中选择下一步要抓取的网页的URL,重复上述过程,直到达到某一设定条件时停止。另外,在实际应用中,所有被爬虫抓取的网页将会被系统存储,进行一定的分析和过滤,并建立索引,以便之后的查询和检索。
[0139]可理解的是,网络爬虫又名网络蜘蛛(Web spider),是现有技术中的一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,本发明对此不作详细介绍。
[0140]A02、根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
[0141]在本实施例中,上述步骤A102中根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容具体可以通过以下例举的三种方式来获取:
[0142]第一、在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容,该方式主要是针对没有防抓取策略的站点可以采用这种方法;
[0143]第二、采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容,该方式可以应用于由于有些站点使用了 ajax (Asynchronous JavaScriptand XML,异步JavaScript和可扩展标记语言)技术,需要利用浏览器渲染的方法得到完整的页面结构。爬虫系统配备了几种内核的渲染模块,例如IE内核、Gecko (火狐)内核、Chrome内核等;
[0144]第三、采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。该方式主要是为了防止爬虫系统频繁访问某个站点服务器导致被该站点服务器封IP的情况,爬虫系统可以通过代理服务器从站点服务器处下载网页,采用代理服务器下载网页可以确保抓取的及时性和不间断性。
[0145]A03、对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信肩、O
[0146]另外,在具体应用中为提高爬虫的性能,还可在使用爬虫的过程中与爬虫对应的任务调度器可将抓取任务通过gearman传递给下游的工作进程处理。例如,使用gearman作为进程间消息队列,通过gearman进行进程通讯来实现平行扩展和高并发的处理。具体地,以时间为调度单位的网页都以有序集合的方式存放在redis中,通过调用redis接口实现精确调度网页监控任务。redis是一个key-value类型的内存数据库,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据输出(flush)到硬盘上进行保存。因为是纯内存操作,redis的性能非常出色,每秒可以处理超过10万次读写操作,从而提高了爬虫系统的性能。
[0147]此外,本实施例所述的云端服务器可以释放出网络爬虫,获取因特网上的网页,云端服务器对获取到的网页进行分词,形成以关键词为索引的索引表;其中,索引表用于根据关键词索引查找网页,可以实现快速高效的网页搜索,索引表中存储有关键词、关键词对应的URL。上述以关键词为索引的索引表的结构如下举例的方式:
[0148]

Pll RULKeyl


Pagel


Page2


Page2



Key2


Page3
[0149]


Page3


Page4
[0150]本实施例中的通过黄页信息提取电话号码的方法可识别某个快餐店的号码或者是某项服务的号码的黄页信息,通过识别这些不常见的电话号码,使用户在日常生活中有了极大的便捷。
[0151]以下为更详细的说明前述步骤SlOl中建立至少一个模型的内容,以下举例来说:
[0152]针对每一个训练号码,并且已知该训练号码的黄页名称,获取该训练号码的搜索结果,对搜索结果中的文本内容进行分词和词性标注,获取分词后的能够组合成黄页信息的某一个词或符号(包含词性信息),或者,获取分词后的能够组合成黄页信息的某几个词或者符合,将该训练号码的能够组合成黄页信息的词或符号形成一个集合。每一个训练号码对应一个能够生成黄页信息的词的集合;
[0153]通过大量已知训练号码作为样本进行训练,可以获知所有集合中每个词可以组合成黄页信息或者某几个词/符号能够组合为黄页信息的统计特征和规律,这些统计特征和规律为通过训练号码获取的信息,这些信息可以通过条件随机场模型来体现,进而通过训练号码,建立获取黄页信息的至少一个模型可为条件随机场模型。
[0154]在具体应用中,根据大量的训练号码,采用梯度下降法或者拟牛顿法训练得到上述的条件随机场模型。
[0155]此外,结合上述对步骤SlOl的说明,以下可对前述步骤S102中接收客户端发送的一个未知的电话号码后,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息的过程具体说明如下:
[0156]对于一个未知的号码,获取该号码的搜索结果,提取搜索结果中的文本内容,对提取的文本内容进行分词和词性标注,进而采用步骤SlOl中通过训练方式建立的模型计算分词后的词的组合概率。
[0157]例如,分词后的文本内容中,某一个词或者多个词组合可构成黄页信息,则可认为是该一个词或多个词的组合为一个有效的黄页信息的组合方式,通过上述方式,找出组合概率最大的词。
[0158]由于搜索结果中的每一个词,或者,词与词之间的组合都可能构成该号码的黄页信息,故需要对搜索结果的文本内容进行分词处理,并对词性进行标注。
[0159]实际应用中,找出分词后的文本内容中组合概率最大的词组合的过程可理解为分词后的文本内容中的词的匹配过程,在本实施例中可采用维特比算法(Viterbi算法)获取分词后的文本内容中词的匹配信息即获得分词后的文本内容中各词的组合概率。
[0160]在本实施例中,Viterbi算法可进行角色自动标注,例如,从所有可能的标注序列中选出组合概率最大的标注序列作为最终标注结果,例如,可结合下述的公式进行具体说明。
[0161]假定W是分词后的Token序列(即未登录词识别前的分词结果),T是W某个可能的角色标注序列,其中Ts为最终标注结果,即组合概率最大的角色序列。则有:
[0162]W = (W1, w2,......,wm), T = (t1; t2,......, tm), m>0,
[0163]Tli;=argniax PilW)贝叶斯公式(I)
[0164]根据上述贝叶斯公式(I),有如下公式(2):
[0165]P (T I ff)=P (T) P (WI T) /P (W) (2)
[0166]对于一个特定的Token序列来说,P(W)是一个常数,因此根据公式⑴和(2)可以得到如下公式(3):
[0167]T*=argmaxP Cl) P (flT)(3)

T
[0168]假定Wi为观察值,角色\为状态值,则W是观察值序列,而T为隐藏在W后的状态值序列。下面将引入隐马尔科夫模型来计算P(T)P(WlT),因此,有如下公式(4)和(5):
[0169]P (T) P (WlT) P (W1Iti)p (I1Il1-1)(4)



t i"

m
[0170]r#=argmaxj~|p (Wj|ir)p (Ijt1-1)(5)
[ t I
[0171]由上述公式(4)和(5)可以得到如下公式(6):
,Γ m
[0172]r#?argmax^y] Inp (wjl^+lnp (IiIirD \(6)
τ IJI
JF=JJ
[0173]因此,角色自动标注问题就转换为对上述公式(5)获取最小化的计算,利用Viterbi算法可以求解T#。
[0174]由此,可以采取公式(6)对识别出来的候选机构名根据其组成部分进行最终评分,进而,可理解最终评分高的可为组合概率最大的标注序列即最终标注结果。
[0175]图3A示出了本发明一实施例提供的显示电话号码黄页信息的方法流程图,如图3A所示,所述方法包括以下步骤:
[0176]S201、对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码。
[0177]可理解的是,本实施例中的目标电话号码可为终端中的不属于终端通讯录数据库中的电话号码。
[0178]S202、如果目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则从云端服务器获取所述目标电话号码的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息。
[0179]举例来说,所述目标电话号码的黄页信息可包括:
[0180]目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。
[0181]另外,应说明的是,如果目标电话号码为终端的通讯录数据库中的号码,本实施例无需获取该目标电话号码的黄页信息。
[0182]S203、在所述通信终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
[0183]结合图3B所示,在显示电话号码的区域显示黄页信息,本实施例的黄页信息可以和当前的来电秀结合,采用不同的颜色标记。本实施例不对其进行限定,可根据实际需要在显示电话号码的同时显示黄页信息,且在显示界面中根据用户喜好设置黄页信息的显示位置及颜色。
[0184]上述显示电话号码黄页信息的方法可以应用在来电秀,以及骚扰电话提醒等手机安全产品中。例如,对于单个用户而言,除了给自己的电话号码上传一些头像、昵称等相关信息之外,还可以允许用户针对其他用户的电话号码进行相关信息的上报操作,这种针对其他用户的电话号码进行相关信息的上报,一般是针对一些用于进行恶意操作的电话号码进行的,例如,有些电话号码是用于进行“只响一声式”骚扰的,一旦用户回拨则可能会蒙受经济损失,还有些电话号码的拥有者可能是一些房产经纪人、保险经纪人等等,一些用户可能不想接收这类人群的电话,因此,可以允许用户针对这些类型的电话号码进行举报性质的操作,如图3C所示。相应的,可以在服务器端对这些通过用户举报获取到的相关信息进行记录,这样,在用户接收到这样的来电时,就可以将这些信息展现给当前用户,当前用户可以据此选择是否接听,如图3D和图3F所示。
[0185]对于企业用户而言,其能够保存的与其电话号码相关的信息可以不限于企业的名称、logo等信息,还可以包括一些最近的促销活动等信息,这些信息都可以一并显示给接收到或者正在拨打该电话的用户,使得用户能够获得更丰富的信息,如图3E所示。另外,本发明实施例也可以应用在搜索产品,onebox产品中,用户通过在网页的搜索框或者查询框中可以查询本发明实施例中已经通过黄页信息获取到的号码信息等。
[0186]上述步骤通过以下举例来具体说明,当用户终端接收到一个电话号码010-62***时,云端服务器会收到用户终端中的一个装置上传的该电话号码,并将此号码在黄页数据库中查找与此号码相对应的黄页信息,当黄页数据库中没有时,可查询与所述号码相关的一些网页,采用训练的至少一个模型/规则提取网页中与此号码相关联的信息,比如,网页中显示此号码的公司名称,传真,地址等,通过训练的模型/规则就会把与此号码相对应的网页中所含有的黄页信息全部提取出来,作为此号码的黄页信息,进而将该黄页信息下发至用户终端,显示电话号码的同时,显示该电话号码的黄页信息。
[0187]需要说明的是,如果需要获取目标电话号码的黄页信息,则在步骤S201中监测来电/去电事件,且来电/去电事件的目标电话号码为陌生号码时,可延迟目标电话号码的界面显示和响铃时间,在步骤S202中获得目标电话号码的黄页信息之后,可在目标电话号码的界面显示,并响铃。
[0188]上述步骤S201中对用户使用终端过程中的来电/去电事件进行监测的具体过程如下,此过程仅用于解释本实施例。
[0189]上述显示电话号码黄页信息的方法中,由于终端中的操作系统一般会为应用程序开放一些接口,供应用程序从操作系统中获取所需的信息,因此,在本实施例中,为了能够对终端中的来电/去电事件进行监测,就可以利用操作系统的这一特点,在操作系统中对应用程序进行注册,这样,当操作系统广播通知消息时,应用程序就能够收听到这种通知消息,并从中获取所需的信息。
[0190]例如,当接收来电时,终端的操作系统就会广播该来电消息,并携带来电号码,这样,应用程序就能够监测到该事件,并从中获取到来电的电话号码,进而,应用程序还可以通过终端的操作系统提供的接口,读取到用户在终端中保存的通讯录中的数据。用户作为主叫拨打电话时,也可以通过类似的方式监控到去电事件,并从本地获取到被叫方的电话号码等息。
[0191]需要说明的是,在本实施例中,所谓的目标电话号码,对于来电而言,就是主叫方的电话号码,对于去电而言,就是被叫方的电话号码。例如,当前用户的用户甲,当用户甲接收到用户乙的来电时,用户乙的电话号码就此次来电事件的目标电话号码,当用户甲给用户丙打电话时,用户丙的电话号码就是此次去电事件的目标电话号码。
[0192]采用此方法获取目标电话的相关黄页信息,节省了终端的存储空间,并且还可以展示给用户更多目标电话的相关黄页信息,另外,这种从云端服务器获取电话号码的黄页信息的好处还在于,有些来电或者去电的目标电话号码可能是从本地通讯录中所没有记录的,这样,如果仅依据通讯录中记载的信息来进行信息的获取,会无法获取到黄页信息,但是,从云端服务器进行获取时,只要是这些目标电话号码是活跃的,并且在搜索结果中已被收录,采用本发明实施例的方法就可以很快捷的把与这个电话号码相关联的黄页信息识别出来,并进行标注,当用户接听/拨打此电话号码时,与此电话号码对应的黄页信息就会显示在用户通信终端的显示界面上。
[0193]图4示出了本发明另一实施例提供的云端服务器的结构示意图,如图4所示,上述云端服务器包括:
[0194]模型建立模块41,用于根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;
[0195]黄页信息获取模块42,用于接收多个客户端发送的电话号码,采用所述模型建立模块建立的至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;
[0196]举例来说,黄页信息可包括:电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址;前述的电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页。
[0197]数据库生成模块43,用于根据所述电话号码,与所述黄页信息获取模块获取的该电话号码的黄页信息,生成黄页数据库;
[0198]其中,前述的训练号码为预先获取有黄页信息的号码,前述的训练号码具体包括:移动电话号码、固定电话号码和公共服务类的电话号码;前述的电话号码包括所述训练号码,具体包括移动电话号码、固定电话号码和公共服务类的电话号码。
[0199]本实施例中的云端服务器,通过把一些企业或者一些服务行业等的电话号码以及与所述电话号码相匹配的相关黄页信息进行关联,生成黄页数据库,使得用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息。
[0200]在具体应用中,前述的模型建立模块41,具体用于:针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
[0201]搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
[0202]将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
[0203]如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
[0204]根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
[0205]在另一种可能的实现方式中,前述的模型建立模块41还具体用于:
[0206]针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
[0207]对每一个训练号码,搜索出现所述训练号码的网页,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息;
[0208]将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
[0209]如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
[0210]根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
[0211]在另一种可能的实现方式中,前述的模型建立模块41还具体用于:
[0212]采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
[0213]根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
[0214]对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
[0215]上述模型建立模块中根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容,通过以下三种方式可以实现:
[0216]第一、在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
[0217]第二、采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
[0218]第三、采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。
[0219]例如,前述的模型建立模块41可用于,针对每一个训练号码,并且已知该训练号码的黄页名称,获取该训练号码的搜索结果,对搜索结果中的文本内容进行分词和词性标注,获取分词后的能够组合成黄页信息的某一个词或符号(包含词性信息),或者,获取分词后的能够组合成黄页信息的某几个词或者符合,将该训练号码的能够组合成黄页信息的词或符号形成一个集合。每一个训练号码对应一个能够生成黄页信息的词的集合;
[0220]通过大量已知训练号码作为样本进行训练,可以获知所有集合中每个词可以组合成黄页信息或者某几个词/符号能够组合为黄页信息的统计特征和规律,这些统计特征和规律为通过训练号码获取的信息,这些信息可以通过条件随机场模型来体现,进而通过训练号码,建立获取黄页信息的至少一个模型可为条件随机场模型。
[0221]在具体应用中,根据大量的训练号码,采用梯度下降法或者拟牛顿法训练得到上述的条件随机场模型。
[0222]在具体应用中,前述的云端服务器还可包括图4中未示出的数据更新模块44,用于定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
[0223]相应地,所述模型建立模块41还用于根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
[0224]本实施例的云端服务器可执行前述图1A所示的方法流程,参见上述的描述,本实施例不再详述。
[0225]上述云端服务器不仅实现了对训练号码的数量以及所述训练号码所对应的黄页信息进行更新,同时还能够更新获取黄页信息的模型/规则,进而提高获取电话号码的黄页信息的准确率。
[0226]图5示出了本发明另一实施例提供的显示电话号码黄页信息的装置的结构示意图,如图5所示,上述显示电话号码黄页信息的装置包括:
[0227]目标电话获取模块51,用于对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码;
[0228]判断模块52,用于判断目标电话号码是否为所述终端的通讯录数据库中的号码;
[0229]发送模块53,用于在所述判断模块确定所述目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则向云端服务器发送所述目标电话号码,以使所述云端服务器获取与所述目标电话号码对应的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息;
[0230]举例来说,目标电话信息的黄页信息可包括:目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。
[0231]接收模块54,用于接收所述云端服务器发送的所述目标电话号码的黄页信息;
[0232]黄页信息显示模块55,用于在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
[0233]采用上述装置获取目标电话的相关黄页信息,节省了终端的存储空间,并且还可以展示给用户更多目标电话的相关黄页信息,另外,这种从云端服务器获取电话号码相关信息的好处还在于,有些来电或者去电的目标电话号码可能是从本地通讯录中所没有记录的,这样,如果仅依据通讯录中记载的信息来进行信息的获取,会无法获取到相关信息,但是,从云端服务器进行获取时,只要是这些目标电话号码是活跃的,并且在搜索结果中已被收录,采用本实施例的装置就可以很快捷的把与这个电话号码相关联的黄页信息识别出来,并进行标注,当用户接听/拨打此电话号码时,与此电话号码对应的黄页信息就会显示在用户通信终端的显示界面上。
[0234]其中,在本发明的所有实施例中,“/”表示“或者”的关系。
[0235]最后应说明的是:以上所述各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
【权利要求】
1.一种通过黄页信息提取电话号码的方法,其特征在于,包括: 根据预设的训练号码,建立获取黄页信息的至少一个模型/规则; 接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息; 根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库; 其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。
2.根据权利要求1所述的方法,其特征在于,所述黄页信息包括: 电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址; 所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码; 所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码; 所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页; 所述方法还包括:定期更新所述训练号码的数量及所述训练号码所对应的黄页信息; 相应地,根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
3.根据权利要求1所述的方法,其特征在于,根据预设的训练号码,建立获取黄页信息的至少一个模型/规则,包括: 针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息; 搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息; 将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配; 如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性; 根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
4.根据权利要求3所述的方法,其特征在于,所述搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括: 采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页; 根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容; 对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息; 其中,所述根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容,包括: 在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;或者,采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;或者,采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容; 或者,所述对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括: 对每一个训练号码,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息。
5.—种显不电话号码黄页信息的方法,其特征在于,包括: 对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码; 如果目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则从云端服务器获取所述目标电话号码的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息; 在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
6.—种云端服务器,其特征在于,包括: 模型建立模块,用于根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;黄页信息获取模块,用于接收多个客户端发送的电话号码,采用所述模型建立模块建立的至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息; 数据库生成模块,用于根据所述电话号码,与所述黄页信息获取模块获取的该电话号码的黄页信息,生成黄页数据库; 其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。
7.根据权利要求6所述的云端服务器,其特征在于,所述黄页信息包括: 电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址; 所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码; 所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码; 所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页; 所述云端服务器还包括:数据更新模块; 所述数据更新模块,用于定期更新所述训练号码的数量及所述训练号码所对应的黄页信息; 相应地,所述模型建立模块还用于根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
8.根据权利要求6所述的云端服务器,其特征在于,所述模型建立模块,具体用于: 针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息; 搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息; 将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配; 如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性; 根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
9.根据权利要求8所述的云端服务器,其特征在于,所述模型建立模块,具体用于: 采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页; 根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容; 对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息; 其中,所述模型建立模块,用于在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;或者,采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;或者,采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容; 或者,所述模型建立模块,具体用于: 针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息; 对每一个训练号码,搜索出现所述训练号码的网页,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息; 将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配; 如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性; 根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
10.一种显示电话号码黄页信息的装置,其特征在于,包括: 目标电话获取模块,用于对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码; 判断模块,用于判断目标电话号码是否为所述终端的通讯录数据库中的号码; 发送模块,用于在所述判断模块确定所述目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则向云端服务器发送所述目标电话号码,以使所述云端服务器获取与所述目标电话号码对应的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息; 接收模块,用于接收所述云端服务器发送的所述目标电话号码的黄页信息; 黄页信息显示模块,用于在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
【文档编号】G06F17/30GK104199851SQ201410392539
【公开日】2014年12月10日 申请日期:2014年8月11日 优先权日:2014年8月11日
【发明者】周楠, 谢冉, 李振博, 常富洋 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1