网址识别方法和装置的制造方法

文档序号：9687665阅读：287来源：国知局

网址识别方法和装置的制造方法
【技术领域】
[0001] 本申请设及计算机技术领域，具体设及互联网技术领域，尤其设及网址识别方法和装置。
【背景技术】
[0002] 在网络上存在着大量的垃圾网站，虚假的垃圾网站经常会诱导人们点击，W骗取点击流量，甚至是骗取用户名和密码等隐私信息。因此，需要对运些垃圾网址进行主动识另IJ，对用户做出相应的提醒。
[0003] 现有技术中，对垃圾网址的识别主要通过设置网页白名单、设置网页黑名单或者识别从网站抓取的网页内容等方式。然而，白名单方式无法列举所有正常网站的网址，黑名单方式则无法对新产生的垃圾网址进行识别，对抓取的网页内容进行识别则可能因为网站设置了禁止抓取或者克隆正常站点骗取用户密码的伪造网站等情形而无法准确识别垃圾网址。因此，需要扩大垃圾网址识别的识别范围。

【发明内容】

[0004] 本申请的目的在于提出一种改进的网址识别方法和装置，来解决W上【背景技术】部分提到的技术问题。
[0005] 第一方面，本申请提供了一种网址识别方法，所述方法包括:获取待识别网址;根据预设规则对所述待识别网址进行切分处理，并将切分后的各个网址部分转换为与各网址部分的内容类型对应的类型标识;根据所述待识别网址所对应的类型标识序列，确定所述待识别网址为非垃圾网址的概率值;根据所述概率值，生成网址识别信息。
[0006] 在一些实施例中，所述根据所述待识别网址所对应的类型标识序列，确定所述待识别网址为非垃圾网址的概率值，包括:将所述类型标识序列作为隐马尔可夫模型的观测序列，并根据前向算法W及预先训练的隐马尔可夫模型参数计算所述观测序列对应的概率值;将计算出的概率值作为所述待识别网址为非垃圾网址的概率值。
[0007] 在一些实施例中，在所述获取待识别网址之前，所述方法还包括:从日志服务器中获取非垃圾网址集合;根据预设规则对所述非垃圾网址集合中的每个网址进行切分处理，并将每个网址切分后的各个网址部分转换为与各网址部分的内容类型对应的类型标识，W 生成包含每个网址对应的类型标识序列的类型标识序列集合;将所述类型标识序列集合作为隐马尔可夫模型的待训练观测序列集合，并根据最大期望算法确定隐马尔可夫模型参数;将确定的隐马尔模型参数作为预先训练的隐马尔科夫模型参数，或者根据确定的隐马尔科夫模型参数对预先训练的隐马尔科夫模型参数进行更新。
[000引在一些实施例中，所述最大期望算法为前向后向算法。
[0009] 在一些实施例中，所述根据所述概率值，生成网址识别信息，包括：响应于所述概率值大于预设概率阔值，生成非垃圾网址提醒信息。
[0010] 在一些实施例中，所述根据所述概率值，生成网址识别信息，包括：响应于所述概率值小于预设概率阔值，生成垃圾网址提醒信息。
[0011] 在一些实施例中，在所述响应于所述概率值小于预设概率阔值，生成垃圾网址提醒信息之后，所述方法还包括:接收用户对所述待识别网址是垃圾网址或非垃圾网址的确认信息;将确认为非垃圾网址的待识别网址对应的类型标识序列作为隐马尔可夫模型的待训练观测序列，并通过最大期望算法对预先训练的隐马尔可夫模型参数进行更新。
[0012] 第二方面，本申请提供了一种网址识别装置，所述装置包括:获取单元，配置用于获取待识别网址;切分转换单元，配置用于根据预设规则对所述待识别网址进行切分处理，并将切分后的各个网址部分转换为与各网址部分的内容类型对应的类型标识;概率确定单元，配置用于根据所述待识别网址所对应的类型标识序列，确定所述待识别网址为非垃圾网址的概率值;生成单元，配置用于根据所述概率值，生成网址识别信息。
[0013] 在一些实施例中，所述概率确定单元包括:计算子单元，配置用于将所述类型标识序列作为隐马尔可夫模型的观测序列，并根据前向算法W及预先训练的隐马尔可夫模型参数计算所述观测序列对应的概率值;概率确定子单元，配置用于将计算出的概率值作为所述待识别网址为非垃圾网址的概率值。
[0014] 在一些实施例中，所述装置还包括:非垃圾网址集合获取单元，配置用于从日志服务器中获取非垃圾网址集合;非垃圾网址集合切分转换单元，配置用于根据预设规则对所述非垃圾网址集合中的每个网址进行切分处理，并将每个网址切分后的各个网址部分转换为与各网址部分的内容类型对应的类型标识，W生成包含每个网址对应的类型标识序列的类型标识序列集合;模型参数计算单元，配置用于将所述类型标识序列集合作为隐马尔可夫模型的待训练观测序列集合，并根据最大期望算法确定隐马尔可夫模型参数;模型参数确定与更新单元，配置用于将确定的隐马尔模型参数作为预先训练的隐马尔科夫模型参数，或者根据确定的隐马尔科夫模型参数对预先训练的隐马尔科夫模型参数进行更新。
[0015] 在一些实施例中，所述最大期望算法为前向后向算法。
[0016] 在一些实施例中，所述生成单元进一步配置用于响应于所述概率值大于预设概率阔值，生成非垃圾网址提醒信息。
[0017] 在一些实施例中，所述生成单元进一步配置用于响应于所述概率值小于预设概率阔值，生成垃圾网址提醒信息。
[0018] 在一些实施例中，所述装置还包括:确认信息接收单元，配置用于接收用户对所述待识别网址是垃圾网址或非垃圾网址的确认信息；参数调整单元，配置用于将确认为非垃圾网址的待识别网址对应的类型标识序列作为隐马尔可夫模型的待训练观测序列，并通过最大期望算法对预先训练的隐马尔可夫模型参数进行更新。
[0019] 本申请提供的网址识别方法和装置，将待识别网址转换成对应的类型标识序列并根据该类型标识序列计算待识别网址为非垃圾网址的概率W生成网址识别信息，将待识别网址转换为对应的类型标识序列再进行识别，只需根据类型标识序列即可进行识别，不需要预先存储与待识别网址完全对应的历史网址，从而扩大了网址识别的识别范围。
【附图说明】
[0020] 通过阅读参照W下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：
[0021] 图1是本申请可W应用于其中的示例性系统架构图；
[0022] 图2是根据本申请的网址识别方法的一个实施例的流程图；
[0023] 图3是根据本申请的网址识别方法的一个应用场景的示意图；
[0024] 图4是根据本申请的网址识别方法的又一个实施例的流程图；
[0025] 图5是根据本申请的网址识别装置的一个实施例的结构示意图；
[0026] 图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
【具体实施方式】
[0027] 下面结合附图和实施例对本申请作进一步的详细说明。可W理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
[0028] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可W相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0029] 图1示出了可W应用本申请的网址识别方法或网址识别装置的实施例的示例性系统架构100。
[0030] 如图1所示，系统架构100可W包括终端设备101、102、103,网络104和服务器105。网络104用W在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可W 包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
[0031] 用户可W使用终端设备101、102、103通过网络104与服务器105交互，W接收或发送消息等。终端设备101、102、103上可W安装有各种通讯客户端应用，例如网页浏览器应用、安全类应用等。
[0032] 终端设备101、102、103可W是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E邱erts Gro叫Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：秦铎浩;
技术所有人：北京百度网讯科技有限公司;
我是此专利的发明人

上一篇：检索结果排序的方法和装置的制造方法
上一篇：一种共享文件的访问方法、系统及相关设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。