网址识别方法和装置的制造方法

文档序号:9687665阅读:287来源:国知局
网址识别方法和装置的制造方法
【技术领域】
[0001] 本申请设及计算机技术领域,具体设及互联网技术领域,尤其设及网址识别方法 和装置。
【背景技术】
[0002] 在网络上存在着大量的垃圾网站,虚假的垃圾网站经常会诱导人们点击,W骗取 点击流量,甚至是骗取用户名和密码等隐私信息。因此,需要对运些垃圾网址进行主动识 另IJ,对用户做出相应的提醒。
[0003] 现有技术中,对垃圾网址的识别主要通过设置网页白名单、设置网页黑名单或者 识别从网站抓取的网页内容等方式。然而,白名单方式无法列举所有正常网站的网址,黑名 单方式则无法对新产生的垃圾网址进行识别,对抓取的网页内容进行识别则可能因为网站 设置了禁止抓取或者克隆正常站点骗取用户密码的伪造网站等情形而无法准确识别垃圾 网址。因此,需要扩大垃圾网址识别的识别范围。

【发明内容】

[0004] 本申请的目的在于提出一种改进的网址识别方法和装置,来解决W上【背景技术】部 分提到的技术问题。
[0005] 第一方面,本申请提供了一种网址识别方法,所述方法包括:获取待识别网址;根 据预设规则对所述待识别网址进行切分处理,并将切分后的各个网址部分转换为与各网址 部分的内容类型对应的类型标识;根据所述待识别网址所对应的类型标识序列,确定所述 待识别网址为非垃圾网址的概率值;根据所述概率值,生成网址识别信息。
[0006] 在一些实施例中,所述根据所述待识别网址所对应的类型标识序列,确定所述待 识别网址为非垃圾网址的概率值,包括:将所述类型标识序列作为隐马尔可夫模型的观测 序列,并根据前向算法W及预先训练的隐马尔可夫模型参数计算所述观测序列对应的概率 值;将计算出的概率值作为所述待识别网址为非垃圾网址的概率值。
[0007] 在一些实施例中,在所述获取待识别网址之前,所述方法还包括:从日志服务器中 获取非垃圾网址集合;根据预设规则对所述非垃圾网址集合中的每个网址进行切分处理, 并将每个网址切分后的各个网址部分转换为与各网址部分的内容类型对应的类型标识,W 生成包含每个网址对应的类型标识序列的类型标识序列集合;将所述类型标识序列集合作 为隐马尔可夫模型的待训练观测序列集合,并根据最大期望算法确定隐马尔可夫模型参 数;将确定的隐马尔模型参数作为预先训练的隐马尔科夫模型参数,或者根据确定的隐马 尔科夫模型参数对预先训练的隐马尔科夫模型参数进行更新。
[000引在一些实施例中,所述最大期望算法为前向后向算法。
[0009] 在一些实施例中,所述根据所述概率值,生成网址识别信息,包括:响应于所述概 率值大于预设概率阔值,生成非垃圾网址提醒信息。
[0010] 在一些实施例中,所述根据所述概率值,生成网址识别信息,包括:响应于所述概 率值小于预设概率阔值,生成垃圾网址提醒信息。
[0011] 在一些实施例中,在所述响应于所述概率值小于预设概率阔值,生成垃圾网址提 醒信息之后,所述方法还包括:接收用户对所述待识别网址是垃圾网址或非垃圾网址的确 认信息;将确认为非垃圾网址的待识别网址对应的类型标识序列作为隐马尔可夫模型的待 训练观测序列,并通过最大期望算法对预先训练的隐马尔可夫模型参数进行更新。
[0012] 第二方面,本申请提供了一种网址识别装置,所述装置包括:获取单元,配置用于 获取待识别网址;切分转换单元,配置用于根据预设规则对所述待识别网址进行切分处理, 并将切分后的各个网址部分转换为与各网址部分的内容类型对应的类型标识;概率确定单 元,配置用于根据所述待识别网址所对应的类型标识序列,确定所述待识别网址为非垃圾 网址的概率值;生成单元,配置用于根据所述概率值,生成网址识别信息。
[0013] 在一些实施例中,所述概率确定单元包括:计算子单元,配置用于将所述类型标识 序列作为隐马尔可夫模型的观测序列,并根据前向算法W及预先训练的隐马尔可夫模型参 数计算所述观测序列对应的概率值;概率确定子单元,配置用于将计算出的概率值作为所 述待识别网址为非垃圾网址的概率值。
[0014] 在一些实施例中,所述装置还包括:非垃圾网址集合获取单元,配置用于从日志服 务器中获取非垃圾网址集合;非垃圾网址集合切分转换单元,配置用于根据预设规则对所 述非垃圾网址集合中的每个网址进行切分处理,并将每个网址切分后的各个网址部分转换 为与各网址部分的内容类型对应的类型标识,W生成包含每个网址对应的类型标识序列的 类型标识序列集合;模型参数计算单元,配置用于将所述类型标识序列集合作为隐马尔可 夫模型的待训练观测序列集合,并根据最大期望算法确定隐马尔可夫模型参数;模型参数 确定与更新单元,配置用于将确定的隐马尔模型参数作为预先训练的隐马尔科夫模型参 数,或者根据确定的隐马尔科夫模型参数对预先训练的隐马尔科夫模型参数进行更新。
[0015] 在一些实施例中,所述最大期望算法为前向后向算法。
[0016] 在一些实施例中,所述生成单元进一步配置用于响应于所述概率值大于预设概率 阔值,生成非垃圾网址提醒信息。
[0017] 在一些实施例中,所述生成单元进一步配置用于响应于所述概率值小于预设概率 阔值,生成垃圾网址提醒信息。
[0018] 在一些实施例中,所述装置还包括:确认信息接收单元,配置用于接收用户对所述 待识别网址是垃圾网址或非垃圾网址的确认信息;参数调整单元,配置用于将确认为非垃 圾网址的待识别网址对应的类型标识序列作为隐马尔可夫模型的待训练观测序列,并通过 最大期望算法对预先训练的隐马尔可夫模型参数进行更新。
[0019] 本申请提供的网址识别方法和装置,将待识别网址转换成对应的类型标识序列并 根据该类型标识序列计算待识别网址为非垃圾网址的概率W生成网址识别信息,将待识别 网址转换为对应的类型标识序列再进行识别,只需根据类型标识序列即可进行识别,不需 要预先存储与待识别网址完全对应的历史网址,从而扩大了网址识别的识别范围。
【附图说明】
[0020] 通过阅读参照W下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显:
[0021] 图1是本申请可W应用于其中的示例性系统架构图;
[0022] 图2是根据本申请的网址识别方法的一个实施例的流程图;
[0023] 图3是根据本申请的网址识别方法的一个应用场景的示意图;
[0024] 图4是根据本申请的网址识别方法的又一个实施例的流程图;
[0025] 图5是根据本申请的网址识别装置的一个实施例的结构示意图;
[0026] 图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意 图。
【具体实施方式】
[0027] 下面结合附图和实施例对本申请作进一步的详细说明。可W理解的是,此处所描 述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关发明相关的部分。
[0028] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可W相 互组合。下面将参考附图并结合实施例来详细说明本申请。
[0029] 图1示出了可W应用本申请的网址识别方法或网址识别装置的实施例的示例性系 统架构100。
[0030] 如图1所示,系统架构100可W包括终端设备101、102、103,网络104和服务器105。 网络104用W在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可W 包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0031] 用户可W使用终端设备101、102、103通过网络104与服务器105交互,W接收或发 送消息等。终端设备101、102、103上可W安装有各种通讯客户端应用,例如网页浏览器应 用、安全类应用等。
[0032] 终端设备101、102、103可W是具有显示屏的各种电子设备,包括但不限于智能手 机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E邱erts Gro叫Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1