网址识别方法和装置的制造方法_3

文档序号:9687665阅读:来源:国知局
领域现有技术,运里不再寶述。
[0063] 在本实施例的一些可选实现方式中,电子设备可W通过模型训练步骤W获取上述 预先训练的隐马尔可夫模型参数,具体步骤包括:
[0064] 首先,从日志服务器中获取非垃圾网址集合。其中,日志服务器中存储有大量的网 址,该网址可W是日志服务器预先从其他分散的服务器中获取的。日志服务器中可W设定 标志对垃圾网址与非垃圾网址进行区分。电子设备根据非垃圾网址对应的标志即可获取非 垃圾网址集合。
[0065] 其次,电子设备可W根据预设规则对非垃圾网址集合中的每个网址进行切分处 理,并将每个网址切分后的各个网址部分转换为与各网址部分的内容类型对应的类型标 识,W生成包含每个网址对应的类型标识序列的类型标识序列集合。其中,对非垃圾网址集 合中单个网址的切分W及网址各部分的转换可W与图2对应实施例中步骤202相同,运里不 再寶述。
[0066] 然后,电子设备可W将上述类型标识序列集合作为隐马尔模型中待训练的观测序 列,并采用最大期望算法确定运些待训练的观测序列对应的隐马尔可夫模型参数。通过最 大期望算法计算隐马尔可夫模型参数是本领域的现有技术,运里不再寶述。
[0067] 最后,将确定的隐马尔模型参数作为预先训练的隐马尔科夫模型参数,或者根据 确定的隐马尔科夫模型参数对预先训练的隐马尔科夫模型参数进行更新。在对预先训练的 隐马尔科夫模型参数进行更新时,可W对当前确定的隐马尔可夫模型参数的权重设置较大 的值,W提高更新后隐马尔可夫模型参数的实时性。
[0068] 可选的,上述最大期望算法可W采用前向后向算法,W提高模型参数的计算速度, 从而减少通过训练获取隐马尔可夫模型参数的时间。
[0069] 步骤404,将计算出的概率值作为待识别网址为非垃圾网址的概率值。
[0070] 在本实施例中,基于步骤403计算出的概率值,电子设备可W将该概率值作为待识 别网址为非垃圾网址的概率值。通常上述模型的参数可W是通过对正常网址的统计或训练 获得的,因此获得的概率值可W作为待识别网址为非垃圾网址的概率。
[0071 ]步骤405,根据所述概率值,生成网址识别信息。
[0072] 在本实施例中,上述电子设备在获得待识别网址为非垃圾网址对应的概率值后, 可W根据该概率值生成对应的网址识别信息。
[0073] 在本实施例的一些可选实现方式中,步骤405可W包括:响应于概率值大于预设概 率阔值,生成非垃圾网址提醒信息。
[0074] 从图4中可W看出,与图2对应的实施例相比,本实施例中的网址识别方法的流程 400突出了根据使用隐马尔可夫模型将类型标识序列作为观测序列W计算待识别网址为非 垃圾网址的概率。由此,本实施例描述的方案可W进一步提高识别的准确性与速度。
[0075] 在本实施例的一些可选实现方式中,步骤405可W包括:响应于概率值大于预设概 率阔值,生成非垃圾网址提醒信息。可选的,该实现方式在生成非垃圾网址提醒信息后,还 可W包括W下步骤:
[0076] 接收用户对待识别网址是垃圾网址或非垃圾网址的确认信息;将确认为非垃圾网 址的待识别网址对应的类型标识序列作为隐马尔可夫模型的待训练观测序列,并通过最大 期望算法对预先训练的隐马尔可夫模型参数进行更新。
[0077] 其中,电子设备可W通过控件或其他交互方式接收用户对待识别网址是垃圾网址 或非垃圾网址的确认信息。例如,电子设备可W提供显示有"垃圾网址"与"非垃圾网址"两 个按钮控件供用户点击。当用户点击"非垃圾网址时",对应的确认信息为非垃圾网址确认 信息;当用户点击"垃圾网址时",对应的确认信息为垃圾网址确认信息。当确认信息将待识 别网址确认为非垃圾网址时,说明将正常网址误识为别垃圾网址,因此可W将该误识别为 垃圾网址的待识别网址所对应的类型标识序列作为训练数据对预先训练的隐马尔可夫模 型参数进行更新,相应的方法是将该类型标识序列作为隐马尔可夫模型的待训练观测序列 并通过最大期望算法对预先训练的隐马尔可夫模型参数进行更新。根据最大期望算法W及 待训练观测序列对模型参数进行更新属于现有技术,运里不再寶述。可选的,运里的最大期 望算法也可W采用前向后向算法。运种方式使用误识别为垃圾网址的网址对隐马尔可夫模 型参数进行更新,提高了隐马尔可夫模型参数的准确性与实时性,使得后续采用隐马尔可 夫模型识别垃圾网址的准确性更高。
[0078] 进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种网址识别装 置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可W应用于各 种电子设备中。
[0079] 如图5所示,本实施例所述的网址识别装置500包括:获取单元501、切分转换单元 502、概率确定单元503和生成单元504。其中,获取单元501配置用于获取待识别网址;切分 转换单元502配置用于根据预设规则对待识别网址进行切分处理,并将切分后的各个网址 部分转换为与各网址部分的内容类型对应的类型标识;概率确定单元503配置用于根据所 述待识别网址所对应的类型标识序列,确定所述待识别网址为非垃圾网址的概率值;而生 成单元504配置用于基于上述概率值生成网址识别信息的内容。
[0080] 在本实施例中,网址识别装置500的获取单元501可W通过有线连接方式或者无线 连接方式从用户利用其进行网页浏览或网址检测的终端接收待识别的网址。实践中,网址 一般由统一资源定位符化niform Resource Locator,URL)来表示。需要指出的是,上述无 线连接方式可W包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、 UWB(ultra wideband)连接、W及其他现在已知或将来开发的无线连接方式。
[0081] 在本实施例中,基于获取单元501得到的网址,上述切分转换单元502可W首先对 待识别网址进行切分处理。切分的方法可W依据预先设定的规则进行。通常,电子设备可W 通过分隔符对网址进行切分处理,切分后的各部分通常可W包括主机名、路径、请求参数的 键名化ey)和键值(value)。然后,切分转换单元502将切换后的各部分转换成与各网址部分 的内容类型对应的类型标识。可选的,各部分的内容类型可W包括网址(URI)类型、非ASCII 码类型、word类型、空格类型、控制字符类型、保留字符类型W及other类型。
[0082] 在本实施例中,概率确定单元503可W基于待识别网址所对应的类型标识序列,进 一步根据该类型标识序列计算待识别网址为垃圾网址的概率。可选的,电子设备可W通过 对大量的垃圾网址和非垃圾网址进行统计,获得每一种类型标识序列为非垃圾网址的概率 值。
[0083] 在本实施例中,生成单元504可W基于概率确定单元503获得的概率值生成对应的 网址识别信息。
[0084] 本领域技术人员可W理解,上述网址识别装置500还包括一些其他公知结构,例如 处理器、存储器等,为了不必要地模糊本公开的实施例,运些公知的结构在图5中未示出。
[0085] 下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算 机系统600的结构示意图。
[0086] 如图6所示,计算机系统600包括中央处理单元(CPU)601,其可W根据存储在只读 存储器(R0M)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而 执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。 CPU 601、R0M 602W及RAM 603通过总线604彼此相连。输入/输出(1/0)接口605也连接至总 线 604。
[0087] W下部件连接至1/0接口 605:包括键盘、鼠标等的输入部分606;包括诸如阴极射 线管(CRT)、液晶显示器化CD)等W及扬声器等的输出部分607;包括硬盘等的存储部分608; W及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因 特网的网络执行通信处理。驱动器610也根据需要连接至1/0接口 605。可拆卸介质611,诸如 磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,W便于
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1