网址识别方法和装置的制造方法_2

文档序号:9687665阅读:来源:国知局
Picture Experts Gro叩Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等 等。
[0033] 服务器105可W是提供各种服务的服务器,例如对终端设备101、102、103上显示的 网页或其他应用数据提供支持的后台服务器。后台服务器可W对接收到的网址等数据进行 分析等处理,并将处理结果(例如网址识别信息)反馈给终端设备。
[0034] 需要说明的是,本申请实施例所提供的网址识别方法一般由服务器105执行,部分 步骤也可W由终端设备实现;相应地,网址识别装置一般设置于服务器105中,部分单元也 可W设置在终端设备中。
[0035] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需 要,可W具有任意数目的终端设备、网络和服务器。
[0036] 继续参考图2,示出了根据本申请的网址识别方法的一个实施例的流程200。所述 的网址识别方法,包括W下步骤:
[0037] 步骤201,获取待识别网址。
[0038] 在本实施例中,网址识别方法运行于其上的电子设备(例如图1所示的服务器)可 w通过各种方式获取待识别网址。例如,电子设备可w通过有线连接方式或者无线连接方 式从用户利用其进行网页浏览或网址检测的终端接收待识别的网址。实践中,网址一般由 统一资源定位符化niform Resource Locator,URL)来表示。需要指出的是,上述无线连接 方式可W包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB (ultra wideband)连接、W及其他现在已知或将来开发的无线连接方式。
[0039] 通常,用户可W利用终端上安装的网页浏览器来浏览网页,运时,用户可W通过直 接输入网址或者点击网页浏览器中呈现的网页中的链接来向网页服务器发起网页浏览请 求,网页服务器就可W获取到对应的网址,该网址可W作为待识别网址。在本实施例中,上 述网页可W包括html格式、xhtml格式、asp格式、php格式、jsp格式、shtml格式、nsp格式、 xml格式的网页或者其它未来将开发的格式的网页(只要运种格式的网页文件可W用浏览 器打开并浏览其包含的图片、动画、文字等内容)。本领域技术人员可W想到,网页服务器可 W将待识别网址发送给上述电子设备从而使上述电子设备获取到待识别网址,或者网页服 务器本身也可W作为上述电子设备执行本实施例所描述的方法。
[0040] 用户也可W通过终端设备上带有垃圾网址识别功能的安全类应用输入网址,安全 类应用在接收到网址后可W将待识别的网址发送给对应的应用服务器。该应用服务器可W 作为上述电子设备执行本实施例所描述方法。
[0041] 需要说明的是,待识别网址也可W预先存储在电子设备中或是电子设备从其他服 务器处获取的。
[0042] 步骤202,根据预设规则对待识别网址进行切分处理,并将切分后的各个网址部分 转换为与各网址部分的内容类型对应的类型标识。
[0043] 在本实施例中,基于步骤201中得到的待识别网址,上述电子设备(例如图1所示的 服务器105)可W首先对待识别网址进行切分处理。切分的方法可W依据预先设定的规则进 行。预先设定的规则可W包括分割符切分规则W及其他切分规则。实际切分时,单子设备可 W调用切分函数进行切分处理,例如使用Python语言时可W调用系统提供的urlparse函数 进行切分。切分处理后,网址切分后的各部分通常可W包括主机名、路径、请求参数的键名 (key)和键值(value),也可W包含其他参数。
[0044] 然后,电子设备将切换后的各部分转换成与各网址部分的内容类型对应的类型标 识。可选的,各部分的内容类型可W包括网址化RI)类型、非ASCII码类型、word类型、空格类 型、控制字符类型、保留字符类型W及other类型。各种内容类型的含义W及对应的类型标 识可W如下表所示。
[0045]
[0046]
[0047]其中,保留字符是指有特定含义的字符,例如/是网址分隔符,不需要转换成对应 的类型标识;other类型是不同于W上类型的其他内容类型,若除other类型W外的其他类 型已对所有的内容进行类型划分,other类型可W为空。
[004引需要说明的是,W上对内容类型的划分W及对应的类型标识仅为一种示例,本领 域技术人员可W想到,还可W通过其他规则对网址的各部分划分类型并转化成对应的类型 标识。
[0049] 通过W上过程,电子设备可W通过步骤202获得待识别网址所对应的类型标识序 列。
[0050] 步骤203,根据待识别网址所对应的类型标识序列,确定待识别网址为非垃圾网址 的概率值。
[0051] 在本实施例中,基于步骤202的切分和转换操作,可W获得待识别网址对应的类型 标识序列,电子设备可W在步骤203进一步根据该类型标识序列计算待识别网址为垃圾网 址的概率。可选的,电子设备可W通过对大量的垃圾网址和非垃圾网址进行统计,获得每一 种类型标识序列为非垃圾网址的概率值。
[0052] 步骤204,根据上述概率值,生成网址识别信息。
[0053] 在本实施例中,上述电子设备在根据步骤203获得待识别网址为非垃圾网址对应 的概率值后,可W根据该概率值生成对应的网址识别信息。通常,概率值越高,则该网址为 垃圾网址的可能性越低;概率值越低,则该网址为垃圾网址的可能性越高。电子设备可W设 置一个或多个概率阔值,并根据上述概率值与概率阔值之间的大小关系确定生成何种网址 识别信息。该网址识别信息用于显示识别结果的信息,例如可W是垃圾网址提醒信息或者 是安全网址提醒信息。
[0054] 继续参见图3,图3是根据本实施例的网址识别方法的应用场景的一个示意图。如 图3所示,用户可W在终端设备上通过网址识别应用界面上的网址输入区域301输入待识别 网址,在点击界面上的"检测"按钮后,就可W将待识别网址发送给后台服务器,后台服务器 可W后台获取该待识别网址;接着,后台服务器可W将待识别网址转化成对应的类型标识 序列,再根据类型标识序列计算待识别网址为垃圾网址的概率;然后,后台服务器可W根据 该概率生成网址识别信息;最后,后台服务器可W将该网址识别信息返回到终端设备,终端 设备即可在显示区域302处显示对应的网址识别信息。
[0055] 本申请的上述实施例提供的方法通过将网址转换成对应的类型标识序列再进行 识别,使得识别过程所处理的数据量明显减少,提高网址识别的效率。同时,运种方式只需 根据类型标识序列即可进行识别,无需事先存储有与待识别网址完全对应的网址,从而扩 大了网址识别的识别范围。
[0056] 进一步参考图4,其示出了网址识别方法的又一个实施例的流程400。该网址识别 方法的流程400,包括W下步骤:
[0化7] 步骤401,获取待识别网址。
[005引在本实施例中,步骤401与图2对应实施例的步骤201基本相同,运里不再寶述。
[0059] 步骤402,根据预设规则对待识别网址进行切分处理,并将切分后的各个网址部分 转换为与各网址部分的内容类型对应的类型标识。
[0060] 在本实施例中,步骤402与图2对应实施例的步骤202基本相同,运里不再寶述。
[0061] 步骤403,将类型标识序列作为隐马尔可夫模型的观测序列,并根据前向算法W及 预先训练的隐马尔可夫模型参数计算观测序列对应的概率值。
[0062] 在本实施例中,基于步骤402的切分与转换操作,可W获得待识别网址对应的类型 标识序列,步骤403使用隐马尔可夫模型对其进行进一步处理。首先,将上述类型标识序列 作为隐马尔可夫模型的观测序列,隐马尔可夫模型的模型参数则可W是通过预先训练获得 的。模型参数可W包括隐马尔可夫模型的初始状态概率矩阵、隐含状态转移概率矩阵和观 测状态转移概率矩阵。之后,在确定隐马尔可夫模型的模型参数W及观测序列后,电子设备 可W通过适用于隐马尔可夫模型的前向算法W及上述模型参数计算该观测序列所对应的 概率值。在给定隐马尔可夫模型的模型参数W及观测序列的情况下,使用前向算法计算观 测序列对应的概率值属于本
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1