恶意地址识别方法及装置与流程

文档序号:12366660阅读:230来源:国知局
恶意地址识别方法及装置与流程

本公开涉及电子技术领域,尤其涉及一种恶意地址识别方法及装置。



背景技术:

随着技术的发展,电子商务越来越普及,各种营销手段越来越丰富。比如,将商品定价为较低的价格,并在一个指定的时间点开放购买。在这种情况下,可能会出现一些恶意用户,采用违背活动规则的方式,大批量抢占资源,再以高价卖出。这些恶意用户的行为严重影响了其他具有真实购买意图的用户的利益。因此,需要对这些恶意用户的地址进行识别。

相关技术中,在通过电子商务进行购物时,通常会形成一个具有订单信息的订单。由于恶意地址对应的订单信息多数都是重复的或者是相近的,因此,终端可以通过订单信息来识别恶意地址,比如,通过订单信息中包括的收货地址、联系电话、收货人姓名或者下单时所使用的终端的IP(Internet Protocol Address,互联网协议)地址等来识别该收货地址是否为恶意地址。在该多种识别方式中,最主要的识别方式为通过订单信息包括的收货地址的相似度进行识别。具体地,服务器可以获取多个订单信息包括的收货地址,确定该多个收货地址中每两个收货地址之间的相似度,基于该多个收货地址中每两个收货地址之间的相似度,获取至少一组收货地址,该至少一组收货地址中任意两个收货地址之间的相似度大于或等于相似度阈值,对于该至少一组收货地址中的每组收货地址,判断该组收货地址的数量是否大于或等于数量阈值,当该组收货地址的数量超过数量阈值时,将该组收货地址均确定为恶意地址。



技术实现要素:

为克服相关技术中存在的问题,本公开提供一种恶意地址识别方法及装置。

根据本公开实施例的第一方面,提供一种恶意地址识别方法,所述方法包括:

当获取到目标收货地址时,对所述目标收货地址进行分词处理,得到所述目标收货地址包括的多个字符;

基于所述目标收货地址包括的多个字符,生成目标地址模板;

判断存储的至少一个恶意地址模板中是否存在与所述目标地址模板匹配的恶意地址模板;

当所述至少一个恶意地址模板中存在与所述目标地址模板匹配的恶意地址模板时,确定所述目标收货地址为恶意地址。

可选地,所述判断存储的至少一个恶意地址模板中是否存在与所述目标地址模板匹配的恶意地址模板,包括:

判断所述至少一个恶意地址模板中是否存在与所述目标地址模板相同的恶意地址模板;

当所述至少一个恶意地址模板中存在与所述目标地址模板相同的恶意地址模板时,确定所述至少一个恶意地址模板中存在与所述目标地址模板匹配的恶意地址模板;

当所述至少一个恶意地址模板中不存在与所述目标地址模板相同的恶意地址模板时,确定所述至少一个恶意地址模板中每个恶意地址模板与所述目标地址模板之间的模板相似度;

当所述至少一个恶意地址模板中存在与所述目标地址模板之间的模板相似度大于或等于相似度阈值的恶意地址模板时,确定所述至少一个恶意地址模板中存在与所述目标地址模板匹配的恶意地址模板。

可选地,所述判断存储的至少一个恶意地址模板中是否存在与所述目标地址模板匹配的恶意地址模板之前,还包括:

对存储的多个收货地址进行聚合,得到至少一个地址集合;

对于所述至少一个地址集合中的每个地址集合,基于所述地址集合中包括的多个收货地址,确定多个地址模板,所述多个收货地址与所述多个地址模板一一对应;

对于所述多个地址模板中的每个地址模板,确定第一次数,所述第一次数为所述地址模板在所述多个地址模板中出现的次数;

判断所述第一次数是否大于或等于第一次数阈值;

当所述第一次数大于或等于所述第一次数阈值时,确定所述地址模板为恶意地址模板。

可选地,所述对存储的多个收货地址进行聚合,得到至少一个地址集合,包括:

对于所述多个收货地址中的每个收货地址,对所述收货地址进行分词处理,得到所述收货地址包括的多个字符;

分别从所述收货地址的特定位置开始截取指定数量的字符,得到多个字符单元;

从所述多个收货地址中获取满足指定条件的收货地址,所述指定条件为同一位置出现相同字符单元且所述相同字符单元所在的收货地址的个数大于数量阈值;

将获取的收货地址组成地址集合。

可选地,所述基于所述地址集合中包括的多个收货地址,确定多个地址模板,包括:

对所述地址集合中的每个收货地址进行分词处理,得到所述每个收货地址包括的多个字符;

分别对所述每个收货地址包括的每个字符按照指定顺序进行标记;

将标记后的多个收货地址包括的多个字符,组成字符集合;

对于所述字符集合包括的每个字符,确定第二次数,所述第二次数为所述字符在所述字符集合中出现的次数;

从所述字符集合中,获取第二次数大于或等于第二次数阈值的字符;

基于获取的字符和所述地址集合,确定所述多个地址模板。

可选地,所述基于获取的字符和所述地址集合,确定所述多个地址模板,包括:

基于获取的字符的标记,将获取的字符按照所述指定顺序进行排列,得到字符序列;

删除所述字符序列中各个字符的标记;

对于所述地址集合中的每个收货地址,将所述字符序列中与所述收货地址相比所缺少的字符采用指定标识代替,得到所述收货地址对应的地址模板。

根据本公开实施例的第二方面,提供一种恶意地址识别装置,所述装置包括:

分词模块,用于当获取到目标收货地址时,对所述目标收货地址进行分词处理,得到所述目标收货地址包括的多个字符;

生成模块,用于基于所述目标收货地址包括的多个字符,生成目标地址模板;

第一判断模块,用于判断存储的至少一个恶意地址模板中是否存在与所述目标地址模板匹配的恶意地址模板;

第一确定模块,用于当所述至少一个恶意地址模板中存在与所述目标地址模板匹配的恶意地址模板时,确定所述目标收货地址为恶意地址。

可选地,所述第一判断模块包括:

判断单元,用于判断所述至少一个恶意地址模板中是否存在与所述目标地址模板相同的恶意地址模板;

第一确定单元,用于当所述至少一个恶意地址模板中存在与所述目标地址模板相同的恶意地址模板时,确定所述至少一个恶意地址模板中存在与所述目标地址模板匹配的恶意地址模板;

第二确定单元,用于当所述至少一个恶意地址模板中不存在与所述目标地址模板相同的恶意地址模板时,确定所述至少一个恶意地址模板中每个恶意地址模板与所述目标地址模板之间的模板相似度;

第三确定单元,用于当所述至少一个恶意地址模板中存在与所述目标地址模板之间的模板相似度大于或等于相似度阈值的恶意地址模板时,确定所述至少一个恶意地址模板中存在与所述目标地址模板匹配的恶意地址模板。

可选地,所述装置还包括:

聚合模块,用于对存储的多个收货地址进行聚合,得到至少一个地址集合;

第二确定模块,用于对于所述至少一个地址集合中的每个地址集合,基于所述地址集合中包括的多个收货地址,确定多个地址模板,所述多个收货地址与所述多个地址模板一一对应;

第三确定模块,用于对于所述多个地址模板中的每个地址模板,确定第一次数,所述第一次数为所述地址模板在所述多个地址模板中出现的次数;

第二判断模块,用于判断所述第一次数是否大于或等于第一次数阈值;

第四确定模块,用于当所述第一次数大于或等于所述第一次数阈值时,确定所述地址模板为恶意地址模板。

可选地,所述聚合模块包括:

第一分词单元,用于对于所述多个收货地址中的每个收货地址,对所述收货地址进行分词处理,得到所述收货地址包括的多个字符;

截取单元,用于分别从所述收货地址的特定位置开始截取指定数量的字符,得到多个字符单元;

第一获取单元,用于从所述多个收货地址中获取满足指定条件的收货地址,所述指定条件为同一位置出现相同字符单元且所述相同字符单元所在的收货地址的个数大于数量阈值;

第一组成单元,用于将获取的收货地址组成地址集合。

可选地,所述第二确定模块包括:

第二分词单元,用于对所述地址集合中的每个收货地址进行分词处理,得到所述每个收货地址包括的多个字符;

标记单元,用于分别对所述每个收货地址包括的每个字符按照指定顺序进行标记;

第二组成单元,用于将标记后的多个收货地址包括的多个字符,组成字符集合;

第四确定单元,用于对于所述字符集合包括的每个字符,确定第二次数,所述第二次数为所述字符在所述字符集合中出现的次数;

第二获取单元,用于从所述字符集合中,获取第二次数大于或等于第二次数阈值的字符;

第五确定单元,用于基于获取的字符和所述地址集合,确定所述多个地址模板。

可选地,所述第五确定单元包括:

排列子单元,用于基于获取的字符的标记,将获取的字符按照所述指定顺序进行排列,得到字符序列;

删除子单元,用于删除所述字符序列中各个字符的标记;

代替子单元,用于对于所述地址集合中的每个收货地址,将所述字符序列中与所述收货地址相比所缺少的字符采用指定标识代替,得到所述收货地址对应的地址模板。

根据本公开实施例的第三方面,提供一种恶意地址识别装置,所述装置包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

当获取到目标收货地址时,对所述目标收货地址进行分词处理,得到所述目标收货地址包括的多个字符;

基于所述目标收货地址包括的多个字符,生成目标地址模板;

判断存储的至少一个恶意地址模板中是否存在与所述目标地址模板匹配的恶意地址模板;

当所述至少一个恶意地址模板中存在与所述目标地址模板匹配的恶意地址模板时,确定所述目标收货地址为恶意地址。

本公开的实施例提供的技术方案可以包括以下有益效果:在本公开实施例中,当服务器获取到目标收货地址时,可以确定该目标收货地址的目标地址模板,并将目标地址模板与至少一个恶意地址模板中的每个恶意地址模板进行比较,当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,将该目标收货地址确定为恶意地址,根据上述方式,服务器可以将获取到的每个收货地址与该至少一个恶意地址模板进行比较,以识别出恶意地址,从而提高了识别恶意地址的效率以及准确度。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种恶意别地址方法的流程图。

图2是根据一示例性实施例示出的另外一种恶意别地址方法的流程图。

图3A是根据一示例性实施例示出的第一种恶意地址识别装置的结构框图。

图3B是根据一示例性实施例示出的一种第一判断模块的结构框图。

图3C是根据一示例性实施例示出的第二种恶意地址识别装置的结构框图。

图3D是根据一示例性实施例示出的一种聚合模块的结构框图。

图3E是根据一示例性实施例示出的一种第二确定模块的结构框图。

图4是根据一示例性实施例示出的第三种恶意地址装置的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在对本公开实施例进行详细地解释说明之前,先对本公开实施例的应用场景予以介绍。目前,服务器可以获取多个收货地址,并确定该多个收货地址之间的相似度,根据该多个收货地址之间的相似度,判断该多个收货地址中相似度大于或等于相似度阈值的收货地址的数量是否大于或等于数量阈值,当该组收货地址的数量超过数量阈值时,将该组收货地址均确定为恶意地址。但是通过上述方式只能识别相似度较高的收货地址,对于一些相似度较低,且可能是恶意地址的收货地址无法进行识别。因此,本公开实施例提供了一种恶意地址识别方法,可以对所有的收货地址进行识别,从而提高了识别恶意地址的效率以及准确度。

图1是根据一示例性实施例示出的一种恶意地址识别方法的流程图,如图1所示,该方法用于服务器中,包括以下步骤。

在步骤101中,当获取到目标收货地址时,对该目标收货地址进行分词处理,得到该目标收货地址包括的多个字符。

在步骤102中,基于该目标收货地址包括的多个字符,生成目标地址模板。

在步骤103中,判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板。

在步骤104中,当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,确定该目标收货地址为恶意地址。

在本公开实施例中,当服务器获取到目标收货地址时,可以确定该目标收货地址的目标地址模板,并将目标地址模板与至少一个恶意地址模板中的每个恶意地址模板进行比较,当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,将该目标收货地址确定为恶意地址,根据上述方式,服务器可以将获取到的每个收货地址与该至少一个恶意地址模板进行比较,以识别出恶意地址,从而提高了识别恶意地址的效率以及准确度。

可选地,判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板,包括:

判断该至少一个恶意地址模板中是否存在与该目标地址模板相同的恶意地址模板;

当该至少一个恶意地址模板中存在与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板;

当该至少一个恶意地址模板中不存在与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中每个恶意地址模板与该目标地址模板之间的模板相似度;

当该至少一个恶意地址模板中存在与该目标地址模板之间的模板相似度大于或等于相似度阈值的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板。

可选地,判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板之前,还包括:

对存储的多个收货地址进行聚合,得到至少一个地址集合;

对于该至少一个地址集合中的每个地址集合,基于该地址集合中包括的多个收货地址,确定多个地址模板,该多个收货地址与该多个地址模板一一对应;

对于该多个地址模板中的每个地址模板,确定第一次数,该第一次数为该地址模板在该多个地址模板中出现的次数;

判断该第一次数是否大于或等于第一次数阈值;

当该第一次数大于或等于该第一次数阈值时,确定该地址模板为恶意地址模板。

可选地,对存储的多个收货地址进行聚合,得到至少一个地址集合,包括:

对于该多个收货地址中的每个收货地址,对该收货地址进行分词处理,得到该收货地址包括的多个字符;

分别从该收货地址的特定位置开始截取指定数量的字符,得到多个字符单元;

从该多个收货地址中获取满足指定条件的收货地址,该指定条件为同一位置出现相同字符单元且该相同字符单元所在的收货地址的个数大于数量阈值;

将获取的收货地址组成地址集合。

可选地,基于该地址集合中包括的多个收货地址,确定多个地址模板,包括:

对该地址集合中的每个收货地址进行分词处理,得到该每个收货地址包括的多个字符;

分别对该每个收货地址包括的每个字符按照指定顺序进行标记;

将标记后的多个收货地址包括的多个字符,组成字符集合;

对于该字符集合包括的每个字符,确定第二次数,该第二次数为该字符在该字符集合中出现的次数;

从该字符集合中,获取第二次数大于或等于第二次数阈值的字符;

基于获取的字符和该地址集合,确定该多个地址模板。

可选地,基于获取的字符和该地址集合,确定该多个地址模板,包括:

基于获取的字符的标记,将获取的字符按照该指定顺序进行排列,得到字符序列;

删除该字符序列中各个字符的标记;

对于该地址集合中的每个收货地址,将该字符序列中与该收货地址相比所缺少的字符采用指定标识代替,得到该收货地址对应的地址模板。

上述所有可选技术方案,均可按照任意结合形成本公开的可选实施例,本公开实施例对此不再一一赘述。

图2是根据一示例性实施例示出的一种恶意地址识别方法的流程图,参见图2,该方法包括如下步骤。

在步骤201中,当服务器获取到目标收货地址时,对该目标收货地址进行分词处理,得到该目标收货地址包括的多个字符。

需要说明的是,服务器对目标收货地址进行分词处理的操作可以参考相关技术,本公开实施例对此不再进行一一赘述。

另外,该目标收货地址可以是终端在当前时间发送给服务器的收货地址,也可以是事先存储在服务器中的多个收货地址中的任一个收货地址,本公开实施例对此不做具体限定。

还需要说明的是,服务器对该目标收货地址进行分词处理后,可以准确地将该目标收货地址中的每个字符分开,从而提高后续识别目标收货地址的准确度。

在步骤202中,服务器基于该目标收货地址包括的多个字符,生成目标地址模板。

其中,服务器可以识别该目标收货地址包括的多个字符,并根据模板生成规则,生成目标地址模板。

需要说明的是,模板生成规则用于将目标收货地址生成目标地址模板,且该模板生成规则可以事先设置,比如,该模板生成规则可以为当目标收货地址中出现数字字符或字母字符时,将每个数字字符或字母字符用“X”进行代替,或者,在该目标收货地址中出现AA路、AA街道等地址时,可以将AA路、AA街道中的AA用“X”进行代替等,本公开实施例对此不做具体限定。其中,AA路和AA街道中的AA为指代任意数量的字符的词,并不对本公开实施例构成限定,比如,AA可以为指代“菊芬”、“弼承”、“新建北”等。

比如,当目标收货地址包括的多个字符分别为“鹿城镇菊芬路心远街道275号成仁新城047栋609号”时,服务器识别出该目标收货地址中包括数字字符。因此,服务器可以根据该模板生成规则,将该目标收货地址中包括的数字字符“275”、“047”和“609”分别用“X”进行代替,生成目标地址模板“鹿城镇菊芬路心远街道X号成仁新城X栋X号”。

还需要说明的是,服务器识别该目标收货地址包括的多个字符的操作可以参考相关技术,本公开实施例对此不再进行一一赘述。

另外,服务器可以根据上述方式生成目标地址模板,也可以根据其他方式生成目标地址模板,比如,服务器对目标收货地址中包括的多个字符分别进行标记,并根据标记后的多个字符,用“X”代替标记为指定标记的字符。本公开实施例对此不做具体限定。

需要说明的是,指定标记可以实现设置,比如,该指定标记可以为4、5、E、F等,本公开实施例对此不做具体限定。

在步骤203中,服务器判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板。

其中,服务器判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板的操作可以为:判断该至少一个恶意地址模板中是否存在与该目标地址模板相同的恶意地址模板;当该至少一个恶意地址模板中存在与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板;当该至少一个恶意地址模板中不存在与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中每个恶意地址模板与该目标地址模板之间的模板相似度;当该至少一个恶意地址模板中存在与该目标地址模板之间的模板相似度大于或等于相似度阈值的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板。

另外,服务器判断该至少一个恶意地址模板中是否存在与该目标地址模板相同的恶意地址模板的操作可以为:服务器可以将该目标地址目标与该至少一个恶意地址模板中的每个恶意地址模板进行比较,当该至少一个恶意地址模板中出现与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板相同的恶意地址模板。

需要说明的是,相似度阈值用于判断该至少一个恶意地址模板中存在与该目标地址模板相同的恶意地址模板,且该相似度阈值可以事先设置,比如,该相似度阈值可以为90%、95%、97%等,本公开实施例对此不做具体限定。

另外,当该恶意地址模板与目标地址模板之间的模板相似度小于相似度阈值时,确定该至少一个恶意地址模板中不存在与该目标地址模板匹配的恶意地址模板。

需要说明的是,服务器确定目标地址模板与至少一个恶意地址模板中每个恶意地址之间的模板相似度的方法可以参考相关技术,本公开实施例对此不再进行一一赘述。

还需要说明的是,服务器不仅可以通过上述方式判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板,还可以通过其他方式进行判断,本公开实施例对此不做具体限定。

进一步地,服务器判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板之前,该服务器可以对存储的多个收货地址进行聚合,得到至少一个地址集合;对于该至少一个地址集合中的每个地址集合,基于该地址集合中包括的多个收货地址,确定多个地址模板,该多个收货地址与该多个地址模板一一对应;对于多个地址模板中的每个地址模板,确定第一次数,该第一次数为该地址模板在该多个地址模板中出现的次数;判断该第一次数是否大于或等于第一次数阈值;当该第一次数大于或等于该第一次数阈值时,确定该地址模板为恶意地址模板。

需要说明的是,第一次数阈值用于判断地址模板出现的次数是否达到成为恶意地址模板的标准,且该第一次数阈值可以事先设置,比如,该第一次数阈值可以为15次、20次等,本公开实施例对此不做具体限定。

其中,服务器对存储的多个收货地址进行聚合,得到至少一个地址集合的操作可以为:对于该多个收货地址中的每个收货地址,对该收货地址进行分词处理,得到该收货地址包括的多个字符;分别从该收货地址的特定位置开始截取指定数量的字符,得到多个字符单元;从该多个收货地址中获取满足指定条件的收货地址,该指定条件为同一位置出现相同字符单元且该相同字符单元所在的收货地址的个数大于数量阈值;将获取的收货地址组成地址集合。

需要说明的是,该收货地址的特定位置可以事先设置,比如,该收货地址的特定位置可以为该收货地址的开头、结尾等,也可以是其他位置,本公开实施例对此不做具体限定。

还需要说明的是,该指定数量同样可以事先设置,比如,该指定数量可以为3个、4个等,本公开实施例对此同样不做具体限定。

另外,数量阈值用于判断出现相同字符单元的收货地址的数量是否达到组成地址集合的标准,且该数量阈值可以事先设置,比如,该数量阈值可以为9、10等,本公开实施例对此不做具体限定。

比如,对于存储的多个收货地址中的每个收货地址,以收货地址“鹿城镇光启路星津街道491号芳卿新城004栋499号”为例进行说明,将该收货地址进行分词处理,得到该收货地址包括的多个字符分别为“鹿城镇光启路星津街道491号芳卿新城004栋499号”;分别从该收货地址的开头开始每3个字符开始进行截取,得到多个字符单元“鹿城镇、光启路、星津街、道491号、芳卿新、城004栋、499号”;从该多个收货地址中获取在同一位置出现相同字符单元为“鹿城镇”,且包括“鹿城镇”所在的收货地址的个数为15,大于数量阈值9;因此,将包括“鹿城镇”的收货地址组成地址集合。

另外,服务器对该收货地址进行分词处理,得到该收货地址包括的多个字符的操作可以参考相关技术,本公开实施例对此不再进行一一赘述。

需要说明的是,该服务器可以通过滑动窗口的方式从特定位置开始截取指定数量的字符,也可以通过其他方式进行截取,本公开实施例对此不做具体限定。

再者,服务器分别从该收货地址的特定位置开始截取指定数量的字符,得到多个字符单元之前,还可以对每个字符进行标记,从而可以方便后续确定每个字符单元出现的次数,提高了确定第一次数的准确性。

其中,服务器基于该地址集合中包括的多个收货地址,确定多个地址模板的操作可以为:对地址集合中的每个收货地址进行分词处理,得到每个收货地址包括的多个字符;分别对每个收货地址包括的每个字符按照指定顺序进行标记;将标记后的多个收货地址包括的多个字符,组成字符集合;对于该字符集合包括的每个字符,确定第二次数,该第二次数为该字符在字符集合中出现的次数;从该字符集合中,获取第二次数大于或等于第二次数阈值的字符;基于获取的字符和地址集合,确定该多个地址模板。

需要说明的是,该指定顺序为事先设置的顺序,比如,该指定顺序可以为从每个收货地址的开头到结尾的顺序,也可以为每个收货地址从结尾到开头的顺序,本公开实施例对此不做具体限定。

另外,服务器对每个字符按照指定顺序进行标记时,可以使用数字进行标记,也可以使用字母进行标记,当然还可以通过其他方式进行标记,本公开实施例对此同样不做具体限定。

还需要说明的是,第二次数阈值用于判断字符出现的次数是否达到可以组成地址模板的标准,且该第二次数阈值可以事先设置,比如,该第二次数阈值可以为8次、9次等,本公开实施例对此不做具体限定。

比如,当对地址集合中的一个收获地址进行分词处理后,得到该收获地址包括的字符分别为“鹿城镇弼承路心泉街道225号桐君新城707栋858号”时,对每个字符通过数字按照从前到后的顺序进行标记,得到“(0)鹿(1)城(2)镇(3)弼(4)承(5)路(6)心(7)泉(8)街(9)道(10)225(11)号(12)桐(13)君(14)新(15)城(16)707(17)栋(18)858(19)号”,对该地址集合中的每个收货地址按照上述方式处理后,得到字符集合;并确定字符集合包括的每个字符的第二次数分别为f(0-鹿)=11次,f(1-城)=11次,f(2-镇)=11次,f(3-弼)=1次,f(4-承)=1次,f(5路)=15次,f(6-心)=1次,f(7-泉)=1次,f(8-街)=11次,f(9-道)=11次,f(10-225)=1次,f(11-号)=12次,f(12-桐)=2次,f(13-君)=2次,f(14-新)=10次,f(15-城)=10次,f(16-707)=1次,f(17-栋)=15次,f(18-858)=1次,f(19-号)20次,其中,当第二次数阈值为9次时,字符(0)鹿、(1)城、(2)镇、(5)路、(8)街、(9)道、(11)号、(14)新、(15)城、(17)栋和(19)号的第二次数均大于第二次数阈值,因此,可以基于(0)鹿、(1)城、(2)镇、(5)路、(8)街、(9)道、(11)号、(14)新、(15)城、(17)栋和(19)号确定该多个地址模板。

另外,对于第二次数小于第二次数阈值的字符,服务器可以对该字符不做任何处理。

再者,服务器可以基于获取的字符的标记,将获取的字符按照该指定顺序进行排列,得到字符序列;删除该字符序列中各个字符的标记;对于该地址集合中的每个收货地址,将该字符序列中与该收货地址相比所缺少的字符采用指定标识代替,得到该收货地址对应的地址模板。

需要说明的是,该指定标识可以事先设置,比如,该指定标识可以为某个字母、某个数字、某个符号等,本公开实施例对此不做具体限定。

比如,服务器获取到的字符分别为(0)鹿、(1)城、(2)镇、(5)路、(8)街、(9)道、(11)号、(14)新、(15)城、(17)栋、(19)号时,将获取的字符按照该指定顺序进行排列,得到字符序列“(0)鹿(1)城(2)镇(5)路(8)街(9)道(11)号(14)新(15)城(17)栋(19)号”,删除该字符序列号中各个字符的标记得到“鹿城镇路街道号新城栋号”;将该缺少字符的字符序列“鹿城镇路街道号新城栋号”与地址集合中的每个收货地址进行比较,以收获地址“鹿城镇弼承路心泉街道225号桐君新城707栋858号”为例进行说明,将该改缺少字符的字符序列与该收货地址进行比较后,用指定标识“X”代替该字符序列中缺少的字符,得到该收货地址对应的地址模板为“鹿城镇XX路XX街道X号XX新城X栋X号”。

另外,当该服务器获取的字符均为第二次数大于第二次数阈值的字符时,该服务器还可以从该多个字符中继续获取第二次数相同的多组字符,并将获取的每组字符按照该指定顺序进行排列,得到字符序列,本公开实施例对此不做具体限定。

进一步地,服务器将该字符序列中与该收货地址相比所缺少的字符采用指定标识代替之前,该服务器还可以识别该字符序列中所缺少的字符的类型,根据所缺少的字符的类型的不同,用不同的标识进行代替。

比如,当该字符序列中所缺少的字符的字符类型为数字时,可以通过字母“X”代替其中所缺少的一个字符,当该字符序列中所缺少的字符的字符类型为汉字时,可以通过字母“Y”代替其中所缺少的一个字符。

需要说明的是,服务器识别该字符序列中所缺少的字符的类型,并根据所缺少的字符的类型用不同标识进行代替,由于每缺少一个字符就用相应的标识进行代替,从而在后续确定该地址模板出现的第一次数时,确定的第一次数为该地址模板出现的准确的次数,从而提高了生成地址模板的准确率。

另外,服务器还可以不对该字符序列中所缺少的字符进行识别,而将所有缺少的字符用相同的标识进行代替,并且在连续缺少字符时可以用一个字符代替多个缺少的字符,本公开实施例对此不做具体限定。

还需要说明的是,当服务器将所有缺少的字符用相同的标识进行代替,且在连续缺少字符时可以用一个字符代替多个缺少的字符时,可以从地址集合中获取更多相同的地址模板,从而提高了生成地址模板的查全率。

在步骤204中,当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,服务器确定该目标收货地址为恶意地址。

需要说明的是,当该至少一个恶意地址模块中不存在与该目标地址模板匹配的恶意地址模板时,服务器可以确定该目标收货地址不为恶意地址。

在本公开实施例中,服务器可以从存储的多个收货地址中,确定至少一个恶意地址模板,当该服务器获取到目标收货地址时,可以确定该目标收货地址的目标地址模板,并将目标地址模板与该至少一个恶意地址模板中的每个恶意地址模板进行比较,当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,将该目标收货地址确定为恶意地址,根据上述方式,该服务器可以将获取到的每个收货地址与该至少一个恶意地址模板进行比较,以识别出恶意地址,从而提高了识别恶意地址的效率以及准确度。

图3A是根据一示例性实施例示出的一种恶意地址识别装置的结构框图。参照图3A,该装置包括分词模块301、生成模块302、第一判断模块303和第一确定模块304。

分词模块301,用于当获取到目标收货地址时,对该目标收货地址进行分词处理,得到该目标收货地址包括的多个字符;

生成模块302,用于基于该目标收货地址包括的多个字符,生成目标地址模板;

第一判断模块303,用于判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板;

第一确定模块304,用于当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,确定该目标收货地址为恶意地址。

可选地,参见图3B,该第一判断模块303包括:

判断单元3031,用于判断该至少一个恶意地址模板中是否存在与该目标地址模板相同的恶意地址模板;

第一确定单元3032,用于当该至少一个恶意地址模板中存在与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板;

第二确定单元3033,用于当该至少一个恶意地址模板中不存在与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中每个恶意地址模板与该目标地址模板之间的模板相似度;

第三确定单元3034,用于当该至少一个恶意地址模板中存在与该目标地址模板之间的模板相似度大于或等于相似度阈值的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板。

可选地,参见图3C,该装置还包括:

聚合模块305,用于对存储的多个收货地址进行聚合,得到至少一个地址集合;

第二确定模块306,用于对于该至少一个地址集合中的每个地址集合,基于该地址集合中包括的多个收货地址,确定多个地址模板,该多个收货地址与该多个地址模板一一对应;

第三确定模块307,用于对于该多个地址模板中的每个地址模板,确定第一次数,该第一次数为该地址模板在该多个地址模板中出现的次数;

第二判断模块308,用于判断该第一次数是否大于或等于第一次数阈值;

第四确定模块309,用于当该第一次数大于或等于该第一次数阈值时,确定该地址模板为恶意地址模板。

可选地,参见图3D,该聚合模块305包括:

第一分词单元3051,用于对于该多个收货地址中的每个收货地址,对该收货地址进行分词处理,得到该收货地址包括的多个字符;

截取单元3052,用于分别从该收货地址的特定位置开始截取指定数量的字符,得到多个字符单元;

第一获取单元3053,用于从该多个收货地址中获取满足指定条件的收货地址,该指定条件为同一位置出现相同字符单元且该相同字符单元所在的收货地址的个数大于数量阈值;

第一组成单元3054,用于将获取的收货地址组成地址集合。

可选地,参见图3E,该第二确定模块306包括:

第二分词单元3061,用于对该地址集合中的每个收货地址进行分词处理,得到该每个收货地址包括的多个字符;

标记单元3062,用于分别对该每个收货地址包括的每个字符按照指定顺序进行标记;

第二组成单元3063,用于将标记后的多个收货地址包括的多个字符,组成字符集合;

第四确定单元3064,用于对于该字符集合包括的每个字符,确定第二次数,该第二次数为该字符在该字符集合中出现的次数;

第二获取单元3065,用于从该字符集合中,获取第二次数大于或等于第二次数阈值的字符;

第五确定单元3066,用于基于获取的字符和该地址集合,确定该多个地址模板。

可选地,该第五确定单元3066包括:

排列子单元,用于基于获取的字符的标记,将获取的字符按照该指定顺序进行排列,得到字符序列;

删除子单元,用于删除该字符序列中各个字符的标记;

代替子单元,用于对于该地址集合中的每个收货地址,将该字符序列中与该收货地址相比所缺少的字符采用指定标识代替,得到该收货地址对应的地址模板。

在本公开实施例中,服务器可以从存储的多个收货地址中,确定至少一个恶意地址模板,当该服务器获取到目标收货地址时,可以确定该目标收货地址的目标地址模板,并将目标地址模板与该至少一个恶意地址模板中的每个恶意地址模板进行比较,当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,将该目标收货地址确定为恶意地址,根据上述方式,该服务器可以将获取到的每个收货地址与该至少一个恶意地址模板进行比较,以识别出恶意地址,从而提高了识别恶意地址的效率以及准确度。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于恶意地址识别的装置400的框图。例如,装置400可以被提供为一服务器。参照图4,装置400包括处理组件422,其进一步包括一个或多个处理器,以及由存储器432所代表的存储器资源,用于存储可由处理组件422的执行的指令,例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。

装置400还可以包括一个电源组件426被配置为执行装置400的电源管理,一个有线或无线网络接口450被配置为将装置400连接到网络,和一个输入输出(I/O)接口458。装置400可以操作基于存储在存储器432的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。

此外,处理组件422被配置为执行指令,以执行一种恶意地址识别方法,该方法包括:

当获取到目标收货地址时,对该目标收货地址进行分词处理,得到该目标收货地址包括的多个字符;

基于该目标收货地址包括的多个字符,生成目标地址模板;

判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板;

当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,确定该目标收货地址为恶意地址。

可选地,判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板,包括:

判断该至少一个恶意地址模板中是否存在与该目标地址模板相同的恶意地址模板;

当该至少一个恶意地址模板中存在与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板;

当该至少一个恶意地址模板中不存在与该目标地址模板相同的恶意地址模板时,确定该至少一个恶意地址模板中每个恶意地址模板与该目标地址模板之间的模板相似度;

当该至少一个恶意地址模板中存在与该目标地址模板之间的模板相似度大于或等于相似度阈值的恶意地址模板时,确定该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板。

可选地,判断存储的至少一个恶意地址模板中是否存在与该目标地址模板匹配的恶意地址模板之前,还包括:

对存储的多个收货地址进行聚合,得到至少一个地址集合;

对于该至少一个地址集合中的每个地址集合,基于该地址集合中包括的多个收货地址,确定多个地址模板,该多个收货地址与该多个地址模板一一对应;

对于该多个地址模板中的每个地址模板,确定第一次数,该第一次数为该地址模板在该多个地址模板中出现的次数;

判断该第一次数是否大于或等于第一次数阈值;

当该第一次数大于或等于该第一次数阈值时,确定该地址模板为恶意地址模板。

可选地,对存储的多个收货地址进行聚合,得到至少一个地址集合,包括:

对于该多个收货地址中的每个收货地址,对该收货地址进行分词处理,得到该收货地址包括的多个字符;

分别从该收货地址的特定位置开始截取指定数量的字符,得到多个字符单元;

从该多个收货地址中获取满足指定条件的收货地址,该指定条件为同一位置出现相同字符单元且该相同字符单元所在的收货地址的个数大于数量阈值;

将获取的收货地址组成地址集合。

可选地,基于该地址集合中包括的多个收货地址,确定多个地址模板,包括:

对该地址集合中的每个收货地址进行分词处理,得到该每个收货地址包括的多个字符;

分别对该每个收货地址包括的每个字符按照指定顺序进行标记;

将标记后的多个收货地址包括的多个字符,组成字符集合;

对于该字符集合包括的每个字符,确定第二次数,该第二次数为该字符在该字符集合中出现的次数;

从该字符集合中,获取第二次数大于或等于第二次数阈值的字符;

基于获取的字符和该地址集合,确定该多个地址模板。

可选地,基于获取的字符和该地址集合,确定该多个地址模板,包括:

基于获取的字符的标记,将获取的字符按照该指定顺序进行排列,得到字符序列;

删除该字符序列中各个字符的标记;

对于该地址集合中的每个收货地址,将该字符序列中与该收货地址相比所缺少的字符采用指定标识代替,得到该收货地址对应的地址模板。

在本公开实施例中,当服务器获取到目标收货地址时,可以确定该目标收货地址的目标地址模板,并将目标地址模板与至少一个恶意地址模板中的每个恶意地址模板进行比较,当该至少一个恶意地址模板中存在与该目标地址模板匹配的恶意地址模板时,将该目标收货地址确定为恶意地址,根据上述方式,服务器可以将获取到的每个收货地址与该至少一个恶意地址模板进行比较,以识别出恶意地址,从而提高了识别恶意地址的效率以及准确度。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1