邮箱表征模型训练方法及装置、介质、设备与流程

文档序号：35379014发布日期：2023-09-09 01:33阅读：41来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本说明书一个或多个实施例涉及模型训练，尤其涉及一种邮箱表征模型训练方法及装置、介质、设备。

背景技术：

1、通过对外部风控服务商做调研，发现邮箱是识别风险的重要维度。但是在国际风控业务场景中，诸多风控模型的特征都是基于表格数据而构建的，邮箱的特征并不能实现很好的表征，因此邮箱不能的应用在风险防控中。

技术实现思路

1、本说明书一个或多个实施例描述了一种邮箱表征模型训练方法及装置、介质、设备。

2、根据第一方面，本说明书实施例提供的邮箱表征模型训练方法，包括：

3、将预设邮箱集中的每一个邮箱映射为对应的表征矩阵；其中，每一个邮箱对应的表征矩阵中包括n个表征向量，第i个表征向量用于表征该邮箱中第i个字符的所属类型，n为该邮箱中字符的数量，n为大于1的正整数；

4、将每一个邮箱对应的表征矩阵输入至待训练的循环神经网络中，得到该邮箱对应的结构性特征向量；每一个邮箱对应的结构性特征向量用于表征该邮箱的结构性特征，每一个邮箱的结构性特征包括该邮箱中包括的各个字符各自的所属类型以及各个类型的字符之间的位置排序关系；

5、根据每一个邮箱对应的结构性特征向量，生成该邮箱对应的正样本对；

6、利用各个邮箱对应的正样本对，对所述循环神经网络进行模型训练，得到邮箱表征模型，所述邮箱表征模型能够针对结构性特征的相似度越高的不同邮箱输出相似度越高的结构性特征向量。

7、根据第二方面，本说明书实施例提供的邮箱表征模型训练装置，包括：

8、第一映射模块，用于将预设邮箱集中的每一个邮箱映射为对应的表征矩阵；其中，每一个邮箱对应的表征矩阵中包括n个表征向量，第i个表征向量用于表征该邮箱中第i个字符的所属类型，n为该邮箱中字符的数量，n为大于1的正整数；

9、向量获取模块，用于将每一个邮箱对应的表征矩阵输入至待训练的循环神经网络中，得到该邮箱对应的结构性特征向量；每一个邮箱对应的结构性特征向量用于表征该邮箱的结构性特征，每一个邮箱的结构性特征包括该邮箱中包括的各个字符各自的所属类型以及各个类型的字符之间的位置排序关系；

10、样本形成模块，用于根据每一个邮箱对应的结构性特征向量，生成该邮箱对应的正样本对；

11、模型训练模块，用于利用各个邮箱对应的正样本对，对所述循环神经网络进行模型训练，得到邮箱表征模型，所述邮箱表征模型能够针对结构性特征的相似度越高的不同邮箱输出相似度越高的结构性特征向量。

12、根据第三方面，本说明书实施例提供的计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面提供的方法。

13、根据第四方面，本说明书实施例提供的计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面提供的方法。

14、本说明书实施例提供的邮箱表征模型训练方法及装置、介质、设备，首先将预设邮箱集中的每一个邮箱映射为对应的表征矩阵，然后将每一个邮箱对应的表征矩阵输入至待训练的循环神经网络中得到该邮箱对应的结构性特征向量，再根据每一个邮箱对应的结构性特征向量生成该邮箱对应的正样本对，最后基于各个邮箱对应的正样本对对所述循环神经网络进行模型训练，得到邮箱表征模型。在本发明实施例中，通过结构性特征向量对邮箱的结构性特征进行刻画，体现一个邮箱中包括哪些类型的字符、这些类型的字符之间的位置先后关系等信息，而结构性特征对于邮箱的相似性判别十分重要。邮箱虽然是文本类型数据，但是邮箱中包含的语义信息很少，因此结构性特征相对于语义信息来说，可以更好的体现邮箱的安全风险，因此结构性特征相比于语义信息对于邮箱在风控场景中的应用意义更大。可见，通过本发明实施例提供的邮箱表征模型训练方法得到的邮箱表征模型，可以实现对邮箱的结构性特征的刻画，可以很好的服务于国际邮箱风险的相关风控场景。同时，训练过程不需要人工标注样本，既节约人力，又节约时间，可以很快的训练得到所需的邮箱表征模型。

技术特征：

1.一种邮箱表征模型训练方法，包括：

2.根据权利要求1所述的方法，其中，所述将预设邮箱集中的每一个邮箱映射为对应的表征矩阵，包括：

3.根据权利要求2所述的方法，其中，每一个字符的所属类型为元音字母、辅音字母、数字、特殊字符或空格。

4.根据权利要求2所述的方法，其中，所述将每一个邮箱对应的数字序列映射为对应的表征矩阵，包括：利用嵌入层将每一个邮箱对应的数字序列中的每一个数字转换为对应的表征向量。

5.根据权利要求1所述的方法，其中，所述根据每一个邮箱对应的结构性特征向量，生成该邮箱对应的正样本对，包括：将每一个邮箱对应的结构性特征向量分别进行两次正则化处理，得到该邮箱对应的正样本对。

6.根据权利要求5所述的方法，其中，所述将每一个邮箱对应的结构性特征向量分别进行两次正则化处理，得到该邮箱对应的正样本对，包括：

7.根据权利要求1所述的方法，其中，所述循环神经网络为长短期记忆人工神经网络。

8.一种邮箱表征模型训练装置，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1～7任一项所述的方法。

10.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1～7任一项所述的方法。

技术总结
本说明书实施例提供了一种邮箱表征模型训练方法及装置、介质、设备。方法包括：将预设邮箱集中的每一个邮箱映射为对应的表征矩阵；将每一个邮箱对应的表征矩阵输入至待训练的循环神经网络中，得到该邮箱对应的结构性特征向量；根据每一个邮箱对应的结构性特征向量，生成该邮箱对应的正样本对；利用各个邮箱对应的正样本对，对所述循环神经网络进行模型训练，得到邮箱表征模型。通过本发明实施例得到的邮箱表征模型可以实现对邮箱的结构性特征的刻画。

技术研发人员：江陈伟南
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江陈伟南
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。