一种基于数据增强的以太坊账户身份识别方法及系统

文档序号:37304988发布日期:2024-03-13 20:52阅读:13来源:国知局
一种基于数据增强的以太坊账户身份识别方法及系统

本发明涉及一种基于数据增强的以太坊账户身份识别方法及系统,属于区块链。


背景技术:

1、区块链是一种去中心化的数据存储技术,提供安全、防篡改、可追溯的数据记录。区块链技术提供的巨大经济价值和匿名性使其成为黑客和其他网络犯罪分子的有吸引力的目标。区块链上的每个人都有一个虚拟身份,称为假名,它与他们的现实世界身份没有直接联系。假名账户可能会导致难以识别参与区块链非法交易的个人,这可能导致金融犯罪,例如庞氏骗局、赌博和网络钓鱼欺诈。考虑到该领域金融犯罪的潜在后果,制定有效的区块链安全策略至关重要。

2、目前以太坊账户身份标签主要是发布在第三方网站,其中ethscan是以太坊最有名的账户身份标签网站。访问该网站可以看出存在大量分类的以太坊账户身份标签,并且各类账户标签数据很不平衡,比如gambling标签账户是151条,defi标签账户是1879,两者不平衡率达到12倍。从ethscan网站采集了phish/hack、gambling、ponzi、mining、defi标签的账户数据,phish/hack与ponzi账户标签数量的不平衡率最大达到46.5倍(如表1所示)。通过实验验证发现(如表1所示),现有以太坊账户身份识别方法在这类不平衡数据集上的效果比较差。

3、表1phish/hack与ponzi账户标签数量的不平衡率

4、 分类 phish/hack gambling ponzi mining defi 账户数 2326 143 50 194 1861 不平衡比例 46.5 2.8 1 3.8 37.2

5、表2现有方法对小样本gambling、ponzi、mining三类账户身份识别效果

6、 现有方法 phish/hack gambling ponzi mining defi fagnn 0.92 0.18 0.22 0.44 0.71 ttagn 0.82 0.15 0.14 0.63 0.55


技术实现思路

1、针对现有以太坊账户身份识别方法在不平衡数据集上的效果比较差,本发明提供了一种基于数据增强的以太坊账户身份识别方法与系统,其目的在于通过数据增强,优化数据分布,提升以太坊账户身份识别效果。本发明通过从以太坊账户的统计特征、时序交易特征和交易结构特征等出发设计以太坊节点账户特征表示,利用生成对抗模型来平衡小样本数据分布,同时深度挖掘few-shot(小样本)节点类别生成特定的特征,训练多层感知机对账户身份进行分类,提供高效、准确的以太坊账户身份识别方法,为以太坊平台的异常账户监管提供数据支撑。

2、为了实现上述目的,本发明的技术方案为:

3、一种基于数据增强的以太坊账户身份识别方法,其步骤包括:

4、1)根据以太坊网络中的账户交易信息以及以太坊网络中各节点的标签信息,构建出具有标签的全局账户交易图;每一以太坊账户对应所述全局账户交易图中的一节点;

5、2)从以太坊网络中获取每一节点的统计特征、时序交易特征和交易结构特征,并将每一节点的特征作为该节点对应的节点信息加入到所述全局账户交易图;然后将所述全局账户交易图输入图卷积网络,对每个节点及其邻居节点的信息进行聚合,作为对应节点的多维融合特征;

6、3)将每一节点作为一个样本,通过生成对抗网络根据各节点的多维融合特征学习得到少样本节点类别的完整特征潜在分布;根据样本的实际分布与所述完整特征潜在分布之间的差异优化所述生成对抗网络;然后利用优化后的所述生成对抗网络中的生成器生成少样本节点类别的多维融合特征,然后将所生成特征添加到样本集的特征矩阵x中,增加训练样本,得到增强样本集及其对应的增强特征矩阵x’;

7、4)将增强特征矩阵x’输入多层感知器mlp,得到对应的分类结果(mlp(x’);然后根据所得分类结果(mlp(x’)与增强样本集的节点标注标签label node’之间的交叉熵优化多层感知器mlp,将优化后的多层感知器mlp作为分类器;

8、5)对于一待识别的以太坊账户a,获取该以太坊账户a对应的多维融合特征并将其输入到所述分类器中,得到该以太坊账户a对应的身份类别。

9、进一步的,利用基于注意力的lstm网络获取所述时序交易特征,其方法为:

10、(a)针对每一节点,查找其邻接节点;

11、(b)按照交易时间戳顺序对该节点的邻接节点进行排序;

12、(c)按时序将该节点的每一邻接节点依次输入lstm层、注意力层,得到各邻接节点的时序交易特征;

13、(d)将注意力层输出的各邻接节点的交易特征进行拼接形成该节点的时序交易特征。

14、进一步的,获取所述交易结构特征的方法为:对于每一节点,以该节点为中心对所述全局账户交易图按照最大跳数1进行一跳子图划分,创建一跳子图数据集作为该节点的交易结构特征。

15、进一步的,所述一跳子图g={v,e,av,tr},其中v表示节点集合,e表示节点之间的边集合,av表示一跳子图对应的维度为(n_node,base_dim+series_dim)的特征矩阵,n_node表示一跳子图中的节点总数,base_dim为节点的基本统计特征的维度,series_dim表示节点的时序交易特征的维度。对于账户节点的特征矩阵,每行表示一个节点的统计特征和时序交易特征的拼接。tr表示账户之间的交易序列集合,长度为n_edge,表示账户之间交易关系边的数量。每个交易序列包含一对节点之间的交易金额、时间戳和方向信息。

16、进一步的,得到所述增强样本集的方法为:

17、51)将样本集中每一样本的多维融合特征的各维度标准化到0-1范围内并输入到所述生成对抗网络中学习得到少样本节点类别的完整特征潜在分布;

18、52)所述生成对抗网络的生成器为少样本节点类别生成仿造的多维融合特征并将其加入到将样本集对应的特征矩阵中;

19、53)所述生成对抗网络中的鉴别器根据更新后的特征矩阵计算对应的样本实际分布与当前完整特征潜在分布之间的差异,然后根据所述差异优化所述生成对抗网络;

20、54)利用优化后的所述生成对抗网络中的生成器生成少样本节点类别的多维融合特征并对其反向标准化;

21、55)将反向标准化的多维融合特征添加到样本集的特征矩阵x中,得到增强特征矩阵x’;根据反向标准化的多维融合特征生成对应的样本并添加到所述样本集中,得到增强样本集。

22、进一步的,所述差异为wasserstein距离。

23、一种基于数据增强的以太坊账户身份识别系统,其特征在于,包括数据预处理模块、特征提取模块、特征融合模块、分类器训练模块和身份类别模块;

24、所述数据预处理模块,用于根据以太坊网络中的账户交易信息以及以太坊网络中各节点的标签信息,构建出具有标签的全局账户交易图;每一以太坊账户对应所述全局账户交易图中的一节点;

25、所述特征提取模块,用于从以太坊网络中获取每一节点的统计特征、时序交易特征和交易结构特征;

26、所述特征融合模块,用于将每一节点的特征作为该节点对应的节点信息加入到所述全局账户交易图;然后将所述全局账户交易图输入图卷积网络,对每个节点及其邻居节点的信息进行聚合,作为对应节点的多维融合特征;

27、所述分类器训练模块,用于将每一节点作为一个样本,通过生成对抗网络根据各节点的多维融合特征学习得到少样本节点类别的完整特征潜在分布;根据样本的实际分布与所述完整特征潜在分布之间的差异优化所述生成对抗网络;然后利用优化后的所述生成对抗网络中的生成器生成少样本节点类别的多维融合特征,然后将所生成特征添加到样本集的特征矩阵x中,增加训练样本,得到增强样本集及其对应的增强特征矩阵x’;然后将增强特征矩阵x’输入多层感知器mlp,得到对应的分类结果(mlp(x’);然后根据所得分类结果(mlp(x’)与增强样本集的节点标注标签label node’之间的交叉熵优化多层感知器mlp,将优化后的多层感知器mlp作为分类器;

28、所述身份类别模块,用于对于一待识别的以太坊账户a,获取该以太坊账户a对应的多维融合特征并将其输入到所述分类器中,得到该以太坊账户a对应的身份类别。

29、一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。

30、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。

31、本发明综合考虑提取以太坊账号数据多维特征融合节点表示、few-shot账户数据增强和基于数据增强的深度学习分类器,形成一套完善的以太坊账号身份识别流程框架ethgan框架(见附图2所示)。

32、本发明提出的以太坊账号身份识别方法或系统按照数据流包括以下四方面:

33、1.ethgan框架,根据数据流向,该框架完整的工作流程概括为:(1)提取统计和时序交易特征;(2)多特征融合节点表示;(3)few-shot账户数据增强;(4)基于数据增强的分类。

34、2.多维特征融合,将以太坊账户的统计特征、时序交易特征和交易结构特征三个维度提取的特征输入图卷积操作,将每个账户的邻居节点的信息聚合到自身的节点表示中,形成更丰富和有意义的特征表示,这些特征表示将用于后续的分类任务,从而提高分类任务的准确性和性能。

35、3.数据样本增强,通过生成对抗网络学习少样本节点类别的完整特征潜在分布,引入wasserstein距离度量来衡量实际数据分布和生成数据分布(学习少样本节点类别所得的完整特征潜在分布)之间的差异,生成器和判别器会通过迭代训练来优化wasserstein距离。通过利用训练好的生成器生成额外的少样本节点类别的账户特征。然后将这些生成特征添加到训练集的特征矩阵x中,增加训练样本,直到所有类别的样本数量大致平衡。

36、4.专有分类器设计,针对few-shot节点类别生成特定的特征,设计合理的分类器,包括深度学习模型的设计和损失函数的设计,已实现最佳的账户身份识别效果。

37、通过ethgan框架中多维特征融合、数据样本增强、设计专用分类器三阶段的处理,完成以太坊账户数据的预处理和增强,通过分类器判别达到账号身份识别的目的,本发明为后续以太坊账户反诈和交易追踪提供技术支撑。

38、本发明的优点如下:

39、本发明提出的ethgan框架不仅显著提高了多类别以太坊账户身份识别效果。ethgan通过在大规模样本的defi和phish/hack账户分类方面实现了最佳性能,展示了强大的泛化能力。这证明ethgan在不平衡数据集上识别以太坊账户身份的能力很强。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1