基于跨模态检索的区块链赌博行为识别方法及系统

文档序号:33894302发布日期:2023-04-21 03:50阅读:70来源:国知局
基于跨模态检索的区块链赌博行为识别方法及系统

本发明属于区块链安全领域,具体涉及一种基于跨模态检索的区块链赌博行为识别方法及系统。


背景技术:

1、近年来,区块链技术发展迅速,受到了各界的广泛关注。区块链本质上是一个分布式账本,在点对点网络中的所有参与节点之间共享。区块链最关键特征是它能在互不信任的点对点网络中维护一个安全且不可变的交易账本。区块链技术的出现为智能合约提供了执行环境。智能合约是存储在区块链上的程序,能够按照预设置的条件自动执行,且该执行是确定且不可逆的,从而确保所有参与者的公平。

2、传统的赌博网站存在诸如赌博过程不透明、奖池虚构和拒绝支付获胜者奖金等问题;相比之下,基于智能合约的赌博应用是严格按照预定义的规则来执行赌博规则,且整个过程是完全透明的。因此,基于智能合约的赌博应用数量在过去几年中飞速增长,这也进一步对区块链上的赌博行为识别和监管提出了严格要求。

3、当前,区块链网络中实体和交易数量已经达到数亿规模,且数量还在急剧上升。通过对这些实体和交易进行分析,用户能够清楚感知区块链中存在的赌博风险,从而保障用户自身权益;此外,对区块链中实体和交易的赌博行为进行识别也能为整个区块链生态系统提供一种新颖的安全防护方案。然而,现阶段并没有能够自动识别区块链赌博行为的技术方案,主要存在以下困难:

4、(1)区块链中的交易、账户、智能合约等数据是异构的、多模态的,要实现对赌博行为的分析,就需要联合交易、地址账户、智能合约等这多种实体类型。现阶段仍然缺乏针对性的跨模态数据提取方法。

5、(2)智能合约在部署到以太坊之前被编译成字节码。汇编语言形式的字节码不同于源码,它由一系列二进制码组成,很难利用工具直接进行理解和分析。现有的方法通常采用人工经验、反编译等手段对字节码进行分析,这些方法一方面无法准确捕捉到智能合约的语义信息,另一方面会产生大量的误判。

6、(3)不同地址的交易数据规模差异很大。一个地址参与交易的数量通常为一条到上万条不等,要实现对交易数据进行分析,需要为这些交易规模差异巨大的地址设计一个通用的特征提取框架。


技术实现思路

1、针对区块链中大规模赌博行为识别技术存在的难点,本发明提供了基于跨模态检索的区块链赌博行为识别方法及系统。本发明通过对区块链网络中大规模的异构数据进行收集,引入反编译技术和图信息提取技术对数据进行处理,其中反编译技术用于对智能合约的特征进行提取,图信息提取技术用于对地址的交易特征进行提取;最后,利用跨模态检索技术实现对参与赌博的智能合约和地址的识别。

2、本发明采用的技术方案如下:

3、第一个目的,本发明提供了一种基于跨模态检索的区块链赌博行为识别方法,包括如下步骤:

4、(1)智能合约赌博行为识别:利用智能合约字节码来识别与赌博相关的智能合约;

5、(2)地址赌博行为识别:利用图信息提取技术来识别与赌博合约相关的地址;

6、(3)赌博行为识别结果校正:根据地址赌博行为识别结果,采用反馈校正方法对步骤(1)得到的智能合约赌博行为识别结果进行校正。

7、进一步地,所述步骤(1)包括:

8、(1-1)通过反编译技术对智能合约字节码进行反编译,得到智能合约操作码序列;

9、(1-2)从智能合约操作码序列中提取与赌博行为相关的操作码,根据每一个与赌博行为相关的操作码的出现次数构建智能合约的特征向量;

10、(1-3)采用基于记忆组件的lightgbm分类模型对智能合约的特征向量进行分类,分类类型包括赌博合约和非赌博合约。

11、进一步地,所述步骤(2)包括:

12、(2-1)收集与赌博合约进行过交易的地址和对应的交易金额,对每一个交易地址构建交易图;

13、(2-2)从交易图中提取交易特征向量,包括基础指标特征、度指标特征和金额指标特征;所述的基础指标特征由交易图的边数量、点数量、输入边数量和输出边数量构成,所述的度指标特征由交易图的度数、入度数和出度数构成;所述的金额指标特征由总金额数、总输入金额数、总输出金额数、平均金额数、平均输入金额数、平均输出金额数、输入金额方差和输出金额方差构成;

14、(2-3)采用基于记忆组件的lightgbm分类模型对交易图的交易特征向量进行分类,分类类型包括赌博地址和非赌博地址。

15、进一步地,所述交易图的构建方法为:将每一个交易地址转换为点,如果所述交易地址在某一条交易中是支付地址,则构建从该交易地址出发的输出边;相反,如果所述交易地址是收款地址,则构建指向该交易地址的输入边;边的权重为交易金额。

16、进一步地,所述的基于记忆组件的lightgbm分类模型的训练过程为:

17、a,在第一轮训练中,使用所有训练样本训练lightgbm分类模型;

18、b,将被错误分类的样本及其对应的标签挑选出来,放入记忆组件中;

19、c,在第下一轮训练中,首先采用所有训练样本对lightgbm分类模型进行k个epoch的训练,然后添加一个额外的epoch来重放记忆组件中记录的错误分类的样本,所述额外的epoch的构建方法为:假设每个epoch的训练样本数量为n,则从记忆组件中所有错误分类的样本中随机选取出n个样本来构造额外的epoch,如果错误分类的样本数量不足n,则从全部的训练样本中随机抽取补足;

20、d,重复步骤b至c,直至迭代结束。

21、进一步地,步骤(3)中所述的反馈校正方法为:如果与赌博合约相关的所有地址中,被识别为赌博地址的比例不超过阈值,则将赌博合约的识别结果校正为非赌博合约。

22、第二个目的,本发明提供了一种基于跨模态检索技术的区块链赌博行为识别系统,包括:

23、智能合约赌博行为识别模块,其用于利用智能合约字节码来识别与赌博相关的智能合约;

24、地址赌博行为识别模块,其用于利用图信息提取技术来识别与赌博合约相关的地址;

25、赌博行为识别结果校正模块,其用于根据地址赌博行为识别模块的识别结果,采用反馈校正方法对智能合约赌博行为识别模块的识别结果进行校正。

26、作为本发明的优选,所述的智能合约赌博行为识别模块包括:

27、evm反编译器,其用于通过反编译技术对智能合约字节码进行反编译,得到智能合约操作码序列;

28、操作符提取器,其用于从智能合约操作码序列中提取与赌博行为相关的操作码,根据每一个与赌博行为相关的操作码的出现次数构建智能合约的特征向量;

29、智能合约分类器,其用于采用基于记忆组件的lightgbm分类模型对智能合约的特征向量进行分类,分类类型包括赌博合约和非赌博合约。

30、作为本发明的优选,所述的地址赌博行为识别模块包括:

31、交易图构造器,其用于收集与赌博合约进行过交易的地址和对应的交易金额,对每一个交易地址构建交易图;

32、图结构提取器,其用于从交易图中提取交易特征向量,包括基础指标特征、度指标特征和金额指标特征;所述的基础指标特征由交易图的边数量、点数量、输入边数量和输出边数量构成,所述的度指标特征由交易图的度数、入度数和出度数构成;所述的金额指标特征由总金额数、总输入金额数、总输出金额数、平均金额数、平均输入金额数、平均输出金额数、输入金额方差和输出金额方差构成;

33、地址行为分类器,其用于采用基于记忆组件的lightgbm分类模型对交易图的交易特征向量进行分类,分类类型包括赌博地址和非赌博地址。

34、作为本发明的优选,所述赌博行为识别结果校正模块中的反馈校正方法为:如果与赌博合约相关的所有地址中,被识别为赌博地址的比例不超过阈值,则将赌博合约的识别结果校正为非赌博合约。

35、本发明在现有的区块链赌博实体行为识别研究中主要有以下贡献:

36、(1)本发明首次提出了从区块链多模态数据中检测赌博合约和赌博地址的新问题,,并提出了该问题的首个精准高效的解决思路,具体设计了两个针对多模态数据的特征提取方法,分别为智能合约字节码特征提取范式以及以太坊地址交易的特征提取范式,实现了对参与赌博的合约和地址的高精度识别。通过在百万级以上的数据集中验证得到,本发明所提出的方法在赌博地址和赌博合约两个任务的f1-score指标上分别达到了0.72和0.89,充分说明了本发明的有效性。

37、(2)本发明创新性地提出了跨模态的分类结果校正机制。该校正机制能够利用赌博地址的分类结果对赌博合约的分类结果进行校正,能够在不降低召回率的前提下提高分类的精确度,从而提高框架整体的识别准确率。通过采用分类结果校正机制,赌博合约分类的f1-score指标从0.82上升到了0.89,充分说明了本发明的有效性。

38、(3)本发明创新性地提出了带有记忆组件的lightgbm分类模型。该分类模型在训练过程中,通过挑选出上一轮训练时被错误分类的样本,并将其用于下一轮训练中的样本子集构建中,能够进一步提高赌博行为识别的分类准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1