基于多组学技术的数字货币识别方法、系统和存储介质与流程

文档序号:26914735发布日期:2021-10-09 15:51阅读:124来源:国知局
基于多组学技术的数字货币识别方法、系统和存储介质与流程

1.本发明涉及数字货币技术领域,更具体的,涉及一种基于多组学技术的数字货币识别方法、系统和存储介质。


背景技术:

2.数字货币因其基于数学和密码学原理的强大安全性而越来越受欢迎,可是,数字货币的出现和扩散使用户能够规避法定货币,并在花钱或收款 (btc) 时避免审查,一方面,这种伪匿名允许用户隐藏他们的财富并保留他们的隐私,另一方面,它允许用户在没有当局找到肇事者的情况下从事非法活动。
3.某些反洗钱解决方案机构能够通过采取「可视化资金流向」、「智能追踪」、「主体识别」三大功能,准确定位到相关的洗钱交易账户,帮助警方抓获犯罪嫌疑人,采用聚类分析和多组学技术后可增加追踪效率。随着高通量技术的发展,我们能够通过最先进的数据库获取大量的有关数字货币信息和数据,洗钱账户在可视化资金流向、智能追踪、主体识别几个方面都有各自的特点,但是,收集有关生账户信息时,账户和交易系统的复杂性、技术限制、大量的样本和相对较少的变量会影响现有技术的发挥,具体包括应用质量低、数据安全隐患大以及数据共享难等问题。


技术实现要素:

4.鉴于上述问题,本发明的目的是提供一种基于多组学技术的数字货币识别方法、系统和存储介质,能够对问题账户进行快速高效识别,精准追踪洗钱交易账户。
5.本发明第一方面提供了一种基于多组学技术的数字货币识别方法,包括以下步骤:基于基因共表达网络技术构建相似度比较网络,并通过大数据进行相关性检测分析得到所述相似度比较网络相邻节点间的交易数据;通过预设的多层异构网络整合不同类型的交易数据集,并通过预设的图卷积技术进行嵌入以获取数字资产交易数据;将所述数字资产交易数据输入到训练好的非法交易神经网络模型中,以得到模拟输出结果,进而提取交易识别结果。
6.本方案中,所述基于基因共表达网络技术构建相似度比较网络,并通过大数据进行相关性检测分析得到所述相似度比较网络相邻节点间的交易数据,具体为:将一组账户表示为一个节点,并将所述节点边缘定义为预设时间内与所述相邻节点的总交易量;基于基因共表达网络技术构建所述相似度比较网络,以将所有成对的所述数字资产交易数据连接到同一个网络上;通过大数据进行相关性检测分析,得到所述相邻节点间的交易数据。
7.本方案中,所述通过大数据进行相关性检测分析,得到所述相邻节点间的交易数据,具体为:基于大数据检测基因组学与其他高通量组学数据的相互作用关系;通过识别所述相互作用关系中的共变组件与连接关系,得到所述相邻节点间的条件依赖性以及所述相似度比较网络中功能关联的底层网络结构。
8.所述通过预设的多层异构网络整合不同类型的交易数据集,并通过预设的图卷积技术进行嵌入以获取数字资产交易数据,具体为:通过所述多层异构网络整合不同类型的交易数据集以解决数据缺失以及特定数据集缺失的交易情形;通过所述图卷积技术进行嵌入所述多层异构网络,以对数字资产交易数据进行分类,并提取确定的交易情形。
9.所述非法交易神经网络模型训练方法为:获取历史检测数据的非法交易数据与合法交易数据;将所述历史检测数据的非法交易数据与合法交易数据进行预处理,得到训练样本集;将所述训练样本集输入至初始化的所述非法交易神经网络模型中训练;获取输出结果的准确率;若所述准确率大于预设的准确率阈值,则停止训练,得到所述非法交易神经网络模型。
10.本方案中,所述方法还包括:利用分布式机器学习技术对所述交易数据集进行扩展。
11.本发明第二方面还提供一种基于多组学技术的数字货币识别系统,包括存储器和处理器,所述存储器中包括基于多组学技术的数字货币识别方法程序,所述基于多组学技术的数字货币识别方法程序被所述处理器执行时实现如下步骤:基于基因共表达网络技术构建相似度比较网络,并通过大数据进行相关性检测分析得到所述相似度比较网络相邻节点间的交易数据;通过预设的多层异构网络整合不同类型的交易数据集,并通过预设的图卷积技术进行嵌入以获取数字资产交易数据;将所述数字资产交易数据输入到训练好的非法交易神经网络模型中,以得到模拟输出结果,进而提取交易识别结果。
12.本方案中,所述基于基因共表达网络技术构建相似度比较网络,并通过大数据进行相关性检测分析得到所述相似度比较网络相邻节点间的交易数据,具体为:将一组账户表示为一个节点,并将所述节点边缘定义为预设时间内与所述相邻节点的总交易量;基于基因共表达网络技术构建所述相似度比较网络,以将所有成对的所述数字资产交易数据连接到同一个网络上;通过大数据进行相关性检测分析,得到所述相邻节点间的交易数据。
13.本方案中,所述通过大数据进行相关性检测分析,得到所述相邻节点间的交易数据,具体为:
基于大数据检测基因组学与其他高通量组学数据的相互作用关系;通过识别所述相互作用关系中的共变组件与连接关系,得到所述相邻节点间的条件依赖性以及所述相似度比较网络中功能关联的底层网络结构。
14.所述通过预设的多层异构网络整合不同类型的交易数据集,并通过预设的图卷积技术进行嵌入以获取数字资产交易数据,具体为:通过所述多层异构网络整合不同类型的交易数据集以解决数据缺失以及特定数据集缺失的交易情形;通过所述图卷积技术进行嵌入所述多层异构网络,以对数字资产交易数据进行分类,并提取确定的交易情形。
15.所述非法交易神经网络模型训练方法为:获取历史检测数据的非法交易数据与合法交易数据;将所述历史检测数据的非法交易数据与合法交易数据进行预处理,得到训练样本集;将所述训练样本集输入至初始化的所述非法交易神经网络模型中训练;获取输出结果的准确率;若所述准确率大于预设的准确率阈值,则停止训练,得到所述非法交易神经网络模型。
16.本方案中,所述方法还包括:利用分布式机器学习技术对所述交易数据集进行扩展。
17.本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于多组学技术的数字货币识别方法程序,所述基于多组学技术的数字货币识别方法程序被处理器执行时,实现如上述任一项所述的一种基于多组学技术的数字货币识别方法的步骤。
18.本发明公开的一种基于多组学技术的数字货币识别方法、系统和存储介质,通过多组学研究以明确交易账户的类型以及交易的具体流程,通过多层次与高通量组学数据的整合分析,可以精准追踪到问题账户,快速高效且准确性高;同时利用分布式机器学习可以大幅提高计算效率与使用延展性。
附图说明
19.图1示出了本发明一种基于多组学技术的数字货币识别方法的流程图;图2示出了本发明一种基于多组学技术的数字货币识别系统的框图。
具体实施方式
20.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
21.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
22.图1示出了本技术一种基于多组学技术的数字货币识别方法的流程图。
23.如图1所示,本技术公开了一种基于多组学技术的数字货币识别方法,包括以下步骤:s102,基于基因共表达网络技术构建相似度比较网络,并通过大数据进行相关性检测分析得到所述相似度比较网络相邻节点间的交易数据;s104,通过预设的多层异构网络整合不同类型的交易数据集,并通过预设的图卷积技术进行嵌入以获取数字资产交易数据;s106,将所述数字资产交易数据输入到训练好的非法交易神经网络模型中,以得到模拟输出结果,进而提取交易识别结果。
24.需要说明的是,基于基因共表达网络技术的相似性网络(sn)是将一组账户表示为一个顶点(例如,控股公司下的账户,或通过聚类推断共享一个所有者的账户),并将所述顶点边缘定义为一段时间内与相邻节点的总交易量,这是现行的数字资产活动取证分析的主要方法,本技术基于所述基因共表达网络技术结合最小二乘法与负二项式回归相结合来构建所述相似度比较网络;利用所述多层异构网络从网络中的每个节点开始计算节点邻域以整合不同类型的交易数据集,并利用所述图卷积技术的自动编码器根据每个账户的邻域来学习节点嵌入以获取所述数字资产交易数据,进而将所述数字资产交易数据作为所述非法交易神经网络模型输入,以得到所述模拟输出结果,进而提取交易识别结果,获取问题账户,进而提取其账户的交易数据以获取账户洗钱的证据。
25.根据本发明实施例,所述基于基因共表达网络技术构建相似度比较网络,并通过大数据进行相关性检测分析得到所述相似度比较网络相邻节点间的交易数据,具体为:将一组账户表示为一个节点,并将所述节点边缘定义为预设时间内与所述相邻节点的总交易量;基于基因共表达网络技术构建所述相似度比较网络,以将所有成对的所述数字资产交易数据连接到同一个网络上;通过大数据进行相关性检测分析,得到所述相邻节点间的交易数据。
26.需要说明的是,所述相似度比较网络的计算式如下:需要说明的是,所述相似度比较网络的计算式如下:需要说明的是,所述相似度比较网络的计算式如下:;其中,为所述节点,为给定参数系数,待所述相似度比较网络构建完成后,通过大数据分析可以得到相邻节点间的所述交易数据。
27.根据本发明实施例,所述通过大数据进行相关性检测分析,得到所述相邻节点间的交易数据,具体为:基于大数据检测基因组学与其他高通量组学数据的相互作用关系;
通过识别所述相互作用关系中的共变组件与连接关系,得到所述相邻节点间的条件依赖性以及所述相似度比较网络中功能关联的底层网络结构。
28.需要说明的是,利用基因组学和其他高通量组学数据从大规模观察中检测各数据间相互作用,并通过识别所述共变组件和连接关系,以得到所考虑节点之间的条件依赖性,并且可以发现表示功能关联的底层网络结构。
29.值得一提的是,获取到所述底层网络结构后,就可以对问题账户的交易网络进行提取,以对其进行交易的账户逐一识别,挖掘更多的问题账户。
30.根据本发明实施例,所述通过预设的多层异构网络整合不同类型的交易数据集,并通过预设的图卷积技术进行嵌入以获取数字资产交易数据,具体为:通过所述多层异构网络整合不同类型的交易数据集以解决数据缺失以及特定数据集缺失的交易情形;通过所述图卷积技术进行嵌入所述多层异构网络,以对数字资产交易数据进行分类,并提取确定的交易情形。
31.需要说明的是,本技术在无向多路异构网络上利用重启随机游走( rwr) 算法,从网络中的每个节点开始计算节点邻域,并应用 skip

gram 算法,根据节点的 rwr 排名学习网络中节点的潜在特征,在多组学场景中,利用具有两种不同类型节点的多层无向网络,rwr的稳态分布来生成网络中节点的邻域,公式如下:;其中,是所述重新启动概率(即,rwr移动到起始的节点),表示时刻节点的概率分布向量,表示时刻节点的概率分布向量,表示起始时刻节点的概率分布向量是网络的跃迁矩阵,这是由邻接矩阵的列正规化计算的转移矩阵的网络。
32.值得一提的是,上式方程将达到无向网络的稳定状态是时,的大小将影响 rwr 算法的收敛速度,其中较大的会导致快速收敛到稳态并限制随机游走的扩散,其中,稳态分布可以用作网络中从初始节点开始的节点的邻近向量。
33.根据本发明实施例,所述非法交易神经网络模型训练方法为:获取历史检测数据的非法交易数据与合法交易数据;将所述历史检测数据的非法交易数据与合法交易数据进行预处理,得到训练样本集;将所述训练样本集输入至初始化的所述非法交易神经网络模型中训练;获取输出结果的准确率;若所述准确率大于预设的准确率阈值,则停止训练,得到所述非法交易神经网络模型。
34.需要说明的是,非法交易神经网络模型需要大量的历史数据进行训练,数据量越大,则结果越准确,本技术中的非法交易神经网络模型可以通过历史检测数据的非法交易数据与合法交易数据作为输入进行训练,当然,在进行神经网络模型训练时,不仅要通过历
史检测数据的非法交易数据与合法交易数据进行训练,还需要结合确定的问题账户进行训练,通过大量试验数据与真实数据比对,得到的结果也会更加准确,进而使得非法交易神经网络的输出结果更加准确。优选地,所述准确率阈值一般设置为90%。
35.进一步地,本技术利用图卷积自动编码器根据每个账户的邻域来学习节点嵌入,使用度归一化邻接矩阵作为神经网络训练的卷积矩阵,定义为:;其中,是顶点的度矩阵,是邻接矩阵;紧接着定义网络嵌入矩阵,定义为:;其中,、为可训练的权重矩阵,训练的损失函数如下:;其中,为权重矩阵,为数量级,为训练集,为常数。
36.根据本发明实施例,所述方法还包括:利用分布式机器学习技术对所述交易数据集进行扩展。
37.需要说明的是,所述交易数据集首先被分成许多段,然后,为每个段独立训练 svm,即支持向量机(support vector machine),由于每个段中的支持向量可能不是全局支持向量,因此将来自两个段的支持向量通过另一个 svm 进行组合,以过滤掉非支持向量,这以类似树的方式进行,直到只剩下一组支持向量,然后可以将支持向量反馈到第一层,并且在 svm 级联上的多次迭代保证将解决方案带到全局最优,并且通常级联上只有一次迭代就足以产生足够好的解决方案。
38.值得一提的是,所述方法还通过预设函数对账户类别进行预测,具体为:使用预设函数对所述数字资产交易数据进行识别以输出不同类别的概率值;基于所述概率值判断当前交易数据的归属,其中,所述交易数据的归属包括合法交易与非法交易。
39.需要说明的是,使用log_softmax函数作为所述预设函数对所述数字资产交易数据进行步进,得到不同类别的概率值,其中,若所述合法交易的概率值低于70%,则将其判断为问题账户数据,若非法交易概率值高于30%,则将其判断为问题账户数据,以从所述数字资产交易数据在识别出问题交易,进而提取出问题账户,对洗钱等犯罪行为进行精准追踪定位。
40.图2示出了本发明一种基于多组学技术的数字货币识别系统的框图。
41.如图2所示,本发明公开了一种基于多组学技术的数字货币识别系统,包括存储器和处理器,所述存储器中包括基于多组学技术的数字货币识别方法程序,所述基于多组学技术的数字货币识别方法程序被所述处理器执行时实现如下步骤:
基于基因共表达网络技术构建相似度比较网络,并通过大数据进行相关性检测分析得到所述相似度比较网络相邻节点间的交易数据;通过预设的多层异构网络整合不同类型的交易数据集,并通过预设的图卷积技术进行嵌入以获取数字资产交易数据;将所述数字资产交易数据输入到训练好的非法交易神经网络模型中,以得到模拟输出结果,进而提取交易识别结果。
42.需要说明的是,基于基因共表达网络技术的相似性网络(sn)是将一组账户表示为一个顶点(例如,控股公司下的账户,或通过聚类推断共享一个所有者的账户),并将所述顶点边缘定义为一段时间内与相邻节点的总交易量,这是现行的数字资产活动取证分析的主要方法,本技术基于所述基因共表达网络技术结合最小二乘法与负二项式回归相结合来构建所述相似度比较网络;利用所述多层异构网络从网络中的每个节点开始计算节点邻域以整合不同类型的交易数据集,并利用所述图卷积技术的自动编码器根据每个账户的邻域来学习节点嵌入以获取所述数字资产交易数据,进而将所述数字资产交易数据作为所述非法交易神经网络模型输入,以得到所述模拟输出结果,进而提取交易识别结果,获取问题账户,进而提取其账户的交易数据以获取账户洗钱的证据。
43.根据本发明实施例,所述基于基因共表达网络技术构建相似度比较网络,并通过大数据进行相关性检测分析得到所述相似度比较网络相邻节点间的交易数据,具体为:将一组账户表示为一个节点,并将所述节点边缘定义为预设时间内与所述相邻节点的总交易量;基于基因共表达网络技术构建所述相似度比较网络,以将所有成对的所述数字资产交易数据连接到同一个网络上;通过大数据进行相关性检测分析,得到所述相邻节点间的交易数据。
44.需要说明的是,所述相似度比较网络的计算式如下:需要说明的是,所述相似度比较网络的计算式如下:需要说明的是,所述相似度比较网络的计算式如下:;其中,为所述节点,为给定参数系数,待所述相似度比较网络构建完成后,通过大数据分析可以得到相邻节点间的所述交易数据。
45.根据本发明实施例,所述通过大数据进行相关性检测分析,得到所述相邻节点间的交易数据,具体为:基于大数据检测基因组学与其他高通量组学数据的相互作用关系;通过识别所述相互作用关系中的共变组件与连接关系,得到所述相邻节点间的条件依赖性以及所述相似度比较网络中功能关联的底层网络结构。
46.需要说明的是,利用基因组学和其他高通量组学数据从大规模观察中检测各数据
间相互作用,并通过识别所述共变组件和连接关系,以得到所考虑节点之间的条件依赖性,并且可以发现表示功能关联的底层网络结构。
47.值得一提的是,获取到所述底层网络结构后,就可以对问题账户的交易网络进行提取,以对其进行交易的账户逐一识别,挖掘更多的问题账户。
48.根据本发明实施例,所述通过预设的多层异构网络整合不同类型的交易数据集,并通过预设的图卷积技术进行嵌入以获取数字资产交易数据,具体为:通过所述多层异构网络整合不同类型的交易数据集以解决数据缺失以及特定数据集缺失的交易情形;通过所述图卷积技术进行嵌入所述多层异构网络,以对数字资产交易数据进行分类,并提取确定的交易情形。
49.需要说明的是,本技术在无向多路异构网络上利用重启随机游走( rwr) 算法,从网络中的每个节点开始计算节点邻域,并应用 skip

gram 算法,根据节点的 rwr 排名学习网络中节点的潜在特征,在多组学场景中,利用具有两种不同类型节点的多层无向网络,rwr的稳态分布来生成网络中节点的邻域,公式如下:;其中,是所述重新启动概率(即,rwr移动到起始的节点),表示时刻节点的概率分布向量,表示时刻节点的概率分布向量,表示起始时刻节点的概率分布向量是网络的跃迁矩阵,这是由邻接矩阵的列正规化计算的转移矩阵的网络。
50.值得一提的是,上式方程将达到无向网络的稳定状态是时,的大小将影响 rwr 算法的收敛速度,其中较大的会导致快速收敛到稳态并限制随机游走的扩散,其中,稳态分布可以用作网络中从初始节点开始的节点的邻近向量。
51.根据本发明实施例,所述非法交易神经网络模型训练方法为:获取历史检测数据的非法交易数据与合法交易数据;将所述历史检测数据的非法交易数据与合法交易数据进行预处理,得到训练样本集;将所述训练样本集输入至初始化的所述非法交易神经网络模型中训练;获取输出结果的准确率;若所述准确率大于预设的准确率阈值,则停止训练,得到所述非法交易神经网络模型。
52.需要说明的是,非法交易神经网络模型需要大量的历史数据进行训练,数据量越大,则结果越准确,本技术中的非法交易神经网络模型可以通过历史检测数据的非法交易数据与合法交易数据作为输入进行训练,当然,在进行神经网络模型训练时,不仅要通过历史检测数据的非法交易数据与合法交易数据进行训练,还需要结合确定的问题账户进行训练,通过大量试验数据与真实数据比对,得到的结果也会更加准确,进而使得非法交易神经网络的输出结果更加准确。优选地,所述准确率阈值一般设置为90%。
53.进一步地,本技术利用图卷积自动编码器根据每个账户的邻域来学习节点嵌入,使用度归一化邻接矩阵作为神经网络训练的卷积矩阵,定义为:;其中,是顶点的度矩阵,是邻接矩阵;紧接着定义网络嵌入矩阵,定义为:;其中,、为可训练的权重矩阵,训练的损失函数如下:;其中,为权重矩阵,为数量级,为训练集,为常数。
54.根据本发明实施例,所述方法还包括:利用分布式机器学习技术对所述交易数据集进行扩展。
55.需要说明的是,所述交易数据集首先被分成许多段,然后,为每个段独立训练 svm,即支持向量机(support vector machine),由于每个段中的支持向量可能不是全局支持向量,因此将来自两个段的支持向量通过另一个 svm 进行组合,以过滤掉非支持向量,这以类似树的方式进行,直到只剩下一组支持向量,然后可以将支持向量反馈到第一层,并且在 svm 级联上的多次迭代保证将解决方案带到全局最优,并且通常级联上只有一次迭代就足以产生足够好的解决方案。
56.值得一提的是,所述方法还通过预设函数对账户类别进行预测,具体为:使用预设函数对所述数字资产交易数据进行识别以输出不同类别的概率值;基于所述概率值判断当前交易数据的归属,其中,所述交易数据的归属包括合法交易与非法交易。
57.需要说明的是,使用log_softmax函数作为所述预设函数对所述数字资产交易数据进行步进,得到不同类别的概率值,其中,若所述合法交易的概率值低于70%,则将其判断为问题账户数据,若非法交易概率值高于30%,则将其判断为问题账户数据,以从所述数字资产交易数据在识别出问题交易,进而提取出问题账户,对洗钱等犯罪行为进行精准追踪定位。
58.本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于多组学技术的数字货币识别方法程序,所述基于多组学技术的数字货币识别方法程序被处理器执行时,实现如上述任一项所述的一种基于多组学技术的数字货币识别方法的步骤。
59.本发明公开的一种基于多组学技术的数字货币识别方法、系统和存储介质,通过多组学研究以明确交易账户的类型以及交易的具体流程,通过多层次与高通量组学数据的整合分析,可以精准追踪到问题账户,快速高效且准确性高;同时利用分布式机器学习可以
大幅提高计算效率与使用延展性。
60.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
61.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
62.另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
63.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
64.或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1