一种基于比特币交易分析的Tor非法用户去匿名化方法

文档序号:31788861发布日期:2022-10-12 15:24阅读:198来源:国知局
一种基于比特币交易分析的Tor非法用户去匿名化方法
一种基于比特币交易分析的tor非法用户去匿名化方法
技术领域
1.本发明涉及涉及一种去匿名化技术,属于匿名网络(anonymity network)和区块链(blockchain)技术领域,具体涉及一种基于比特币交易分析的tor非法用户去匿名化方法。


背景技术:

2.在信息化技术高速发展的当下,网络威胁也在迅速增加,人们越来越重视互联网上的隐私和匿名。tor作为当前最受欢迎的匿名通信系统,可以很好地保护客户端和服务端的通信关系。tor良好的匿名性和大用户量,使得tor成为了犯罪分子从事非法活动的温床。在tor隐藏服务中充斥着大量的毒品枪支销售、儿童色情传播、信用卡诈骗的非法活动和交易。与此同时,比特币利用假名和不可链接性隐藏了真实用户与比特币地址之间的关系,为比特币交易提供了匿名性。这些特性促使tor非法隐藏服务大规模使用比特币进行交易以隐藏交易双方身份。chainalysis报告显示,2021年用于tor非法交易的比特币总额超过21亿美元。因此,围绕比特币的去匿名化分析具有重要的研究意义。一些研究证明了比特币证明比特币并不是完全匿名的,比特币的匿名性缺陷,为实现tor非法隐藏服务用户去匿名化带来可能。


技术实现要素:

3.发明目的:针对tor非法隐藏服务中大规模使用比特币进行交易以隐藏交易双方身份的问题,本发明提出一种基于比特币交易分析的tor非法用户去匿名化方法,该方法收集隐藏服务信息并提取非法隐藏服务比特币地址,利用比特币历史交易记录形成tor非法交易用户比特币地址集合,结合比特币钱包标签数据和社交平台用户信息,关联tor非法交易用户比特币地址的钱包标签和社交平台用户身份。
4.本发明采用如下技术方案:
5.一种基于比特币交易分析的tor非法用户去匿名化方法,该方法包括如下步骤:
6.(1)tor隐藏服务比特币地址发现:利用分布式爬虫技术采集隐藏服务站点数据,结合比特币地址构造原理和正则表达式从隐藏服务页面中提取有效比特币地址;
7.(2)tor非法隐藏服务自动化识别:利用机器学习训练文本多分类模型实现自动化识别tor非法隐藏服务站点;
8.(3)tor非法交易用户比特币地址获取:通过分析非法隐藏服务比特币历史交易记录,获取tor非法交易用户比特币地址集合;
9.(4)tor非法交易用户去匿名化:通过比特币钱包标签数据和社交平台用户信息,实现tor非法交易用户的去匿名化。
10.进一步地,所述步骤(1)具体包括:
11.(11)隐藏服务数据采集:收集ahmia站点提供的隐藏服务地址作为种子节点,采用scrapy-redis分布式爬虫框架采集tor隐藏服务数据,从爬取的页面中提取.onion链接,保
存未爬取的链接到爬虫任务队列;
12.(12)比特币地址提取:通过分析比特币地址生成过程涉及的加密算法、哈希算法和编码方式,得到不同类型地址的字符串特征,设计正则表达式从隐藏服务页面中提取符合特征的比特币地址,通过对提取的比特币地址进行解码校验判断是否有效。
13.进一步地,所述步骤(2)具体包括:
14.(21)对隐藏服务html文档进行数据清洗和文本分词,去除html文档中的script脚本、style样式表、标签,将字符串文本转换成单词列表,对于每个单词,进行词性还原和去停用词;
15.(22)基于预处理的文本数据构建词袋模型,将文本转换成向量,利用文档频次法进行特征选取,结合tf-idf加权技术实现特征加权;
16.(23)对隐藏服务非法类别进行细粒度划分,例如:毒品、黑市、信用卡等,其他隐藏服务统一分类为其他,利用支持向量机训练文本多分类模型,利用模型预测隐藏服务类别。
17.进一步地,所述步骤(3)具体包括:
18.(31)设计比特币多输入启发式聚类算法,聚类非法隐藏服务比特币地址,获取更多属于非法隐藏服务的比特币地址集合;
19.(32)获取非法隐藏服务比特币地址集合的历史交易数据,把所有与非法隐藏服务比特币地址有过交易的比特币地址作为tor非法隐藏服务比特币地址集合。
20.进一步地,所述步骤(4)具体包括:
21.(41)将收集的tor非法交易用户比特币地址与walletexplorer站点提供的比特币地址钱包标签数据进行匹配;
22.(42)利用google搜索、twitter搜索、facebook搜索以及收集bitcointalk用户个人信息页数据,判断tor非法交易用户比特币地址是否出现在twitter、facebook和bitcointalk平台。
23.有益效果:本发明与现有技术相比,其显著优点是:
24.1.主动收集较为隐秘的非法隐藏服务比特币地址,自动化标记非法隐藏服务并识别非法隐藏服务比特币地址。
25.2.设计比特币多输入启发式聚类算法工作流程,获取更多tor非法隐藏服务比特币地址集合,利用比特币交易记录,收集tor非法交易用户的比特币地址集合。
26.3.关联tor非法交易用户比特币地址的钱包标签和社交平台用户身份,去匿名化程序tor非法交易用户,为了解和追溯tor非法用户提供帮助。
附图说明
27.图1是本发明基于比特币交易分析去匿名化tor非法交易用户的总体方案设计图。
28.图2是本发明在tor隐藏服务比特币地址发现中的隐藏服务数据采集流程图。
29.图3是本发明在tor非法交易用户比特币地址获取中的比特币地址聚类流程图。
具体实施方式
30.以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
31.本发明提供了一种基于比特币交易分析的tor非法用户去匿名化方法,如图1所示,该技术分为四个部分,分别是tor隐藏服务比特币地址发现、tor非法隐藏服务自动化识别、tor非法交易用户比特币地址获取和tor非法交易用户去匿名化。具体包括:
32.1、tor隐藏服务比特币地址发现
33.tor隐藏服务比特币地址发现包括隐藏服务数据采集和比特币地址提取两个步骤。
34.隐藏服务数据采集:如图2,收集ahmia站点提供的隐藏服务地址作为种子节点,采用scrapy-redis分布式爬虫框架实现tor隐藏服务站点数据的爬取,爬虫客户端将访问结果和站点内容封装成json格式,发送给kafka消息队列,消息队列处理程序从kafka读取消息,如果访问站点成功,则将页面内容以html文件格式保存到nas存储节点,并从站点内容中提取所有.onion链接,在通过redis布隆过滤器进行去重后,将未爬取链接保存到redis任务队列中。
35.比特币地址提取:比特币地址可以分为p2pkh地址、p2sh地址、bech32地址三种。通过分析比特币地址生成过程,发现p2pkh、p2sh地址特征:(1)长度为26~34位字符串;(2)p2pkh地址以“1”开头,p2sh地址以“3”开头;(3)base58编码的字符串由大小写字母及数字组成,但不包括“ilo0”等字符。bech32地址特征:(1)长度为42或62位字符串;(2)地址以“bc1q”开头;(3)bech32编码由小写字母及数字组成,并去掉其中容易混淆的字符。通过设计正则表达式从隐藏服务页面中提取比特币地址,经过正则表达式提取的比特币地址不一定有效,还需要经过解码校验。设计比特币地址正则表达式如下:
[0036][0037]
2、tor非法隐藏服务自动化识别
[0038]
tor非法隐藏服务自动化识别包括数据预处理、文本特征向量化和隐藏服务内容分类三个步骤。
[0039]
数据预处理:去除html文档中的script脚本、style样式表、标签,得到的文本数据由每个单词组成,并将单词统一转换成小写字母。利用beautifulsoup4库和lxml库解析html文档,去除script标签,得到纯文本数据。经过数据清洗后的字符串文本需要进行分词处理,将字符串文本转换成单词列表,对于每个单词,进行词性还原和去停用词操作。数据清洗和文本分析的核心代码如下:
[0040]
数据清洗实现
[0041]
输入:tor隐藏服务站点的html文档保存路径filepath
[0042]
输出:经过数据清洗后的字符串文本content
[0043][0044][0045]
文本特征向量化:基于预处理的文本数据构建词袋模型,利用词袋模型将文本转换成向量。通过scikit-learn库中的countvectorizer函数计算得到词频矩阵,接着利用文档频次法(document frequency)进行特征选取。在完成特征选取后,本文利用tf-idf加权技术进行特征加权。
[0046]
隐藏服务内容分类:对爬虫采集的tor隐藏服务进行分类,将重点关注的非法隐藏
服务进行标记,对于其他隐藏服务统一分类为其他。利用支持向量机训练文本多分类模型,实现隐藏非法隐藏服务的自动化识别。利用分类器对存在比特币地址的站点进行预测,若是隐藏服务是非法类别,则提取的比特币地址是非法隐藏服务比特币地址。
[0047]
3、tor非法交易用户比特币地址获取
[0048]
tor非法交易用户比特币地址获取主要通过聚类tor非法隐藏服务比特币地址集合,并基于地址的历史交易记录形成。
[0049]
tor非法隐藏服务比特币地址聚类:比特币交易的发起方需要对交易中所有的输入进行交易签名,以证明自己拥有这些地址中的比特币,经过签名的交易在被广播到网络中时,比特币节点会对交易的签名进行验证。因此,发起方必须控制这些输入地址的私钥,可以安全地认为交易输入中的所有地址属于单个用户。由于存在用户通过协同构建coinjoin交易的方式隐藏交易关系,在进行多输入启发式聚类时,首先排除掉coinjoin交易,使用blockstream的coinjoin交易检测规则进行coinjoin交易识别。图3是比特币地址聚类的流程图。在聚类非法隐藏服务比特币地址后,将所有与tor非法隐藏服务比特币地址有过交易记录的比特币地址作为tor非法交易用户比特币地址。
[0050]
4、tor非法交易用户去匿名化
[0051]
tor非法交易用户去匿名化包括比特币地址钱包标签关联和比特币地址社交身份关联两个步骤。
[0052]
比特币地址钱包标签关联:将收集的tor非法交易用户比特币地址与walletexplorer站点提供的比特币地址钱包标签数据进行匹配。walletexplorer标记了部分比特币地址的钱包名,有钱包标签的比特币地址被分为五类,分别是exchanges、pools、services/others、gambling和old/historic。对于监管人员来说,如果能够获取到tor非法交易用户的比特币地址钱包标签,就有可能通过联系提供钱包服务的运营商,从运营商获取与比特币地址相关的用户身份信息。
[0053]
比特币地址社交身份关联:用户可能出于接收捐款、提供服务等不同的目的在一些社交平台发布自己的比特币地址。在分析比特币交易链路时,根据用户公开的比特币地址,可以查询到用户的手机号码、邮箱地址、性别、居住地址等信息。分析收集到的比特币地址出现在twitter、facebook和bitcointalk平台的记录,人工对记录进行检验,可以将tor非法交易用户比特币地址与社交平台用户身份关联。可以通过以下三种方式查询出现在这些平台的tor非法交易用户比特币地址:
[0054]
1.google search提供高级查询功能“keyword site:xxx.com”,可以用于查询比特币地址出现在twitter、facebook、bitcointalk等站点的记录;
[0055]
2.收集bitcointalk用户个人信息页数据,部分用户在个人信息页填写了个人比特币地址;
[0056]
3.利用twitter、facebook平台的关键字搜索功能,将比特币地址作为关键字进行搜索,可以查询到与该比特币地址相关的帖子。
[0057]
最后应当说明的是:以上实施例仅用于说明本技术的技术方案而非对其保护范围的限制,尽管参照上述实施例对本技术进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本技术后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1