基于区块链的互联网信息溯源方法及计算机可读存储介质与流程

文档序号:20764549发布日期:2020-05-15 18:42阅读:112来源:国知局
基于区块链的互联网信息溯源方法及计算机可读存储介质与流程

本发明涉及信息溯源技术领域,尤其涉及一种基于区块链的互联网信息溯源方法及计算机可读存储介质。



背景技术:

互联网上时刻存在大量信息的发布和转载,通过这些信息的分享,加速了信息的传播,极大方便了我们对互联网资讯的获取。与此同时,也存在少数恶意的信息发布者通过互联网发布谣言、虚假广告等有害信息。因此,需要对互联网发布信息进行溯源分析,找出信息的最初发布者,更好维护互联网上的信息安全。

现有对互联网信息的溯源,主要依赖对发帖时间和转帖逻辑顺序等的追溯,确定出最初发布贴文后,再通过贴文找出发布者的ip地址或网络id进行账号识别。这种方式需要找出所有关联的发布和转帖信息,并依据发布时间进行数据格式的转换、排序,工作量大,耗时久;并且,信息发布者可以通过修改替换部分内容(如发布时间、发布id)、使用代理ip进行网上发布或者直接删除信息等方式来规避信息的溯源。因此依赖现有技术手段,并不能很好完成对互联网信息溯源的任务。



技术实现要素:

本发明所要解决的技术问题是:提供一种基于区块链的互联网信息溯源方法及计算机可读存储介质,可以有效避免信息发布者规避追查的手段,更好地完成对互联网信息的溯源分析。

为了解决上述技术问题,本发明采用的技术方案为:一种基于区块链的互联网信息溯源方法,包括:

采集互联网信息,并生成所述互联网信息的发布者的唯一身份标识,所述互联网信息包括标题和正文;

通过区块链技术对所述互联网信息及其发布者的唯一身份标识进行存储、发布和传送,得到区块链;

根据预设的待溯源信息,在所述区块链中进行检索,获取包含所述待溯源信息的区块,得到第一区块列表;

根据待溯源信息在互联网信息中的位置,对所述第一区块列表中的各区块进行分类,得到第二区块列表和第三区块列表;

所述第二区块列表和第三区块列表中的各区块分别根据自身存储的互联网信息,选取一发布者,作为其投票结果;

根据所述第二区块列表和第三区块列表中各区块的投票结果,确定所述待溯源信息的最初发布者。

本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的步骤。

本发明的有益效果在于:应用区块链技术进行数据信息的存储、发布和传送,可以有效避免信息发布者规避追查的技术手段,更好完成对互联网信息的溯源分析;由于部分区块有可能存在存储、计算错误或者遭到篡改,给出错误的发布者,因此通过分析包含待溯源信息的所有区块的投票结果,选取出真正的最初发布者,保证溯源的准确性。本发明能够避免互联网信息发布者通过修改替换部分内容、删除信息等技术手段规避信息的追查,实现对互联网信息最初发布者的追溯,更好保护互联网的信息安全。

附图说明

图1为本发明实施例一的一种基于区块链的互联网信息溯源方法的流程图;

图2为本发明实施例一的互联网信息的转发示意图一;

图3为本发明实施例一的互联网信息的转发示意图二。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。

本发明最关键的构思在于:应用区块链技术进行数据信息的存储、发布和传送;根据待溯源信息在互联网信息中的位置,对区块进行分类,并综合分析各分类的区块的投票结果,确定出最初发布者。

请参阅图1,一种基于区块链的互联网信息溯源方法,包括:

采集互联网信息,并生成所述互联网信息的发布者的唯一身份标识,所述互联网信息包括标题和正文;

通过区块链技术对所述互联网信息及其发布者的唯一身份标识进行存储、发布和传送,得到区块链;

根据预设的待溯源信息,在所述区块链中进行检索,获取包含所述待溯源信息的区块,得到第一区块列表;

根据待溯源信息在互联网信息中的位置,对所述第一区块列表中的各区块进行分类,得到第二区块列表和第三区块列表;

所述第二区块列表和第三区块列表中的各区块分别根据自身存储的互联网信息,选取一发布者,作为其投票结果;

根据所述第二区块列表和第三区块列表中各区块的投票结果,确定所述待溯源信息的最初发布者。

从上述描述可知,本发明的有益效果在于:实现对互联网信息最初发布者的追溯,更好保护互联网的信息安全。

进一步地,所述生成所述互联网信息的发布者的唯一身份标识具体为:

根据互联网信息的发布时间、发布者身份id、发布的ip地址、发布网络和发布位置,生成所述互联网信息的发布者的唯一身份标识。

由上述描述可知,保证发布者身份标识的唯一性。

进一步地,所述根据待溯源信息在互联网信息中的位置,对所述第一区块列表中的各区块进行分类,得到第二区块列表和第三区块列表具体为:

若所述第一区块列表中的一区块中的互联网信息的标题包含所述待溯源信息,则将所述一区块加入至第二区块列表;

若所述第一区块列表中的一区块中的互联网信息的正文包含所述待溯源信息,则将所述一区块加入至第三区块列表。

进一步地,所述第二区块列表和第三区块列表中的各区块分别根据自身存储的互联网信息,选取一发布者,作为其投票结果具体为:

所述第二区块列表和第三区块列表中的各区块分别根据自身存储的互联网信息的发布时间或采集时间,获取最早的互联网信息的发布者的唯一身份标识,作为其投票结果。

进一步地,所述根据所述第二区块列表和第三区块列表中各区块的投票结果,确定所述待溯源信息的最初发布者具体为:

获取第一区块列表中各区块中的互联网信息的发布者的唯一身份标识,得到发布者标识列表;

根据第二区块列表中各区块的投票结果,分别计算各发布者在第二区块列表中的得票率;

根据第三区块列表中各区块的投票结果,分别计算各发布者在第三区块列表中的得票率;

根据第一公式,分别计算各发布者的积分值,所述第一公式为si=(αs1i+βs2i)/2,si为所述发布者标识列表中第i个发布者的积分值,s1i为所述第i个发布者在第二区块列表中的得票率,s2i为所述第i个发布者在第三区块列表中的得票率,α和β为预设的权重系数;

根据各发布者的积分值,确定所述待溯源信息的最初发布者。

由上述描述可知,由于信息最初的发布者可能只在标题或只在正文中提到待溯源信息,因此通过综合两类区块的投票结果,可更好地确定最初发布者;另外,由于互联网标题和正文的可信度及价值一般来说是不一样的,因此通过设置两个权重系数,分别体现标题和正文的可信度及价值。

进一步地,所述根据第二区块列表中各区块的投票结果,分别计算各发布者在第二区块列表中的得票率具体为:

统计第二区块列表中投票结果为一发布者的区块个数,得到所述一发布者在第二区块列表中的总得票数;

根据第二区块列表中的区块总数,得到所述第二区块列表的总投票数;

根据所述一发布者在第二区块列表中的总得票数和第二区块列表的总投票数,计算得到所述一发布者在第二区块列表中的得票率。

进一步地,所述根据第三区块列表中各区块的投票结果,分别计算各发布者在第三区块列表中的得票率具体为:

统计第三区块列表中投票结果为一发布者的区块个数,得到所述一发布者在第三区块列表中的总得票数;

根据第三区块列表中的区块总数,得到所述第三区块列表的总投票数;

根据所述一发布者在第三区块列表中的总得票数和第三区块列表的总投票数,计算得到所述一发布者在第三区块列表中的得票率。

进一步地,所述根据各发布者的积分值,确定所述待溯源信息的最初发布者具体为:

判断所述第一区块列表中的区块总数是否大于预设的阈值;

若是,则将积分值最大的发布者作为待溯源信息的最初发布者;

若否,则获取预设个数的积分值最大的发布者,并根据所述预设个数的发布者对应的互联网信息,确定最初发布者。

由上述描述可知,当区块的数量较少时,通过获取积分值前几大的发布者进行进一步分析,防止信息发布者通过修改一些区块的信息来修改最后的溯源结果。

进一步地,所述根据待溯源信息在互联网信息中的位置,对所述第一区块列表中的各区块进行分类,得到第二区块列表和第三区块列表之后,还包括:

分别为所述第二区块列表和第三区块列表中各区块中的互联网信息生成一一对应的主题标签。

由上述描述可知,便于之后根据主题标签快速确认互联网信息的主题内容,提高查询效率。

本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的步骤。

实施例一

请参照图1-3,本发明的实施例一为:一种基于区块链的互联网信息溯源方法,可应用于对互联网信息进行溯源分析,找出信息的最初发布来源,如图1所示,包括如下步骤:

s1:采集互联网信息,并生成所述互联网信息的发布者的唯一身份标识,所述互联网信息包括标题和正文;即接收互联网发布的信息,包含所发布信息的标题的正文,并根据发布时间、发布者身份id、发布的ip地址、发布网络和发布位置等信息,生成发布者的唯一身份标识。

s2:通过区块链技术对所述互联网信息及其发布者的唯一身份标识进行存储、发布和传送,得到区块链。所述区块链中各区块存储的内容包括互联网信息的标题、正文及其发布者的唯一身份标识。

区块链技术采用去中心化的分布式存储,并通过加密算法和共识机制来生成和更新数据,使得数据不易被篡改,同时区块链可以将任意两个账号之间的数据交换都记录下来,便于对数据进行溯源分析。

跟普通互联网信息的发布和传送相比,区块链将信息广播在公有链或者私有链中,验证有效后计入所在区块链的各区块中。在区块中存储该信息的机制跟普通存储是一样的。

s3:根据预设的待溯源信息,在所述区块链中进行检索,获取包含所述待溯源信息的区块,得到第一区块列表;即在所构建的区块链中检索需要溯源的互联网信息,并获取包含这些互联网信息的区块,得到第一区块列表l0={b1,b2,…,bn}。

s4:根据待溯源信息在互联网信息中的位置,对所述第一区块列表中的各区块进行分类,得到第二区块列表和第三区块列表。

具体地,若所述第一区块列表中的一区块中的互联网信息的标题包含所述待溯源信息,则将所述一区块加入第二区块列表l1;若所述第一区块列表中的一区块中的互联网信息的正文包含所述待溯源信息,则将所述一区块加入第三区块列表l2。也就是说,第二区块列表中的各区块中的互联网信息的标题包含所述待溯源信息,所述第三区块列表中的各区块中的互联网信息的正文包含所述待溯源信息。

进一步地,分别为所述第二区块列表和第三区块列表中各区块中的互联网信息生成一一对应的主题标签。所述第二区块列表中各区块中的互联网信息对应的主题标签即为标题内容;第三区块列表中各区块中的互联网信息对应的主题标签可通过机器学习或人工智能的方法产生,例如,可采用基于概率统计的概率隐语义分析模型plsa(probabilisticlatentsemanticanalysis)或深度学习中的序列分析模型seq2seq(sequencetosequence),生成互联网信息的主题内容,作为其主题标签。

s5:所述第二区块列表和第三区块列表中的各区块分别根据自身存储的互联网信息,选取一发布者,作为其选取初始发布者的投票结果。

具体地,第二区块列表l1和第三区块列表l2中每个区块都会根据自身存储的互联网信息的发布时间或采集时间,选取时间最早的互联网信息的发布者的唯一身份标识,作为其投票结果。每个区块只能选取一个发布者作为投票结果,也即每个区块只能投一票;当一区块选取了一发布者作为其投票结果,则认为该区块投了该发布者一票。

s6:根据所述第二区块列表和第三区块列表中各区块的投票结果,确定所述待溯源信息的最初发布者。

具体地,获取第一区块列表中各区块中的互联网信息的发布者的唯一身份标识,得到发布者标识列表。然后根据第一公式si=(αs1i+βs2i)/2,分别计算各发布者的积分值;其中,si为所述发布者标识列表中第i个发布者的积分值;s1i为所述第i个发布者在第二区块列表中的得票率,通过第二公式计算得到;s2i为所述第i个发布者在第三区块列表中的得票率,通过第三公式计算得到;α和β为预设的权重系数,取值范围为[0,1],根据数据来源而定,如果数据都来自于正规网站的网文,则可以均为1,如果来自自媒体,如微信、微博,那么正文的权重一般要比标题高一些,即β>α。

所述第二公式为s1i=n1i/nl1,其中,n1i为第i个发布者在第二区块列表中的总得票数,可通过统计第二区块列表中有几个区块的投票结果为第i个发布者得到,nl1为第二区块列表的总投票数,也即第二区块列表中的区块总数。

所述第三公式为s2i=n2i/nl2,其中,n2i为第i个发布者在第三区块列表中的总得票数,可通过统计第三区块列表中有几个区块的投票结果为第i个发布者得到,nl2为第三区块列表的总投票数,也即第三区块列表中的区块总数。

最后根据各发布者的积分值,确定所述待溯源信息的最初发布者。进一步地,当第一区块列表中的区块总数大于预设的阈值(例如100)时,则直接选取积分值最大的发布者作为待溯源信息的最初发布者。当第一区块列表中的区块总数小于或等于预设的阈值时,则选取积分值前m大的发布者,m为预设的个数,一般取5-10,然后对这些发布者对应的互联网信息、主题标签进行进一步研判,选出最初发布者。

确定最初发布者之后,将所述最初发布者的唯一身份标识及其对应的互联网信息和主题标签作为溯源结果进行发布。

例如,当参与投票的区块数高于指定阈值时,如图2所示,a1作为初始发布者,发布一条信息包含标题“周六去徒步”及正文“本周六去徒步,要参加的朋友可以在某网址报名,费用自理”。查看到这条消息的a2、a3到a1000共999人都对该消息进行了1次以上的转发,且转发后的标题、正文与a1发布的一致。所有这些发布的信息都通过区块链进行存储发布,a1到a1000这1000个发布者及其发布的互联网信息对应生成包含500个区块的区块链{b1,b2,…,b500},本例子中,每个区块中都存储有所有发布者发布的消息,区块内存储内容的格式可以为:“标题+标题内容(如:周六去徒步)+正文+正文内容(如:本周六去徒步,要参加的朋友可以在某网址报名,费用自理)+发布者+发布者的唯一身份标识(如a1)”。

假定需要溯源的信息为“周六去徒步”,则可得到第一区块列表l0{b1,b2,…,b500},并将标题中包含“周六去徒步”的区块名称加入第二区块列表l1中,将内容中包含“周六去徒步”的区块名称加入第三区块列表l2中。在本例中,l0、l1、l2三个列表的内容是相同的,都包含有全部的区块。

假设α和β都取为1,且假定有50个区块上的初始发布者被篡改或错误标记为a2,则各发布者的积分值如下:

sa1=(αs1a1+βs2a1)/2=(1×0.9+1×0.9)/2=0.9

sa2=(αs1a2+βs2a2)/2=(1×0.1+1×0.1)/2=0.1

sa3=(αs1a3+βs2a3)/2=(1×0+1×0)/2=0

……

sa1000=(αs1a1000+βs2a1000)/2=(1×0+1×0)/2=0

由于a1的积分值最高,因此将发布者a1作为最初发布者。

当参与投票的区块数低于指定阈值时,如图3所示,此时除了提供积分最高者作为初始发布者外,还需提供积分值排名前m的发布者。这是因为在图3中,初始发布者可以通过修改少量区块,如通过篡改b1,b2、b3三个区块的信息,将初始发布者标记为a2,则图3中五个区块投票选出的初始发布者为a2,导致溯源错误。

本实施例能够避免互联网信息发布者通过修改替换部分内容、删除信息等技术手段规避信息的追查,实现对互联网信息最初发布者的追溯,更好保护互联网的信息安全。

实施例二

本实施例是对应上述实施例的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如下步骤:

采集互联网信息,并生成所述互联网信息的发布者的唯一身份标识,所述互联网信息包括标题和正文;

通过区块链技术对所述互联网信息及其发布者的唯一身份标识进行存储、发布和传送,得到区块链;

根据预设的待溯源信息,在所述区块链中进行检索,获取包含所述待溯源信息的区块,得到第一区块列表;

根据待溯源信息在互联网信息中的位置,对所述第一区块列表中的各区块进行分类,得到第二区块列表和第三区块列表;

所述第二区块列表和第三区块列表中的各区块分别根据自身存储的互联网信息,选取一发布者,作为其投票结果;

根据所述第二区块列表和第三区块列表中各区块的投票结果,确定所述待溯源信息的最初发布者。

进一步地,所述生成所述互联网信息的发布者的唯一身份标识具体为:

根据互联网信息的发布时间、发布者身份id、发布的ip地址、发布网络和发布位置,生成所述互联网信息的发布者的唯一身份标识。

进一步地,所述根据待溯源信息在互联网信息中的位置,对所述第一区块列表中的各区块进行分类,得到第二区块列表和第三区块列表具体为:

若所述第一区块列表中的一区块中的互联网信息的标题包含所述待溯源信息,则将所述一区块加入至第二区块列表;

若所述第一区块列表中的一区块中的互联网信息的正文包含所述待溯源信息,则将所述一区块加入至第三区块列表。

进一步地,所述第二区块列表和第三区块列表中的各区块分别根据自身存储的互联网信息,选取一发布者,作为其投票结果具体为:

所述第二区块列表和第三区块列表中的各区块分别根据自身存储的互联网信息的发布时间或采集时间,获取最早的互联网信息的发布者的唯一身份标识,作为其投票结果。

进一步地,所述根据所述第二区块列表和第三区块列表中各区块的投票结果,确定所述待溯源信息的最初发布者具体为:

获取第一区块列表中各区块中的互联网信息的发布者的唯一身份标识,得到发布者标识列表;

根据第二区块列表中各区块的投票结果,分别计算各发布者在第二区块列表中的得票率;

根据第三区块列表中各区块的投票结果,分别计算各发布者在第三区块列表中的得票率;

根据第一公式,分别计算各发布者的积分值,所述第一公式为si=(αs1i+βs2i)/2,si为所述发布者标识列表中第i个发布者的积分值,s1i为所述第i个发布者在第二区块列表中的得票率,s2i为所述第i个发布者在第三区块列表中的得票率,α和β为预设的权重系数;

根据各发布者的积分值,确定所述待溯源信息的最初发布者。

进一步地,所述根据第二区块列表中各区块的投票结果,分别计算各发布者在第二区块列表中的得票率具体为:

统计第二区块列表中投票结果为一发布者的区块个数,得到所述一发布者在第二区块列表中的总得票数;

根据第二区块列表中的区块总数,得到所述第二区块列表的总投票数;

根据所述一发布者在第二区块列表中的总得票数和第二区块列表的总投票数,计算得到所述一发布者在第二区块列表中的得票率。

进一步地,所述根据第三区块列表中各区块的投票结果,分别计算各发布者在第三区块列表中的得票率具体为:

统计第三区块列表中投票结果为一发布者的区块个数,得到所述一发布者在第三区块列表中的总得票数;

根据第三区块列表中的区块总数,得到所述第三区块列表的总投票数;

根据所述一发布者在第三区块列表中的总得票数和第三区块列表的总投票数,计算得到所述一发布者在第三区块列表中的得票率。

进一步地,所述根据各发布者的积分值,确定所述待溯源信息的最初发布者具体为:

判断所述第一区块列表中的区块总数是否大于预设的阈值;

若是,则将积分值最大的发布者作为待溯源信息的最初发布者;

若否,则获取预设个数的积分值最大的发布者,并根据所述预设个数的发布者对应的互联网信息,确定最初发布者。

进一步地,所述根据待溯源信息在互联网信息中的位置,对所述第一区块列表中的各区块进行分类,得到第二区块列表和第三区块列表之后,还包括:

分别为所述第二区块列表和第三区块列表中各区块中的互联网信息生成一一对应的主题标签。

综上所述,本发明提供的一种基于区块链的互联网信息溯源方法及计算机可读存储介质,应用区块链技术进行数据信息的存储、发布和传送,可以有效避免信息发布者规避追查的技术手段,更好完成对互联网信息的溯源分析;根据待溯源信息在互联网信息中的位置,对区块进行分类,并综合分析各分类的区块的投票结果,保证溯源的准确性。本发明能够避免互联网信息发布者通过修改替换部分内容、删除信息等技术手段规避信息的追查,实现对互联网信息最初发布者的追溯,更好保护互联网的信息安全。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1