基于区块链的侵权检测方法、装置、设备及存储介质与流程

文档序号：20030186发布日期：2020-02-28 10:17阅读：207来源：国知局

本说明书一个或多个实施例涉及区块链技术领域，尤其涉及基于区块链的侵权检测方法、装置、设备及存储介质。

背景技术：

区块链技术，也被称之为分布式账本技术，是一种由若干台计算设备共同参与“记账”，共同维护一份完整的分布式数据库的新兴技术。由于区块链技术具有去中心化、公开透明、每台计算设备可以参与数据库记录、并且各计算设备之间可以快速的进行数据同步的特性，使得区块链技术已在众多的领域中广泛的进行应用。

技术实现要素：

根据本说明书的第一方面，本说明书公开了一种基于区块链的侵权检测方法，所述方法包括：

对原创作品和待检测作品分别进行分词处理，并对分词处理得到的若干分词进行向量化处理，得到与所述原创作品对应的若干原创分词向量；以及，与所述待检测作品对应的若干待检测分词向量；

分别对所述若干原创分词向量和所述若干待检测分词向量进行聚类处理，得到与所述原创分词向量对应的原创聚类结果、以及与所述待检测分词向量对应的待检测聚类结果；

基于所述原创聚类结果和所述待检测聚类结果的相似度，确定所述原创作品和所述待检测作品的侵权相似度，并根据所述侵权相似度进行侵权检测，并将侵权检测结果发布至区块链进行存证。

可选的，所述原创聚类结果和所述待检测聚类结果的相似度通过如下方式确定：

将所述原创聚类结果和所述待检测聚类结果进行向量化处理，得到与原创聚类结果对应的原创结果向量、以及与所述待检测聚类结果向量对应的待检测结果向量；

计算所述原创结果向量与所述聚类结果向量的向量距离，作为所述原创聚类结果和所述待检测聚类结果的相似度。

可选的，所述根据所述侵权相似度进行侵权检测，包括：

若所述侵权相似度超过预设的第一阈值，则进一步检测所述原创作品和待检测作品的文本相似度是否超过预设的第二阈值；若超过，则确定所述待检测作品为侵权作品；若未超过，则确定所述待检测作品不是侵权作品；

若所述侵权相似度不超过预设的第一阈值，则确定所述待检测作品不是侵权作品。

可选的，所述原创作品和待检测作品的文本相似度通过如下方式确定：

采用预设的哈希算法，计算所述原创作品的第一哈希值、以及计算所述待检测作品的第二哈希值；

计算所述第一哈希值和第二哈希值的相似度，作为所述原创作品和待检测作品的文本相似度。

可选的，所述预设的哈希算法为simhash算法或者minhash算法。

根据本说明书的第二方面，本说明书公开了一种基于区块链的侵权检测装置，所述装置包括：

分词处理模块，用于对原创作品和待检测作品分别进行分词处理，并对分词处理得到的若干分词进行向量化处理，得到与所述原创作品对应的若干原创分词向量；以及，与所述待检测作品对应的若干待检测分词向量；

聚类处理模块，用于分别对所述若干原创分词向量和所述若干待检测分词向量进行聚类处理，得到与所述原创分词向量对应的原创聚类结果、以及与所述待检测分词向量对应的待检测聚类结果；

检测模块，用于基于所述原创聚类结果和所述待检测聚类结果的相似度，确定所述原创作品和所述待检测作品的侵权相似度，并根据所述侵权相似度进行侵权检测，并将侵权检测结果发布至区块链进行存证。

可选的，所述检测模块，用于将所述原创聚类结果和所述待检测聚类结果进行向量化处理，得到与原创聚类结果对应的原创结果向量、以及与所述待检测聚类结果向量对应的待检测结果向量；计算所述原创结果向量与所述聚类结果向量的向量距离，作为所述原创聚类结果和所述待检测聚类结果的相似度。

可选的，所述检测模块，用于若所述侵权相似度超过预设的第一阈值，则进一步检测所述原创作品和待检测作品的文本相似度是否超过预设的第二阈值；若超过，则确定所述待检测作品为侵权作品；若未超过，则确定所述待检测作品不是侵权作品；

若所述侵权相似度不超过预设的第一阈值，则确定所述待检测作品不是侵权作品。

可选的，所述检测模块，用于采用预设的哈希算法，计算所述原创作品的第一哈希值、以及计算所述待检测作品的第二哈希值；计算所述第一哈希值和第二哈希值的相似度，作为所述原创作品和待检测作品的文本相似度。

可选的，所述预设的哈希算法为simhash算法或者minhash算法。

根据本说明书的第三方面，本说明书提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现上述基于区块链的侵权检测方法。

根据本说明书的第四方面，本说明书提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现基于区块链的侵权检测方法。

由上述描述可以看出，一方面，由于由两部作品的侵权相似度是由两部作品的聚类结果相似度表征出的，而两部作品的聚类结果可以反应出两部作品整体上的特征，所以基于侵权相似度的侵权检测，可以检测出两部作品整体上是否相似，从而可以检测出上述文字表达略有不同，但作品核心部分相同的侵权作品，因此大大提高了侵权检测的准确性。

另一方面，由于区块链上存证的数据具有不可篡改的特性，所以将侵权检测结果发布至区块链进行存证，可以防止侵权检测结果被篡改，保证了侵权检测结果的安全性。

附图说明

图1是本说明书一示例性实施例示出的一种创建智能合约的示意图；

图2是本说明书一示例性实施例示出的一种调用智能合约的示意图；

图3是本说明书一示例性实施例示出的一种创建智能合约和调用智能合约的示意图；

图4是本说明书一示例性实施例示出的一种基于区块链的侵权检测方法的流程图；

图5是本说明书一示例性实施例示出的一种电子设备的硬件结构图；

图6是本说明书一示例性实施例示出的一种基于区块链的侵权检测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

侵权作品可至少包括两类侵权作品。

第一类侵权作品是指：作品的侵权部分的文字表达与原创作品的文字表达相同。

第二类侵权作品是指：作品的侵权部分的文字表达虽然与原创作品的文字略不相同，但是侵权部分的核心部分（比如主题思想，情感走向等）仍然是原创作品表达的内容。比如，第二类侵权作品的侵权部分与原创作品相比，虽然文字表达形式略有不同，但侵权部分的主题思想、情感走向或者故事情节等均与原创作品相同。在实际应用中，第二类侵权作品也被称为洗稿作品。

在现有的作品侵权的检测技术中，采用分别计算原创作品和待检测作品的哈希值，通过比较原创作品和待检测作品的哈希值来确定待检测作品是否侵权原创作品。然而，当原创作品和待检测作品的文字表达不一样时，通常计算出的两者的哈希值也有很大的不同。因此，该现有的检测技术只能检测出上述第一类侵权作品，而无法检测出上述第二类侵权作品，造成侵权作品检测不准确。

有鉴于此，本说明书提出一种基于区块链的侵权检测方法。在本说明书中，电子设备可对原创作品和待检测作品分别进行分词处理，并对分词处理得到的若干分词进行向量化处理，得到与所述原创作品对应的若干原创分词向量；以及，与所述待检测作品对应的若干待检测分词向量。然后，电子设备分别对所述若干原创分词向量和所述若干待检测分词向量进行聚类处理，得到与所述原创分词向量对应的原创聚类结果、以及与所述待检测分词向量对应的待检测聚类结果，并基于所述原创聚类结果和所述待检测聚类结果的相似度，确定所述原创作品和所述待检测作品的侵权相似度，并根据所述侵权相似度进行对待检测作品进行侵权检测，并将侵权检测结果发布至区块链进行存证

一方面，由于由两部作品的侵权相似度是由两部作品的聚类结果相似度表征出的，而两部作品的聚类结果可以反应出两部作品整体上的特征，所以基于侵权相似度的侵权检测，可以检测出两部作品整体上是否相似，从而可以检测出上述文字表达略有不同，但作品核心部分相同的第二类侵权作品，因此大大提高了侵权检测的准确性。

在介绍本说明书提供的基于区块链的侵权检测方法之前，先简单介绍下区块链技术。

区块链一般被划分为三种类型：公有链（publicblockchain），私有链（privateblockchain）和联盟链（consortiumblockchain）。此外，还可以有上述多种类型的结合，比如私有链+联盟链、联盟链+公有链等。

其中，去中心化程度最高的是公有链。公有链以比特币、以太坊为代表，加入公有链的参与者（也可称为区块链中的节点）可以读取链上的数据记录、参与交易、以及竞争新区块的记账权等。而且，各节点可自由加入或者退出网络，并进行相关操作。

私有链则相反，该网络的写入权限由某个组织或者机构控制，数据读取权限受组织规定。简单来说，私有链可以为一个弱中心化系统，其对节点具有严格限制且节点数量较少。这种类型的区块链更适合于特定机构内部使用。

联盟链则是介于公有链以及私有链之间的区块链，可实现“部分去中心化”。联盟链中各个节点通常有与之相对应的实体机构或者组织；节点通过授权加入网络并组成利益相关联盟，共同维护区块链运行。

基于区块链的基本特性，区块链通常是由若干个区块构成。在这些区块中分别记录有与该区块的创建时刻对应的时间戳，所有的区块严格按照区块中记录的时间戳，构成一条在时间上有序的数据链条。

对于物理世界产生的真实数据，可以将其构建成区块链所支持的标准的交易（transaction）格式，然后发布至区块链，由区块链中的节点设备对收到的交易进行共识处理，并在达成共识后，由区块链中作为记账节点的节点设备，将这笔交易打包进区块，在区块链中进行持久化存证。

其中，区块链中支持的共识算法可以包括：

第一类共识算法，即节点设备需要争夺每一轮的记账周期的记账权的共识算法；例如，工作量证明（proofofwork,pow）、股权证明（proofofstake，pos）、委任权益证明（delegatedproofofstake，dpos）等共识算法；

第二类共识算法，即预先为每一轮记账周期选举记账节点（不需要争夺记账权）的共识算法；例如，实用拜占庭容错（practicalbyzantinefaulttolerance，pbft）等共识算法。

在采用第一类共识算法的区块链网络中，争夺记账权的节点设备，都可以在接收到交易后执行该笔交易。争夺记账权的节点设备中可能有一个节点设备在本轮争夺记账权的过程中胜出，成为记账节点。记账节点可以将收到的交易与其它交易一起打包以生成最新区块，并将生成的最新区块或者该最新区块的区块头发送至其它节点设备进行共识。

在采用第二类共识算法的区块链网络中，具有记账权的节点设备在本轮记账前已经商定好。因此，节点设备在接收到交易后，如果自身不是本轮的记账节点，则可以将该交易发送至记账节点。对于本轮的记账节点，在将该交易与其它交易一起打包以生成最新区块的过程中或者之前，可以执行该交易。记账节点在生成最新区块后，可以将该最新区块或者该最新区块的区块头发送至其它节点设备进行共识。

如上所述，无论区块链采用以上示出的哪种共识算法，本轮的记账节点都可以将接收到的交易打包以生成最新区块，并将生成的最新区块或者该最新区块的区块头发送至其它节点设备进行共识验证。如果其它节点设备接收到最新区块或者该最新区块的区块头后，经验证没有问题，可以将该最新区块追加到原有的区块链末尾，从而完成区块链的记账过程。其它节点验证记账节点发来的新的区块或区块头的过程中，也可以执行该区块中的包含的交易。

在实际应用中，不论是公有链、私有链还是联盟链，都可能提供智能合约（smartcontract）的功能。区块链上的智能合约是在区块链上可以被交易触发执行的合约。智能合约可以通过代码的形式定义。

以以太坊为例，支持用户在以太坊网络中创建并调用一些复杂的逻辑。以太坊作为一个可编程区块链，其核心是以太坊虚拟机（evm），每个以太坊节点都可以运行evm。evm是一个图灵完备的虚拟机，通过它可以实现各种复杂的逻辑。用户在以太坊中发布和调用智能合约就是在evm上运行的。实际上，evm直接运行的是虚拟机代码（虚拟机字节码，下简称“字节码”），所以部署在区块链上的智能合约可以是字节码。如图3所示，bob将一笔包含创建智能合约信息的交易（transaction）发送到以太坊网络后，各节点均可以在evm中执行这笔交易。其中，图1中交易的from字段用于记录发起创建智能合约的账户的地址，交易的data字段的字段值保存的合约代码可以是字节码，交易的to字段的字段值为一个null（空）的账户。当节点间通过共识机制达成一致后，这个智能合约成功创建，后续用户可以调用这个智能合约。

智能合约创建后，区块链上出现一个与该智能合约对应的合约账户，并拥有一个特定的地址；比如，图1中各节点中的“0x68e12cf284…”就代表了创建的这个合约账户的地址；合约代码（code）和账户存储（storage）将保存在该合约账户的账户存储中。智能合约的行为由合约代码控制，而智能合约的账户存储则保存了合约的状态。换句话说，智能合约使得区块链上产生包含合约代码和账户存储的虚拟账户。

前述提到，包含创建智能合约的交易的data字段保存的可以是该智能合约的字节码。字节码由一连串的字节组成，每一字节可以标识一个操作。基于开发效率、可读性等多方面考虑，开发者可以不直接书写字节码，而是选择一门高级语言编写智能合约代码。例如，高级语言可以采用诸如solidity、serpent、lll语言等。对于采用高级语言编写的智能合约代码，可以经过编译器编译，生成可以部署到区块链上的字节码。

以solidity语言为例，用其编写的合约代码与面向对象编程语言中的类（class）很相似，在一个合约中可以声明多种成员，包括状态变量、函数、函数修改器、事件等。状态变量是永久存储在智能合约的账户存储（storage）字段中的值，用于保存合约的状态。

如图2所示，仍以以太坊为例，bob将一笔包含调用智能合约信息的交易发送到以太坊网络后，各节点均可以在evm中执行这笔交易。其中，图2中交易的from字段用于记录发起调用智能合约的账户的地址，to字段用于记录被调用的智能合约的地址，交易的data字段用于记录调用智能合约的方法和参数。调用智能合约后，合约账户的账户状态可能改变。后续，某个客户端可以通过接入的区块链节点（例如图2中的节点1）查看合约账户的账户状态。

智能合约可以以规定的方式在区块链网络中每个节点独立的执行，所有执行记录和数据都保存在区块链上，所以当这样的交易执行完毕后，区块链上就保存了无法篡改、不会丢失的交易凭证。

创建智能合约和调用智能合约的示意图如图3所示。以太坊中要创建一个智能合约，需要经过编写智能合约、变成字节码、部署到区块链等过程。以太坊中调用智能合约，是发起一笔指向智能合约地址的交易，各个节点的evm可以分别执行该交易，将智能合约代码分布式的运行在以太坊网络中每个节点的虚拟机中。

由于本说明书提供的基于区块链的侵权检测方法涉及原创作品和待检测作品，所以在介绍本说明书提供的方法之前，先介绍下“获取原创作品和待检测作品”的方式。

方式一：用户可向电子设备提交原创作品，电子设备可基于原创作品中的作品内容属性，在全网搜索具有侵权嫌疑的待检测作品。

下面通过步骤a至步骤d对方式一进行详细地说明。

步骤a、电子设备获取原创作品；

步骤b、电子设备获取原创作品的作品内容属性和作品内容类型；

步骤c、电子设备在预设的web站点列表中，查找与确定出的作品内容类型匹配的至少一个web站点；

步骤d、电子设备可监测所述至少一个web站点，并在监测到该至少一个web站点中的任意web站点的网页中包含有所述原创作品的作品内容属性时，采集所述网页的页面内容。

其中，作品内容属性可包括原创作品的作者、关键词、作品摘要、作品内容类型等等。这里只是对作品内容属性进行示例性地说明，不对其进行具体地限定。

上述作品内容类型，用于表达作品内容的类别。比如该作品内容类别为小说类、散文类、新闻类、时事评论类、娱乐类等等。这里只是对作品内容类型进行示例性地说明，不对其进行具体地限定。

上述web站点可包括：网站，应用软件，网站或者应用软件提供的各种服务，比如小程序服务、小应用服务，公众号等。这里只是对web站点进行示例性地说明，不对其进行具体地限定。

下面分别对实现步骤a至步骤d的方式进行详细地说明。

步骤a、电子设备获取原创作品。

在实现步骤a时，电子设备可以接收用户输入的原创作品。或者，电子设备在接收到用户输入的原创作品标识后，在原创作品数据库中查询该原创作品，以获取该原创作品。

步骤b、电子设备获取原创作品的作品内容属性和作品内容类型。

在实现时，作者在向原创作品库中上传原创作品时，通常会将原创作品的作品内容属性和作品内容类型上传至原创作品库中。例如，作者在向原创作品库中上传一部小说作品时，通常会将该小说作品的作者、摘要、关键词等作为作品内容属性以及该小说作品的作品内容类型（比如历史类小说）上传至原创作品库中。

所以在获取原创作品的作品内容属性时，电子设备可从原创作品库中查找该与该原创作品对应的作品内容属性和作品内容类型。

若该原创作品库中记录了与该原创作品对应的作品内容属性和作品内容类型，则读取该原创作品库中记录的该原创作品对应的作品内容属性和作品内容类型。

若该原创作品库中未记录与该原创作品对应的作品内容属性，则从原创作品中识别出该原创作品的作品内容属性，并基于所述作品内容属性确定作品内容类型。

在从原创作品中识别出作品内容属性时，电子设备可对原创作品进行分词处理，得到多个分词。比如电子设备可采用mm（maximummatchingmethod，最大正向匹配）分词法，rmm（reversemaximummatchingmethod，）分词法等等，这里只是对分词法进行示例性地说明，不对其进行具体地限定。

然后，电子设备可从得到的多个分词中筛选出表达原创作品特征的若干分词，作为原创作品的作品内容属性。

例如，电子设备可以统计各个分词在原创作品中出现的次数，选择出现次数高于预设阈值的分词作为关键词，作为表达原创作品特征的若干分词。这里只是对“从得到的多个分词中筛选出表达原创作品特征的若干分词”进行示例地说明，不对其进行具体地限定。

在得到原创作品的作品内容属性后，电子设备可基于原创作品的作品内容属性确定作品内容类型。

在实现时，电子设备可将原创作品的作品内容属性输入至已训练好的分类模型中，以由分类模型基于该原创作品的作品内容属性，识别原创作品的作品内容类型。

电子设备可接收所述分类模型输出的至少一个作品内容类型及其对应的概率值，并选择概率值最大的作品内容类型作为该原创作品的作品内容类型。当然，电子设备也可以选择概率值大于预设阈值的至少一个作品内容类型作为该原创作品的作品内容类型。

该已训练的分类模型是由大量的样本标签对训练而成的。每一个样本标签对中的样本为作品的作品内容属性、标签为该作品的作品内容类型。

其中，该已训练的分类模型可以由lightgbm（lightgradientboostingmachine，轻量级梯度推进机）搭建而成，当然该成交时间预测模型还可以是bp（backpropagation，反向传播）网络的分类模型、svm（supportvectormachine，支持向量机）、逻辑回归模型，随机森林搭建而成，这里不进行具体地限定。

步骤c、电子设备在预设的web站点列表中，查找与确定出的作品内容类型匹配的至少一个web站点。

在本说明书实施例中，电子设备上维护了web站点列表。该web站点列表维护了web站点标识、web站点包含的作品的作品内容类型。例如，web站点列表可如表1所示。

当然，在实际应用中，该web站点列表还包括其他内容，比如web站点域名、web站点优先级等，这里只是对web站点列表进行示例地说明，不对其进行具体地限定。

需要说明的是，每个web站点可以对应一种作品内容类型，也可以对应多种作品内容类型，这里不进行具体地限定。

在本说明书实施例中，电子设备可以以原创作品的作品内容类型为关键字，在表1所述的web站点列表中查找与该关键字对应的web站点标识，作为与该原创作品的作品内容类型匹配的至少一个web站点。

步骤d:电子设备可监测所述至少一个web站点，并在监测到该至少一个web站点中的任意web站点的网页中包含有所述原创作品的作品内容属性时，采集所述网页的页面内容。

在实现时，电子设备可采用网络爬虫技术，监测所述至少一个web站点，并在监测到该至少一个web站点中的任意web站点的网页中包含有所述原创作品的作品内容属性时，采集所述网页的网页内容。

电子设备可将该网页内容所呈现的作品作为待检测作品。

当然，电子设备还可采用其他技术来监测web站点并采集网页内容，这里只是对其进行示例性地说明，不对其进行具体地限定。

方式二：原创作品和待检测作品均储存在区块链上，电子设备可获取区块链上储存的原创作品和待检测作品。

在实现时，当电子设备检测到用户发起针对原创作品和待检测作品的侵权检测时，电子设备可获取区块链上存证的原创作品和待检测作品。

方式三：电子设备可接收用户提交的原创作品和待检测作品。

这里只是对电子设备获取原创作品和待检测作品的示例性说明，本说明书不对该获取方法进行具体地限定。

在获取到原创作品和待检测作品后，电子设备可完成图4所示的基于区块链的侵权检测。

参见图4，图4是本说明书一示例性实施例示出的一种基于区块链的侵权检测方法的流程图，该方法可应用在电子设备上，可包括如下所述步骤。

步骤402：电子设备对原创作品和待检测作品分别进行分词处理，并对分词处理得到的若干分词进行向量化处理，得到与所述原创作品对应的若干原创分词向量；以及，与所述待检测作品对应的若干待检测分词向量。

在实现时，电子设备可先对原创作品和待检测作品进行预处理。比如，电子设备可将原创作品或者待检测作品中的标点、以及副词、助词等无意义的词删除掉。

然后，电子设备可采用预设的分词技术分别对预处理后的原创作品和待检测作品进行分词处理。

其中，预设的分词技术可包括：基于字典、词库匹配的分词方法、基于词频度统计的分词方法和基于规则的分词方法等。

1、基于字典、词库匹配的分词方法

其中，基于字典、词库匹配的分词方法是指：按照预设策略将文本切分为多个字符串，将每个字符串与字典或者词库进行匹配，若匹配成功，则确定该字符串匹配到的字典或者词库中的词作为识别出的一个分词。

基于字典、词库匹配的分词方法可包括：mm（maximummatchingmethod，最大正向匹配），rmm（reversemaximummatchingmethod，）、最小切分法和双向匹配法等。

2、基于词频度统计的分词方法；

基于词频度统计的分词方法不依赖字典或词库，而是统计文本中任意两个字同时出现的频率。两个字同时出现的频率越高，这两个字组成一个词的可能性越大。具体地，可将文本进行全切分，然后在全切分的基础上统计相邻的字同时出现频率，基于频率对文本进行分词。

实现该基于词频度统计的分词方法的模型可包括：n元文法模型（n-gram）、隐马尔科夫模型等，这里只是对该模型进行示例性地说明，不对其进行具体地限定。

3、基于规则的分词方法

该基于规则的分词方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行界定，从而达到分词的目的。

上述只是对分词方法进行示例性地说明，在实际应用中，电子设备还可采用其他分词方法，这里不对分词方法进行具体地限定。

在本说明书实施例中，在分别对原创作品和待检测作品进行分词处理，分别得到与原创作品对应的若干分词、得到与待检测作品对应的若干分词后，电子设备还可分别对原创作品对应的若干分词、待检测作品对应的若干分词进行向量化处理，得到与所述原创作品对应的若干原创分词向量；以及，与所述待检测作品对应的若干待检测分词向量。

例如，电子设备可采用word2vec（wordtovector，词转换为向量，是指用来产生词向量的相关模型）技术分别对原创作品对应的若干分词、待检测作品对应的若干分词进行向量化处理，得到与所述原创作品对应的若干原创分词向量；以及，与所述待检测作品对应的若干待检测分词向量。

这里只是对“对分词进行向量化处理”所采用的技术进行示例性地说明，当然，在实际应用中电子设备还可采用其他分词向量化技术来实现对分词的向量化处理，这里不对其进行具体地限定。

步骤404：电子设备分别对所述若干原创分词向量和所述若干待检测分词向量进行聚类处理，得到与所述原创分词向量对应的原创聚类结果、以及与所述待检测分词向量对应的待检测聚类结果。

在实现时，电子设备可采用k-means（一种聚类算法）方法分别对若干原创分词向量、以及若干待检测分词向量进行聚类处理。

具体地，以采用k-means方法分别对若干原创分词向量进行聚类处理，得到聚类处理结果为例，采用k-means方法对若干待检测分词向量进行聚类处理例子相同，这里不再赘述。

电子设备可预选择k个原创分词向量作为初始聚类中心。然后基于各原创分词向与聚类中心的距离，将若干原创分词向量划分为多个簇。然后，电子设备可重新计算各个簇的中心作为聚类中心，循环“基于各原创分词向与聚类中心的距离，将若干原创分词向量划分为多个簇”的过程，直至聚类中心不发生变化或者达到了预设的迭代次数。

电子设备对原创分词向量进行聚类得到的原创聚类结果可包括：每个簇中的各个原创分词向量的分布、每个簇对应的聚类中心，每个簇的半径等等。

这里只是对聚类结果进行示例性地说明，不对其进行具体地限定。

同理，电子设备对待检测分词向量进行聚类得到的待检测聚类结果可包括：每个簇中的各待检测分词向量的分布、每个簇对应的聚类中心、每个簇的半径等等。

当然，电子设备还可采用其他聚类方法进行聚类，比如dbscan（density-basedspatialclusteringofapplicationswithnoise，一种基于密度的聚类算法）。这里只是对聚类算法进行示例性地说明，不对其进行具体地限定。

步骤406：电子设备基于所述原创聚类结果和所述待检测聚类结果的相似度，确定所述原创作品和所述待检测作品的侵权相似度，并根据所述侵权相似度进行对待检测作品进行侵权检测，并将侵权检测结果发布至区块链进行存证。

下面通过步骤一至步骤四对步骤406进行详细地说明。

步骤一：电子设备可确定原创聚类结果和待检测聚类结果的相似度。

在确定相似度时，电子设备可将分别将原创聚类结果和待检测聚类结果进行向量化处理，得到与原创聚类结果对应的原创结果向量、以及与待检测聚类结果对应的待检测结果向量。然后，电子设备可计算原创结果向量与所述聚类结果向量的向量距离，作为所述原创聚类结果和所述待检测聚类结果的相似度。

其中，原创结果向量可以表征出各个簇的属性。例如，原创结果向量可以表征出各个簇的聚类中心、簇的半径、簇中的原创分词向量的分布（即簇中的原创分词向量与聚类中心的距离）等等。这里只是对原创结果向量进行示例性地说明，不对其进行具体地限定。

待检测结果向量可以表征出各个簇的属性。例如，待检测结果向量可以表征出各个簇的聚类中心、簇的半径、簇中的待检测分词向量的分布（即簇中的待检测分词向量与聚类中心的距离）等等。这里只是对原创结果向量进行示例性地说明，不对其进行具体地限定。

上述向量距离可包括欧式距离、曼哈顿距离，余弦距离等等。这里只是对向量距离进行示例性地说明，不对其进行具体地限定。

步骤二：电子设备基于所述原创聚类结果和所述待检测聚类结果的相似度，确定所述原创作品和所述待检测作品的侵权相似度。

在一种可选的实现方式中，电子设备可以基于预设算法，将该原创聚类结果和所述待检测聚类结果的相似度折算成原创作品和该待检测作品的侵权相似度。

在另一种可选的实现方式中，电子设备上预配置了聚类结果相似度和侵权相似度的对应关系表，电子设备可以以原创聚类结果和所述待检测聚类结果的相似度作为关键字，在该对应关系表中，查找与该关键字对应的侵权相似度，作为原创作品和所述待检测作品的侵权相似度。

在另一种可选的实现方式中，电子设备可直接将原创聚类结果和所述待检测聚类结果的相似度，作为原创作品和所述待检测作品的侵权相似度。

这里只是对“电子设备基于所述原创聚类结果和所述待检测聚类结果的相似度，确定所述原创作品和所述待检测作品的侵权相似度”的示例性说明，不对其实现进行具体地限定。

步骤三：电子设备可根据所述侵权相似度进行对待检测作品进行侵权检测。

在一种可选的实现方式中，电子设备可确定原创作品和待检测作品的侵权相似度是否超过预设的第一阈值。若原创作品和待检测作品的侵权相似度是否超过预设的第一阈值，则确定所述待检测作品为侵权作品。若原创作品和待检测作品的侵权相似度未超过预设的第一阈值，则确定该待检测作品不是侵权作品。

当然，在实际应用中，只基于聚类结果进行侵权检测可能会造成误检测，所以为了提高侵权检测的准确性。电子设备还进一步对原创作品和待检测作品进行文本相似度的检测。

在实现时，电子设备可确定原创作品和待检测作品的侵权相似度是否超过预设的第一阈值。若所述侵权相似度超过预设的第一阈值，则电子设备进一步计算原创作品和待检测作品的文本相似度，并检测所述原创作品和待检测作品的文本相似度是否超过预设的第二阈值。若原创作品和待检测作品的文本相似度超过预设的第二阈值，则确定所述待检测作品为侵权作品。若原创作品和待检测作品的文本相似度未超过预设的第二阈值，则确定所述待检测作品不是侵权作品。

若所述侵权相似度不超过预设的第一阈值，则确定所述待检测作品不是侵权作品。

下面介绍下“计算原创作品和待检测作品的文本相似度”实现方式。

方式一：电子设备基于预设的哈希算法计算原创作品和待检测作品的文本相似度。

在实现时，电子设备可采用预设的哈希算法，计算所述原创作品的第一哈希值、以及计算所述待检测作品的第二哈希值。然后电子设备计算所述第一哈希值和第二哈希值的相似度，作为所述原创作品和待检测作品的文本相似度。

其中，本说明书采用的预设的哈希算法具有的特性为：两部作品的个别文字不同，但是采用该预设的哈希算法计算出的两部作品的哈希值是相同的。采用这种特性的哈希算法可以防止只有个别文字不同的两部作品被认定文本相似度程度不高的两部作品，从而造成侵权检测的误检测。

上述预设的哈希算法可以是simhash（一种哈希算法）算法、minhash（一种哈希算法）算法。当然，在实际应用中，该预设的哈希算法也可以其他哈希算法只要符合上述特性即可，这里只是对预设的哈希算法进行示例性地说明，不对其进行具体地限定。

方式二：电子设备可以基于深度学习算法计算来确定原创作品和待检测作品的文本相似度。

在实现时，电子设备可将原创作品和待检测作品或者原创作品或待检测作品的特征输入至预设的相似度计算模型中，以由相似度计算模型计算原创作品和待检测作品的相似度。其中，该相似度计算模型是由大量的样本训练而成的。

该相似度计算模型可以是dssm（deepstructuredsemanticmodels，深层结构化的语义模型）模型、tree-lstm（treelongshort-termmemory，树形长短记忆模型）模型。当然，在实际应用中，还可以采用其他模型，这里只是示例性地说明，不对其进行具体地限定。

方式三：电子设备基于原创作品和待检测作品的词向量空间计算原创作品和待检测作品的文本相似度。

在实现时，电子设备可基于原创作品的所有词向量构造与该原创作品的词向量空间。电子设备可基于待检测作品的所有词向量构造与该待检测作品的词向量空间。电子设备可计算原创作品的词向量空间和待检测作品的词向量空间的相似度，作为原创作品和待检测作品的文本相似度。

这里只是对计算文本相似度的示例性说明，在实际应用中，还可采用其他方式来计算文本相似度。

步骤四：电子设备可将侵权检测结果发布至区块链进行存证。

其中，侵权检测结果可包括：检测结果和侵权检测的计算过程等。

其中，检测结果可包括：待检测作品是否侵权原创作品、待检测作品标识、原创作品标识等等。这里只是对侵权检测结果进行示例性地说明，不对其进行具体地限定。

侵权检测的计算过程可包括：原创作品和待检测作品在检测检测中的每一个步骤所产生的中间结果等等。比如原创作品和待检测作品的聚类结果相似度、侵权相似度、文本相似度等等。这里只是对侵权检测的计算过程进行示例性地说明，不对其进行具体地限定。

在本说明书实施例中，电子设备在获取到上述侵权检测结果后，可将该侵权检测结果发布至区块链进行存证。

由于区块链上存证的数据具有不可篡改的特性，所以将侵权检测结果发布至区块链进行存证，可以防止侵权检测结果被篡改，保证了侵权检测结果的安全性。

此外，还需要说明的是：上述步骤402至步骤406可以在链下部署的电子设备上完成，也可以通过区块链上通过智能合约完成步骤402至步骤406。

通常，在举证待检测作品侵权原创作品时，不仅要举证侵权检测结果，还要举证得到该侵权检测结果的侵权检测过程是安全的，不被篡改。

因此，为了保证侵权检测过程的安全可靠，在链下进行侵权检测时，链下的电子设备可在可信执行环境中执行上述步骤402至步骤406所示的侵权检测。

当然，区块链本身具有安全可靠、不被篡改的特性，所以通过区块链上部署的侵权检测的智能合约完成上述侵权检测，也可以确保侵权检测过程是安全可靠的。

在实现时，区块链上存证了原创作品和待检测作品。区块链上还部署了对原创作品进行侵权检测的智能合约。

上述电子设备为区块链的节点设备。

区块链的客户端可向发布用于对原创作品进行侵权检测的指令，电子设备响应于客户端发布的用于对原创作品进行侵权检测的指令，调用所述区块链上部署的智能合约中检测逻辑，对所述区块链存证的原创作品和待检测作品分别进行分词处理，并对分词处理得到的若干分词进行向量化处理，得到与所述原创作品对应的若干原创分词向量；以及，与所述待检测作品对应的若干待检测分词向量；分别对所述若干原创分词向量和所述若干待检测分词向量进行聚类处理，得到与所述原创分词向量对应的原创聚类结果、以及与所述待检测分词向量对应的待检测聚类结果；基于所述原创聚类结果和所述待检测聚类结果的相似度，确定所述原创作品和所述待检测作品的侵权相似度，并根据所述侵权相似度进行对待检测作品进行侵权检测。

其中，上述指令可以是客户端向区块链发布的交易，这里只是对指令进行示例性地说明，不对其进行具体地限定。

由上述描述可知，一方面，由于由两部作品的侵权相似度是由两部作品的聚类结果相似度表征出的，而两部作品的聚类结果可以反应出两部作品整体上的特征，所以基于侵权相似度的侵权检测，可以检测出两部作品整体上是否相似，从而可以检测出上述文字表达略有不同，但有作品核心部分相同的第二类侵权作品，因此大大提高了侵权检测的准确性。

第三方面，当通过区块链上部署的智能合约完成上述侵权检测时，由于区块链本身具有安全可靠、不被篡改的特性，所以通过区块链上部署的侵权检测的智能合约完成上述侵权检测，也可以确保侵权检测过程是安全可靠的，从而保证了侵权检测过程的安全可靠，不被篡改。

与上述基于区块链的侵权检测方法实施例相对应，本说明书还提供了基于区块链的侵权检测装置的实施例。

与上述基于区块链的侵权检测方法实施例相对应，本说明书还提供了一种基于区块链的侵权检测装置的实施例。本说明书的基于区块链的侵权检测装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本说明书的基于区块链的侵权检测装置所在电子设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

参见图6，图6是本说明书一示例性实施例示出的一种基于区块链的侵权检测装置的框图。该装置可应用在电子设备上，可包括：

分词处理模块601，用于对原创作品和待检测作品分别进行分词处理，并对分词处理得到的若干分词进行向量化处理，得到与所述原创作品对应的若干原创分词向量；以及，与所述待检测作品对应的若干待检测分词向量；

聚类处理模块602，用于分别对所述若干原创分词向量和所述若干待检测分词向量进行聚类处理，得到与所述原创分词向量对应的原创聚类结果、以及与所述待检测分词向量对应的待检测聚类结果；

检测模块603，用于基于所述原创聚类结果和所述待检测聚类结果的相似度，确定所述原创作品和所述待检测作品的侵权相似度，并根据所述侵权相似度进行侵权检测，并将侵权检测结果发布至区块链进行存证。

可选的，所述检测模块603，用于将所述原创聚类结果和所述待检测聚类结果进行向量化处理，得到与原创聚类结果对应的原创结果向量、以及与所述待检测聚类结果向量对应的待检测结果向量；计算所述原创结果向量与所述聚类结果向量的向量距离，作为所述原创聚类结果和所述待检测聚类结果的相似度。

可选的，所述检测模块603，用于若所述侵权相似度超过预设的第一阈值，则进一步检测所述原创作品和待检测作品的文本相似度是否超过预设的第二阈值；若超过，则确定所述待检测作品为侵权作品；若未超过，则确定所述待检测作品不是侵权作品；

若所述侵权相似度不超过预设的第一阈值，则确定所述待检测作品不是侵权作品。

可选的，所述检测模块603，用于采用预设的哈希算法，计算所述原创作品的第一哈希值、以及计算所述待检测作品的第二哈希值；计算所述第一哈希值和第二哈希值的相似度，作为所述原创作品和待检测作品的文本相似度。

可选的，所述预设的哈希算法为simhash算法或者minhash算法。

上述实施例阐明的系统、装置、模块或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄凯明;杨磊
技术所有人：支付宝(杭州)信息技术有限公司
我是此专利的发明人

上一篇：一种洗头机按摩头罩及其工作方法、及洗头机与流程
上一篇：一种费托蜡生产润滑油基础油的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。