一种基于项目反应理论的数据去重方法、装置及设备与流程

文档序号：18641889发布日期：2019-09-11 23:30阅读：167来源：国知局

本申请涉及数据去重领域，特别涉及一种基于项目反应理论的数据去重方法、装置、设备及计算机可读存储介质。

背景技术：

随着计算机技术和网络信息技术的发展，全球的数据信息存储量呈爆炸式增长的趋势。目前分布式系统已广泛应用到信息产业中，用于应对海量数据的日益增长。然而，分布式系统虽然解决了海量数据的存储问题，但同时带来了新的挑战——数据的冗余越来越多。

数据去重技术是一种通过大规模消除冗余数据，降低存储成本的重要技术。目前，一种常用数据去重方案为基于流行度的数据去重方法，该方案为云存储服务器中的数据设置阈值，在上传同一数据的用户数量达到阈值前，云存储服务器为每个用户存储其数据副本；当上传同一数据的用户数量达到阈值后，则认为该数据为流行数据，对其进行去重操作，即为后续上传数据的用户创建访问链接，不再实际存储数据副本。

然而，基于流行度的数据去重方案为所有数据分配统一的固定的阈值，一方面难以确定合理的阈值大小，另一方面缺乏对不同数据、不同用户的实际需求的考量。

技术实现要素：

本申请的目的是提供一种基于项目反应理论的数据去重方法、装置、设备及计算机可读存储介质，用以解决传统的数据去重方案为所有上传数据设置统一的既定阈值，缺乏对不同数据、不同用户的实际需求的考量，导致隐私数据泄露或数据去重效果不理想的问题。具体方案如下：

第一方面，本申请提供了一种基于项目反应理论的数据去重方法，包括：

获取待上传数据；

根据项目反应理论，确定所述待上传数据的理论隐私分数；

根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定所述副本数据的去重阈值；

在所述副本数据的数量大于所述去重阈值时，执行数据去重操作。

可选的，所述根据项目反应理论，确定所述待上传数据的理论隐私分数，包括：

根据项目反应理论，利用最大似然函数方法确定所述待上传数据的可见度和敏感度；

根据所述可见度和所述敏感度，确定所述待上传数据的理论隐私分数。

可选的，所述根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定所述副本数据的去重阈值，包括：

根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定综合隐私分数；

根据所述综合隐私分数，依据目标函数确定所述副本数据的去重阈值，其中，所述目标函数为ti为副本数据i的去重阈值，pri为副本数据i的综合隐私分数，a为预设系数。

可选的，所述根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定综合隐私分数，包括：

将所述理论隐私分数反馈给当前用户；

响应所述当前用户的接受请求以根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定综合隐私分数；

响应所述当前用户的自定义请求以获取所述当前用户自定义的隐私分数，并根据所述隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定综合隐私分数。

可选的，在所述根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定所述副本数据的去重阈值之后，还包括：

若所述副本数据的数量小于所述去重阈值，则按照第一加密方法对所述待上传数据进行加密，并将加密后的待上传数据存储到所述云存储服务器；

若所述副本数据的数量等于所述去重阈值，则按照第二加密方法对所述待上传数据进行加密，并将加密后的待上传数据存储到所述云存储服务器。

可选的，所述第一加密方法为对称加密方法，所述第二加密方法为收敛加密方法。

第二方面，本申请提供了一种基于项目反应理论的数据去重装置，包括：

数据获取模块：用于获取待上传数据；

理论隐私分数确定模块：用于根据项目反应理论，确定所述待上传数据的理论隐私分数；

阈值确定模块：用于根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定所述副本数据的去重阈值；

去重模块：用于在所述副本数据的数量大于所述去重阈值时，执行数据去重操作。

可选的，所述理论隐私分数确定模块包括：

第一单元：用于根据项目反应理论，利用最大似然函数方法确定所述待上传数据的可见度和敏感度；

第二单元：用于根据所述可见度和所述敏感度，确定所述待上传数据的理论隐私分数。

第三方面，本申请提供了一种基于项目反应理论的数据去重设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序以实现如上所述的一种基于项目反应理论的数据去重方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的一种基于项目反应理论的数据去重方法的步骤。

本申请所提供的一种基于项目反应理论的数据去重方法，在获取待上传数据之后，能够根据项目反应理论确定待上传数据的理论隐私分数，并根据理论隐私分数、云存储服务器中待上传数据的副本数据的隐私分数，确定副本数据的去重阈值，最终在副本数据的数量大于去重阈值时执行数据去重操作。可见，在用户上传数据时，该方法能够依据项目反应理论确定待上传数据的理论隐私分数，并根据理论隐私分数确定去重阈值，由于项目反应理论能够综合考量用户主观性的隐私需求以及数据客观性的隐私性，因此该方法实现了根据不同用户、不同数据动态调整数据的去重阈值的目的，提高了数据去重的效率和场景适应性。

此外，本申请还提供了一种基于项目反应理论的数据去重装置、设备及计算机可读存储介质，其作用与上述方法相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种基于项目反应理论的数据去重方法实施例一的实现流程图；

图2为本申请所提供的一种基于项目反应理论的数据去重方法实施例二的实现流程图；

图3为本申请所提供的一种基于项目反应理论的数据去重装置实施例的功能框图；

图4为本申请所提供的一种基于项目反应理论的数据去重设备实施例的结构示意图。

具体实施方式

本申请的核心是提供一种基于项目反应理论的数据去重方法、装置、设备及计算机可读存储介质，实现了根据不同用户、不同数据动态调整数据的去重阈值的目的，提高了数据去重的效率和场景适应性。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请提供的一种基于项目反应理论的数据去重方法实施例一进行介绍，参见图1，实施例一包括：

步骤s101：获取待上传数据；

本实施例涉及两类实体，分别为用户和云存储服务器。用户可以与云存储服务器进行数据交互，在交互过程中，用户可以扮演两个角色：数据上传者或数据观察者。数据上传者向云存储服务器上传加密的数据，数据观察者可以向云存储服务器发送请求下载加密的数据。云存储服务器为用户提供数据存储和数据共享服务，但无法获知数据的具体内容。

值得一提的是，本实施例主要针对非首次上传的数据进行去重阈值的调整、数据去重的操作。在实际应用场景中，在接收到上传用户的上传请求后，可以先判断待上传数据是否为首次上传的数据，也就是说，判断云存储服务器中是否存在待上传数据的副本数据，若存在则继续本实施例的后续流程；若不存在，则作为一种具体的实施方式，可以获取上传用户为待上传数据设置的隐私分数，根据该隐私分数确定待上传数据的去重阈值，并将待上传数据、隐私分数、去重阈值存储到云存储服务器中。优选的，在将待上传数据存储到云存储服务器之前，可以对待上传数据执行数据加密操作，本实施例不限定具体的加密方式。

步骤s102：根据项目反应理论，确定所述待上传数据的理论隐私分数；

项目反应理论是一个著名的心理学理论，该理论可以通过度量受测用户的能力和测试题目的难度，并据此推断受测用户正确回答测试问题的概率。项目反应理论中测试题目qi由一对参数ξi＝(αi,βi)来表示，并认为正确回答的概率函数仅与θi、αi和βi有关，其中θi表示受测用户的能力等级，αi表示测试问题的区分能力，βi表示测试问题的难度。在本实施例中，上传用户对应于上述受测用户，待上传数据对应于上述测试题目。下面对照上述项目反应理论的三个参数，对本实施例中需要考虑的三个参数进行介绍：本实施例中上传用户的隐私倾向对应于受测用户的能力，通过隐私倾向参数量化上传用户对其个人隐私的在意程度，隐私倾向参数的值越高表示上传用户越开放；本实施例中上传数据的敏感度对应于测试问题的难度等级；由于本实施例中上传数据的隐私程度问题对上传用户是容易理解的，且具有完全相同的区分度，因此上传数据的区分度参数就不再是一个需要考虑的变量，因此，本实施例采用常量替代上传数据的区分参数或直接忽略不计。

具体的，本实施例依据上述项目反应理论，根据待上传数据确定敏感度和可见度，并根据敏感度和可见度确定待上传数据的理论隐私分数，具体可以根据敏感度和可见度的单调递增的函数组合得到理论隐私分数。

在实际的应用场景中，对于待上传数据的隐私分数的确定方式，除了如上所述的依据项目反应理论确定待上传数据的理论隐私分数的方式之外，本实施例还提供另一种方式，即获取上传用户设置的隐私分数以作为待上传数据的隐私分数。具体的，可以在确定理论隐私分数之后，将理论隐私分数反馈给上传用户以供参考，上传用户可以选择接受该理论隐私分数，还可以选择自定义待上传数据的隐私分数。

步骤s103：根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定所述副本数据的去重阈值；

具体的，本实施例的云存储服务器在存储数据的同时，也会存储该数据的隐私分数，根据上述项目反应理论的相关描述可知，数据的隐私分数需要依据上传用户的隐私倾向参数确定，也就是说数据的隐私分数受到上传用户的主观因素的影响，因此同一数据的不同副本的隐私分数可能不同，作为一种具体的实施方式，本实施例依据同一数据的各个副本的隐私分数的均值来确定该数据的去重阈值。

步骤s104：在所述副本数据的数量大于所述去重阈值时，执行数据去重操作。

具体的，在根据待上传数据动态调整去重阈值之后，可以判断副本数据的数量与去重阈值之间的大小关系，若副本数据的数量小于等于去重阈值，则将待上传数据存储到云存储服务器；若副本数据的数量大于去重阈值，则执行数据去重操作，即为后续上传用户创建副本数据的访问链接，不再将该待上传数据存储到云存储服务器。

本实施例所提供一种基于项目反应理论的数据去重方法，在获取待上传数据之后，能够根据项目反应理论确定待上传数据的理论隐私分数，并根据理论隐私分数、云存储服务器中待上传数据的副本数据的隐私分数，确定副本数据的去重阈值，最终在副本数据的数量大于去重阈值时执行数据去重操作。可见，在用户上传数据时，该方法能够依据项目反应理论确定待上传数据的理论隐私分数，并根据理论隐私分数确定去重阈值，由于项目反应理论能够综合考量用户主观性的隐私需求以及数据客观性的隐私性，因此该方法实现了根据不同用户、不同数据动态调整数据的去重阈值的目的，提高了数据去重的效率和场景适应性。

下面开始详细介绍本申请提供的一种基于项目反应理论的数据去重方法实施例二，实施例二基于上述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。具体的，本实施例对于不同隐私程度的数据采用了不用的加密方式，提高了数据上传的效率和可靠性。

参见图2，实施例二具体包括：

步骤s201：获取待上传数据；

具体的，本实施例在获取待上传数据后，先判断待上传数据是否为首次上传，若为首次上传，则可以获取上传用户为待上传数据设置的隐私分数，以作为该数据的综合隐私分数；若非首次上传，则继续后续流程，即根据项目反应理论计算出待上传数据的建议隐私分数，并根据待上传数据的建议隐私分数、待上传数据在云存储服务器中副本数据的隐私分数确定该数据的综合隐私分数。最终依据综合隐私分数确定该数据的去重阈值，以作为后续是否执行数据去重操作的参考标准。

作为一种具体的实施方式，本实施例通过数据标签来判断待上传数据是否为首次上传的数据。具体的，本实施例通过双线性映射标签生成函数生成数据标签，数据标签为数据的唯一标识，其中双线性映射标签生成函数为：

si＝e(yi,h(fi))^x(1)

其中，yi为加密公钥，x为辅助密钥，h(fi)为待上传数据fi的哈希值，si为数据标签。具体的，加密公钥、辅助密钥可以通过广播加密获得。

步骤s202：根据项目反应理论，利用最大似然函数方法分别确定所述待上传数据的可见度和敏感度；

如前文所述，在项目反应理论中，受测用户j对特定问题qi进行回答，回答结果为二值型结果，用“正确”或“错误”来标记，那么用户j正确回答问题qi的概率为：

其中，θi为受测用户能力等级，αi为测试题目的区分度，βi为测试题目的难度等级。相应的，在本实施例中，上传用户j向云存储服务器发送上传请求以实现待上传数据fi的上传，θi为用户的隐私倾向，αi为待上传数据的区分度，βi为待上传数据的敏感度，其中θi和βi可以通过最大似然估计算法求得，αi在本实施例中取预设常数。

具体的，本实施例通过最大似然函数搜索出使其结果最大的数据参数ξi＝(αi,βi)，从中得到敏感度βi的值。在计算数据fi的敏感度βi的过程中，可以先计算出其相应的log似然函数，然后搜索使得log似然函数最大的数据参数ξi＝(αi,βi)。为此，作为一种具体的实施方式，本实施例采用数值计算中常用的牛顿-拉夫逊算法来求解，具体的，给定偏导函数如下：和通过反复迭代，估算参数ξi＝(αi,βi)，最终获得敏感度βi的值。其中最大似然函数、log似然函数分别如下所示：

其中，n为上传同一数据fi的用户总数，r(i,j)为用户j对数据fi的隐私倾向的评价。具体的，用户上传数据fi的时候会一同上传隐私倾向的评价参数r(i,j)，以代表自己对上传数据隐私程度的评价，r(i,j)∈(0,1)，本实施例在求敏感度βi的时候，将r(i,j)的值作为隐私倾向参数θi的值，或对r(i,j)进行简单的推算得到θi，最终在隐私倾向参数θi为已知量的基础上求得敏感度βi。

此时用户j对数据fi的隐私倾向参数用θj表示，且为已知值。隐私倾向参数用就是通过r(i,j)推算出来的。整个过程中，当求βi的时候，θi视为已知值，即r(i,j)的值；求θi时，将求到的βi作为已知值带入，通过似然函数求θi。

根据上述过程可获知ξi＝(αi,βi)的值，确定敏感度βi的值，在此基础上，待上传数据fi的总体隐私倾向θi也通过上述似然函数搜索得出。具体的，本实施例在敏感度βi为已知量的基础上，选用牛顿-拉夫逊的拓展算法nr_attitude_estimation算法来搜索似然函数或其对应的log似然函数，找到使其最大的隐私倾向参数θi。

对于待上传数据fi的可见度v(i,j)，其计算公式如下所示：

v(i,j)＝pij×1+(1-pij)×0＝pij(5)

可见，本实施例中数据的可见度相当于传统的项目反应理论中受测用户正确回答测试题述的概率。

步骤s203：根据所述可见度和所述敏感度，确定所述待上传数据的理论隐私分数；

待上传数据的建议隐私分数是数据的整体隐私程度的数值化表示，本实施例中数据fi的理论隐私分数如下式所示：

其中，操作符表示任何关于敏感度和可见度的单调递增的函数组合。

步骤s204：根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定综合隐私分数；

具体的，本实施例依据待上传数据的理论隐私分数、云存储服务器中待上传数据的各个副本数据的隐私分数，取其均值以作为综合隐私分数，如下式所示：

其中n为上传该数据的用户总数。

具体的，在确定理论隐私分数之后，可以将所述理论隐私分数反馈给当前用户，并根据用户的反馈决定后续操作，具体的，响应所述当前用户的接受请求以根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定综合隐私分数；响应所述当前用户的自定义请求以获取所述当前用户自定义的隐私分数，并根据所述隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定综合隐私分数。

步骤s205：根据所述综合隐私分数，依据目标函数确定所述副本数据的去重阈值；

具体的，上述目标函数为：

其中ti为副本数据的去重阈值，pri为副本数据的综合隐私分数，a为预设系数。其中，a的大小可根据实际需要自行调节，本实施例中a＝7。

步骤s206：确定副本数据的数量与去重阈值的大小关系；

云存储服务器进行查询标签查询和密文对比，并根据上传数据的当前副本数量与去重阈值ti的大小关系，将数据上传过程分为和三种情况。

本实施例对数据进行加密后再将其存储到云存储服务器，作为一种优选的实施方式，本实施例针对不同隐私分数的数据采用两种加密方式进行数据加密，分别为第一加密方法和第二加密方法，其中，相对于第二加密方法，第一加密方法的加密过程简单，安全性较低，因此，本实施例选用第一加密方法来对隐私分数较低的数据进行加密，选用第二加密方法来对隐私分数较高的数据进行加密。

具体的，对称加密算法中的密钥生成函数为keyse(1^λ)，输入安全参数λ，即可输出密钥k。为了与对称加密密钥进行区分，本实施例中收敛加密密钥用xf表示，通过xf＝h(f)+x2来进行计算，其中h(f)为数据f的哈希值。e(k,f)为使用对称加密算法的加密函数，输入密钥k和待加密数据f，输出加密后的密文c。d(k,c)为使用对称加密算法的解密函数，输入密钥k和待解密密文c，输出解密后的数据。

步骤s207：若所述副本数据的数量小于所述去重阈值，则按照第一加密方法对所述待上传数据进行加密，并将加密后的待上传数据存储到所述云存储服务器；

具体的，所述第一加密方法为对称加密方法，所述第二加密方法为收敛加密方法。需要说明的是，以上两种加密方式仅作为本实施例提供的一种实现方式，本申请不限定具体的加密方式。

当时，检测云存储服务器上是否存在相同数据，判断数据是否为首次上传。若为首次上传，用户采用对称机密算法加密数据并上传至云存储服务器,同时给出自己对该数据隐私评分prij，云存储服务器记录prij，存储加密后的对称加密密钥和密文若非首次上传，则云存储服务器返回给用户对称加密密钥和建议prij，用户解密并计算获得并用其加密fi,将密文和隐私评分prij一同上传至云存储服务器，云存储服务器动态更新pri后删除新上传数据信息,并为用户创建访问链接。

步骤s208：若所述副本数据的数量等于所述去重阈值，则按照第二加密方法对所述待上传数据进行加密，并将加密后的待上传数据存储到所述云存储服务器；

当时，云存储服务器通知用户进行收敛加密，然后用户对数据进行收敛加密并上传加密密文云存储服务器存储该密文。也就是说，对每个数据，在数据量到达阈值之前，都需要进行对称加密，当数据数量等于阈值时，改用收敛加密，当数据量大于阈值时，直接进行客户端去重，也就是说不需要上传了。

步骤s209：若所述副本数据的数量大于所述去重阈值，则执行数据去重操作。

当时，云存储服务器告知用户进行客户端删重,并为用户创建访问链接。

可见，本实施例提供的一种基于项目反应理论的数据去重方法，使用项目反应理论，确定不同数据的隐私分数，保证了数据隐私分数的合理性，解决了部分用户忽视数据隐私的问题。在此基础上，实现了去重阈值随数据上传过程的动态调整，消除了传统方案中为所有数据分配统一阈值所带来的弊端，有效避免了隐私数据泄露，因此能够更好地保护用户数据。

下面对本申请实施例提供的一种基于项目反应理论的数据去重装置进行介绍，下文描述的一种基于项目反应理论的数据去重装置与上文描述的一种基于项目反应理论的数据去重方法可相互对应参照。

参见图3，该装置包括：

数据获取模块301：用于获取待上传数据；

理论隐私分数确定模块302：用于根据项目反应理论，确定所述待上传数据的理论隐私分数；

阈值确定模块303：用于根据所述理论隐私分数、云存储服务器中所述待上传数据的副本数据的隐私分数，确定所述副本数据的去重阈值；

去重模块304：用于在所述副本数据的数量大于所述去重阈值时，执行数据去重操作。

可选的，所述理论隐私分数确定模块302包括：

第一单元：用于根据项目反应理论，利用最大似然函数方法确定所述待上传数据的可见度和敏感度；

第二单元：用于根据所述可见度和所述敏感度，确定所述待上传数据的理论隐私分数。

本实施例的一种基于项目反应理论的数据去重装置用于实现前述的一种基于项目反应理论的数据去重方法，因此该装置中的具体实施方式可见前文中的一种基于项目反应理论的数据去重方法的实施例部分，例如，数据获取模块301、理论隐私分数确定模块302、阈值确定模块303、去重模块304，分别用于实现上述一种基于项目反应理论的数据去重方法中步骤s101，s102，s103，s104，s105，s106。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的一种基于项目反应理论的数据去重装置用于实现前述的一种基于项目反应理论的数据去重方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种基于项目反应理论的数据去重设备，如图4所示，包括：

存储器401：用于存储计算机程序；

处理器402：用于执行所述计算机程序以实现如上所述的一种基于项目反应理论的数据去重方法的步骤。

最后，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的一种基于项目反应理论的数据去重方法的步骤。

本实施例的一种基于项目反应理论的数据去重设备、计算机可读存储介质用于实现前述的一种基于项目反应理论的数据去重方法，因此该设备、计算机可读存储介质的具体实施方式可见前文中的一种基于项目反应理论的数据去重方法的实施例部分，且二者的作用与上述方法实施例相对应，这里不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：咸鹤群;高原
技术所有人：青岛大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。