一种基于属性加密的数据集去重方法、存储介质及系统与流程

文档序号:24640404发布日期:2021-04-09 20:53阅读:49来源:国知局
一种基于属性加密的数据集去重方法、存储介质及系统与流程

本发明涉及数据去重领域,尤其涉及一种基于属性加密的数据集去重方法、存储介质及系统。



背景技术:

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。dataset(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。最简单的情况下,只有一个变量,然后在数据集由一列列的数值组成,往往被描述为一个列表。尽管名称,这样一个单数据集不是一套通常的数学意义,因为某一个指定数值,可能会出现多次。通常的顺序并不重要,然后这样数值的集合可能被视为多重集,而不是(顺序)列表。值可能是数字,例如真正的数字或整数,例如代表一个人的身高多少厘米,但也可能是象征性的数据(即不包括数字),例如代表一个人的种族问题。更一般的说,价值可以是任何类型描述为某种程度的测量。对于每一个变量,通常所有的值都是同类。但是也可能是“遗漏值”,其中需要指出的某种方式。数据集可以分成类型化数据集与非类型化数据集。

在数据处理技术领域,为了使数据处理过程更加简便,通常可以先对数据进行数据去重处理,将重复的数据去除,然后对去重后的数据进行数据处理。如此,不仅可以减少数据处理的数据量,降低设备的计算压力,还可以减少存储空间,降低设备的存储压力。由此可见,数据去重对数据处理是很重要的,因此,如何对数据进行去重处理成为了一个亟需解决的问题。

但是,在数据去重处理的过程中,数据集中的属性可能出现被恶意攻击和篡改,也即数据集去重的过程中安全性无法得到保障。



技术实现要素:

有鉴于此,本发明提供一种基于属性加密的数据集去重方法、存储介质及系统解决数据集去重过程中属性安全的问题。

为了达到上述目的,本发明解决技术问题的技术方案是提供一种基于属性加密的数据集去重方法,其包括:根据需求获取数据集;确定接收到的数据集中的所有标签及属性值,将标签相同的数据集放入同一个列表中,并将所有的列表进行分级;根据数据集的标签,对数据集中的属性值进行加密;对相同数据集中相同标签对应的属性值进行去重;对属性值进行解密并传输去重后的数据集。

进一步,所述根据需求获取数据集包括:生成数据集;传输数据集;获取数据集。

进一步,所述确定接收到的数据集中的所有标签及属性值,将标签相同的数据集放入同一个列表中,并将所有的列表进行分级包括:确定数据集的标签及属性值;将相同标签的数据集放入同一个列表中;对列表进行分类。

进一步,所述根据数据集的标签,对数据集中的属性值进行加密包括:对第一档列表中的属性值进行编码;对第二档列表中的属性值进行md5加密。

进一步,所述对相同数据集中相同标签对应的属性值进行去重包括:对所有列表中的属性值进行循环;将列表中所有的属性值重复的数据集筛选出来;将重复的数据集保留一个,删除重复部分。

进一步,所述对属性值进行解密并传输去重后的数据集包括:对属性值进行解密;将解密后的数据集进行传输并存储。

进一步,所述数据集包括标签及属性值,所述标签与所述属性值对应。

进一步,所述列表分为第一档列表及第二档列表,所述第一档列表中的属性值只有是或否两种可能,而所述第二档列表中的属性值存在多种可能。

本发明还提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述基于属性加密的数据集去重方法。

本发明还提供一种基于属性加密的数据集去重系统,其包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现基于属性加密的数据集去重方法。

与现有技术相比,本发明所提供的基于属性加密的数据集去重方法、存储介质及系统具有以下有益效果:

通过过将所有标签相同的数据集放入同一列表中,并且列表进行分类,且对第一档列表中的属性值进行编码加密,而对第二档列表中的数据集进行md5加密,然后再对所有的数据集进行循环去重,从而在去重的过程中即保证了数据的安全性,同时也通过列表的分类,使得属性值较为单一的只需要进行编码加密,而属性值复杂的再利用md5进行加密,减少了加密过程中的工作量,加快了加密的速度。

附图说明

图1为本发明一个实施例提供的一种基于属性加密的数据集去重方法的步骤流程示意图;

图2为图1中步骤s1另一实施例的步骤流程图;

图3为图1中步骤s2另一实施例的步骤流程图;

图4为图1中步骤s3另一实施例的步骤流程图;

图5为图1中步骤s4另一实施例的步骤流程图;

图6为图1中步骤s5另一实施例的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参阅图1,本发明提供的一种基于属性加密的数据集去重方法,其包括:

s1,根据需求获取数据集;

在本实施例中,实施环境可以包括第一设备和第二设备,且第一设备和第二设备之间可以建立通信连接,该通信连接可以为有线或者无线连接。其中,第一设备可以用来向第二设备发送数据,第二设备可以用来对实时数据流进行去重处理。第一设备可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如pc(personalcomputer,个人计算机)、手机、智能手机、pda(personaldigitalassistant,个人数字助手)、可穿戴设备、掌上电脑ppc(pocketpc)、平板电脑、智能车机、智能电视、智能音箱等。或者,第一设备可以为服务器,且第一设备可以为一台服务器或者多台服务器组成的服务器集群。

第二设备可以为终端,可以是任何一种可与用户通过键盘、触摸板、触摸屏遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如pc、手机、智能手机、pda、可穿戴设备、掌上电脑ppc、平板电脑、智能车机、智能电视、智能音箱等。或者,第二设备可以为服务器,且第二设备可以为一台服务器、或多台服务器组成的服务器集群、或一个云计算服务中心。

第一设备可在用户的操作下生成数据集,并将数据集发送至第二设备中,第二设备通过接收第一设备发送的信息以获取需要处理的数据集。

可以理解,第一设备生成的数据集可以是用户通过应用场景的不同,输入的任意数据。

s2,确定接收到的数据集中的所有标签及属性值,将标签相同的数据集放入同一个列表中,并将所有的列表进行分级;

在本实施例中,数据集通常包括标签及标签对应的属性值,如[姓名:李某某]、[性别:男]等,其中,年龄及性别即为数据集的标签,其为统一且固定的格式,而李某某及男则为标签对应的属性值,其数值不是唯一的。在第二设备接收到所有的数据集后,根据标签为索引进行遍历,将所有标签相同的数据集放入同一个列表中。

在将所有标签相同的数据放入同一个列表中后,根据属性值的类别对所有的列表进行分类,将属性值仅有是或否两种情况的列表分为第一档列表,将属性值存在多种情况的分为第二档列表。如数据集[性别:男],其标签为性别,属性值只有男或女两种,即可以用属性值是男或不是男进行区分,则将该标签所在的列表定义为第一档列表。而数据集[姓名:李某某],其标签为姓名,属性值为多种字符的组合,则将该标签对应的列表定位为第二档的列表。

s3,根据数据集的标签,对数据集中的属性值进行加密;

在本实施中,当所有相同的标签都放入同一列表中,并完成分类后,对标签对应的属性值进行编码。其中,对一档列表中的属性值使用0、1进行编码,如标签为性别所对应的属性值中,男表示为1,而女则表示为0。对第二档列表中,使用md5算法对所有的属性值进行加密。

md5信息摘要算法(英语:md5message-digestalgorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hashvalue),用于确保信息传输完整一致。

s4,对相同数据集中相同标签对应的属性值进行去重;

在本实施例中,完成上述的分类及加密后,在每一个列表中进行循环比较,从而通过循环比较的过程,将同一个列表中所有属性值相同的数据集筛选出来,然后保留其中一个,将其他重复的数据集进行删除,从而实现去重。

可以理解,在去重的过程中,循环的指令可以是一直持续,也可以在通过设置间隔时间进行循环,即,循环的过程可以是一直存在列表中进行,每当列表中分入一个新的数据集后,即将对新分入的数据集进行循环比较。也可以是每间隔一段时间再进行一次循环,该间隔时间内,每个列表中可能会分入多个数据集。优选的,去重的过程中,循环的过程为每间隔一个预设时间段进行一次。

s5,对属性值进行解密并传输去重后的数据集;

在本实施例中,在将第二设备中的数据集进行去重后,将所有的数据集中的属性值利用反向编码或md5进行解密,并传输至其他设备进行存储,以完成数据集去重过程中的加密。如,对于第一档列表中的数据集,由于其被编码成0或1两种数字,只需对其进行反向编码即可实现解密,而对于第二档列表中的数据集,则利用md5算法对其进行解密。

请参阅图2,步骤s1中包括子步骤:

s11,生成数据集;

在本实施例中,通过用户的需求,在第一设备中生产相应的数据集。

s12,传输数据集;

在本实施例中,第一设备中生产数据集后,将数据集传输至第二设备中。

s13,获取数据集;

在本实施例中,第二设备接收第一设备传输的数据集。

请参阅图3,步骤s2中包括子步骤:

s21,确定数据集的标签及属性值;

在本实施例中,第二设备接收到数据集后,确定所有数据集的标签及对应的属性值。

s22,将相同标签的数据集放入同一个列表中;

在本实施例中,将所有标签相同的数据集放入同一个列表中。

s23,对列表进行分类;

在本实施例中,根据每个列表中属性值可能存在的种类,将列表分为第一档列表及第二档列表,其中,第一档列表中的属性值只存在是或否的两种可能,而第二档列表中的属性值则存在多种可能。

请参阅图4,步骤s3中包括子步骤:

s31,对第一档列表中的属性值进行编码;

在本实施例中,将第一档列表中的属性值编码为0或1两种数字。

s32,对第二档列表中的属性值进行md5加密;

在本实施例中,对第二档列表中的属性值进行md5算法加密。

请参阅图5,步骤s4中包括子步骤:

s41,对所有列表中的属性值进行循环;

在本实施例中,将所有的属性值进行循环比对。

s42,将列表中所有的属性值重复的数据集筛选出来;

在本实施例中,将循环比对过程中,属性值存在重复情况的数据集进行整理,并筛选出来。

s43,将重复的数据集保留一个,删除重复部分;

在本实施例中,将筛选出来的数据集保留一个,并将重复的其他数据集进行删除。

请参阅图6,步骤s5还包括子步骤:

s51,对属性值进行解密;

在本实施例中,对属性值进行解密分为反向解密及md5解密,即将第一档列表中的属性值进行反向解码,而对第二档列表中的属性值进行md5解密,从而将加密后的属性值进行解密。

s52,将解密后的数据集进行传输并存储;

在本实施例中,所有属性值解密完成后,第二设备将所有的数据集传输至其他设备,并进行存储。

本发明还提供一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述方法步骤。存储介质可以包括如软盘、光盘、dvd、硬盘、闪存、u盘、cf卡、sd卡、mmc卡、sm卡、记忆棒(memorystick)、xd卡等。

计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可以是个人计算机设备、服务器或其他网络设备等)用以执行本发明方法的全部或部分步骤。

本发明还提供一种基于属性加密的数据集去重系统,基于属性加密的数据集去重系统包括处理器和存储器,存储器上存储有计算机程序,计算机程序被处理器执行时,实现基于属性加密的数据集去重方法。

与现有技术相比,本发明所提供的基于属性加密的数据集去重方法、存储介质及系统具有以下有益效果:

通过将所有标签相同的数据集放入同一列表中,并且列表进行分类,且对第一档列表中的属性值进行编码加密,而对第二档列表中的数据集进行md5加密,然后再对所有的数据集进行循环去重,从而在去重的过程中即保证了数据的安全性,同时也通过列表的分类,使得属性值较为单一的只需要进行编码加密,而属性值复杂的再利用md5进行加密,减少了加密过程中的工作量,加快了加密的速度。

以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1