本申请涉及数据检测,特别是涉及一种基于多数据方交互的离群数据检测方法。
背景技术:
1、离群数据是数据集中明显异常的数据点,或者说,离群数据的分布与数据集的整体分布不同。离群数据检测的目的是检测出与大部分数据差别较大的数据点,再根据具体的应用环境对离群数据作进一步处理。
2、离群数据检测在诸多领域有着广泛的应用。例如,在金融领域中用于检测金融交易中的异常行为,如欺诈交易、洗钱行为等;在网络安全领域中用于检测网络中的异常流量和入侵行为,帮助提高网络安全性;在工业制造领域中用于检测制造过程中的异常情况,如设备故障、产品质量问题等;在医疗健康领域中用于检测医疗数据中的异常情况,如疾病诊断、药物反应等。
3、在传统技术中,多个数据方共同进行离群数据检测时,通常是引入第三方作为协调方参与数据流通完成离群数据检测。但引入第三方参与数据交互可能导致多个数据方的数据泄露,存在着较大的数据安全隐患,数据安全性较低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高数据安全性的多数据方交互的离群数据检测方法。
2、第一方面,本申请提供了一种基于多数据方交互的离群数据检测方法。所述方法包括:
3、每个数据方基于已方数据确定第一距离数据集,所述第一距离数据集包括任意两个已方数据之间的距离,所述数据方的数量不小于3;
4、每个数据方基于已方数据和掩码生成混淆数据以及相应的混淆标识,并发送至目标数据方,所述掩码基于第一预设数量个数据方确定,所述第一预设数量大于2且小于所述数据方的数量,所述混淆标识用于标识确定所述掩码的数据方,所述目标数据方包括未参与确定所述掩码的数据方;
5、每个数据方基于所述混淆数据以及所述混淆标识确定第二距离数据集,并发送至其他数据方,所述第二距离数据集包括除已方外任意两个数据方之间数据的距离;
6、每个数据方基于所述第一距离数据集和所述第二距离数据集确定已方每个数据的第k局部离群因子,并发送至其他数据方;
7、至少一个数据方基于所述第k局部离群因子确定离群数据。
8、在其中一个实施例中,在所述每个数据方基于已方数据和掩码生成混淆数据以及相应的混淆标识之前,所述方法还包括:
9、每个数据方加入一个数据团队,所述数据团队至少包括领队数据方,所述数据团队的数量至少为3;
10、所述目标数据方包括第一目标数据团队的领队数据方,所述第一目标数据团队包括未参与确定所述预设掩码的数据团队;
11、所述第二距离数据集,由每个数据团队的领队数据方基于所述混淆数据确定并发送至其他数据方,所述第二距离数据集包括第二目标数据团队中任意两个数据方之间数据的距离,所述第二目标数据团队包括除已方数据团队外的其他数据团队。
12、在其中一个实施例中,所述数据团队还包括成员数据方,在所述每个数据方加入一个数据团队之后,还包括:
13、每个数据方获取一个团队标识,所述团队标识包括领队标识和成员标识;
14、所述掩码基于任意两个具有不同团队标识的数据方确定,所述不同团队标识包括相同数据团队的领队标识与成员标识、不同数据团队的领队标识、不同数据团队的成员标识、不同数据团队的领队标识与成员标识。
15、在其中一个实施例中,所述数据团队的数量为3,每个数据团队包括一个领队数据方,所述领队数据方与成员数据方的数量之和等于所述数据方的数量。
16、在其中一个实施例中,在所述每个数据方基于已方数据确定第一距离数据集之前,还包括:
17、目标数据方获取所有数据方的数据总量;
18、所述目标数据方基于所述数据总量确定编号序列,并在所述编号序列中随机选取编号作为每个已方数据的数据标识;
19、所述目标数据方将剩余的编号序列发送至下一目标数据方,直至每个数据方确定已方数据的数据标识。
20、在其中一个实施例中,所述混淆数据与相应已方数据的数据标识相同。
21、在其中一个实施例中,所述混淆标识相同的数据方,基于已方数据和掩码生成混淆数据的方式相同。
22、在其中一个实施例中,所述基于已方数据和掩码生成混淆数据包括:
23、将所述已方数据与所述掩码的和或差作为混淆数据。
24、在其中一个实施例中,所述每个数据方基于所述第一距离数据集和所述第二距离数据集确定已方每个数据的第k局部离群因子包括:
25、每个数据方基于所述第一距离数据集和所述第二距离数据集确定每个已方数据的距离参数,所述距离参数包括第k距离、第k距离邻域以及第k局部可达密度;
26、每个数据方基于所述距离参数确定已方每个数据的第k局部离群因子。
27、在其中一个实施例中,所述至少一个数据方基于所述第k局部离群因子确定离群数据包括:
28、所述至少一个数据方获取其它所有数据方数据的第k局部离群因子;
29、所述至少一个数据方确定所有数据方数据的第k局部离群因子中第二预设数量的较大值,并确定所述较大值对应的数据为所述离群数据。
30、上述多数据方交互的离群数据检测方法,每个数据方基于已方数据确定第一距离数据集,并与其他数据方共同确定掩码。每个数据方再基于掩码生成混淆数据及相应的混淆标识,发送至未参与确定该掩码的数据方。每个数据方接收其他数据方发送的掩码后,能够基于混淆数据和混淆标识确定除已方外任意两个数据方之间数据的距离,再发送至其他数据方。每个数据方再基于第一距离数据集和第二距离数据集确定已方每个数据的第k局部离群因子,并发送至其他数据方。至少一个数据方基于所述第k局部离群因子确定离群数据。
31、本申请提供的多数据方交互的离群数据检测方法,不需要引入第三方作为协调方参与数据流通,仅通过参与检测的数据方之间的数据交互即可实现离群数据检测。且任一数据方均难以确定其他数据方的真实数据,很大程度上降低了数据泄露的风险,有效提高了数据的安全性。
32、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
1.一种基于多数据方交互的离群数据检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述每个数据方基于己方数据和掩码生成混淆数据以及相应的混淆标识之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述数据团队还包括成员数据方,在所述每个数据方加入一个数据团队之后,还包括:
4.根据权利要求3所述的方法,其特征在于,所述数据团队的数量为3,每个数据团队包括一个领队数据方,所述领队数据方与成员数据方的数量之和等于所述数据方的数量。
5.根据权利要求1所述的方法,其特征在于,在所述每个数据方基于己方数据确定第一距离数据集之前,还包括:
6.根据权利要求5所述的方法,其特征在于,所述混淆数据与相应己方数据的数据标识相同。
7.根据权利要求1所述的方法,其特征在于,所述混淆标识相同的数据方,基于己方数据和掩码生成混淆数据的方式相同。
8.根据权利要求1所述的方法,其特征在于,所述基于己方数据和掩码生成混淆数据包括:
9.根据权利要求1所述的方法,其特征在于,所述每个数据方基于所述第一距离数据集和所述第二距离数据集确定己方每个数据的第k局部离群因子包括:
10.根据权利要求1所述的方法,其特征在于,所述至少一个数据方基于所述第k局部离群因子确定离群数据包括: