使用多角度激励分配的数据共享系统和方法与流程

文档序号：36725297发布日期：2024-01-16 12:31阅读：44来源：国知局

本发明大体上涉及数据共享系统和方法，尤其涉及使用多角度激励分配的数据共享系统和方法。

背景技术：

1、随着计算机网络，特别是互联网的快速增长，数据收集、数据共享和数据交换对于基于计算机的数据分析变得非常重要。在人工智能领域，数据分析有时被称为数据挖掘。数据挖掘需要大量的数据，有时称为大数据，以提取和发现数据中的模式和相关性。

2、数据挖掘的一个方面是数据共享，各方可以通过数据共享收集和积累大数据，用于训练人工智能(artificial intelligence，ai)模型，而ai模型又用于改进各个领域的计算机技术。例如，最近有一种趋势，即使用大数据训练可以用于提高下游任务的性能的“超级模型”。超级模型本身也可能通过从越来越多的大数据中学习获得改进。

3、参与数据共享的各方通常包括数据提供者和数据消费者。在此，数据提供者与一个或多个数据消费者共享数据，并可以从一个或多个数据消费者接收激励。另一方面，数据消费者从一个或多个数据提供者接收共享数据，并可能为共享数据支付激励。本领域技术人员将理解，在一种情况下的数据提供者在另一种情况下可以是数据消费者，类似地，在一种情况下的数据消费者在另一种情况下可以是数据提供者。

4、为了促进数据共享，计算系统被用于链接数据提供者和数据消费者，并提供一种机制，例如使用必要技术的平台，以平滑和安全地将从数据提供者接收的数据传输到数据消费者。此外，数据共享系统还可以激励数据提供者共享其数据。因此，具有系统和公平激励分配的数据共享系统对于激励长期可持续数据共享是可取的。

技术实现思路

1、根据本发明的一个方面，提供了一种用于通过云计算系统的数据估值多角度激励分配的数据共享系统和方法。本文公开的数据共享系统包括用户层和应用层，所述应用层包括多个功能改进的模块，包括数据质量保证模块、灵活场景路由数据集比较模块和多角度联盟引导数据估值模块，高级使用云计算系统部署经过训练的ai模型和训练ai超级模型。

2、与现有系统不同的是，本文公开的数据共享系统通过使用数据质量保证模块、灵活场景路由数据集比较模块、多角度联盟引导数据估值模块以及可以显著降低所述数据共享系统的计算复杂性(从而显著降低响应时间)的基于核心集的夏普利值计算等多个系统级技术特征和多个方法级功能特征，提高了有效性。

3、具体地，本文公开的数据共享系统包括具有多个功能模块的用于激励分配的系统级软件结构和方法，其在包括数据提供者提供的数据的数据估值的更高级和全面方面的能力表现超越了现有技术方案，并巧妙地利用机器学习或人工智能(artificialintelligence，ai)来反映数据提供者对特定现实世界任务的数据值。

4、在功能模块级，本文公开的数据共享系统为数据集比较提供了灵活的场景分析，从而考虑了不同的场景，以最佳地选择适合特定任务的评估路由，从而解决了现有技术中现有技术方案大多无法评估数据的外在性质，例如数据消费者真正关心的值的问题。更具体地，本文公开的数据共享系统可以灵活地执行ai模型训练、通过聚类属性进行数据挖掘或简单情况的统计属性提取。

5、在功能模块级，本文公开的数据共享系统还具有数据估值的多角度联盟，从而允许从单个数据消费者的特定应用场景(直观和直接)和从所有数据消费者的应用场景的角度对数据提供者提供的数据的贡献进行独特的分析。相反，现有的数据共享系统缺乏这种观点，因此可能无法实现真正公平的激励分配。

6、在功能模块级，本文公开的数据共享系统还使用云计算系统的计算资源(例如处理结构、控制结构和内存)，该系统能够使用多个不同数据提供商提供的数据进行数据联盟和ai超级模型训练，从而有效地促进数据的可持续共享。

7、此外，本文公开的数据共享系统使用基于核心集的有效夏普利估值方法来有效评估数据提供者提供的数据。使用基于核心集的高效夏普利估值方法有助于计算数据提供者提供的数据的值，并具有显著的加速和确定性近似。

8、根据本发明的一个方面，提供了一种用于将数据从一个或多个数据提供者共享到一个或多个数据消费者的数据共享系统，所述数据包括一个或多个输入数据集，每个输入数据集由所述一个或多个数据提供者中的对应一个数据提供者提供。所述数据共享系统包括一个或多个处理结构；存储指令的存储器，其中，所述指令在由所述一个或多个处理结构执行时，使得所述一个或多个处理结构执行以下操作，包括：从所述一个或多个输入数据集获取一个或多个训练数据集，其中，所述一个或多个训练数据集中的每个训练数据集对应于所述一个或多个输入数据集中的一个对应输入数据集；评估所述一个或多个训练数据集，以生成一个或多个质量分数，其中，每个质量分数与所述一个或多个训练数据集中的一个对应训练数据集关联；根据所述一个或多个质量分数，为所述一个或多个输入数据集中的每个输入数据集生成单位值；从所述一个或多个数据消费者接收用于获取所述输入数据集的至少一部分的激励；根据所述单位值和所述输入数据集的所述至少一部分，将接收到的激励分配给所述一个或多个数据提供者；与所述一个或多个数据消费者共享所述输入数据集的所述至少一部分。所述评估所述一个或多个数据集包括：使用第一评估方法评估所述一个或多个数据集，所述第一评估方法包括：使用所述一个或多个训练数据集和机器学习算法训练人工智能(artificial intelligence，ai)模型，获取一个或多个第一训练模型；根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用从所述一个或多个数据消费者接收的一个或多个测试数据集生成的一个或多个第一预测，生成所述一个或多个质量分数中的每个质量分数。

9、在一些实施例中，所述生成所述一个或多个质量分数中的每个质量分数包括：根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用所述一个或多个测试数据集生成的所述一个或多个第一预测，计算一个或多个第一性能度量，其中，所述一个或多个第一性能度量中的每个第一性能度量对应于所述一个或多个测试数据集中的一个对应测试数据集；为所述一个或多个第一训练模型中的一个对应第一训练模型计算第一分数，其中，所述第一分数是所述一个或多个第一性能度量的加权和；使用至少一个或多个第一分数计算所述一个或多个质量分数。

10、在一些实施例中，所述评估所述一个或多个训练数据集包括：聚合所述一个或多个训练数据集的不同子集，形成多个聚合训练数据集；使用所述聚合训练数据集对所述ai模型进行训练，获取多个第二训练模型；根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用所述一个或多个测试数据集生成的所述一个或多个第一预测和由所述第二训练模型使用所述一个或多个测试数据集生成的多个第二预测，生成所述一个或多个质量分数的每个质量分数。

11、在一些实施例中，所述生成所述一个或多个质量分数中的每个质量分数包括：根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用所述一个或多个测试数据集生成的所述一个或多个第一预测，计算一个或多个第一性能度量，其中，所述一个或多个第一性能度量中的每个第一性能度量对应于所述一个或多个测试数据集中的一个对应测试数据集；为所述一个或多个第一训练模型中的一个对应第一训练模型计算第一分数，其中，所述第一分数是所述一个或多个第一性能度量的加权和；根据由所述第二训练模型使用所述一个或多个测试数据集生成的所述预测，为所述第二训练模型中的每个训练模型计算多个第二性能度量，其中，所述第二性能度量中的每个第二性能度量对应于所述一个或多个测试数据集中的一个对应测试数据集；组合所述第二评估度量，为所述一个或多个训练数据集中的每个训练数据集生成第二分数；将所述一个或多个质量分数中的每个质量分数计算为所述第一分数中的一个对应分数和所述第二分数中的一个对应分数的加权和。

12、在一些实施例中，所述计算多个第二性能度量包括：根据所述第二训练模型使用所述一个或多个测试数据集生成的所述预测，使用夏普利值方法为所述第二训练模型中的每个第二训练模型计算所述多个第二性能度量。

13、在一些实施例中，所述根据所述一个或多个质量分数为所述一个或多个输入数据集中的每个输入数据集生成所述单位值包括：对所述一个或多个质量分数进行排序；根据所述排序为所述一个或多个输入数据集生成所述单位值。

14、在一些实施例中，所述指令在由所述一个或多个处理器执行时，使得所述一个或多个处理器执行其它操作，包括：从所述一个或多个数据提供者接收一个或多个原始输入数据集，其中，所述从所述一个或多个输入数据集获取所述一个或多个训练数据集包括：对所述一个或多个原始输入数据集进行过滤，获取所述一个或多个训练数据集。

15、在一些实施例中，所述从所述一个或多个输入数据集中获取所述一个或多个训练数据集包括：从所述一个或多个输入数据集中的每个输入数据集构建核心集，以获取所述一个或多个训练数据集。

16、在一些实施例中，所述从所述一个或多个输入数据集中的每个输入数据集构建核心集包括：使用羊群效应方法从所述一个或多个输入数据集中的每个输入数据集构建所述核心集。

17、在一些实施例中，所述评估所述一个或多个数据集包括：使用多个评估方法评估所述一个或多个数据集，所述多个评估方法包括第一评估方法；所述指令在由所述一个或多个处理器执行时，使得所述一个或多个处理器执行其它操作，包括：当来自所述一个或多个数据消费者的输入包括与目标任务关联的一个或多个任务定义，并且所述一个或多个测试数据集与所述目标任务关联时，选择所述第一评估方法。

18、在一些实施例中，所述多个预定义评估方法包括第二评估方法，所述第二评估方法包括：自动聚类函数，用于估计所述一个或多个训练数据集的聚类性，对所述一个或多个训练数据集进行聚类，以及估计聚类的数量；聚类评估函数，用于计算聚类结果度量，以测量所述聚类的类内和类间关系，并生成所述一个或多个质量分数；所述指令在由所述一个或多个处理结构执行时，使得所述一个或多个处理结构执行其它操作，包括：当来自所述一个或多个数据消费者的输入不包括任务定义时，选择所述第二评估方法。

19、在一些实施例中，所述聚类的类内和类间关系包括模块化、轮廓系数、邓恩指数和戴维斯-博尔丁指数中的一个或多个。

20、在一些实施例中，所述多个预定义评估方法包括第三评估方法，所述第三评估方法包括：统计提取函数，用于提取所述一个或多个训练数据集关于其一个或多个特征的统计；统计分数计算函数，用于使用提取的统计来生成所述一个或多个质量分数；所述指令在由所述一个或多个处理结构执行时，使得所述一个或多个处理结构执行其它操作，包括：当所述一个或多个输入数据集与第一任务关联，来自所述一个或多个数据消费者的输入包括与所述目标任务关联的所述一个或多个任务定义，并且所述第一任务与所述目标任务匹配时，选择所述第三评估方法。

21、在一些实施例中，所述一个或多个特征包括体积、分布和图像质量度量中的一个或多个。

22、在一些实施例中，所述一个或多个质量分数中的每个质量分数被计算为所述体积、所述分布和所述图像质量度量的加权和，所述体积、所述分布和所述图像质量度量的权重之和等于1。

23、在一些实施例中，所述数据共享系统还包括：云计算系统，用于维护ai超级模型，其中，所述ai超级模型用于所述评估用于生成所述一个或多个质量分数的所述一个或多个训练数据集，所述ai超级模型是使用所述一个或多个训练数据集和其它数据提供者提供的其它训练数据集训练的。

24、根据本发明的一个方面，提供了一种计算机化方法，用于将数据从一个或多个数据提供者共享到一个或多个数据消费者的数据共享系统，所述数据包括一个或多个输入数据集，每个输入数据集由所述一个或多个数据提供者中的对应一个数据提供者提供。所述方法包括：从所述一个或多个输入数据集获取一个或多个训练数据集，其中，所述一个或多个训练数据集中的每个训练数据集对应于所述一个或多个输入数据集中的一个对应输入数据集；评估所述一个或多个训练数据集，以生成一个或多个质量分数，其中，每个质量分数与所述一个或多个训练数据集中的一个对应训练数据集关联；根据所述一个或多个质量分数，为所述一个或多个输入数据集中的每个输入数据集生成单位值；从所述一个或多个数据消费者接收用于获取所述输入数据集的至少一部分的激励；根据所述单位值和所述输入数据集的所述至少一部分，将接收到的激励分配给所述一个或多个数据提供者；与所述一个或多个数据消费者共享所述输入数据集的所述至少一部分。所述评估所述一个或多个数据集包括：使用第一评估方法评估所述一个或多个数据集，所述第一评估方法包括：使用所述一个或多个训练数据集和机器学习算法训练人工智能(artificial intelligence，ai)模型，获取一个或多个第一训练模型；根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用从所述一个或多个数据消费者接收的一个或多个测试数据集生成的一个或多个第一预测，生成所述一个或多个质量分数中的每个质量分数。

25、在一些实施例中，所述生成所述一个或多个质量分数中的每个质量分数包括：根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用所述一个或多个测试数据集生成的所述一个或多个第一预测，计算一个或多个第一性能度量，其中，所述一个或多个第一性能度量中的每个第一性能度量对应于所述一个或多个测试数据集中的一个对应测试数据集；为所述一个或多个第一训练模型中的一个对应第一训练模型计算第一分数，其中，所述第一分数是所述一个或多个第一性能度量的加权和；使用至少一个或多个第一分数计算所述一个或多个质量分数。

26、在一些实施例中，所述评估所述一个或多个训练数据集包括：聚合所述一个或多个训练数据集的不同子集，形成多个聚合训练数据集；使用所述聚合训练数据集对所述ai模型进行训练，获取多个第二训练模型；根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用所述一个或多个测试数据集生成的所述一个或多个第一预测和由所述第二训练模型使用所述一个或多个测试数据集生成的多个第二预测，生成所述一个或多个质量分数的每个质量分数。

27、在一些实施例中，所述从所述一个或多个输入数据集中获取所述一个或多个训练数据集包括：从所述一个或多个输入数据集中的每个输入数据集构建核心集，以获取所述一个或多个训练数据集。

28、在一些实施例中，所述评估所述一个或多个数据集包括：使用多个评估方法评估所述一个或多个数据集，所述多个评估方法包括第一评估方法；所述计算机化方法还包括：当来自所述一个或多个数据消费者的输入包括与目标任务关联的一个或多个任务定义，并且所述一个或多个测试数据集与所述目标任务关联时，选择所述第一评估方法。

29、根据本发明的一个方面，提供了一种一个或多个非瞬时性计算机可读存储设备，包括计算机可执行指令，用于将数据从一个或多个数据提供者共享到一个或多个数据消费者的数据共享系统，所述数据包括一个或多个输入数据集，每个输入数据集由所述一个或多个数据提供者中的对应一个数据提供者提供。所述指令在执行时，使得一个或多个处理器执行以下操作，包括：从所述一个或多个输入数据集获取一个或多个训练数据集，其中，所述一个或多个训练数据集中的每个训练数据集对应于所述一个或多个输入数据集中的一个对应输入数据集；评估所述一个或多个训练数据集，以生成一个或多个质量分数，其中，每个质量分数与所述一个或多个训练数据集中的一个对应训练数据集关联；根据所述一个或多个质量分数，为所述一个或多个输入数据集中的每个输入数据集生成单位值；从所述一个或多个数据消费者接收用于获取所述输入数据集的至少一部分的激励；根据所述单位值和所述输入数据集的所述至少一部分，将接收到的激励分配给所述一个或多个数据提供者；与所述一个或多个数据消费者共享所述输入数据集的所述至少一部分。所述评估所述一个或多个数据集包括：使用第一评估方法评估所述一个或多个数据集，所述第一评估方法包括：使用所述一个或多个训练数据集和机器学习算法训练人工智能(artificialintelligence，ai)模型，获取一个或多个第一训练模型；根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用从所述一个或多个数据消费者接收的一个或多个测试数据集生成的一个或多个第一预测，生成所述一个或多个质量分数中的每个质量分数。

30、在一些实施例中，所述生成所述一个或多个质量分数中的每个质量分数包括：根据由所述一个或多个第一训练模型中的一个对应第一训练模型使用所述一个或多个测试数据集生成的所述一个或多个第一预测，计算一个或多个第一性能度量，其中，所述一个或多个第一性能度量中的每个第一性能度量对应于所述一个或多个测试数据集中的一个对应测试数据集；为所述一个或多个第一训练模型中的一个对应第一训练模型计算第一分数，其中，所述第一分数是所述一个或多个第一性能度量的加权和；使用至少一个或多个第一分数计算所述一个或多个质量分数。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晨迪,阿明·巴尼塔莱比·德科迪,王岚君,张勇
技术所有人：华为云计算技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。