一种密文数据交易产品定价方法、模型训练方法及装置与流程

文档序号:32204926发布日期:2022-11-16 04:22阅读:32来源:国知局
一种密文数据交易产品定价方法、模型训练方法及装置与流程

1.本技术涉及多方安全计算技术领域和隐私计算技术领域,尤其涉及一种密文数据交易产品定价方法、模型训练方法及装置。


背景技术:

2.多方安全计算(mpc)可以在保护个人隐私信息的前提下,实现隐私数据共享。mpc是指某一组互相不信任的参与者在保护个人隐私的同时,还可以进行协同计算。mpc需要确保输入数据的独立性、传递数据的准确性、计算过程的正确性,同时不能将个人的隐私数据泄露给其他参与者。
3.隐私保护计算(privacy-preserving computing)是指在保护隐私信息的前提下,实现数据价值的分析和挖掘,即实现数据在加密的、非透明的状态下的计算,以保护计算各参与方的隐私信息安全。隐私保护计算的技术,可应用于多方安全计算。
4.基于多方安全计算和隐私保护计算,数据成为更有价值的产品,因此,在实际应用中,诞生了用于交易数据产品的新型数据交易平台,也可以称作隐私保护型数据交易市场。
5.在数据交易平台上,有商业价值的原始数据被打包成商品出售。隐私保护型数据交易市场,是指底层使用隐私保护计算技术来完成数字商品交付环节的新型数据交易市场。在这种数据交易市场中,买家收到的并不是原始的明文数据,而是原始数据经隐私保护计算过后的计算结果。
6.在隐私保护型数据交易市场网站里的密文数据交易过程,首先是数据卖家将原始数据打包成产品,在网站上进行上架。但是买家无法直接购买原始数据,而是由数据卖家将多份原始数据、处理数据的密文算法、以及执行算法中约定的计算所需的算力整合在一起,打包成一份计算合约产品,发布在交易市场网站上进行出售。此时买家可以在交易市场网站上对计算合约产品通过下单操作进行购买。在之后的交付流程中,网站根据计算合约产品中的设定,在约定的算力单元上,对各原始数据执行密文算法,即使用隐私保护的方式进行计算,并将计算结果发给数据买家。
7.在这一过程中,数据买家只能得到计算结果,但是看不到任何的原始数据,实现了在保护原始数据隐私的前提下,对于其中蕴含的数据使用价值进行交易。
8.对于数据买家而言,其所获得的最终商品(即前述的计算结果)的质量和价值,是由所有的原始数据和处理数据使用的密文算法所共同决定的。密文算法所起的作用是从遮蔽、杂乱的原始数据中,提取真正对于用户有价值的信息,以计算结果的方式发给数据买家,其代表着对原始数据提炼和增值的过程。
9.然而,已有的数据资产定价方法,大都是关注怎样对一份原始数据本身进行定价,或是,如何确定多份数据中的每一份在总体收益中的分配比例。在密文数据交易的过程中,这些已有的数据资产定价方法无法很好的体现出,特定的密文算法对于原始数据的提炼和增值的过程与价值。
10.因此,现有的数据资产定价方法对于密文数据交易的过程是不够完善的。在一些
隐私保护型数据交易市场的具体产品形态中,在数据卖家在将多份原始数据与密文算法、算力打包成一份“计算合约产品”的过程中,有一栏“合约增值价格”的输入项,供数据卖家输入一个表示密文算法价格的金额,以体现其所开发、调试的密文算法在此处的特定使用场景下,对于原始数据的增值价值。
11.目前,由于缺乏针对密文算法的定价机制,所以数据卖家在此处往往都是凭感觉随意输入一个金额,很容易导致输入的金额过高或是过低,从而与该密文算法实际所产生的价值不相符,价格过高可能阻碍计算合约产品的成交,浪费平台和用户的计算机资源,价格过低将减少数据卖家的收入,不利于密文数据交易的长远发展。


技术实现要素:

12.本技术实施例提供一种密文数据交易产品定价方法、模型训练方法及装置,用以解决现有技术中存在的在密文数据交易过程中针对密文算法的定价与实际产生的价值不相符的问题。
13.本技术实施例提供一种密文数据交易产品定价方法,包括:获取待定价的计算合约产品的合约信息,采用的密文算法的算法信息,以及包含的各数据产品的数据信息,所述合约信息中包含数据价格总和;基于所述合约信息、所述算法信息和所述数据信息,生成所述计算合约产品的特征数据;将所述特征数据输入预先训练的算法定价模型,得到所述计算合约产品的预估价格增值率,所述算法定价模型是采用已成交的多个计算合约产品作为多个训练样本进行模型训练得到的;使用所述预估价格增值率乘以所述数据价格总和,得到所述计算合约产品的预估合约增值价格,作为预估算法价格。
14.进一步的,所述合约信息中还至少包含如下信息之一:合约应用领域信息,所述计算合约产品包含的各数据产品的价格比率,一个数据产品的所述价格比率为该数据产品的价格除以所述数据价格总和的值;所述算法信息至少包含如下信息之一:代码行数信息,各密文库的使用信息;所述计算合约产品包含的各数据产品的所述数据信息至少包含如下信息之一:数据来源信息,数据应用领域信息,数据提供商信息,数据密级信息,数据上架日期。
15.进一步的,所述基于所述合约信息、所述算法信息和所述数据信息,生成所述计算合约产品的特征数据,包括:分别对所述数据价格总和以及所述代码行数信息的数值加1并取对数,以及针对得到的结果采用z-score标准化进行归一化处理,得到的处理后的结果作为所述计算合约产品的特征数据;使用所述上架日期减去预设日期,得到的结果作为所述计算合约产品的特征数据;分别对所述合约应用领域信息、所述价格比率、所述代码行数信息、各密文库的所
述使用信息、所述数据来源信息、所述数据应用领域信息、所述数据提供商信息和所述数据密级信息,采用独热编码方式进行编码,得到的结果作为所述计算合约产品的特征数据。
16.进一步的,所述算法定价模型为xgboost模型。
17.本技术实施例还提供一种模型训练方法,包括:针对已成交的多个计算合约产品中的每个计算合约产品,获取该计算合约产品的合约信息,采用的密文算法的算法信息,以及包含的各数据产品的数据信息,所述合约信息中包含数据价格总和以及合约增值价格,所述合约增值价格表示算法价格,所述多个计算合约产品作为多个训练样本;针对每个计算合约产品,基于该计算合约产品的除所述合约增值价格之外的所述合约信息、所述算法信息和所述数据信息,生成该计算合约产品作为训练样本的输入数据;针对每个计算合约产品,使用该计算合约产品的所述合约增值价格除以所述数据价格总和,得到价格增值率,作为该计算合约产品作为训练样本的标签;使用具有所述输入数据和所述标签的所述多个训练样本,对预设结构的训练模型进行训练,得到算法定价模型。
18.进一步的,所述合约信息中还至少包含如下信息之一:合约应用领域信息,所述计算合约产品包含的各数据产品的价格比率,一个数据产品的所述价格比率为该数据产品的价格除以所述数据价格总和的值;所述算法信息至少包含如下信息之一:代码行数信息,各密文库的使用信息;所述计算合约产品包含的各数据产品的所述数据信息至少包含如下信息之一:数据来源信息,数据应用领域信息,数据提供商信息,数据密级信息,数据上架日期。
19.进一步的,所述基于该计算合约产品的除所述合约增值价格之外的所述合约信息、所述算法信息和所述数据信息,生成该计算合约产品作为训练样本的输入数据,包括:分别对该计算合约产品的所述数据价格总和以及所述代码行数信息的数值加1并取对数,以及针对得到的结果采用z-score标准化进行归一化处理,得到的处理后的结果作为该计算合约产品作为训练样本的输入数据;使用该计算合约产品的所述上架日期减去预设日期,得到的结果作为该计算合约产品作为训练样本的输入数据;分别对该计算合约产品的所述合约应用领域信息、所述价格比率、所述代码行数信息、各密文库的所述使用信息、所述数据来源信息、所述数据应用领域信息、所述数据提供商信息和所述数据密级信息,采用独热编码方式进行编码,得到的结果作为该计算合约产品作为训练样本的输入数据。
20.进一步的,预设结构的所述训练模型为xgboost模型;所述使用具有所述输入数据和所述标签的所述多个训练样本,对预设结构的训练模型进行训练,得到算法定价模型,包括:使用具有所述输入数据和所述标签的所述多个训练样本,以及最小化损失函数,通过迭代更新,对所述xgboost模型进行训练,得到算法定价模型。
21.本技术实施例还提供一种密文数据交易产品定价装置,包括:
信息获取模块,用于获取待定价的计算合约产品的合约信息,采用的密文算法的算法信息,以及包含的各数据产品的数据信息,所述合约信息中包含数据价格总和;特征数据生成模块,用于基于所述合约信息、所述算法信息和所述数据信息,生成所述计算合约产品的特征数据;价格预估模块,用于将所述特征数据输入预先训练的算法定价模型,得到所述计算合约产品的预估价格增值率,所述算法定价模型是采用已成交的多个计算合约产品作为多个训练样本进行模型训练得到的;价格计算模块,用于使用所述预估价格增值率乘以所述数据价格总和,得到所述计算合约产品的预估合约增值价格,作为预估算法价格。
22.进一步的,所述合约信息中还至少包含如下信息之一:合约应用领域信息,所述计算合约产品包含的各数据产品的价格比率,一个数据产品的所述价格比率为该数据产品的价格除以所述数据价格总和的值;所述算法信息至少包含如下信息之一:代码行数信息,各密文库的使用信息;所述计算合约产品包含的各数据产品的所述数据信息至少包含如下信息之一:数据来源信息,数据应用领域信息,数据提供商信息,数据密级信息,数据上架日期。
23.进一步的,所述特征数据生成模块,具体用于分别对所述数据价格总和以及所述代码行数信息的数值加1并取对数,以及针对得到的结果采用z-score标准化进行归一化处理,得到的处理后的结果作为所述计算合约产品的特征数据;使用所述上架日期减去预设日期,得到的结果作为所述计算合约产品的特征数据;分别对所述合约应用领域信息、所述价格比率、所述代码行数信息、各密文库的所述使用信息、所述数据来源信息、所述数据应用领域信息、所述数据提供商信息和所述数据密级信息,采用独热编码方式进行编码,得到的结果作为所述计算合约产品的特征数据。
24.进一步的,所述算法定价模型为xgboost模型。
25.本技术实施例还提供一种模型训练装置,包括:信息获取模块,用于针对已成交的多个计算合约产品中的每个计算合约产品,获取该计算合约产品的合约信息,采用的密文算法的算法信息,以及包含的各数据产品的数据信息,所述合约信息中包含数据价格总和以及合约增值价格,所述合约增值价格表示算法价格,所述多个计算合约产品作为多个训练样本;输入数据生成模块,用于针对每个计算合约产品,基于该计算合约产品的除所述合约增值价格之外的所述合约信息、所述算法信息和所述数据信息,生成该计算合约产品作为训练样本的输入数据;标签生成模块,用于针对每个计算合约产品,使用该计算合约产品的所述合约增值价格除以所述数据价格总和,得到价格增值率,作为该计算合约产品作为训练样本的标签;模型训练模块,用于使用具有所述输入数据和所述标签的所述多个训练样本,对预设结构的训练模型进行训练,得到算法定价模型。
26.进一步的,所述合约信息中还至少包含如下信息之一:合约应用领域信息,所述计算合约产品包含的各数据产品的价格比率,一个数据产品的所述价格比率为该数据产品的价格除以所述数据价格总和的值;所述算法信息至少包含如下信息之一:代码行数信息,各密文库的使用信息;所述计算合约产品包含的各数据产品的所述数据信息至少包含如下信息之一:数据来源信息,数据应用领域信息,数据提供商信息,数据密级信息,数据上架日期。
27.进一步的,所述输入数据生成模块,具体用于分别对该计算合约产品的所述数据价格总和以及所述代码行数信息的数值加1并取对数,以及针对得到的结果采用z-score标准化进行归一化处理,得到的处理后的结果作为该计算合约产品作为训练样本的输入数据;使用该计算合约产品的所述上架日期减去预设日期,得到的结果作为该计算合约产品作为训练样本的输入数据;分别对该计算合约产品的所述合约应用领域信息、所述价格比率、所述代码行数信息、各密文库的所述使用信息、所述数据来源信息、所述数据应用领域信息、所述数据提供商信息和所述数据密级信息,采用独热编码方式进行编码,得到的结果作为该计算合约产品作为训练样本的输入数据。
28.进一步的,预设结构的所述训练模型为xgboost模型;所述模型训练模块,具体用于使用具有所述输入数据和所述标签的所述多个训练样本,以及最小化损失函数,通过迭代更新,对所述xgboost模型进行训练,得到算法定价模型。
29.本技术实施例还提供一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现上述任一所述的密文数据交易产品定价方法,或者,实现上述任一所述的模型训练方法。
30.本技术实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的密文数据交易产品定价方法,或者,实现上述任一所述的模型训练方法。
31.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的密文数据交易产品定价方法,或者,执行上述任一所述的模型训练方法。
32.本技术有益效果包括:本技术实施例提供的方法中,针对待定价的计算合约产品,基于其合约信息,算法信息以及数据信息,生成特征数据,将特征数据输入预先训练的算法定价模型,得到该计算合约产品的预估价格增值率,并使用预估价格增值率乘以数据价格总和,得到预估和玉增值价格,及该计算合约产品的预估算法价格。由于其中使用的预先训练的算法定价模型是采用已成交的多个计算合约产品作为多个训练样本进行模型训练得到的,并且已成交的多个计算合约产品在一定程度上可以认为其中的算法价格是符合其实际价值的,所以,使用
该算法定价模型对该计算合约产品的密文算法的定价也是与其实际价值相符的,相比现有技术中人为的仅凭感觉的算法定价方式,提高了针对计算合约产品中的密文算法定价的合理性。
33.本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
34.附图用来提供对本技术的进一步理解,并且构成说明书的一部分,与本技术实施例一起用于解释本技术,并不构成对本技术的限制。在附图中:图1为本技术实施例提供的密文数据交易产品定价方法的流程图;图2为本技术实施例提供的模型训练方法的流程图;图3为本技术另一实施例提供的模型训练方法的流程图;图4为本技术另一实施例提供的密文数据交易产品定价方法的流程图;图5为本技术实施例提供的密文数据交易产品定价装置的结构示意图;图6为本技术实施例提供的模型训练装置的结构示意图;图7为本技术实施例提供的电子设备的结构示意图。
具体实施方式
35.为了给出在密文数据交易过程中针对密文算法的定价与实际产生的价值相符的实现方案,本技术实施例提供了一种密文数据交易产品定价方法、模型训练方法及装置,以下结合说明书附图对本技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本技术,并不用于限定本技术。并且在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
36.本技术实施例提供一种密文数据交易产品定价方法,如图1所示,包括:步骤11、获取待定价的计算合约产品的合约信息,采用的密文算法的算法信息,以及包含的各数据产品的数据信息,合约信息中包含数据价格总和;步骤12、基于合约信息、算法信息和数据信息,生成该计算合约产品的特征数据;步骤13、将特征数据输入预先训练的算法定价模型,得到该计算合约产品的预估价格增值率,该算法定价模型是采用已成交的多个计算合约产品作为多个训练样本进行模型训练得到的;步骤14、使用预估价格增值率乘以数据价格总和,得到该计算合约产品的预估合约增值价格,作为预估算法价格。
37.相应的,本技术实施例还提供一种模型训练方法,如图2所示,包括:步骤21、针对已成交的多个计算合约产品中的每个计算合约产品,获取该计算合约产品的合约信息,采用的密文算法的算法信息,以及包含的各数据产品的数据信息,合约信息中包含数据价格总和以及合约增值价格,合约增值价格表示算法价格,多个计算合约产品作为多个训练样本;步骤22、针对每个计算合约产品,基于该计算合约产品的除合约增值价格之外的
合约信息、算法信息和数据信息,生成该计算合约产品作为训练样本的输入数据;步骤23、针对每个计算合约产品,使用该计算合约产品的合约增值价格除以数据价格总和,得到价格增值率,作为该计算合约产品作为训练样本的标签;步骤24、使用具有输入数据和标签的多个训练样本,对预设结构的训练模型进行训练,得到算法定价模型。
38.采用本技术实施例提供的上述方法,针对待定价的计算合约产品,基于其合约信息,算法信息以及数据信息,生成特征数据,将特征数据输入预先训练的算法定价模型,得到该计算合约产品的预估价格增值率,并使用预估价格增值率乘以数据价格总和,得到预估和玉增值价格,及该计算合约产品的预估算法价格。由于其中使用的预先训练的算法定价模型是采用已成交的多个计算合约产品作为多个训练样本进行模型训练得到的,并且已成交的多个计算合约产品在一定程度上可以认为其中的算法价格是符合其实际价值的,所以,使用该算法定价模型对该计算合约产品的密文算法的定价也是与其实际价值相符的,相比现有技术中人为的仅凭感觉的算法定价方式,提高了针对计算合约产品中的密文算法定价的合理性。
39.下面结合附图,用具体实施例对本技术提供的方法及装置进行详细描述。
40.为了便于对整体技术方案的理解,先对本技术实施例提供的模型训练方法进行描述,如图3所示,具体包括如下步骤:步骤31、获取已成交的多个计算合约产品,作为多个训练样本。
41.已成交的多个计算合约产品,可以从密文数据交易平台上获取,由于已成交,表示数据买家接受数据卖家对产品的定价,包括对其中密文算法的价格是接受的,从另一个方面来讲,可以认为已成交的计算合约产品中的密文算法的价格是与实际价值相符的,是比较合理的定价。
42.所以,本技术实施例中,将已成交的多个计算合约产品作为多个训练样本,用于模型的训练,可以训练出有效的算法定价模型。
43.本技术实施例中,一个计算合约产品可以包含一个或多个数据产品,对各数据产品进行隐私计算所采用的密文算法,以及需要的算力资源。
44.针对其中每个计算合约产品,分别执行下述步骤32-步骤36。
45.步骤32、获取该计算合约产品的合约信息,合约信息可以包含该计算合约产品的各数据产品的数据价格总和(totaldataprice),以及合约增值价格,合约增值价格表示所采用的密文算法的算法价格。
46.进一步的,合约信息还可以包含合约应用领域信息(contractsenario),例如“地理空间”、“城市管理”、“道路交通”等信息,合约应用领域信息可以表示该计算合约产品的用户所属的应用领域;合约信息还可以包含各数据产品的价格比率(datapriceratio),即每个数据产品的价格除以数据价格总和的值。
47.步骤33、获取该计算合约产品中采用的密文算法的算法信息。
48.具体的算法信息可以至少包含如下信息之一:代码行数信息,可以是实现该密文算法的代码的原始行数;各密文库使用信息,在隐私计算技术中,存在一些已知的密文库,例如,pnumpy、
pai、ptorch、psql、

、pfinance等,相应的,这些密文库使用信息,可以分别表示为haspnumpy、haspai、hasptorch、

、haspfinance,用于表示是否使用了相应的密文库。
49.本技术实施例中,计算合约产品的密文算法可以是采用phthon语音所定义的用于对原始数据进行处理的脚本文件,其中包含实现该密文算法的代码,在获取上述算法信息时,可以直接提取代码的原始行数,作为代码行数信息,可以采用字符串扫描或是语法树解析的方法,解析代码中所使用的密文库,对于解析出的密文库,表示使用了该密文库,对于未解析出的密文库,表示未使用该密文库,得到相应的密文库使用信息。
50.步骤34、获取该计算合约产品包含的各数据产品的数据信息。
51.具体的,数据信息可以至少包含如下信息之一:数据来源信息(datasource),数据应用领域信息(datasenario),数据提供商信息(datasupplier),数据密级信息(secretlevel),数据上架日期(publishyear)。
52.在实际应用中,上述各种数据信息可以基于实际情况和需要进行灵活设定,例如,数据来源信息具体可以为公共数据或非公共数据,数据应用领域信息具体可以个人金服等,数据应用领域信息可以表示数据所属应用领域的信息,数据提供商信息具体可以为数据提供商的名称等信息。
53.本技术实施例中,如果计算合约产品所包含的各数据产品的数量较多,为了在满足一定可靠性的前提下提高计算效率,可以按照数据产品的价格比率从高到低的顺序,选取一定数量的数据产品用于训练,例如,选取价格比率从高到低前5个数据产品,获取其数据信息用于后续的模型训练。
54.步骤35、基于该计算合约产品的除合约增值价格之外的合约信息、算法信息和数据信息,生成该计算合约产品作为训练样本的输入数据。
55.本技术实施例中,对于所获取的合约信息、算法信息和数据信息,可以基于获取的各种信息的特点,根据实际需要进行一些预处理,并将结果作为训练样本的输入数据,具体如下:分别对该计算合约产品的数据价格总和以及代码行数信息的数值加1并取对数,以及针对得到的结果采用z-score标准化进行归一化处理,得到的处理后的结果作为该计算合约产品作为训练样本的输入数据;使用该计算合约产品的上架日期减去预设日期,得到的结果作为该计算合约产品作为训练样本的输入数据,例如,上架日期为上架年份,预设日期为预设年份,由于大多计算合约产品的上架年份比较接近,所以作为输入数据区分度不大,本技术实施例中,上架年份减去预设年份之后得到的结果,作为输入数据可以具有较大的区分度,并且,在减去预设年份之后得到的结果的数值较小,可以降低在训练过程中计算的复杂度,提高计算效率;在实际应用中,预设年份可以基于实际情况和需要进行灵活设置,例如,将交易平台上最早的计算合约产品的上架年份之前的一个年份作为预设年份;在实际应用中,上架日期也可以是年份加月份,预设日期为预设的年份加月份,上架日期减去预设日期可以为相差的月份的数量;分别对该计算合约产品的合约应用领域信息、价格比率、代码行数信息、各密文库的使用信息、数据来源信息、数据应用领域信息、数据提供商信息和数据密级信息,采用独热编码方式进行编码,得到的结果作为该计算合约产品作为训练样本的输入数据。在针对
每种信息进行独热编码时,可以预先针对该种信息可能包括的各种具体信息建立与编码之间的对应关系,在每次针对该种信息进行独热编码时,均按照该对应关系进行独热编码。
56.步骤36、使用该计算合约产品的合约增值价格除以数据价格总和,得到价格增值率(priceincrrate),作为该计算合约产品作为训练样本的标签。
57.经过上述步骤32-步骤36,针对每个作为训练样本的计算合约产品,均得到了用于模型训练的输入数据和标签,将多个计算合约产品的输入数据和标签,可以组成训练集,用于后续的模型训练。
58.步骤37、使用具有输入数据和标签的多个训练样本,对预设结构的训练模型进行训练,得到算法定价模型。
59.在实际应用中,可以采用各种可行结构的训练模型,例如,该预设结构的训练模型可以为xgboost模型。
60.相应的,具体可以使用具有输入数据和标签的多个训练样本,以及最小化损失函数,通过迭代更新,对xgboost模型进行训练,得到算法定价模型,该算法定价模型可用于对待定价的计算合约产品进行价格增值率的预估。
61.基于本技术实施例提供的上述训练方法所得到的算法定价模型,本技术实施例提供一种密文数据交易产品定价方法,如图4所示,包括:步骤41、获取待定价的计算合约产品的合约信息,合约信息中包含该计算合约产品的各数据产品的数据价格总和。
62.进一步的,合约信息还可以包含与模型训练时相一致的其他具体信息,例如,合约应用领域信息,各数据产品的价格比率。
63.步骤42、获取该计算合约产品中采用的密文算法的算法信息。
64.进一步的,所获取的具体的各种算法信息可以与模型训练时相一致,例如,具体的算法信息可以至少包含如下信息之一:代码行数信息,可以是实现该密文算法的代码的原始行数;各密文库使用信息,在隐私计算技术中,存在一些已知的密文库,例如,pnumpy、pai、ptorch、psql、

、pfinance等,相应的,这些密文库使用信息,可以分别表示为haspnumpy、haspai、hasptorch、

、haspfinance,用于表示是否使用了相应的密文库。
65.算法信息的具体获取方式,可以采用与模型训练时相同的获取方式,在此不再赘述。
66.步骤43、获取该计算合约产品包含的各数据产品的数据信息。
67.进一步的,所获取的具体的各种数据信息可以与模型训练时相一致,例如,数据信息可以至少包含如下信息之一:数据来源信息(datasource),数据应用领域信息(datasenario),数据提供商信息(datasupplier),数据密级信息(secretlevel),数据上架日期(publishyear)。
68.数据信息的具体获取方式,可以采用与模型训练时相同的获取方式,在此不再赘述。
69.步骤44、基于获取的合约信息、算法信息和数据信息,生成该计算合约产品的特征数据。
70.本步骤中,特征数据的具体生成方式,可以采用与模型训练中训练样本的输入数
据的相同生成方式,具体可以如下:分别对该计算合约产品的数据价格总和以及代码行数信息的数值加1并取对数,以及针对得到的结果采用z-score标准化进行归一化处理,得到的处理后的结果作为该计算合约产品的特征数据;使用该计算合约产品的上架日期减去预设日期,得到的结果作为该计算合约产品的特征数据,例如,上架日期为上架年份,预设日期为预设年份,由于大多计算合约产品的上架年份比较接近,所以作为特征数据区分度不大,本技术实施例中,上架年份减去预设年份之后得到的结果,作为特征数据可以具有较大的区分度,并且,在减去预设年份之后得到的结果的数值较小,可以降低在训练过程中计算的复杂度,提高计算效率;在实际应用中,预设年份可以基于实际情况和需要进行灵活设置,例如,将交易平台上最早的计算合约产品的上架年份之前的一个年份作为预设年份;在实际应用中,上架日期也可以是年份加月份,预设日期为预设的年份加月份,上架日期减去预设日期可以为相差的月份的数量;分别对该计算合约产品的合约应用领域信息、价格比率、代码行数信息、各密文库的使用信息、数据来源信息、数据应用领域信息、数据提供商信息和数据密级信息,采用独热编码方式进行编码,得到的结果作为该计算合约产品的特征数据。在针对每种信息进行独热编码时,可以预先针对该种信息可能包括的各种具体信息建立与编码之间的对应关系,在每次针对该种信息进行独热编码时,均按照该对应关系进行独热编码。
71.步骤45、将得到的上述各种特征数据输入预先训练的算法定价模型,得到该计算合约产品的预估价格增值率。
72.算法定价模型是采用已成交的多个计算合约产品作为多个训练样本进行模型训练得到的,即采用本技术实施例中提供的上述训练方法训练得到的。
73.步骤46、使用得到的预估价格增值率乘以数据价格总和,得到该计算合约产品的预估合约增值价格,作为预估算法价格。
74.基于同一发明构思,根据本技术上述实施例提供的密文数据交易产品定价方法,相应地,本技术另一实施例还提供了一种密文数据交易产品定价装置,其结构示意图如图5所示,具体包括:信息获取模块51,用于获取待定价的计算合约产品的合约信息,采用的密文算法的算法信息,以及包含的各数据产品的数据信息,所述合约信息中包含数据价格总和;特征数据生成模块52,用于基于所述合约信息、所述算法信息和所述数据信息,生成所述计算合约产品的特征数据;价格预估模块53,用于将所述特征数据输入预先训练的算法定价模型,得到所述计算合约产品的预估价格增值率,所述算法定价模型是采用已成交的多个计算合约产品作为多个训练样本进行模型训练得到的;价格计算模块54,用于使用所述预估价格增值率乘以所述数据价格总和,得到所述计算合约产品的预估合约增值价格,作为预估算法价格。
75.进一步的,所述合约信息中还至少包含如下信息之一:合约应用领域信息,所述计算合约产品包含的各数据产品的价格比率,一个数据产品的所述价格比率为该数据产品的价格除以所述数据价格总和的值;所述算法信息至少包含如下信息之一:
代码行数信息,各密文库的使用信息;所述计算合约产品包含的各数据产品的所述数据信息至少包含如下信息之一:数据来源信息,数据应用领域信息,数据提供商信息,数据密级信息,数据上架日期。
76.进一步的,所述特征数据生成模块52,具体用于分别对所述数据价格总和以及所述代码行数信息的数值加1并取对数,以及针对得到的结果采用z-score标准化进行归一化处理,得到的处理后的结果作为所述计算合约产品的特征数据;使用所述上架日期减去预设日期,得到的结果作为所述计算合约产品的特征数据;分别对所述合约应用领域信息、所述价格比率、所述代码行数信息、各密文库的所述使用信息、所述数据来源信息、所述数据应用领域信息、所述数据提供商信息和所述数据密级信息,采用独热编码方式进行编码,得到的结果作为所述计算合约产品的特征数据。
77.进一步的,所述算法定价模型为xgboost模型。
78.基于同一发明构思,根据本技术上述实施例提供的模型训练方法,相应地,本技术另一实施例还提供了一种模型训练装置,其结构示意图如图6所示,具体包括:信息获取模块61,用于针对已成交的多个计算合约产品中的每个计算合约产品,获取该计算合约产品的合约信息,采用的密文算法的算法信息,以及包含的各数据产品的数据信息,所述合约信息中包含数据价格总和以及合约增值价格,所述合约增值价格表示算法价格,所述多个计算合约产品作为多个训练样本;输入数据生成模块62,用于针对每个计算合约产品,基于该计算合约产品的除所述合约增值价格之外的所述合约信息、所述算法信息和所述数据信息,生成该计算合约产品作为训练样本的输入数据;标签生成模块63,用于针对每个计算合约产品,使用该计算合约产品的所述合约增值价格除以所述数据价格总和,得到价格增值率,作为该计算合约产品作为训练样本的标签;模型训练模块64,用于使用具有所述输入数据和所述标签的所述多个训练样本,对预设结构的训练模型进行训练,得到算法定价模型。
79.进一步的,所述合约信息中还至少包含如下信息之一:合约应用领域信息,所述计算合约产品包含的各数据产品的价格比率,一个数据产品的所述价格比率为该数据产品的价格除以所述数据价格总和的值;所述算法信息至少包含如下信息之一:代码行数信息,各密文库的使用信息;所述计算合约产品包含的各数据产品的所述数据信息至少包含如下信息之一:数据来源信息,数据应用领域信息,数据提供商信息,数据密级信息,数据上架日期。
80.进一步的,所述输入数据生成模块62,具体用于分别对该计算合约产品的所述数据价格总和以及所述代码行数信息的数值加1并取对数,以及针对得到的结果采用z-score标准化进行归一化处理,得到的处理后的结果作为该计算合约产品作为训练样本的输入数据;
使用该计算合约产品的所述上架日期减去预设日期,得到的结果作为该计算合约产品作为训练样本的输入数据;分别对该计算合约产品的所述合约应用领域信息、所述价格比率、所述代码行数信息、各密文库的所述使用信息、所述数据来源信息、所述数据应用领域信息、所述数据提供商信息和所述数据密级信息,采用独热编码方式进行编码,得到的结果作为该计算合约产品作为训练样本的输入数据。
81.进一步的,预设结构的所述训练模型为xgboost模型;所述模型训练模块64,具体用于使用具有所述输入数据和所述标签的所述多个训练样本,以及最小化损失函数,通过迭代更新,对所述xgboost模型进行训练,得到算法定价模型。
82.上述各模块的功能可对应于图1-图4所示流程中的相应处理步骤,在此不再赘述。
83.本技术的实施例所提供的密文数据交易产品定价装置和模型训练装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要密文数据交易产品定价装置和模型训练装置具有上述功能,都应该在本技术的保护范围之内。
84.本技术实施例还提供一种电子设备,如图7所示,包括处理器71和机器可读存储介质72,所述机器可读存储介质72存储有能够被所述处理器71执行的机器可执行指令,所述处理器71被所述机器可执行指令促使:实现上述任一所述的密文数据交易产品定价方法,或者,实现上述任一所述的算法定价模型的训练方法模型训练方法。
85.本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的密文数据交易产品定价方法,或者,实现上述任一所述的算法定价模型的训练方法模型训练方法。
86.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的密文数据交易产品定价方法,或者,执行上述任一所述的算法定价模型的训练方法模型训练方法。
87.上述电子设备中的机器可读存储介质可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
88.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
89.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质,计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
90.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存
在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
91.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
92.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
93.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
94.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1