一种数据质量度量方法及装置与流程

文档序号:37057637发布日期:2024-02-20 21:05阅读:12来源:国知局
一种数据质量度量方法及装置与流程

本技术实施例涉及通信,尤其涉及一种数据质量度量方法及装置。


背景技术:

1、使用低质量数据,例如数据中存在错误、误差、和信息缺失等,可能会导致无线通信系统的性能急剧下降。例如,在无线通信系统中应用人工智能(artificialintelligence,ai)、或机器学习(machine learning,ml)等技术时,使用低质量数据,可能会导致ai或ml技术的性能急剧下降。由于数据质量恶化的原因多种多样,因此必须建立可量化的数据质量度量方法,对数据进行质量评估。一般来说,数据质量评估的目标是检查数据是否适合某种使用目的,具体的评估过程与数据的应用和数据的性质等相关。在无线通信领域中,如何度量数据质量,是本技术待解决的技术问题。


技术实现思路

1、第一方面,提供一种数据质量度量方法,该方法主要用于度量数据集的多样性,该方法包括:对第一特征集进行距离度量,确定第一距离度量集,所述第一特征集基于第一数据集包括的数据样本的特征提取,所述数据样本反映以下一项或多项:通信传输的状态、或通信设备的状态,或者所述数据样本为通信信号或所述通信信号经过预处理获得的信号;对所述第一距离度量集进行多样性度量,确定所述第一数据集的多样性度量结果,所述多样性度量用于数据在统计分布上丰富多样程度的确定。

2、通过上述设计,可以度量第一数据集的多样性,数据的多样性越丰富,数据的质量越高,价值越大,有助于提高该数据应用对象的泛化能力和鲁棒性。

3、在一种设计中,对所述第一数据集包括的数据样本的特征提取,基于特征提取函数。例如,利用特征提取函数,对所述第一数据集包括的数据样本进行特征提取,得到所述数据样本对应的特征样本;根据所述第一数据集包括的数据样本对应的特征样本,确定所述第一数据集对应的第一特征集。可选的,第一特征集可包括第一数据集对应的全部特征样本,或者包括第一数据集对应的部分特征样本,不作限制。可选的,对所述第一数据集包括的数据样本提取的特征,包括以下一项或多项:时延功率谱pdp、时变多普勒谱、空域角度功率谱aps、平均值、最大值、最小值、直方图、累计百分比、或数据样本自身。

4、在一种设计中,对所述第一特征集包括的特征样本进行距离度量,确定所述第一特征集对应的第一距离度量集,包括:根据所述第一特征集包括的特征样本,确定多个特征样本组合,所述特征样本组合中包括所述第一特征集中的两个特征样本;利用距离度量函数,确定所述特征样本组合对应的距离度量值;根据所述特征样本组合对应的距离度量值,确定所述第一距离度量集。可选的,所述第一距离度量集可包括第一数据集的所有特征样本组合对应的距离度量值,或者包括第一数据集的部分特征样本组合对应的距离度量值,不作限制。

5、在一种设计中,对所述第一距离度量集进行多样性度量,确定所述第一数据集的多样性度量结果,包括:利用多样性度量函数,对所述第一距离度量集进行多样性度量,确定所述第一数据集的多样性度量结果。可选的,所述第一数据集的多样性度量结果的值越大,代表第一数据集的多样性越好,第一数据集越丰富,数据质量越高;反之,代表第一数据集的多样性越差,数据质量越差。

6、在一种设计中,所述第一数据集的多样性度量结果为所述第一数据集的单个特征的多样性度量结果。例如,所述第一数据集的单个特征的多样性度量结果大于或等于多样性阈值,或者,所述第一数据集的单个特征的多样性度量结果位于多样性阈值区间,则所述第一数据集的单个特征满足多样性要求。

7、通过上述设计,可以度量数据集在单个特征维度的多样性,数据集在单个特征维度的多样性越丰富,数据集在单个特征维度的数据质量越高,价值越高。

8、在另一种设计中,所述第一数据集的多样性度量结果为所述第一数据集的多个特征的多样性度量结果。例如,在所述第一数据集的多个特征中,确定所述多个特征中满足多样性要求的特征的比例;所述多个特征中满足多样性要求的特征的比例大于或等于第一阈值,则所述第一数据集的多个特征满足多样性要求。或者,根据所述第一数据集的多个特征中每个特征的多样性度量结果,确定度量结果;所述度量结果大于或等于多样性阈值,或者,所述度量结果位于多样性阈值区值,则所述第一数据集的多个特征满足多样性要求。

9、通过上述设计,可以度量数据集在多个特征维度的多样性,数据集在多个特征维度的多样性越丰富,数据集在多个特征维度的数据质量越高,价值越高。

10、第二方面,提供一种数据质量度量方法,包括:数据质量度量装置获取配置信息,所述配置信息用于配置多样性度量,所述多样性度量用于数据在统计分布上丰富多样程度的确定;可选的,所述数据质量度量装置获取配置信息,包括:所述数据质量度量装置从数据管理节点接收所述配置信息。所述数据质量度量装置根据所述配置信息,确定第一数据集的多样性度量结果。其中,所述数据质量度量装置为数据收集节点,或,非所述数据收集节点的另一节点,或者,应用于该数据收集节点或另一节点的芯片或电路。

11、在一种设计中,还包括:所述第一数据集的多样性度量结果满足多样性要求,所述数据收集节点向所述数据管理节点发送所述第一数据集。

12、通过上述设计,数据收集节点可根据所配置的多样性度量,确定其所收集的第一数据集的多样性是否满足要求;如果满足要求,则将该第一数据集发送给数据管理节点;否则,则不再向数据管理节点上报其所收集的第一数据集,从而保证数据收集节点向数据管理节点上报的数据集都是满足多样性要求的,提高了数据收集节点上报数据集的质量,提高数据管理节点所管理的数据集的多样性,同时避免节点间传输多样性度量差的数据,降低传输开销。

13、在一种设计中,还包括:所述数据质量度量装置向所述数据管理节点发送所述第一数据集的多样性度量结果;所述数据收集节点从所述数据管理节点接收通知消息;基于所述通知消息,所述数据收集节点向所述数据管理节点发送所述第一数据集。

14、通过上述设计,数据收集节点在确定出其收集的第一数据集的多样性度量结果之后,将该度量结果上报给数据管理节点;由数据管理节点判断该度量结果是否满足多样性要求;如果满足多样性要求,再通知数据收集节点上报其所收集的数据集,可避免节点间传输多样性度量差的数据,降低传输开销。

15、在一种设计中,所述数据质量度量装置根据所述配置信息,确定第一数据集的多样性度量结果,包括:所述数据质量度量装置对第一特征集进行距离度量,确定第一距离度量集,所述第一特征集基于第一数据集包括的数据样本的特征提取。所述数据质量度量装置对所述第一距离度量集进行多样性度量,确定所述第一数据集的多样性度量结果。

16、可选的,所述数据样本反映以下一项或多项:通信传输的状态、或通信设备的状态,或者所述数据样本为通信信号或所述通信信号经过预处理获得的信号。

17、在一种设计中,对所述第一数据集的数据样本的特征提取,基于特征提取函数。可选的,对所述第一数据集包括的数据样本所提取的特征包括以下一项或多项:时延功率谱pdp、时变多普勒谱、空域角度功率谱aps、平均值、最大值、最小值、直方图、累计百分比、或数据样本自身。

18、在一种设计中,所述数据质量度量装置对所述第一特征集进行距离度量,确定第一距离度量集,包括:所述数据质量度量装置根据所述第一特征集包括的特征样本,确定一个或多个特征样本组合,所述特征样本组合中包括所述第一特征集中的两个特征样本;所述数据质量度量装置利用距离度量函数,确定所述一个或多个特征样本组合各自对应的距离度量值;所述数据质量度量装置根据所述一个或多个特征样本组合各自对应的距离度量值,确定所述第一距离度量集。

19、在一种设计中,所述数据质量度量装置对所述第一距离度量集进行多样性度量,确定所述第一数据集的多样性度量结果,包括:所述数据质量度量装置利用多样性度量函数,对所述第一距离度量集进行多样性度量,确定所述第一数据集的多样性度量结果。

20、在一种设计中,还包括:所述第一数据集的单个特征的多样性度量结果大于或等于多样性阈值,或者,所述第一数据集的单个特征的多样性度量结果位于多样性阈值区间,则所述第一数据集的单个特征满足多样性要求。

21、在一种设计中,还包括:在所述第一数据集的多个特征中,确定所述多个特征中满足多样性要求的特征的比例;所述多个特征中满足多样性要求的特征的比例大于或等于第一阈值,则所述第一数据集的多个特征满足多样性要求。或者,根据所述第一数据集的多个特征中每个特征的多样性度量结果,确定度量结果;所述度量结果大于或等于多样性阈值,或者,所述度量结果位于多样性阈值区值,则所述第一数据集的多个特征满足多样性要求。

22、在一种设计中,所述配置信息用于配置多样性度量,包括:所述配置信息用于配置以下一项或多项:多样性度量流程、所述多样性度量流程中的特征提取函数、距离度量函数、多样性度量函数、或用于确定多样性度量结果的一个或多个阈值。

23、其中,多样性度量流程包括多样性度量所包括的步骤,如特征提取,距离度量,多样性度量等中的一项或多项。其中,特征提取为可选步骤。

24、配置特征提取函数,距离度量函数,多样性度量函数中的一项或多项包括配置函数名称和/或函数中的全部或部分参数。

25、用于确定多样性度量结果的一个或多个阈值包括前述单个特征的多样性阈值或多样性阈值区间,针对多个特征的多样性阈值或多样性阈值区间,或,第一阈值中的一项或多项。

26、可以理解的是,以上配置信息所配置的参数中未被配置的部分可以基于协议定义,或者,从其他节点获取,在此不予限定。

27、第三方面,提供一种数据质量度量方法,该方法的执行主体可以为数据管理节点或应用于该数据管理节点的芯片或电路,包括:确定多样性度量的配置信息;向数据质量度量装置发送所述配置信息,所述配置信息用于配置多样性度量,所述多样性度量用于数据在统计分布上丰富多样程度的确定。

28、利用本方法,可以使数据管理节点向数据质量度量装置发送多样性度量的配置信息,从而实现多样性度量。

29、其中,所述数据质量度量装置可以为数据收集节点,或,非所述数据收集节点的另一节点,或者,应用于该数据收集节点或另一节点的芯片或电路。

30、可选的,根据数据集的应用场景,确定多样性度量的配置信息。

31、在一种设计中,还包括:从所述数据收集节点接收满足多样性要求的第一数据集。

32、在一种设计中,还包括:从所述数据质量度量装置接收所述第一数据集的多样性度量结果;所述第一数据集的多样性度量结果满足多样性要求,向所述数据收集节点发送通知消息;基于所述通知消息,从所述数据收集节点接收所述第一数据集。

33、在一种设计中,所述第一数据集满足多样性要求,包括:所述第一数据集的单个特征的多样性度量结果大于或等于多样性阈值,或者,所述第一数据集的单个特征的多样性度量结果位于多样性阈值区间,则所述第一数据集的单个特征满足多样性要求;或者,所述第一数据集的多个特征中满足多样性要求的特征的比例大于或等于第一阈值,则所述第一数据集的多个特征满足多样性要求;或者,所述第一数据集的多个特征对应的度量结果大于或等于多样性阈值,或者,所述度量结果位于多样性阈值区间,则所述第一数据集的多个特征满足多样性要求,所述度量结果基于所述第一数据的多个特征中包括的特征的多样性度量结果;

34、在一种设计中,所述配置信息用于配置多样性度量,包括:所述配置信息用于配置以下一项或多项:多样性度量流程、所述多样性度量流程中的特征提取函数、距离度量函数、多样性度量函数、或用于确定多样性度量结果的一个或多个阈值。

35、其中,多样性度量流程包括多样性度量所包括的步骤,如特征提取,距离度量,多样性度量等中的一项或多项。其中,特征提取为可选步骤。

36、用于确定多样性度量结果的一个或多个阈值包括前述单个特征的多样性阈值,多个特征的多样性阈值,或,第一阈值等中的一项或多项。

37、可以理解的是,以上配置信息所配置的参数中未被配置的部分可以基于协议定义,或者,从其他节点获取,在此不予限定。

38、第四方面,提供一种数据质量度量方法,包括:对第一特征集和第二特征集进行距离度量,确定第一距离度量集,所述第一特征集基于对第一数据集包括的数据样本的特征提取,所述第二特征集基于对第二数据集包括的数据样本的特征提取,所述数据样本反映以下一项或多项:通信传输的状态、或通信设备的状态,或者所述数据样本为通信信号或所述通信信号经过预处理获得的信号;对所述第一距离度量集进行相似性度量,确定所述第一数据集和所述第二数据集的相似性度量结果,所述相似性度量用于不同数据集在统计分布上相似程度的确定。

39、通过上述方法,可度量两个数据集的相似性。当两个数据集的相似性越高,说明两个数据集的统计分布越接近,合并带来的信息量越小。反之,当两个数据集的相似性越低,则说明两个数据集的统计分布差异越大,合并越来的信息量越大。该相似性可用于对多个数据集进行融合扩展,删除掉相似高的数据集,减少存储开销。

40、在一种设计中,对所述第一数据集包括的数据样本的特征提取,或者对所述第二数据集包括的数据样本的特征提取,基于特征提取函数。可选的,对所述第一数据集或所述第二数据集包括的数据样本提取的特征,包括以下一项或多项:时延功率谱pdp、时变多普勒谱、空域角度功率谱aps、平均值、最大值、最小值、直方图、累计百分比、或数据样本自身。

41、在一种设计中,对所述第一特征集和所述第二特征集进行距离度量,确定第一距离度量集,包括:根据所述第一特征集和所述第二特征集,确定一个或多个特征样本组合,所述特征样本组合中的一个特征样本属于所述第一特征集,另一个特征样本属于所述第二特征集;利用距离度量函数,确定所述一个或多个特征样本组合各自对应的距离度量值;根据所述一个或多个特征样本组合各自对应的距离度量值,确定所述第一距离度量集。

42、在一种设计中,对所述第一距离度量集进行相似性度量,确定所述第一数据集和所述第二数据集的相似性度量结果,包括:利用相似性度量函数,对所述第一距离度量集进行相似性度量,确定所述第一数据集和所述第二数据集的相似性度量结果。

43、在一种设计中,还包括:所述第一数据集和所述第二数据集的单个特征的相似性度量结果大于或等于相似性阈值,或者,所述第一数据集和所述第二数据集的单个特征的相似性度量结果位于第一相似性阈值区间,则确定所述第一数据集和所述第二数据集的单个特征满足低相似性要求;或者,所述第一数据集和所述第二数据集的单个特征的相似性度量结果小于或等于相似性阈值,或者,所述第一数据集和所述第二数据集的单个特征的相似性度量结果位于第二相似性阈值区间,则确定所述第一数据集和所述第二数据集的单个特征满足高相似性要求。

44、通过上述设计,可确定两个数据集在单个特征维度的相似性,并根据两个数据集在单个特征维度的相似性进行融合扩展,删除掉在单特征维度相似性高的数据集,减少存储开销。

45、在一种设计中,还包括:在所述第一数据集和所述第二数据集的多个特征中,确定所述多个特征中满足低相似性要求的特征的比例;所述多个特征中满足低相似性要求的特征的比例大于或等于第二阈值时,则确定所述第一数据集和所述第二数据集的多个特征满足低相似性要求;或者,在所述第一数据集和所述第二数据集的多个特征中,确定所述多个特征中满足高相似性要求的特征的比例;所述多个特征中满足高相似性要求的特征的比例大于或等于第三阈值时,则确定所述第一数据集和所述第二数据集的多个特征满足高相似性要求。或者,根据所述第一数据集和所述第二数据集的多个特征中每个特征的相似性度量结果,确定度量结果;所述确定度量结果大于或等于相似性阈值,或者,所述度量结果位于第一相似性阈值区间,则所述第一数据集和所述第二数据集的多个特征满足低相似性要求;或者,所述度量结果小于或等于相似性阈值,或者,所述度量结果位于第二相似性阈值区间,则确定所述第一数据集和所述第二数据集的多个特征满足高相似性要求。

46、通过上述设计,可确定两个数据集在多个特征维度的相似性,并根据两个数据集在多个特征维度的相似性进行融合扩展,删除掉在多个特征维度相似性高的数据集,减少存储开销。

47、第五方面,提供一种数据质量度量方法,包括:数据质量度量装置向第一数据收集节点发送第一配置信息,所述第一配置信息用于配置相似性度量中的特征提取,所述相似性度量用于不同数据集在统计分布上相似程度的确定,所述特征提取用于对数据集所包括数据样本的特征的提取;所述数据质量度量装置从所述第一数据收集节点接收所述第一数据集的第一特征集,所述第一特征集基于所述第一配置信息。

48、其中,所述数据质量度量装置为数据管理节点或应用于该数据管理节点的芯片或电路,或,非所述数据管理节点的另一节点或应用于该另一节点的芯片或电路。

49、通过上述设计,由数据质量度量装置例如数据管理节点,向数据收集节点发送配置信息,配置其相似性度量中的特征提取;由数据收集节点根据配置信息,确定收集数据集的特征信息,且将该特征信息上报给数据质量度量装置,从而使得数据质量度量装置可获取数据收集节点所收集的数据的特征信息。这样,可以获得用于相似性比对的该数据集的特征信息。

50、在一种设计中,还包括:所述数据质量度量装置根据所述第一数据集的第一特征集和第二数据集的第二特征集,确定所述第一数据集和第二数据集的相似性度量结果。

51、通过不同数据集之间的相似性对比,挑选出与已有数据集差异化大的数据集进行融合扩展,带来信息增量,进一步提高合并后的数据集的多样性。避免节点间传输与已有数据相似性很高的数据,降低传输开销。

52、在一种设计中,所述数据质量度量装置根据所述第一数据集的第一特征集和第二数据集的第二特征集,确定所述第一数据集和第二数据集的相似性度量结果,包括:所述数据质量度量装置对所述第一特征集和所述第二特征集进行距离度量,确定第一距离度量集;所述数据质量度量装置对所述第一距离度量集进行相似性度量,确定所述第一数据集和所述第二数据集的相似性度量结果。

53、在一种设计中,所述数据质量度量装置对所述第一特征集和所述第二特征集进行距离度量,确定第一距离度量集,包括:所述数据质量度量装置根据所述第一特征集和所述第二特征集,确定一个或多个特征样本组合,所述特征样本组合中的一个特征样本属于所述第一特征集,另一个特征样本属于所述第二特征集;所述数据质量度量装置利用距离度量函数,确定所述一个或多个特征样本组合各自对应的距离度量值;所述数据质量度量装置根据所述一个或多个特征样本组合各自对应的距离度量值,确定所述第一距离度量集。

54、在一种设计中,所述数据质量度量装置对所述第一距离度量集进行相似性度量,确定所述第一数据集和第二数据集的相似性度量结果,包括:所述数据质量度量装置利用相似性度量函数,对所述第一距离度量集进行相似性度量,确定所述第一数据集和第二数据集的相似性度量结果。

55、在一种设计中,所述第二数据集为第二数据收集节点收集的数据集,所述方法还包括:所述数据质量度量装置向所述第二数据收集节点发送第二配置信息,所述第二配置信息用于配置相似性度量中的特征提取;所述数据质量度量装置从所述第二数据收集节点接收所述第二数据集的第二特征集,所述第二特征集基于所述第二配置信息。

56、在一种设计中,还包括:所述数据质量度量装置根据所述第一数据集和所述第二数据集的相似性度量结果,确定所述第一数据集和所述第二数据集满足低相似性要求;所述数据质量度量装置向所述第一数据收集节点和所述第二数据收集节点,分别发送通知消息,用于通知所述第一数据集节点上报所述第一数据集,所述第二数据收集节点上报所述第二数据集。

57、在一种设计中,所述第二数据集为数据管理节点存储的数据集,所述方法还包括:所述数据质量度量装置利用特征提取函数,对所述第二数据集包括的数据样本进行特征提取,获得所述数据样本对应的特征样本;所述数据质量度量装置根据所述第二数据集包括的数据样本对应的特征样本,确定所述第二数据集对应的第二特征集。

58、在一种设计中,还包括:所述数据质量度量装置根据所述第一数据集和所述第二数据集的相似性度量结果,确定所述第一数据集和所述第二数据集满足低相似性要求;所述数据质量度量装置向所述第一数据收集节点发送通知消息,用于通知所述第一数据收集节点向所述数据管理节点上报所述第一数据集。

59、在一种设计中,所述第一配置信息用于配置相似性度量中的特征提取,包括:所述第一配置信息用于配置特征提取函数。

60、在一种设计中,还包括:确定第一配置信息;可选的,根据数据集的应用场景,确定所述第一配置信息。

61、在一种设计中,还包括:所述第一数据集和所述第二数据集的单个特征的相似性度量结果大于或等于相似性阈值,或者,所述第一数据集和所述第二数据集的单个特征的相似性度量结果位于第一相似性阈值区间,则确定所述第一数据集和所述第二数据集的单个特征满足低相似性要求。

62、在一种设计中,还包括:在所述第一数据集和所述第二数据集的多个特征中,确定所述多个特征中满足低相似性要求的特征的比例;所述多个特征中满足低相似性要求的特征的比例大于或等于第二阈值时,则确定所述第一数据集和所述第二数据集的多个特征满足低相似性要求。或者,根据所述第一数据集和所述第二数据集的多个特征中每个特征的相似性度量结果,确定度量结果;所述度量结果大于或等于相似性阈值,或者,所述度量结果位于第一相似性阈值区间,则确定所述第一数据集和所述第二数据集的多个特征满足低相似性要求。

63、第六方面,提供一种数据质量度量方法,该方法的执行主体为数据收集节点或应用于所述数据收集节点的芯片或电路,包括:

64、获取配置信息,所述配置信息用于配置相似性度量中的特征提取;

65、根据所述配置信息,对数据集进行特征提取,确定所述数据集对应的特征集;

66、向数据质量度量装置发送所述特征集。

67、其中,所述数据质量度量装置为数据管理节点或应用于所述数据管理节点的芯片或电路,或,非所述数据管理节点的另一节点或应用于所述另一节点的芯片或电路。

68、通过上述设计,数据收集节点基于配置信息,进行相似性度量中的特征提取,并将获得的特征集上报给数据质量度量装置,从而使得数据质量度量装置可获取数据收集节点所收集的数据的特征信息。这样,可以使得数据质量度量装置获得用于相似性比对的该数据集的特征信息。

69、可选的,所述获取配置信息,包括:从所述数据质量度量装置接收所述配置信息;

70、在一种设计中,对所述数据集的特征提取,基于特征提取函数。可选的,对所述数据集提取的特征包括以下一项或多项:时延功率谱pdp、时变多普勒谱、空域角度功率谱aps、平均值、最大值、最小值、直方图、累计百分比、或数据样本自身。

71、在一种设计中,还包括:从所述数据质量度量装置接收通知消息;基于所述通知消息,向所述数据管理节点发送所述数据集。

72、在一种设计中,所述配置信息用于配置相似性度量中的特征提取,包括:所述配置信息用于配置特征提取函数,比如,配置特征提取函数的函数名和/或函数中的全部或部分参数。

73、第七方面,提供一种数据质量度量方法,包括:数据质量度量装置获取配置信息,所述配置信息用于配置相似性度量,所述相似性度量用于不同数据集在统计分布上相似程度的确定;所述数据质量度量装置根据所述配置信息,确定第一数据集和第二数据集的相似性度量结果,所述第一数据集是模型的训练数据集,所述第二数据集是模型使用节点收集的数据集。

74、其中,所述数据质量度量装置为所述模型使用节点或应用于所述模型使用节点的芯片或电路,或,非所述模型使用节点的另一节点或应用于所述另一节点的芯片或电路。

75、通过上述设计,模型使用节点可以在候选的多个模型中,选择模型使用节点的推理数据,与训练数据的相似度高的模型,进行模型推理,可提高模型推理的准确度。

76、在一种设计中,所述数据质量度量装置获取配置信息,包括:所述数据质量度量装置从数据管理节点接收所述配置信息。

77、在一种设计中,所述数据质量度量装置根据所配置的相似性度量,确定所述第一数据集和第二数据集的相似性度量结果,包括:所述数据质量度量装置对第一特征集和第二特征集进行距离度量,确定第一距离度量集,所述第一特征集基于第一数据集包括的数据样本的特征提取,所述第二特征集基于第二数据集包括的数据样本的特征提取;所述数据质量度量装置对所述第一距离度量集进行相似性度量,确定所述第一数据集和所述第二数据集的相似性度量结果。

78、可选的,所述数据样本反映以下一项或多项:通信传输的状态、或通信设备的状态,或者所述数据样本为通信信号或所述通信信号经过预处理获得的信号。

79、在一种设计中,对所述第一数据集包括的数据样本的特征提取,或对所述第二数据集包括的数据样本的特征提取,基于特征提取函数。可选的,对所述第一数据集体包括的数据样本提取的特征,或对所述第二数据集包括的数据样本提取的特征,包括以下一项或多项:时延功率谱pdp、时变多普勒谱、空域角度功率谱aps、平均值、最大值、最小值、直方图、累计百分比、或数据样本自身。

80、在一种设计中,所述数据质量度量装置对所述第一特征集和所述第二特征集进行距离度量,确定第一距离度量集,包括:所述数据质量度量装置根据所述第一特征集和所述第二特征集,确定一个或多个特征样本组合,所述特征样本组合中的一个特征样本属于所述第一特征集,另一个特征样本属于所述第二特征集;所述数据质量度量装置利用距离度量函数,确定所述一个或多个特征样本组合各自对应的距离度量值;所述数据质量度量装置根据所述一个或多个特征样本组合各自对应的距离度量值,确定所述第一距离度量集。

81、在一种设计中,所述数据质量度量装置对所述第一距离度量集进行相似性度量,确定所述第一数据集和所述第二数据集的相似性度量结果,包括:所述数据质量度量装置利用相似性度量函数,对所述第一距离度量集进行相似性度量,确定所述第一数据集和所述第二数据集的相似性度量结果。

82、在一种设计中,还包括:所述第一数据集和所述第二数据集的单个特征的相似性度量结果小于或等于相似性阈值,或者,所述第一数据集和所述第二数据集的单个特征的相似性度量结果位于第二相似性阈值区间,则所述第一数据集和所述第二数据集的单个特征满足低相似性要求。

83、在一种设计中,还包括:所述数据质量度量装置在所述第一数据集和所述第二数据集的多个特征中,确定所述多个特征中满足高相似性要求的特征的比例;所述多个特征中满足高相似性要求的特征比例大于或等于第三阈值时,则所述第一数据集和所述第二数据集的多个特征满足高相似性要求。或者,根据所述第一数据集和所述第二数据集的多个特征中每个特征的相似性度量结果,确定度量结果;所述度量结果小于或等于相似性阈值,或者,所述度量结果位于第二相似性阈值区间,则所述第一数据集和所述第二数据集的多个特征满足高相似性要求。

84、在一种设计中,还包括:所述数据质量度量装置在候选的多个模型中,确定与所述第一数据集的满足高相似性要求的训练数据集对应的模型。

85、在一种设计中,所述配置信息用于配置相似性度量,包括:所述配置信息用于配置以下一项或多项:相似性度量流程、相似性度量流程中的特征提取函数、距离度量函数、相似性度量函数、或用于确定相似性度量结果的一个或多个阈值。

86、其中,相似性度量流程包括相似性度量的步骤,如特征提取,距离度量,相似性度量等中的一项或多项,其中,所述特征提取为可选步骤。

87、配置特征提取函数,距离度量函数,相似性度量函数中的一项或多项包括配置函数名称和/或函数中的全部或部分参数。

88、用于确定相似性度量结果的一个或多个阈值包括前述单个特征的相似性阈值,多个特征的相似性阈值,单个特征的第二相似性阈值区间,多个特征的第二相似性阈值区间,第三阈值等中的一项或多项。

89、可以理解的是,以上配置信息所配置的参数中未被配置的部分可以基于协议定义,或者,从其他节点获取,在此不予限定。

90、第八方面,提供一种数据质量度量方法,该方法的执行主体为数据管理节点或应用于该数据管理节点的芯片或电路,包括:确定相似性度量的配置信息;向数据质量度量装置发送所述配置信息,所述配置信息用于配置相似性度量,所述相似性度量用于不同数据集在统计分布上相似程度的确定。

91、其中,所述数据质量度量装置为模型使用节点或应用于该模型使用节点的芯片或电路,或非所述模型使用节点的另一节点或应用于该另一节点的芯片或电路。

92、可选的,根据模型的应用场景,确定相似性度量的配置信息。

93、在一种设计中,所述配置信息用于配置相似性度量,包括:所述用于配置以下一项或多项:相似性度量流程、相似性度量流程中的特征提取函数、距离度量函数、相似性度量函数、或用于确定相似性度量结果的一个或多个阈值。

94、其中,相似性度量流程包括相似性度量的步骤,如特征提取,距离度量,相似性度量等中的一项或多项,其中,所述特征提取为可选步骤。

95、配置特征提取函数,距离度量函数,相似性度量函数中的一项或多项包括配置函数名称和/或函数中的全部或部分参数。

96、用于确定相似性度量结果的一个或多个阈值包括前述单个特征的相似性阈值,多个特征的相似性阈值,单个特征的第二相似性阈值区间,多个特征的第二相似性阈值区间,第三阈值等中的一项或多项。

97、第九方面,提供一种数据质量度量方法,包括:数据质量度量装置获取第一配置信息和第二配置信息,所述第一配置信息用于配置相似性度量,所述第二配置信息用于配置多样性度量,所述相似性度量用于不同数据集在统计分布上相似程度的确定,所述多样性度量用于数据集在统计分布上丰富多样程度的确定,所述数据质量度量装置为数据收集节点或应用于所述数据收集节点的芯片或电路,或,非所述数据收集节点的另一节点或应用于该另一节点的芯片或电路;所述数据质量度量装置根据所述第一配置信息和第二配置信息,对第二数据集进行相似性度量和多样性度量,确定相似性和多样性均满足要求的第一数据集。其中,所述第一数据集所包括的数据样本为第二数据集中的数据样本中的全部或部分。

98、利用该方法,可以基于相似性度量的配置和多样性度量的配置对第二数据集进行相似性度量和多样性度量,从而获得相似性和多样性均满足要求的第一数据集。

99、可选的,第一数据集可以用于ai模型的训练和/或选择,或是,完备性测试,从而获得满足系统要求的ai模型。

100、可选的,所述数据样本反映以下一项或多项:通信传输的状态、或通信设备的状态,或者所述数据样本为通信信号或所述通信信号经过预处理获得的信号。

101、在一种设计中,所述数据质量度量装置获取第一配置信息和第二配置信息,包括:所述数据质量度量装置从数据管理节点接收所述第一配置信息和所述第二配置信息。

102、在一种设计中,所述数据质量度量装置根据所述第一配置信息和第二配置信息,确定相似性和多样性均满足要求的第一数据集,包括:所述数据质量度量装置确定n个数据子集,所述n为大于1的正整数,所述第二数据集包括所述n个数据子集;所述数据质量度量装置根据所述第一配置信息,确定所述n个数据子集的相似性度量结果,并根据所述n个数据子集的相似性度量结果,确定第一数据集,所述第一数据集包括所述n个数据子集中的部分数据子集且不包括所述n个数据子集中的除所述部分数据子集之外的数据子集;所述数据质量度量装置根据所述第二配置信息,确定所述第一数据集的多样性度量结果;所述第一数据集的多样性度量结果满足多样性要求,则所述数据质量度量装置确定所述第一数据集满足相似性和多样性度量要求。

103、通过上述设计,将一个数据集划分成多个数据子集,将差异性小的冗余部分删除,同时留存部分达到多样性要求,避免节点间传输冗余数据,降低传输开销。

104、在一种设计中,还包括:所述第一数据集的多样性度量结果不满足多样性要求,确定新的第一数据集,所述新的第一数据集包括所述n个数据子集中不包括在所述第一数据集中数据子集中的部分,并将所述新的第一数据集作为所述第二数据集;继续执行确定n个数据子集的步骤。

105、在一种设计中,所述数据质量度量装置根据所述第一配置信息,确定所述n个数据子集的相似性度量结果,并根据所述n个数据子集的相似性度量结果,确定第一数据集,包括:所述数据质量度量装置根据所述第一配置信息,确定所述n个数据子集中每个数据子集的相似性度量结果,或者所述n个数据子集中任两个数据子集的相似性度量结果;所述数据质量度量装置在所述n个数据子集中,确定相似性度量结果不满足低相似性要求的数据子集,作为所述第一数据子集;所述数据质量度量装置确定第一数据集,所述第一数据集包括所述n个数据子集中,除所述第一数据子集之外的数据子集。

106、在一种设计中,还包括:所述数据收集节点向所述数据管理节点发送所述第一数据集。

107、在一种设计中,所述第一配置信息用于配置相似性度量,包括:所述第一配置信息用于配置以下一项或多项:相似性度量流程、相似性度量流程中的特征提取函数、距离度量函数、相似性度量函数、或用于确定相似性度量结果的一个或多个阈值;所述第二配置信息用于配置多样性度量,包括:所述第二配置信息用于配置以下一项或多项:多样性度量流程、所述多样性度量流程中的特征提取函数、距离度量函数、多样性度量函数、或用于确定多样性度量结果的一个或多个阈值。

108、第一配置信息或第二配置信息可以参考前述多样性度量或相似性度量中的介绍,在此不予赘述。

109、第十方面,提供一种数据质量度量方法,该方法的执行主体为数据管理节点或应用于该数据管理节点的芯片或电路,包括:确定相似性度量和多样性度量;向数据质量度量装置发送第一配置信息和第二配置信息,所述第一配置信息用于配置相似性度量,所述第二配置信息用于配置多样性度量,所述相似性度量用于不同数据集在统计分布上相似程度的确定,所述多样性度量用于一个数据集在统计分布上丰富多样程度的确定。

110、利用该方法,可以所需的相似性度量的配置和多样性度量,确定并向数据质量度量装置发送第一配置信息和第二配置信息,以使得数据质量度量装置获得该第一配置信息和第二配置信息。

111、该第一配置信息和第二配置信息可以用于对第二数据集进行相似性度量和多样性度量,从而使数据质量度量装置获得相似性和多样性均满足要求的第一数据集。

112、可选的,第一数据集可以用于ai模型的训练和/或选择,或是,完备性测试,从而获得满足系统要求的ai模型。

113、可选的,根据数据集的应用场景,确定相似性度量和多样性度量。

114、在一种设计中,还包括:从所述数据收集点接收相似性和多样性均满足要求的第一数据集。

115、在一种设计中,所述第一配置信息用于配置相似性度量,包括:所述第一配置信息用于配置以下一项或多项:相似性度量流程、相似性度量流程中的特征提取函数、距离度量函数、相似性度量函数、或用于确定相似性度量结果的一个或多个阈值;所述第二配置信息用于配置多样性度量,包括:所述第二配置信息用于配置以下一项或多项:多样性度量流程、所述多样性度量流程中的特征提取函数、距离度量函数、多样性度量函数、或用于确定多样性度量结果的一个或多个阈值。

116、第一配置信息或第二配置信息可以参考前述多样性度量或相似性度量中的介绍,在此不予赘述。

117、第十一方面,提供一种数据质量度量方法,包括:数据质量度量装置获取配置信息,所述配置信息用于配置完备性度量,所述完备性度量用于处理流程在输入该处理流程的数据对应的应用场景下所达到性能指标程度的确定;所述数据质量度量装置根据所述配置信息,确定第一性能指标的度量值,所述第一性能指标是在第一数据集作为第一处理流程的输入时,根据所述第一处理流程的输出所确定的;所述数据质量度量装置根据所述第一性能指标的度量值,确定完备性度量结果。其中,所述数据质量度量装置为模型使用节点或应用于该模型使用节点的芯片或电路、或非所述模型使用节点的另一节点或应用于该另一节点的芯片或电路。

118、通过上述设计,可度量处理流程在输入该处理流程的数据对应的应用场景下所达到性能指标程度,从而可以针对具体应用场景或系统要求,筛选出性能指标的度量值满足性能指标要求的处理流程。

119、所述处理流程包括一个或多个ai模型。进一步的,所述处理流程还可以包括所述一个或多个ai模型的输入和/或输出的处理。

120、在一种设计中,所述获取配置信息,包括:从数据管理节点接收所述配置信息。

121、在一种设计中,所述数据质量度量装置根据所述第一性能指标的度量值,确定所述完备性度量结果,包括:所述第一性能指标的度量值大于或等于完备性阈值,或者位于第一完备性阈值区间,则确定所述完备性度量结果为满足完备性要求;或者,所述第一性能指标的度量值小于完备性阈值,或者位于第二完备性阈值区间,则确定所述完备性度量结果为不满足完备性要求。

122、在一种设计中,还包括:所述数据质量度量装置向数据管理节点发送所述完备性度量结果。这样,数据管理节点可以基于所述完备性度量结果确定适用于特定应用场景或系统要求的处理流程和/或与该处理流程对应的数据集,该数据集和/或处理流程可以用于相应的应用场景或系统要求下的推理。

123、在一种设计中,还包括:所述数据质量度量装置向数据管理节点发送指示所述完备性度量结果为满足完备性要求的数据集和/或处理流程的信息。这样,数据管理节点可以将与该数据集满足相似性要求的数据集和/或处理流程用于相应的应用场景或系统要求下的推理。

124、在一种设计中,所述配置信息用于配置完备性度量,包括:所述配置信息用于配置以下一项或多项:处理流程、数据集、性能指标、或用于确定完备性的一个或多个阈值。

125、该用于确定完备性的一个或多个阈值可以包括前述完备性阈值,第一完备性阈值区间,或第二完备性阈值区间中的一项或多项。

126、第十二方面,提供一种数据质量度量方法,该方法的执行主体为数据管理节点或应用于该数据管理节点的芯片或电路,包括:

127、确定配置信息,所述配置信息用于配置完备性度量,所述完备性度量用于处理流程在输入该处理流程的数据集所对应的应用场景下所达到的性能指标程度的确定,也就是,用于度量或确定处理流程在输入该处理流程的数据集所对应的应用场景下所达到的性能指标程度;

128、向数据质量度量装置发送配置信息,所述数据质量度量装置为模型使用节点,或非所述模型使用节点的另一节点。

129、在一种设计中,还包括:

130、基于所述配置信息,从所述数据质量度量装置接收完备性度量结果或指示满足完备性要求的数据集和/或处理流程的信息。在一种设计中,所述配置信息用于配置完备性度量,包括:所述配置信息用于配置以下一项或多项:处理流程、数据集、性能指标、或用于确定完备性的一个或多个阈值。

131、第十三方面,提供一种数据质量度量方法,包括:数据质量度量装置根据数据收集节点上报的相似性满足要求的数据集,确定候选数据集,所述数据质量度量装置为数据管理节点或应用于所述数据管理节点的芯片或电路,或者,非所述数据管理节点的另一节点或应用于该另一节点的芯片或电路;所述数据质量度量装置根据多样性度量,在所述候选数据集中,确定所述多样性满足要求的第一数据集;所述数据质量度量装置向模型训练节点发送所述第一数据集。

132、利用本方法,可以使得数据质量度量装置获得相似性及多样性均满足要求的第一数据集。该第一数据集可以用于ai模型的训练或选择,或者,用于完备性度量。

133、在一种设计中,所述数据质量度量装置根据多样性度量,在所述候选数据集中,确定所述多样性满足要求的第一数据集,包括:所述数据质量度量装置根据所述多样性度量,确定所述候选数据集中每个数据集对应的多样性度量结果;在所述候选数据集中,确定所述多样性度量结果满足多样性要求的第一数据集。

134、在一种设计中,还包括:向所述数据收集节点发送配置信息,所述配置信息用于配置所述相似性度量中的特征提取;从所述数据收集节点接收第二数据集的第二特征集;根据第三数据集的第三特征集和所述第二特征集,确定所述第二数据集和所述第三数据集的相似性度量结果,所述第三数据集为数据管理节点存储的数据集;所述第二数据集和所述第三数据集的相似性度量结果满足低相似性要求,向所述数据收集节点发送通知消息,用于通知所述数据收集节点上报所述第二数据集。其中,所述第二数据集即为第十三方面所提供的方法中数据收集节点上报的相似性满足要求的数据集。

135、第十四方面,提供一种数据质量度量方法,包括:数据质量度量装置接收来数据管理节点的第一数据集,所述第一数据集的相似性和多样性均满足要求,所述数据质量度量装置为模型训练节点,或非所述模型训练节点外的其它节点;所述数据质量度量装置根据所述第一数据集,确定第一性能指标的度量值;所述数据质量度量装置根据所述第一性能指标的度量值,确定所述完备性度量结果。

136、在一种设计中,所述数据质量度量装置根据所述第一性能指标的度量值,确定所述完备性度量结果,包括:所述第一性能指标的度量值大于或等于完备性阈值,或者位于第一完备性阈值区间,则所述完备性度量结果为满足完备性要求;或者,所述第一性能指标的度量值小于完备性阈值,或者位于第二完备性阈值区间,则所述完备性度量结果为不满足完备性要求。

137、在一种设计中,所述数据质量度量装置根据所述第一数据集,确定第一性能指标的度量值,包括:所述数据质量度量装置利用所述第一数据集,进行模型训练,得到第一模型;所述数据质量度量装置将所述第一数据集中作为输入,输入到所述第一模型中,根据所述第一模型的输出,确定所述第一性能指标的度量值。

138、在一种设计中,当所述第一性能指标的度量值满足完备性要求时,则第一模型在输入该第一模型的第一数据集所对应的应用场景下满足完备性要求。

139、第十五方面,提供一种装置,该装置包括执行上述第一方面至第十四方面中任一方面所描述的方法对应的单元或模块,该单元或模块可以通过硬件电路实现,或者通过软件实现,或者通过硬件电路结合软件实现。

140、第十六方面,提供一种装置,包括处理器和接口电路,所述处理器用于通过接口电路与其它装置通信,并执行上述第一方面至第十四方面中任一方面所描述的方法。该处理器包括一个或多个。

141、第十七方面,提供一种装置,包括与存储器耦合的处理器,该处理器用于执行所述存储器中存储的程序,以执行上述第一方面至第十四方面中任一方面描述的方法。该存储器可以位于该装置之内,也可以位于该装置之外。且该处理器可以是一个或多个。

142、第十八方面,提供一种装置,包括处理器和存储器;该存储器用于存储计算机指令,当该装置运行时,该处理器执行该存储器存储的计算机指令,以使该装置执行上述第一方面至第十四方面中任一方面描述的方法。

143、第十九方面,提供一种芯片系统,包括:处理器或电路,用于执行上述第一方面至第十四方面中任一方面描述的方法。

144、第二十方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在通信装置上运行时,使得上述第一方面至第十四方面中任一方面描述的方法被执行。

145、第二十一方面,提供一种计算机程序产品,该计算机程序产品包括计算机程序或指令,当计算机程序或指令被装置运行时,使得上述第一方面至第十四方面中任一方面描述的方法被执行。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1