一种数据缺失的补偿方法和装置与流程

文档序号：11583240阅读：762来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及数据挖掘和机器学习技术领域，具体涉及到一种数据缺失的补偿方法和装置。

背景技术：

在现有的数据挖掘和机器学习技术中，常会遇到高维数据的某些维度缺失的问题。数据的维度可以是低层次的某个数据向量的某一维，也可以是多模态数据中的某个模态，或者是某种语义信息。

在现有技术中对数据缺失的问题的处理，通常会提前定义好完整的特征维度，直接得知缺失的维度到底有哪些，对于这些缺失的维度，往往会对这些缺失的维度进行补0，或直接剔除这些缺失的维度。

但是，运用现有技术的处理方法时，并不能清晰的得知当前数据是否存在缺失，并且在当前数据下采用补0或降维的方式可能会导致根据现有获得的数据无法得到需要的最终结论判决结果。

因此，如何在数据缺失不确定的情况下对数据进行针对性的补偿成为亟待解决的问题。

技术实现要素：

本发明要解决的技术问题在于在数据缺失不确定的情况下对数据进行针对性的补偿。

为此，根据第一方面，本发明实例提供了一种数据缺失的补偿方法，包括：

获取用于表征对象信息的对象数据，对象数据为多维度数据和/或多模态数据；获取与对象数据中的各个维度组合映射的各个预设结论判决结果；根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性，第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度；判断第一数据缺失性是否大于预设阈值；如果第一数据缺失性大于预设阈值，则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合。

优选地，根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性，包括：通过训练数据得到各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合；获取各个维度组合中的数据在映射关系集合中的第一概率；通过第一概率得到指定维度组合的第一数据缺失性。

优选地，在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合，包括：在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据，对指定维度组合进行补偿，得到多个预补偿的指定维度组合；根据多个预补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第二数据缺失性；第二数据缺失性用于表征多个与补偿的指定维度组合的数据缺失对判决结果的影响；根据第二数据缺失性对多个预补偿的指定维度组合排序；选择第二数据缺失性最小的预补偿的指定维度组合作为完成补偿的指定维度组合。

优选地，在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合，还包括：在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据；获取可用数据在映射关系集合中的第二概率；根据第二概率对可用的数据进行排序；选择第二概率最高的所诉可用数据对指定维度组合进行补偿，作为完成补偿的指定维度组合。

优选地，根据完成补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第三数据缺失性；第三数据缺失性用于表征完成补偿的指定维度组合的数据缺失对判决结果的影响程度；判断第三数据缺失性是否大于预设阈值；如果第三数据缺失性大于预设阈值，则返回在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合的步骤。

根据第二方面，本发明实施例提供了一种数据缺失的补偿装置，包括：第一获取单元，用于获取用于表征对象信息的对象数据，对象数据为多维度数据和/或多模态数据；

第二获取单元，用于获取与对象数据中的各个维度组合映射的各个预设结论判决结果；第一数据缺失性得到单元，用于据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性，第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度；第一判断单元，用于判断第一数据缺失性是否大于预设阈值；补偿单元，用于如果第一数据缺失性大于预设阈值，则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合。

优选地，第一数据缺失性得到单元包括：训练数据子单元，用于通过训练数据得到各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合；第一获取子单元，用于获取各个维度组合中的数据在映射关系集合中的第一概率；第一缺失性得到子单元，用于通过第一概率得到指定维度组合的第一数据缺失性。

优选地，补偿单元包括：预补偿子单元，用于在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据，对指定维度组合进行补偿，得到多个预补偿的指定维度组合；第二缺失性子单元，用于根据多个预补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第二数据缺失性；第二数据缺失性用于表征多个与补偿的指定维度组合的数据缺失对判决结果的影响；第一排序子单元，用于根据第二数据缺失性对多个预补偿的指定维度组合排序；第一选择子单元，用于选择第二数据缺失性最小的预补偿的指定维度组合作为完成补偿的指定维度组合。

优选地，补偿单元还包括：第二选择子单元，用于在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据；第二获取子单元，用于获取可用数据在映射关系集合中的第二概率；第二排序子单元，用于根据第二概率对可用的数据进行排序；第三选择子单元，用于选择概率最高的可用的数据对指定维度组合进行补偿作为完成补偿的指定维度组合。

优选地，第二数据缺失性得到单元，用于根据完成补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第三数据缺失性；第三数据缺失性用于表征完成补偿的指定维度组合的数据缺失对判决结果的影响程度；第二判断单元，用于判断第三数据缺失性是否大于预设阈值；返回单元，用于如果第三数据缺失性大于预设阈值，则返回在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合的步骤。

本发明实施例提供的数据缺失的补偿方法，通过获取用于表征对象信息的对象数据，对象数据为多维度数据；获取与对象数据中的各个维度组合映射的各个预设结论判决结果；根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性，第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度；判断第一数据缺失性是否大于预设阈值；如果第一数据缺失性大于预设阈值，则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合，从而，可以根据获取的对象数据和存在的预设结论判决结果的映射关系确定数据的缺失性，然后在对象数据中选择数据对缺失的维度组合进行针对性的增值补偿，进而，可以完成在数据缺失不确定的情况下对数据进行针对性的补偿，以便在较短的时间内获得相应的结论判决结果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本实施例的数据缺失的补偿方法的流程图；

图2示出了本实施例的数据缺失的补偿方法中数据缺失性得到方法的流程图；

图3示出了本实施例的数据缺失的补偿方法中补偿数据方法的流程图；

图4示出了本实施例的数据缺失的补偿方法中补偿数据方法的流程图；

图5示出了本实施例的数据缺失补偿验证方法的流程图；

图6示出了本实施的数据缺失的补偿装置示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本发明实施例提供了一种数据缺失的补偿方法，如图1所示，包括如下步骤：

s10.获取用于表征对象信息的对象数据。在本实施中，所称的对象数据可以是多维度数据，也可以是多模态数据，具体地，多模态数据可以是通过不同的方法或角度收集的例如声音、图像或文字等数据。

s20.获取与对象数据中的各个维度组合映射的各个预设结论判决结果。在具体的实施例中，每一套对象数据中存在多个维度组合，理论上都可以分别得到对应的多个结论判决结果，可以获取与对象数据对应的理论上的结论判决结果。在本实施例中，对象数据的获取和预设结论判决结果的获取可以是同步获取，也可以有先后顺序，可以先获取对象数据，也可以先获取预设结论判决结果。

s30.根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一缺失性。在本实施例中，所称的第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度，例如，如果指定维度组合中有三个数据，缺失第二数据后，根据第一数据和第三数据得到的结论判决结果为预设结论判决结果完整性的百分之八十，则该数据的缺失性为百分之二十。在具体的实施例中，每个维度组合与结论判决结果之间都存在这一个映射关系，该映射关系可以为：其中，为某个维度组合，ωj为与该维度组合对应的结论判决结果，f为映射关系法则。通过统计各维度组合中的数据在映射关系中重要性，可以得到该数据在该映射关系中的缺失度，即可确定指定维度组合的缺失性。在本实施例中，所称的指定维度组合中某些数据缺失可以是多维度数据中的某些数据的缺失，也可以是多模态数据中的某个模态或者某种语义信息的缺失。

s40.判断第一缺失性是否大于预设阈值。在具体的实施例中，可以预先设置缺失性的阈值，该阈值的设置可以根据缺失性对结果影响程度设置。如果第一缺失性大于预设阈值，则进入步骤s50。如果第一缺失性小于预设阈值，则可以认为指定维度组合不缺失数据或缺失的数据对结论判决结果无影响。

s50.在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿。以得到完成补偿的指定维度组合。在具体的实施例中，在确认指定维度组合数据缺失后，可以从指定维度组合之外的对象数据中选择该缺失数据的指定维度组合需要的数据对该指定组合进行补偿，由于之前的映射关系已经确定，选择数据需要从已经获取的对象数据中选择，选择的数据可以是该指定组合缺失的数据，也可以是当选择的数据对该指定维度组合的结论判决结果有帮助的数据。

下面将结合图2详细的介绍确定数据缺失的过程：

s31.通过训练数据得到各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合。在具体的实施例中，每个维度组合与预设结论判决结果之间都存在这一个映射关系，该映射关系可以为：多个维度组合与对应的多个预设结论判决结果之间的映射关系可以组合成一个映射关系集合，例如映射关系集合可以表示为：

其中f为映射关系集合。

s32.获取各个维度组合中的数据在映射关系集合中的第一概率。在具体的实施例中，分别统计各个维度组合中的数据在所有的映射关系中所占的概率，例如在映射关系的集合中的概率为可以由以下公式表示：

其中，第一项表示数据ni在当前映射关系fj下所有数据nk中的出现频率。第二项表示在所有的映射集合f中，包含有数据ni的映射概率。

但是，在实际情况中，由于有数据的缺失，数据的缺失可能会对结论判决结果有影响，因而出现数据的概率会被抑制，所以，第一概率会变为其中，α为概率抑制系数，α＜1。

s33.通过第一概率得到指定维度组合的第一数据缺失性。在具体的实施例中，数据在映射关系集合中的第一概率为可以根据统计学的计算公式得到该数据的缺失性，例如，缺失性计算公式可以由如下公式表示：

其中h为数据缺失性。

如果当前数据缺失性h大于预设阈值，则可以确认数据缺失。

在可选的实施例中，对有数据缺失性的指定维度组合进行补偿的方法，如图3所示，可以包括如下步骤：

s51a.在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据对指定维度组合进行补偿，得到多个预补偿的指定维度组合。在具体的实施例中，现在指定维度组合之外的对象数据中选择能够对该指定组合结论判决结果有帮助的数据补入该有数据缺失的指定维度组合中，可以生成多个预补偿的指定维度组合。

s52a.根据多个预补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第二数据缺失性。本实施例中所称的第二数据缺失性用于表征与补偿的指定维度组合的数据缺失对判决结果的影响。在本实施例中，得到第二数据缺失性的方法如上述实施例中步骤s31至步骤s33的方法，分别得到各个预补偿的指定维度组合的第二数据缺失性。

s53a.根据第二数据缺失性对多个预补偿的指定维度组合进行排序。在具体的实施例中，可以以各个预补偿的指定维度组合的数据缺失性的大小，对各个预补偿的指定维度组合进行排序。

s54a.选择第二数据缺失性最小的预补偿的指定维度组合作为完成补偿的指定维度组合。

在可选的实施例中，在本实施例中还提供了另一种对有数据缺失性的指定维度组合进行补偿的方法，如图4所示，包括如下步骤：

s51b.在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据。具体选择方法参见上述实施例步骤s51a。

s52b.获取可用数据在映射关系集合中的第二概率。具体获取第二概率的方法参见上述实施例步骤s32。

s53b.选择第二概率最高的可用数据对当指定维度组合进行补偿，作为完成补偿的指定维度组合。在本实施例中，可以选择排序靠前可用数据对指定位置组合进行补偿。

为保证补偿后数据后的指定维度组合可用，还需对完成补偿的指定维度组合进行数据缺失性验证，如图5所示，对完成补偿的指定维度组合进行数据缺失性验证的方法包括如下步骤：

s60.根据完成补偿的指定维度组合与指定维度组合对应的预设结论判决结果得到第三数据缺失性。第三数据缺失性用于表征完成补偿的指定维度组合的数据缺失对判决结果的影响程度。第三数据缺失得到的方法参见上述步骤s30。

s70.判断第三数据的缺失性是否大于预设阈值。如果第三数据缺失性大于预设阈值，则返回步骤步s50继续对指定维度组合进行补偿。如果第三数据缺失性小于预设阈值，则完成数据补偿。

为便于本领域技术人员理解，本实施例还可选的示例了上述方法的一种应用，以对象数据是预存的病人症状信息的集合；各个维度组合中的指定维度组合是获取的特定症状信息组合为例进行说明。可以预先对对象数据(症状信息的集合)进行训练，得到各个维度组合(各个症状信息组合)与各种预设结论判决结果(预设诊断结果)的映射关系。具体地，在对对对象数据(症状信息的集合)进行训练时，可以采用离线的方式。而后采用上述实施例公开的数据缺失的补偿方法确定特定症状信息组合的缺失性、对数据进行针对性的补偿。例如：如果存在数据缺失，则表明症状信息存在缺失，则需要继续获取病人的症状信息，以补偿缺失的特定症状信息；而后，判断补偿后的特定症状信息组合对应的结论是否符合对应的映射关系下的预设诊断结果，如果符合预设诊断结果，则表明补偿后的特定症状信息组合不存在缺失性，或缺失性在可接受误差范围内，可以通过特定症状信息组合得到预设诊断结果。

本发明实施例还提供了一种数据缺失的补偿装置，如图6所示，该装置包括：

第一获取单元100，用于获取用于表征对象信息的对象数据，对象数据为多维度数据或多模态数据；第二获取单元200，用于获取与对象数据中的各个维度组合映射的各个预设结论判决结果；第一数据缺失性得到单元300，用于据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性，第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度；第一判断单元400，用于判断第一数据缺失性是否大于预设阈值；补偿单元500，用于如果第一数据缺失性大于预设阈值，则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合。

在可选的实施例中，第一数据缺失性得到单元300，包括：训练数据子单元，用于通过训练数据得到各个维度组合与对应的各个预设结论判决结果之间的映射关系的集合；第一获取子单元，用于获取各个维度组合中的数据在映射关系集合中的第一概率；第一缺失性得到子单元，用于通过第一概率得到指定维度组合的第一数据缺失性。

在可选的实施例中，补偿单元500可以包括：预补偿子单元，用于在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据，对指定维度组合进行补偿，得到多个预补偿的指定维度组合；第二数据缺失性子单元，用于根据多个预补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第二数据缺失性；第二数据缺失性用于表征多个与补偿的指定维度组合的数据缺失对判决结果的影响；第一排序子单元，用于根据第二数据缺失性对多个预补偿的指定维度组合排序；第一选择子单元，用于选择第二数据缺失性最小的预补偿的指定维度组合作为完成补偿的指定维度组合。

在可选的实施例中，补偿单元500还可以包括：第二选择子单元，用于在指定维度组合之外的对象数据中选择指定维度组合需要的任意可用数据；第二获取子单元，用于获取可用数据在映射关系集合中的第二概率；第二排序子单元，用于根据第二概率对可用的数据进行排序；第三选择子单元，用于选择概率最高的可用的数据对指定维度组合进行补偿作为完成补偿的指定维度组合。

在可选的实施例中，数据缺失的补偿装置还包括：第二数据缺失性得到单元，用于根据完成补偿的指定维度组合和与指定维度组合对应的预设结论判决结果得到第三数据缺失性；第三数据缺失性用于表征完成补偿的指定维度组合的数据缺失对判决结果的影响程度；第二判断单元，用于判断第三数据缺失性是否大于预设阈值；返回单元，用于如果第三数据缺失性大于预设阈值，则返回在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合。

本实施例公开的数据缺失的补偿方法和装置，通过获取用于表征对象信息的对象数据，对象数据为多维度数据；获取与对象数据中的各个维度组合映射的各个预设结论判决结果；根据各个维度组合和各个预设结论判决结果的映射关系得到各个维度组合中指定维度组合的第一数据缺失性，第一数据缺失性用于表征指定维度组合的数据缺失对判决结果的影响程度；判断第一数据缺失性是否大于预设阈值；如果第一数据缺失性大于预设阈值，则在指定维度组合之外的对象数据中选择数据对指定维度组合进行补偿，以得到完成补偿的指定维度组合，从而，可以根据获取的对象数据和存在的预设结论判决结果的映射关系确定数据的缺失性，然后在对象数据中选择数据对缺失的维度组合进行针对性的增值补偿，进而，可以完成在数据缺失不确定的情况下对数据进行针对性的补偿，以便在较短的时间内获得相应的结论判决结果。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史晓宇;郝瑞瑞;张大磊
技术所有人：北京郁金香伙伴科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。