一种融合数据纠错方法及装置的制造方法

文档序号:8457193阅读:315来源:国知局
一种融合数据纠错方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网技术领域,特别涉及一种融合数据纠错方法及装置。
【背景技术】
[0002] 现有技术中,随着计算机技术、通信技术的快速发展,且日趋紧密地互相结合,加 之军事应用的特殊迫切需求,作为数据处理的新兴技术一一数据融合技术,在近几年得到 广泛的应用。目前在决策层融合采用的主要方法有贝叶斯推断、D-S证据理论、模糊集理论 等,通过上述方式进行数据融合之后,融合数据直接统一进入数据库中。由于用于融合的数 据在不断变化,而且进行数据融合的策略也在不断变化,因此需要对融合数据进行纠错。现 有的融合数据纠错方式为人工判断融合数据是否需要进行纠错,无法实现融合数据纠错的 自动化。

【发明内容】

[0003] 本发明提供一种融合数据纠错方法及装置,用以实现融合数据纠错的自动化。
[0004] 本发明提供一种融合数据纠错方法,包括:
[0005] 针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个 预设数据指标的指标值;
[0006] 将各个所述指标值与各个所述预设数据指标对应的指标权重值加权求和,得到所 述融合数据的指标得分;
[0007] 当所述指标得分大于预设触发阈值时,对所述融合数据进行纠错。
[0008] 在一实施例中,所述方法还包括:
[0009] 针对获取的各个样本融合数据,根据所述多个预设数据指标,确定所述样本融合 数据对应于各个预设数据指标的指标值;将各个所述指标值与各个所述预设数据指标对应 的权重值变量加权求和,得到所述样本融合数据的指标得分;当所述指标得分大于预设触 发阈值时,对所述样本融合数据进行纠错;
[0010] 确定各个预设数据指标对应的权重值变量的最优变量值,所述最优变量值使各个 样本融合数据的纠错成功率最高,将所述最优变量值作为所述预设数据指标对应的指标权 重值。
[0011] 在一实施例中,当所述预设数据指标包括整体相似度指标时,所述针对待纠错的 融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设数据指标的指标值, 包括:
[0012] 对于用于融合为所述融合数据的多条数据,计算每两条数据间的相似度,将所述 每两条数据间的相似度的平均值,作为所述融合数据的对应于整体相似度指标的指标值。
[0013] 在一实施例中,当所述预设数据指标包括算法更新指标时,所述针对待纠错的融 合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设数据指标的指标值,包 括:
[0014] 当融合所述融合数据的算法变更时,得出所述融合数据对应于算法更新指标的指 标值为第一预设值,当融合所述融合数据的算法没有变更时,得出所述融合数据对应于算 法更新指标的指标值为第二预设值。
[0015] 在一实施例中,当所述预设数据指标包括时效指标或数据源信任度指标时,所述 针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设数据 指标的指标值,包括:
[0016] 根据用于融合为所述融合数据的多条数据的最近抓取时间与上次抓取时间的时 间差,或者用于融合为所述融合数据的多条数据的信任度变化前后的差值,确定所述融合 数据对应的变化参量Ak ;
[0017] 根据#所得比值确定所述融合数据对应于时效指标或数据源信任度指标的指标 值;
[0018] 其中,K为与时效指标或数据源信任度指标对应的常量。
[0019] 在一实施例中,所述方法还包括:
[0020] 将时效指标或数据源信任度指标对应的常量K从初始值开始,按预设步长逐步进 行增加;
[0021] 对应于增加后所得的常量K,针对获取的各个样本融合数据,根据用于融合为所述 样本融合数据的多条数据的最近抓取时间与上次抓取时间的时间差,或者用于融合为所述 样本融合数据的多条数据的信任度变化前后的差值,确定所述样本融合数据对应的变化参 Λ A- 量Λ k,当IT所得比值大于1时,对所述样本融合数据进行纠错; 人
[0022] 统计进行纠错的样本融合数据的纠错成功率,当所述纠错成功率大于预设成功率 阈值时,停止对所述常量K进行增加,确定所述常量K的取值为当前所得数值。
[0023] 在一实施例中,对所述融合数据或所述样本融合数据进行纠错,包括:
[0024] 对于用于融合为所述融合数据或所述样本融合数据的多条数据,计算每两条数据 间的相似度;
[0025] 当所述每两条数据间的相似度的平均值小于预设相似度阈值时,按预设策略逐步 去除用于融合为所述融合数据或所述样本融合数据的多条数据中部分数据,直到所述多条 数据的剩余的数据中每两条数据间的相似度的平均值大于预设相似度阈值时为止。
[0026] 本发明提供一种融合数据纠错装置,包括:
[0027] 第一确定模块,用于针对待纠错的融合数据,根据多个预设数据指标,确定所述融 合数据对应于各个预设数据指标的指标值;
[0028] 第一计算模块,用于将各个所述指标值与各个所述预设数据指标对应的指标权重 值加权求和,得到所述融合数据的指标得分;
[0029] 第一纠错模块,用于当所述指标得分大于预设触发阈值时,对所述融合数据进行 纠错。
[0030] 在一实施例中,所述装置还包括:
[0031] 第二确定模块,用于针对获取的各个样本融合数据,根据所述多个预设数据指标, 确定所述样本融合数据对应于各个预设数据指标的指标值;
[0032] 第二计算模块,用于将各个所述指标值与各个所述预设数据指标对应的权重值变 量加权求和,得到所述样本融合数据的指标得分;
[0033] 第二纠错模块,用于当所述指标得分大于预设触发阈值时,对所述样本融合数据 进行纠错;
[0034] 第三确定模块,用于确定各个预设数据指标对应的权重值变量的最优变量值,所 述最优变量值使各个样本融合数据的纠错成功率最高,将所述最优变量值作为所述预设数 据指标对应的指标权重值。
[0035] 在一实施例中,所述第一确定模块包括:
[0036] 第一计算子模块,用于当所述预设数据指标包括整体相似度指标时,对于用于融 合为所述融合数据的多条数据,计算每两条数据间的相似度,将所述每两条数据间的相似 度的平均值,作为所述融合数据的对应于整体相似度指标的指标值。
[0037] 在一实施例中,所述第一确定模块包括:
[0038] 第一确定子模块,用于当融合所述融合数据的算法变更时,得出所述融合数据对 应于算法更新指标的指标值为第一预设值,当融合所述融合数据的算法没有变更时,得出 所述融合数据对应于算法更新指标的指标值为第二预设值。
[0039] 在一实施例中,所述第一确定模块包括:
[0040] 第二确定子模块,用于当所述预设数据指标包括时效指标或数据源信任度指标 时,根据用于融合为所述融合数据的多条数据的最近抓取时间与上次抓取时间的时间差, 或者用于融合为所述融合数据的多条数据的信任度变化前后的差值,确定所述融合数据对 应的变化参量Ak ;
[0041] 第三确定子模块,用于根据i所得比值确定所述融
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1