一种融合数据纠错方法及装置的制造方法_3

文档序号:8457193阅读:来源:国知局
所述的方法,其特征在于,当所述预设数据指标包括算法更新指标时, 所述针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设 数据指标的指标值,包括: 当融合所述融合数据的算法变更时,得出所述融合数据对应于算法更新指标的指标值 为第一预设值,当融合所述融合数据的算法没有变更时,得出所述融合数据对应于算法更 新指标的指标值为第二预设值。
5. 如权利要求1所述的方法,其特征在于,当所述预设数据指标包括时效指标或数据 源信任度指标时,所述针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据 对应于各个预设数据指标的指标值,包括: 根据用于融合为所述融合数据的多条数据的最近抓取时间与上次抓取时间的时间差, 或者用于融合为所述融合数据的多条数据的信任度变化前后的差值,确定所述融合数据对 应的变化参量Ak; 根据
所得比值确定所述融合数据对应于时效指标或数据源信任度指标的指标值; 其中,K为与时效指标或数据源信任度指标对应的常量。
6. 如权利要求5所述的方法,其特征在于,所述方法还包括: 将时效指标或数据源信任度指标对应的常量K从初始值开始,按预设步长逐步进行增 加; 对应于增加后所得的常量K,针对获取的各个样本融合数据,根据用于融合为所述样 本融合数据的多条数据的最近抓取时间与上次抓取时间的时间差,或者用于融合为所述样 本融合数据的多条数据的信任度变化前后的差值,确定所述样本融合数据对应的变化参量Ak,当
所得比值大于1时,对所述样本融合数据进行纠错; 统计进行纠错的样本融合数据的纠错成功率,当所述纠错成功率大于预设成功率阈值 时,停止对所述常量K进行增加,确定所述常量K的取值为当前所得数值。
7. 如权利要求1-6任一所述的方法,其特征在于,对所述融合数据或所述样本融合数 据进行纠错,包括: 对于用于融合为所述融合数据或所述样本融合数据的多条数据,计算每两条数据间的 相似度; 当所述每两条数据间的相似度的平均值小于预设相似度阈值时,按预设策略逐步去除 用于融合为所述融合数据或所述样本融合数据的多条数据中部分数据,直到所述多条数据 的剩余的数据中每两条数据间的相似度的平均值大于预设相似度阈值时为止。
8. -种融合数据纠错装置,其特征在于,包括: 第一确定模块,用于针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数 据对应于各个预设数据指标的指标值; 第一计算模块,用于将各个所述指标值与各个所述预设数据指标对应的指标权重值加 权求和,得到所述融合数据的指标得分; 第一纠错模块,用于当所述指标得分大于预设触发阈值时,对所述融合数据进行纠错。
9. 如权利要求8所述的装置,其特征在于,所述装置还包括: 第二确定模块,用于针对获取的各个样本融合数据,根据所述多个预设数据指标,确定 所述样本融合数据对应于各个预设数据指标的指标值; 第二计算模块,用于将各个所述指标值与各个所述预设数据指标对应的权重值变量加 权求和,得到所述样本融合数据的指标得分; 第二纠错模块,用于当所述指标得分大于预设触发阈值时,对所述样本融合数据进行 纠错; 第三确定模块,用于确定各个预设数据指标对应的权重值变量的最优变量值,所述最 优变量值使各个样本融合数据的纠错成功率最高,将所述最优变量值作为所述预设数据指 标对应的指标权重值。
10. 如权利要求8所述的装置,其特征在于,所述第一确定模块包括: 第一计算子模块,用于当所述预设数据指标包括整体相似度指标时,对于用于融合为 所述融合数据的多条数据,计算每两条数据间的相似度,将所述每两条数据间的相似度的 平均值,作为所述融合数据的对应于整体相似度指标的指标值。
11. 如权利要求8所述的装置,其特征在于,所述第一确定模块包括: 第一确定子模块,用于当融合所述融合数据的算法变更时,得出所述融合数据对应于 算法更新指标的指标值为第一预设值,当融合所述融合数据的算法没有变更时,得出所述 融合数据对应于算法更新指标的指标值为第二预设值。
12. 如权利要求8所述的装置,其特征在于,所述第一确定模块包括: 第二确定子模块,用于当所述预设数据指标包括时效指标或数据源信任度指标时,根 据用于融合为所述融合数据的多条数据的最近抓取时间与上次抓取时间的时间差,或者用 于融合为所述融合数据的多条数据的信任度变化前后的差值,确定所述融合数据对应的变 化参量Ak; 第三确定子模块,用于根据
所得比值确定所述融合数据对应于时效指标或数据源 信任度指标的指标值;其中,K为与时效指标或数据源信任度指标对应的常量。
13. 如权利要求12所述的装置,其特征在于,所述装置还包括: 迭加模块,用于将时效指标或数据源信任度指标对应的常量K从初始值开始,按预设 步长逐步进行增加; 第三纠错模块,用于对应于增加后所得的常量K,针对获取的各个样本融合数据,根据 用于融合为所述样本融合数据的多条数据的最近抓取时间与上次抓取时间的时间差,或者 用于融合为所述样本融合数据的多条数据的信任度变化前后的差值,确定所述样本融合数 据对应的变化参量Ak,i_
所得比值大于1时,对所述样本融合数据进行纠错; 第四确定模块,用于统计进行纠错的样本融合数据的纠错成功率,当所述纠错成功率 大于预设成功率阈值时,停止对所述常量K进行增加,确定所述常量K的取值为当前所得数 值。
14. 如权利要求8-13任一所述的装置,其特征在于,所述第一纠错模块,包括: 第二计算子模块,用于对于用于融合为所述融合数据的多条数据,计算每两条数据间 的相似度; 第一去除子模块,用于当所述每两条数据间的相似度的平均值小于预设相似度阈值 时,按预设策略逐步去除用于融合为所述融合数据的多条数据中部分数据,直到所述多条 数据的剩余的数据中每两条数据间的相似度的平均值大于预设相似度阈值时为止。
15. 如权利要求9或13所述的装置,其特征在于,所述第二纠错模块或第三纠错模块, 包括: 第三计算子模块,用于对于用于融合为所述样本融合数据的多条数据,计算每两条数 据间的相似度; 第二去除子模块,用于当所述每两条数据间的相似度的平均值小于预设相似度阈值 时,按预设策略逐步去除用于融合为所述样本融合数据的多条数据中部分数据,直到所述 多条数据的剩余的数据中每两条数据间的相似度的平均值大于预设相似度阈值时为止。
【专利摘要】本发明公开了一种融合数据纠错方法及装置,用以实现融合数据纠错的自动化。所述方法包括:针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设数据指标的指标值;将各个所述指标值与各个所述预设数据指标对应的指标权重值加权求和,得到所述融合数据的指标得分;当所述指标得分大于预设触发阈值时,对所述融合数据进行纠错。本发明能够应用数据融合过程中的多个指标,并且通过加权求和的方式,将各指标对数据的影响进行量化,通过与预设触发值对比,根据预设条件触发纠错,实现了融合数据纠错的自动化。
【IPC分类】G06F11-08
【公开号】CN104778094
【申请号】CN201510167018
【发明人】王国杰, 陈林松, 赵星
【申请人】北京羽乐创新科技有限公司
【公开日】2015年7月15日
【申请日】2015年4月9日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1