一种融合数据纠错方法及装置的制造方法_2

文档序号:8457193阅读:来源:国知局
合数据对应于时效指标或数 K 据源信任度指标的指标值;其中,K为与时效指标或数据源信任度指标对应的常量。
[0042] 在一实施例中,所述装置还包括:
[0043] 迭加模块,用于将时效指标或数据源信任度指标对应的常量K从初始值开始,按 预设步长逐步进行增加;
[0044] 第三纠错模块,用于对应于增加后所得的常量K,针对获取的各个样本融合数据, 根据用于融合为所述样本融合数据的多条数据的最近抓取时间与上次抓取时间的时间差, 或者用于融合为所述样本融合数据的多条数据的信任度变化前后的差值,确定所述样本融 合数据对应的变化参量Ak,当i所得比值大于1时,对所述样本融合数据进行纠错;
[0045] 第四确定模块,用于统计进行纠错的样本融合数据的纠错成功率,当所述纠错成 功率大于预设成功率阈值时,停止对所述常量K进行增加,确定所述常量K的取值为当前所 得数值。
[0046] 在一实施例中,所述第一纠错模块,包括:
[0047] 第二计算子模块,用于对于用于融合为所述融合数据的多条数据,计算每两条数 据间的相似度;
[0048] 第一去除子模块,用于当所述每两条数据间的相似度的平均值小于预设相似度阈 值时,按预设策略逐步去除用于融合为所述融合数据的多条数据中部分数据,直到所述多 条数据的剩余的数据中每两条数据间的相似度的平均值大于预设相似度阈值时为止。
[0049] 在一实施例中,所述第二纠错模块或第三纠错模块,包括:
[0050] 第三计算子模块,用于对于用于融合为所述样本融合数据的多条数据,计算每两 条数据间的相似度;
[0051] 第二去除子模块,用于当所述每两条数据间的相似度的平均值小于预设相似度阈 值时,按预设策略逐步去除用于融合为所述样本融合数据的多条数据中部分数据,直到所 述多条数据的剩余的数据中每两条数据间的相似度的平均值大于预设相似度阈值时为止。
[0052] 本发明的有益效果在于:针对待纠错的融合数据,根据多个预设数据指标,确定所 述融合数据对应于各个预设数据指标的指标值;将各个所述指标值与各个所述预设数据指 标对应的指标权重值加权求和,得到所述融合数据的指标得分;当所述指标得分大于预设 触发阈值时,对所述融合数据进行纠错。这样的方式,能够应用数据融合过程中的多个指 标,并且通过加权求和的方式,将各指标对数据的影响进行量化,通过与预设触发值对比, 根据预设条件触发纠错,实现了融合数据纠错的自动化。
[0053] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明 书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0054] 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【附图说明】
[0055] 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0056] 图1为本发明一实施例中融合数据纠错方法的流程图
[0057] 图2为本发明一实施例中融合数据纠错装置的结构图。
[0058] 图3为本发明另一实施例中融合数据纠错装置的结构图。
[0059] 图4为本发明另一实施例中融合数据纠错装置的结构图。
[0060] 图5为本发明另一实施例中融合数据纠错装置的结构图。
[0061] 图6为本发明另一实施例中融合数据纠错装置的结构图。
[0062] 图7为本发明另一实施例中融合数据纠错装置的结构图。
[0063] 图8为本发明另一实施例中以第一纠错模块为例的融合数据纠错装置的结构图。
[0064] 图9为本发明另一实施例中以第二纠错模块为例的融合数据纠错装置的结构图。
【具体实施方式】
[0065] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实 施例仅用于说明和解释本发明,并不用于限定本发明。
[0066] 图1为本发明一实施例中融合数据纠错方法的流程图,如图1所示,本发明中融合 数据纠错方法可用于服务器,例如在收集关联信息数据的服务器中、进行数据处理的服务 器中,该方法包括如下步骤:
[0067] 在步骤SlOl中,针对待纠错的融合数据,根据多个预设数据指标,确定融合数据 对应于各个预设数据指标的指标值。
[0068] 举例而言,服务器抓取各个数据源网站上的数据,对抓取到的数据与已有数据通 过算法进行融合,得到融合数据。例如,将数据进行原子聚类,采用投票方法判断新抓取数 据所属聚类,将同一聚类中数据融合为融合数据。对融合数据进行周期检验,将检验的融合 数据作为待纠错的融合数据。设置多个预设数据指标,并根据预设数据指标确定待纠错的 融合数据对应于各个预设数据指标的指标值。
[0069] 如此,通过预设数据指标对应的状态,将预设数据指标量化处理,可以直观的展现 待纠错的融合数据的状态。
[0070] 在一实施例中,当上述预设数据指标包括整体相似度指标时,上述针对待纠错的 融合数据,根据多个预设数据指标,确定融合数据对应于各个预设数据指标的指标值,包 括:
[0071] 对于用于融合为融合数据的多条数据,计算每两条数据间的相似度,将每两条数 据间的相似度的平均值,作为融合数据的对应于整体相似度指标的指标值。其中,用于融合 为融合数据的多条数据可以是融合为融合数据的全部数据,也可以是从全部数据中采样的 部分数据。
[0072] 举例而言,屯和屯是上述融合为融合数据的多条数据中的任意两条数据, Score(Clpd j)为数据屯和屯的相似度,将整体相似度指标的指标值用s ^表示,可通过以下 公式计算Stl的值:
【主权项】
1. 一种融合数据纠错方法,其特征在于,包括: 针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预设 数据指标的指标值; 将各个所述指标值与各个所述预设数据指标对应的指标权重值加权求和,得到所述融 合数据的指标得分; 当所述指标得分大于预设触发阈值时,对所述融合数据进行纠错。
2. 如权利要求1所述的方法,其特征在于,所述方法还包括: 针对获取的各个样本融合数据,根据所述多个预设数据指标,确定所述样本融合数据 对应于各个预设数据指标的指标值;将各个所述指标值与各个所述预设数据指标对应的权 重值变量加权求和,得到所述样本融合数据的指标得分;当所述指标得分大于预设触发阈 值时,对所述样本融合数据进行纠错; 确定各个预设数据指标对应的权重值变量的最优变量值,所述最优变量值使各个样 本融合数据的纠错成功率最高,将所述最优变量值作为所述预设数据指标对应的指标权重 值。
3. 如权利要求1所述的方法,其特征在于,当所述预设数据指标包括整体相似度指标 时,所述针对待纠错的融合数据,根据多个预设数据指标,确定所述融合数据对应于各个预 设数据指标的指标值,包括: 对于用于融合为所述融合数据的多条数据,计算每两条数据间的相似度,将所述每两 条数据间的相似度的平均值,作为所述融合数据的对应于整体相似度指标的指标值。
4. 如权利要求1
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1