爬取数据自修复方法、装置、设备及介质与流程

文档序号:17477373发布日期:2019-04-20 06:12阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种爬取数据自修复方法、装置、设备及介质,包括:根据爬取数据特征标签进行数据爬取;当数据与对应的标准值格式不一致,确定数据为出错数据,将距离当前出错数据预设值的元素提取并输入RNN神经网络模型,生成各个元素对应的内容预测值并输入SVM分类模型,得出内容预测值对应的分类;根据出错数据的格式及分类,将相似度最大的内容预测值作为目标内容预测值;定位目标内容预测值的位置,提取目标内容预测值及距离目标内容预测值预设值的元素;在距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定目标内容预测值为出错数据的正确数据,根据目标内容预测值对出错数据进行修复。本发明能够提高爬取数据的效率。

技术研发人员:艾明
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2018.10.18
技术公布日:2019.04.19
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1