互联网二手车行业垃圾数据识别方法

文档序号:10725163阅读:514来源:国知局
互联网二手车行业垃圾数据识别方法
【专利摘要】本发明公开了一种互联网二手车行业垃圾数据识别方法,包括如下步骤:步骤一:从若干个互联网网站通过搜索算法提取卖车信息;步骤二:对卖车信息进行卖车数据汇总;步骤三:对卖车数据进行来源分类;步骤四:对卖车数据进行有效性分级。本发明取代人工处理互联网卖车数据,对数据进行分类、分级。提高业务运营效率,帮助客服更准确把握客户卖车迫切程度。
【专利说明】
互联网二手车行业垃圾数据识别方法
技术领域
[0001]本发明涉及一种互联网二手车行业垃圾数据识别方法,属于汽车技术领域。
【背景技术】
[0002]据
【申请人】了解结合机器学习技术,同时结合互联网卖车信息特征,通过海量数据分析,进行数据建模,实现数据来源分类、数据有效性分级。
[0003]现有方法,有如下的问题:人工识别,效率低下,无法从多数据来源进行交叉对比。无法通过历史数据对现有数据进行过滤。
[0004]数据来源分类:在传统行业对于海量的互联网数据进行个人客户和商家客户人为分类成本很高、效率很低,而计算机恰巧可以通过大数据来进行特征提取,识别分类。
[0005]数据有效性分级:通过客户在多平台、持续性发布卖车信息对客户数据有效性等级进行分级处理。同时跟踪客户发布信息的删除时间,卖车信息的存活时间同样对数据有效性分级有影响。

【发明内容】

[0006]本发明的目的在于:针对上述现有技术存在的问题,提出一种互联网二手车行业垃圾数据识别方法。
[0007]本发明具体技术方案如下:互联网二手车行业垃圾数据识别方法,包括如下步骤: 步骤一:从若干个互联网网站通过搜索算法提取卖车信息;
步骤二:对卖车信息进行卖车数据汇总;
步骤三:对卖车数据进行来源分类;
步骤四:对卖车数据进行有效性分级。
[0008]进一步地,所述步骤一中,搜索算法是利用计算机的高性能来有目的的穷举一个问题解空间的部分或所有的可能情况,从而求出问题的解的一种方法,网络搜索是通过访问一个网站的首页递归该网站的所有可访问链接收录该网页的文本信息,从文本信息中提取卖车信息。
[0009]进一步地,所述步骤二中,具体过程如下:搜索引擎对不同的网站搜索结果保存到一个指定的地方,通过添加标识来标记数据的来源网站,每条数据都使用统一的格式,最终将卖车数据汇总。
[0010]进一步地,所述步骤三中,通过计算相似度来对卖车数据进行来源分类,相似度是指2个字符串之间的差值比率该算法引用了著名的Levenshtein算法;数据相似度的计算:这里首先需要使用排列组合,取3天内的数据,每天计算一次,每次计算以当天时间往前取2天,所有数据进行全组合排列,每个组合2条数据,计算每个组合的字符串相似度,对于所有相似度高于80%的是需要处理的数据,对于手机号相同数据都相似的判定为有效数据,全不相似或有部分不相似的判定为经销商数据,对于不同号码的大量数据相似判定为垃圾数据。
[0011]进一步地,所述步骤四中,对卖车数据的有效性分级是是通过数据相似度和用户发布卖车信息的次数决定,当一个用户多次发布相同的卖车信息,判定该用分级较高,多次发布不同信息,该用户分级降低,平台每半小时会全量扫描一次指定平台的所有开放信息,同时会采集用户发布信息的时间,通过指定手机号在采集历史里面查找该用户的发布信息间隔。
[0012]本发明通过搜索算法收录互联网上海量的卖车信息,对数据进行特征抽样,当海量数据特征相似,确认该数据为无效数据,或重复数据,以及分析出客户卖车意愿强烈度,为后续数据针对性处理跟踪提供信息参考。
[0013]本发明的有益效果如下:取代人工处理互联网卖车数据,对数据进行分类、分级,提高业务运营效率,帮助客服更准确把握客户卖车迫切程度。基于大数据的特征提取对数据来源进行分类,对单一号码从多平台进行搜索进行数据有效性分级。本发明建立特定模型,通过机器学习来实现数据的分类、分级;本发明同时通过海量数据进行人工分析数据特征,使用该特征和未知数据进行匹配,根据数据的匹配度进行数据的分类、分级。
[0014]本发明效率高,能够从多数据来源进行交叉对比,并通过历史数据对现有数据进行过滤,提高了效率,解决了人工识别效率低下并且繁琐的问题。
【附图说明】
[0015]下面结合附图对本发明作进一步的说明。
[0016]图1为本发明的技术流程图。
【具体实施方式】
[0017]如图1所示,本发明互联网二手车行业垃圾数据识别方法,包括如下步骤:
步骤一:从若干个互联网网站通过搜索算法提取卖车信息;
步骤二:对卖车信息进行卖车数据汇总;
步骤三:对卖车数据进行来源分类;
步骤四:对卖车数据进行有效性分级。
[0018]本发明所述步骤一中,搜索算法是利用计算机的高性能来有目的的穷举一个问题解空间的部分或所有的可能情况,从而求出问题的解的一种方法,网络搜索是通过访问一个网站的首页递归该网站的所有可访问链接收录该网页的文本信息,从文本信息中提取卖车信息。
[0019]本发明所述步骤二中,具体过程如下:搜索引擎对不同的网站搜索结果保存到一个指定的地方,通过添加标识来标记数据的来源网站,每条数据都使用统一的格式,最终将卖车数据汇总。
[0020]本发明所述步骤三中,通过计算相似度来对卖车数据进行来源分类,相似度是指2个字符串之间的差值比率该算法引用了著名的Levenshtein算法;数据相似度的计算:这里首先需要使用排列组合,取3天内的数据,每天计算一次,每次计算以当天时间往前取2天,所有数据进行全组合排列,每个组合2条数据,计算每个组合的字符串相似度,对于所有相似度高于80%的是需要处理的数据,对于手机号相同数据都相似的判定为有效数据,全不相似或有部分不相似的判定为经销商数据,对于不同号码的大量数据相似判定为垃圾数据。
[0021]本发明所述步骤四中,对卖车数据的有效性分级是是通过数据相似度和用户发布卖车信息的次数决定,当一个用户多次发布相同的卖车信息,判定该用分级较高,多次发布不同信息,该用户分级降低,平台每半小时会全量扫描一次指定平台的所有开放信息,同时会采集用户发布信息的时间,通过指定手机号在采集历史里面查找该用户的发布信息间隔。
[0022]本发明通过搜索算法收录互联网上海量的卖车信息,对数据进行特征抽样,当海量数据特征相似,确认该数据为无效数据,或重复数据,以及分析出客户卖车意愿强烈度,为后续数据针对性处理跟踪提供信息参考。
[0023]本发明取代人工处理互联网卖车数据,对数据进行分类、分级,提高业务运营效率,帮助客服更准确把握客户卖车迫切程度。基于大数据的特征提取对数据来源进行分类,对单一号码从多平台进行搜索进行数据有效性分级。本发明建立特定模型,通过机器学习来实现数据的分类、分级;本发明同时通过海量数据进行人工分析数据特征,使用该特征和未知数据进行匹配,根据数据的匹配度进行数据的分类、分级。本发明效率高,能够从多数据来源进行交叉对比,并通过历史数据对现有数据进行过滤,提高了效率,解决了人工识别效率低下并且繁琐的问题。
[0024]除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
【主权项】
1.互联网二手车行业垃圾数据识别方法,其特征在于:包括如下步骤: 步骤一:从若干个互联网网站通过搜索算法提取卖车信息; 步骤二:对卖车信息进行卖车数据汇总; 步骤三:对卖车数据进行来源分类; 步骤四:对卖车数据进行有效性分级。2.根据权利要求1所述的互联网二手车行业垃圾数据识别方法,其特征在于:所述步骤一中,搜索算法是利用计算机的高性能来有目的的穷举一个问题解空间的部分或所有的可能情况,从而求出问题的解的一种方法,网络搜索是通过访问一个网站的首页递归该网站的所有可访问链接收录该网页的文本信息,从文本信息中提取卖车信息。3.根据权利要求1所述的互联网二手车行业垃圾数据识别方法,其特征在于:所述步骤二中,具体过程如下:搜索引擎对不同的网站搜索结果保存到一个指定的地方,通过添加标识来标记数据的来源网站,每条数据都使用统一的格式,最终将卖车数据汇总。4.根据权利要求1所述的互联网二手车行业垃圾数据识别方法,其特征在于:所述步骤三中,通过计算相似度来对卖车数据进行来源分类,相似度是指2个字符串之间的差值比率该算法引用了著名的Levenshtein算法;数据相似度的计算:这里首先需要使用排列组合,取3天内的数据,每天计算一次,每次计算以当天时间往前取2天,所有数据进行全组合排列,每个组合2条数据,计算每个组合的字符串相似度,对于所有相似度高于80%的是需要处理的数据,对于手机号相同数据都相似的判定为有效数据,全不相似或有部分不相似的判定为经销商数据,对于不同号码的大量数据相似判定为垃圾数据。5.根据权利要求1所述的互联网二手车行业垃圾数据识别方法,其特征在于:所述步骤四中,对卖车数据的有效性分级是是通过数据相似度和用户发布卖车信息的次数决定,当一个用户多次发布相同的卖车信息,判定该用分级较高,多次发布不同信息,该用户分级降低,平台每半小时会全量扫描一次指定平台的所有开放信息,同时会采集用户发布信息的时间,通过指定手机号在采集历史里面查找该用户的发布信息间隔。
【文档编号】G06F17/30GK106096044SQ201610490319
【公开日】2016年11月9日
【申请日】2016年6月28日
【发明人】刘遵尚
【申请人】江苏车置宝信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1