一种车型数据名称标准化治理方法与流程

文档序号:17643532发布日期:2019-05-11 00:50阅读:268来源:国知局

本发明涉及车型数据名称标准化技术领域,尤其涉及一种基于标准化车辆数据信息空间的bm语句正逆向切分标记算法的车型数据名称标准化治理方法。



背景技术:

目前我国汽车市场上汽车车型在20万款左右,车生产厂商达近2600余家,品牌2500余个,但是这些汽车在生产、销售、维修、参保时所使用的名称却没有统一标准。汽车车型名称混乱化直接影响汽车保险业的理赔管理与服务质量,所以对现有汽车车型名称进行标准化工作非常必要。

现有汽车车型名称命名主要由主机厂商自主定义,而各保险公司对车型名称的管理要求不一致,车型分类标准有所差异,导致同一车型在不同保险公司被记录为不同的名称和代码。所以若以单一主机厂或保险公司的命名规则作为基础标准的话,汽车车型名称数据涵盖率可能不够,对制定行业标准来说参考性较低,推广难度也较高。

所以为推进车型标准化建设工作,我司进行了车型名称标准化系统项目的研究工作。



技术实现要素:

针对现有技术的不足,本发明提供了一种车型数据名称标准化治理方法,旨在解决现有现有车型分类标准有所差异,汽车车型名称混乱化直接影响汽车保险业的理赔管理与服务质量的问题。

为实现上述目的,本发明提供如下技术方案:一种车型数据名称标准化治理方法,包括以下步骤:

步骤a.采用车辆数据信息拆解法对有效车型信息集合进行拆解,后经结构化处理并抽取关键词得到车型标准结构单词,并将车型标准结构单词坐标化,形成标准化车辆数据信息空间用于后续查询利用;

步骤b.采用bm语句正逆向切分标记算法,以上述标准化车辆数据信息空间数据为基础,将目标对象分解并转换为与标准化车辆数据信息空间中数据规范一致的结构化信息。

步骤c.根据目标语句的结构化形式,采用加权匹配算法计算出其在标准化车辆数据信息空间中与其他车辆结构化信息的相对距离,找到标准化车辆数据信息空间中最为接近的对象,以此条目作为目标语句的标准化输出。

作为进一步限定,所述有效车型信息集合形成步骤为:

采集不同规格的车型数据,允许后台采集数据的同时,固定一定的数据刷新频率,保障实时获取最新的车型数据;采集的车型数据与数据库数据结合形成初始车型标准数据库;

对初始车型标准数据库内容进行数据清理步骤,将去重后初始车型标准数据库信息与有效信息字段进行多维对比分析,测试判断初始车型标准数据库信息中哪些为无效字段,判断结束后若是无效字段则去除,有效字段整合成有效车型信息集合。

作为进一步限定,所述有效信息字段为车辆车系、型号、名称信息字段;所述有效车型信息集合形成步骤中,采集不同规格的车型数据时,在多种渠道使用爬虫爬取数据、主机厂调查数据、采集保险公司作业数据中的一种或多种方法。

作为进一步限定,在与数据库中的汽车车型数据结合前,对采集的车型数据进行预处理:对明显缺失数据/问题数据进行补充/处理,初步处理后获得外源车型数据;再将外源车型数据与数据库中的汽车车型数据结合构成初始车型标准数据库。

作为进一步限定,所述步骤a中,车辆数据信息拆解法,拆解步骤如下:把给定的有效车型信息集合进行分割;对于每条信息,进行分词和词性处理,并过滤掉停用词,只保留指定词性的单词,保留候选关键词;

随后将得到的候选关键词做结构化处理,即将候选关键词处理成为能够应用到的固定结构的车型名称信息关键词,根据车型名称条件来完成关键词提取,处理得到车型标准结构单词;将所提取到的车型标准结构单词进行坐标化,通过矩阵运作给各个车型标准结构单词建立世界坐标,由上单词权重转换为坐标重要性系数,关联坐标与坐标重要性系数,形成标准化车辆数据信息空间。

作为进一步限定,所述步骤b中,

先对需处理汽车车型数据进行语义分析,让数据形成规则化语句;

再以标准化车辆数据信息空间数据为基础,基于语义分析出的规则化语句结果,采用bm语句正逆向切分标记算法将需处理车型数据转换为独立单词数据,并对独立单词数据进行标记得到标记单词数据:采用bm语句对需处理车型数据进行预处理;使用双向切分将预处理后的车型数据切分成多个颗粒关键词;在用算法切分词的同时,将词性标注上去,得到标记数据;

将标记数据转换为与标准参照空间中数据规范一致的元数据单词,即参照数据规范,将标记数据按照规范进行转换,词性、叫法、数字字母位置等都按照元数据要求调整转换,最后得到规范的元数据单词;根据标准化车辆数据信息空间中的车辆数据信息,计算得到以下针对所有元数据单词的词性及频次字典:

dict={word″:(countnumbers1,chars1,countnumbers2,chars2......

countnumbers_n,chars_n)}

对于任意元数据单节词“word”,计算其在标准化车辆数据信息空间中的总出现次数w_total(单一车辆描述信息中出现多次仅计算一次),并将上表中所有词性计量次数除以总出现次数w_total_n:

dict={word″:(countnumbers1/w_total_1,chars1,countnumbers2/w_total_2,chars2......

countnumbers_n/w_total_n,chars_n)}

得到所有元数据关于不同词性针对于总出现次数的词性频次比列表;拆解车辆信息时,每拆解出一个元数据单词,根据其词性分布将其填充到结构化字段中。当同一信息进行后续拆解时,如果出现某个“word”,其词性与之前拆出来的词的词性重复,则需要比较两个词对应的词性频次比,以其中频次比较高的词为准,丢弃掉较低的词。

作为进一步限定,所述步骤c中根据目标语句的结构化形式,采用加权匹配算法计算出其在标准参照空间中与其他车辆结构化信息的相对距离,计算距离时,采用的是加权的euclideandistance计算方法,即:

其中,规定好x1、x2、…、xn分别表示车辆数据中的公告号、制造厂商、…、版型字段;为wi从w1到wn定制好对应的权重,并进行匹配,从而得到加权欧氏距离,作为相似度度量标准;找到标准参照空间中最为接近的对象,以距离最小化条目对象作为目标语句的标准化输出。

作为进一步限定,还包括测试覆盖缓存机制:为提高算法运行速度,同时减少重复查询导致的系统资源浪费,系统内设计了测试覆盖缓存机制,后续查询中,出现了相同的查询信息,系统会直接调用缓存结果,而跳过调用算法步骤。

本发明的有益效果:

1、系统服务稳定,吞吐量大,能够同时为各类用户提供车型名称标准化服务;

2、标准化车辆数据信息空间数据量大,对现有车型名称涵盖率极高,实用性强。

3、算法精准度高,具有较好的稳定性与可扩展性;

4、克服技术难点:1.合并分词与标注为同一步骤;实现了数据的结构化切分办法;

5、覆盖缓存机制让系统运行速度更快,具有高效的工作效率。

具体实施方式

一种车型数据名称标准化治理方法,

步骤a.

1.在多种渠道使用多种办法(如爬虫爬取数据、主机厂调查数据、采集保险公司作业数据等)采集不同规格的车型数据,允许后台采集数据的同时,固定一定的数据刷新频率,保障实时获取最新的车型数据;对采集的车型数据进行预处理:对明显缺失数据/问题数据进行补充/处理,初步处理后获得外源车型数据;

2.再将外源车型数据与数年以来采集存放在数据库中的汽车车型数据构成初始车型标准数据库;

3.对初始车型标准数据库内容进行数据清理步骤,将去重后初始车型标准数据库信息与有效信息字段(如车辆车系、型号、名称等信息字段)进行多维对比分析,测试判断初始车型标准数据库信息中哪些为无效字段,判断结束后若是无效字段则去除,有效字段整合成有效车型信息集合;

4.采用车辆数据信息拆解法对有效车型信息集合进行拆解,后经结构化处理并抽取关键词得到车型标准结构单词,并将车型标准结构单词坐标化,形成标准化车辆数据信息空间用于后续查询利用;

具体为:把给定的有效车型信息集合进行分割;对于每条信息,进行分词和词性处理,并过滤掉停用词,只保留指定词性的单词,保留候选关键词;

随后将得到的候选关键词做结构化处理,即将候选关键词处理成为能够应用到的固定结构的车型名称信息关键词,根据车型名称条件来完成关键词提取,处理得到车型标准结构单词;将所提取到的车型标准结构单词进行坐标化,通过矩阵运作给各个车型标准结构单词建立世界坐标,由上单词权重转换为坐标重要性系数,关联坐标与坐标重要性系数,形成标准化车辆数据信息空间。

步骤b.采用bm语句正逆向切分标记算法,以上述标准化车辆数据信息空间数据为基础,将目标对象分解并转换为与标准化车辆数据信息空间中数据规范一致的结构化信息。具体为:

1、先对需处理汽车车型数据进行语义分析,让数据形成规则化语句;再以标准化车辆数据信息空间数据为基础,基于语义分析出的规则化语句结果,采用bm语句正逆向切分标记算法将需处理车型数据转换为独立单词数据,并对独立单词数据进行标记得到标记单词数据:采用bm语句对需处理车型数据进行预处理;使用双向切分将预处理后的车型数据切分成多个颗粒关键词;在用算法切分词的同时,将词性标注上去,得到标记数据;(注:现有算法的计算过程,一般都是先进行分词,然后进行词性标注。本算法中的标注方法,利用了数据的特殊性(词性一般为单词性,少部分为多词性),从而可以在切分出数据后,将词条切割为统一的结构化形式,方便后续进行按词性的加权计算。)

2、将标记数据转换为与标准参照空间中数据规范一致的元数据单词,即参照数据规范,将标记数据按照规范进行转换,词性、叫法、数字字母位置等都按照元数据要求调整转换,最后得到规范的元数据单词;根据标准化车辆数据信息空间中的车辆数据信息,计算得到以下针对所有元数据单词的词性及频次字典:

dict={word″:(countnumbers1,chars1,countnumbers2,chars2......

countnumbers_n,chars_n)}

3、对于任意元数据单节词“word”,计算其在标准化车辆数据信息空间中的总出现次数w_total(单一车辆描述信息中出现多次仅计算一次),并将上表中所有词性计量次数除以总出现次数w_total_n:

dict={word″:(countnumbers1/w_total_1,chars1,countnumbers2/w_total_2,chars2......

countnumbers_n/w_total_n,chars_n)}

4、得到所有元数据关于不同词性针对于总出现次数的词性频次比列表;拆解车辆信息时,每拆解出一个元数据单词,根据其词性分布将其填充到结构化字段中。当同一信息进行后续拆解时,如果出现某个“word”,其词性与之前拆出来的词的词性重复,则需要比较两个词对应的词性频次比,以其中频次比较高的词为准,丢弃掉较低的词。

步骤c.根据目标语句的结构化形式,采用加权匹配算法计算出其在标准化车辆数据信息空间中与其他车辆结构化信息的相对距离,找到标准化车辆数据信息空间中最为接近的对象,以此条目作为目标语句的标准化输出;(注:部分字段需要进行特殊处理,例如品牌、车辆名称等字段有非常多的同义或别名形式;而年款数据在不同数据来源中年份可能相差1年左右,因为同一款车在各地的上市、销售时间不同。一方面,需要建立庞大的同义词库以及异常词处理算法,另一方面,需要对部分字段设计独立的判别算法,从而使得不同来源的数据能够得到统一的处理,得到标准的评判分数。)

计算距离时,采用的是加权的euclideandistance计算方法,即:

其中,规定好x1、x2、…、xn分别表示车辆数据中的公告号、制造厂商、…、版型字段;为wi从w1到wn定制好对应的权重,并进行匹配,从而得到加权欧氏距离,作为相似度度量标准;找到标准参照空间中最为接近的对象,以距离最小化条目对象作为目标语句的标准化输出。

另外,还包括测试覆盖缓存机制:为提高算法运行速度,同时减少重复查询导致的系统资源浪费,系统内设计了测试覆盖缓存机制,后续查询中,出现了相同的查询信息,系统会直接调用缓存结果,而跳过调用算法步骤。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1