汽车行业客户ID识别系统、方法及介质与流程

文档序号:22881141发布日期:2020-11-10 17:43阅读:182来源:国知局
汽车行业客户ID识别系统、方法及介质与流程

本发明涉及汽车行业数据分析领域技术领域,具体地,涉及一种汽车行业客户id识别系统、方法及介质。



背景技术:

近年来,伴随互联网特别是移动互联网的发展,客户需求呈现出个性化趋势,汽车行业传统的全覆盖、轰炸式的营销方式已经无法满足客户的需求,主机厂只有提供更加差异化的产品或服务,才能真正打动客户,而这一切的基础是对客户数据的分析和应用。

但长期以来,汽车行业数据分析的投入产出低,无法形成稳定的价值输出,其主要问题是:

(1)车与人并不是简单的车与车主这种一对一的关系,而是存在购车人、送修人、车主等复杂的多对多的关系网络。

(2)由于目前主要的客户数据都是有经销商手工填写而不是机器自动获取,导致很多客户信息是错误的。

专利文献cn109446215a(申请号:201811294114.6)公开了一种基于优先级的实时id拉通引擎方法,主要用于消费行为日志数据的处理,从中抽取id数据,并建立id与id之间的关系,计算id关系的权重并进行排序,逐级计算id归属关系,最终实现基于superid的客户id打通。这也是一种id识别并打通的方法。但其:1、仅适用于消费日志数据的id打通,不具备多业务数据间id打通的功能;2、不具备id相似度计算,并对错误id信息修复的功能。

专利文献cn110223168a(申请号:201910546944.1)公开了一种基于企业关系图谱的标签传播反欺诈检测方法及系统,主要用于金融信贷领域企业自建黑名单库,并构建构建黑名单关系图谱,预估业务反欺诈概率。这是一种的黑名单库的构建和应用方法,类似sil名单库,但其不包含客户id配对关系的判定、相似度计算、以及错误id信息修复。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种汽车行业客户id识别系统、方法及介质。

根据本发明提供的汽车行业客户id识别系统,包括:

基础数据处理模块:对客户主机厂的id数据进行采集、整合和标准化,建立非营销名单库,用于id信息过滤;

id修复模块:根据机器学习算法对id数据进行分析,使用正确id替换错误id;

id亲密度计算模块:计算子网络中id之间的亲密度;

转移关系链判定模块:根据id之间的亲密度,对id配对关系进行更新;

可视化展现模块:对子网络中id关系的人机物分层、对子网络的拓扑结构进行可视化展现,实现子网络数据的查询和id的识别。

优选的,更新id配对关系时,保留符合预设业务逻辑的id配对关系,将其他关系通过拆分和整合归入主关系,对缺损的子网络进行id补全。

根据本发明提供的汽车行业客户id识别方法,包括:

基础数据处理步骤:对客户主机厂的id数据进行采集、整合和标准化,建立非营销名单库,用于id信息过滤;

id修复步骤:根据机器学习算法对id数据进行分析,使用正确id替换错误id;

id亲密度计算步骤:计算子网络中id之间的亲密度;

转移关系链判定步骤:根据id之间的亲密度,对id配对关系进行更新;

可视化展现步骤:对子网络中id关系的人机物分层、对子网络的拓扑结构进行可视化展现,实现子网络数据的查询和id的识别。

优选的,所述基础数据处理步骤包括:

对客户id信息进行清洗,清洗规则包括特殊符号去除和合并相同id;

建立非营销名单库,非营销名单库包括手机号码、车架号、车辆牌照号和身份证信息。

优选的,所述id修复步骤包括:

在id信息和id配对关系中,排除非营销名单库中的客户id,更新id信息和id配对关系;

针对身份证、车架号、车辆牌照号的修复,搜索子网络中的错误id,并找到与之相似度最高的同类正确id,利用同类正确id来替换错误id;

针对手机号码的修复,修复方法包括:

-找到错误id,并以同一子网络中,相似度最高的同类正确id进行替换;

-对于同一子网络中,相似度高于一定阈值的手机号码,依据通讯运营商确认的正确手机号码与错号、空号分别组成正负样本,通过机器学习算法对手机号码错误概率进行推算,得到可能性最高的手机号码再进行替换。

优选的,所述id亲密度计算步骤包括:

基于id修复后的id信息和id配对关系,设置初始id亲密度,初始值范围在[0,1]内,初始值越大表示id配对关系的可信度越大;

根据业务数据设置系统置信度,范围在[0,1]内,置信度值越大表示该业务数据的可信度越大;

根据初始id亲密度、系统置信度、id更新频次和id新鲜度对id亲密度进行调整。

优选的,所述转移关系链判定步骤包括:

id关系转移,包括:

-手机号码与车辆牌照号的id关系转移至车架号与车辆牌照号;

-手机号码与车架号的id关系转移至身份证与手机号码或者身份证与车架号;

id补全,若身份证与手机号码、身份证与车架号的关系中信息缺失,则构造虚拟客户身份证id进行补全。

优选的,所述可视化展现步骤包括:

子网络分层展现步骤,包括:

-基于配对关系包括:身份证与手机号码、身份证与车架号、车架号与车辆牌照号,对id进行人机物三个层次的分层;

-通过录入客户id,对与所录入的客户id相关的子网络进行人机物分层展现。

优选的,所述可视化展现步骤包括:

统计数据查询步骤:通过可视化界面的形式展现子网络相关的数量,包括子网络的节点信息、关系信息、节点pr值和节点出入度。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的方法的步骤。

与现有技术相比,本发明具有如下的有益效果:

1、本发明通过采用sil库对id数据进行清洗的方式,简化了id关系网络结构,减少了后续数据处理量级,解决了原先图计算运算效率低的问题;

2、本发明通过制定客户id数据标准、结合业务规则和机器学习算法,对相似度高的手机号码配对进行分析,解决了判断正确/错误手机号码的问题;

3、本发明通过采用子网络计算的方式,将全网分割成子网络,基于子网络的运算,降低了运算量,解决了全网计算能力不足的问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为系统功能模块关系图;

图2为基础数据处理模块流程图;

图3为id修复模块数据流程;

图4为id亲密度计算模块数据流程;

图5为转移关系链判定模块数据流程。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1:

本系统通过打通主机厂多个业务系统数据,对客户id进行采集、整合和标准化,结合机器学习算法和业务规则,对人车关系进行分类、合并,对错误id进行修复,并基于图计算建立客户id关系网络,实现人(身份证)机(手机号码)物(车架号、车辆牌照号)的分层展现。

通过本系统可以提升主机厂客户id的数据质量;数据分析团队可以对id关系网络进行实时查询,提升数据分析效率;营销团队可以基于更精准的客户id实施营销活动,提升客户触达效果。

如图1,本系统包括基础数据处理模块、id修复模块、id亲密度计算、转移关系链判定模块、可视化展现模块,共5个模块:

1.基础数据处理模块:

-输入:原始业务系统数据;

-输出:清洗过后的id信息表、id配对表、sil库;

2.id修复模块

-输入:清洗过后的id信息表、id配对表、sil库;

-输出:修复后的id信息表、修复后的id配对表;

3.id亲密度计算

-输入:修复后的id配对表、初始化亲密度;

-输出:亲密度调整后的id配对表;

4.转移关系链判定模块

-输入:亲密度调整后的id配对表;

-输出:关系链转后的id配对表;

5.可视化模块

-输入:关系链转移后的id配对表、修复后的id信息表;

-输出:id关系链可视化查询;

应用环境:

-大数据平台:spark、hive、solr、mysql;

-应用服务器:django、nigix;

-大数据平台:以亿级数据来计算,需要200core、1t内存;

-应用服务器:16g内存、8core。

一、基础数据处理模块,其用于:

1、实现主机厂客户id数据的采集、整合和标准化。

2、建立sil名单库(suspectedidentitylibrary非营销名单库),用于后续id信息过滤。

如图2,是本模块的数据流程,步骤如下:

(1)定位本系统所需的主机厂业务数据,包括销售数据、售后数据、客户关系管理数据、会员数据。

(2)定义客户id信息,id信息包括销售数据中登记的购车人身份证号码、手机号码、车架号,售后数据中登记的送修人手机号码、车架号、车辆牌照号,客户关系管理数据中登记的客户手机号码、车辆牌照号,会员数据中会员登记的手机号码等,以上客户信息均被定义为客户id信息。

(3)定义本系统计算所需的其他重要信息,包括客户的售后入店日期、客户购车日期、客户id信息在数据库中建立的时间。

(4)通过接口,接入客户id信息和其他重要信息。

(5)对客户id信息进行清洗,清洗规则包括特殊符号去除、合并相同id。

(6)初始化建立客户id的描述性信息,包括:

i.id合规性分类,通过判断客户id信息是否符合数据标准,将id分类设置为“正确id/错误id”。客户id信息的数据标准包括:身份证数据标准、手机号码数据标准、车架号数据标准、车辆牌照号数据标准。

ii.id类别,类别包括身份证、手机号码、车架号、车辆牌照号。

iii.id信息来源,包括销售数据表、售后数据表、客户关系管理数据表、会员数据表。

iv.id是否主键,依据主机厂业务逻辑和id信息来源,确定id信息是否为主键。

(7)建立id信息表,在完成id信息的定义、清洗后,对业务数据中的客户id信息、以及描述性信息进行抽取,导入id信息表。

(8)建立id配对关系表,抽取销售数据表、售后数据表、客户关系管理数据表、会员数据表等业务数据表中的id配对(id配对是指两个客户id出现在业务数据表的同一条记录中),经过整合形成id配对关系表。

(9)初始化id配对关系(id配对关系是指五种id类型相互配对对应的业务关系)。id配对关系依据业务逻辑包括以下定义:“owner(即车主)”、“member(即会员)”、“deliverer(即送修人)”、“buyer(即买车人)”,“contactor(即联系人)”,并对其中重复的id配对关系进行合并去重复。

(10)建立sil名单库,sil名单库包括手机号码、车架号、车辆牌照号、身份证信息。sil名单库的数据有以下两个来源:

i.将经销商营销人员手机号码、以及主机厂员工手机号码以文件形式导入sil名单库。

ii.将id配对关系表,依据主键进行关联,统计客户id与客户id之间的关联数量,包括:身份证关联不同车架号的数量、身份证关联不同手机号码的数量、手机号码关联车架号的数量、车辆牌照号关联手机号码的数量、车辆牌照号关联车架号的数量。基于主机厂内部业务规则对不同的id关联数量设置相应的阈值,并将超过阈值的客户id信息导入sil列名单库。

二、id修复模块,其用于:

基于id信息表的基础信息结合机器学习算法对id信息进行分析,使用正确id替换错误id。

如图3,本模块的数据流程步骤如下:

1、判断id信息表和id配对关系表的客户id是否同时出现在sil名单库中。

2、在id信息表和id配对关系表中,排除sil名单库中的客户id,更新id信息表和id配对关系表。

3、基于过滤后的id信息表、id配对关系表,通过图计算方法,建立整体id关系网络。整体id关系网络中的“节点”即为客户id,“连线”即为id配对关系。

4、对整体id关系网络进行拆分若干子网络,子网络内部通过客户id相互关联,子网络相互间不连通。

5、pr值(pagerankvalue)计算,利用算法对子网络中所有id的pr值进行计算,pr值代表某个特定id在子网络中的重要性。

6、相似度计算,基于文本相似度算法计算同一子网络中所有id之间的相似度,相似度的计算基于同类id(同类id是指同为身份证,或者同为手机号码等)。

7、id修复,该步骤分为2个部分:

i.针对身份证、车架号、车辆牌照号的修复(这类客户id的数据标准比较严格,可以高效的对错误id进行侦测),搜索子网络中的错误id,并找到与之相似度最高的同类正确id,利用同类正确id来替换错误id。

ii.针对手机号码(基于数据标准只能侦测少量错误id,大量错误id无法依据数据标准来识别)的修复,有以下两种修复方法:

(a)同身份证、车架号、车牌号的修复方式,找到错误id,并以同一子网络中,相似度最高的同类正确id进行替换。

(b)对于同一子网络中,相似度高于一定阈值的(两个或多个)手机号码,通过算法判断其中错误可能性最高的手机号码。这里的阈值是由业务经验和定量分析共同确认的数值边界;判断手机号码准确性的算法,是依据通讯运营商确认的正确手机号码与错号、空号分别组成正负样本,通过机器学习算法对手机号码错误概率进行推算。完成判断后,将错误概率最高的手机号码标注为错误id,然后重复方法a)的操作。

8、输出经过id修复后的id信息表、id配对关系表。

三、id亲密度计算模块,其用于:

计算子网络中id之间的亲密度,作为“转移关系链判定模块”的数据基础。

如图4,本模块的数据流程步骤如下:

1、基于id修复后的id信息表、id配对关系表,设置初始id亲密度(亲密度是指同一子网络中,id间关联关系强弱的度量,即判定这些不同类型的id属于同一个人或组织的可能性大小),由id配对关系和业务经验综合确定的一个初始的值,范围在[0,1]内,值越大表示id配对关系的可信度越大,用于后续亲密度计算。

2、依据业务调研确定的业务数据可信度设置系统置信度,范围在[0,1]内,值越大表示该业务数据的可信度越大,来源于该业务数据的id的可信度也越大。

3、更新id亲密度,基于初始id亲密度、系统置信度、id更新频次、id新鲜度(最近一次更新距离当前时点的时长)进行计算。

4、id亲密度调整,基于id配对之间的3种类别对id亲密度进行调整,这3种类别为:

i.车架号与车辆牌照号的关系,同一时间点内只能一对一。

ii.身份证与手机号码的关系,身份证与车架号的关系,同一时间点内可以有一对多的关系。

iii.车架号与手机号码的关系,统一时间点内可以有多对多的关

基于以上3种类型的关系,利用算法计算出主关系和从属关系,其中主关系的id亲密度调整为1,从属关系的id亲密度小于1,最小为0。

5、输出id亲密度调整后的id配对关系表。

四、转移关系链判定模块,其用于:

保留符合业务逻辑的id配对关系,将其他关系通过拆分和整合归入主关系,对缺损的子网络进行id补全,对id配对关系进行更新。

如图5,本模块的数据流程步骤如下:

1、id关系筛选,在子网络中,存在多种id配对关系,最终保留三种符合业务逻辑的关系:身份证与手机号码、身份证与车架号、车架号与车辆牌照号。

2、id关系转移,有以下2种转移类型:

i.手机号码与车辆牌照号的id关系转移至车架号与车辆牌照号

ii.手机号码与车架号的id关系转移至身份证与手机号码或者身份证与车架号

3、id补全,如果身份证与手机号码、身份证与车架号的关系中信息缺失,则构造虚拟客户身份证id进行补全。

4、更新id配对关系,在id配对表中,基于调整后的亲密度对id配对关系进行判定,如果调整后的亲密度为0,则该id配对关系更新为“preowner(前车主)”关系。

5、id配对关系更新,有以下3种更新类型:

i.唯一关系判定,同一子网络中,“owner”、“buyer”关系具有唯一性,如果出现多个“owner”或“buyer”,则保留亲密度大的一方。

ii.冲突关系判定,如果多种关系出现在一个id配对中,则取亲密度大的关系。

iii.同一子网络中如果只存在一个关系,则统一设置为“owner”。

五、可视化展现模块,其用于:

对子网络中id关系的人机物分层、对子网络的拓扑结构进行可视化展现,实现子网络数据的查询。

本模块包含以下2个子模块:

(1)子网络分层展现子模块,其用于:

i.人(身份证)机(手机号码)物(车架号、车辆牌照号)分层,在子网络中,基于3种配对关系(身份证与手机号码、身份证与车架号、车架号与车辆牌照号),对id进行人机物三个层次的分层。

ii.子网络分层展现,通过录入客户id,对与所录入的客户id相关的子网络进行人机物分层展现。

(2)统计数据查询子模块,其用于:

通过可视化界面的形式展现子网络相关的数量,包括子网络的节点信息、关系信息、节点pr值、节点出入度(一种节点在网络中连接重要性的度量)。

实施例2:

本系统提供给主机厂数据分析部门使用,应用于车主精准营销或者客户关系管理。系统负责每日按计算逻辑对客户id信息进行更新或者修复,同时提供可视化功能,实现客户id关系子网络的分层展现。系统改变了企业原有通过手工对业务数据整合、分析的工作方式,提升了数据分析效率、及时定位到问题数据并予以修正、实现精准的客户触达。

未实施本系统前,企业不对sil名单进行识别,经过本系统优化后,达成如下的主要实施效果:

(1)识别车架号sil名单占全部车架号的0.03%。

(2)识别身份证号sil名单占全部身份证号的0.01%。

(3)识别手机号码sil名单占全部手机号码的0.5%。

(4)识别车牌号sil名单占全部车牌号的0.02%。

未实施本系统前,企业不对客户id信息进行修复,经过本系统优化后,达成如下的主要实施效果:

(1)成功修复手机号码占相似手机号码的75%,修复身份证占相似身份证的78%。

(2)修复车牌号占相似车牌号的16%。

本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1