识别有车用户的方法、装置、电子设备和存储介质与流程

文档序号:30973011发布日期:2022-08-02 22:22阅读:50来源:国知局
识别有车用户的方法、装置、电子设备和存储介质与流程

1.本技术涉及数据分析技术领域,尤其涉及一种识别有车用户的方法、装置、电子设备和存储介质。


背景技术:

2.数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可以帮助人们做出判断,以便采取适当行动。利用现有的数据识别有车人群,可以有针对性的为有车用户提供相应的服务。
3.现有技术中,预测有车用户的方法通常是通过获取网约车等平台的客户数据,例如出行频次、出行距离、出行类型和基础信息等,通过机器学习算法进行训练和预测,得到用户是否有车的结果。
4.但是,上述预测方法中,获取到数据样本用户群较小,使得训练数据集较小,导致预测结果准确率较低。


技术实现要素:

5.本技术提供一种识别有车用户的方法、装置、电子设备和存储介质,用以解决现有技术中由于数据样本较小,使得训练数据集较小,导致预测结果准确性较低的问题。
6.第一方面,本技术提供一种识别有车用户的方法,包括:
7.获取待预测数据,所述待预测数据包括用户的电信业务行为数据、互联网行为数据和属性信息,所述电信业务行为数据和所述互联网行为数据均为与车辆相关的数据;
8.将所述待预测数据输入到预先训练得到的预测模型中,得到所述用户对应的用户类型,所述用户类型为有车用户或者无车用户,所述预测模型为基于用户的协同过滤模型或者基于内容的协同过滤模型;
9.保存所述用户对应的用户类型。
10.可选的,还包括:
11.获取训练数据,所述训练数据包括用户的电信网络数据和用户类型标签,所述用户类型标签为有车用户或者无车用户;
12.通过所述训练数据对预设模型进行训练得到所述预测模型,所述预设模型为基于用户的协同过滤模型或者基于内容的协同过滤模型。
13.可选的,所述获取训练数据,包括:
14.获取交通管理系统的电信网络数据,所述电信网络数据包括用户属性信息和所述交通管理系统下发给所述用户的短信信息;
15.将所述交通管理系统下发过短信信息的用户标定为有车用户。
16.可选的,所述预测模型为基于用户的协同过滤模型,所述将所述待预测数据输入到预先训练得到的预测模型中,得到所述用户对应的用户类型,包括:
17.将所述电信业务行为数据、所述互联网行为数据和属性信息分别作为一个特征;
18.将各个特征进行一位有效编码one-hot编码,根据用户的各个特征对应的编码构建一个多维向量;
19.计算所述待预测数据对应的多维向量,与所述训练数据中的各多维向量的相似度,其中,每个用户对应一个多维向量;
20.根据所述相似度确定用户是否为有车用户。
21.可选的,所述预测模型为基于内容的协同过滤模型,所述将所述待预测数据输入到预先训练得到的预测模型中,得到所述用户对应的用户类型,包括:
22.将所述电信业务行为数据和所述互联网行为数据分别作为一个特征;
23.确定各个特征发生的频次;
24.将所述属性信息进行one-hot编码得到,得到属性信息对应的编码;
25.根据所述各个特征发生的频次和所述编码构建一个多维向量;
26.计算所述待预测数据对应的多维向量,与所述训练数据中的各多维向量的相似度,其中,每个用户对应一个多维向量;
27.根据所述相似度确定用户是否为有车用户。
28.可选的,所述电信业务行为数据包括用户的交通通话记录、交通短信记录和单位时间内位置变化量;
29.所述互联网行为数据包括用户所使用的车辆相关应用程序的内置信息和购物网站的车辆浏览记录,所述内置信息为用户在所述应用程序中的设置的与车辆相关的信息;
30.所述属性信息包括用户的实名信息、电信业务消费额度信息、是否使用宽带业务和是否订购车辆相关的增值业务。
31.第二方面,本技术提供一种识别有车用户的装置,包括:
32.第一获取模块,用于获取待预测数据,所述待预测数据包括用户的电信业务行为数据、互联网行为数据和属性信息,所述电信业务行为数据和所述互联网行为数据均为与车辆相关的数据;
33.处理模块,用于将所述待预测数据输入到预先训练得到的预测模型中,得到所述用户对应的用户类型,所述用户类型为有车用户或者无车用户,所述预测模型为基于用户的协同过滤模型或者基于内容的协同过滤模型;
34.保存模块,用于保存所述用户对应的用户类型。
35.可选的,还包括:
36.第二获取模块,用于获取训练数据,所述训练数据包括用户的电信网络数据和用户类型标签,所述用户类型标签为有车用户或者无车用户;
37.训练模块,用于通过所述训练数据对预设模型进行训练得到所述预测模型,所述预设模型为基于用户的协同过滤模型或者基于内容的协同过滤模型。
38.第三方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
39.所述存储器存储计算机执行指令;
40.所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面所述的方法。
41.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面所述的方法。
42.第五方面,本技术提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
43.本技术提供的一种识别有车用户的方法、装置、电子设备和存储介质,通过获取用户的电信业务行为数据、互联网行为数据和属性信息,然后将以上待预测数据输入到预先训练得到的预测模型中,得到用户对应的用户类型,该用户类型为有车用户或者无车用户,并保存该用户类型。由覆盖面广和特征量全面的用户电信网络数据训练得到的预测模型的准确率有所提高,使得该预测模型预测有车用户更加准确,以便在车辆服务商可以向用户提供电信业务相关服务的同时精准提供车辆相关权益服务,做好车主用户服务的同时避免骚扰其他用户。
附图说明
44.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
45.图1为本技术适用的一种应用场景的示意图;
46.图2为本技术实施例一提供的一种识别有车用户的方法的流程示意图;
47.图3为本技术实施例二提供的一种识别有车用户的装置的结构示意图;
48.图4为本发明实施例三提供的一种识别有车用户的装置的结构示意图。
49.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
50.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
51.利用现有的数据识别有车人群,可以有针对性的为有车用户提供相应的服务。在现有技术中,预测有车用户的方法通常是通过获取网约车等平台的客户数据,例如出行频次、出行距离、出行类型和基础信息等,通过机器学习算法进行训练和预测,得到用户的用户类型,即用户是否有车的结果。
52.但是,上述预测方法中,获取到数据样本用户群较小,使得训练数据集较小,导致预测结果准确率较低。而且由于网约车等平台所提供的服务具有一定的局限性,通过上述平台获取到的训练数据具有的特征较少,也对预测结果的准确率有一定的影响。
53.所以,本技术提供一种识别有车用户的方法、装置、电子设备和存储介质,通过使用覆盖面广和特征量相对全面的用户电信网络数据训练得到的预测模型,提高了预测模型的准确率,然后利用该预测模型预测用户的用户类型,使得预测结果更加准确。以便车辆服
务器商可以向用户提供电信业务相关服务的同时精准提供车辆相关权益服务,做好车主用户服务的同时避免骚扰其他用户。
54.参考图1,图1为本技术适用的一种应用场景的示意图,预测服务器102、交通管理系统103和终端101之间通过互联网进行信息交互。预测服务器102通过获取交通管理系统103的电信网络数据,并对该电信网络数据的用户的用户标签标定为有车用户,然后以改电信网络数据和用户标签作为训练数据集,训练预设模型,得到预测模型。然后预测服务器102获取终端101中待预测数据,并将该待预测数据输入到预测模型中,得到用户对应的用户类型,该待预测数据中包括用户的电信业务行为数据、互联网行为数据和属性信息。预测服务器102得到用户的用户类型后进行保存,使得车辆服务商可以有针对性的对有车用户和无车用户进行服务。可以理解,预测服务器102、交通管理系统103和终端101的数量均可以为多个,图中未示出。
55.另外,本技术实施例对于终端101的类型不作限定,终端101可以为手机、平板电脑和台式电脑等具备通话功能和/或网络功能的电子设备。
56.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立存在,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
57.参考图2,图2为本技术实施例一提供的一种识别有车用户的方法的流程示意图,该方法可以由图1中的预测服务器执行,以下简称服务器,该方法包括如下步骤。
58.s201、获取待预测数据,待预测数据包括用户的电信业务行为数据、互联网行为数据和属性信息。
59.服务器可以从用户终端获取到待预测数据,该待预测数据包括用户的电信业务行为数据、互联网行为数据和属性信息。
60.该电信业务行为数据和互联网行为数据均为与车辆相关的数据。具体的,该电信业务行为数据包括用户的交通通话记录、交通短信记录和单位时间内位置变化量,示例性的,单位时间可以为15分钟,而位置变化量可以表示为15分钟内用户所移动的距离。该交通通话记录为用户与交通管理相关部门的通话记录,包括时间和通话号码等,交通短信记录为用户接收到的交通管理相关部门发送的短信明细内容,例如违章提醒短信等。
61.而互联网行为数据包括用户所使用的应用程序的内置信息和购物网站的车辆浏览记录等,该内置信息为用户在该应用程序中的设置的与车辆相关的信息,示例性的,内置信息为用户是否为会员等,当该应用程序为车辆类应用程序,例如,车辆保养类应用程序或者车辆商城类应用程序等,内置信息中还包括该应用程序中用户填写的车辆的基础信息,例如车型等。购物网站的浏览记录包括用户所浏览的车辆相关的网页等,例如用户访问了车辆内部装饰所需物品等。上述互联网行为还可以包括前往加油站次数和公交站驻留次数等。
62.属性信息则包括用户的实名信息、电信业务消费额度信息、是否使用宽带业务和是否订购车辆相关的增值业务等,示例性的,实名信息包括用户姓名、职业、年龄、性别、收入和住址等。
63.可选的,服务器可以设置与车辆相关的埋点,该埋点用于采集用户的属性信息、电
信业务行为数据和互联网行为数据,具体的,服务器通过设置埋点事件和埋点事件标识,对用户触发埋点事件后,服务器可以接收到相应的报文。该埋点事件是与车辆相关的事件,例如,用户接收到交通管理局发送的交通短信,或者是用户在某个网站查询有关车辆的配件信息等,当这些埋点事件发生,服务器就可以获取到相应的报文数据。
64.s202、将待预测数据输入到预先训练得到的预测模型中,得到用户对应的用户类型。
65.服务器获取到待预测数据后,将待预测数据输入到预先训练得到的预测模型中,得到用户对应的用户类型,即有车用户和无车用户,该预测模型为基于用户的协同过滤模型或者基于内容的协同过滤模型。
66.上述预测模型是服务器根据获取的训练数据对预设模型进行训练得到的,该训练数据包括用户的电信网络数据和用户类型标签,用户类型标签为有车用户,用户类型标签用于区分用户的用户类型。
67.具体的,上述训练数据是服务器获取交通管理系统的电信网络数据,该电信网络数据包括用户属性信息和该交通管理系统下发给用户的短信信息等,同样的,该短信信息是用户接收到的交通管理相关部门发送的短信明细内容,然后服务器将交通管理系统下发过短信信息的用户标定为有车用户。这样的训练数据不仅样本用户群大,而且训练数据的特征也较多,有助于预设模型的训练,使得预测模型的精准度提高。
68.需要说明的是,上述预设模型为基于用户的协同过滤模型或者基于内容的协同过滤模型,通过对两类模型的训练均可以得到上述预测模型。
69.下面对根据这两类模型训练得到的预测模型的基本原理进行说明。
70.(1)基于用户的协同过滤模型。
71.根据这类模型训练得到的预测模型,在预测待预测数据时,将待预测数据中电信业务行为数据、互联网行为数据和属性信息分别作为一个特征。
72.然后将各个特征进行one-hot编码,根据用户的各个特征对应的编码构建一个多维向量,多维向量中的值为上述各个特征的对应的编码,然后模型计算待预测数据对应的多维向量,与训练数据中的各多维向量的相似度,其中,每个用户对应一个多维向量,示例性的,可以通过以下公式计算相似度:
[0073][0074]
其中,ai为用户a的特征向量,bi为用户b的特征向量,θ为特征向量ai和特征向量bi的多维空间的夹角,余弦值为相似度,该相似度的值域在[-1,1]之间,当余弦值越靠近1,向量夹角越小,说明用户的相关性越高。在本技术实施例中,示例性的,当余弦值在预设范围[0.8,1]之间,则可以认为用户a和用户b相似。
[0075]
计算得到相似度后,可以根据该相似度确定用户是否为有车用户,具体的,当待预测数据对应的多维向量与训练数据中的各多维向量的相似度均在[0.8,1]内,则可以确定该多维向量对应的用户为有车用户。
[0076]
或者,训练数据中达到预设比例或者预设个数的多维向量与该待预测数据对应的多维向量的相似度在该预设范围内,则判定该多维向量对应的用户为有车用户,示例性的,
训练数据中的超过80%的多维向量与待预测数据中的用户a相似度均在预设范围内,则可以确定用户a为有车用户。
[0077]
通过基于用户的协同过滤模型预测用户类型,使用描述了用户所具有的特征的多维向量计算相似度,提升了预测用户类型的准确率。
[0078]
(2)基于内容的协同过滤模型。
[0079]
根据这类模型训练得到的预测模型,在预测待预测数据时,将待预测数据中电信业务行为数据和互联网行为数据分别作为一个特征。
[0080]
然后确定电信业务行为数据和互联网行为数据的各个特征发生的频次,以及将属性信息进行one-hot编码,得到属性信息对应的编码。然后模型根据频次和编码构建一个多维向量,多维向量中的值为上述各个特征的对应的频次和编码,然后模型计算待预测数据对应的多维向量,与训练数据中的各多维向量的相似度,其中,每个用户对应一个多维向量。同样的,可以根据公式(1)计算相似度。
[0081]
计算得到相似度后,可以根据该相似度确定用户是否为有车用户,具体的可以参考上述基于用户的协同过滤模型中的描述。通过基于内容的协同过滤模型预测用户类型,用于计算相似度的多维向量描述了用户所具有的特征中部分特征发生的频次,使得预测用户的类型更加准确。
[0082]
需要说明的是,本技术实施例不限定上述相似度的计算方式,还可以使用杰卡德系数的定义式进行计算,或者皮尔逊系数和欧拉距离等方式,均可以计算相似度。而且,上述根据相似度确定用户是否为有车用户的方式,还可以是将待预测数据对应的多维向量与训练数据中的一个多维向量计算相似度,当相似度在预设范围内,则可以确定用户为有车用户,本技术实施例对根据相似度确定用户是否为有车用户的方式进行限定。
[0083]
损失函数通常是用来表现预测数据与实际数据的差距程度,服务器在使用训练数据对上述两类模型进行训练时,可以通过判断损失函数的大小,来确定所得预测模型的好坏,即损失函数越小,可以认为预测模型的准确率越高。示例性的,本技术实施例中的一种损失函数定义如下:
[0084][0085]
其中,为损失函数,i为用户编号,j为用户电信业务行为编号,表示用户属性,表示互联网行为,y
(i,j)
为用户i出现电信业务行为j的频次,λ为正则化参数。
[0086]
s203、保存用户对应的用户类型。
[0087]
服务器得到用户的用户类型后,将该用户类型进行保存,服务器可以输出用户类型,使得车辆服务商可以在向有车用户提供电信业务相关服务的同时精准提供车辆相关权益服务,做好车主用户服务的同时避免骚扰其他用户。
[0088]
在本实施例中,服务器通过获取用户的电信业务行为数据、互联网行为数据和属性信息,然后将以上待预测数据输入到预先训练得到的预测模型中,得到用户对应的用户
类型,该用户类型为有车用户或者无车用户,并保存该用户类型。由覆盖面广和特征量较全面的用户电信网络数据训练得到的预测模型的准确率有所提高,使得该预测模型预测有车用户更加准确,以便车辆服务商可以向用户提供电信业务相关服务的同时精准提供车辆相关权益服务,做好车主用户服务的同时避免骚扰其他用户。
[0089]
参考图3,图3为本技术实施例二提供的一种识别有车用户的装置的结构示意图,该装置30包括:获取模块301,处理模块302和保存模块304。
[0090]
第一获取模块301,用于获取待预测数据,待预测数据包括用户的电信业务行为数据、互联网行为数据和属性信息,电信业务行为数据和互联网行为数据均为与车辆相关的数据。
[0091]
处理模块302,用于将待预测数据输入到预先训练得到的预测模型中,得到用户对应的用户类型,用户类型为有车用户或者无车用户,预测模型为基于用户的协同过滤模型或者基于内容的协同过滤模型。
[0092]
保存模块303,用于保存用户对应的用户类型。
[0093]
可选的,还包括:
[0094]
第二获取模块,用于获取训练数据,训练数据包括用户的电信网络数据和用户类型标签,用户类型标签用于区分用户的用户类型,用户类型标签为有车用户。
[0095]
训练模块,用于通过训练数据对预设模型进行训练得到预测模型,预设模型为基于用户的协同过滤模型或者基于内容的协同过滤模型。
[0096]
可选的,第二获取模块具体用于:
[0097]
获取交通管理系统的电信网络数据,电信网络数据包括用户属性信息和交通管理系统下发给用户的短信信息。
[0098]
将交通管理系统下发过短信信息的用户标定为有车用户。
[0099]
可选的,预测模型为基于用户的协同过滤模型,处理模块302具体用于:
[0100]
将电信业务行为数据、互联网行为数据和属性信息分别作为一个特征。
[0101]
将各个特征进行一位有效编码one-hot编码,根据用户的各个特征对应的编码构建一个多维向量。
[0102]
计算待预测数据对应的多维向量,与训练数据中的各多维向量的相似度,其中,每个用户对应一个多维向量。
[0103]
根据相似度确定用户是否为有车用户。
[0104]
可选的,预测模型为基于内容的协同过滤模型,处理模块302还用于:
[0105]
将电信业务行为数据和互联网行为数据分别作为一个特征。
[0106]
确定各个特征发生的频次。
[0107]
将属性信息进行one-hot编码得到,得到属性信息对应的编码。
[0108]
根据各个特征发生的频次和编码构建一个多维向量。
[0109]
计算待预测数据对应的多维向量,与训练数据中的各多维向量的相似度,其中,每个用户对应一个多维向量。
[0110]
根据相似度确定用户是否为有车用户。
[0111]
可选的,电信业务行为数据包括用户的交通通话记录、交通短信记录和单位时间内位置变化量。
[0112]
互联网行为数据包括用户所使用的车辆相关应用程序的内置信息和购物网站的车辆浏览记录,内置信息为用户在应用程序中的设置的与车辆相关的信息。
[0113]
属性信息包括用户的实名信息、电信业务消费额度信息、是否使用宽带业务和是否订购车辆相关的增值业务。
[0114]
本实施例的装置,可用于执行实施例一中的一种识别有车用户的方法的步骤,具体实现方式和技术效果类似,这里不再赘述。
[0115]
参考图4,图4为本发明实施例三提供的一种识别有车用户的装置的结构示意图,如图4所示,该装置40包括:处理器401、存储器402,收发器403,存储器402用于存储指令,收发器403用于和其他设备通信,处理器401用于执行存储器中存储的指令,以使装置40执行如实施例一中的一种识别有车用户的方法步骤,具体实现方式和技术效果类似,这里不再赘述。
[0116]
本发明实施例四提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时用于实现如上述实施例一中的一种识别有车用户的方法步骤,具体实现方式和技术效果类似,这里不再赘述。
[0117]
本发明实施例五提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,实现如上述实施例一的一种识别有车用户的方法步骤,具体实现方式和技术效果类似,这里不再赘述。
[0118]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
[0119]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1