本发明涉及一种用户画像方法及设备,具体说是一种旅客画像及数据分析的方法及装置。
背景技术:
在交通运输和旅游行业中,每天都会产生大量的票务数据、线路数据,甚至是周边的酒店订单数据、餐饮订单数据,当然也包括旅客的个人身份数据。这些数据分散在不同的系统,它们庞大而且分散,看似毫无规律,没有任何价值。但如果采用科学合理的方法整合这些数据,不仅可以得到旅客爱好兴趣及行为特征的画像,也可以用于预测行业发展趋势以及旅客的未来行为特征,将为从业者带来更大的价值。
技术实现要素:
本发明的目的是提供一种旅客画像及数据分析的方法及装置,通过整合、分析交通运输和旅游行业中产生的数据为旅客用户进行画像,挖掘用户爱好,解决旅客基本特征描述,细分客户群,预测行业发展趋势以及旅客的未来行为特征,并为旅客的个性化服务提供支撑。
本发明所述一种旅客画像及数据分析的方法,其特征在于包括如下步骤:
A)建立数据库;从数据源中获取旅客身份信息和行为数据,存入数据库;
B)建立标签模型;根据数据库中的旅客身份信息的特征和行为数据的特征建立相应的标签并赋予每一标签相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;
C)计算标签权重;利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;
Tij=Rij*Wij
其中,
Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下:
其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;
Rijm是第m条记录的时间因子。其计算公式如下:
其中tnowm-tstartm<=tmax
tnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;
数据来源权重Wij表示为:
i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下:
Kij为数据集合中与第i个标签第j个值对应的数据条数;
D)预测分析;利用上述步骤获得的数据建立时间序列分析模型,使用时间序列分析模型预测用户未来的行为。
在步骤B),所述旅客身份信息的特征和行为数据的特征包括结构化数据和非结构化数据。
一种旅客画像及数据分析装置,包括:
用于存储旅客身份信息和行为数据的数据库;
用于存储标签并生成标签模型的标签库;每一标签具有相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;
用于计算标签权重的计算器;该计算器利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;
Tij=Rij*Wij
其中,
Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下:
其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;
Rijm是第m条记录的时间因子。其计算公式如下:
其中tnowm-tstartm<=tmax
tnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;
数据来源权重Wij表示为:
i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下:
Kij为数据集合中与第i个标签第j个值对应的数据条数;
用于输出的输出设备。
由于采用上述技术方案,本发明通过整合、分析交通运输和旅游行业中产生的数据为旅客用户进行画像,挖掘用户爱好,解决旅客基本特征描述,细分客户群,预测行业发展趋势以及旅客的未来行为特征,并为旅客的个性化服务提供支撑。
具体实施方式
本发明所述一种旅客画像及数据分析的方法,包括如下步骤:
A)建立数据库;从数据源中获取旅客身份信息和行为数据,存入数据库;该步骤从各类数据源系统中抽取原始数据,包括但不限于票务系统中的订票记录,列车、飞机上的订餐记录,周边酒店的订单数据,餐饮订单数据,其它平台的标签数据,用户行为日志数据,社交网络中的用户日常消息数据,并将这些数据清洗,转换为数据库可识别的数据,存入到数据库中。
B)建立标签模型;根据数据库中的旅客身份信息的特征和行为数据的特征建立相应的标签并赋予每一标签相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;
该步骤产出标签、及部分标签对应的权重。建模时选取的特征除了用户的基本特征,包括但不限于姓名,性别,出生年月,学历等外,结合铁路,航空领域的特点,还需要选择出发时间,到达时间,行程时长,旅客选择的座位,座位等级,旅途过程中旅客喜爱的娱乐等因素;以及在具体运用场景中,各类数据源数据对结果数据的权重产生的影响;分别将信息归属到静态属性和动态属性两类中。对于特征的处理上,动态属性还需要考虑时间对权重的影响。
具体的处理步骤是,
1)从用户的基本特征中,抽取特征并转换为标签;
2)从用户的消费记录中,抽取订票及其它订单信息,转换为标签,标签的权重则表示为时间衰减因子r*数据来源权重w;
3)使用改进聚类的方法,从其它非结构化数据中分离出用户的特征标签,输出的标签的权重受时间衰减因子的影响。
C)计算标签权重;利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;
Tij=Rij*Wij
其中,
Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下:
其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;
Rijm是第m条记录的时间因子。其计算公式如下:
其中tnowm-tstartm<=tmax
tnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;
数据来源权重Wij表示为:
i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下:
Kij为数据集合中与第i个标签第j个值对应的数据条数;
例如:在系统中定义,来源于订票系统及其子系统的权重为0.6,其它的为0.4;
场景1:从用户在订票系统点餐子系统的点餐记录中,不存在标签“红烧牛肉”,在用户的SNS数据中,存在标签“红烧牛肉”,其计算时间衰减权重为0.21;则其归并后的标签“红烧牛肉”,权重为0*0.6+0.21*0.4。
场景2:从用户在订票系统点餐子系统的点餐记录中,存在标签“红烧牛肉”,其计算时间衰减后的权重为0.65,在用户的SNS数据中,不存在标签“红烧牛肉”,则其归并后的标签“红烧牛肉”,权重为0.65*0.6+0*0.4。
场景3:从用户在订票系统点餐子系统的点餐记录中,存在标签“红烧牛肉”,其计算时间衰减后的权重为0.65,在用户的SNS数据中,亦存在标签“红烧牛肉”,其计算时间衰减权重为0.21;则其归并后的标签“红烧牛肉”,权重为0.65*0.6+0.21*0.4。
D)预测分析;利用上述步骤获得的数据建立时间序列分析模型,使用时间序列分析模型预测用户未来的行为。当然,利用该系统,也可以通过标签分类的旅客,以某一特定标签作为特征,可以找到一组拥有此特征的旅客,实现对旅客的细分。或者以每个旅客为中心,找到其拥有的相关标签,即可知道旅客的兴趣,习惯,并以此为精准营销提供支撑。
在上述步骤B),所述旅客身份信息的特征和行为数据的特征包括结构化数据和非结构化数据。
一种旅客画像及数据分析装置,包括:
用于存储旅客身份信息和行为数据的数据库;
用于存储标签并生成标签模型的标签库;每一标签具有相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;
用于计算标签权重的计算器;该计算器利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;
Tij=Rij*Wij
其中,
Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下:
其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;
Rijm是第m条记录的时间因子。其计算公式如下:
其中tnowm-tstartm<=tmax
tnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;
数据来源权重Wij表示为:
i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下:
Kij为数据集合中与第i个标签第j个值对应的数据条数;
用于输出的输出设备。