一种旅客画像及数据分析的方法及装置与流程

文档序号:11865670阅读:来源:国知局

技术特征:

1.一种旅客画像及数据分析的方法,其特征在于包括如下步骤:

A)建立数据库;从数据源中获取旅客身份信息和行为数据,存入数据库;

B)建立标签模型;根据数据库中的旅客身份信息的特征和行为数据的特征建立相应的标签并赋予每一标签相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;

C)计算标签权重;利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;

Tij=Rij*Wij

其中,

Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下:

<mrow> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </munderover> <msubsup> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>/</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;

Rijm是第m条记录的时间因子。其计算公式如下:

其中tnowm-tstartm<=tmax

tnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;

数据来源权重Wij表示为:

i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下:

<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <munder> <mo>&Sigma;</mo> <mi>j</mi> </munder> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

Kij为数据集合中与第i个标签第j个值对应的数据条数;

D)预测分析;利用上述步骤获得的数据建立时间序列分析模型,使用时间序列分析模型预测用户未来的行为。

2.根据权利要求1所述的一种旅客画像及数据分析的方法,其特征在于:在步骤B),所述旅客身份信息的特征和行为数据的特征包括结构化数据和非结构化数据。

3.一种旅客画像及数据分析装置,其特征在于包括:

用于存储旅客身份信息和行为数据的数据库;

用于存储标签并生成标签模型的标签库;每一标签具有相应的值域和权重;所述标签权重的取值表示该标签对用户行为影响的重要程度;标签的权重表示为时间衰减因子与数据来源权重的乘积;所述时间衰减因子与标签的形成时间相关,所述数据来源权重与标签数据的来源相关;

用于计算标签权重的计算器;该计算器利用如下算法计算标签的权重Tij,得到一组归并的标签,形成当前时间窗的用户画像;

Tij=Rij*Wij

其中,

Rij表示第i个标签中第j个值的时间因子,i代表标签编号,j代表该标签中第j个值,其计算公式如下:

<mrow> <msub> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </munderover> <msubsup> <mi>R</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>/</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

其中,Kij为数据集合中与第i个标签第j个值对应的数据条数;

Rijm是第m条记录的时间因子。其计算公式如下:

其中tnowm-tstartm<=tmax

tnowm第m条数据当前时间,tstartm为第m条数据生成时间,(tnowm-tstartm)为数据生成距离当前时间间隔,α为时间因子衰减率,tmax为时间窗口大小,即超过该时间窗口的数据记录不用来计算标签权重;

数据来源权重Wij表示为:

i代表标签编号,j代表该标签中第j个值。Wij表示第i个标签中第j个值的数据权重;计算公式如下:

<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <munder> <mo>&Sigma;</mo> <mi>j</mi> </munder> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

Kij为数据集合中与第i个标签第j个值对应的数据条数;

用于输出的输出设备。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1