用户在线活动爆发时间的可预测度计算方法及系统与流程

文档序号:11929890阅读:310来源:国知局
用户在线活动爆发时间的可预测度计算方法及系统与流程

本发明涉及互联网技术领域,尤其涉及一种用户在线活动爆发时间的可预测度计算方法。



背景技术:

随着互联网特别是移动互联网技术的快速发展,过去人们需要在现实生活中完成的很多活动可以选择在网络上进行,同时互联网技术也为人们的日常生活提供了越来越多的新的服务和应用。互联网技术的广泛使用使得在线活动在人们的日常生活中发挥了越来越重要的作用。对于人类在互联网上的行为,即用户的在线行为,能够预先知道用户的下一个活动能够帮助开发者更好地设计以及改进在线服务平台。

相较于用户在线行为预测算法的设计,一个更加基本的问题是得到用户在线行为的预测性能界,即预测算法能够达到的预测准确率的上界。该预测准确率上界的计算能够指导预测算法的设计,帮助综合分析算法优化空间以及研究成本控制。

用户在互联网上的活动呈现爆发特征,即在长时间没有活动后会在短时间内会产生大量的活动。用户在线活动的爆发时间是刻画用户在线行为的关键维度,目前还没有对于用户在线活动爆发时间可预测度的计算方法。



技术实现要素:

本发明的主要目的为提供一种用户在线活动爆发时间的可预测度计算方法。

本发明提出一种用户在线活动爆发时间的可预测度计算方法,包括以下步骤:

从用户的历史在线活动时间记录中提取爆发簇结构;

利用爆发簇结构获取用户爆发时间间隔序列;

对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列;

计算用户爆发时间间隔符号序列的熵率;

根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。

进一步的,所述从用户的历史在线活动时间记录中提取爆发簇结构之前,包括,

获取所述用户在指定平台的所有活动时间记录。

进一步的,所述从用户的历史在线活动时间记录中提取爆发簇结构步骤,包括,

设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构。

进一步的,所述设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构步骤,包括,

设置一个相关活动时间间隔门限,判断两个活动的时间间隔是否小于门限,

若是,则判定这两个活动是相关的,并将两个活动作为同一爆发簇;

若否,则判定这两个活动是不相关的。

进一步的,所述设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构步骤,还包括,

将用户的第一条活动时间记录设置为第一个爆发簇内的第一个活动,从用户的第二条活动时间记录开始,逐个进行如下判断,若其与前一条活动的时间间隔小于设置的相关活动时间间隔门限,则将其划入到前一条活动记录所在簇中,若其与前一条活动的时间间隔大于设置的相关活动时间间隔门限,则将其作为一个新的爆发活动簇的第一个活动,并且将其标记为该爆发活动簇的开始时间。

进一步的,所述对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列,包括,

采用等频率离散化方法进行离散化。

进一步的,所述采用等频率离散化方法进行离散化步骤,包括:

在得到所述用户所有的爆发时间间隔序列后,先划分出离散区间,将用户的各个爆发时间间隔放置于对应的离散区间当中,放置的规则是使爆发时间间隔大于等于放入区间的左端点值,同时小于放入区间的右端点值,放置一个爆发时间间隔后,其对应离散区间的序号即为该爆发时间间隔对应的离散化结果。

进一步的,所述在得到所述用户所有的爆发时间间隔序列后,先划分出离散区间步骤,包括,

在爆发时间间隔的最大值和最小值之间划分k个离散区间,区间的划分使得所有爆发时间间隔落入各个区间内的频数相等,依据上述方法可以得到由小到大排列的第1,2,…,k共k个离散区间。

一种用户在线活动爆发时间的可预测度计算系统,其特征在于,包括:

提取单元,用于从用户的历史在线活动时间记录中提取爆发簇结构。

获取单元,用于利用爆发簇结构获取用户爆发时间间隔序列。

离散单元,用于对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列。

计算单元,用于计算用户爆发时间间隔符号序列的熵率,根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。

进一步的,所述提取单元包括,

划分模块:设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构。

本发明的有益效果:提供了一种对于用户在线活动爆发时间可预测度的计算方法,该方法能够较好地预测用户的下一个网上活动行为,帮助开发者更好地设计以及改进在线服务平台。

附图说明

图1是本发明一实施例一种用户在线活动爆发时间的可预测度计算方法的流程图;

图2是本发明另一实施例一种用户在线活动爆发时间的可预测度计算方法的流程图;

图3是本发明另一实施例一种基于互联网用户数据的在线活动爆发时间可预测度计算系统的结构框图。

图4是本发明一实施例一种用户在线活动爆发时间的可预测度计算方法的时间间隔门限示意图;

图5是本发明一实施例一种用户在线活动爆发时间的可预测度计算方法的时间间隔序列示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

参照图1,一种用户在线活动爆发时间的可预测度计算方法,包括以下步骤:

S10、从用户的历史在线活动时间记录中提取爆发簇结构;

S11、利用爆发簇结构获取用户爆发时间间隔序列;

S12、对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列;

S13、计算用户爆发时间间隔符号序列的熵率;

S14、根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。

在上述S10步骤中,爆发簇结构能更好的反应用户在相近的时间上的活动量,为S11步骤获取时间间隔序列区分时间段提供重要的依据。

在上述S12步骤中,离散化是把无限空间中无限的个体映射到有限的空间中去,以此提高算法的时空效率,本步骤中将时间间隔序列离散化后,得到时间间隔符号序列。

在上述步骤S13步骤中,熵率就是指一个随机源(一个会持续产生随机变量的随机过程)的随时间的平均不确定性。一个随机过程的熵率就是该过程平均每产生一个随机变量所带来的不确定度的大小,在步骤S12中得到时间间隔符号序列后,根据该时间间隔符号序列后,利用计算公式:

计算时间间隔符号序列的熵率,其中,Sest表示用户爆发时间间隔符号序列的熵率,n表示用户爆发时间间隔符号序列的长度,表Λh示序列中从第个h符号开始的,且在第1到第h-1个符号构成的子列中没有出现过的最短子序列的长度。

在上述步骤S14中,时间间隔符号序列的熵率,计算用户爆发时间间隔符号序列的可预测度,计算公式:

Sest=-[Πlog2Π+(1-Π)log2(1-Π)]+(1-Π)log2(N-1)

其中,Π表示该用户爆发时间间隔符号序列的可预测度,即预测该用户爆发时间能够到达的预测准确率的最大值,N表示该用户爆发时间间隔符号序列中不同符号的个数,本发明给出的爆发时间可预测度结果在0到100%之间。

在本实施例中,根据用户在某平台上的部分或者某段活动时间,来获取爆发簇结构,根据爆发簇结构,获取时间间隔序列,对时间间隔序列进行离散化得到时间间隔符号序列,最后利用信息熵和费诺不等式计算用户在线活动爆发时间可预测度。

在本发明的一实施例中,上述爆发簇指人类进行活动过程中在短时间内突发产生的一系列的高频活动。

在本发明的一实施例中,上述爆发时间间隔序列指由相邻爆发簇开始时刻的时间间隔构成的时间间隔序列。

在本发明的一实施例中,上述爆发时间间隔符号序列指利用离散化方法给出的爆发时间间隔与爆发时间间隔符号的对应关系,将爆发时间间隔序列进行符号转化后得到的符号序列。

参照图2,在本发明的另一实施例中,一种用户在线活动爆发时间的可预测度计算方法,包括以下步骤:

S20、获取该用户在某平台的所有活动时间记录;

S21、设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构;

S22、利用爆发簇结构获取用户爆发时间间隔序列;

S23、对用户的爆发时间间隔序列采用等频率离散化方法进行离散化,得到爆发时间间隔符号序列;

S24、计算用户爆发时间间隔符号序列的熵率;

S25、根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。

在上述S21步骤中,设置相关活动的时间间隔门限的方法为:

当两个活动的时间间隔小于该门限,则认为这两个活动是相关的,当两个活动的时间间隔大于该门限,则认为这两个活动是不相关的。

在上述S21步骤中,将用户的所有活动时间记录划分成爆发簇结构的方法为:

将用户的第一条活动时间记录设置为第一个爆发簇内的第一个活动,从用户的第二条活动时间记录开始,逐个进行如下判断,若其与前一条活动的时间间隔小于设置的相关活动时间间隔门限,则将其划入到前一条活动记录所在簇中,若其与前一条活动的时间间隔大于设置的相关活动时间间隔门限,则将其作为一个新的爆发活动簇的第一个活动,并且将其标记为该爆发活动簇的开始时间。

在本发明实施例中,对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列,包括:

本实施例中S23步骤中采用等频率离散化方法进行离散化的方法:

在得到该用户所有的爆发时间间隔序列后先划分出离散区间,将用户的各个爆发时间间隔放置于对应的离散区间当中,放置的规则是使爆发时间间隔大于等于放入区间的左端点值,同时小于放入区间的右端点值,放置一个爆发时间间隔后,其对应区间的序号即为该爆发时间间隔对应的离散化结果。其中划分离散区间的方法为:在爆发时间间隔的最大值和最小值之间划分k个离散区间,区间的划分使得所有爆发时间间隔落入各个区间内的频数相等,依据上述方法可以得到由小到大排列的第1,2,…,k共k个离散区间。

在本发明实施例中,当需要对某用户在某网络平台上的爆发活动时间可预测度计算时,首先得到该用户在该平台的所有活动时间记录。得到活动时间记录后,首先设置一个相关活动时间间隔门限,该门限的作用是区分两个活动是否相关,当两个活动的时间间隔小于该门限,则认为这两个活动是相关的,即该两个活动来源于同一个爆发簇;当两个活动的时间间隔大于该门限,则认为这两个活动是不相关的,即该两个活动来源于两个不同的爆发簇,该相关活动时间间隔门限的取值与具体网络平台有关。

根据设置的相关活动时间间隔门限,将用户在该平台的所有活动时间记录划分成爆发簇结构。对于用户的第一条活动时间记录,将其设置为第一个爆发簇内的第一个活动。从用户的第二条活动时间记录开始,逐个进行如下判断,若其与前一条活动的时间间隔小于设置的相关活动时间间隔门限,则将其划入到前一条活动记录所在簇中;若其与前一条活动的时间间隔大于设置的相关活动时间间隔门限,则将其作为一个新的爆发活动簇的第一个活动,并且将其标记为该爆发活动簇的开始时间。如图4所示,Δt表示相关活动时间间隔门限。

将用户的所有活动记录划分成爆发簇结构后,可以得到用户在该平台所有爆发簇的开始时间,由各个簇的爆发开始时间可以得到该用户的爆发活动时间间隔序列,如图5所示,τ1,τ2,τ3,τ4表示用户爆发活动时间间隔序列中的一部分。

在得到用户的爆发活动时间间隔序列后,本发明利用离散化方法对爆发活动时间间隔进行离散化,得到爆发活动时间间隔符号序列,通过时间间隔符号序列计算可预测度。

由于用户的爆发时间间隔分布具有胖尾特征,为了实现有效的爆发时间间隔符号化,本发明采用等频率离散化方法进行离散化,在得到该用户所有的爆发时间间隔序列后,得到其爆发时间间隔的最大值和最小值。在最大值和最小值之间划分k个离散区间,区间的划分使得所有爆发时间间隔落入各个区间内的频数相等。依据上述方法可以得到由小到大排列的第1,2,…,k共k个离散区间。

在得到所有离散区间后,将用户的各个爆发时间间隔放置于对应的区间当中,放置的规则是使爆发时间间隔大于等于放入区间的左端点值,同时小于放入区间的右端点值。放置一个爆发时间间隔后,其对应区间的序号即为该爆发时间间隔对应的离散化结果,这样每一个爆发时间间隔都对应一个爆发时间间隔符号,时间间隔符号依次为1’,2’,…,k’,对用户爆发时间间隔序列中的每个时间间隔都进行离散化后,就可以将用户的爆发时间间隔序列转化为爆发时间间隔符号序列。

在得到用户的爆发时间间隔符号序列后,本发明利用信息熵和费诺不等式计算用户在线活动爆发时间可预测度。计算方式如下。

首先计算用户爆发时间间隔符号序列的熵率,计算公式如下:

其中,Sest表示用户爆发时间间隔符号序列的熵率,n表示用户爆发时间间隔符号序列的长度,表Λh示序列中从第h个符号开始的,且在第1到第h-1个符号构成的子列中没有出现过的最短子序列的长度。

在计算得到用户爆发时间间隔序列后,利用费诺不等式计算对应符号序列的可预测度,即利用序列中全部历史符号对下一个符号进行预测时,预测算法能够达到的预测准确率的最大值。计算公式如下。

Sest=-[Πlog2Π+(1-Π)log2(1-Π)]+(1-Π)log2(N-1)

其中,Π表示该用户爆发时间间隔符号序列的可预测度,即预测该用户爆发时间能够到达的预测准确率的最大值,N表示该用户爆发时间间隔符号序列中不同符号的个数。

参照图3,本发明还提供一种基于互联网用户数据的在线活动爆发时间可预测度计算系统,包括:

提取单元100,用于从用户的历史在线活动时间记录中提取爆发簇结构。

获取单元110,用于利用爆发簇结构获取用户爆发时间间隔序列。

离散单元120,用于对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列。

计算单元130,用于计算用户爆发时间间隔符号序列的熵率,根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。

在另一种实施例中,所述提取单元,用于从用户的历史在线活动时间记录中提取爆发簇结构,包括,

划分模块1001:设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1