单词的用户行为数的预测方法和装置的制作方法

文档序号:6607192阅读:145来源:国知局
专利名称:单词的用户行为数的预测方法和装置的制作方法
技术领域
本申请涉及互联网领域,尤其涉及一种网站中单词的用户行为数的预测方法和装置。
背景技术
在互联网领域中,对于网站或搜索引擎来说,网站流量和网站点击量一般呈规律性变化,可以利用历史数据进行有效的预测,但是对于单词的流量和点击量来说,变化一般不具备规律性。对几个基本概念进行澄清单词的流量是指在互联网领域中,某个网站或搜索引擎上一个单词在设定的时间周期内被搜索的次数;单词的点击量是指在互联网领域中,某个网站或搜索引擎上一个单词在设定的时间周期内被点击的次数;网站流量,是指在互联网领域中某个网站或搜索引擎上在设定的时间周期内所有单词的流量之和;网站点击量,是指在互联网领域中,某个网站或搜索引擎上在设定的时间周期内所有单词的点击量之和;其中,所述的时间周期可以根据实际需求灵活设定,一般情况下时间周期设定为一天。本申请实施例中,将单词的流量或者点击量统称为单词的用户行为数。现有技术中,针对用户行为数随着时间周期变化不大的部分单词,可以采用单词前一段时间周期内用户行为数的均值作为单词在当前时间周期内的用户行为数的预测结果;针对用户行为数随着时间周期呈规律性变化的部分单词,可以利用时间序列模型对变化规律进行建模或者利用现有的预测算法(例如机器学习、数据包络分析等),从而得到单词的用户行为数的预测结果。现有技术中提供的单词的流量及点击量的预测方法,存在如下问题很难判断单词的用户行为数随时间周期的变化幅度大小、以及是否呈规律性变化,从而无法准确选择有效的预测算法,导致预测的可靠性低;只有满足一定要求的序列才可以利用时间序列模型进行预测,而实际单词的用户行为数的序列一般无法满足要求,而利用时间序列模型之外的预测算法,导致设备的运算量较大、运算复杂度较高,对设备的性能消耗较大;互联网领域中,面对海量的单词,不可能针对每一个单词建立不同的预测模型,而分类建立预测模型往往导致性能下降,预测的准确率降低。然而,对未来数据的准确预测可以使网站的运营者了解到网站服务器将来会承受多大的网站流量及点击量的冲击, 以便对网站服务器的运行状况作出调整。例如,若网站的流量及点击量急剧增大,则需要对服务器进行扩容,若网站流量及点击量减小,则可以利用空闲的服务器处理其他业务需求。 综上所述,现有单词的流量及点击量的预测方法,预测的准确率和可靠性低,设备的运算量较大、运算复杂度高,对设备的性能消耗较大。

发明内容
本申请实施例提供一种单词的用户行为数的预测方法和装置,用以解决现有单词的用户行为数的预测方法存在的预测的准确率和可靠性低,设备的运算量较大、运算复杂度较高,对设备的性能消耗较大的问题。本申请实施例提供一种单词的用户行为数的预测方法,包括对单词的用户行为数的历史数据序列进行时域到频域的变换;根据变换得到的频域序列确定所述历史数据序列的每一个估计周期及其影响程度值;根据所述历史数据序列的每一个估计周期及其影响程度值,判断所述历史数据序列是否满足平稳序列标准;如果是,采用预测点之前若干历史数据点的用户行为数的均值作为预测点的用户行为数;否则,根据每一个估计周期及其影响程度值选择所述历史数据序列的主周期和奇异点,并基于选定的主周期和奇异点得到预测点的用户行为数。本申请实施例提供一种单词的用户行为数的预测装置,包括变换单元,用于对单词的用户行为数的历史数据序列进行时域到频域的变换;确定单元,用于根据变换得到的频域序列确定所述历史数据序列的每一个估计周期及其影响程度值;判断单元,用于根据所述历史数据序列的每一个估计周期及其影响程度值,判断所述历史数据序列是否满足平稳序列标准,如果是,则判定所述历史数据序列为平稳序列, 否则判定所述历史数据序列为非平稳序列;第一预测单元,用于针对平稳序列,采用预测点之前若干历史数据点的用户行为数的均值作为预测点的用户行为数;选择单元,用于针对非平稳序列,根据每一个估计周期及其影响程度值选择所述历史数据序列的主周期和奇异点;第二预测单元,用于基于选定的主周期和奇异点得到预测点的用户行为数。本申请实施例提供的单词的用户行为数的预测方法和装置,首先对单词的用户行为数的历史数据序列进行时域到频域的变换,确定出该历史数据序列的每一个估计周期及其影响程度值,从而可以准确判断单词的用户行为数的变化是否大、以及是否呈规律性变化;针对平稳序列,利用均值算法进行预测,针对非平稳序列,选定主周期和奇异点,基于主周期和奇异点得到预测点的用户行为数,针对不同的序列采取不同的预测算法,能够减轻系统的工作压力,对于平稳序列的历史数据可以快速预测到将来数据,对于非平稳序列的历史数据可以准确、可靠的预测到将来数据;本申请实施例提供的单词的用户行为数的预测方法和装置,对互联网领域中海量的单词均可适用,并且时域到频域的变换、以及针对平稳序列和非平稳序列的预测算法均易于实现,能够有效降低设备的运算量和运算复杂度, 降低对设备的性能消耗。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。


图1为本申请实施例中单词的用户行为数的预测方法流程图;图2为本申请实施例中针对非平稳序列的一种较佳预测方法流程图3a为本申请实施例中历史数据序列的时域波形示意图;图北为本申请实施例中历史数据序列的频域波形示意图;图4为本申请实施例中预测系统的网络架构示意图;图5为本申请实施例中单词的用户行为数的预测装置框图;图6为本申请实施例中第二预测单元的一种可能结构框图;图7为本申请实施例中第二预测单元的另一种可能结构框图。
具体实施例方式本申请实施例提供一种单词的用户行为数的预测方法和装置,对单词的用户行为数的历史数据序列进行时域到频域的变换得到频域序列,根据频域序列确定历史数据序列的每一个估计周期及其影响程度值,从而判断出该历史数据序列是否呈明显规律性变化即是否为平稳序列,针对不同的序列采取不同的预测算法,从而降低设备的运算量和运算复杂度,降低对设备的性能消耗,提升预测的准确率和可靠性。以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。在介绍本申请实施例的具体实施方式
之前,首先澄清几个基本概念单词的用户行为数的预测,是指基于单词的用户行为数(流量或者点击量)的历史数据预测未来数据,需要说明的是,历史数据和未来数据对应的时间周期保持一致。所述的单词一般为用户的搜索词、购买词等。例如,若时间周期为天,则可以基于某个单词最近30天的流量预测第31天和第32 天的流量;若时间周期为小时,则可以基于某个单词最近20小时的点击量预测第21小时、 第22小时和第23小时的点击量,等等。为了实现对单词的用户行为数的预测,需要给出单词的用户行为数的历史数据序列、并指定预测点的数量。单词的用户行为数的历史数据序列,是指由单词的用户行为数的历史数据点组成的序列,历史数据点表示时间点和历史数据两方面含义,预测点表示时间点和未来数据两方面含义。例如基于某个单词最近30天的流量预测第31天和第32天的流量,则历史数据序列由30个历史数据点组成,每一个历史数据点表示特定日期(第1天至第30天中的一天)和当天的流量两方面含义,预测点有两个,每一个预测点表示特定日期(第31天和第32天中的一天)和当天的预测流量两方面含义。奇异点,是指在互联网领域中,一个单词的用户行为数发生明显变化的时间点。例如,在该时间点前后某个单词的用户行为数分别属于不同的数量级,或者该时刻点前后某个单词的用户行为数出现了明显的上升或下降。本申请实施例首先提供了一种单词的用户行为数的预测系统,该预测系统实际运行的网络架构如图1所示,包括网站数据库100、应用服务器101、预测装置102、解析服务器 103,其中网站数据库100,用于存储网站日志,网站日志中记录用户对每一个单词的搜索、 点击操作,以及操作时间等信息;应用服务器101,用于提供基于单词的用户行为数预测的各种应用服务,例如提供用户界面,根据运维人员的实际需求发起单词的用户行为数的预测请求,并展现预测结果即预测点的用户行为数;预测装置102,用于根据应用服务器101发起的该预测请求生成单词的用户行为数的解析请求并发送给解析服务器103,根据解析服务器103返回的单词的用户行为数的历史数据序列,得到预测点的用户行为数,并返回给应用服务器101 ;解析服务器103,用于根据预测装置102发送的该解析请求解析网站数据库100 中的网站日志,从解析结果中提取单词的用户行为数的历史数据序列,并返回给预测装置 102。基于上述单词的用户行为数的预测系统,本申请实施例提供了一种单词的用户行为数的预测方法,如图2所示,包括S201、对单词的用户行为数的历史数据序列进行时域到频域的变换;S202、根据变换得到的频域序列确定该历史数据序列的每一个估计周期及其影响程度值;其中,估计周期是指频域序列的可能的周期,就是根据频率值换算得到的周期值, 影响程度值是指估计周期在频域序列中所占的比重;S203、根据该历史数据序列的每一个估计周期及其影响程度值,判断该历史数据序列是否满足平稳序列标准;S204、如果是,采用预测点之前若干历史数据点的用户行为数的均值作为预测点的用户行为数;否则,根据每一个估计周期及其影响程度值选择所述历史数据序列的主周期和奇异点,并基于选定的主周期和奇异点得到预测点的用户行为数。主周期是指从历史数据序列的各估计周期中选择的一个可能性最高的周期。在S201的具体实施中,首先对单词的用户行为数的历史数据序列的提取过程进行说明。应用服务器根据运维人员的实际需求发起单词的用户行为数的预测请求,预测装置根据应用服务器发起的该预测请求生成单词的用户行为数的解析请求并发送给解析服务器,解析服务器根据预测装置发送的该解析请求解析网站数据库中的网站日志,从解析结果中提取单词的用户行为数的历史数据序列,并返回给预测装置;从而预测装置可以对单词的用户行为数的历史数据序列进行时域到频域的变换。一般利用FFT (Fast Fourier Transformation,快速傅里叶变换)、小波变换等对历史数据序列进行时域到频域的变换,其中FFT算法是DFT (Discrete Fourier Transformation,离散傅立叶变换)的一种快速算法。针对单词的用户行为数的历史数据序列来说,时域是描述其时间特性时使用的坐标系,时域波形表示单词的用户行为数的历史数据随时间的变化,其中横坐标为时间,纵坐标为时间点对应的历史数据;频域是描述其频率特性时使用的坐标系,频域波形表示该历史数据序列的每一个可能的周期(即估计周期)的影响程度值,其中横坐标为与估计周期相对应的频率,纵坐标为频率点对应的估计周期的影响程度值。在S202的具体实施中,以FFT为例介绍实现原理。离散傅立叶变换公式如公式[1]所示
权利要求
1.一种单词的用户行为数的预测方法,其特征在于,包括对单词的用户行为数的历史数据序列进行时域到频域的变换;根据变换得到的频域序列确定所述历史数据序列的每一个估计周期及其影响程度值;根据所述历史数据序列的每一个估计周期及其影响程度值,判断所述历史数据序列是否满足平稳序列标准;如果是,采用预测点之前若干历史数据点的用户行为数的均值作为预测点的用户行为数;否则,根据每一个估计周期及其影响程度值选择所述历史数据序列的主周期和奇异点, 并基于选定的主周期和奇异点得到预测点的用户行为数。
2.如权利要求1所述的方法,其特征在于,所述平稳序列标准包括所有估计周期的影响程度值均不超过设定的影响程度阈值。
3.如权利要求1所述的方法,其特征在于,所述根据每一个估计周期及其影响程度值选择所述历史数据序列的主周期和奇异点,具体包括根据配置的主周期范围,将满足所述主周期范围且影响程度值最大的估计周期作为主周期;并在主周期之外的各估计周期中,将影响程度值最大的估计周期作为奇异点。
4.如权利要求1、2或3所述的方法,其特征在于,所述基于选定的主周期和奇异点得到预测点的用户行为数,具体包括选取所述历史数据序列中奇异点之后的各历史数据点组成训练数据序列;利用时间序列模型对所述训练数据序列进行建模求解,得到预测点的用户行为数。
5.如权利要求1、2或3所述的方法,其特征在于,所述基于选定的主周期和奇异点得到预测点的用户行为数,具体包括选取所述历史数据序列中奇异点之后的各历史数据点组成训练数据序列;分别对同一主周期位置上的各训练数据进行取均值运算,得到每一个主周期位置对应的周期均值;将每一个训练数据与其所在的主周期位置对应的周期均值相减,得到去除周期的训练数据序列;利用时间序列模型对所述去除周期的训练数据序列进行建模求解,得到预测点的去除周期的用户行为数;将预测点的去除周期的用户行为数与其所在的主周期位置对应的周期均值相加,得到预测点的用户行为数。
6.如权利要求5所述的方法,其特征在于,将预测点的去除周期的用户行为数与其所在的主周期位置对应的周期均值相加,得到预测点的用户行为数之后,还包括确认当前得到的预测点的用户行为数的偏差超出设定的偏差阈值时,采用所述预测点之前一个主周期内去除周期的训练数据的均值作为所述预测点的去除周期的用户行为数;将预测点的去除周期的用户行为数与其主周期位置对应的周期均值相加,得到预测点的用户行为数。
7.如权利要求1所述的方法,其特征在于,利用快速傅里叶变换FFT、或者小波变换对所述历史数据序列进行时域到频域的变换。
8.如权利要求1所述的方法,其特征在于,所述单词的用户行为数为单词的流量或者点击量。
9.一种单词的用户行为数的预测装置,其特征在于,包括变换单元,用于对单词的用户行为数的历史数据序列进行时域到频域的变换; 确定单元,用于根据变换得到的频域序列确定所述历史数据序列的每一个估计周期及其影响程度值;判断单元,用于根据所述历史数据序列的每一个估计周期及其影响程度值,判断所述历史数据序列是否满足平稳序列标准,如果是,则判定所述历史数据序列为平稳序列,否则判定所述历史数据序列为非平稳序列;第一预测单元,用于针对平稳序列,采用预测点之前若干历史数据点的用户行为数的均值作为预测点的用户行为数;选择单元,用于针对非平稳序列,根据每一个估计周期及其影响程度值选择所述历史数据序列的主周期和奇异点;第二预测单元,用于基于选定的主周期和奇异点得到预测点的用户行为数。
10.如权利要求9所述的装置,其特征在于,所述选择单元,具体包括 存储子单元,用于存储配置的主周期范围;第一选择子单元,用于根据所述存储子单元中存储的主周期范围,将满足所述主周期范围且影响程度值最大的估计周期作为主周期;第二选择子单元,用于在主周期之外的各估计周期中,将影响程度值最大的估计周期作为奇异点。
11.如权利要求9或10所述的装置,其特征在于,所述第二预测单元,具体包括选取子单元,用于选取所述历史数据序列中奇异点之后的各历史数据点组成训练数据序列;预测子单元,用于利用时间序列模型对所述训练数据序列进行建模求解,得到预测点的用户行为数。
12.如权利要求9或10所述的装置,其特征在于,所述第二预测单元,具体包括选取子单元,用于选取所述历史数据序列中奇异点之后的各历史数据点组成训练数据序列;运算子单元,用于分别对同一主周期位置上的各训练数据进行取均值运算,得到每一个主周期位置对应的周期均值;去周期处理子单元,用于将每一个训练数据与其所在的主周期位置对应的周期均值相减,得到去除周期的训练数据序列;预测子单元,用于利用时间序列模型对所述去除周期的训练数据序列进行建模求解, 得到预测点的去除周期的用户行为数;周期恢复处理子单元,用于用于将预测点的去除周期的用户行为数与其所在的主周期位置对应的周期均值相加,得到预测点的用户行为数。
13.如权利要求12所述的装置,其特征在于,所述第二预测单元,还包括重预测子单元,用于确认所述周期恢复处理子单元当前得到的预测点的用户行为数的偏差超出设定的偏差阈值时,采用所述预测点之前一个主周期内去除周期的训练数据的均值作为所述预测点的去除周期的用户行为数;将预测点的去除周期的用户行为数与其主周期位置对应的周期均值相加,得到预测点的用户行为数。
全文摘要
本申请公开了一种单词的用户行为数的预测方法和装置,用以降低设备的运算量和运算复杂度,降低对设备的性能消耗,提升预测的准确率和可靠性。所述预测方法,包括对单词的用户行为数的历史数据序列进行时域到频域的变换;根据变换得到的频域序列确定历史数据序列的每一个估计周期及其影响程度值;根据所述历史数据序列的每一个估计周期及其影响程度值,判断所述历史数据序列是否满足平稳序列标准;如果是,采用预测点之前若干历史数据点的用户行为数的均值作为预测点的用户行为数;否则,根据每一个估计周期及其影响程度值选择所述历史数据序列的主周期和奇异点,并基于选定的主周期和奇异点得到预测点的用户行为数。
文档编号G06F17/30GK102346745SQ20101024456
公开日2012年2月8日 申请日期2010年8月2日 优先权日2010年8月2日
发明者张涛, 郭宁, 郭家清 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1