广播电视用户收视行为预测方法及系统与流程

文档序号:11216342阅读:487来源:国知局
广播电视用户收视行为预测方法及系统与流程
本发明涉及广播电视
技术领域
,更为具体地,涉及一种广播电视用户收视行为预测方法及系统。
背景技术
:如今,传统电视媒体同互联网等新媒体一样,对自身平台的节目收视情况都格外看重。由于收视结果是海量用户行为的累积,所以对用户收视行为进行预测,将会从源头解释收视成因,也便于进一步采取措施吸引、培养、稳固住忠实用户,以守住盈利底线、制造更多潜在的营收途径。speed算法(加强片段挖掘的序列预测)是以数据压缩领域的ppm型算法为基础、历经leziupdate算法和alz(activelezi)算法改进而成的序列预测算法,其原理是对历史数据建立前缀树和有限阶马尔可夫模型,并利用ppm算法计算可能组合的预测概率,概率最大的组合即作为预测结果。现有技术中,没有将speed算法应用到广播电视收视行为的预测,更加没有通过广播电视用户对节目或频道的收听情况,预测未来用户最喜爱的收视节目或频道组合。技术实现要素:鉴于上述问题,本发明的目的是提供一种基于speed算法对广播电视用户的收视行为进行预测的广播电视用户收视行为预测方法及系统。根据本发明的一个方面,提供一种广播电视用户收视行为预测方法,包括:步骤1,采集广播电视用户设定时间段内收视行为数据组成第一收视行为序列,所述收视行为包括收视指标、收听节目的标示符和收听频道的标示符中的一种或多种;步骤2,采用至少一种序列长度将所述第一收视行为序列划分为多个第二收视行为序列,所述第二收视行为序列的序列长度短于所述第一收视行为序列的序列长度;步骤3,根据第二收视行为序列构建第一收视行为序列的前缀树,包括:设定所述前缀树的最高层数,以第一收视行为序列中出现的每一个收视行为作为一个根节点,不大于所述最高层数的各第二收视行为序列中各种收视行为组合作为各分支,每一根节点与该根节点相连的各分支构成每一个子树,根节点代表的收视行为在第一收视行为序列中出现的频数为所述根节点的节点值,从根节点到子节点代表的收视行为组合在各第二收视行为序列中出现的频数之和为所述子节点的节点值;步骤4,将上述前缀树的子树里每一个分支的根节点代表的收视行为与除去底层子节点的各子节点代表的收视行为按照层顺序组成不同序列长度的多个第三收视行为序列;步骤5a,预测每一个第三收视行为序列下一次序的收视行为为所述第一收视行为序列中任一个收视行为的内部概率,所述内部概率按照下面的公式(1)和(2)计算,其中,i表示所述第一收视行为序列的前缀树的层数索引也表示第三收视行为序列的次序索引,y1表示所述第一收视行为序列的前缀树的子树的根节点,y2,...,yi表示所述子树的根节点y1的一个分支的第2层到第i层的子节点,y1y2...yi表示所述分支对应的序列长度为i的第三收视行为序列,1≤i≤n-1,n表示所述分支的最高层数,x表示要预测的收视行为,pint(x)表示所述第一收视行为序列的前缀树的根节点为x的内部概率,n(y1=x)表示所述第一收视行为序列的前缀树的子树的第一层中根节点为x的节点值,∑n(y1)表示所述第一收视行为序列的前缀树第一层的各子树根节点的节点值之和,pint(x|y1y2...yi)表示所述第三收视行为序列次序为i+1的收视行为为x的内部概率,n(yi+1=x)表示所述分支第i层节点yi的第i+1层的子节点为x的节点值,n(yi)表示所述分支的第i层的节点yi的节点值;步骤5b,根据与第三收视行为序列中每一个收视行为对应节点的节点值以及属于所述节点的下一层的子节点的节点值之和预测所述收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(3)计算,其中,pesc(i,yi)表示所述第三收视行为序列所在分支第i层节点yi的逃逸概率,表示所述第三收视行为序列所在分支第i层节点yi的第i+1层所有子节点的节点值的加和;步骤6,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(4)和(5)计算p(x|y1y2...yi)=p(i+1,x)=pint(x|y1y2…yi)+pesc(i,yi)*p(i,x)(4)p(x)=pint(x)(5)其中,p(x|y1y2…yi)和p(i+1,x)表示序列长度为i的所述第三收视行为序列次序i+1的收视行为是x的预测概率,p(i,x)表示所述第三收视行为序列次序为i的收视行为是x预测概率,p(x)表示所述第三收视行为序列次序为1的收视行为是x预测概率;步骤7,上述各第三收视行为序列的下一次序收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。根据本发明的另一个方面,提供一种广播电视用户收视行为预测方法,包括:步骤10-步骤50a与上述广播电视用户收视行为预测方法相同,不同之处在于:根据与第三收视行为序列中每一个收视行为对应节点的下一层的子节点的节点值之和和所述下一层的子节点中收视行为的不同种类数预测所述收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(6)计算,其中,pesc′(i,yi)表示第三收视行为序列所在分支第i层节点为yi的逃逸概率,表示第三收视行为序列所在分支第i层节点为yi的第i+1层所有子节点中收视行为的不同种类数,表示所述第三收视行为序列所在分支第i层节点为yi的第i+1层所有子节点的节点值的加和;步骤60,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述每一个第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(7)和(8)计算p′(x|y1y2…yi)=p′(i+1,x)=pint(x|y1y2…yi)+pesc′(i,yi)*p′(i,x)(7)p′(x)=pint(x)(8)其中,p′(x|y1y2…yi)和p′(i+1,x)表示序列长度i为的所述第三收视行为序列次序i+1的收视行为为x的预测概率,p′(i,x)表示所述第三收视行为序列次序为i的收视行为为x预测概率,p′(x)表示所述第三收视行为序列次序为1的收视行为为x预测概率;步骤70,上述各第三收视行为序列的下一次序收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。根据本发明的第三个方面,提供一种广播电视用户收视行为预测方法包括:步骤100-步骤400,与上述两种广播电视用户收视行为预测方法的对应步骤相同,不同之处在于:预测每一个第三收视行为序列下一次序的收视行为为所述第一收视行为序列中任一个收视行为的内部概率,所述内部概率按照下面的公式(9)计算,其中,i表示所述第一收视行为序列的前缀树的层数索引也表示第三收视行为序列的次序索引,1≤i≤n-1,n表示所述第三收视行为序列所在分支的最高层数,x表示要预测的收视行为,y1y2…yi表示根节点为y1,子节点依次为y2,…,yi的分支对应的序列长度为i的第三收视行为序列,pint′(x|y1y2…yi)表示所述序列长度为i的第三收视行为序列y1y2…yi下一次序收视行为为x的内部概率,pint′(x|y2…yi)表示根节点为y2,子节点依次为y3,…,yi的分支对应的序列长度为i-1的第三收视行为序列下一次序的收视行为为x的内部概率,pint′(x)表示根节点为x的内部概率,n(y1=x)表示所述第一收视行为序列的前缀树的子树的第一层中根节点为x的节点值,∑n(y1)表示所述第一收视行为序列的前缀树第一层的各子树根节点的节点值之和,n′(yi+1=x)表示各分支的底层的子节点为x的节点值,n′(yi)表示各分支的底层的上一层的节点yi的节点值;步骤500b,根据与第三收视行为序列中每一个收视行为作为根节点的各分支的底层子节点的节点值之和和所述底层子节点中收视行为的不同种类数预测所述每一个收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(10)计算,其中,pesc″(i,yi)表示根节点y1的分支y1y2...yi逃到根节点为y2的另一分支y2...yi的逃逸概率,表示根节点y1的分支y1y2...yi底层所有子节点中收视行为的不同种类数,表示根节点y1的分支y2...yi底层所有子节点的节点值的加和;步骤600,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(11)和(12)计算p″(x|y1y2...yi)=pint′(x|y1y2...yi)+pesc″(i,yi)*p″(x|y2y3...yi)(11)p″(x)=pint′(x)(12)其中,p″(x|y1y2...yi)表示根节点y1的分支y1y2...yi对应的第三收视行为序列下一次序的收视行为为x的预测概率,p″(x|y2y3...yi)表示根节点为y2的分支y2...yi对应的第三收视行为序列下一次序的收视行为为x的预测概率,p″(x)表示根节点为x的预测概率;步骤700,上述各第三收视行为序列的下一次序的收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。根据本发明的第四个方面,提供一种广播电视用户收视行为预测系统包括采集部、序列划分部、前缀树构建部、第一预测序列构建部、第一内部概率预测部、第一逃逸概率预测部、第一预测概率预测部和第一最佳收视行为序列确定部,其中,采集部执行上述步骤1的功能形成第一收视行为序,并将其发送给序列划分部和前缀树构建部;序列划分部执行上述步骤2的功能将第一收视行为序列划分成多个第二收视行为序列并发送给前缀树构建部;前缀树构建部执行步骤3的功能,根据划分部划分的多个第二收视行为序列构建对应的采集部形成的第一收视行为序列的前缀树;第一预测序列构建部执行步骤4的功能,调用前缀树构建部构建的前缀树形成多个第三收视行为序列,作为预测序列发送给第一内部概率预测部和第一逃逸概率预测部;第一内部概率预测部执行步骤5a的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的内部概率,并将所述内部概率发送到第一预测概率预测部;第一逃逸概率预测部执行步骤5b的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的逃逸概率,并将所述逃逸概率发送到第一预测概率预测部;第一预测概率预测部执行步骤6的功能,根据第一内部概率预测部预测的上述内部概率和第一逃逸概率预测部预测的上述逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,并将所述预测概率发送到第一最佳收视行为序列确定部;第一最佳收视行为序列确定部执行步骤7的功能,筛选出最佳收视行为序列。根据本发明的第五个方面,提供一种广播电视用户收视行为预测系统包括采集部、序列划分部、前缀树构建部、第一预测序列构建部、第一内部概率预测部、第二逃逸概率预测部、第二预测概率预测部和第二最佳收视行为序列确定部,其中,采集部执行上述步骤10的功能形成第一收视行为序,并将其发送给序列划分部和前缀树构建部;序列划分部执行上述步骤20的功能将第一收视行为序列划分成多个第二收视行为序列并发送给前缀树构建部;前缀树构建部执行步骤30的功能,根据划分部划分的多个第二收视行为序列构建对应的采集部形成的第一收视行为序列的前缀树;第一预测序列构建部执行步骤40的功能,调用前缀树构建部构建的前缀树形成多个第三收视行为序列,作为预测序列发送给第一内部概率预测部和第二逃逸概率预测部;第一内部概率预测部执行步骤50a的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的内部概率,并将所述内部概率发送到第二预测概率预测部;第二逃逸概率预测部执行步骤50b的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的逃逸概率,并将所述逃逸概率发送到第二预测概率预测部;第二预测概率预测部执行步骤60的功能,根据第一内部概率预测部预测的上述内部概率和第二逃逸概率预测部预测的上述逃逸概率确定每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的预测概率,并将所述预测概率发送到第二最佳收视行为序列确定部;第二最佳收视行为序列确定部执行步骤70的功能,筛选出最佳收视行为序列。根据本发明的第六个方面,提供一种广播电视用户收视行为预测系统包括采集部、序列划分部、前缀树构建部、第一预测序列构建部、第二内部概率预测部、第三逃逸概率预测部、第三预测概率预测部和第三最佳收视行为序列确定部,其中,采集部执行上述步骤100的功能形成第一收视行为序列,并将其发送给序列划分部和前缀树构建部;序列划分部执行上述步骤200的功能将第一收视行为序列划分成多个第二收视行为序列并发送给前缀树构建部;前缀树构建部执行步骤300的功能,根据划分部划分的多个第二收视行为序列构建对应的采集部形成的第一收视行为序列的前缀树;第一预测序列构建部执行步骤400的功能,调用前缀树构建部构建的前缀树形成多个第三收视行为序列,作为预测序列发送给第二内部概率预测部和第三逃逸概率预测部;第二内部概率预测部执行步骤500a的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的内部概率,并将所述内部概率发送到第三预测概率预测部;第三逃逸概率预测部执行步骤500b的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的逃逸概率,并将所述逃逸概率发送到第三预测概率预测部;第三预测概率预测部执行步骤600的功能,根据第二内部概率预测部预测的上述内部概率和第三逃逸概率预测部预测的上述逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列每一收视行为的预测概率,并将所述预测概率发送到第三最佳收视行为序列确定部;第三最佳收视行为序列确定部执行步骤700的功能,筛选出最佳收视行为序列。本发明所述广播电视用户收视行为预测方法即系统将电视用户收视行为数据看作是序列,采用内部概率和逃逸概率确定各预测序列组合的预测概率,基于speed算法以及改进的speed算法对用户的收视偏好进行预测,能够根据用户的收视数据对其未来的收视偏好进行预测。附图说明通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:图1是本发明所述广播电视用户收视行为预测方法的一个实施例的流程图;图2是本发明所述前缀树的示意图;图3是本发明所述广播电视用户收视行为预测系统的一个实施例的构成框图;图4是本发明所述广播电视用户收视行为预测方法的另一个实施例的流程图;图5是本发明所述广播电视用户收视行为预测系统的另一个实施例的构成框图;图6是本发明所述广播电视用户收视行为预测方法的第三实施例的流程图;图7是本发明所述广播电视用户收视行为预测系统的第三实施例的构成框图;图8是本发明多种广播电视用户收视行为预测方法的预测准确率的比较图。在所有附图中相同的标号指示相似或相应的特征或功能。具体实施方式在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。以下将结合附图对本发明的具体实施例进行详细描述。图1是本发明所述广播电视用户收视行为预测方法的一个实施例的流程图,如图1所示,所述广播电视用户收视行为预测方法是基于speed算法的收视行为预测方法,包括:步骤1,采集广播电视用户设定时间段内收视行为数据组成第一收视行为序列,所述收视行为包括收视指标、收听节目的标示符和收听频道的标示符中的一种或多种,收视指标可以是收视率、收视频次等,例如,某一个广播电视用户的第一收视行为序列为ebacbcabcdegfabcbacbg;步骤2,采用至少一种序列长度将所述第一收视行为序列划分为多个第二收视行为序列,所述第二收视行为序列的序列长度短于所述第一收视行为序列的序列长度,例如,上例中广播电视用户的第一收视行为序列划分成的第二收视行为序列包括ebacbc、abcde、gfab、cbacbg;步骤3,根据第二收视行为序列构建第一收视行为序列的前缀树,包括:设定所述前缀树的最高层数,以第一收视行为序列中出现的每一个收视行为作为一个根节点,不大于所述最高层数的各第二收视行为序列中各种收视行为组合作为各分支,每一根节点与该根节点相连的各分支构成每一个子树,根节点代表的收视行为在第一收视行为序列中出现的频数为所述根节点的节点值,从根节点到子节点代表的收视行为组合在各第二收视行为序列中出现的频数之和为所述子节点的节点值,例如,上例中第一收视行为序列的前缀树如图2所示;步骤4,将上述前缀树的子树里每一个分支的根节点代表的收视行为与除去底层子节点的各子节点代表的收视行为按照层顺序组成不同序列长度的多个第三收视行为序列,例如,一个第三收视行为序列bacb;步骤5a,预测每一个第三收视行为序列下一次序的收视行为为所述第一收视行为序列中任一个收视行为的内部概率,所述内部概率按照下面的公式(1)和(2)计算,其中,i表示所述第一收视行为序列的前缀树的层数索引也表示第三收视行为序列的次序索引,y1表示所述第一收视行为序列的前缀树的子树的根节点,y2,...,yi表示所述子树的根节点y1的一个分支的第2层到第i层的子节点,y1y2...yi表示所述分支对应的序列长度为i的第三收视行为序列,1≤i≤n-1,n表示所述分支的最高层数,x表示要预测的收视行为,pint(x)表示所述第一收视行为序列的前缀树的根节点为x的内部概率,n(y1=x)表示所述第一收视行为序列的前缀树的子树的第一层中根节点为x的节点值,∑n(y1)表示所述第一收视行为序列的前缀树第一层的各子树根节点的节点值之和,pint(x|y1y2...yi)表示所述第三收视行为序列次序为i+1的收视行为为x的内部概率,n(yi+1=x)表示所述分支第i层节点yi的第i+1层的子节点为x的节点值,n(yi)表示所述分支的第i层的节点yi的节点值;步骤5b,根据与第三收视行为序列中每一个收视行为对应节点的节点值以及属于所述节点的下一层的子节点的节点值之和预测所述收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(3)计算,其中,pesc(i,yi)表示所述第三收视行为序列所在分支第i层节点yi的逃逸概率,表示所述第三收视行为序列所在分支第i层节点yi的第i+1层所有子节点的节点值的加和;步骤6,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(4)和(5)计算,p(x|y1y2...yi)=p(i+1,x)=pint(x|y1y2…yi)+pesc(i,yi)*p(i,x)(4)p(x)=pint(x)(5)其中,p(x|y1y2…yi)和p(i+1,x)表示序列长度为i的所述第三收视行为序列次序i+1的收视行为是x的预测概率,p(i,x)表示所述第三收视行为序列次序为i的收视行为是x预测概率,p(x)表示所述第三收视行为序列次序为1的收视行为是x预测概率,例如,第三收视行为序列bacb后为a的预测概率为:p(a|bacb)=pint(a|bacb)+pesc(4,b)*p(a|bac)=pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*p(a|ba)}=pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*p(a|b)}}=pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*[pint(a|b)+pesc(1,b)*p(a)]}}=pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*[pint(a|b)+pesc(1,b)*pint(a)]}}=0;步骤7,上述各第三收视行为序列的下一次序收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。图3示出本发明所述广播电视用户收视行为预测系统的一个实施例,如图3所示,所述广播电视用户收视行为预测系统100包括采集部110、序列划分部120、前缀树构建部130、第一预测序列构建部140、第一内部概率预测部150、第一逃逸概率预测部160、第一预测概率预测部170和第一最佳收视行为序列确定部180,其中,采集部110执行上述步骤1的功能形成第一收视行为序列,并将其发送给序列划分部120和前缀树构建部130;序列划分部120执行上述步骤2的功能将第一收视行为序列划分成多个第二收视行为序列并发送给前缀树构建部130;前缀树构建部130执行步骤3的功能,根据划分部120划分的多个第二收视行为序列构建对应的采集部110形成的第一收视行为序列的前缀树;第一预测序列构建部140执行步骤4的功能,调用前缀树构建部130构建的前缀树形成多个第三收视行为序列,作为预测序列发送给第一内部概率预测部和第一逃逸概率预测部;第一内部概率预测部150执行步骤5a的功能,预测每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的内部概率,并将所述内部概率发送到第一预测概率预测部170;第一逃逸概率预测部160执行步骤5b的功能,预测每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的逃逸概率,并将所述逃逸概率发送到第一预测概率预测部170;第一预测概率预测部170执行步骤6的功能,根据第一内部概率预测部150预测的上述内部概率和第一逃逸概率预测部160预测的上述逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,并将所述预测概率发送到第一最佳收视行为序列确定部180;第一最佳收视行为序列确定部180执行步骤7的功能,筛选出最佳收视行为序列。上述基于speed算法的收视行为预测方法及系统,体现了长上下文会比短上下文带来更准确的预测结果,在计算预测概率时,赋予长上下文大权重、短上下文小权重,提高了预测准确率。在另一实施例中,如图4所示,另一广播电视用户收视行为预测方法是基于speed-c算法(“基于优化逃逸概率的speed算法”)的收视行为预测方法,步骤10-步骤50a与图1示出的广播电视用户收视行为预测方法的步骤1-步骤5a相同,不同之处在于:在步骤50b,根据与第三收视行为序列中每一个收视行为对应节点的下一层的子节点的节点值之和和所述下一层的子节点中收视行为的不同种类数预测所述收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(6)计算,其中,pesc′(i,yi)表示第三收视行为序列所在分支第i层节点为yi的逃逸概率,表示第三收视行为序列所在分支第i层节点为yi的第i+1层所有子节点中收视行为的不同种类数,表示所述第三收视行为序列所在分支第i层节点为yi的第i+1层所有子节点的节点值的加和;步骤60,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(7)和(8)计算,p′(x|y1y2…yi)=p′(i+1,x)=pint(x|y1y2…yi)+pesc′(i,yi)*p′(i,x)(7)p′(x)=pint(x)(8)其中,p′(x|y1y2…yi)和p′(i+1,x)表示序列长度i为的所述第三收视行为序列次序i+1的收视行为为x的预测概率,p′(i,x)表示所述第三收视行为序列次序为i的收视行为为x预测概率,p′(x)表示所述第三收视行为序列次序为1的收视行为为x预测概率,例如,图1的例子中第三收视行为序列后为a的预测概率为:其中,pesc′(4,b)表示分支bacb第4层子节点b的逃逸概率,也是分支bacb跳到低阶bac的逃逸概率;步骤70,上述各第三收视行为序列的下一次序收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。图5示出本发明所述广播电视用户收视行为预测系统的另一个实施例,如图5所示,所述广播电视用户收视行为预测系统100'包括采集部110、序列划分部120、前缀树构建部130、第一预测序列构建部140、第一内部概率预测部150、第二逃逸概率预测部160'、第二预测概率预测部170'和第二最佳收视行为序列确定部180',其中,采集部110执行上述步骤10的功能形成第一收视行为序,并将其发送给序列划分部120和前缀树构建部130;序列划分部120执行上述步骤20的功能将第一收视行为序列划分成多个第二收视行为序列并发送给前缀树构建部130;前缀树构建部130执行步骤30的功能,根据划分部120划分的多个第二收视行为序列构建对应的采集部110形成的第一收视行为序列的前缀树;第一预测序列构建部140执行步骤40的功能,调用前缀树构建部130构建的前缀树形成多个第三收视行为序列,作为预测序列发送给第一内部概率预测部150和第二逃逸概率预测部160';第一内部概率预测部150执行步骤50a的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列的每一个收视行为的内部概率,并将所述内部概率发送到第二预测概率预测部170';第二逃逸概率预测部160'执行步骤50b的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列的每一个收视行为的逃逸概率,并将所述逃逸概率发送到第二预测概率预测部170';第二预测概率预测部170'执行步骤60的功能,根据第一内部概率预测部150预测的上述内部概率和第二逃逸概率预测部160'预测的上述逃逸概率确定每一个第三收视行为序列下一次序为第一收视行为序列的每一个收视行为的预测概率,并将所述预测概率发送到第二最佳收视行为序列确定部180';第二最佳收视行为序列确定部180'执行步骤70的功能,筛选出最佳收视行为序列。图1和图3示出的基于speed算法的广播电视用户收视行为预测方法及系统未能充分利用电视用户收视行为的种类数据特点,在电视用户收视行为序列预测上精度不高,图4和图5示出的基于speed-c算法的广播电视用户收视行为预测方法及系统通过逃逸概率的计算方法,在逃逸概率中体现用户收视行为种类,对量级较大的序列具有更好的适应性,更能体现出“长上下文赋予大权重,短上下文赋予小权重”核心思想,提高了收视行为序列预测精度。在上述两个实施例中,将短序列y1…yi-2yi-1yi依次删除尾项所得各序列的预测概率加权求和值作为其后紧跟x的预测概率,并结合电视用户收视行为序列的数据特点,在第三实施例中,如图6所示,所述广播电视用户收视行为预测方法对短序列y1…yi-2yi-1yi依次删除首项所得各序列的预测概率加权求和值作为其后紧跟x的预测概率,是基于speed-cr算法(“基于优化逃逸概率和后缀匹配的speed算法”)的广播电视用户收视行为预测方法,包括:步骤100-步骤400,与图1和图4示出的广播电视用户收视行为预测方法步骤1-4和步骤10-40相同,不同之处在于:步骤500a,预测每一个第三收视行为序列下一次序的收视行为为所述第一收视行为序列中任一个收视行为的内部概率,所述内部概率按照下面的公式(9)计算,其中,i表示所述第一收视行为序列的前缀树的层数索引也表示第三收视行为序列的次序索引,1≤i≤n-1,n表示所述第三收视行为序列所在分支的最高层数,x表示要预测的收视行为,y1y2…yi表示根节点为y1,子节点依次为y2,…,yi的分支对应的序列长度为i的第三收视行为序列,pint′(x|y1y2…yi)表示所述序列长度为i的第三收视行为序列y1y2…yi下一次序收视行为为x的内部概率,pint′(x|y2…yi)表示根节点为y2,子节点依次为y3,…,yi的分支对应的序列长度为i-1的第三收视行为序列下一次序的收视行为为x的内部概率,pint′(x)表示根节点为x的内部概率,n(y1=x)表示所述第一收视行为序列的前缀树的子树的第一层中根节点为x的节点值,∑n(y1)表示所述第一收视行为序列的前缀树第一层的各子树根节点的节点值之和,n′(yi+1=x)表示各分支的底层的子节点为x的节点值,n′(yi)表示各分支的底层的上一层的节点yi的节点值;步骤500b,根据与第三收视行为序列中每一个收视行为作为根节点的各分支的底层子节点的节点值之和和所述底层子节点中收视行为的不同种类数预测所述每一个收视行为对应的节点从所在层逃逸的逃逸概率,所述逃逸概率按照下面的公式(10)计算,其中,pesc″(i,yi)表示根节点y1的分支y1y2…yi逃到根节点为y2的另一分支y2…yi的逃逸概率,表示根节点y1的分支y1y2…yi底层所有子节点中收视行为的不同种类数,表示根节点y1的分支y1y2…yi底层所有子节点的节点值的加和;步骤600,根据上述内部概率和逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,所述预测概率按照公式(11)和(12)计算p″(x|y1y2…yi)=pint′(x|y1y2…yi)+pesc″(i,yi)*p″(x|y2y3…yi)(11)p″(x)=pint′(x)(12)其中,p″(x|y1y2…yi)表示根节点y1的分支y1y2…yi对应的第三收视行为序列下一次序的收视行为为x的预测概率,p″(x|y2y3…yi)表示根节点为y2的分支y2…yi对应的第三收视行为序列下一次序的收视行为为x的预测概率,p″(x)表示根节点为x的预测概率,例如,图1的例子中第三收视行为序列后为a的预测概率为:其中,pesc″(5,b)表示从该分支bacb跳到低阶acb的逃逸概率,另外,在图2中采用细实线标出了计算上述第三收视行为序列设计到的各分支,从图2中可以看出,speed-cr算法的内部概率、逃逸概率和预测概率都是在不同分支(分支bacb、分支acb、分支cb和分支b)上进行的,相对于speed和speed-c算法内部概率、逃逸概率和预测概率都是在同一分支(分支bacb)的不同层上进行,更符合按照后缀去预测下一个字符的思路,可以有效提高预测精度;步骤700,上述各第三收视行为序列的下一次序的收视行为的各预测概率的最大值对应的第三收视行为序列和下一次序收视行为组合成的第四收视行为序列为最佳收视行为序列。图7示出本发明所述广播电视用户收视行为预测系统的第三实施例,如图7所示,所述广播电视用户收视行为预测系统100"包括采集部110、序列划分部120、前缀树构建部130、第一预测序列构建部140、第二内部概率预测部150"、第三逃逸概率预测部160"、第三预测概率预测部170"和第三最佳收视行为序列确定部180",其中,采集部110执行上述步骤100的功能形成第一收视行为序,并将其发送给序列划分部120和前缀树构建部130;序列划分部120执行上述步骤200的功能将第一收视行为序列划分成多个第二收视行为序列并发送给前缀树构建部130;前缀树构建部130执行步骤300的功能,根据划分部120划分的多个第二收视行为序列构建对应的采集部110形成的第一收视行为序列的前缀树;第一预测序列构建部140执行步骤400的功能,调用前缀树构建部140构建的前缀树形成多个第三收视行为序列,作为预测序列发送给第二内部概率预测部150"和第三逃逸概率预测部160";第二内部概率预测部150"执行步骤500a的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的内部概率,并将所述内部概率发送到第三预测概率预测部170";第三逃逸概率预测部160"执行步骤500b的功能,预测每一个第三收视行为序列下一次序为第一收视行为序列每一收视行为的逃逸概率,并将所述逃逸概率发送到第三预测概率预测部170";第三预测概率预测部170"执行步骤600的功能,根据第二内部概率预测部150"预测的上述内部概率和第三逃逸概率预测部160"预测的上述逃逸概率确定每一个第三收视行为序列下一次序为所述第一收视行为序列中每一个收视行为的预测概率,并将所述预测概率发送到第三最佳收视行为序列确定部180";第三最佳收视行为序列确定部180"执行步骤700的功能,筛选出最佳收视行为序列。在第二和第三实施例中的广播电视用户收视行为预测方法及系统逃逸概率是防止了零概率字符的出现,同时减小低阶短上下文概率对预测概率的影响,相对于第一实施例中的广播电视用户收视行为预测方法及系统具有更高的预测准确率。在上述三个实施例中,通过speed算法、speed-c算法或者speed-cr算法建立了了一个有限阶的马尔科夫模型,其上下文之间的数学关系也维持在一定距离内,且其统计结果会受到局部某些频繁出现的字符的影响。为了将用户收视行为序列的长期习惯特征引入预测过程,优选地,所述广播电视用户收视行为预测方法采用“s-markov方法”(“简化马尔可夫方法”)来对预测结果进行辅助性判断,以便进一步提高预测精度,具体地,所述步骤4或步骤40或步骤400还包括:将第一收视行为序列中每一个收视行为作为一个状态,即将每一个根节点作为一个状态,根据一个状态转移到另一个状态的转移概率构建建立马尔科夫模型,其中,所述转移概率按照公式(13)计算其中,amn表示由状态m到状态n的转移概率也是根节点m到根节点n的转移概率,表示根节点为m的第二层子节点n的节点值也是第三收视序列mn在各第二收视频道序列中出现的频数之和,n(f2)表示所有只有二层的分支f2的个数也是所有序列长度为2的第三收视序列的个数;选定任一个状态为起始状态q1,从所述起始状态位于马尔科夫模型的状态转移矩阵的第hq1行中找到起始状态q1的最大转移概率值对应的状态q2;从所述状态位于所述马尔科夫模型的状态转移矩阵的第hq2行找到状态q2的最大转移概率值对应的状态q3,依次循环,当其中任一个状态第二次出现时,将所述任一个状态第二次出现前各不同状态组成第五收视行为序列{q1,q2,q3,...};判断第五收视行为序列是否是非空集;如果是非空集,将所述第五收视行为序列作为最佳收视行为序列;如果是空集,则各第三收视行为序列执行步骤5a至步骤7或者步骤50a至步骤70或者步骤500a至步骤700,将所述第四收视行为序列作为最佳收视行为序列。另外,优选地,在步骤3或步骤30或步骤300中,还包括:设定频数阈值,将节点值小于所述频数阈值的节点从前缀树中去除。相应地,图3、图5和图7示出的广播电视用户收视行为预测系统还包括:模型构建部190-1,将第一收视行为序列中每一个收视行为作为一个状态,即将每一个根节点作为一个状态,根据一个状态转移到另一个状态的转移概率构建马尔科夫模型,其中,所述转移概率按照公式(13)计算其中,amn表示由状态m到状态n的转移概率也是根节点m到根节点n的转移概率,表示根节点为m的第二层子节点n的节点值也是第三收视序列mn在各第二收视频道序列中出现的频数之和,n(f2)表示所有只有二层的分支f2的个数也是所有序列长度为2的第三收视序列的个数;第二预测序列构建部190-2,选定任一个状态为起始状态q1,从所述起始状态位于模型构建部构建的马尔科夫模型的状态转移矩阵的第hq1行中找到起始状态q1的最大转移概率值对应的状态q2,从所述状态位于所述马尔科夫模型的状态转移矩阵的第hq2行找到状态q2的最大转移概率值对应的状态q3,依次循环,当其中任一个状态第二次出现时,将所述任一个状态第二次出现前各不同状态组成第五收视行为序列作为{q1,q2,q3,...}预测序列;判断部190-3,判断第五收视行为序列是否是非空集,如果是非空集,将第五收视行为序列发送给第一最佳收视行为序列确定部、第二最佳收视行为序列确定部或第三最佳收视行为序列确定部作为最佳收视行为序列,否则,将第三收视行为序列发送给第一内部概率预测部、第一逃逸概率预测部、第一预测概率预测部和第一最佳收视行为序列确定部或者第一内部概率预测部、第二逃逸概率预测部、第二预测概率预测部和第二最佳收视行为序列确定部或者第二内部概率预测部、第三逃逸概率预测部、第三预测概率预测部和第三最佳收视行为序列确定部,进行内部概率、逃逸概率和预测概率分析,得到最大预测概率对应的将所述第四收视行为序列作为最佳收视行为序列。另外,优选地,上述广播电视用户收视行为预测系统还包括:阈值设定部190-4,设定频数阈值,将节点值小于所述频数阈值的节点从前缀树构建部构建的前缀树中去除。上述speed、speed-c、speed-cr以及与s-markov方法相结合的述广播电视用户收视行为预测方法及系统,依次进行逃逸概率、预测概率计算过程、添加习惯列表判断这三个角度的改进对电视用户收视行为序列进行预测分析,提高了预测精度。在上述第一实施例至第三实施例中示出了将设定时间段内的收视收据组成一个第一收视行为序列,但是本发明并不限于此,当序列长度较大,为了加快运算速度或者预测设定时间段内不同单位时间的收视偏好时,可以将设定时间段划分成多个单位时间段,构建多个第一收视行为序列,每一个第一收视行为序列有一个总节点,总节点的节点值为其下一层根节点的节点值之和,如图2中的ω(21),又如,设定时间段为一星期,单位时间段为星期一至星期日,通过构建7个如图2中的前缀树,可以同时分析多个前缀树,得到用户星期一至星期日每天的收视偏好。本发明可以采用speed算法、speed算法和s-markov方法结合、speed-c算法、speed-c算法和s-markov方法结合、speed-cr算法或者speed-cr算法和s-markov方法结合的广播电视用户收视行为预测方法及系统预测广播用户的收视偏好,在本发明的一个具体实施例中,通过预测准确率来说明上述基于speed、speed-c、speed-cr及speed-cr+s-markov的四种收视行为预测方法的预测准确性,其中,所述预测准确率按照下面的公式(14)计算,其中,n表示某方法得到最佳收视行为组合与实际结果相符的数目,n表示第二收视行为序列的总数。选取2014年8月1日至2016年2月29日共18个月的机顶盒尾号为714的用户收视频道序列作为数据源,选取2016年3月1日至2016年4月30日共两个月的数据作为预测准确率的验证数据。上述数据源可以按照自然日或者小时或者星期等划分成多个第一收视频道序列,从而得到用户在每一个自然日或者每一个小时或者每一个星期对频道的收视偏好,例如,按自然日将一星期内的收视数据划分为七组,选取星期一的这一组连续频道序列形成一个第一收视频道序列,如下所示:8,33,22,159,156,33,84,64,13,15,19,17,19,24,19,20,22,27,9...对上述第一收视频道序列进行分解得到多个第二收视频道序列,可以通过建立合适大小的滑动窗口来对第一收视频道序列进行分解,在已确定大小的窗口向前滑动的同时,将每次移动后窗口内的第二收视频道序列进行记录,直到窗口滑到第一收视频道序列末尾,则所记录的一连串第二收视频道序列便是第一收视序列的分解结果,其中,根据不同的实际问题,可选取适当的滑动窗口大小。使用定长的滑动窗口将会得到长度相同的许多第二收视频道序列,其格式较为规整;使用变长的滑动窗口将会得到长度不同的多种第二收视频道序列,对复杂序列的研究有较大意义,例如,当第一收视频道序列是“8,33,22,159,156”,则按照不同序列长度经过序列分解过程后,得到的众多第二收视频道序列如表1所示:表1滑动窗口大小分解出的第二收视频道序列18,33,22,159,1562833,3322,22159,159156383322,3322159,22159156483322159,3322159156583322159156在上述表1中,每个第二收视频道序列的内部频道按其在原序列中的前后顺序排列,可以发生频道空缺,如原序列“8,33,22,159,156”分解出了“8,22”,但不能发生顺序颠倒的情况,如分解出了“8,22,33”。另外,还可以设置合适的频数阈值,将其与第一收视频道序列的前缀树中各节点的出现频次比较,来决定是否保留该节点,如本例中默认阈值为1,即出现频数至少1次的节点都将被保留。本实例分别基于speed、speed-c、speed-cr及speed-cr+s-markov的四种收视频道预测方法将上述收视用户18个月的数据源按照设定时间段组成多个第一收视频道序列,按照序列长度为5将每一个第一收视频道序列划分成多个第二收视频道序列(如第一收视频道序列abcdefg分解成abcde、bcdef、cdefg这三种第二收视频道序列),构建每一个第一收视频道序列的前缀树,将节点值小于频数阈值的节点进行删除,得到每一个第一收视频道序列的序列长度不大于4的多个第三收视频道序列,预测各第三收视频道序列后紧跟下一次序频道的预测概率,得到最佳收视频道序列,并与后两个月的实际结果对比,得到预测准确率,表2示出了部分第一收视频道序列的上述四种预测方法的预测精度,表2如图8所示,横轴代表每一条第一收视频道序列按序列长度为5划分后第二收视频道序列总数目,纵轴代表预测准确率,图中曲线a代表对频道收视数据基于speed的收视频道预测方法进行预测的预测准确率,曲线b代表对频道收视数据基于speed-c的收视频道预测方法进行预测的预测准确率,曲线c代表对频道收视数据基于speed-cr的收视频道预测方法进行预测的预测准确率,曲线d代表基于speed-cr和s-markov的收视频道预测方法进行预测的预测准确率,可以看出,随着实验数据短序列数目的增加,预测精度也有增加的趋势,曲线b、c和d代表的预测方法的预测精度要高于曲线a代表的预测方法,且曲线b、c和d代表的预测方法的平均预测精度相对于曲线a代表的预测方法的平均预测精度依次有1.2%、11.8%和17.9%的提升。综上所述,参照附图以示例的方式描述了根据本发明提出的广播电视用户收视行为预测方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的系统及方法,还可以在不脱离本
发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1