媒体资源生命周期的预测方法、相关装置及存储介质与流程

文档序号:29404748发布日期:2022-03-26 10:20阅读:103来源:国知局
媒体资源生命周期的预测方法、相关装置及存储介质与流程

1.本技术涉及计算机技术领域,特别涉及一种媒体资源生命周期的预测方法、相关装置及存储介质。


背景技术:

2.在传统的内容分发网络(content delivery network,cdn)中,在源站点上的媒体资源一般是人工下架的方式进行清理,对于缓存节点的内容淘汰方式一般为:最近最少使用(least recently used,lru)或者最不经常使用(least frequently used,fru),也就是被动的淘汰,当资源长期不被使用时或者存储空间不够用时对比较长时间没有访问到的媒体资源进行清理。
3.对于最近被访问的资源进行缓存。这种方式主要的问题是:对于源站点媒体资源人工清理既缺乏效率也缺乏依据,往往导致长期不做清理,虚耗空间同时增加了媒资管理的困难。并且,缓存节点使用被动清理方式,即使非常媒体冷门资源或者时效性非常强都花费大量的带宽回源花费空间进程存储非常不经济,而对有可能翻红的媒体资源却可能因为长期无人访问而清理掉。


技术实现要素:

4.有鉴于此,本技术提供一种媒体资源生命周期的预测方法、相关装置及存储介质,可以对媒体资源生命周期进行精准的预测,从而可以根据预测结果进行后续处理。
5.本技术第一方面提供了一种媒体资源生命周期的预测方法,包括:
6.针对每一个媒体资源,在数据库中获取得到所述媒体资源的基本属性以及在日志数据中提取所述媒体资源在预设时间段内的线上指标;
7.针对所述媒体资源的每一个关键性事件,根据所述关键性事件所属类型对应的生存曲线确定所述关键性事件的生命周期期望值;其中,所述生存曲线由生存率和生存时间绘制;
8.将所有所述关键性事件的生命周期期望值、所述线上指标以及所述基本属性输入至生命周期预测模型中,输出得到所述媒体资源的预测生命周期;其中,所述生命周期预测模型由训练样本集对回归模型进行训练得到;所述训练样本集包括:至少一个训练样本媒体资源的相关信息;所述训练样本媒体资源的相关信息包括:所述训练样本媒体资源的基本信息、所述训练样本媒体资源的线上指标、所述训练样本媒体资源的所有所述关键性事件的生命周期期望值以及所述训练样本媒体资源的真实生命周期。
9.可选的,所述生存曲线的绘制方法,包括:
10.针对数据库中每一个数据维度,在所述数据维度中随机抽取媒体资源作为样本媒体资源;
11.根据是否发生待观察的关键事件为标准,将所述样本媒体资源划分为观测组以及对照组;
12.分别计算所述观测组的样本媒体资源和所述对照组的样本媒体资源的生存时间,得到待观察的关键事件发生后的生命时间的分布特点;
13.根据所述生命时间的长短,估算得到各个时间点的生存率;
14.利用所述生命时间以及所述生存率绘制生存曲线。
15.可选的,所述媒体资源生命周期的预测方法,还包括:
16.通过生存率以及所述生存率的标准误对各个所述样本媒体资源的生存率进行检验,得到检验结果;其中,所述检验结果为是否存在差异。
17.可选的,所述媒体资源生命周期的预测方法,还包括:
18.对生命周期终结的媒体资源的生命周期长度进行更新,并存入数据库;其中,所述生命周期终结的媒体资源为在预设时间内无任何访问产生的媒体资源。
19.可选的,所述生命周期预测模型的构建方法,包括:
20.构建训练样本集;其中,所述训练样本集包括:至少一个训练样本媒体资源的相关信息;所述训练样本媒体资源的相关信息包括:所述训练样本媒体资源的基本信息、所述训练样本媒体资源的线上指标、所述训练样本媒体资源的所有所述关键性事件的生命周期期望值以及所述训练样本媒体资源的真实生命周期;
21.针对所述训练样本集中的每一个训练样本媒体资源,将所述训练样本媒体资源的相关信息输入至回归模型中,得到所述训练样本媒体资源的预测生命周期;
22.利用所述训练样本媒体资源的预测生命周期与所述训练样本媒体资源的真实生命周期之间的误差,对所述回归模型中的参数进行不断调整,直至调整后的所述训练样本媒体资源的预测生命周期与所述训练样本媒体资源的真实生命周期之间的误差满足预设的收敛条件时,将所述调整后的回归模型确定为生命周期预测模型。
23.可选的,所述将所有所述关键性事件的生命周期期望值、所述线上指标以及所述基本属性输入至生命周期预测模型中,输出得到所述媒体资源的预测生命周期之后,还包括:
24.判断所述媒体资源的预测生命周期是否大于生命周期阈值;
25.若判断出所述媒体资源的预测生命周期不大于生命周期阈值,则对所述媒体资源进行主动清理。
26.可选的,所述媒体资源生命周期的预测方法,还包括:
27.接收并响应用户针对目标媒体资源的管理指令;其中,所述目标媒体资源为预测生命周期大于生命周期阈值的媒体资源;所述管理指令分为预热、保留、清理和推送。
28.本技术第二方面提供了一种媒体资源生命周期的预测装置,包括:
29.获取单元,用于针对每一个媒体资源,在数据库中获取得到所述媒体资源的基本属性以及在日志数据中提取所述媒体资源在预设时间段内的线上指标;
30.确定单元,用于针对所述媒体资源的每一个关键性事件,根据所述关键性事件所属类型对应的生存曲线确定所述关键性事件的生命周期期望值;其中,所述生存曲线由生存率和生存时间绘制;
31.输入单元,用于将所有所述关键性事件的生命周期期望值、所述线上指标以及所述基本属性输入至生命周期预测模型中,输出得到所述媒体资源的预测生命周期;其中,所述生命周期预测模型由训练样本集对回归模型进行训练得到;所述训练样本集包括:至少
一个训练样本媒体资源的相关信息;所述训练样本媒体资源的相关信息包括:所述训练样本媒体资源的基本信息、所述训练样本媒体资源的线上指标、所述训练样本媒体资源的所有所述关键性事件的生命周期期望值以及所述训练样本媒体资源的真实生命周期。
32.可选的,所述生存曲线的绘制单元,包括:
33.抽取单元,用于针对数据库中每一个数据维度,在所述数据维度中随机抽取媒体资源作为样本媒体资源;
34.划分单元,用于根据是否发生待观察的关键事件为标准,将所述样本媒体资源划分为观测组以及对照组;
35.计算单元,用于分别计算所述观测组的样本媒体资源和所述对照组的样本媒体资源的生存时间,得到待观察的关键事件发生后的生命时间的分布特点;
36.估算单元,用于根据所述生命时间的长短,估算得到各个时间点的生存率;
37.绘制子单元,用于利用所述生命时间以及所述生存率绘制生存曲线。
38.可选的,媒体资源生命周期的预测装置,还包括:
39.检验单元,用于通过生存率以及所述生存率的标准误对各个所述样本媒体资源的生存率进行检验,得到检验结果;其中,所述检验结果为是否存在差异。
40.可选的,媒体资源生命周期的预测装置,还包括:
41.更新单元,用于对生命周期终结的媒体资源的生命周期长度进行更新,并存入数据库;其中,所述生命周期终结的媒体资源为在预设时间内无任何访问产生的媒体资源。
42.可选的,所述生命周期预测模型的构建单元,包括:
43.构建单元,用于构建训练样本集;其中,所述训练样本集包括:至少一个训练样本媒体资源的相关信息;所述训练样本媒体资源的相关信息包括:所述训练样本媒体资源的基本信息、所述训练样本媒体资源的线上指标、所述训练样本媒体资源的所有所述关键性事件的生命周期期望值以及所述训练样本媒体资源的真实生命周期;
44.第二输入单元,用于针对所述训练样本集中的每一个训练样本媒体资源,将所述训练样本媒体资源的相关信息输入至回归模型中,得到所述训练样本媒体资源的预测生命周期;
45.训练单元,用于利用所述训练样本媒体资源的预测生命周期与所述训练样本媒体资源的真实生命周期之间的误差,对所述回归模型中的参数进行不断调整,直至调整后的所述训练样本媒体资源的预测生命周期与所述训练样本媒体资源的真实生命周期之间的误差满足预设的收敛条件时,将所述调整后的回归模型确定为生命周期预测模型。
46.可选的,媒体资源生命周期的预测装置,还包括:
47.判断单元,用于判断所述媒体资源的预测生命周期是否大于生命周期阈值;
48.清理单元,用于若所述判断单元判断出,所述媒体资源的预测生命周期不大于生命周期阈值,则对所述媒体资源进行主动清理。
49.可选的,媒体资源生命周期的预测装置,还包括:
50.响应单元,用于接收并响应用户针对目标媒体资源的管理指令;其中,所述目标媒体资源为预测生命周期大于生命周期阈值的媒体资源;所述管理指令分为预热、保留、清理和推送。
51.本技术第三方面提供了一种电子设备,包括:
52.一个或多个处理器;
53.存储装置,其上存储有一个或多个程序;
54.当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面任意一项所述的媒体资源生命周期的预测方法。
55.本技术第四方面提供了一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面任意一项所述的媒体资源生命周期的预测方法。
56.由以上方案可知,本技术提供一种媒体资源生命周期的预测方法、相关装置及存储介质,所述媒体资源生命周期的预测方法包括:首先,针对每一个媒体资源,在数据库中获取得到所述媒体资源的基本属性以及在日志数据中提取所述媒体资源在预设时间段内的线上指标;然后,针对所述媒体资源的每一个关键性事件,根据所述关键性事件所属类型对应的生存曲线确定所述关键性事件的生命周期期望值;其中,所述生存曲线由生存率和生存时间绘制;再将所有所述关键性事件的生命周期期望值、所述线上指标以及所述基本属性输入至生命周期预测模型中,输出得到所述媒体资源的预测生命周期;其中,所述生命周期预测模型由训练样本集对回归模型进行训练得到;所述训练样本集包括:至少一个训练样本媒体资源的相关信息;所述训练样本媒体资源的相关信息包括:所述训练样本媒体资源的基本信息、所述训练样本媒体资源的线上指标、所述训练样本媒体资源的所有所述关键性事件的生命周期期望值以及所述训练样本媒体资源的真实生命周期。从而实现对媒体资源生命周期进行精准的预测,进而可以根据预测结果进行后续处理。
附图说明
57.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
58.图1为本技术实施例提供的一种媒体资源生命周期的预测方法的具体流程图;
59.图2为本技术另一实施例提供的一种生存曲线的绘制方法的流程图;
60.图3为本技术另一实施例提供的一种生命周期预测模型的构建方法的流程图;
61.图4为本技术另一实施例提供的一种媒体资源生命周期的预测装置的示意图;
62.图5为本技术另一实施例提供的一种实现媒体资源生命周期的预测方法的电子设备的示意图。
具体实施方式
63.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
64.需要注意,本技术中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,
而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
65.本技术实施例提供了一种媒体资源生命周期的预测方法,如图1所示,具体包括以下步骤:
66.s101、针对每一个媒体资源,在数据库中获取得到媒体资源的基本属性以及在日志数据中提取媒体资源在预设时间段内的线上指标。
67.其中,基本属性包括但不限于:内容的类型(新闻、电影、动画),设计人物(演员,主持),主体对象(儿童,老人,女性)等,此处不做限定。线上指标包括但不限于:最近时间段内的各个运行指标,比如时间段内访问次数,访问间隔,访问时长,资源时长等,此处同样不做限定。预设时间段(如1周、3天、1个月等)由技术人员或相关有权限的人员进行设置、更改,此处不做限定。
68.可以理解的是,提取的线上指标不仅限于一种线上指标,是对线上指标的汇总,在汇总的过程中,如果是在生命周期预测模型训练时那么需要严格按照训练时的时间点采集数据。如果是使用生命周期预测模型对媒体资源进行回归预测时则需要使用预测的时间点数据。
69.s102、针对媒体资源的每一个关键性事件,根据关键性事件所属类型对应的生存曲线确定关键性事件的生命周期期望值。
70.其中,生存曲线由生存率和生存时间绘制。
71.具体的,根据生存时间以及其对应的生存率计算得到生命周期期望值。计算方式为统计学中的期望算法,即数值乘以对应概率再累加。例如:某彩票中1000元的概率是1%,那么中100元概率是10%,那么每次的期望就1000*1%+100*10%=20元。
72.可选的,在申请的另一实施例中,生存曲线的绘制方法的一种实施方式,如图2所示,包括:
73.s201、针对数据库中每一个数据维度,在数据维度中随机抽取媒体资源作为样本媒体资源。
74.s202、根据是否发生待观察的关键事件为标准,将样本媒体资源划分为观测组以及对照组。
75.其中,待观察关键事件可以是但不限于,某剧的主演获奖、某剧进行了影片重置等,此处不做限定。
76.也就是说,将已经发生待观察关键事件的媒体资源,作为观测组;将未发生待观察关键事件的媒体资源作为对照组。观测组是有变化的,对照组是没变化的。以待观察的关键事件为影片重制为例。如果现在需要对一个老影片做黑白转彩的操作。不知道其转换的效果如何,那么可以用之前做过相同操作的类似影片和没做的影片在同一时间段内的表现做为数据参照。前者就是观测组,后者是对照组,通过分析可以知道这个操作是否对生命周期有影响,影响程度。关键事件本身是预设的,但是也会根据实际的情况进行不断的增补。
77.s203、分别计算观测组的样本媒体资源和对照组的样本媒体资源的生存时间,得
到待观察的关键事件发生后的生命时间的分布特点。
78.其中,生存时间是指死亡时间点减去关键事件(待观察的关键事件)的时间点的天数。关键事件的时间点,如前述示例中转码重置并上线时间。
79.对生存时间按照日期的进行统计,即可得到待观察的关键事件发生后的生命时间的分布特点。
80.s204、根据生命时间的长短,估算得到各个时间点的生存率。
81.估算就是指算样本的分布。以上述实例的重新转码来举例:观测组有100个样本,其中生存时间超过100天的有70个,那么该事件在100天的生存率是70%,超过200天的是40个,那么200天生存率就是40%。
82.s205、利用生命时间以及生存率绘制生存曲线。
83.其中,可以但不限于以生存率为纵轴,生存时间为横轴就是生存曲线,此处不做限定。
84.需要说明的是,在生存曲线上生存率为50%对应的生存时间就是中位生存时间。
85.可选的,在本技术的另一实施例中,媒体资源生命周期的预测方法的一种实施方式,还包括:
86.通过生存率以及生存率的标准误对各个样本媒体资源的生存率进行检验,得到检验结果。
87.其中,检验结果为是否存在差异。
88.需要说明的是,标准误=标准差/n的根号。其用于衡量数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。
89.具体的,若对照组的生存曲线与观测组的生存曲线不存在差异,则说明该事件对生命周期没有任何影响。
90.还需要说明的是,进行检验的方式可以采用但不限于,log-rank检验、breslow检验等,此处不做限定。其中,log-rank检验是用来对比两条曲线表示的数据是否相互独立的一种检验,其理论依据是超几何分布和李雅普诺夫中心极限定理。如果观测组和对照组的样本与总样本的生存状态是相互独立的,那么在观测组下生存个数满足超几何分布。breslow在log-rank上额外增加了权重参数。
91.s103、将所有关键性事件的生命周期期望值、线上指标以及基本属性输入至生命周期预测模型中,输出得到媒体资源的预测生命周期。
92.其中,生命周期预测模型由训练样本集对回归模型进行训练得到;训练样本集包括:至少一个训练样本媒体资源的相关信息;训练样本媒体资源的相关信息包括:训练样本媒体资源的基本信息、训练样本媒体资源的线上指标、训练样本媒体资源的所有关键性事件的生命周期期望值以及训练样本媒体资源的真实生命周期。
93.需要说明的是,一般情况下我们做生存时间只需要考虑单个因素,直接使用前面的生存曲线计算回归模型即可,如果有多个关键事件同时发生才会使用比例风险回归模型(proportional hazards model,简称cox回归模型)。cox回归模型可以对多个关键因素进行归因。
94.需要注意的是,关键性事件是有很多种的,例如新格式上线,内容上热搜之类,并输出生存周期期望值,每个关键事件都会生成一个期望值。同时这个关键事件的改变只进
行一次计算,否则使用初始值,例如依据分析不进行新编码上线时生命周期预期是100天,而进行新编码时周期预期是10天,那么默认就是100天,只有新编码上线时才通过关键性事件分析模块更新该期望,并非每次计算都更新。
95.可选的,在本技术的另一实施例中,媒体资源生命周期的预测方法的一种实施方式,还包括:
96.对生命周期终结的媒体资源的生命周期长度进行更新,并存入数据库。
97.其中,生命周期终结的媒体资源为在预设时间内无任何访问产生的媒体资源。
98.需要说明的是,预设时间由技术人员或相关有权限的人员进行设置、更改,此处不做限定。
99.可选的,在本技术的另一实施例中,生命周期预测模型的构建方法的一种实施方式,如图3所示,包括:
100.s301、构建训练样本集。
101.其中,训练样本集包括:至少一个训练样本媒体资源的相关信息;训练样本媒体资源的相关信息包括:训练样本媒体资源的基本信息、训练样本媒体资源的线上指标、训练样本媒体资源的所有关键性事件的生命周期期望值以及训练样本媒体资源的真实生命周期。
102.可以理解的是,训练样本集合中应包含至少一个训练样本媒体资源的相关信息,用于对回归模型进行多次训练。
103.具体的,从数据库中读取训练样本媒体资源的相关信息,包括已知生命周期(死亡时间点减训练数据数据时间点天数)的媒体资源相关的所有标签,包括但不限于(涉及标签过多且模型会定期更新,标签也会更加丰富):媒体类型,内容类型,相关人物,生成时间,码率,分辨率等。从日志数据中提取对应每天资源的运行日志并计算一个时间周期(一般为1周)内的运行数据。
104.s302、针对训练样本集中的每一个训练样本媒体资源,将训练样本媒体资源的相关信息输入至回归模型中,得到训练样本媒体资源的预测生命周期。
105.s303、判断训练样本媒体资源的预测生命周期与训练样本媒体资源的真实生命周期之间的误差是否满足收敛条件。
106.其中,收敛条件由技术人员、有权限的相关人员等进行设定更改,此处不做限定。
107.具体的,若判断出训练样本媒体资源的预测生命周期与训练样本媒体资源的真实生命周期之间的误差满足收敛条件则执行步骤s304;若判断出训练样本媒体资源的预测生命周期与训练样本媒体资源的真实生命周期之间的误差不满足收敛条件,则执行步骤s305。
108.s304、将回归模型确定为生命周期预测模型。
109.s305、对回归模型中的参数进行调整。
110.以ligthgbm模型为例,模型输出之间调整的参数主要有num_leaves,min_data_in_leaf,max_depth,feature_fraction,max_bin,learning_rate,num_iterations,num_leaves,bagging_fraction,bagging_freq,min_split_gain等,此处不再赘述。ligthgbm是一种随机森林的模型,所以参数多于树,叶子等概念相关。num_leaves:叶子数,用于解决模型过拟合问题;min_data_in_leaf:一个叶子上数据的最小数量,可以用来处理过拟合;max_depth:树模型深度;feature_fraction:每次迭代中随机选择特征的比例,用于加快训
练速度;max_bin:特征的最大组数,控制训练精度;learning_rate:学习率,控制训练精度与速度;num_iterations:迭代次数也就是多少棵树,控制学习进度与过拟合;bagging_fraction:不进行重采样的情况下随机选择部分数据,控制过拟合;bagging_freq:bagging的次数,控制过拟合;min_split_gain:切分的最小增益。
111.需要说明的是,在本技术的具体实现过程中,不仅限于利用预设的收敛条件对模型进行修改、还可以设置一定的最大迭代次数,对模型进行训练,此处不做限定。
112.可以理解的是,在本技术的具体实现过程中,由于数据会逐渐丰富,需要定期重新训练模型。
113.可选的,在本技术的另一实施例中,在得到了媒体资源的预测生命周期之后,媒体资源生命周期的预测方法的一种实施方式,还包括:
114.判断媒体资源的预测生命周期是否大于生命周期阈值。
115.具体的,若判断出媒体资源的预测生命周期不大于生命周期阈值,可以直接对媒体资源进行主动清理,也可以等待用户的指示,此处不做先点;同样,若判断出媒体资源的预测生命周期大于生命周期阈值,可以对媒体资源按照预设的处理方式进行处理,也可以等待用户的指示,此处不做限定。
116.可选的,在本技术的另一实施例中,媒体资源生命周期的预测方法的一种实施方式,还包括:
117.接收并响应用户针对目标媒体资源的管理指令。
118.其中,目标媒体资源为预测生命周期大于生命周期阈值的媒体资源;管理指令分为预热、保留、清理、推送等,此处不做限定。
119.由以上方案可知,本技术提供一种媒体资源生命周期的预测方法:首先,针对每一个媒体资源,在数据库中获取得到媒体资源的基本属性以及在日志数据中提取媒体资源在预设时间段内的线上指标;然后,针对媒体资源的每一个关键性事件,根据关键性事件所属类型对应的生存曲线确定关键性事件的生命周期期望值;其中,生存曲线由生存率和生存时间绘制;再将所有关键性事件的生命周期期望值、线上指标以及基本属性输入至生命周期预测模型中,输出得到媒体资源的预测生命周期;其中,生命周期预测模型由训练样本集对回归模型进行训练得到;训练样本集包括:至少一个训练样本媒体资源的相关信息;训练样本媒体资源的相关信息包括:训练样本媒体资源的基本信息、训练样本媒体资源的线上指标、训练样本媒体资源的所有关键性事件的生命周期期望值以及训练样本媒体资源的真实生命周期。从而实现对媒体资源生命周期进行精准的预测,进而可以根据预测结果进行后续处理。
120.本技术另一实施例提供了一种媒体资源生命周期的预测装置,如图4所示,具体包括:
121.获取单元401,用于针对每一个媒体资源,在数据库中获取得到媒体资源的基本属性以及在日志数据中提取媒体资源在预设时间段内的线上指标。
122.确定单元402,用于针对媒体资源的每一个关键性事件,根据关键性事件所属类型对应的生存曲线确定关键性事件的生命周期期望值;其中,生存曲线由生存率和生存时间绘制。
123.输入单元403,用于将所有关键性事件的生命周期期望值、线上指标以及基本属性
输入至生命周期预测模型中,输出得到媒体资源的预测生命周期。
124.其中,生命周期预测模型由训练样本集对回归模型进行训练得到;训练样本集包括:至少一个训练样本媒体资源的相关信息;训练样本媒体资源的相关信息包括:训练样本媒体资源的基本信息、训练样本媒体资源的线上指标、训练样本媒体资源的所有关键性事件的生命周期期望值以及训练样本媒体资源的真实生命周期。
125.本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
126.可选的,在本技术的另一实施例中,生存曲线的绘制单元的一种实施方式,包括:
127.抽取单元,用于针对数据库中每一个数据维度,在数据维度中随机抽取媒体资源作为样本媒体资源。
128.划分单元,用于根据是否发生待观察的关键事件为标准,将样本媒体资源划分为观测组以及对照组。
129.计算单元,用于分别计算观测组的样本媒体资源和对照组的样本媒体资源的生存时间,得到待观察的关键事件发生后的生命时间的分布特点。
130.估算单元,用于根据生命时间的长短,估算得到各个时间点的生存率。
131.绘制子单元,用于利用生命时间以及生存率绘制生存曲线。
132.本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
133.可选的,在本技术的另一实施例中,媒体资源生命周期的预测装置的一种实施方式,还包括:
134.检验单元,用于通过生存率以及生存率的标准误对各个样本媒体资源的生存率进行检验,得到检验结果。
135.其中,检验结果为是否存在差异。
136.本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
137.可选的,在本技术的另一实施例中,媒体资源生命周期的预测装置的一种实施方式,还包括:
138.更新单元,用于对生命周期终结的媒体资源的生命周期长度进行更新,并存入数据库。
139.其中,生命周期终结的媒体资源为在预设时间内无任何访问产生的媒体资源。
140.本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
141.可选的,在申请的另一实施例中,生命周期预测模型的构建单元的一种实施方式,包括:
142.构建单元,用于构建训练样本集。
143.其中,训练样本集包括:至少一个训练样本媒体资源的相关信息;训练样本媒体资源的相关信息包括:训练样本媒体资源的基本信息、训练样本媒体资源的线上指标、训练样本媒体资源的所有关键性事件的生命周期期望值以及训练样本媒体资源的真实生命周期。
144.第二输入单元,用于针对训练样本集中的每一个训练样本媒体资源,将训练样本
媒体资源的相关信息输入至回归模型中,得到训练样本媒体资源的预测生命周期。
145.训练单元,用于利用训练样本媒体资源的预测生命周期与训练样本媒体资源的真实生命周期之间的误差,对回归模型中的参数进行不断调整,直至调整后的训练样本媒体资源的预测生命周期与训练样本媒体资源的真实生命周期之间的误差满足预设的收敛条件时,将调整后的回归模型确定为生命周期预测模型。
146.本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
147.可选的,在本技术的另一实施例中,媒体资源生命周期的预测装置的一种实施方式,还包括:
148.判断单元,用于判断媒体资源的预测生命周期是否大于生命周期阈值。
149.清理单元,用于若判断单元判断出,媒体资源的预测生命周期不大于生命周期阈值,则对媒体资源进行主动清理。
150.本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
151.可选的,在本技术的另一实施例中,媒体资源生命周期的预测装置的一种实施方式,还包括:
152.响应单元,用于接收并响应用户针对目标媒体资源的管理指令。
153.其中,目标媒体资源为预测生命周期大于生命周期阈值的媒体资源;管理指令分为预热、保留、清理和推送。
154.本技术上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
155.由以上方案可知,本技术提供一种媒体资源生命周期的预测装置:首先,获取单元401针对每一个媒体资源,在数据库中获取得到媒体资源的基本属性以及在日志数据中提取媒体资源在预设时间段内的线上指标;然后,确定单元402针对媒体资源的每一个关键性事件,根据关键性事件所属类型对应的生存曲线确定关键性事件的生命周期期望值;其中,生存曲线由生存率和生存时间绘制;输入单元403将所有关键性事件的生命周期期望值、线上指标以及基本属性输入至生命周期预测模型中,输出得到媒体资源的预测生命周期;其中,生命周期预测模型由训练样本集对回归模型进行训练得到;训练样本集包括:至少一个训练样本媒体资源的相关信息;训练样本媒体资源的相关信息包括:训练样本媒体资源的基本信息、训练样本媒体资源的线上指标、训练样本媒体资源的所有关键性事件的生命周期期望值以及训练样本媒体资源的真实生命周期。从而实现对媒体资源生命周期进行精准的预测,进而可以根据预测结果进行后续处理。
156.本技术另一实施例提供了一种电子设备,如图5所示,包括:
157.一个或多个处理器501。
158.存储装置502,其上存储有一个或多个程序。
159.当所述一个或多个程序被所述一个或多个处理器501执行时,使得所述一个或多个处理器501实现如上述实施例中任意一项所述的媒体资源生命周期的预测方法。
160.本技术另一实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项所述的媒体资源生命周期的预测
方法。
161.在本技术公开的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
162.另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
163.专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1