直播间内容标签扩散算法、存储介质、电子设备及系统的制作方法

文档序号:19010917发布日期:2019-10-30 00:23阅读:386来源:国知局
直播间内容标签扩散算法、存储介质、电子设备及系统的制作方法

本发明涉及大数据领域,具体涉及一种直播间内容标签扩散算法、存储介质、电子设备及系统。



背景技术:

直播间是一个信息的载体,给直播间打上符合其内容和表现形式的内容标签可以对直播内容信息进行归纳,从而有利于直播平台内容的组织和编排。因此,如何采用有效的方法对直播间打上准确的内容标签是一个十分重要的问题。

直播间标签提取的方式一般有以下几种方式:一是采用直播网站人工定义的分区作为标签,这样做的问题是一个直播间只对应一个分区,标签不够丰富;二是采用人工的方式给指标间打标,但是由于直播间众多导致人工成本太高。



技术实现要素:

针对现有技术中存在的缺陷,本发明的目的在于提供一种直播间内容标签扩散算法,通过标注样本扩散到其他未知标签的样本,有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。

为达到以上目的,本发明采取的技术方案是,包括:

选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注;

对内容标签l进行扩散,扩散的计算公式为:

其中,k是迭代的轮次,pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为n(i),ξ为设定阈值,wji是直播间j和直播间i之间的相似度;

对其它未被标记的直播间通过扩散算法得到分布概率。

在上述技术方案的基础上,对于直播间j和直播间i之间的相似度计算,计算公式为:

其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。

在上述技术方案的基础上,对于基于业务经验标注的直播间,初始化分数p0(i)=1,且已被基于业务经验标注的直播间在内容标签l的扩散中,保持分布概率为1。

在上述技术方案的基础上,所述内容标签为多个,且每个内容标签至少对应一个直播间。

在上述技术方案的基础上,对直播间标注的内容标签包括户外、游戏和颜值。

本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。

本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法。

本发明还提供一种直播间内容标签扩散系统,包括:

标注模块,其用于选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注;

计算模块,其用于对内容标签l进行扩散,扩散的计算公式为:

其中,k是迭代的轮次,pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为n(i),ξ为设定阈值,wji是直播间j和直播间i之间的相似度;

扩散计算模块,其用于对其它未被标记的直播间通过扩散算法得到分布概率。

在上述技术方案的基础上,对于直播间j和直播间i之间的相似度计算,计算公式为:

其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。

在上述技术方案的基础上,所述内容标签为多个,且每个内容标签至少对应一个直播间。

与现有技术相比,本发明的优点在于:通过选取直播间样本,然后基于业务经验对样本的直播间进行内容标签标注,接着进行标注标签内容的扩散,最后便可其它未被标记的直播间通过扩散算法得到分布概率,只需要少量的人工标注样本,通过这些标注样本扩散到其他未知标签的样本,便可以有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。

附图说明

图1为本发明实施例中一种直播间内容标签扩散算法的流程图;

图2为本发明实施例中一种电子设备的结构示意图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示,本发明实施例提供一种直播间内容标签扩散算法,只需要少量的人工标注样本,通过这些标注样本扩散到其他未知标签的样本,从而有效地解决标注样本过少的问题,节省大量的人工成本。本发明的直播间内容标签扩散算法包括:

s1:选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注,即对直播间样本中的直播间进行内容标签l的标注。业务经验为直播平台在运营的过程中,对不同内容的直播间进行的人为分类划分过程中,所掌握的直播间与内容标签间对应关系的经验,即知道什么样内容的直播间具体对应什么内容标签。此处的l表示某一内容标签,内容标签为多个,且每个内容标签至少对应一个直播间。直播间标注的内容标签包括户外、游戏和颜值,即包括户外标签、游戏标签和颜值标签,按照此将标签内容标记到样本的直播间上,户外标签对应的是直播内容为进行室外游玩、室外生存、室外表演等活动的直播间,游戏标签对应的是直播内容为进行网络或单机游戏的直播间,颜值标签对应的是直播内容为唱歌、跳舞等才艺表演的直播间。

s2:对内容标签l进行扩散,即将内容标签l扩散标记到与已标记直播间内容相近的直播间上,扩散的计算公式为:

其中,k是迭代的轮次,pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为n(i),ξ为设定阈值,通过设定阈值ξ,用于找出相近的直播间j和直播间i,使得计算控制在一定的范围内,wji是直播间j和直播间i之间的相似度;

对于直播间j和直播间i之间的相似度计算,计算公式为:

其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,设定的时间段一般为最近的30天,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。

对于基于业务经验标注的直播间,初始化分数p0(i)=1,且已被基于业务经验标注的直播间在内容标签l的扩散中,保持分布概率为1。

s3:对其它未被标记的直播间通过扩散算法得到分布概率。

至此,完成标注样本的扩散,据此便可以实现对其它直播间内容标签的准确标注。

进一步的,创建标签l集合,标签l集合内为标签内容为l的直播间,记直播间r对与内容标签li的概率分布是将其进行归一化,从而可以得到最终的标签概率分布分数:

以下结合一实例对本发明实施例的直播间内容标签扩散算法进行具体说明。

假设某内容个标签k,人工标注了直播间a和直播间b,下面计算直播间c对于内容标签k的概率分布。

假设直播间c的邻居有直播间a、直播间b和直播间d,通过计算得到直播间c与它们之间的相似度:wac=0.6,wbc=0.2,wdc=0.4;

初始化时pa(0)=1,pb(0)=1;

第一轮迭代,pc(1)=0.6*1+0.2*1=0.8,通过直播间d的邻居关系计算出pd(1)=0.2

第二轮迭代,pc(2)=0.6*1+0.2*1+0.2*0.4=0.88

根据上述迭代不断更新概率分数最终得到直播间c对于内容标签k的概率分布。

本发明实施例的直播间内容标签扩散算法,通过选取直播间样本,然后基于业务经验对样本的直播间进行内容标签标注,接着进行标注标签内容的扩散,最后便可其它未被标记的直播间通过扩散算法得到分布概率,只需要少量的人工标注样本,通过这些标注样本扩散到其他未知标签的样本,便可以有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。

另外,对应上述直播间内容标签扩散算法,本发明还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例所述的直播间内容标签扩散算法的步骤。需要说明的是,所述存储介质包括u盘、移动硬盘、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

参见图2所示,对应上述直播间内容标签扩散算法,本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例的直播间内容标签扩散算法。

本发明还提供一种基于上述直播间内容标签扩散算法的直播间内容标签扩散算法系统,包括标注模块、计算模块和扩散计算模块。

标注模块用于选取设定数量的直播间样本,并基于业务经验对直播间样本进行内容标签l的标注;计算模块用于对内容标签l进行扩散,扩散的计算公式为:

其中,k是迭代的轮次,pk(i)是直播间i在第k轮迭代时对于内容标签l的分布概率,wji是直播间j和直播间i之间的相似度权重,直播间j是直播间i的邻居,所述邻居为满足wji≥ξ的直播间j,将所有满足wji≥ξ的直播间j的集合记为n(i),ξ为设定阈值,wji是直播间j和直播间i之间的相似度;

扩散计算模块用于对其它未被标记的直播间通过扩散算法得到分布概率。内容标签为多个,且每个内容标签至少对应一个直播间。

对于直播间j和直播间i之间的相似度计算,计算公式为:

其中,wji为直播间j和直播间i之间的相似度得分,u(j)是在设定时间段内观看过直播间j的用户集合,u(i)是在设定时间段内观看过直播间i的用户集合,|u(j)∩u(i)|表示同时观看过直播间j和直播间i的人数,|u(j)∪u(i)|表示观看过直播间j或直播间i的人数。

本发明实施例的直播间内容标签扩散系统,通过选取直播间样本,然后基于业务经验对样本的直播间进行内容标签标注,接着进行标注标签内容的扩散,最后便可其它未被标记的直播间通过扩散算法得到分布概率,只需要少量的人工标注样本,通过这些标注样本扩散到其他未知标签的样本,便可以有效地解决标注样本过少的问题,从而节省大量的人工成本,实施方便。

本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1