一种直播间内容标签权重计算方法、装置及电子设备与流程

文档序号:15851019发布日期:2018-11-07 09:55阅读:321来源:国知局
一种直播间内容标签权重计算方法、装置及电子设备与流程

本发明涉及直播技术领域,特别涉及一种直播间内容标签权重计算方法、装置及电子设备。

背景技术

直播间是一个信息的载体,给直播间打上符合其内容和表现形式的标签可以对内涵信息进行归纳,从而有利于直播平台内容的组织和编排。通常,我们可以采用直播网站人工定义、运营人员给直播间打上一些合适的标签,然而这些对于同一个直播间这些标签的权重是不一样的,标签权重高说明直播间对于这种标签的表现更加突出或者典型。

目前,还没有有效直播间内容标签权重计算方法,如何计算这些权重是一个非常重要的问题。



技术实现要素:

本发明实施例提供了一种直播间内容标签权重计算方法、装置及电子设备,以提供有效解决直播间内容标签权重的计算的方案。

第一方面,本申请提供了一种直播间内容标签权重计算方法,该方法包括:

对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;

对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;

根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;

根据所述相似词集合,计算所述目标直播间内目标内容标签权重。

进一步的,所述对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,包括:

对所述目标直播间的相关文本进行分词,得到分词后的文本;

采用word2vec算法计算得到目标直播间中各内容标签的词向量;

其中,目标内容标签l,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签l外其他内容标签wi的词向量表示为:

(wi1,wi2,...,wis);

其中,s是向量的维度,wis表示内容标签wi在s维度的词向量。

进一步的,所述根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合,包括:

对于所述目标直播间中除目标内容标签l外其他内容标签wi,分别计算各内容标签与目标内容标签l的余弦距离di:

选择di值最大的前预设个数的内容标签作为目标内容标签l的相似词,得到目标内容标签的相似词集合;

其中,wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。

进一步的,所述根据所述相似词集合,计算所述目标直播间内目标内容标签权重,包括:

统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;

统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;

计算标签关联词集合房间的信息熵;

采用如下公式计算所述目标直播间内目标内容标签权重:

其中:r是全网直播间个数;l是目标内容标签;

wr是目标内容标签l的相似词集合,该集合包含词语wr1,wr2,...,wrm;

n(wri)是全网直播间中的文本中出现词语wr的次数;

n(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;

h(wr)是标签关联词集合房间的信息熵。

进一步的,所述计算标签关联词集合房间的信息熵,采用如下公式:

其中:

r(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。

第二方面,本申请提供一种直播间内容标签权重计算装置,该装置包括:

标注模块,用于对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;

训练模块,用于对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;

确定模块,用于根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;

计算模块,用于根据所述相似词集合,计算所述目标直播间内目标内容标签权重。

进一步的,所述训练模块具体用于:

对所述目标直播间的相关文本进行分词,得到分词后的文本;

采用word2vec算法计算得到目标直播间中各内容标签的词向量;

其中,目标内容标签l,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签l外其他内容标签wi的词向量表示为:

(wi1,wi2,...,wis);

其中,s是向量的维度,wis表示内容标签wi在s维度的词向量。

进一步的,所述确定模块具体用于:

对于所述目标直播间中除目标内容标签l外其他内容标签wi,分别计算各内容标签与目标内容标签l的余弦距离di:

选择di值最大的前预设个数的内容标签作为目标内容标签l的相似词,得到目标内容标签的相似词集合;

其中,wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。

进一步的,所述计算模块具体用于:

统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;

统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;

计算标签关联词集合房间的信息熵;

采用如下公式计算所述目标直播间内目标内容标签权重:

其中:r是全网直播间个数;l是目标内容标签;

wr是目标内容标签l的相似词集合,该集合包含词语wr1,wr2,...,wrm;

n(wri)是全网直播间中的文本中出现词语wr的次数;

n(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;

h(wr)是标签关联词集合房间的信息熵。

进一步的,所述计算模块采用如下公式:

其中:

r(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。

第三方面,本发明还提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时可以实现第一方面中任一所述的方法。

第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一所述的方法。

本发明实施例通过对目标直播间进行内容标签的标注,对目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,根据目标直播间中各内容标签的词向量,确定待计算权重的目标内容标签的相似词集合;根据该目标内容标签的相似词集合,计算所述目标直播间内目标内容标签权重。本发明实施例中从直播间相关文本中找到与标签相关的关联词语,通过目标内容标签的相关统计信息计算目标内容标签的权重系数,有效解决了内容标签的权重的计算问题,实现对直播间内容标签权重的快速计算。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例中直播间内容标签权重计算方法的一个实施例示意图;

图2是本发明实施例步骤s102的一个实施例示意图;

图3是本发明实施例步骤s104的一个实施例示意图;

图4是本发明实施例中直播间内容标签权重计算装置的一个实施例示意图;

图5是本发明实施例中电子设备的一个实施例示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例中直播间内容标签权重计算方法应用于直播间内容标签权重计算装置,该装置位于电子设备中,该电子设备可以是手机、平板电脑或者个人电脑、服务器等电子设备,也可以是未来出现的电子设备等。

请参阅图1,本发明实施例中直播间内容标签权重计算方法的一个实施例包括:

s101、对目标直播间进行内容标签的标注;

其中,该目标直播间中标注的内容标签包括目标内容标签;本实施例中,可以采用直播网站人工定义的方式或机器定义的方式(预先编程)给直播间进行内容标签的标注,每个直播间对应一个或者多个内容标签,整个直播间的内容标签集合可以用{l1,l2,...,lm}表示。

s102、对目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量;

具体的,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;目标直播间的相关文本可以包括目标直播间的弹幕、动态以及帖子等文本信息的一项或多项。

s103、根据目标直播间中各内容标签的词向量,确定待计算权重的目标内容标签的相似词集合;

s104、根据该目标内容标签的相似词集合,计算目标直播间内目标内容标签权重。

本发明实施例通过对目标直播间进行内容标签的标注,对目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,根据目标直播间中各内容标签的词向量,确定待计算权重的目标内容标签的相似词集合;根据该目标内容标签的相似词集合,计算所述目标直播间内目标内容标签权重。本发明实施例中从直播间相关文本中找到与标签相关的关联词语,通过目标内容标签的相关统计信息计算目标内容标签的权重系数,有效解决了内容标签的权重的计算问题,实现对直播间内容标签权重的快速计算。

进一步的,如图2所示,上述步骤s102具体可以包括:

s1021、对所述目标直播间的相关文本进行分词,得到分词后的文本;

s1022、采用word2vec算法计算得到目标直播间中各内容标签的词向量;

本实施例中,word2vec算法指的是用于计算词向量的cbow模型和skip-gram模型。其中,目标内容标签l,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签l外其他内容标签wi的词向量表示为:

(wi1,wi2,...,wis);

其中,s是向量的维度,wis表示内容标签wi在s维度的词向量。

进一步的,上述步骤s103具体可以包括:

对于所述目标直播间中除目标内容标签l外其他内容标签wi,分别计算各内容标签与目标内容标签l的余弦距离di:

选择di值最大的前预设个数的内容标签作为目标内容标签l的相似词,得到目标内容标签的相似词集合;

其中,wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。

在本发明一些实施例中,如图3所示,上述步骤s104具体可以包括:

s1041、统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;

s1042、统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;

s1043、计算标签关联词集合房间的信息熵;

s1044、采用预置公式计算所述目标直播间内目标内容标签权重。

该预置公式具体如下:

其中:r是全网直播间个数;l是目标内容标签;

wr是目标内容标签l的相似词集合,该集合包含词语wr1,wr2,...,wrm;

n(wri)是全网直播间中的文本中出现词语wr的次数;

n(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;

h(wr)是标签关联词集合房间的信息熵。

进一步的,上述步骤s1043中计算标签关联词集合房间的信息熵采用如下公式:

其中:

r(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。

下面介绍本发明实施例中直播间内容标签权重计算装置的实施例。

请参阅图4,为本发明实施例中直播间内容标签权重计算装置的一个实施例示意图,该装置包括:

标注模块401,用于对目标直播间进行内容标签的标注,所述目标直播间中标注的内容标签包括目标内容标签;

训练模块402,用于对所述目标直播间的相关文本进行词向量的训练,得到目标直播间中各内容标签的词向量,所述目标直播间的相关文本包括所述目标直播间中文本信息的一项或多项;

确定模块403,用于根据所述目标直播间中各内容标签的词向量,确定待计算权重的所述目标内容标签的相似词集合;

计算模块404,用于根据所述相似词集合,计算所述目标直播间内目标内容标签权重。

进一步的,所述训练模块402具体用于:

对所述目标直播间的相关文本进行分词,得到分词后的文本;

采用word2vec算法计算得到目标直播间中各内容标签的词向量;

其中,目标内容标签l,其对应的词向量为(l1,l2,...,ls),所述目标直播间中除目标内容标签l外其他内容标签wi的词向量表示为:

(wi1,wi2,...,wis);

其中,s是向量的维度,wis表示内容标签wi在s维度的词向量。

进一步的,所述确定模块403具体用于:

对于所述目标直播间中除目标内容标签l外其他内容标签wi,分别计算各内容标签与目标内容标签l的余弦距离di:

选择di值最大的前预设个数的内容标签作为目标内容标签l的相似词,得到目标内容标签的相似词集合;

其中,wij表示表示内容标签wi在j维度的词向量,j为正整数且1≤j≤s。

进一步的,所述计算模块404具体用于:

统计所述相似词集合包含的各相似词在目标直播间分别出现的次数;

统计所述目标直播间的相关文本中出现出目标内容标签外的内容标签的总次数;

计算标签关联词集合房间的信息熵;

采用如下公式计算所述目标直播间内目标内容标签权重:

其中:r是全网直播间个数;l是目标内容标签;

wr是目标内容标签l的相似词集合,该集合包含词语wr1,wr2,...,wrm;

n(wri)是全网直播间中的文本中出现词语wr的次数;

n(wi)是所述目标直播间的相关文本中出现出目标内容标签外的内容标签wi出现的总次数;

h(wr)是标签关联词集合房间的信息熵。

进一步的,所述计算模块404采用如下公式:

其中:

r(wr)是全网直播间中弹幕文本中含有目标内容标签相似词集合中词语wr的直播间个数。

本发明实施例中还提供一种电子设备,请参见图5,所述电子设备包括:

存储器501,处理器502及存储在所述存储器上并可在所述处理器上运行的计算机程序503,其中,所述处理器502执行所述计算机程序503时可以实现上述直播间内容标签权重计算方法。

为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。存储器501可用于存储计算机程序503,上述计算机程序包括软件程序、模块和数据,处理器502通过运行执行存储在存储器501的计算机程序503,从而执行电子设备的各种功能应用以及数据处理。

在具体的实施过程中,存储器501可用于存储软件程序以及模块,处理器502通过运行存储在存储器501的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如游戏类应用程序、聊天类应用程序)等;存储数据区可存储根据电子设备的使用所创建的数据(游戏配置数据、音频数据)等。此外,存储器501可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器502是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器501内的软件程序和/或模块,以及调用存储在存储器501内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器502可包括一个或多个处理单元;优选的,处理器502可集成应用处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等。

本发明实施例还提供一种计算机可读存储介质,其中,该计算机可读存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的直播间内容标签权重计算方法的部分或全部步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1