潜力主播用户的挖掘方法、装置及服务器与流程

文档序号:13627832阅读:723来源:国知局
潜力主播用户的挖掘方法、装置及服务器与流程

本发明涉及网络直播数据挖掘领域,具体而言,本发明涉及一种潜力主播用户的挖掘方法、装置及服务器。



背景技术:

随着互联网技术及智能移动终端设备的发展,各种互联网产品给人们的工作、生活带来了很多便利与娱乐,近年来,各类用于视频直播的直播平台层出不穷,视频直播给人们带来更实时的社交体验。直播平台依靠大量、优秀的主播用户及观众用户而保持竞争优势,为此,直播平台不断地加入新主播用户,而直播平台需要从该些新主播用户中发现潜力大、发展前景好、吸引观众的主播用户。目前对于如何发现直播平台上潜力大、发展前景好、吸引观众的新主播用户,往往通过长时间人工观察新主播用户的开播数据,并且较为主观地确定出潜力主播用户,同时依靠人工发掘潜力主播用户存在不全面且效率低的问题,进而导致潜力主播用户在直播平台上没有推荐资源问题而无法在直播平台上成长,从而流失到其它直播平台的问题。



技术实现要素:

本发明的首要目的在于提供一种潜力主播用户的挖掘方法和装置,用于直播平台自动、快速、高覆盖率地发现潜力新主播用户,解决依靠人工发现潜力主播用户而存在的时效慢、覆盖率低、主观性强的问题。

本发明的另一目的在于提供一种实现上述潜力主播用户的挖掘方法的服务器。

为了实现该目的,本发明采用如下技术方案:

第一方面,本发明提供一种潜力主播用户的挖掘方法,包括以下步骤:

获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;

根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据;

利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值;

将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。

进一步的,所述根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据的步骤之前,包括:

获取直播平台的主播用户的历史特征数据;

根据所述历史特征数据及设置判别潜力主播用户的条件基于决策树算法进行模型训练,得到挖掘模型。

进一步的,所述获取新主播用户及其直播间在首次开播后的预设时间内的特征数据的步骤,包括:

获取新主播用户及其直播间在首次开播后的预设时间内的第一特征数据,所述第一特征数据包括dau、直播时长、观看时长、弹幕人数、订阅数量;

将所述第一特征数据转化为第二特征数据,所述第二特征数据包括5分钟用户占比、弹幕人数占比、订阅人数占比、单位时间用户数、dau增幅。

进一步的,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤之后,还包括:

将所述潜力主播用户在直播平台的主播推荐位上展示。

具体的,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤,包括:

将新主播用户的潜力值按照从高到低进行排序;

选取排序后的前预设数量的新主播用户作为潜力主播用户。

优选的,所述新主播用户对应有直播平台的品类标签,所述潜力主播用户为直播平台对应品类标签下的新主播用户。

优选的,所述将潜力值满足预设条件对应的新主播用户选定为潜力主播用户的步骤,包括:

将相同品类标签的新主播用户的潜力值按照从高到低进行排序;

选取排序后的前预设数量的新主播用户作为该品类标签下的潜力主播用户。

具体的,所述决策树算法包括id3算法、c4.5算法或cart算法的任意一项。

第二方面,本发明提供一种潜力主播用户挖掘装置,包括:

获取模块:用于获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;

测试模块:用于根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据;

潜力值计算模块:用于利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值;

潜力主播确定模块;用于将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。

第三方面,本发明提供一种服务器,包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行第一方面所述的潜力主播用户的挖掘方法。

与现有技术相比,本发明具备如下优点:

本发明通过采集新主播用户在首次开播后的预设时间内的特征数据,然后以决策树挖掘算法建立的挖掘模型测试所述特征数据得到相应的决策数据,再根据信息熵计算法则计算所述决策数据获取新主播用户的潜力值,然后将潜力值满足预设条件的新主播用户选定为潜力主播用户,利用挖掘模型挖掘出直播平台上的潜力新主播用户,解决目前通过人工筛选所存在覆盖率低、时效慢、主观性强、计算困难等问题。

同时,在选定新主播用户作为潜力主播用户后,为潜力主播用户提供一定的推广资源,为潜力主播用户吸引更多的观众流量,提升潜力主播用户的曝光度,从而倒在更加受欢迎的主播用户,避免主播用户流失到其它直播平台。

进一步的,从挖掘模型中得到的潜力主播用户名单反馈直播平台以运营经验,为直播平台提供更多的参考数据。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明潜力主播用户的挖掘方法的一实施例流程示意图;

图2为本发明潜力主播用户的挖掘方法的另一实施例流程图示意图;

图3为本发明潜力主播用户的挖掘装置的一实施例示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,网络视频直播是针对实时社交需求,利用互联网和多媒体通信技术,通过在网络上构建一个集音频、视频、桌面共享、文档共享、互动环节为一体的多功能直播平台,企业或个人可以在线进行语音、视频、数据的全面交流与互动。网络视频直播领域的一个特点是直播间,直播间是基于直播平台创建的一个虚拟空间(或虚拟房间),直播间一般由主播客户端创建并连接有多个观看客户端,即直播间中包括了主播用户及多个观众用户,位于直播间内的观看客户端可以观看主播客户端的直播内容,同时主播客户端的用户与观看客户端的用户、观看客户端的用户与观看客户端的用户之间还可以进行语音、图片或文字的互动。

如图1所示,本发明的一种实施例中提供一种潜力主播用户挖掘方法,包括如下步骤:

s100:获取新主播用户及其直播间在首次开播后的预设时间内的特征数据;

在直播平台上每天都会有新的主播用户加入,本实施例中将首次开播直播的主播用户在开播后的一定时间内定义为新主播用户,并在此期间内对新主播用户进行评估以挑选出潜力主播用户。具体的,直播平台在主播用户进行直播时会记录主播用户及其直播间的一系列特征数据,对于新主播用户而言亦是如此,在新主播用户开设直播间并进行直播时将产生一系列的特征数据,直播平台则获取新主播用户及其直播间在首次开播后的预设时间内的特征数据,例如,直播平台获取新主播用户在首次进行直播后的7天内(也可以是10天内或30天内)的特征数据,所述特征数据包括:

粉丝数量,主播用户的粉丝数量;

订阅数量,直播间的订阅人数;

直播时长,主播用户每天直播的时长;

观看时长,直播间内每天观看用户的平均观看时长;

弹幕数量,直播间内每天的弹幕数量;

弹幕人数,直播间内每天发送弹幕的用户数量;

dau,直播间内每天观看用户的平均人数;

pcu,直播间内每天观看用户的最高人数。

s200:根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据;

在获取了新主播用户及其直播间在首次开播后的预设时间内的特征数据后,需要对新主播用户的特征数据进行挖掘、处理以得到判断该新主播用户是否有称为潜力主播用户所需的决策数据,具体的,将所述特征数据通过以决策树算法建立的挖掘模型进行递归划分,决策树是由一个个判断节点组成,每经过一个判断节点数据就会被拆分一次,在本实施例的决策树算法中通过基尼不纯度或者熵来对一个集合的有序程度进行量化,然后利用信息增益对每一次拆分进行量化评价,将所述特征数据通过以决策树算法建立的挖掘模型进行测试后得到决策树中决策节点、分支及叶子节点的数值,本实施例中将该些节点及其数值定义为决策数据。

s300:利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值;

决策数据中包含了决策节点、分支及叶子节点的数值,为了使得决策数据具有强解释性,本实施例中利用信息熵计算法则计算所述决策数据,得到所述决策数据的信息熵,信息熵用以衡量信息量的大小,本实施例中将所述决策数据求期望即可得到决策数据的信息熵,并且定义该信息熵作为表征新主播用户是否为潜力主播用户的潜力值。具体的,将所述决策数据包括的决策节点、分支及叶子节点的数值通过如下信息熵计算法则计算即可得到决策数据的信息熵,即新主播用户的潜力值h(x):

h(x)=e[log21/p(xi)]=-ξp(xi)log2p(xi)(i=1,2,..n)

=-[p1*log2(p1)+p2*log2(p2)+…+pn*log2(pn)]

=-[p1*log2(p1)+p2*log2(p2)+…+pn*log2(pn)]

其中,p(xi)为新主播用户的特征数据满足决策树中各节点的条件的事件的概率,例如,决策树中有一个节点条件为“每天开播时长大于1小时”,所述特征数据为新主播用户首次开播后的7天内的特征数据,其中有4天的特征数据中新主播用户每天开播时长大于1小时,则该节点的事件概率p(x1)=4/7。

进一步的,通过一个例子说明新主播用户潜力值的计算,所述特征数据为新主播用户首次开播后的7天内的特征数据,决策树中有一个节点条件为“每天开播时长大于1小时”,其中有4天的特征数据中新主播用户每天开播时长大于1小时,则该节点的事件概率p(x1)=4/7;决策树中有一个节点条件为“每天发送弹幕人数大于500人”,其中有5天的特征数据中直播间内每天发送弹幕人数大于500人,则该节点的事件概率p(x2)=5/7;决策树中有一个节点条件为“每天观众人数大于1000人”,其中有3天的特征数据中直播间内每天观众人数大于1000人,则该节点的事件概率p(x3)=3/7,则该新主播用户的潜力值h(x)=-[4/7*log2(4/7)+5/7*log2(5/7)+3/7*log2(3/7)]。

s400:将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。

在利用信息熵计算法则计算所述决策数据得到新主播用户的潜力值后,将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。在一种实施方式中,将各新主播用户的潜力值从高到低进行排序,按照从高到低选取预设数量的新主播用户作为潜力主播用户,例如在从高到低排序后将潜力值前50位的新主播用户选定为潜力主播用户。

本实施例通过基于决策树算法建立的挖掘模型挖掘出直播平台上对观众用户吸量强、直播间流量高的新主播用户,并将其选定为潜力主播用户,实现覆盖率高、时效快、计算方便地自动识别潜力新主播,避免潜力主播用户流失。

本发明的一种实施例中,所述步骤s100,包括:

s101:获取新主播用户及其直播间在预设时间内的第一特征数据,所述第一特征数据包括dau、直播时长、观看时长、弹幕人数、订阅数量;

s102:将所述第一特征数据转化为第二特征数据,所述第二特征数据包括5分钟用户占比、弹幕人数占比、订阅人数占比、单位时间用户数、dau增幅。

所述第一特征数据是主播用户及其直播间的常规特征数据,本实施例在第一特征数据的基础上开发二阶衍生类质量特征数据,即第二特征数据,从而全方位地刻画新主播用户在首次开播后的预设时长内的数据表现。其中,

5分钟用户占比,直播间内每天观看5分钟以上的用户人数与每天的平均观看人数(dau)的占比;

弹幕人数占比,直播间内每天发送弹幕的用户数量与每天的平均观看人数(dau)的占比;

订阅人数占比,直播间内每天新增的订阅用户数量与每天的平均观看人数(dau)的占比;

单位时间用户数,dau/直播时长;

dau增幅,主播用户地2次开播dau/第1次开播dau。

本发明的一种实施例中,在步骤s100之前,还包括:

获取直播平台的主播用户的历史特征数据;

根据所述历史特征数据及设置判别潜力主播用户的条件基于决策树算法进行模型训练,得到潜力主播用户的挖掘模型。

在使用挖掘模型之前,需要进行模型训练,在本实施例中,将获取直播平台上的主播用户的历史特征数据作为挖掘模型的训练集,所述历史特征数据同样包含上述列举的特征数据,如dau、直播时长、观看时长、弹幕人数、订阅数量,同样地也可以将该些数据进行二阶衍生得到5分钟用户占比、弹幕人数占比、订阅人数占比、单位时间用户数、dau增幅的数据,然后设定判别潜力主播用户的条件,再基于决策树算法进行模型训练得到挖掘模型中各个节点的参数值,继而得到潜力主播用户的挖掘模型。

本发明的实施例中,所述决策树算法为id3算法或c4.5或cart算法,不同的算法训练出来的模型的参数不尽相同,通过不同算法挖掘出来的潜力主播用户亦不尽相同,后续再对不同算法挖掘出的潜力主播用户的特征数据进行追踪,判别哪种算法挖掘出来的潜力主播用户更为准确,以更好地优化挖掘模型。

如图2所示,本发明的一种实施例中,在步骤s400之后,还包括:

s500:将所述潜力主播用户在直播平台的主播推荐位上展示。

在选定了新主播用户作为潜力主播用户后,直播平台为该潜力主播用户提供相应的推荐资源,将该潜力主播用户在直播平台的主播推荐位上展示以向直播平台的观看用户推荐该潜力主播用户,为该主播用户吸引更多的观众流量,进一步提升主播用户的曝光度。在本实施例中,直播平台上设有一定的推广资源位(即主播推荐位),推广资源位上会更新向用户推荐的主播用户,观众用户可从该推广资源位进入对应主播用户的相关页面,了解主播用户的个人信息及直播间信息,本实施例通过将所述潜力主播用户在主播推荐位上展示,更好地为潜力主播用户吸引观众流量,进而提升潜力主播用户的曝光度,从而打造更加受欢迎的主播。

在一种实施例中,所述新主播用户对应有直播平台的品类标签,所述潜力主播用户为直播平台对应品类标签下的主播用户。具体的,在判别新主播用户是否为潜力主播用户时,选取同一批次对比的新主播用户为具有直播平台相同品类标签的用户,直播平台上的品类标签包括户外直播、网游直播、手游直播、真人秀表演直播等,主播用户在进行开播时均为直播间选择对应的品类标签,在本实施例中,通过将相同品类标签的新主播用户进行对比,选取同一品类标签下潜力值满足预设条件的新主播用户作为潜力主播用户,避免不同品类标签的潜力主播用户选取的干扰,并且,不同品类标签下挖掘模型中的参数不尽相同,例如手游直播品类标签的一个节点的条件为“每天观众人数大于1000人”,而户外直播品类标签的一个节点的条件为“每天观众人数大于300人”,通过不同品类标签选择不同的挖掘模型参数,进而选取出同一品类标签下的潜力主播用户,更能满足实际挖掘潜力主播用户的需求。

在一种优选的实施例中,将相同品类标签的新主播用户的潜力值按照从高到低进行排序;选取排序后的前预设数量的新主播用户作为该品类标签的潜力主播用户。例如在从高到低排序后将手游直播品类标签的潜力值前50位的新主播用户选定为潜力主播用户。

如图3所示,本发明的一种实施例提供一种潜力主播用户挖掘装置,包括:

获取模块100:用于获取新主播用户及其直播间在首次开播后的预设时间内的特征数据。

直播平台在主播用户进行直播时会记录主播用户及其直播间的一系列特征数据,对于新主播用户而言亦是如此,在新主播用户开设直播间并进行直播时将产生一系列的特征数据,获取模块100则获取新主播用户及其直播间在首次开播后的预设时间内的特征数据

测试模块200:用于根据以决策树算法建立的挖掘模型测试所述特征数据,获取相应的决策数据。

在获取模块100获取了新主播用户及其直播间在首次开播后的预设时间内的特征数据后,测试模块200需要对新主播用户的特征数据进行挖掘、处理以得到判断该新主播用户是否有称为潜力主播用户所需的决策数据,具体的,测试模块200将所述特征数据通过以决策树算法建立的挖掘模型进行递归划分,将所述特征数据通过以决策树算法建立的挖掘模型进行测试后得到决策树中决策节点、分支及叶子节点的数值,本实施例中将该些节点及其数值定义为决策数据。

潜力值计算模块300:用于利用信息熵计算法则计算所述决策数据,得到新主播用户的潜力值。

决策数据中包含了决策节点、分支及叶子节点的数值,为了使得决策数据具有强解释性,本实施例中潜力值计算模块300利用信息熵计算法则计算所述决策数据,得到所述决策数据的信息熵,信息熵用以衡量信息量的大小,本实施例中潜力值计算模块300将所述决策数据求期望即可得到决策数据的信息熵,并且定义该信息熵作为表征新主播用户是否为潜力主播用户的潜力值

潜力主播确定模块400;用于将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。

在潜力值计算模块300利用信息熵计算法则计算所述决策数据得到新主播用户的潜力值后,潜力主播确定模块400将潜力值满足预设条件对应的新主播用户选定为潜力主播用户。

另外,本发明的一实施例还提供一种服务器,该服务器可以理解为直播平台挖掘潜力主播用户时所使用的服务器,其包括一个或多个处理器;存储器;一个或多个应用程序;所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述实施例的方法的步骤。

综上,本发明提供的一种潜力主播用户的挖掘方法、装置及服务器,用于直播平台自动、快速、高覆盖率地发现潜力新主播用户,解决依靠人工发现潜力主播用户而存在的时效慢、覆盖率低、主观性强的问题。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1