一种确定流媒体中内容爆点的方法及装置的制造方法

文档序号:10661481阅读:352来源:国知局
一种确定流媒体中内容爆点的方法及装置的制造方法
【专利摘要】本发明实施例公开了一种确定流媒体中内容爆点的方法和装置,包括:按照预设的规则将流媒体划分多个时间段;针对每个时间段,对该时间段内的弹幕进行分词;统计每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现频率;根据每个时间段对应的弹幕主题词的出现频率,及保存的频率均值,识别出现频率大于所述频率均值的时间段;在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的频率,将出现频率最大值对应的时间点确定为内容爆点。使用本发明实施例,能够提高确定流媒体中内容爆点的效率和准确性。
【专利说明】
一种确定流媒体中内容爆点的方法及装置
技术领域
[0001] 本发明涉及流媒体技术领域,尤其涉及一种确定流媒体中内容爆点的方法及装 置。
【背景技术】
[0002] 现有的流媒体中内容爆点的确定如视频看点等主要依赖人工来编辑打点确定,由 于编辑者对内容的敏感度不同,设置的看点与大多数用户的关注点可能存在误差,不能正 确反映出用户真实感兴趣的话题;且单个流媒体的爆点一经设定一般不会再持续进行更 新,当某些时效性的热点话题发生变化时相应的爆点内容不能有效的展示出来。
[0003] 可见,在现有技术中,这种依赖人工来编辑打点确定流媒体中内容爆点的方法,效 率低,误差大且更新不及时。

【发明内容】

[0004] 本发明实施例公开了 一种确定流媒体中内容爆点的方法及装置,以提高确定流媒 体中内容爆点的效率,提高确定流媒体中内容爆点的准确性。
[0005] 为达到上述目的,本发明实施例公开了一种确定流媒体中内容爆点的方法,应用 于服务器,所述方法包括:
[0006] 按照预设的规则将流媒体划分多个时间段;
[0007] 针对每个时间段,对该时间段内的弹幕进行分词;统计该时间段内每个分词的词 频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数;
[0008] 根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主 题词出现次数大于所述频率均值的时间段;
[0009] 在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的次 数,将出现次数最大值对应的时间点确定为内容爆点。
[0010] 较佳地,所述按照预设的规则将流媒体划分多个时间段之前,所述方法还包括:
[0011] 判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数 量大于预设的数量额定值时,进行所述按照预设的规则将流媒体划分多个时间段的步骤。
[0012] 较佳地,所述对该时间段内的弹幕进行分词之前,所述方法还包括:
[0013] 对该时间段内的弹幕进行过滤。
[0014] 较佳地,所述对该时间段内的弹幕进行过滤包括:
[0015] 判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;
[0016] 如果相同,则过滤该弹幕。
[0017] 较佳地,所述对该时间段内的弹幕进行分词之前,所述方法还包括:
[0018] 针对每个时间段,判断该时间段内的弹幕数量是否大于设定的数量阈值,如果是, 则进行所述对该时间段内的弹幕进行分词的步骤。
[0019] 较佳地,所述将出现次数最大值对应的时间点确定为内容爆点之后,所述方法还 包括:
[0020]将确定的每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆 点对应的弹幕。
[0021 ]较佳地,所述方法还包括:
[0022] 将识别出的时间段对应的弹幕主题词确定为该内容爆点的爆点主题词。
[0023] 为达到上述目的,本发明实施例还公开了一种确定流媒体中内容爆点的装置,应 用于服务器,所述装置包括:
[0024] 划分模块,用于按照预设的规则将流媒体划分多个时间段;
[0025] 处理模块,用于针对每个时间段,对该时间段内的弹幕进行分词;统计每个时间段 内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词 的出现次数;
[0026] 识别模块,用于根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均 值,识别弹幕主题词出现次数大于所述频率均值的时间段;
[0027] 第一确定模块,用于根据对应的弹幕主题词在该时间段内每个时间点出现的次 数,将出现次数最大值对应的时间点确定为内容爆点。
[0028]较佳地,所述装置还包括:
[0029] 第一判断模块,用于判断用户针对流媒体发送的弹幕数量是否大于预设的数量额 定值,当所述弹幕数量大于预设的数量额定值时,进行所述按照预设的规则将流媒体划分 多个时间段的步骤。
[0030] 过滤模块,用于在对每个时间段内的弹幕进行分词之前对该时间段内的弹幕进行 过滤。
[0031] 较佳地,所述过滤模块具体用于:
[0032] 判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同;
[0033]如果相同,则过滤该弹幕。
[0034]较佳地,所述装置还包括:
[0035]第二判断模块,用于针对每个时间段,判断该时间段内的弹幕数量是否大于设定 的数量阈值,如果是,则进行所述对该时间段内的弹幕进行分词的步骤。
[0036] 保存模块,用于将出现次数最大值对应的时间点确定为内容爆点之后,将确定的 每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对应的弹幕。
[0037] 第二确定模块,用于将识别出的时间段对应的弹幕主题词确定为该内容爆点的爆 点主题词。
[0038] 本发明实施例提供了一种确定流媒体中内容爆点的方法和装置,该方法中按照预 设的规则将流媒体划分多个时间段;针对每个时间段,对该时间段内的弹幕进行分词;统计 每个时间段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的 弹幕主题词的出现次数;根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均 值,识别弹幕主题词出现次数大于所述频率均值的时间段;在识别出的时间段中,根据对应 的弹幕主题词在该时间段内每个时间点出现的次数,将出现次数最大值对应的时间点确定 为内容爆点。本发明实施例是基于用户弹幕内容确定内容爆点,这是因为用户对感兴趣的 内容输入的弹幕也会比较多,因此根据流媒体中每个时间段内弹幕主题词的出现次数,可 以准确的确定出用户感兴趣的内容爆点,从而使确定出的内容爆点更加准确,另外,由于本 发明实施例中该内容爆点可以按照上述方式灵活确定,如果弹幕内容发生了变化,也能够 及时、准确的确定出变化后的内容爆点。当然,实施本发明的任一产品或方法必不一定需要 同时达到以上所述的所有优点。
【附图说明】
[0039] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0040] 图1为本发明实施例提供的一种确定流媒体中内容爆点的方法流程示意图;
[0041] 图2为本发明实施例提供的另一种确定流媒体中内容爆点的方法流程示意图;
[0042] 图3为本发明实施例提供的一种确定流媒体中内容爆点的装置结构示意图。
【具体实施方式】
[0043]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0044] 本发明实施例公开了一种确定流媒体中内容爆点的方法及装置,下面进行详细说 明。
[0045] 图1为本发明实施例的确定流媒体中内容爆点的方法流程示意图,应用于服务器, 包括以下步骤:
[0046] 步骤S101:按照预设的规则将流媒体划分多个时间段。
[0047] 划分规则可以预先自行设定,可以是将流媒体均匀的划分为多个时间段,或是将 流媒体不均匀的划分为多个时间段,具体预设划分规则如何设定,本发明实施例不作限定。 [0048]步骤S102:针对每个时间段,对该时间段内的弹幕进行分词;统计该时间段内每个 分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现 次数。
[0049] 弹幕为用户在观看流媒体内容时针对流媒体发送的评论内容,其能够正确反映出 用户真实感兴趣的话题。
[0050] 不同的弹幕发送的时间可能会有所区别,但是每个弹幕都只会在流媒体上特定的 一个时间点出现,因此在流媒体上相同时间点会出现一定数量的弹幕且出现的弹幕基本上 具有相同的主题。
[0051] 由于用户发送的弹幕与流媒体是同步实时更新的,因此弹幕与流媒体有着时间上 的对应关系,即在流媒体上每个时间段内会对应积累有一定数量的用户针对流媒体发送的 弹蒂。
[0052]对流媒体上每个时间段内的弹幕进行分词,分词技术属于现有技术,本发明实施 例不赘述。
[0053]对弹幕进行分词之后,统计每个时间段内每个分词的词频,每个分词的词频即为 每个分词出现的次数,并将出现次数最多的分词,即词频最大的分词确定为该时间段对应 的弹幕主题词,并将所述词频最大的分词的次数确定为所述弹幕主题词的次数。
[0054]步骤S103:根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识 别弹幕主题词的出现次数大于所述频率均值的时间段。
[0055] 具体地,保存的频率均值可以为预先设定的值,或是通过预设的计算方法计算得 出来的数值。
[0056] 计算频率均值的预设的计算方法可以为,根据统计的每个时间段对应的弹幕主题 词的出现次数,求出该流媒体上各弹幕主题词的频率中值,具体如下式所示。
[0057]频率均值=(第一个时间段内弹幕主题词的出现次数+第二个时间段内弹幕主题 词的出现次数+……+第N个时间段内弹幕主题词的出现次数)/(时间段的数量N)。
[0058] 当然,也可以采用其他计算方法计算频率均值,具体采用何种计算方法计算频率 均值,本发明实施例不作限定。
[0059] 根据预先设定的频率中值或计算得出的频率均值,判断每个时间段内的弹幕主题 词的出现次数是否大于该频率均值,若大于,则识别弹幕主题词的出现次数大于所述频率 均值的时间段。
[0060] 步骤S104:在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间 点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
[0061 ]具体地,识别出的时间段为弹幕主题词的出现次数大于保存的频率均值的时间 段,针对识别出的时间段,确定该时间段内的弹幕主题词在每个时间点出现的次数,并将该 时间段内弹幕主题词出现次数最大值对应的时间点确定为内容爆点。
[0062] 为了便于用户清楚的了解内容爆点对应的主题内容,将识别出的时间段对应的弹 幕主题词确定为内容爆点的爆点主题词,这样用户就可以通过查看爆点主题词清楚的了解 该内容爆点对应的爆点话题是什么。
[0063] 本发明实施例是基于用户主动生成的弹幕内容确定内容爆点,由于用户对感兴趣 的内容输入的弹幕也会比较多,因此根据流媒体中每个时间段内弹幕主题词的出现次数, 可以准确的确定出用户感兴趣的内容爆点,从而使确定出的内容爆点更加准确,另外,由于 本发明实施例中该内容爆点可以按照上述方式灵活确定,如果弹幕内容发生了变化,也能 够及时、准确的确定出变化后的内容爆点。
[0064] 为了提高确定流媒体内容爆点的效率,在上述实施例的基础上,在本发明的一个 实施例中,在对流媒体划分多个时间段之前,该方法还包括:
[0065] 判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数 量大于预设的数量额定值时,按照预设的规则将流媒体划分多个时间段。
[0066] 具体地,预设的数量额定值为用户根据实际情况自行设定的,其可以是很大的数, 具体数值范围本发明实施例不作限定,当用户针对流媒体发送的弹幕数量小于预设的数量 额定值时,可以认为根据此时的弹幕数量确定出的内容爆点可能不够准确,因此在本发明 实施例中可以暂时不对其进行确定流媒体内容爆点的工作。
[0067]应用本实施例,在确定流媒体的内容爆点之前,根据用户针对该流媒体发送的弹 幕数量先进行判断,其弹幕数量是否达到预设的数量额定值,在不可能出现内容爆点时,不 进行确定流媒体内容爆点的计算工作,减少了计算工作量,提高了确定流媒体内容爆点的 效率。
[0068]为了进一步提高确定流媒体内容爆点的效率,在上述实施例的基础上,在本发明 的另一个实施例中,在对每个时间段内的弹幕进行分词之前,该方法还包括:
[0069]针对每个时间段,获取流媒体在该时间段内对应的弹幕数量,判断所述弹幕数量 是否大于预设的数量阈值,如果是,则对该时间段内的弹幕进行分词。
[0070] 具体地,流媒体在每个时间段内的弹幕数量可能会起伏变化,例如在某电视剧结 尾时刻可能只有很少的弹幕,这种情况下可以认为不会出现内容爆点,则可以不对该时间 段进行确定内容爆点的工作,从而提高流媒体内容爆点的确定效率。
[0071] 所述预设的数量阈值为用户根据实际应用情况自行设定的,当该时间段内的弹幕 数量大于预设的数量阈值时,对该时间段内的弹幕进行分词,当该时间段内的弹幕数量小 于预设的数量阈值时,认为不会有内容爆点,不进行分词处理。
[0072]应用本实施例,只对弹幕数量大于预设的数量阈值的时间段内的弹幕进行分词处 理,对弹幕数量小于预设的数量阈值的时间段不予考虑,这样就避免了对不可能出现内容 爆点的时间段做分词处理工作,减小了分词工作量,进一步提高了确定流媒体内容爆点的 效率。
[0073] 为了提高确定流媒体内容爆点的准确性,在上述实施例的基础上,在本发明的又 一个实施例中,在对每个时间段内的弹幕进行分词之前,该方法还包括:
[0074] 对每个时间段内的弹幕进行过滤。
[0075] 具体地,对每个时间段内的弹幕进行过滤包括:判断该时间段内的每个弹幕与保 存的无意义语句词表中的内容是否相同;如果相同,则过滤该弹幕。
[0076] 所述无意义语句词表为保存在本地的表,无意义语句包括无意义的字、词、短语以 及诋毁他人等低质量语句等。无意义语句词表如表1所示,其内容可以根据实际情况进行更 新。
[0077] 表 1
[0079] 应用本实施例,分析弹幕内容时,过滤掉了无意义的不能准确反映用户真实感兴 趣的话题的弹幕,只对有效反映用户真实感兴趣的话题的弹幕进行分析,进一步提高了确 定流媒体内容爆点的准确性。
[0080] 具体地,对弹幕的过滤工作可以在判断每个时间段内弹幕数量是否大于预设的数 量阈值之前,也可以在判断每个时间段内弹幕数量是否大于预设的数量阈值之后。
[0081] 为便于用户查看与内容爆点有关的弹幕内容,在上述实施例的基础上,在本发明 的再一个实施例中,该方法还包括:
[0082] 在确定内容爆点后,将确定的每个内容爆点保存在所述流媒体中,并针对每个内 容爆点保存该内容爆点对应的弹幕。
[0083] 应用本实施例,当用户播放该流媒体时,可以点选内容爆点,查看对应的弹幕,并 可以选择是否播放该时间点对于的弹幕内容,便于用户更清楚的了解该内容爆点对应的话 题内容。
[0084] 下面以一个具体的实施例对本发明进行详细描述,图2为本发明实施例提供的另 一种确定流媒体中内容爆点的方法流程示意图,应用于服务器,包括以下步骤:
[0085] 步骤S201:判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当 所述弹幕数量大于预设的数量额定值时,则按照预设的规则将流媒体划分多个时间段。 [0086]假设流媒体时长20秒,在这20秒内的弹幕数量为800条,预设的数量额定值为500 条,用户针对该流媒体发送的弹幕数量大于预设的数量额定值,则按照预设的规则将该流 媒体划分多个时间段。
[0087]步骤S202:按照预设的规则将流媒体划分多个时间段。
[0088] 假设预设规则为每5秒一个时间段,则可将流媒体划分为4个时间段,1到5秒划分 为第一时间段,5到10秒划分为第二时间段,10到15秒划分为第三时间段,15到20秒划分为 第四时间段。
[0089] 步骤S203:针对每个时间段,对该时间段内的弹幕进行过滤。
[0090] 划分时间段之后,判断这四个时间段内的每个弹幕与保存的无意义语句词表中的 内容是否相同;如果相同,则过滤该弹幕。
[0091] 步骤S204:针对每个时间段,获取该时间段内对弹幕进行过滤后的弹幕数量,判断 所述弹幕数量是否大于预设的数量阈值,若大于,则对该时间段内的弹幕进行分词。
[0092] 假设第一时间段内过滤后的弹幕数量为50条,第二时间段内过滤后的弹幕数量为 250条,第三时间段内过滤后的弹幕数量为400条,第四时间段内过滤后的弹幕数量为100 条,假设预设的数量阈值为200,则可以得出,第二时间段和第三时间段内过滤后的弹幕数 量大于预设的数量阈值,对第二时间段和第三时间段内的过滤后的弹幕进行分词处理,而 第一时间段和第四时间段包含的弹幕数量较少,此时认为其不会出现内容爆点,不进行分 词处理。
[0093] 采用现有的分词技术对弹幕进行分词,本实施例不赘述分词过程。
[0094] 步骤S205:统计每个时间段内每个分词的词频,确定该时间段对应的弹幕主题词; 并确定该时间段对应的弹幕主题词的出现次数。
[0095] 对第二时间段和第三时间段的弹幕进行分词之后,统计这两个时间段内每个分词 出现的词频,即统计这两个时间段内每个分词出现的次数,并确定出这两个时间段内出现 次数最多的分词。
[0096] 假设第二时间段内出现次数最多的分词是第一分词,出现次数为250次,第三时间 段内出现次数最多分词的是第二分词,出现次数为500次,则确定第一分词为其所对应的第 二时间段内的弹幕主题词,第二分词为其所对应的第三时间段内的弹幕主题词,且第二时 间段内的弹幕主题词的出现次数为250次,第三时间段内的主题词的出现次数为500次。
[0097] 步骤S206:根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识 别弹幕主题词的出现次数大于所述频率均值的时间段。
[0098] 判断第二时间段和第三时间段内的弹幕主题词的出现次数是否大于保存的频率 均值,本实施例中保存的频率均值为根据下式计算出的频率中值:
[0099] 频率均值=(第一个时间段内弹幕主题词的出现次数+第二个时间段内弹幕主题 词的出现次数+……+第N个时间段内弹幕主题词的出现次数)/(时间段的数量N) = (250+ 500)/2 = 375
[0100] 则得出第三时间段内的主题词的出现次数大于频率均值,则识别第三时间段,并 将第三时间段对应的弹幕主题词确定为内容爆点的爆点主题词,即将第二分词确定为爆点 主题词。
[0101] 步骤S207:在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间 点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
[0102] 在第三时间段内,统计弹幕主题词在每个时间点的出现次数,假设在第11秒处弹 幕主题词出现40次,在第12秒处弹幕主题词出现60次,在第13秒处弹幕主题词出现300次, 在第14秒处弹幕主题词出现70次,在第15秒处弹幕主题词出现30次,在第13秒处弹幕主题 词出现次数最多,则最后确定第三时间段内的第13秒处为内容爆点。
[0103] 步骤S208:将确定的内容爆点保存在所述流媒体中。
[0104] 为便于用户查询内容爆点的话题内容,在将第三时间段内的第13秒处确定为内容 爆点后,将该时间点保存在所述流媒体中,并保存该时间点对应的300条弹幕主题词,当用 户使用应用该实施例的服务器时,可以点选内容爆点查看爆点话题相关的弹幕,并寻找到 对应的时间点播放。
[0105] 应用本实施例,在对流媒体划分多个时间段之前以及在对每个时间段内的弹幕进 行分词之前,添加了对弹幕数量进行判断的步骤,减少了计算工作量,提高了确定流媒体内 容爆点的效率;在对每个时间段内的弹幕进行分词之前,还对每个时间段内的弹幕进行了 过滤,进一步提高了确定流媒体内容爆点的准确性。
[0106] 本发明实施例还公开了一种确定流媒体中内容爆点的装置,图3为本发明实施例 的一种确定流媒体中内容爆点的装置结构示意图,应用于服务器,包括:
[0107] 划分模块301,用于按照预设的规则将流媒体划分多个时间段。
[0108] 具体地,划分规则可以预先自行设定,可以是将流媒体均匀的划分为多个时间段, 或是将流媒体不均匀的划分为多个时间段,具体预设划分规则如何设定,本发明实施例不 作限定。
[0109] 处理模块302,用于针对每个时间段,对该时间段内的弹幕进行分词;统计该时间 段内每个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题 词的出现次数。
[0110] 弹幕为用户在观看流媒体内容时针对流媒体发送的评论内容,其能够正确反映出 用户真实感兴趣的话题。
[0111] 不同的弹幕发送的时间可能会有所区别,但是每个弹幕都只会在流媒体上特定的 一个时间点出现,因此在流媒体上相同时间点会出现一定数量的弹幕且出现的弹幕基本上 具有相同的主题。
[0112]由于用户发送的弹幕与流媒体是同步实时更新的,因此弹幕与流媒体有着时间上 的对应关系,即在流媒体上每个时间段内会对应积累有一定数量的用户针对流媒体发送的 弹蒂。
[0113] 具体地,对流媒体上每个时间段内的弹幕进行分词,分词技术属于现有技术,本发 明实施例不赘述。
[0114] 对弹幕进行分词之后,统计每个时间段内每个分词的词频,每个分词的词频即为 每个分词出现的次数,并将出现次数最多的分词,即词频最大的分词确定为该时间段对应 的弹幕主题词,并将所述分词的次数确定为所述弹幕主题词的次数。
[0115] 识别模块303,用于根据每个时间段对应的弹幕主题词的出现次数,及保存的频率 均值,识别弹幕主题词的出现次数大于所述频率均值的时间段。
[0116] 具体地,保存的频率均值可以为预先设定的值,或是通过预设的计算方法计算得 出来的数值。
[0117] 计算频率均值的预设的计算方法可以为,根据统计的每个时间段对应的弹幕主题 词的出现次数,求出该流媒体上各弹幕主题词的频率中值,具体如下式所示。
[0118] 频率均值=(第一个时间段内弹幕主题词的出现次数+第二个时间段内弹幕主题 词的出现次数+……+第N个时间段内弹幕主题词的出现次数)/(时间段的数量N)。
[0119] 当然,也可以采用其他计算方法计算频率均值,具体采用何种计算方法计算频率 均值,本发明实施例不作限定。
[0120] 根据预先设定的频率中值或计算得出的频率均值,判断每个时间段内的弹幕主题 词的出现次数是否大于该频率均值,若大于,则识别弹幕主题词的出现次数大于所述频率 均值的时间段。
[0121] 第一确定模块304,用于在识别出的时间段中,根据对应的弹幕主题词在该时间段 内每个时间点出现的次数,将出现次数最大值对应的时间点确定为内容爆点。
[0122] 具体地,识别出的时间段为弹幕主题词的出现次数大于保存的频率均值的时间 段,针对识别出的时间段,确定该时间段内的弹幕主题词在每个时间点出现的次数,并将该 时间段内弹幕主题词出现次数最大值对应的时间点确定为内容爆点。
[0123] 为了便于用户清楚的了解内容爆点对应的主题内容,该装置还包括第二确定模块 (图3中未示出),用于将识别出的时间段对应的弹幕主题词确定为内容爆点的爆点主题词, 这样用户就可以通过查看爆点主题词清楚的了解该内容爆点对应的爆点话题是什么。
[0124] 本发明实施例是基于用户主动生成的弹幕内容确定内容爆点,由于用户对感兴趣 的内容输入的弹幕也会比较多,因此根据流媒体中每个时间段内弹幕主题词的出现次数, 可以准确的确定出用户感兴趣的内容爆点,从而使确定出的内容爆点更加准确,另外,由于 本发明实施例中该内容爆点可以按照上述方式灵活确定,如果弹幕内容发生了变化,也能 够及时、准确的确定出变化后的内容爆点。
[0125] 为了提高确定流媒体内容爆点的效率,在上述实施例的基础上,在本发明的一个 实施例中,在对流媒体划分多个时间段之前,该装置还包括:
[0126] 第一判断模块,用于判断用户针对流媒体发送的弹幕数量是否大于预设的数量额 定值,当所述弹幕数量大于预设的数量额定值时,按照预设的规则将流媒体划分多个时间 段。
[0127] 具体地,预设的数量额定值为用户根据实际情况自行设定的,其可以是很大的数, 具体数值范围本发明实施例不作限定,
[0128] 当用户针对流媒体发送的弹幕数量小于预设的数量额定值时,可以认为根据此时 的弹幕数量确定出的内容爆点可能不够准确,因此在本发明实施例中可以暂时不对其进行 确定流媒体内容爆点的工作。
[0129] 应用本实施例,在确定流媒体的内容爆点之前,根据用户针对该流媒体发送的弹 幕数量先进行判断,其弹幕数量是否达到预设的数量额定值,在不可能出现内容爆点时,不 进行确定流媒体内容爆点的计算工作,减少了计算工作量,提高了确定流媒体内容爆点的 效率。
[0130] 为了进一步提高确定流媒体内容爆点的效率,在上述实施例的基础上,在本发明 的另一个实施例中,在对每个时间段内的弹幕进行分词之前,该装置还包括:
[0131] 第二判断模块,用于针对每个时间段,获取流媒体在该时间段内对应的弹幕数量, 判断所述弹幕数量是否大于预设的数量阈值,如果是,则对该时间段内的弹幕进行分词。
[0132] 具体地,流媒体在每个时间段内的弹幕数量可能会起伏变化,例如在某电视剧结 尾时刻可能只有很少的弹幕,这种情况下可以认为不会出现内容爆点,则可以不对该时间 段进行确定内容爆点的工作,从而提高流媒体内容爆点的确定效率。
[0133] 所述预设的数量阈值为用户根据实际应用情况自行设定的,当该时间段内的弹幕 数量大于预设的数量阈值时,对该时间段内的弹幕进行分词,当该时间段内的弹幕数量小 于预设的数量阈值时,认为不会有内容爆点,不进行分词处理。
[0134] 应用本实施例,只对弹幕数量大于预设的数量阈值的时间段内的弹幕进行分词处 理,对弹幕数量小于预设的数量阈值的时间段不予考虑,这样就避免了对不可能出现内容 爆点的时间段做分词处理工作,减小了分词工作量,进一步提高了确定流媒体内容爆点的 效率。
[0135] 为了提高确定流媒体内容爆点的准确性,在上述实施例的基础上,在本发明的又 一个实施例中,在对每个时间段内的弹幕进行分词之前,该装置还包括:
[0136] 过滤模块,用于对每个时间段内的弹幕进行过滤。
[0137] 具体地,对每个时间段内的弹幕进行过滤包括:判断该时间段内的每个弹幕与保 存的无意义语句词表中的内容是否相同;如果相同,则过滤该弹幕。
[0138] 所述无意义语句词表为保存在本地的表,无意义语句包括无意义的字、词、短语以 及诋毁他人等低质量语句等。无意义语句词表如表1所示,其内容可以根据实际情况进行更 新。
[0139] 表1
[0141] 应用本实施例,分析弹幕内容时,过滤掉了无意义的不能准确反映用户真实感兴 趣的话题的弹幕,只对有效反映用户真实感兴趣的话题的弹幕进行分析,进一步提高了确 定流媒体内容爆点的准确性。
[0142] 具体地,对弹幕的过滤工作可以在判断每个时间段内弹幕数量是否大于预设的数 量阈值之前,也可以在判断每个时间段内弹幕数量是否大于预设的数量阈值之后。
[0143] 为便于用户查看与内容爆点有关的弹幕内容,在上述实施例的基础上,在本发明 的再一个实施例中,该装置还包括:
[0144] 保存模块,用于在确定内容爆点后,将确定的每个内容爆点保存在所述流媒体中, 并针对每个内容爆点保存该内容爆点对应的弹幕。
[0145] 应用本实施例,当用户播放该流媒体时,可以点选内容爆点,查看对应的弹幕,并 可以选择是否播放该时间点对于的弹幕内容,便于用户更清楚的了解该内容爆点对应的话 题内容。
[0146] 对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关 之处参见方法实施例的部分说明即可。
[0147] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存 在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在 包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0148] 本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中, 这里所称得的存储介质,如:R0M/RAM、磁碟、光盘等。
[0149] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围 内。
【主权项】
1. 一种确定流媒体中内容爆点的方法,其特征在于,应用于服务器,所述方法包括: 按照预设的规则将流媒体划分多个时间段; 针对每个时间段,对该时间段内的弹幕进行分词;统计该时间段内每个分词的词频,确 定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出现次数; 根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识别弹幕主题词 出现次数大于所述频率均值的时间段; 在识别出的时间段中,根据对应的弹幕主题词在该时间段内每个时间点出现的次数, 将出现次数最大值对应的时间点确定为内容爆点。2. 根据权利要求1所述的方法,其特征在于,所述按照预设的规则将流媒体划分多个时 间段之前,所述方法还包括: 判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定值,当所述弹幕数量大 于预设的数量额定值时,进行所述按照预设的规则将流媒体划分多个时间段的步骤。3. 根据权利要求1所述的方法,其特征在于,所述对该时间段内的弹幕进行分词之前, 所述方法还包括: 对该时间段内的弹幕进行过滤。4. 根据权利要求3所述的方法,其特征在于,所述对该时间段内的弹幕进行过滤包括: 判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同; 如果相同,则过滤该弹幕。5. 根据权利要求1所述的方法,其特征在于,所述对该时间段内的弹幕进行分词之前, 所述方法还包括: 针对每个时间段,判断该时间段内的弹幕数量是否大于设定的数量阈值,如果是,则进 行所述对该时间段内的弹幕进行分词的步骤。6. 根据权利要求1所述的方法,其特征在于,所述将出现次数最大值对应的时间点确定 为内容爆点之后,所述方法还包括: 将确定的每个内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对 应的弹蒂。7. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 将识别出的时间段对应的弹幕主题词确定为该内容爆点的爆点主题词。8. -种确定流媒体中内容爆点的装置,其特征在于,应用于服务器,所述装置包括: 划分模块,用于按照预设的规则将流媒体划分多个时间段; 处理模块,用于针对每个时间段,对该时间段内的弹幕进行分词;统计每个时间段内每 个分词的词频,确定该时间段对应的弹幕主题词;并确定该时间段对应的弹幕主题词的出 现次数; 识别模块,用于根据每个时间段对应的弹幕主题词的出现次数,及保存的频率均值,识 别弹幕主题词出现次数大于所述频率均值的时间段; 第一确定模块,用于根据对应的弹幕主题词在该时间段内每个时间点出现的次数,将 出现次数最大值对应的时间点确定为内容爆点。9. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 第一判断模块,用于判断用户针对流媒体发送的弹幕数量是否大于预设的数量额定 值,当所述弹幕数量大于预设的数量额定值时,进行所述按照预设的规则将流媒体划分多 个时间段的步骤。10. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 过滤模块,用于在对每个时间段内的弹幕进行分词之前对该时间段内的弹幕进行过 滤。11. 根据权利要求10所述的装置,其特征在于,所述过滤模块具体用于: 判断该时间段内的每个弹幕与保存的无意义语句词表中的内容是否相同; 如果相同,则过滤该弹幕。12. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 第二判断模块,用于针对每个时间段,判断该时间段内的弹幕数量是否大于设定的数 量阈值,如果是,则进行所述对该时间段内的弹幕进行分词的步骤。13. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 保存模块,用于将出现次数最大值对应的时间点确定为内容爆点之后,将确定的每个 内容爆点保存在所述流媒体中,并针对每个内容爆点保存该内容爆点对应的弹幕。14. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 第二确定模块,用于将识别出的时间段对应的弹幕主题词确定为该内容爆点的爆点主 题词。
【文档编号】H04N21/845GK106028176SQ201610373489
【公开日】2016年10月12日
【申请日】2016年5月31日
【发明人】王晨曦, 汪强, 杨琛
【申请人】北京奇艺世纪科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1