视频内容处理方法、装置、计算机设备及存储介质与流程

文档序号:18642801发布日期:2019-09-11 23:44阅读:273来源:国知局
视频内容处理方法、装置、计算机设备及存储介质与流程

本发明涉及计算机应用技术,特别涉及视频内容处理方法、装置、计算机设备及存储介质。



背景技术:

小视频是指用户自己拍摄生成的、时间较短的视频,目前,存在各种小视频应用(app)和网站,作为新兴的优质内容,具有趣味性、沉浸性、极简交互等特点,尤其受到年轻人追捧。

小视频内容标签是小视频内容理解的基础,也是小视频搜索、推荐等的基础,因此,需要丰富小视频内容标签集合/体系,以便更好地满足小视频应用需求。

目前,小视频内容标签主要采用人工收集整理的方式,如人工根据已有的热门小视频资源提取及整理归纳小视频内容标签,但这种方式需要耗费很大的人力成本,而且效率低下,另外收集到的小视频内容标签有限,覆盖范围较小。

以上以小视频为例,对于小视频以外的其它视频类型,也可能存在同样的问题。



技术实现要素:

有鉴于此,本发明提供了视频内容处理方法、装置、计算机设备及存储介质。

具体技术方案如下:

一种视频内容处理方法,包括:

选择生产视频的用户中的特定用户;

对所述特定用户的用户名进行分析,从中挖掘出与视频内容相关的标签;

将挖掘出的标签加入到视频内容标签集合。

一种视频内容处理装置,其特征在于,包括:选择单元以及挖掘单元;

所述选择单元,用于选择生产视频的用户中的特定用户;

所述挖掘单元,用于对所述特定用户的用户名进行分析,从中挖掘与视频内容相关的标签,将挖掘出的标签加入到视频内容标签集合。

一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出,采用本发明所述方案,可从生产小视频的用户中选出特定用户,并可对特定用户的用户名进行分析,从中挖掘出与视频内容相关的标签,进而可将挖掘出的标签加入到视频内容标签集合,相比于现有方式,本发明所述方案中无需进行人工收集整理,从而节省了人力成本并提升了标签挖掘效率,而且,可挖掘到用户名中存在的各种各样的标签,提升了覆盖范围等。

【附图说明】

图1为本发明所述视频内容处理方法实施例的流程图。

图2为本发明所述视频内容处理装置实施例的组成结构示意图。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。

显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

图1为本发明所述视频内容处理方法实施例的流程图。如图1所示,包括以下具体实现方式。

在101中,选择生产视频的用户中的特定用户。

在102中,对特定用户的用户名进行分析,从中挖掘出与视频内容相关的标签。

在103中,将挖掘出的标签加入到视频内容标签集合。

生产视频的用户可以包括制作视频的用户及发布视频的用户等。优选地,本实施例中所述的视频可为小视频,以下即以小视频为例进行说明,但对于小视频以外的其它视频类型,本发明所述方案同样适用。

针对生产小视频的各用户,可从中选出符合预定要求的特定用户,如热门用户。

对于一个小视频产品来说,其中的用户按照生成和消费的主要需求可以分为2种角色:a、内容生产者;b、内容消费者。其中,内容生产者的目的是为了吸引更多的内容消费者,以获得更多的订阅数、粉丝数、点赞数等。内容消费者根据自己的兴趣爱好观看、评论自己订阅关注的或是推荐、搜索得到的小视频。因而,内容消费者通过消费行为自然的对小视频进行了筛选,使得那些高质量、内容丰富有趣的用户逐渐成为热门用户。

大量的热门用户通常在用户名中就明确指定了自己生产的小视频的内容主题,本发明的目标就是要对这些用户名进行分析,从中挖掘出与视频内容相关的标签,即小视频内容标签。

相应地,本实施例中,可首先从生产小视频的用户中过滤出热门用户。具体地,可收集生产小视频的各用户的用户名和热度信息,然后将热度信息符合要求的用户确定为热门用户。热门用户通常为多个。

如何确定热度信息可根据实际需要而定,比如,可确定多个评估维度,包括粉丝数量、发布小视频的频率等,对于任一用户,可针对每个评估维度分别进行评分,并将各评分结果加权相加,将相加之和作为该用户的综合评分,进一步地,可将该综合评分与预先设定的阈值进行比较,若大于阈值,则可将该用户判定为热门用户。

之后,可对热门用户的用户名进行分析,从中挖掘出与视频内容相关的标签。所述标签可包括任何可检测和识别的信息,可为静态信息,也可为动态信息等,视实际需要而定。

具体到本实施例中,从热门用户的用户名中挖掘出的标签可主要分为2类:实体和话题兴趣点。其中,实体是指如公众人物名称、机构、景点等为具体人或物的词,话题兴趣点是指围绕某个话题、事件、实体的关注点等。

可采用不同方式挖掘出不同类别的标签,包括但不限于以下方式。

1)词典匹配

该方式中,针对任一热门用户的用户名,可将该用户名与预先构建的词典进行匹配,若该用户名为词典中的一个词,则可将该用户名作为挖掘出的标签。

可预先构建一个词典,其中包含公众人物名称、机构、景点等,例如可以利用知识图谱数据直接获取特定领域下的词典信息。若某一热门用户的用户名直接命中词典,即为词典中的一个词,则可直接将该用户名作为挖掘出的标签,如“陈赫”、“故宫”、“北京大学”等。

采用词典匹配方式挖掘出的标签通常为实体。

2)高频用户名前后缀

该方式中,针对任一热门用户的用户名,可将该用户名中的前n个词组成的文本片段作为前缀抽取出来,n为正整数,若该前缀在所有热门用户的用户名中的出现比例大于预定第一阈值,且该前缀的词性符合预定词性要求,则可将该前缀作为挖掘出的标签。

通常来说,标签的词性可包括名词、名词短语和动名词等。

可首先按照现有的切词方式,对用户名进行切词处理,之后可将用户名中的前n个(第1~n个)词组成的文本片段作为前缀抽取出来,n的具体取值可根据实际需要而定,可为一,也可大于一,如“历史人物”这一前缀,是由“历史”和“人物”两个词组成的,“减肥减脂”这一前缀,是由“减肥”和“减脂”两个词组成的,“历史”这一前缀,则是由“历史”这一个词组成的,如果抽取出的前缀在所有热门用户的用户名中的出现比例大于第一阈值,且符合名词、名词短语或动名词等的词性要求,则可将该前缀作为挖掘出的标签。

或者,针对任一热门用户的用户名,可将该用户名中的后m个词组成的文本片段作为后缀抽取出来,m为正整数,若该后缀在所有热门用户的用户名中的出现比例大于预定第二阈值,且该后缀的词性符合预定词性要求,则可将该后缀作为挖掘出的标签。

假设m的取值为2,那么后m个词即指最后两个词。如果抽取出的后缀在所有热门用户的用户名中的出现比例大于第二阈值,且符合名词、名词短语或动名词等的词性要求,则可将该后缀作为挖掘出的标签。

上述n、m、第一阈值和第二阈值的具体取值均可根据实际需要而定。

3)分隔符分隔

该方式中,针对任一热门用户的用户名,若从中抽取出被分隔符分隔出的文本片段,且该文本片段的词性符合预定词性要求,则可将该文本片段作为挖掘出的标签。

比如:菲儿爱「健身」;

喵喵<正能量>;

小汀『生活小妙招』;

【动漫美图】伊赛斯;

其中的“健身”、“正能量”、“生活小妙招”、“动漫美图”等均为被分隔符分隔出的文本片段,且词性符合名词、名词短语或动名词等的词性要求,则可这些文本片段作为挖掘出的标签。

4)模板匹配

该方式中,针对任一热门用户的用户名,若该用户名的词性搭配方式与预先生成的至少一个模板中的一个模板相匹配,则可按照相匹配的模板,将该用户名中的预定词性的文本片段抽取出来,作为挖掘出的标签。

具体地,可首先对用户名进行切词、词性标注和名词实体识别等,如标注出人名、名词、动名词等,然后通过模板匹配挖掘出标签,为此,可预先生成至少一个模板,通常为多个。

比如,模板包括:人物+名词(n)、人物+[培训教学词表1]+名词、人物+名词+动名词(vn)。

“小杨玉石”、“水稻杨哥”、“装修讲座哥”等用户名均与“人物+名词”这一模板相匹配,那么可按照相匹配的模板,将这些用户名中的“名词”词性的文本片段抽取出来,从而可得到“玉石”、“水稻”、“装修”等标签。

“无忧姐姐教穿搭”、“小白讲多肉”、“张胖说历史”等用户名均与“人物+[培训教学词表1]+名词”这一模板相匹配,那么可按照相匹配的模板,将这些用户名中的“名词”词性的文本片段抽取出来,从而可得到“穿搭”、“多肉”、“历史”等标签。

培训教学词表1可为预先构建的,其中可包括各种培训教学词汇,如“教”、“讲”、“说”等。

“张路北京聊足球”这一用户名与“人物+名词+动名词”这一模板相匹配,那么可按照相匹配的模板,将该用户名中的“动名词”词性的文本片段抽取出来,从而可得到“聊足球”这一标签。

再比如,模板包括:名词+[培训教学词表2]。

“驾考理论技巧”、“新能源资料”、“钓鱼直播”等用户名均与该模板相匹配,那么可按照相匹配的模板,将这些用户名中的“名词”词性的文本片段抽取出来,从而可得到“驾考理论”、“新能源”、“钓鱼”等标签。

培训教学词表2同样可为预先构建的,其中可包括各种培训教学词汇,如“直播”、“资料”、“技巧”、“大讲堂”、“导师”等。培训教学词表2和培训教学词表1中的内容可以相同,也可以不同,通常不同。

按照上述方式2)~4),挖掘出热门用户的用户名中的文本片段,作为挖掘出的标签,按照这些方式挖掘出的标签通常为话题兴趣点。

按照上述上述各方式挖掘出的标签中,尤其是按照方式3)和方式4)挖掘出的标签中,很可能会存在不是用户关注点的噪音数据,如“莉姐草原”、“猴哥小辉”等用户名,按照方式4)会抽取出“草原”、“猴哥”等标签,但这些标签通常不是用户的关注点,因此优选地,可对挖掘出的标签进行过滤,过滤掉不为用户关注点的标签,进而可将过滤后的标签加入到小视频内容标签集合。

具体地,针对挖掘出的任一标签,可分别将该标签代入预先生成的各过滤模板,过滤模板数至少为一,针对各代入该标签后的过滤模板,可分别统计其在最近预定时长内的搜索引擎日志(如最近半年内的百度搜索引擎日志)中的出现次数,所述出现次数可包括在查询(query)中的出现次数或在搜索结果的标题(title)中的出现次数,综合各统计结果确定出是否过滤掉该标签,即综合各统计结果确定该标签是否为用户的关注点,若否,则可过滤掉该标签。

可预先编写高质量、纯净的字符串模板(过滤模板),如可包括:**教程、怎么学**、**技巧、**方法等,针对挖掘出的标签如“草原”,可分别将其代入各过滤模板中,从而可分别得到代入该标签后的各过滤模板如下:草原教程、怎么学草原、草原技巧、草原方法等,之后可统计“草原教程”在搜索引擎日志中的query中的出现次数,并可根据出现次数进行评分,出现次数越高,评分越高,类似地,可分别得到“怎么学草原”、“草原技巧”、“草原方法”等对应的评分,之后可将各评分加权相加,并将相加之和与预先设定的阈值进行比较,若大于阈值,则可确定该标签为用户的关注点,否则,不为用户的关注点。

需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

总之,采用本发明方法实施例所述方案,可基于用户名来挖掘标签,无需进行人工收集整理,从而节省了人力成本和提升了标签挖掘效率,而且,可挖掘到用户名中存在的各种各样的标签,提升了覆盖范围,并贴合用户需求等。

以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。

图2为本发明所述视频内容处理装置实施例的组成结构示意图。如图2所示,包括:选择单元201以及挖掘单元202。

选择单元201,用于选择生产视频的用户中的特定用户。

挖掘单元202,用于对特定用户的用户名进行分析,从中挖掘出与视频内容相关的标签,将挖掘出的标签加入到视频内容标签集合。

具体地,选择单元201可收集生产视频的各用户的热度信息,将热度信息符合要求的用户确定为特定用户。生产视频的用户可包括制作视频的用户及发布视频的用户等。

如何确定热度信息可根据实际需要而定,比如,可确定多个评估维度,包括粉丝数量、发布小视频的频率等,对于任一用户,可针对每个评估维度分别进行评分,并将各评分结果加权相加,将相加之和作为该用户的综合评分,进一步地,可将该综合评分与预先设定的阈值进行比较,若大于阈值,则可将该用户判定为热门用户。

挖掘单元202可对特定用户的用户名进行分析,从中挖掘出标签。挖掘出的标签可主要分为2类:实体和话题兴趣点。其中,实体是指如公众人物名称、机构、景点等为具体人或物的词,话题兴趣点是指围绕某个话题、事件、实体的关注点等。

可采用不同方式挖掘出不同类别的标签,包括但不限于以下方式。

针对任一特定用户的用户名,挖掘单元202可将该用户名与预先构建的词典进行匹配,若该用户名为词典中的一个词,则可将该用户名作为挖掘出的标签。按照该方式挖掘出的标签通常为实体。

或者,针对任一特定用户的用户名,挖掘单元202可挖掘出该用户名中的文本片段,作为挖掘出的标签。

具体地,针对任一特定用户的用户名,挖掘单元202可将该用户名中的前n个词组成的文本片段作为前缀抽取出来,n为正整数,若该前缀在所有特定用户的用户名中的出现比例大于预定第一阈值,且该前缀的词性符合预定词性要求,则可将该前缀作为挖掘出的标签,或者,挖掘单元202可将该用户名中的后m个词组成的文本片段作为后缀抽取出来,m为正整数,若该后缀在所有特定用户的用户名中的出现比例大于预定第二阈值,且该后缀的词性符合预定词性要求,则可将该后缀作为挖掘出的标签。

另外,针对任一特定用户的用户名,若挖掘单元202从中抽取出被分隔符分隔出的文本片段,且该文本片段的词性符合预定词性要求,则可将该文本片段作为挖掘出的标签。

再有,针对任一特定用户的用户名,若挖掘单元202确定该用户名的词性搭配方式与预先生成的至少一个模板中的一个模板相匹配,则可按照相匹配的模板,将该用户名中的预定词性的文本片段抽取出来,作为挖掘出的标签。

按照上述三种方式挖掘出的标签通常为话题兴趣点。

按照上述各方式挖掘出的标签中,很可能会存在不是用户关注点的噪音数据,因此优选地,挖掘单元202可对挖掘出的标签进行过滤,过滤掉不为用户关注点的标签,将过滤后的标签加入到视频内容标签集合。

具体地,挖掘单元202可针对挖掘出的任一标签,分别将该标签代入预先生成的各过滤模板,过滤模板数至少为一,针对各代入标签后的过滤模板,分别统计其在最近预定时长内的搜索引擎日志中的出现次数,所述出现次数包括在query中的出现次数或在搜索结果的title中的出现次数,综合各统计结果确定是否过滤掉该标签,即综合各统计结果确定出该标签是否为用户的关注点。

图2所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。

总之,采用本发明装置实施例所述方案,可基于用户名来挖掘标签,无需进行人工收集整理,从而节省了人力成本和提升了标签挖掘效率,而且,可挖掘到用户名中存在的各种各样的标签,提升了覆盖范围,并贴合用户需求等。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图3显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。

本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1