本发明涉及视频技术领域,特别是涉及一种视频片段提取方法和装置。
背景技术:
随着互联网技术的快速发展,以及视频制作成本的大幅缩减,以至互联网中视频的总时长成指数级的增长。以某网站例,每分钟生产和用户上传的视频总时长数达数十小时,用户根本不可能在一分钟内观看数十小时的视频。因此,只有筛选出用户感兴趣的视频片段,过滤用户不感兴趣的视频片段,才能更好的满足用户的需求,更好的为用户服务,提升用户的忠诚度,最终增加用户访问该网站的的频次和单次访问的时长,进而留住用户。因此,需要通过技术手段,为用户筛选出某个几百小时的电视剧或者某个几个小时的综艺节目中的精彩视频片段。
现有视频片段提取技术中,获取用户视频片段的方法包括:根据用户操作视频播放器和观看视频的行为,得到实际观看比例值,大于一定阈值的作为精彩片段。然后,根据视频图像信息,采用图像处理算法提取视频的精彩片段。
但对于现有技术中这种采用实际观看比例值的方法,当用户数据较少时,准确性显然不够。
因此,如何提供一种准确有效的精彩视频片段提取方法和装置成为亟待解决的技术问题。
技术实现要素:
本发明实施例提供一种视频片段提取方法和装置,用以解决现有技术中精彩视频片段提取准确度低的缺陷,实现精彩视频片段高准确率的提取。
为了解决上述问题,本发明公开了一种视频片段提取方法,其中,包括步骤:
分别对用户弹幕文本情感、用户拖拽视频行为数据进行分析;
对上述两者的分析数据进行加权融合得到视频片段的精彩值。
本发明所述的方法,其中,所述用户弹幕文本情感进行分析的步骤进一步包括:
对用户弹幕文本进行分词,
对所述得到的分词进行词性标注,只保留否定词及情感词;
根据预先设置的情感词典,对词性标注保留的分词生成特征向量;
根据分词的特征向量计算得到用户弹幕文本的褒义情感属性A1、用户弹幕文本的贬义情感属性A3、用户弹幕文本的中性情感属性A2;
根据弹幕文本的情感属性对预设时间的视频拖拽次数值进行调整。
本发明所述的方法,其中,所述对用户拖拽视频行为数据进行分析进一步包括:
解析视频程序用户日志,计算得到所有用户在整个视频中每秒正常观看次数值和拖拽次数值。
本发明所述的方法,其中,
所述所有用户在整个视频中每秒的拖拽次数值等于快退次数减去快进次数。
本发明所述的方法,其中,所述对上述两者的分析数据进行加权融合得到视频片段的精彩值的步骤进一步包括:
视频片段的精彩值为拖拽次数、用户弹幕文本褒义情感属性A1、用户弹幕文本中性情感属性A2、用户弹幕文本贬义情感属性A3及正常观看次数之和除以正常观看次数。
为了解决上述问题,本发明还公开了一种视频片段提取装置,其中,包括:
用户弹幕文本分析模块,用于对用户弹幕文本情感数据进行分析;
用户拖拽视频行为分析模块,用于对用户拖拽视频行为数据进行分析;
分析结果数据加权融合模块,用于根据用户弹幕文本分析模块及用户拖拽视频行为分析模块得到的分析数据进行加权融合得到视频片段的精彩值。
本发明所述的装置,其中,
所述用户弹幕文本分析模块,进一步用于对用户弹幕文本情感数据进行分析得到用户弹幕文本褒义情感属性A1、用户弹幕文本中性情感属性A2、用户弹幕文本贬义情感属性A3,及根据弹幕文本的情感属性对预设时间的视频拖拽数值进行调整;
所述用户拖拽视频行为分析模块,进一步用于对用户拖拽视频行为数据进行分析得到所有用户在整个视频中每秒正常观看次数值和拖拽次数值。
所述分析结果数据加权融合模块,进一步用于根据拖拽次数、用户弹幕文本褒义情感属性A1、用户弹幕文本中性情感属性A2、用户弹幕文本贬义情感属性A3及正常观看次数之和除以正常观看次数得到视频片段的精彩值。
本发明所述的装置,其中,所述用户弹幕文本分析模块进一步包括:
分词生成子模块,用于对弹幕文本进行分词;
词性标注生成子模块,用于对分词生成子模块得到的分词进行词性标注,并去掉名词,保留否定词及情感词;
特征向量生成子模块,用于根据预先设置的情感词典,对词性标注生成子模块根据词性标注保留的分词生成特征向量;
情感属性生成子模块,用于根据特征向量生成子模块生成的分词特征向量计算得到用户弹幕文本褒义的情感属性A1、用户弹幕文本的贬义情感属性A3、用户弹幕文本的中性情感属性A2;
视频拖拽次数值调整子模块,用于根据情感属性生成子模块生成的弹幕文本的情感属性对预设时间的视频拖拽次数值进行调整。
本发明所述的装置,其中,所述用户拖拽视频行为分析模块进一步包括:
正常观看次数值及拖拽次数值计算子模块,用于解析视频程序用户日志,计算得到所有用户在整个视频中每秒正常观看次数值和拖拽次数值。
本发明所述的装置,其中,
所述正常观看次数值及拖拽次数值计算子模块,进一步用于通过快退次数减去快进次数计算所有用户在整个视频中每秒的拖拽次数值。
本发明实施例提供的一种视频片段提取方法及装置,通过分别对用户弹幕文本情感、用户拖拽视频行为数据进行分析;对上述两者的分析数据进行加权融合得到视频片段的精彩值。提高了发掘精彩视频片段的准确性,从而提升了用户对视频网站的忠诚度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种视频片段提取方法实施例的步骤流程图;
图2是本发明一种视频片段提取方法中用户弹幕数据分析实施例的步骤流程图;
图3是本发明一种视频片段提取方法中用户播放行为数据分析实施例的步骤流程图;
图4是本发明一种视频片段提取装置实施例的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参照图1,示出了本发明一种视频片段提取方法实施例的步骤流程图。
本实施例的一种视频片段提取方法包括以下步骤:
步骤101:对用户弹幕文本情感数据进行分析;
步骤102:用户拖拽视频行为数据进行分析;
步骤103:对上述两者的分析数据进行加权融合得到视频片段的精彩值。之后,可以根据精彩值进行精彩视频片段的提取。本步骤中,视频片段的精彩值为拖拽次数、用户弹幕文本褒义情感属性、用户弹幕文本中性情感属性、用户弹幕文本贬义情感属性及正常观看次数之和除以正常观看次数。
本方法实施例通过对用户弹幕文本情感数据及用户拖拽视频行为数据的分析,并将两者分析数据加权融合,得到视频片段的精彩值。提高了发掘精彩视频片段的准确性,从而提升了用户对视频网站的忠诚度。
实施例二
参照图2,示出了本发明一种视频片段提取方法中用户弹幕数据分析实施例的步骤流程图。
本实施例的视频片段提取方法中用户弹幕数据分析具体包括以下步骤:
步骤201:对用户弹幕文本进行分词,本实施例中可以采用HMM分词模型或者借助开源工具对弹幕文本进行分词。
步骤202:对所述得到的分词进行词性标注,并去掉名词,保留否定词及情感词;这里通过去掉名词等无情感的词语,保留情感词语和否定词。
步骤203:根据预先设置的情感词典,对词性标注保留的分词生成特征向量;例如否定词设置为0,情感词根据查找情感词典,褒义设置为正值,贬义设置为负值。本步骤中先设置的情感词典根据训练样本中的情感词的TF-IDF值计算得到。在本步骤中,我们训练模型采用了SVM支持向量机算法,首先,训练样本中事先标注好褒义、贬义、中性的短文本语句,进行特征处理和提取,输入为上述的特征向量,然后用支持向量机(SVM)算法,训练得到文本情感分类模型。SVM采用核函数进行非线性映射,将原训练数据映射到较高的维。从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能,本发明采用了径向基函数核函数。
步骤204:根据分词的特征向量计算得到用户弹幕文本的褒义情感属性A1、用户弹幕文本的贬义情感属性A3、用户弹幕文本的中性情感属性A2。
步骤205:根据弹幕文本的情感属性对预设时间如用户弹幕时间点前后2*文本长度个秒的视频拖拽次数值进行调整。在本步骤中,发送弹幕文本时间点前后的2*文本字数秒的托拽数增加A1、A2、A3。其中褒义:A1,贬义:A3,中性:A2,A1>A2>A3,A3为负数。从而得到弹幕每一秒的文本托拽数,即所有用户每一秒的(A1+A2+A3)。
实施例三
参照图3,示出了本发明一种视频片段提取方法中用户播放行为数据分析实施例的步骤流程图。
本实施例的视频片段提取方法中用户播放行为数据分析的步骤流程图,包括:
步骤301:解析视频程序用户日志,
步骤302:计算得到所有用户在整个视频中每秒正常观看次数值和拖拽次数值。本步骤中,正常观看次数指的是用户没有拖拽行为的观看次数。所有用户在整个视频中每秒的拖拽次数值等于快退次数减去快进次数。本步骤中,快退次数指用户观看视频时快退观看的次数,快进次数指的是用户观看视频时快进观看的次数。
实施例四
参照图4,示出了本发明一种视频片段提取装置实施例的结构框图。
本实施例的视频片段提取装置401,包括:用户弹幕文本分析模块402、用户拖拽视频行为分析模块403、分析结果数据加权融合模块404;其中,用户弹幕文本分析模块402还包括:分词生成子模块405、词性标注生成子模块406、特征向量生成子模块407、情感属性生成子模块408、视频拖拽数值调整子模块409;用户拖拽视频行为分析模块403还包括:正常观看数值及拖拽次数值计算子模块410。
本实施例中,
用户弹幕文本分析模块402,用于对用户弹幕文本情感数据进行分析;例如,用于对用户弹幕文本情感数据进行分析得到用户弹幕文本褒义情感属性A1、用户弹幕文本中性情感属性A2、用户弹幕文本贬义情感属性A3,及根据弹幕文本的情感属性对预设时间,例如用户弹幕时间点前后2*文本长度个秒的视频拖拽数值进行调整。
分词生成子模块405,用于对弹幕文本进行分词;
词性标注生成子模块406,用于对分词生成子模块得到的分词进行词性标注,并去掉名词,保留否定词及情感词;
特征向量生成子模块407,用于根据预先设置的情感词典,对词性标注生成子模块根据词性标注保留的分词生成特征向量;
情感属性生成子模块408,用于根据特征向量生成子模块生成的分词特征向量计算得到用户弹幕文本的褒义情感属性A1、用户弹幕文本的贬义情感属性A3、用户弹幕文本的中性情感属性A2;
视频拖拽次数值调整子模块409,用于根据情感属性生成子模块生成的弹幕文本的情感属性对设时间,例如用户弹幕时间点前后2*文本长度个秒的视频拖拽次数值进行调整。
用户拖拽视频行为分析模块403,用于对用户拖拽视频行为数据进行分析;例如,用于对用户拖拽视频行为数据进行分析得到所有用户在整个视频中每秒正常观看次数值和拖拽次数值。本实施例中,正常观看次数指的是用户没有拖拽行为的观看次数。
正常观看次数值及拖拽次数值计算子模块410,用于解析视频程序用户日志,计算得到所有用户在整个视频中每秒正常观看次数值和拖拽次数值。本实施例中,所有用户在整个视频中每秒的拖拽次数值等于快退次数减去快进次数。本实施例中,快退次数指用户观看视频时快退观看的次数,快进次数指的是用户观看视频时快进观看的次数。
分析结果数据加权融合模块404,用于根据用户弹幕文本分析模块及用户拖拽视频行为分析模块得到的分析数据进行加权融合得到视频片段的精彩值。例如,根据拖拽次数、用户弹幕文本褒义情感属性A1、用户弹幕文本中性情感属性A2、用户弹幕文本贬义情感属性A3及正常观看次数之和除以正常观看次数得到视频片段的精彩值。
本实施例的视频片段提取装置用于实现前述实施例一、二以及实施例三中相应的视频片段提取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。