本申请涉及节目制作技术,具体地,涉及一种节目素材制作方法、装置及计算机存储介质、电子设备。
背景技术:
目前,对于访谈类节目通常会有主持人和几个嘉宾之间的问题讨论或谈话,在电视台节目的制作过程中,需要对谈话内容进行录制。在后期进行节目制作时,需要了解嘉宾的谈话内容,并且需要区分出是哪个嘉宾的谈话内容,从而选择一些比较重要或比较有价值的内容进行后期编辑。
现有的做法是,在谈话内容录制完成后,通过人工听写、记录下所有的谈话内容并人工标记不同的人物角色,然后通过查看文本进行构思,决定采用哪些角色的哪些谈话内容进行后期编辑作为素材,再在非编系统中人工定位找到相应内容的位置进行剪辑,做成节目。可以看出,整个过程非常繁琐且工作量巨大,一般需要数倍于节目的时间才能完成素材的挑选。
技术实现要素:
本申请实施例中提供了一种节目素材制作方法、装置及计算机存储介质、电子设备,以解决上述技术问题。
根据本申请实施例的第一个方面,提供了一种节目素材制作方法,包括:
确定节目的音频文件;所述节目至少包括一个角色;
根据所述音频文件确定每段语音片段的角色信息,并将所述音频文件转写得到带有时间码信息的文字;
将所述带有时间码信息的文字与所述角色信息匹配;
根据所述文字和角色信息确定素材内容;
根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。
根据本申请实施例的第二个方面,提供了一种节目素材制作装置,包括:
文件确定模块,用于确定节目的音频文件;所述节目至少包括一个角色;
角色确定模块,用于根据所述音频文件确定每段语音片段的角色信息;
文字转写模块,用于将所述音频文件转写得到带有时间码信息的文字;
匹配模块,用于将所述带有时间码信息的文字与所述角色信息匹配;
素材选定模块,用于根据所述文字和角色信息确定素材内容;
剪辑模块,用于根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。
根据本申请实施例的第三个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述节目素材制作方法的步骤。
根据本申请实施例的第四个方面,提供了一种电子设备,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如上所述的节目素材制作方法。
采用本申请实施例中提供的节目素材制作方法、装置及计算机存储介质、电子设备,可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑,生产制作效率与传统流程相比有非常大的提升,简化了视频节目的素材挑选和制作过程。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例一中节目素材制作方法实施的流程示意图;
图2示出了本申请实施例二中节目素材制作装置的结构示意图;
图3示出了本申请实施例四中电子设备的结构示意图。
具体实施方式
针对现有技术存在的问题,本申请实施例中提供了一种通过智能语音声纹识别技术,实现访谈类节目的语音转写和角色识别的技术方案,简化了视频节目内容素材挑选和制作流程,并且提高了节目制作效率。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
图1示出了本申请实施例一中节目素材制作方法实施的流程示意图。
如图所示,所述节目素材制作方法包括:
步骤101、确定节目的音频文件;所述节目至少包括一个角色;
步骤102、根据所述音频文件确定每段语音片段的角色信息,并将所述音频文件转写得到带有时间码信息的文字;
步骤103、将所述带有时间码信息的文字与所述角色信息匹配;
步骤104、根据所述文字和角色信息确定素材内容;
步骤105、根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。
在一种实施方式中,所述确定节目的音频文件,包括:通过节目现场录制得到所述节目的音频文件。
在一种实施方式中,所述确定节目的音频文件,包括:从节目的视频文件中提取得到所述节目的音频文件。
所述节目可以包括一个或多个角色,所述节目的音频文件中可以包括所述一个或多个角色的音频片段。每个角色的音频片段可以包括一段或多段音频片段(或称语音片段)。
本申请实施例中根据音频文件确定每段语音片段的角色信息,并且将所述音频文件转写为所述音频文件对应的文字,所述音频文件对应的文字带有时间码(或简称时码)信息。
将所述文字与角色信息匹配,即,确定每个文字或每段文字对应的角色。例如:第一句话是角色a所说,第二句话是角色b所说等等。
然后,本申请实施例可以根据文字以及所述文字对应的角色信息确定素材内容,所述素材内容可以为某段文字或某几段文字。
又由于每个或每段文字是带有时间码信息的,所以所述素材内容也带有时间码信息。本申请实施例可以根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,从而得到节目素材。例如:音频文件对应的文字包括五段文字,确定素材内容为第1段文字、第3段文字和第4段文字,本申请实施例可以根据第1段文字、第3段文字和第4段文字分别带有的时间码信息定位到视频文件中的相应位置,从而剪辑视频文件中第1段文字、第3段文字和第4段文字分别对应的视频片段,将视频文件中第1段文字、第3段文字和第4段文字分别对应的视频片段确定为节目素材。
具体实施时,音频文件可以属于第一节目,最终剪辑得到的素材可以用于第二节目。
采用本申请实施例中提供的节目素材制作方法,可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑,生产制作效率与传统流程相比有非常大的提升,简化了视频节目的素材挑选和制作过程。
在一种实施方式中,所述根据音频文件确定每段语音片段的角色信息,包括:
根据所述音频文件提取所述音频文件中每个音频片段的声纹ivector特征;
根据所述ivector特征与所述预先建立的声纹库进行匹配;所述声纹库中包括ivector特征与角色信息的对应关系;
根据所述音频片段的ivector特征与声纹库中ivector特征的相似度,确定所述音频片段的角色信息为所述声纹库中所述ivector特征对应的角色信息。
具体实施时,本申请实施例根据音频文件确定所述音频文件中每段语音片段对应的角色,可以根据音频片段的声纹特征确定。具体的,首先可以根据音频文件提取出每段音频片段的声纹特征,然后将提取得到的声纹特征与预先建立的声纹库中的若干声纹特征进行匹配,最终确定相似度大于预设阈值的声纹库中声纹特征对应的角色确定为所提取得到的声纹特征对应的角色。
具体实施时,所述预先建立的声纹库可以包括声纹特征和角色两个属性,每个声纹特征与每个角色具有一一对应的关系。
所述声纹特征可以为ivector特征(或i-vector特征),具体的,从音频文件中提取ivector特征可以采用现有算法实现,本申请在此不做赘述。
此外,声纹特征与声纹库中的声纹特征进行匹配的具体过程同样可以采用现有的特征相似度算法实现,本申请对具体的算法过程在此不做赘述。
具体实施时,在所述音频片段的ivector特征与声纹库中ivector特征的相似度大于预设相似阈值时,确定所述音频片段的角色信息为所述声纹库中所述ivector特征对应的角色信息。所述预设相似阈值可以根据实际需要设置。
具体实施时也可以选择相似度最大的声纹特征对应的角色作为音频片段对应的角色。
在一种实施方式中,所述根据音频文件提取所述音频文件中每个音频片段的声纹ivector特征,包括:
按照所述音频文件的句子结束位置和/或音频停顿位置将所述音频文件拆分为多个第一音频片段;每个第一音频片段包括多个第二音频片段;
提取每个第一音频片段中的任意部分音频的声纹ivector特征;
将所述第一音频片段中的任意部分音频的ivector特征作为该第一音频片段的ivector特征。
具体实施时,所述音频文件的句子结束位置可以根据所述音频文件转写得到的文字的多个句子成分确定,具体的,可以根据“,(逗号)”、“。(句号)”等标点符号进行区分,作为句子结束位置。
具体实施时,所述音频文件的音频停顿位置可以根据音频的噪声或音频的能量大小确定,具体的,可以在音频的能量低于预设能量阈值时,确定该音频位置为音频停顿位置。
在一种实施方式中,根据音频文件提取所述音频文件中每个音频片段的声纹ivector特征,可以包括:
按照所述音频文件的句子结束位置将所述音频文件拆分为多个第一音频片段;每个第一音频片段包括多个第二音频片段;
提取每个第一音频片段中的任意部分音频的声纹ivector特征;
将所述第一音频片段中的任意部分音频的ivector特征作为该第一音频片段的ivector特征。
在一种实施方式中,根据音频文件提取所述音频文件中每个音频片段的声纹ivector特征,可以包括:
按照所述音频文件的音频停顿位置将所述音频文件拆分为多个第一音频片段;每个第一音频片段包括多个第二音频片段;
提取每个第一音频片段中的任意部分音频的声纹ivector特征;
将所述第一音频片段中的任意部分音频的ivector特征作为该第一音频片段的ivector特征。
在一种实施方式中,根据音频文件提取所述音频文件中每个音频片段的声纹ivector特征,可以包括:
按照所述音频文件的句子结束位置和音频停顿位置将所述音频文件拆分为多个第一音频片段;每个第一音频片段包括多个第二音频片段;
提取每个第一音频片段中的任意部分音频的声纹ivector特征;
将所述第一音频片段中的任意部分音频的ivector特征作为该第一音频片段的ivector特征。
所述第一音频片段为根据音频文件的句子结束位置和/或音频停顿位置进行拆分得到的较长的音频片段,所述第二音频片段可以为第一音频片段内的较短的音频片段,所述多个第二音频片段组成所述第一音频片段。例如:假设音频文件的文字为“我有一个美丽的家,我爱我的家”,根据句子结束位置可以确定第一音频片段可以为“我有一个美丽的家”和“我爱我的家”,所述第二音频片段可以为“我”、“有”、“一个”、“美丽的家”等多个音频片段,或者“我”、“爱”“我的家”等多个音频片段。
本申请实施例可以仅提取第一音频片段中的任意部分音频的声纹特征来作为所述第一音频片段的声纹特征,从而可以极大的减少声纹提取以及声纹匹配的计算量,提高节目制作效率。
在一种实施方式中,所述声纹库的建立过程,包括:
采集若干角色的任意音频片段;
对所述音频片段的角色进行标注,并提取所述音频片段的声纹特征;
将所述声纹特征以及对应的角色信息存储得到声纹库。
具体实施时,在进行音频片段的声纹特征与声纹库进行匹配之前,可以先建立一个声纹库,所述声纹库可以通过采集若干个角色的任意音频片段,通过对该任意音频片段的角色进行标注并提取声纹特征,最终将角色与声纹特征一一对应的存储得到声纹库。
具体实施时,所述若干角色可以为该音频片段中包括的角色,也可以为所有节目中可能包括的角色。
在一种实施方式中,所述将音频文件转写得到带有时间码信息的文字,包括:
确定所述音频文件对应的文稿;
将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型;
所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的文字。
通常,在节目录制前会有所述节目的文稿,所述文稿通常可以包括节目名称、表演形式、表演者、以及按照时间先后顺序组织的具体节目内容。本申请实施例具体实施时,对于“节目名称”、“表演形式”、“表演者”等信息可能不会被录制声音,所以本申请实施例所述的音频文件可以仅对应于所述按照时间先后顺序组织的具体节目内容。
具体实施时,本申请实施例可以预先搜集大量样本,通过对大量样本进行训练,得到语音识别深度神经网络模型,在具体生成字幕文件时只需要将音频文件和该音频文件对应的文稿输入到该预先训练得到的语音识别深度神经网络模型,由所述语音识别深度神经网络模型自动输出带有所述音频文件对应的文稿中每个词语的时间戳的文字内容。
采用预先训练语音识别深度神经网络模型并利用该语音识别深度神经网络模型来输出带有所述音频文件对应的文稿中每个词语的时间戳的文字内容的方式,可以极大的加快字幕文件的生成效率,并且可复制性强,可以重复利用。
在一种实施方式中,所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的文字,包括:
所述语音识别深度神经网络模型将所述音频文件的每帧语音识别成状态序列;
根据所述音频文件中每帧语音的状态序列得到多个音素;
根据所述多个音素生成一个或多个单词;
将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
具体实施时,本申请实施例可以将语音的每帧识别成状态,再将每帧语音对应的状态组合成音素,接着,再将多个音素组合成单词。
由于语音是一个连续的音频流,通常由大部分的稳定态和部分动态改变的状态混合构成。所述将音频文件的每帧语音识别成状态,可以利用现有技术中的维特比解码等技术对该音频文件进行解码,得到状态序列,所述状态序列可以对应有多个音素。
人类的语言通常包括语音、词汇和语法三部分要素,基本词汇和语法构造决定了每一种语言的基本面貌,本申请实施例侧重于语音的处理。语音可以理解为语言用声音表达出来的形式,即人说话时发出的声音。而声音包括响度、音调和音色三个基本属性,本申请实施例所述的音素可以理解为从音色的角度划分出来的最小的语音单位。
音素又可以根据在发音过程中气流是否受到阻碍被分为元音音素和辅音音素,例如:a、o、e等元音;b、p、f等辅音。
通常在汉语中,2~4个音素可以构成一个音节(例如:mei),一个音节对应一个汉字(例如:美),即,2~4个音素可以组成一个词语/单词(例如:m、e、i三个音素组成一个词语/单词“美”)。
音频文件通常是按照一个时间轴播放的,在得到所述一个或多个单词之后,可以将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在所述音频文件的时间轴上的相对时间位置,从而根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
实施例二
基于同一发明构思,本申请实施例提供了一种节目素材制作装置,该装置解决技术问题的原理与一种节目素材制作方法相似,重复之处不再赘述。
图2示出了本申请实施例二中节目素材制作装置的结构示意图。
如图所示,所述节目素材制作装置包括:
文件确定模块201,用于确定节目的音频文件;所述节目至少包括一个角色;
角色确定模块202,用于根据所述音频文件确定每段语音片段的角色信息;
文字转写模块203,用于将所述音频文件转写得到带有时间码信息的文字;
匹配模块204,用于将所述带有时间码信息的文字与所述角色信息匹配;
素材选定模块205,用于根据所述文字和角色信息确定素材内容;
剪辑模块206,用于根据所述素材内容的时间码信息对所述音频文件对应的视频文件进行剪辑,得到节目素材。
采用本申请实施例中提供的节目素材制作装置,可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑,生产制作效率与传统流程相比有非常大的提升,简化了视频节目的素材挑选和制作过程。
在一种实施方式中,所述角色确定模块,包括:
特征提取单元,用于根据所述音频文件提取所述音频文件中每个音频片段的声纹ivector特征;
特征匹配单元,用于根据所述ivector特征与所述预先建立的声纹库进行匹配;所述声纹库中包括ivector特征与角色信息的对应关系;
角色确定单元,用于根据所述音频片段的ivector特征与声纹库中ivector特征的相似度,确定所述音频片段的角色信息为所述声纹库中所述ivector特征对应的角色信息。
在一种实施方式中,所述特征提取单元,包括:
音频拆分子单元,用于按照所述音频文件的句子结束位置和/或音频停顿位置将所述音频文件拆分为多个第一音频片段;每个第一音频片段包括多个第二音频片段;
特征提取子单元,用于提取每个第一音频片段中的任意部分音频的声纹ivector特征;
特征确定子单元,用于将所述第一音频片段中的任意部分音频的ivector特征作为该第一音频片段的ivector特征。
在一种实施方式中,所述装置进一步包括:
声纹库建立模块,用于采集若干角色的任意音频片段;对所述音频片段的角色进行标注,并提取所述音频片段的声纹特征;将所述声纹特征以及对应的角色信息存储得到声纹库。
在一种实施方式中,所述文字转写模块,包括:
文稿确定单元,用于确定所述音频文件对应的文稿;
转写单元,用于将所述音频文件以及所述音频文件对应的文稿输入至预先训练得到的语音识别深度神经网络模型;所述语音识别深度神经网络模型输出带有所述音频文件对应的文稿中每个词语的时间戳的文字。
在一种实施方式中,所述转写单元,包括:
第一处理子单元,用于将所述音频文件的每帧语音识别成状态序列;
第二处理子单元,用于根据所述音频文件中每帧语音的状态序列得到多个音素;
第三处理子单元,用于根据所述多个音素生成一个或多个单词;
第四处理子单元,用于将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
第五处理子单元,用于根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
实施例三
基于同一发明构思,本申请实施例还提供一种计算机存储介质,下面进行说明。
所述计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述节目素材制作方法的步骤。
采用本申请实施例中提供的计算机存储介质,可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑,生产制作效率与传统流程相比有非常大的提升,简化了视频节目的素材挑选和制作过程。
实施例四
基于同一发明构思,本申请实施例还提供一种电子设备,下面进行说明。
图3示出了本申请实施例四中电子设备的结构示意图。
如图所示,所述电子设备包括存储器301、以及一个或多个处理器302,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如实施例一所述的节目素材制作方法。
采用本申请实施例中提供的电子设备,可以实现基于声纹识别的访谈类电视节目的自动化角色识别和素材剪辑,生产制作效率与传统流程相比有非常大的提升,简化了视频节目的素材挑选和制作过程。
实施例五
为了便于本申请的实施,本申请实施例以一具体实例进行说明。
假设电视台要制作一期访谈节目,下面是主持人和几个嘉宾之间现场录制时(同时录制视频画面和音频)的谈话内容:
“王老师,听说您最近踏上了台湾的土地。”
“不是最近,我1993年就去过。”
“但是最近又去了一趟。”
“最近刚去过。我先问一下文兄,您对台湾比较熟悉,是吧?您觉得台湾最可爱的东西是什么?”
“我觉得是人情,就是街上随便看都看得到。”
“我也是。”
“非常好。我过去虽然去过两次都是在台北,最多到过花莲,这次我还到了台南,到了台中,到了南投,到了日月潭。尤其是鹿港小镇,我在那吃的午饭,在那我买点零碎,有刮痧木头做成小人样,那很可爱,那木头特别好,我不知道是什么木头,就是类似这个。我特别感动的,就是这些卖东西的人,那个态度之良好,对人之友善。我过去不喜欢‘温馨’这个词。”
“太煽情。”
“煽情,酸。”
“但是我到完这鹿港小镇跟日月潭,我觉得很温馨,我喜欢这个词了。”
在录制结束后,可以得到上述谈话内容的音频文件。
本申请实施例可以根据所录制得到的音频文件,首先采集每个人物所说的一小段音频片段,提取该小段音频片段的声纹特征并标注该声纹特征对应的角色信息。例如:提取主持人说的“王老师”这一音频片段对应的声纹特征,然后标注该声纹特征对应于主持人,存储到声纹库;提取嘉宾a说的“我1993年就去过”这一音频片段对应的声纹特征,然后标注该声纹特征对应于嘉宾a,存储到声纹库。最终得到每个人物对应的声纹特征。
然后,本申请实施例提取所述音频文件中所有音频的声纹特征,将所述音频文件中所有音频的声纹特征均与上述建立的声纹库进行匹配,将音频文件的所有音频对应得到角色信息。或者,将所述音频文件按照每句话分段,将每句话的音频中任意部分音频与声纹库进行匹配,得到音频文件中每句话的角色信息,从而减小匹配的计算量。例如:将“最近刚去过。我先问一下文兄,您对台湾比较熟悉,是吧?您觉得台湾最可爱的东西是什么?”这句话的“刚去过”对应的音频或者“是吧”对应的音频与声纹库进行匹配,则可以确定该句话的声纹特征,即,可以确定该句话是哪个人物所说的。
根据上述声纹匹配确定音频文件的角色信息,并将音频文件转写得到带有时间码的文字,将角色信息和文字进行匹配后,得到如下信息:
00:01:05,90000:01:10,080
主持人:“王老师,听说您最近踏上了台湾的土地。”
00:01:12,75000:01:20,240
王先生:“不是最近,我1993年就去过。”
00:01:22,99100:01:26,203
主持人:“但是最近又去了一趟。”
00:01:26,90100:01:32,856
王先生:“最近刚去过。我先问一下文兄,您对台湾比较熟悉,是吧?您觉得台湾最可爱的东西是什么?”
00:01:32,90500:01:36,401
文先生:“我觉得是人情,就是街上随便看都看得到。”
00:01:36,40500:01:38,561
主持人:“我也是。”
00:01:39,01200:01:52,871
王先生:“非常好。我过去虽然去过两次都是在台北,最多到过花莲,这次我还到了台南,到了台中,到了南投,到了日月潭。尤其是鹿港小镇,我在那吃的午饭,在那我买点零碎,有刮痧木头做成小人样,那很可爱,那木头特别好,我不知道是什么木头,就是类似这个。我特别感动的,就是这些卖东西的人,那个态度之良好,对人之友善。我过去不喜欢‘温馨’这个词。”
00:01:52,99800:01:53,805
文先生:“太煽情。”
00:01:53,90800:01:54,674
主持人:“煽情,酸。”
00:01:54,78500:01:58,609
王先生:“但是我到完这鹿港小镇跟日月潭,我觉得很温馨,我喜欢这个词了。”
通过上述角色的区分,可以很直观的看出不同嘉宾角色的不同观点,方便节目制作人员根据上述内容进行素材挑选和节目构思。
节目制作人员可以在非线性编辑系统中根据角色和文字等对上述内容进行选择,确定哪些比较有价值的内容可以作为后续节目的素材内容。再确定素材内容后,可以根据所确定的素材内容对应的时间码,定位到该录制的视频文件中的相应位置进行剪切。
例如:节目制作人员选定以下几段素材内容:
00:01:05,90000:01:10,080
主持人:“王老师,听说您最近踏上了台湾的土地。”
00:01:26,90100:01:32,856
王先生:“最近刚去过。我先问一下文兄,您对台湾比较熟悉,是吧?您觉得台湾最可爱的东西是什么?”
00:01:32,90500:01:36,401
文先生:“我觉得是人情,就是街上随便看都看得到。”
00:01:39,01200:01:52,871
王先生:“非常好。我过去虽然去过两次都是在台北,最多到过花莲,这次我还到了台南,到了台中,到了南投,到了日月潭。尤其是鹿港小镇,我在那吃的午饭,在那我买点零碎,有刮痧木头做成小人样,那很可爱,那木头特别好,我不知道是什么木头,就是类似这个。我特别感动的,就是这些卖东西的人,那个态度之良好,对人之友善。我过去不喜欢‘温馨’这个词。”
00:01:54,78500:01:58,609
王先生:“但是我到完这鹿港小镇跟日月潭,我觉得很温馨,我喜欢这个词了。”
然后根据上述每段素材内容对应的时间码,定位到视频文件中的相应位置,例如:根据00:01:05,90000:01:10,080定位到视频文件中这个时间段位置(主持人在讲这句话的画面),截取视频文件这个时间段的视频片段;根据00:01:26,90100:01:32,856定位到视频文件中这个时间段位置(王先生在讲这句话的画面),截取视频文件这个时间段的视频片段。
最终,得到多个视频片段作为节目素材,生成节目文件。
具体实施时,还可以对该节目文件再进行人工检查,对节目素材进行校对,确认最终版本以后,根据节目单安排在相应的时间播出该节目文件。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。