一种基于双视频采集的教学数据标注方法与流程

文档序号:16736975发布日期:2019-01-28 12:42阅读:331来源:国知局
一种基于双视频采集的教学数据标注方法与流程

本发明属于视频采集领域,具体涉及一种基于双视频采集的教学数据标注方法。



背景技术:

随着互联网技术和多媒体技术的发展,目前在线教育特别是双向交互网络教育正在蓬勃发展,其最大的优势在于不断突破课堂教学的时空限制,使越来越多无法身临课堂的学员能参与到课堂学习,感受到与现场相同的课堂学习氛围。课堂教学内容作为一种重要的教学数据和学习资源,如何更好的进行采集和分享,得到了普遍关注。其中,课堂直播/录播系统作为在线教育得以实施的关键技术手段应用而生。它采用多媒体技术,将教学内容数字化并将教育资源的形态存储和传播,进一步促进了远程教育形式的多样化。

但同时我们也注意到,一方面,目前课堂录播和直播系统一般要求在课堂上安装数量众多的视音频采集设备,以及后台编码、转发、存储等一系列软硬件设备,有的还需要专业人员在现场辅助拍摄,系统使用和维护较为复杂,且成本较高,不利于大范围推广。同时课堂外学员的实时互动,还依赖于额外的实时交互系统,导致本应连贯流畅的学习过程被割裂不同的部分,影响学习氛围和效率。另一方面,用户对于准确获取所需教育资源的需求也越来越高,目前的信息化教育智能化、个性化因素低,难以适应智慧教育、泛在学习等新型信息化环境下的精细化学习需求。现有的课堂录播和直播系统极少为所录制的教学视频进行知识点清晰的结构化的呈现,最多也只是对完整的教学视频进行标签标注。这存在多方面不足:其一,从在线学习效果来看,学习者无法主动选择听取感兴趣的片段,而是被动的跟着视频学习,学习形态上缺乏灵活性;其二,从教学内容资源共享角度来看,目前的教学资源多以时间段为标注和存储的基本单元,标注粒度粗,难以适应移动环境下碎片化、精准化学习需求;其三,从个性化学习需求角度,现有的课堂直播、录播系统多强调资源的传输,未考虑不同知识背景和学习目标的学习者个性化资源需求。当学习者需要针,对某一知识点搜索相关视频学习资源时,当前较少的视频标注以及包含过多冗余知识点的视频,无法满足从海量互联网资源中快速且精确地获取满足学习者学习资源的需求,更谈不上关联视频的精准推送。



技术实现要素:

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于双视频采集的教学数据标注方法,至少可以部分解决上述问题。本发明技术方案的方法,针对目前对于教学对的情况,在采用双视频的方式获取教学内容的教学数据资源,并对其进行精细化标注,实现了对于教学数据资源的精准标注。

为实现上述目的,按照本发明的一个方面,提供了一种基于双视频采集的教学数据标注方法,其特征在于,包括

s1捕捉教学设备并对教学设备内容进行拍摄获得第一教学视频;获取教学内容的教学音频并确定声源信号方向,对该方向上的教学内容进行拍摄获得第二教学视频;

s2对第一教学视频进行分镜头标记,将分镜头标记符号和/或教学音频加入第一教学视频和第二教学视频,获得第一音视频资源和第二音视频资源;

s3根据第一教学视频获取教学视频帧图像,对教学视频帧图像的内容进行识别获取视频文本,并对教学音频进行识别以获取对应的音频文本;

s4利用视频文本对音频文本进行校验生成索引标签,根据索引标签对视频文本重构获得具有全局时间戳的索引文件以对第一音视频资源和第二音视频资源进行分段;

s5按照时间顺序,将经过分段的第一音视频资源和第二音视频资源按预定时长划分为多个分段进行存储和管理。

作为本发明技术方案的一个优选,步骤s1包括,

s11根据教学设备特征,驱动第一视频设备捕捉教学设备,并固定第一视频设备对捕捉到的教学设备内容进行视频拍摄;

s12构建第二视频设备与声源信号方向的关联关系,根据关联关系驱动第二视频设备对声源信号方向进行视频拍摄;

s13对教学内容进行声源定位以获取声源信号方向并采集教学音频,第一视频设备对教学设备进行视频拍摄获得第一教学视频,利用第二视频设备捕捉声源信号方向的第二教学视频。

作为本发明技术方案的一个优选,步骤s2包括,

s21检测第一教学视频中教学设备内容是否发生翻页,并采用分镜头标记符号对第一教学视频中教学设备内容发生翻页的帧图像位置进行分镜头标记;

s22对教学音频、第一教学视频和第二教学视频进行编码,然后将教学音频分别加入第一教学视频和第二教学视频中获得第一视频流和第二视频流;

s23将分镜头标记符号添加到所述第一视频流和第二视频流中,获得第一音视频资源和第二音视频资源。

作为本发明技术方案的一个优选,步骤s3包括,

s31对教学音频进行解析以获取音频内容,识别音频内容并将识别结果转换为音频文本;

s32对第一教学视频进行解析以获取教学视频帧图像,根据教学视频帧图像上的分镜头标记符号确定翻页位置;

s33按照翻页位置对相应教学视频帧图像的教学设备内容进行识别,并将识别结果转换成视频文本。

作为本发明技术方案的一个优选,步骤s4包括,

s41将视频文本的内容设为匹配模板,利用匹配模板对音频文本中的内容进行匹配校对,从而将音频文本的内容与视频文本对应起来;

s42利用匹配模板与知识图谱中的知识节点进行匹配,将匹配结果作为属性标签对应添加到模板中,形成基于知识谱图的教学内容索引标签;

s43在每个索引标签上分别加入时间戳,形成可以对当前教学内容以及知识图谱进行索引的索引文件;

s44根据索引文件的索引标签将第一音视频资源和/或第二音视频资源切割成片段,选取每个片段的第一帧图像和该图像的文字内容,生成摘要图文。

作为本发明技术方案的一个优选,步骤s44包括

s441选定关键词后确定对应索引标签的时间戳,结合视频文本生成第一音视频资源和/或第二音视频资源的分片描述文件;

s442根据分片描述文件将第一音视频资源和/或第二音视频资源切割成若干片段,所述分片描述文件中每两个相邻时间戳之间的视频和/或音频构成一个片段;

s443根据分片描述文件,选取每个时间戳后第一视频数据的第一帧图像和该图像的文字内容,生成该时间戳对应的摘要图文。

作为本发明技术方案的一个优选,步骤s5包括,

s51按照预设时长或预设内容对经过切割的第一音视频资源和第二音视频资源进行资源段,每个资源段中包含有相同时长或相同内容的第一音视频资源和第二音视频资源;

s52针对每个资源段对应生成资源段数据表,存储该资源段所对应的图文摘要图文文件、音频文本切片数据文件和/或分片描述文件,然后将资源段与资源段数据表关联起来并存储;

s53根据所述分片描述文件和资源段数据表生成第一音视频资源和/或第二音视频资源的分段信息数据表,根据所述分段信息数据表可对第一音视频资源和/或第二音视频资源进行分段检索;

s54根据所述资源段数据表中的音频文本切片数据文件建立时间索引文件,针对当前资源段中音频文本的每个切片文件建立一条索引目录,每条索引目录中包括当前音频文本的时间戳和文件名称,以实现资源段内的资源检索。

作为本发明技术方案的一个优选,音频文本中优选包含句子、关键词及其所对应的时间戳,所述关键词优选不少于一个。

为实现上述目的,按照本发明的一个方面,提供了一种存储设备,其中存储有多条指令,所述指令适用于由处理器加载并执行:

s1捕捉教学设备并对教学设备内容进行拍摄获得第一教学视频;获取教学内容的教学音频并确定声源信号方向,对该方向上的教学内容进行拍摄获得第二教学视频;

s2对第一教学视频进行分镜头标记,将分镜头标记符号和/或教学音频加入第一教学视频和第二教学视频,获得第一音视频资源和第二音视频资源;

s3根据第一教学视频获取教学视频帧图像,对教学视频帧图像的内容进行识别获取视频文本,并对教学音频进行识别以获取对应的音频文本;

s4利用视频文本对音频文本进行校验生成索引标签,根据索引标签对视频文本重构获得具有全局时间戳的索引文件以对第一音视频资源和第二音视频资源进行分段;

s5按照时间顺序,将经过分段的第一音视频资源和第二音视频资源按预定时长划分为多个分段进行存储和管理。

为实现上述目的,按照本发明的一个方面,提供了一种终端,包括处理器,适于实现各指令;以及存储设备,适于存储多条指令,所述指令适于由处理器加载并执行:

s1捕捉教学设备并对教学设备内容进行拍摄获得第一教学视频;获取教学内容的教学音频并确定声源信号方向,对该方向上的教学内容进行拍摄获得第二教学视频;

s2对第一教学视频进行分镜头标记,将分镜头标记符号和/或教学音频加入第一教学视频和第二教学视频,获得第一音视频资源和第二音视频资源;

s3根据第一教学视频获取教学视频帧图像,对教学视频帧图像的内容进行识别获取视频文本,并对教学音频进行识别以获取对应的音频文本;

s4利用视频文本对音频文本进行校验生成索引标签,根据索引标签对视频文本重构获得具有全局时间戳的索引文件以对第一音视频资源和第二音视频资源进行分段;

s5按照时间顺序,将经过分段的第一音视频资源和第二音视频资源按预定时长划分为多个分段进行存储和管理。

为实现上述目的,按照本发明的一个方面,提供了一种终端,包括处理器,适于实现各指令;以及存储设备,适于存储多条指令,所述指令适于由处理器加载并执行:

s1捕捉教学设备并对教学设备进行拍摄获得第一教学视频;获取教学内容的教学音频并确定声源信号方向,对该方向上的教学内容进行拍摄获得第二教学视频;

s2对第一教学视频进行分镜头标记,将分镜头标记符号、和/或教学音频分别加入第一教学视频和第二教学视频,获得第一音视频资源和第二音视频资源;

s3解码第一音视频资源获得视频信息,将视频信息转换为视频文本,解码第二音视频资源获得音频信息,将音频信息转换为音频文本;

s4利用视频文本对音频文本进行校验匹配生成索引标签,将视频文本重构生成具有全局时间戳的索引文件以对第一音视频资源和第二音视频资源进行分段;

s5按照时间顺序,将经过分段的第一音视频资源和第二音视频资源按预定时长划分为多个分段进行存储和管理。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:

1)本发明技术方案的方法,通过两个视频设备对教学设备和教学活动分别进行采集,为了保证教学音频的准确性采用音频设备单独对其进行录音;在此基础上,为了保证多个视频数据和音频数据之间的一致性,根据教学设备内容的翻页标记符号以及时间戳进行融合,保证了融合后的音视频资源在播放时的准确性。

2)本发明技术方案的方法,分别利用第一教学视频和教学音频获得视频文本和音频文本,并利用视频文本对音频文本进行校对,保证了音频文本的准确性,从而实现了音频、视频和文本(包括视频文本和音频文本)三种载体中信息内容的一致性校验,保证了教学资源的准确性。

3)本发明技术方案的方法,使用分镜头标记符号对第一视频设备拍摄获得的第一教学视频进行了翻页标记,同时对视频文本和音频文本进行了一致性校验和注册,并根据校验结果结合分镜头标记符号对音频、视频和文本进行切片,每个切片对应一定的教学内容,从而实现教学资源的精细化标注。

4)本发明技术方案的方法,先对教学资源(包括教学视频和教学音频)进行精细化标注,然后按照一定规律(如按照时长或者内容)对教学资源进行分段存储;同时,根据精细化标注的结果,生成不同的索引文件,使得教学资源的索引过程简单明了,便于及时获取目标资源。。

附图说明

图1是本发明技术方案的实施例中的音视频采集设备空间注册关系;

图2是本发明技术方案的实施例中教学资源精细化标注的流程图;

图3是本发明技术方案的实施例中资源要素在时间轴方向的分段、分片实例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。

本发明技术方案的实施例中公开了一种基于双视频采集的教学数据标注方法,具体来说,就是对教学内容中的视频数据和音频数据进行标记,以便于对教学资源进行管理和索引。

本发明技术方案的实施例主要分为三个部分,教学数据采集、教学数据标记和教学数据保存。第一步是教学数据的收集,其具体过程优选如下:

(1)环境感知及主区域标定。预先建立教学设备的特征库,如投影幕、电子白板、黑板等显示设备的特征库,该特征库优选由若干教学设备(如上述三种显示设备)的图像使用svm分类器训练得到,或者是以其他方式获取教学设备的特征表达形式。驱动视频设备a运动,实时检测画面内容是否出现显示设备,并调整镜头焦距,使所拍摄显示设备充满画面的3/4,固定视频设备a的姿态保持不变,使其可以对教学设备进行稳定的拍摄。本实施例中,将针对教学设备上的内容拍摄获得的教学视频设为第一教学教学。具体来说,第一教学视频拍摄的是教学设备(如投影幕、电子白板、黑板等)上记载的教学内容。

(2)音视频空间注册。建立视频设备b的拍摄位置信息与生源阵列坐标的关联,为后续基于声源定位坐标的拍摄目标定位提供依据。具体来说,就是将教学区域划分为若干个拍摄区域,每个拍摄区域对应一个视频设备b的拍摄姿态(或者说拍摄位置信息)。当该区域内检测到声源信息(即有这个方向或者区域内捕捉到声音)时,驱动视频设备b切换到对应的拍摄姿态,对该区域内的教学内容进行拍摄。也就是说,通过这种区域划分的方式,实现视频设备b与现有的音频采集设备之间的对应关系,以便于对教学内容进行实时拍摄。如图1所示的优选实施例中,将教学区域以视频设备b为中心划分为6个扇形区域,每个区域对应一个视频拍摄姿态。举例来说,若id0区域检测到声源,则转换视频设备b的拍摄姿态至ptz0对当前声源位置区域进行拍摄。优选的,若当前教学区域中有两个及以上的生源位置,所述视频设备b可以包含不止一个视频拍摄设备。进一步地,教学区域也可以按照需求划分为其他形式,以满足不同的教学需求,本实施例中的优选实施例并不作为对本发明技术方案的限定。

(3)教学内容数据采集。本实施例中,如图1所示,系统初始时,驱动视频设备b进入ptz0姿态,然后根据声源定位结果,实时驱动其进入与主声源(当有多个声源的时候,可以采用多个视频设备对该方向的教学内容进行拍摄,也可以在多个声源中选择一个作为主声源)对应的拍摄姿态,对声源所在区域的教学内容进行拍摄录制,对应的视频数据称为b视频数据,或者是第二教学视频数据。在此过程中,音频设备录制该方向上的教学音频。此时视频设备a始终保持对教学展示区域的拍摄姿态,对应的视频数据称为a视频数据或第一教学视频数据。

(4)教学数据封装。本实施例中,视频设备a拍摄的教学设备中包括投影幕、电子白板、黑板等,以投影幕为例,其在进行ppt展示的时候,会发生诸如ppt翻页的情况,那么对应视频设备a拍摄到的投影幕内容(即第一教学视频数据)中,就需要确定在何时发生了ppt翻页。本实施例中,优选通过对第一教学视频数据采用帧差法检测是否发生ppt翻页情况。具体来说,假设i1,i2,i3为连续3帧图像的灰度值,优选通过如下表达式判断是否发生ppt翻页:

entrop(bitwise_and(absdiff(i3,i2),absdiff(i3,i1)))>threddiff?1:0(1)

其中,threddiff为阈值,absdiff()为帧差函数,bitwise_and()为按位与操作函数,entrop()为图像信息熵计算函数。若公式(1)返回值为1(也可以用其形式的符号进行区分,本实施例中对此不作限制),则说明当前视频画面中发生了翻页,将分镜头标记符号添加到当前帧上进行标记,否则视为未翻页。

对教学内容采集的所获得教学音频信号经过aac编码得到教学音频,系统所采集的两路视频数据经过h.264编码得到两路教学视频,即第一视频设备拍摄获得的第一教学视频和第二视频设备拍摄获得的第二教学视频,将教学音频分别加入两路教学视频,并追加翻页标志信号(如本实施例中的1或0,该标志信号来自公式(1)的返回值),封装成视频流(如ts格式视频流),得到两路音视频资源。即第一音视频资源和第二音视频资源,其中第一音视频资源是将教学音频和分镜头标记符号加入第一教学视频获得获得的,第二音视频资源是将教学音频和分镜头标记符号加入第二教学视频获得的。其中,分镜头标记符号是根据其在第一教学视频中的时间信息添加到第二教学视频中的,以保证分镜头标记符号在两个教学视频中的一致性。

进一步地,本实施例中还可以通过网络模块将两路原始音视频流传输进入数据分析子系统。其包含a视频数据的称为a视频流,即第一音视频资源,包含b视频数据的称为b视频流,即第二音视频资源。对于封装好的a视频流和b视频流,即第一音视频资源和第二音视频资源,本实施例中在此基础上对其进行进一步地的音视频数据的标注。

第二步是音视频数据的标注过程,即对第一音视频资源和第二音视频资源进行标注。本实施例中,对教学内容中的语音和视频数据优选按照知识内容进行精细化标注,其主要包括语音识别、视频识别、内容标注、内容摘要等模块。其具体过程优选如下。

(1)对于第二音视频资源来说,首先需要将教学音频解析出来,然后识别成文本数据。具体来说就是,从接收的b视频流中解析出aac教学音频,或者是直接利用原始教学音频,然后对该教学音频进行语音识别,从而将音频内容转写成文本数据。本实施例中,优选输出json格式字符串的文本数据,即为本实施例中的音频文本(记为textfromvoice)。换句话说,音频文本就是将音频设备获取的教学音频以文字的形式表达出来。本实施例中,教学音频的识别结果(音频文本)中可以包含完整句子形式、时间戳、多关键词等。作为本实施例的优选,时间戳不能独立于句子和关键词单独存在。作为本实施例的优选,每一段连续语音对应一个textfromvoice(音频文本)片段,全部语音对应的即为音频文本本身。由于每一段连续语音对应一个片段,最后形成的音频文本的呈现形式就是一个个音频切片文件的组合形式。如图3中所示,其中音频文本(textfromvsoice)及其对应的音频数据以多个分片的形式呈现。另外,由于教学音频与第一教学视频以及分镜头标记符号之间存在对应关系,因此也可以通过分镜头标记符号对音频文本进行分段,优选的,将两个分镜头标记符号之间的音频文本视为一个音频切片。。事实上,由于分镜头标记符号之间的时间间距远大于两段连续语音之间的时间间距,因此在采用分镜头符号对音频文本进行分段时,一个分段里可以包含有多个连续语音,即多个音频文本的碎片,每个音频文本碎片对应音频文本中的一个连续语音。

(2)对于第一音视频资源来说,需要先将其中的第一教学视频解析出来,或者是直接利用原始采集的第一教学视频获取对应的教学视频帧图像,对教学视频帧图像的内容进行识别,然后将视频内容转化成文本形式。具体来说,本实施例中采取如下方式获取视频文本,即从接收的a视频流(即第一音视频资源)中解析出h.264第一教学视频,优选使用h.264解码器将该视频流程解码到帧图像(记为a视频帧图像),同时对每帧图像对应的翻页标志信号进行判断,若翻页标志信号为1,则首先返回对应的a视频帧图像,然后对该图像中的文本数据进行检测并识别(本实施例中,优选采用ocr技术对a视频帧图像进行检测)。本实施例中,优选输出json格式字符串格式的文本形式,即为本实施例的视频文本(记为textfromvideo)。也就是说,视频文本就是第一视频设备拍摄的教学设备中所呈现的内容的文本形式。本实施例中,识别结果中包含词句、完整句子形式等。

作为本实施例的优选,一个教学视频帧图像对应一个textfromvideo片段,例如在采用ppt进行教学时,一页ppt对应一个textfromvideo片段,即从翻到这页ppt开始到翻到下一页ppt时结束,这中间的视频内容视为一个textfromvideo片段。优选的,根据分镜头标记,我们将两个分镜头标记符号之间的教学视频帧图像作为该段视频的索引,即利用该两个分镜头标记符号之间的帧图像,可检索到该段视频。作为本实施例的优选,将两个分镜头标记之间的视频内容(包括第一视频内容和第二视频内容)视为一个视频切片。例如,两个分镜头标记符号之间对应同一页ppt的内容,因此利用该页ppt的文本内容即可检索到这两个分镜头符号之间的视频、文本等。进一步地,将两个分镜头标记符号之间的音频文本设为在先分镜头标记符号对应的视频帧图像的子索引,即通过音频文本也可以对对应的视频帧图像进行索引。以ppt为例,前一个分镜头标记符号对应的ppt内容与后一个分镜头标记符号对应的ppt内容是不同的,而根据时间顺序,两个分镜头标记符号之间的视频、文本等内容是与在先分镜头标记符号对应的视频帧图像相关联的。因此,根据两个分镜头标记符号之间的音频文本或者视频文本,都可以检索到这两个分镜头标记符号之间的视频、文本等内容。

(3)对于处理获得的视频文本和音频文本,需要进一步对其进行精细化标注,以实现音频、视频和文本三种载体中信息内容的一致性校验和注册,并根据标注结果对原始音视频资源进行切片。如图2所示,是本实施例中进行精细化标注的流程图。具体来说,本实施例的精细化标注过程如下:

首先,词句校验。由于视频文本是根据第一教学视频而来,而第一教学视频的内容是教学设备上呈现的内容,因此,相对第二教育视频来说具有更好的准确度。而音频文本是根据第二教学视频而来,其为语音转述而来,以表达意思优先,更为口语化。由于音频文本是语言表达转述而来,其相较于视频文本来说包含有更多语言表达的内容,为了将音频文本的内容与视频文本的内容匹配起来,本实施例中需要对其进行校验。本实施例中优选将视频文本作为模板,对音频文本进行校验。具体来说,优选将视频文本中的每一个短句作为一个模板,从而形成一个具有很多模板的视频文本模板库,然后将这个视频文本模板库中的每个模板,分别与音频文本中的内容进行匹配。当模板与音频文本中内容的匹配相似度达到匹配标准(匹配标准可以根据精确度需求进行设定)的时候,使用模板将音频文本的内容标注出来形成匹配块。如果该匹配块出现在关键词的位置,则将该关键词作为当前片段的主要关键词,同时去掉该片段中的其他关键词。重复上述步骤,直至视频文本模板库中的模板使用完毕。若此时音频文本中仍然存在有关键词,则去掉剩余关键词。两个分镜头标记符号之间的视频文本和音频文本是相互对应的,因此,将这两个分镜头标记符号之间的视频文本作为模板,对这两个分镜头标记符号之间的音频文本进行校验。一方面检查两者的匹配程度,另一方面筛选出准确的关键词,从而保证两者内容上的一致。本实施例中,所有与视频文本关联的音频文本均优选使用该视频文本中的模板进行校验。

其次,内容注册。将视频文本中的模板,与知识图谱中的知识节点名称进行匹配。知识图谱中包含有各种知识节点,这些知识节点按照一定的语义关系进行组织和管理,每个知识节点可以对应多种教学资源。换句话说,知识图谱就是按照一定的关联关系将多个知识节点相互关联起来所形成的一个知识谱系,其也可以视为一个包含有大量知识内容的教学数据库。本实施例中,如果模板在这个教学数据库中找到匹配结果,则将该匹配结果作为属性标签添加在该模板的末尾。属性标签可以用于标识对应的内容所属知识点名称,并可以作为语音资源和视频资源的索引标签。

第三,时间轴分片。对每个索引标签加入时间戳,形成索引文件,用于对教学内容的音频、视频资源进行索引。每个模板都有对应的时间标记,以确定每个模板对应的时间顺序。为此,本实施例中优选为视频文本的每个模板中添加如下控制信息:

controlheader=(timestamp,{keywords},length)

从而得到基于视频文本的分片描述文件textforfragment=(controlheader,textfromvideo)。其中,timestamp为时间戳,时间戳的构成为该视频流第一帧对应的系统时间+帧编号/n,其中n为视频的帧率;keywords-关键词可以由在内容注册阶段得到的知识标签添构成,用于对当前内容进行标识;length-片段时长为两个时间戳之差的绝对值。以此方式,在视频文本中,通过时间戳和关键词实现对视频和音频资料的时间轴分片规划,获得每个分片节点的分片描述文件。

进一步地,根据需求,关键词可以进行自由搭配选择,关键词的选择在一定程度上决定了标注的精细程度。本实施例中优选以两个分镜头标记符号之间的内容(音频、视频以及文本等)为一个单位分片,按照时间顺序将具有目标关键词的连续单位分片划分为一个分段。每个分段中可以包含不止一个单位分片。本实施例中,由于经过校验的音频、视频和文本三种载体具有一致性,因此利用分片描述文件可以对三者进行准确切割,获得相互对应的音频、视频和文本碎片,进一步实现了对第一视频数据、第二视频数据以及教学音频的精细化标注。

最后,内容切割。在获得了视频、音频资料的时间轴分片规划后,按照每个分片描述文件中的时间戳的记载,将本实施例的第一音视频资源和第二音视频资源中的视频数据、音频数据切割成对应的短片段,短片段的起点是timestamp对应的时间点,短片段的时长是起点之后的length时长,如图3所示。由图3可知,一个分段(fragment)中,第一教学视频数据、第二教学视频数据、音频数据和音频文本的切片内容都是相互对应的,其在时间轴上的分段具有准确的一致性,且而每个分段中在时间轴上所包含的切片(包括视频切片、音频切片和文本切片)数量并不完全相等,但是一个分段内的视频切片、音频切片和文本切片是相互对应的。这是由于以关键词为分段基础的前提下,只有连续的、具有相同关键词的切片才会形成一个完整的分段。

(4)生成图文摘要,针对每个分段来说,在关键词的筛选下,其内容在一定程度上具有一致性,因此可以采用统一的图文摘要。具体来说,本实施例中优选从a视频数据(即第一教学视频)中生成摘要图文,并将该摘要图文通过时间戳与视频、音频、音频文本进行关联。作为本实施例的优选,摘要图(本实施例中记为digestframe),优选取自a视频数据中textforfragment(分片描述文件)时间戳位置之后的第一个帧图像(或者说是一个分段中的关键帧图像,如任意分段中当前ppt对应的帧图像),以及对应的摘要文(本实施例中记为digesttext),优选取自该摘要图的内容识别结果,本实施例中优选采用ocr识别方式进行识别,输出形式为包含不少于一个句子的json格式文件。

经过上述四个步骤处理后,处理好的视频切片数据、音频切片数据、音频文本切片数据、摘要图文的时空关系如图3所示。如图3所示,时间戳与分片描述文件相对应,将视频数据和音频数据等划分为若干片段。本实施例中,根据分镜头标记符号对第一教学视频、第二教学视频、音频数据以及音频文本进行切片获得了多个视频切片、音频切片和音频文本切片,上述切片内容在时间轴上具有一致性。而根据分片描述文件,又可以按照时间将多个连续的切片内容划分为多个片段,每个片段中都包含有时间连续、内容相关的一个或多个视频切片、音频切片以及音频文本切片,且每个片段中的切片文件数量可以不相等。

第三步是将标注好的教学数据进行存储和管理。即对第一教学视频、第二教学视频、教学音频、图文摘要数据以及音频切片、视频切片、音频文本切片和分片描述文件等进行存储和管理等。

首先是存储。由于第一教学视频和第二教学视频分别封装在a视频流和b视频流中,本实施例中视频数据和音频数据的存储是指将a、b两路视频流按预定时长n(例如n=45分钟)分成若干资源段写入服务器磁盘存储器。除了按照固定的预设时长存储外,还可以根据内容,将视频数据和音频数据按照内容主题一起进行存储或者分别存储,此时每个资源段的时长不一定相同。本实施例中按照预设时长n对a视频流和b视频流进行存储仅用于对存储进行说明,不视为对本发明技术方案的具体限制。

音视频切片数据存储是指为每个n时长的第二教学视频创建一个视频分段(资源段)存储目录(目录1)和一个音频切片存储目录(目录2),分别用于存储视频切片数据和音频切片数据。也就是说,视频分段存储目录中存储了当前资源段中存储的视频是如何进行切片的,音频切片存储目录中中记录了当前资源段中存储的音频是如何进行切片的。同时,本实施例中还为每个n时长的第一教学视频在服务器中创建三张数据表(数据表1、数据表2、数据表3),分别存储该视频的图文摘要数据、音频文本切片数据和分片描述文件。具体来说,图文摘要数据存储是指将摘要图和摘要文作为一条数据记录插入数据表(数据表1)中。其中,第一教学视频的资源段对应一张数据表(数据表1)。音频文本切片数据的存储是指为每个第一教学视频的资源段创建一张数据表(数据表2),将每个音频文本切片对应的json文件作为一条记录插入该数据表中。分片描述文件的存储是指为每个第一教学视频的资源段创建一张数据表(数据表3),将每个分片描述文件对应的json文件作为一条记录插入该数据表中。

本实施例中通过上述步骤,可以实现对第一教学视频数据、第二教学视频数据、教学音频数据、图文摘要数据以及音视频切片数据、音频文本数据和分片描述文件的存储与关联,从而达到多形态数据资源以时间戳和标注信息为线索的统一存储。

其次是索引管理。本实施例中,对教学数据进行管理主要包括两个方面,一个是分段(即多个fragment)索引管理,另一个是段内(一个fragment内)索引管理。

(1)分段索引管理。本实施例中的分段索引管理,是指将一次完整教学过程的教学内容音视频数据的分段(以分段,即fragment为单位)集中保存在一张数据表(数据表4)中,然后利用这张数据表对教学内容的数据文件进行索引。具体操作为,为一次完整的教学内容创建一张数据表(数据表4),将每个分片描述文件textforfragment,及该分片描述文件textforfragment对应的数据表1的id、数据表3的id,分段目录1、切片目录2、ts流的存储目录和名称作为一条记录插入数据表4中。

(2)段内索引管理。本实施例中的段内索引管理,是指为切片目录2下的所有音频文本的切片数据文件(即该段音频是如何进行切片的)建立时间索引。具体操作为,创建索引文件,每条索引记录包括时间戳、文件名称。其中,时间戳取自该目录下音频文本,文件名称是指该时间戳对应的音频文本名称,或者说该时间戳对应的音频文本切片的名称。按时间戳增序依次建立索引,即可用于在资源段内进行索引。

这样的话是,就实现了教学数据的二级检索。首先根据分段索引找到目标所在资源段,然后在资源段内针对特定内容进行检索。这样的话,一方面能够实现教学数据的有效保存和管理,另一方面也为教学数据的精确检索提供了便利。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1