视频、讲义PPT和语音内容精准匹配的方法和系统与流程

文档序号：14197540阅读：224来源：国知局

本发明涉及信息技术领域和教育技术领域，更具体地，涉及一种视频、讲义ppt和语音内容精准匹配的方法和系统。

背景技术：

现有课堂视频应用的技术方案，是以时间为维度来进行管理。在实际录制时，除了录制讲课视频之外，将电脑截屏也作为一路视频进行录制，然后将两个视频进行合并保存。应用到在线教学平台后，用户可以播放合并后的视频内容。由于两路视频的时间点基本一致，因此在拖拽时间进度条时，两路视频会保持同步。

现有技术方案的缺陷在于，用户无法获取自己感兴趣的知识内容，也无法精准匹配知识内容与教学视频资源的播放时段，造成在线教育的应用效率不高，浪费用户时间，影响教学质量。

技术实现要素：

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是提供一种视频、讲义ppt和语音内容精准匹配的方法，实现在线播放教学资源时，用户通过搜索服务，定位自己感兴趣的ppt讲义内容或者课堂语音内容，并且随时可定位点播相关时段的教学视频，播放相关页面的ppt讲义内容。

本发明的进一步目的是提供一种视频、讲义ppt和语音内容精准匹配的系统。

为解决上述技术问题，本发明的技术方案如下：

一种视频、讲义ppt和语音内容精准匹配的方法，包括以下步骤：

s1：视频采集处理：通过摄像机摄录教师讲课视频，同时通过教师上课播放ppt的电脑上安装的录屏软件录制电脑视频，以课程名为索引，将教师讲课视频和电脑视频进行合并处理；

s2：图像识别处理：根据图像变化将录屏软件录制的电脑视频分割为若干视频段，将视频中文字相同的视频段合并，记录视频分段的时间值；

s3：语音识别处理：提取教师讲课视频中的语音信息并转换为文字，记录每句话语的时间值；

s4：精准匹配：以课程名和时间值为索引，建立视频、图像、语音和内容之间的数据关联。

在一种优选的方案中，步骤s1中，视频采集处理具体包括以下步骤：

s1.1：在课堂教学环境部署一台摄像机，以摄录教师讲课视频；

s1.2：在教师上课播放ppt的电脑上安装录屏软件，录制电脑视频；

s1.3：以课程名为索引，将教师讲课视频和电脑视频进行合并处理。

在一种优选的方案中，步骤s1中，教师讲课视频和电脑视频所部署的网络环境一致，确保两路视频的时间戳保持一致。

在一种优选的方案中，步骤s2中，图像识别处理具体包括以下步骤：

s2.1：根据图像变化将录屏软件录制的电脑视频分割为若干视频段；

s2.2：提取各视频段的第一帧图像；

s2.3：提取图像中的文字信息；

s2.4：比较文字是否发生变化；

s2.5：合并文字未发生变化的视频段；

s2.6：对于新的视频段重复步骤s2.1-s2.4，直到视频段数量没有变化，从而得到根据讲义ppt页面发生翻页时分割的视频段；

s2.7：记录各视频段的时间值，对应提取的文字，存入数据库。

在一种优选的方案中，步骤s2中，所述方法还包括：直接提取ppt文件中每一页的文字信息并记录页码。

在一种优选的方案中，步骤s3中，语音识别处理具体包括以下步骤：

s3.1：将教师讲课视频转换成音频文件；

s3.2：利用语音处理引擎，将音频转换成文字；

s3.3：对文字进行分词处理；

s3.4：对处理的分词进行词性标注；

s3.4：完成基础语义识别，记录每句话语的时间值，存入数据库。

在一种优选的方案中，步骤s4中，所述方法还包括：

将音频转换成的到的文字作为字幕添加到教师讲课视频中，为视频自动增加字幕，可设置权限，让用户对内容进行校对后再保存处理。

在一种优选的方案中，步骤s4中，所述方法还包括：

将处理过的视频、语音、文字同步至在线教学系统，以便于查询和学习。

在一种优选的方案中，步骤s4中，所述方法还包括：

提供搜索引擎，对数据库进行基于内容的搜索、定位，并在在线教学系统上进行视频播放。

一种视频、讲义ppt和语音内容精准匹配的方法，包括：

视频采集处理模块：用于通过摄像机摄录教师讲课视频，同时通过教师上课播放ppt的电脑上安装的录屏软件录制电脑视频，以课程名为索引，将教师讲课视频和电脑视频进行合并处理；

图像识别处理模块：用于根据图像变化将录屏软件录制的电脑视频分割为若干视频段，将视频中文字相同的视频段合并，记录视频分段的时间值；或者，直接提取ppt文件中每一页的文字信息并记录页码；

语音识别处理模块：用于提取教师讲课视频中的语音信息并转换为文字，记录每句话语的时间值；

精准匹配模块：用于以课程名和时间值为索引，建立视频、图像、语音和内容之间的数据关联。

与现有技术相比，本发明技术方案的有益效果是：本发明提供一种视频、讲义ppt和语音内容精准匹配的方法，通过摄像机摄录教师讲课视频，同时通过教师上课播放ppt的电脑上安装的录屏软件录制电脑视频，以课程名为索引，将教师讲课视频和电脑视频进行合并处理；根据图像变化将录屏软件录制的电脑视频分割为若干视频段，将视频中文字相同的视频段合并，记录视频分段的时间值；提取教师讲课视频中的语音信息并转换为文字，记录每句话语的时间值；以课程名和时间值为索引，建立视频、图像、语音和内容之间的数据关联。

本发明通过信息技术领域ai(人工智能)的图像识别技术和语音识别技术，对课堂教学环境的ppt讲义视频、讲义内容、讲课语音进行分析，可获得ppt讲义页面变换的时间范围和页面的具体内容，将课堂教学环境的讲课语言内容转换成文字，可以自动生成视频字幕。本发明应用在教育技术领域，可实现在线播放教学资源时，用户可通过搜索服务，定位自己感兴趣的ppt讲义内容或者课堂语音内容，并且随时可定位点播相关时段的教学视频，播放相关页面的ppt讲义内容。本发明对于推动优质教学资源的在线普及，促进教育公平，提升教育教学质量有着积极促进作用。

本发明还提供一种视频、讲义ppt和语音内容精准匹配的系统，与所述的方法相结合实现了视频、讲义ppt和语音内容的精准匹配。

附图说明

图1为本发明视频、讲义ppt和语音内容精准匹配的方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

首先介绍一下本发明涉及的相关技术名词：

1.人工智能(ai，artificialintelligence)

是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。

2.图像识别

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。一般工业使用中，采用工业相机拍摄图片，然后再利用软件根据图片灰阶差做进一步识别处理。

3.光学字符识别(ocr，opticalcharacterrecognition)

是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。衡量一个ocr系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

4.语音识别

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

5.在线教育

即e-learning，或称远程教育、在线学习，即通过应用信息科技和互联网技术进行内容传播和快速学习的方法。e-learning的“e”代表电子化的学习、有效率的学习、探索的学习、经验的学习、拓展的学习、延伸的学习、易使用的学习、增强的学习。通过网络，学员与教师即使相隔万里也可以开展教学活动；此外，借助网络课件，学员还可以随时随地进行学习，真正打破了时间和空间的限制，对于工作繁忙，学习时间不固定的职场人而言网络远程教育是最方便不过的学习方式。

实施例1

如图1所示，一种视频、讲义ppt和语音内容精准匹配的方法，包括以下步骤：

步骤s1中，视频采集处理具体包括以下步骤：

s1.1：在课堂教学环境部署一台摄像机，以摄录教师讲课视频；

s1.2：在教师上课播放ppt的电脑上安装录屏软件，录制电脑视频；

s1.3：以课程名为索引，将教师讲课视频和电脑视频进行合并处理。

步骤s1中，教师讲课视频和电脑视频所部署的网络环境一致，确保两路视频的时间戳保持一致。

s2：图像识别处理：根据图像变化将录屏软件录制的电脑视频分割为若干视频段，将视频中文字相同的视频段合并，记录视频分段的时间值；或者，直接提取ppt文件中每一页的文字信息并记录页码；

步骤s2中，图像识别处理具体包括以下步骤：

s2.1：根据图像变化将录屏软件录制的电脑视频分割为若干视频段；

s2.2：提取各视频段的第一帧图像；

s2.3：提取图像中的文字信息；

s2.4：比较文字是否发生变化；

s2.5：合并文字未发生变化的视频段；

s2.6：对于新的视频段重复步骤s2.1-s2.4，直到视频段数量没有变化，从而得到根据讲义ppt页面发生翻页时分割的视频段；

s2.7：记录各视频段的时间值，对应提取的文字，存入数据库。

s3：语音识别处理：提取教师讲课视频中的语音信息并转换为文字，记录每句话语的时间值；

步骤s3中，语音识别处理具体包括以下步骤：

s3.1：将教师讲课视频转换成音频文件；

s3.2：利用语音处理引擎，将音频转换成文字；

s3.3：对文字进行分词处理；

s3.4：对处理的分词进行词性标注；

s3.4：完成基础语义识别，记录每句话语的时间值，存入数据库。

s4：精准匹配：以课程名和时间值为索引，建立视频、图像、语音和内容之间的数据关联。

步骤s4中，所述方法还包括：

将音频转换成的到的文字作为字幕添加到教师讲课视频中，为视频自动增加字幕，可设置权限，让用户对内容进行校对后再保存处理。

将处理过的视频、语音、文字同步至在线教学系统，以便于查询和学习。

提供搜索引擎，对数据库进行基于内容的搜索、定位，并在在线教学系统上进行视频播放。

本实施例通过信息技术领域ai(人工智能)的图像识别技术和语音识别技术，对课堂教学环境的ppt讲义视频、讲义内容、讲课语音进行分析，可获得ppt讲义页面变换的时间范围和页面的具体内容，将课堂教学环境的讲课语言内容转换成文字，可以自动生成视频字幕。本发明应用在教育技术领域，可实现在线播放教学资源时，用户可通过搜索服务，定位自己感兴趣的ppt讲义内容或者课堂语音内容，并且随时可定位点播相关时段的教学视频，播放相关页面的ppt讲义内容。本发明对于推动优质教学资源的在线普及，促进教育公平，提升教育教学质量有着积极促进作用。

实施例2

一种视频、讲义ppt和语音内容精准匹配的方法，包括：

语音识别处理模块：用于提取教师讲课视频中的语音信息并转换为文字，记录每句话语的时间值；

精准匹配模块：用于以课程名和时间值为索引，建立视频、图像、语音和内容之间的数据关联。

本实施例提供一种视频、讲义ppt和语音内容精准匹配的系统，与实施例1所述的方法相结合实现了视频、讲义ppt和语音内容的精准匹配。

应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄叶敏;林南晖;郑凯;李昊
技术所有人：广州思涵信息科技有限公司;华南师范大学
我是此专利的发明人

上一篇：一种结构优化和效率提升的独立吸尘机的制作方法
上一篇：一种矿热炉除尘系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。