PPT演示文档录制方法、装置、计算机设备和存储介质与流程

文档序号：17161186发布日期：2019-03-20 00:44阅读：159来源：国知局

本申请涉及计算机技术领域，特别是涉及一种ppt（powerpoint，演示文稿）演示文档录制方法、装置、计算机设备和存储介质。

背景技术：

目前，ppt文档已经成为各种汇报和教学的重要表达方式。演讲者通过将ppt投影到投影幕或显示器上来将演讲主要内容呈现给观众。观众主要是通过呈现出来的ppt文档和演讲者口头讲述的内容来领会演讲主旨。其中，观众主要利用录音设备来对演讲者口头讲述内容进行采集；利用相机拍照或者视频录制对演讲中ppt文档内容进行录制。然而，不管是录音、拍照还是录像，都需要事后对其人工整理才能形成一份较为完整的文档，其中对于演讲者的口头讲述内容需人工听写成摘抄成文档，这份整理工作需要消耗大量时间和精力。

技术实现要素：

基于此，有必要针对上述技术问题，提供一种能够将演示者的演讲内容自动转换成文本的形式记录下来的ppt演示文档录制方法、装置、计算机设备和存储介质。

一种ppt演示文档录制方法，所述方法包括：

对演示中的ppt演示文档进行定制化拍摄，获得ppt演示文档的文档图片和演讲者的演讲音频；

将文档图片和演讲音频上传至服务器；

控制服务器对文档图片进行文字识别，生成目标ppt文档；

控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。

在其中一个实施例中，对演示中的ppt演示文档进行拍摄的步骤具体包括：对演示中的ppt演示文档，利用四边形选框对镜头中ppt文档进行定制化拍摄；根据预设的时间间隔进行连续拍照，同时对演讲者进行录音。

在其中一个实施例中，将文档图片和演讲音频上传至服务器的步骤之前还包括：对文档图片进行去重处理。

在其中一个实施例中，所述方法还包括利用图像处理算法对文档图片进行图形校正。

在其中一个实施例中，控制服务器对文档图片进行文字识别，生成目标ppt文档的步骤包括：控制服务器利用ocr识别算法对每一张文档图片进行文字识别，获取文档文字及版面信息；根据文档文字及版面信息生成目标ppt文档。

在其中一个实施例中，所述方法还包括根据目标ppt文档的时间戳和演讲文本的时间轴信息，将演讲文本录入对应的目标ppt文档内。

一种ppt演示文档录制装置，所述装置包括：

拍摄模块，用于对演示中的ppt演示文档进行定制化拍摄，获得ppt演示文档的文档图片和演讲者的演讲音频；

上传模块，用于将文档图片和演讲音频上传至服务器；

文字识别模块，用于控制服务器对文档图片进行文字识别，生成目标ppt文档；

语音识别模块，用于控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。

一种计算机设备，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对演示中的ppt演示文档进行拍摄，获得ppt演示文档的文档图片和演讲者的演讲音频；

将文档图片和演讲音频上传至服务器；

控制服务器对文档图片进行文字识别，生成目标ppt文档；

控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对演示中的ppt演示文档进行拍摄，获得ppt演示文档的文档图片和演讲者的演讲音频；

将文档图片和演讲音频上传至服务器；

控制服务器对文档图片进行文字识别，生成目标ppt文档；

控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。

上述ppt演示文档录制方法、装置、计算机设备和存储介质，摄像装置通过拍摄ppt演示文档获取文档图片和演讲音频，并对文档图片进行文字识别获得目标ppt文档，对演讲音频进行语音识别，获得演讲文档，将演示者的演讲内容自动转换成文本的形式记录下来，无需后期人工整理，十分方便。

附图说明

图1为一个实施例中ppt演示文档录制方法的应用环境图；

图2为一个实施例中ppt演示文档录制方法的流程示意图；

图3为一个实施例中ppt演示文档录制方法的拍摄图；

图4为一个实施例中ppt演示文档录制方法的效果图；

图5为一个实施例中ppt演示文档录制装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的ppt演示文档录制方法，可以应用于终端内，终端对投影的ppt演示文档进行拍摄，并将拍摄获得的文档图片和演讲音频进行处理。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。本申请提供的ppt演示文档录制方法还可以应用于如图1所示的应用环境中。摄像装置102可以通过网络与服务器104进行通信，还可以通过电性连接与服务器104进行通信。当演讲者演示投影的ppt演示文档106时，摄像装置102采集ppt演示素材，并将演示素材上传至服务器进行处理。其中，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种ppt演示文档录制方法，以该方法应用于图1中的摄像装置102为例进行说明，包括以下步骤：

步骤202，对演示中的ppt演示文档进行拍摄，获得ppt演示文档的文档图片和演讲者的演讲音频。

在进行本发明的方法之前，用户可以将摄像装置安置在对投影的ppt演示文档进行拍摄时不受遮挡的区域，并将摄像装置的摄像头对准ppt演示文档，调整摄像装置使得摄像装置能够拍摄到完整清晰的ppt演示文档。当演讲者进行ppt演示文档的演示时，用户启动摄像装置对ppt演讲文档进行拍摄。摄像装置对投影的ppt演示文档进行拍照，同时对演讲者进行录音，获得多张拍摄的文档图片和演讲者的演讲音频。其中，拍摄获得的文档图片和演讲音频可以存储于摄像装置的本地存储器内。

在其中一个实施例中，对演示中的ppt演示文档，利用四边形选框对镜头中ppt文档进行定制化拍摄；根据预设的时间间隔进行连续拍照，同时对演讲者进行录音。

用户可以操作摄像装置预设一个自动拍照的时间间隔。例如，预设的时间间隔可以是2s。当演讲者开始进行ppt演示时，用户启动摄像装置对投影的ppt演示文档根据预设的时间间隔进行自动连续拍照，获得多张文档图片；在摄像装置对ppt演示文档进行拍照的同时对演讲者进行录音，获取演讲者的演讲音频。当演讲结束时，用户关闭摄像装置的摄像操作。本实施例中，通过设置时间间隔对ppt演示文档进行连续自动连续拍摄，解放了用户双手，使得用户无需手动多次操作摄像装置进行拍摄，十分方便。

在其中一个实施例中，将文档图片和演讲音频上传至服务器的步骤之前还包括：对文档图片进行去重处理。

当摄像装置拍摄获得的文档图片为多张时，摄像装置对多张文档图片进行去重处理。具体地，摄像装置将所有文档图片进行特征度相似度比较，删除相似度大于阈值的文档图片。摄像装置根据拍摄时间戳对相似度大于阈值的文档图片进行删除，对多张相似度大于阈值的文档图片，保留拍摄时间最早的文档图片，删除其他文档图片。摄像装置可以采用感知哈希算法对文档图片进行特征度相似度比较。其中，阈值可以由用户设置，例如可以是95%。本实施例中，通过对文档图片的去重，使得摄像装置拍摄的同一张ppt演示文档获得的多张文档图片能够消除重复，使得文档图片与ppt演示文档一一对应。

在其中一个实施例中，ppt演示文档录制方法还包括利用图像处理算法对文档图片进行图形校正。

图3示出了摄像装置定制化拍摄获得的一张照片，由于摄像装置的拍摄角度问题，拍摄的文档图片内包含的ppt301可能与原始的ppt演示文档存在一定的形变问题，需要对其进行校正使其与ppt演示文档的图形一致。本实施例中，摄像装置利用图像处理算法对文档图片进行图形校正，使其与ppt演示文档的图形一致。校正后的文档图片如图4所示，401为校正后的文档图片内包含的ppt。

本实施例中，通过对文档图片进行图形校正，使得变形的文档图片恢复正常图形，更方便后续的文字识别以及对文档图片中的公式和插图等的正常浏览。

步骤204，将文档图片和演讲音频上传至服务器。

摄像装置将文档图片和演讲音频上传至服务器。具体地，摄像装置将所有文档图片打包为ppt格式的文档，将ppt格式的文档和演讲音频上传至服务器。

步骤206，控制服务器对文档图片进行文字识别，生成目标ppt文档。

摄像装置控制服务器对文档图片进行文字识别，获得文档文字，根据文档文字生成目标ppt文档。其中，目标ppt文档内的文字为单独可编辑的文字。

在其中一个实施例中，控制服务器对文档图片进行文字识别，生成目标ppt文档的步骤包括：控制服务器利用ocr（opticalcharacterrecognition，光学字符识别）识别算法对每一张文档图片进行文字识别，获取文档文字及版面信息；根据文档文字及版面信息生成目标ppt文档。

摄像装置控制服务器利用ocr识别算法对每一张文档图片进行文字识别。服务器对文档图片进行扫描，对文档图片进行分析处理，获取文档文字及版面信息。其中，文档文字包括文档文字的属性信息，属性信息包括文档文字的格式、大小、颜色以及字体空间位置。服务器根据文档文字及其属性信息生成对应的目标ppt文档。进一步地，服务器对文档图片中的公式和插图等进行截图，将公式和插图根据文档图片中的位置对应的插入目标ppt文档。本实施例中，采用ocr识别算法对文档图片进行文字识别，根据识别获取的文档文字和版面信息重新生成目标ppt文档，根据此方法获得的ppt文档可以二次编辑ppt内的文档文字，十分方便。

步骤208，控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。

摄像装置控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。具体地，摄像装置控制服务器对演讲音频进行滤波处理，对滤波后的演讲音频进行语音识别，将识别的演讲文本存储为演讲文档。其中，演讲文档的格式可以为txt格式、doc格式、docx格式和ppt格式等。

本实施例中，摄像装置通过拍摄ppt演示文档获取文档图片和演讲音频，并对文档图片进行文字识别获得目标ppt文档，对演讲音频进行语音识别，获得演讲文档，将演示者的演讲内容自动转换成文本的形式记录下来，无需后期人工整理，十分方便。

在其中一个实施例中，ppt演示文档录制方法还包括：根据目标ppt文档的时间戳和演讲文本的时间轴信息，将演讲文本录入对应的目标ppt文档内。

其中，目标ppt文档的时间戳根据摄像时间生成。摄像时间可以是具体地即时时间，例如可以是即时的北京时间。摄像时间还可以是相对时间，例如摄像装置将启动摄像操作的初始时间设为0，根据预设的时间间隔对拍摄的文档图片录入时间。例如将预设的时间间隔记录为t，第一张文档图片在时间戳上的时间为0，第二张文档图片在时间戳上的的时间则为t，第三张文档图片在时间戳上的的时间则为2t，……，第n张文档图片在时间戳上的的时间则为（n-1）t。

本实施例中，摄像装置在控制服务器对演讲音频进行语音识别后，根据演讲音频录制时间对获得的演讲文本录入时间轴信息。进一步地，摄像装置控制服务器根据目标ppt文档的时间戳和演讲文本的时间轴信息进行匹配，将演讲文本根据对应的录入目标ppt文档内。具体地，将演讲文字录入目标ppt文档的备注内。

本实施例中，通过将演讲者的演讲文本匹配记录如目标ppt文档，使得演讲者的ppt演示文档内容和演讲内容合二为一，使得获得的目标ppt文档更为清晰明了，方便阅读浏览。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种ppt演示文档录制装置，包括：拍摄模块510、上传模块510、文字识别模块530和语音识别模块540，其中：

拍摄模块510，用于对演示中的ppt演示文档进行拍摄，获得ppt演示文档的文档图片和演讲者的演讲音频；

上传模块510，用于将文档图片和演讲音频上传至服务器；

文字识别模块530，用于控制服务器对文档图片进行文字识别，生成目标ppt文档；

语音识别模块540，用于控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。

在一个实施例中，拍摄模块具体用于：对演示中的ppt演示文档，利用四边形选框对镜头中ppt文档进行定制化拍摄；根据预设的时间间隔进行连续拍照，同时对演讲者进行录音。

在一个实施例中，ppt演示文档录制装置还包括去重模块，用于在将文档图片和演讲音频上传至服务器之前对文档图片进行去重处理。

在一个实施例中，ppt演示文档录制装置还包括校正模块，用于利用图像处理算法对文档图片进行图形校正。

在一个实施例中，文字识别模块530还用于控制服务器利用ocr识别算法对每一张文档图片进行文字识别，获取文档文字及版面信息；根据文档文字及版面信息生成目标ppt文档。

在一个实施例中，ppt演示文档录制装置还包括合并模块，用于根据目标ppt文档的时间戳和演讲文本的时间轴信息，将演讲文本录入对应的目标ppt文档内。

关于ppt演示文档录制装置的具体限定可以参见上文中对于ppt演示文档录制方法的限定，在此不再赘述。上述ppt演示文档录制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是摄像装置，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的摄像装置或服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种ppt演示文档录制方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：对演示中的ppt演示文档进行拍摄，获得ppt演示文档的文档图片和演讲者的演讲音频；将文档图片和演讲音频上传至服务器；控制服务器对文档图片进行文字识别，生成目标ppt文档；控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。

在一个实施例中，对演示中的ppt演示文档进行拍摄的步骤具体包括：对演示中的ppt演示文档，利用四边形选框对镜头中ppt文档进行定制化拍摄；根据预设的时间间隔进行连续拍照，同时对演讲者进行录音。

在一个实施例中，将文档图片和演讲音频上传至服务器的步骤之前还包括：对文档图片进行去重处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：利用图像处理算法对文档图片进行图形校正。

在一个实施例中，控制服务器对文档图片进行文字识别，生成目标ppt文档的步骤包括：控制服务器利用ocr识别算法对每一张文档图片进行文字识别，获取文档文字及版面信息；根据文档文字及版面信息生成目标ppt文档。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据目标ppt文档的时间戳和演讲文本的时间轴信息，将演讲文本录入对应的目标ppt文档内。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：对演示中的ppt演示文档进行拍摄，获得ppt演示文档的文档图片和演讲者的演讲音频；将文档图片和演讲音频上传至服务器；控制服务器对文档图片进行文字识别，生成目标ppt文档；控制服务器对演讲音频进行语音识别，将演讲音频转换成演讲文本，获得演讲文档。

对演示中的ppt演示文档进行拍摄的步骤具体包括：对演示中的ppt演示文档，利用四边形选框对镜头中ppt文档进行定制化拍摄；根据预设的时间间隔进行连续拍照，同时对演讲者进行录音。

在一个实施例中，将文档图片和演讲音频上传至服务器的步骤之前还包括：对文档图片进行去重处理。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：利用图像处理算法对文档图片进行图形校正。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据目标ppt文档的时间戳和演讲文本的时间轴信息，将演讲文本录入对应的目标ppt文档内。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（rom）、可编程rom（prom）、电可编程rom（eprom）、电可擦除可编程rom（eeprom）或闪存。易失性存储器可包括随机存取存储器（ram）或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram（sram）、动态ram（dram）、同步dram（sdram）、双数据率sdram（ddrsdram）、增强型sdram（esdram）、同步链路（synchlink）dram（sldram）、存储器总线（rambus）直接ram（rdram）、直接存储器总线动态ram（drdram）、以及存储器总线动态ram（rdram）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：管明雷;汪驰升
技术所有人：深圳市容会科技有限公司
我是此专利的发明人

上一篇：一种云计算洒水车自规划系统的制作方法
上一篇：一种TC4钛合金盘锻件的β锻及热处理方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。