视频处理方法、录播盒和计算机可读存储介质与流程

文档序号:28495925发布日期:2022-01-15 04:04阅读:115来源:国知局
视频处理方法、录播盒和计算机可读存储介质与流程

1.本发明涉及无线技术领域,尤其涉及视频处理方法、录播盒和计算机可读存储介质。


背景技术:

2.目前,市面上有很多教育系统的录播盒主要是针对教师现场录制并且将录播课程上传到服务器或者云服务器。但这种不经审核的内容直接上传到服务端有以下弊端:第一是无法对录播内容进行审核,很容易有不符合国家安全或者教育的内容散播出去;第二是大容量的没有经过处理的视频源上传到云服务器,会造成带宽资源的浪费而带来高成本的运营费用;第三是录播课程需要经过总服务器的审核、视频与字幕合成、课程知识化的梳理等,增加服务器负担与成本。另外录播盒功能单一,无法实现在线直播的功能,即使在线直播也无法进行实时的直播审核。


技术实现要素:

3.本发明的主要目的在于提供一种视频处理方法、录播盒和计算机可读存储介质,旨在解决如何在保证教育系统视频内容的安全性的前提下有效地降低运营成本的问题。
4.为实现上述目的,本发明提供一种视频处理方法,所述视频处理方法包括以下步骤:
5.实时获取待审核的视频源,截取所述待审核的视频源中的视频段,得到局部视频;
6.对所述局部视频进行视频转码和音视频分离,得到待处理视频和待处理音频;
7.通过人工智能根据预设的审核标准对所述待处理视频和待处理音频进行审核,得到审核结果;
8.若所述审核结果为审核通过,则将所述待处理音频进行进一步处理以得到音频处理结果,根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配;
9.若所述音频处理结果与所述局部视频匹配,则将所述音频处理结果与所述局部视频合成以得到目标视频,根据接收的播放需求将所述目标视频转码分发至云服务器。
10.可选地,所述待审核的视频源包括画面帧和文本信息,所述得到待处理视频和待处理音频的步骤之后包括:
11.对所述待处理视频进行截帧,以获取所述待处理视频的多个画面帧;
12.对所述待处理音频进行文本转化,以获取所述待处理音频的文本信息。
13.可选地,所述预设的审核标准包括预设的图像审核标准和预设的文字审核标准,所述审核结果包括图像审核结果和文本审核结果,所述通过人工智能根据预设的审核标准对所述待处理视频和待处理音频进行审核,得到审核结果的步骤包括:
14.通过人工智能根据预设的图像审核标准对所述画面帧进行图像审核,得到图像审核结果;
15.通过人工智能根据预设的文字审核标准对所述文本信息进行字词审核,得到文本
审核结果。
16.可选地,所述对所述画面帧进行图像审核的步骤包括:
17.获取所述画面帧中包含的多种图像特征;
18.对所述多种图像特征进行分类;
19.通过对应的预设识别算法对分类后的图像特征进行图像审核。
20.可选地,所述得到审核结果的步骤之后包括:
21.若所述图像审核结果和所述文本审核结果均为通过,则所述审核结果为审核通过;
22.若所述图像审核结果和/或所述文本审核结果为不通过,则上报所述不通过的审核结果至云服务器。
23.可选地,所述将所述待处理音频进行进一步处理以得到音频处理结果的步骤包括:
24.将所述待处理音频上传到云服务器,以使所述云服务器完成对所述待处理音频的语音校准,得到音频处理结果;
25.接收所述云服务器回传的所述音频处理结果。
26.可选地,所述根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配的步骤包括:
27.通过所述人工智能根据预设核验算法核验所述音频处理结果与所述局部视频中的音频时间轴是否对齐;
28.若所述音频处理结果与所述局部视频中的音频时间轴对齐,则认定所述音频处理结果与所述局部视频匹配。
29.可选地,所述通过所述人工智能根据预设核验算法核验所述音频处理结果与所述局部视频中的音频时间轴是否对齐的步骤之后包括:
30.若所述音频处理结果与所述局部视频中的音频时间轴不对齐,则调整所述音频处理结果,以使所述音频处理结果与所述局部视频匹配。
31.此外,为实现上述目的,本发明还提供一种录播盒,所述录播盒包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频处理程序,所述视频处理程序被所述处理器执行时实现如上所述任一项所述的视频处理方法的步骤。
32.此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有视频处理程序,所述视频处理程序被处理器执行时实现如上所述任一项所述的视频处理方法的步骤。
33.本发明提出的一种视频处理方法,通过实时获取待审核的视频源,截取所述待审核的视频源中的视频段,得到局部视频,对所述局部视频进行视频转码和音视频分离,得到待处理视频和待处理音频,通过人工智能根据预设的审核标准对所述待处理视频和待处理音频进行审核,得到审核结果,保证了教育系统视频内容的安全性;若所述审核结果为审核通过,则将所述待处理音频进行进一步处理以得到音频处理结果,根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配,若所述音频处理结果与所述局部视频匹配,则将所述音频处理结果与所述局部视频合成以得到目标视频,根据接收的播放需求将所述目标视频转码分发至云服务器,实现了对目标视频的备份,将字幕合成等需要耗费算力的
工作均在本地完成,减轻了云服务器的负担,有效地降低了运营成本。
附图说明
34.图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
35.图2是本发明实施例方案涉及的硬件系统架构示意图;
36.图3为本发明视频处理方法第一实施例的流程示意图;
37.图4为本发明视频处理方法第二实施例的流程示意图。
38.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
39.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
40.本发明实施例的主要解决方案是:一种视频处理方法,所述视频处理方法包括以下步骤:
41.实时获取待审核的视频源,截取所述待审核的视频源中的视频段,得到局部视频;
42.对所述局部视频进行视频转码和音视频分离,得到待处理视频和待处理音频;
43.通过人工智能根据预设的审核标准对所述待处理视频和待处理音频进行审核,得到审核结果;
44.若所述审核结果为审核通过,则将所述待处理音频进行进一步处理以得到音频处理结果,根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配;
45.若所述音频处理结果与所述局部视频匹配,则将所述音频处理结果与所述局部视频合成以得到目标视频,根据接收的播放需求将所述目标视频转码分发至云服务器。
46.由于目前,市面上有很多教育系统的录播盒主要是针对教师现场录制并且将录播课程上传到服务器或者云服务器。但这种不经审核的内容直接上传到服务端有以下弊端:第一是无法对录播内容进行审核,很容易有不符合国家安全或者教育的内容散播出去;第二是大容量的没有经过处理的视频源上传到云服务器,会造成带宽资源的浪费而带来高成本的运营费用;第三是录播课程需要经过总服务器的审核、视频与字幕合成、课程知识化的梳理等,增加服务器负担与成本。另外录播盒功能单一,无法实现在线直播的功能,即使在线直播也无法进行实时的直播审核。
47.本发明基于上述问题,提出一种一种小型化5g(5th generation mobile communication technology,第五代移动通信技术)边缘计算服务的教育系统解决方案,利用5g模块的高带宽、低延时可实现快速上传录播视频或者实现线上高清课程直播。该系统自带算力系统高达16tops int8双核nnie@840mhz神经网络加速引擎,能够快速的对在线直播和录播视频进行人物行为分析,并通过deep peak2(语音分析模型)端到端建模实现语音转化为ai(artificial intelligence,人工智能)字幕自动嵌入系统等功能,实现了低成本高效安全的教育系统。
48.本发明提供一种视频处理方法,通过实时获取待审核的视频源,截取所述待审核的视频源中的视频段,得到局部视频,对所述局部视频进行视频转码和音视频分离,得到待处理视频和待处理音频,通过人工智能根据预设的审核标准对所述待处理视频和待处理音频进行审核,得到审核结果,保证了教育系统视频内容的安全性;若所述审核结果为审核通
过,则将所述待处理音频进行进一步处理以得到音频处理结果,根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配,若所述音频处理结果与所述局部视频匹配,则将所述音频处理结果与所述局部视频合成以得到目标视频,根据接收的播放需求将所述目标视频转码分发至云服务器,实现了对目标视频的备份,将字幕合成等需要耗费算力的工作均在本地完成,减轻了云服务器的负担,有效地降低了运营成本。
49.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
50.本发明实施例终端可以是录播盒,也可以是pc、智能手机、平板电脑、便携计算机等具有显示功能、视频播放功能、数据处理功能和网络连接功能的智能终端设备。
51.如图1所示,该终端可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
52.可选地,终端还可以包括摄像头、rf(radio frequency,射频)电路,传感器、音频电路、wifi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
53.本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
54.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频处理程序。
55.在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的视频处理程序,并执行以下操作:
56.实时获取待审核的视频源,截取所述待审核的视频源中的视频段,得到局部视频;
57.对所述局部视频进行视频转码和音视频分离,得到待处理视频和待处理音频;
58.通过人工智能根据预设的审核标准对所述待处理视频和待处理音频进行审核,得到审核结果;
59.若所述审核结果为审核通过,则将所述待处理音频进行进一步处理以得到音频处理结果,根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配;
60.若所述音频处理结果与所述局部视频匹配,则将所述音频处理结果与所述局部视频合成以得到目标视频,根据接收的播放需求将所述目标视频转码分发至云服务器。
61.进一步地,处理器1001可以调用存储器1005中存储的视频处理程序,还执行以下
操作:
62.所述待审核的视频源包括画面帧和文本信息,所述得到待处理视频和待处理音频的步骤之后包括:
63.对所述待处理视频进行截帧,以获取所述待处理视频的多个画面帧;
64.对所述待处理音频进行文本转化,以获取所述待处理音频的文本信息。
65.进一步地,处理器1001可以调用存储器1005中存储的视频处理程序,还执行以下操作:
66.所述预设的审核标准包括预设的图像审核标准和预设的文字审核标准,所述审核结果包括图像审核结果和文本审核结果,所述通过人工智能根据预设的审核标准对所述待处理视频和待处理音频进行审核,得到审核结果的步骤包括:
67.通过人工智能根据预设的图像审核标准对所述画面帧进行图像审核,得到图像审核结果;
68.通过人工智能根据预设的文字审核标准对所述文本信息进行字词审核,得到文本审核结果。
69.进一步地,处理器1001可以调用存储器1005中存储的视频处理程序,还执行以下操作:
70.所述对所述画面帧进行图像审核的步骤包括:
71.获取所述画面帧中包含的多种图像特征;
72.对所述多种图像特征进行分类;
73.通过对应的预设识别算法对分类后的图像特征进行图像审核。
74.进一步地,处理器1001可以调用存储器1005中存储的视频处理程序,还执行以下操作:
75.若所述图像审核结果和所述文本审核结果均为通过,则所述审核结果为审核通过;
76.若所述图像审核结果和/或所述文本审核结果为不通过,则上报所述不通过的审核结果至云服务器。
77.进一步地,处理器1001可以调用存储器1005中存储的视频处理程序,还执行以下操作:
78.所述将所述待处理音频进行进一步处理以得到音频处理结果的步骤包括:
79.将所述待处理音频上传到云服务器,以使所述云服务器完成对所述待处理音频的语音校准,得到音频处理结果;
80.接收所述云服务器回传的所述音频处理结果。
81.进一步地,处理器1001可以调用存储器1005中存储的视频处理程序,还执行以下操作:
82.所述根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配的步骤包括:
83.通过所述人工智能根据预设核验算法核验所述音频处理结果与所述局部视频中的音频时间轴是否对齐;
84.若所述音频处理结果与所述局部视频中的音频时间轴对齐,则认定所述音频处理
结果与所述局部视频匹配。
85.进一步地,处理器1001可以调用存储器1005中存储的视频处理程序,还执行以下操作:
86.若所述音频处理结果与所述局部视频中的音频时间轴不对齐,则调整所述音频处理结果,以使所述音频处理结果与所述局部视频匹配。
87.如图2所示,图2是本发明实施例方案涉及的硬件系统架构示意图。
88.本发明视频处理方法的硬件系统架构,由四核svp平台,高容量存储器,ai算力模块、硬件编解码、电源适配模块以及5g蜂窝模块组成。
89.所述四核svp平台,提供了支持8k(分辨率7,680
×
4,320像素(16:9)(约每帧3300万像素图像))@30fps(frames per second,每秒传输帧数)/4k120fps视频录制下,提供硬化的6-dof数字防抖。集成了双核a73和双核a53,独创性的大小核架构和双操作系统,使得功耗和启动时间达到均衡。提供了高效且丰富的计算资源,支撑各类应用如ai语音转字幕、教师行为分析、视频内容审核等,为边缘计算提供优秀的硬件平台。
90.所述电源模块提供12v输入转5v、3.3v等输出,为各个模块提供稳定的供电支持;
91.所述硬件编解码模块主要为超高清8k@30fps等做转码、提供给在线直播提供不同的视频格式输出以及ai字幕视频合成功能;
92.所述存储设备为录播视频以及其他教学视频做为存储依据;
93.所述ai算力模块主要提供额外的算力,提高整个系统ai运算能力。
94.参照图3,本发明第一实施例提供一种视频处理方法,所述视频处理方法包括以下步骤:
95.步骤s10,实时获取待审核的视频源,截取所述待审核的视频源中的视频段,得到局部视频;
96.需要说明的是,本实施例中,执行主体可以是录播盒,所述视频源可以是录播视频,也可以是直播视频,所述视频源可以是8k高清源视频,也可以是其他分辨率的高清视频,例如4k高清源视频、2k高清源视频等,本实施例对此不加以限制;所述截取视频段的方式可以是随机截取,也可以根据可设定的需要截取的视频时长以及执行截取动作的时间间隔进行截取,所述截取之后得到的视频段即为所述局部视频。
97.具体实现中,所述录播盒可以实时获取所述录播视频或直播视频,并截取所述录播视频或直播视频中的视频段,得到局部视频。
98.步骤s20,对所述局部视频进行视频转码和音视频分离,得到待处理视频和待处理音频;
99.可以理解的是,在所述视频源为8k高清源视频的前提下,所述局部视频也是8k高清视频,故需对其先进行视频转码处理,即将已经压缩编码的视频码流转换成另一个视频码流,以适应不同的网络带宽、不同的终端处理能力和不同的用户需求。转码本质上是一个先解码,再编码的过程,因此转换前后的码流可能遵循相同的视频编码标准,也可能不遵循相同的视频编码标准。然后再进行音视频分离,通过视频语音提取技术,将语音转化为mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)格式,得到所述待处理视频,即转码分离后的视频格式文件,和所述待处理音频,即转码分离后的音频mp4格式文件。将所述视频格式文件和所述音频mp4格式文件作为待审核的视频
源。
100.音视频分离的好处是可以减轻本地ai(artificial intelligence,人工智能)算力负载,同时,通过一定时间段的抽选审核,也可以减轻算力负载。同时本地ai也可以通过快速学习,将数据库完善并且上传到云,为后续审核提供越来越精准的深审核。
101.本实施例中,步骤s10中的所述待审核的视频源包括画面帧和文本信息,步骤s20中所述得到待处理视频和待处理音频的步骤之后包括:
102.步骤a10,对所述待处理视频进行截帧,以获取所述待处理视频的多个画面帧;
103.步骤a11,对所述待处理音频进行文本转化,以获取所述待处理音频的文本信息。
104.可以理解的是,通过对视频数据进行截帧、仅对视频数据的多个画面帧进行审核,能够在提高审核结果准确率的基础上大大降低审核成本、提高视频审核的处理效率。每个任务对应的维度信息可以灵活配置,审核维度具有较强的灵活性和可扩展性,能够满足多样化的审核需求。通过将音频内容转化为文字内容,能够更直观地进行审核。
105.步骤s30,通过人工智能根据预设的审核标准对所述待处理视频和待处理音频进行审核,得到审核结果;
106.需要说明的是,在本实施例中,使用了ai音视频审核技术,通过本地ai算法引擎,将8k源视频进行音视频分离后再进行内容审核,得到审核结果。
107.本实施例中,步骤s30中所述预设的审核标准包括预设的图像审核标准和预设的文字审核标准,所述审核结果包括图像审核结果和文本审核结果,步骤s30包括:
108.步骤b10,通过人工智能根据预设的图像审核标准对所述画面帧进行图像审核,得到图像审核结果,其中,对所述画面帧进行图像审核的步骤包括:
109.获取所述画面帧中包含的多种图像特征;
110.对所述多种图像特征进行分类;
111.通过对应的预设识别算法对分类后的图像特征进行图像审核;
112.步骤b20,通过人工智能根据预设的文字审核标准对所述文本信息进行字词审核,得到文本审核结果。
113.需要说明的是,所述图像特征分类可以是色情图片、政治任务、敏感文字等,所述图像审核表现为ai行为分析,所述预设识别算法可以是分类算法、目标检测人脸识别算法、ocr(optical character recognition,光学字符识别)识别算法等,所述字词审核表现为ai敏感字审核。
114.具体实现中,采用分类算法识别是否是色情图片,采用目标检测识别人脸是否是政治人物,视频内容进行可选择性分帧图像抽取ocr识别,通过ocr识别图片上的文字内容,再将文字内容通过敏感词+语义分析模型,从而识别内容是否违规,进而得到ocr审核结果,图像审核完成;基于最常见的文字内容,我们可以采用敏感词加语义分析模型相结合的方式,去匹配识别内容是否违规,例如存在敏感词则视为违规,语义分析结果为色情内容、血腥暴力内容、敏感政治话题等相关内容亦视为违规,进而得到所述文本审核结果,文本审核完成。
115.本实施例中,步骤s30之后包括:
116.步骤b30,若所述图像审核结果和所述文本审核结果均为通过,则所述审核结果为审核通过;
117.步骤b31,若所述图像审核结果和/或所述文本审核结果为不通过,则上报所述不通过的审核结果至云服务器。
118.可以理解的是,只有当表征视频审核通过的所述图像审核结果和表征音频审核通过的所述文本审核结果均为通过时,才能认为所述视频源的审核结果为审核通过。
119.具体实现中,若所述图像审核结果为通过但所述文本审核结果为不通过,则认为所述视频源的审核结果为审核不通过;同理,若所述图像审核结果为不通过但所述文本审核结果为通过,也认为所述视频源的审核结果为审核不通过;再者,若所述图像审核结果为不通过且所述文本审核结果为不通过,亦认为所述视频源的审核结果为审核不通过。上述认为审核结果为审核不通过的情况下,都需要将所述不通过的审核结果通过5g上报至云服务器,使所述云服务器对当前直播内容或录播内容进行实时调整。
120.步骤s40,若所述审核结果为审核通过,则将所述待处理音频进行进一步处理以得到音频处理结果,根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配。
121.需要说明的是,所述音频处理结果表现为字幕形式,所述预设核验算法是基于ai算力系统对字幕和视频音频进行校验对齐的算法。
122.可以理解的是,若所述审核结果为审核通过,则说明所述待处理视频和所述待处理音频均不包含违规问题,通过使用ai语音转ai字幕合成技术将所述待处理音频转换为字幕,将生成的字幕通过本地的编解码系统和ai算力系统,校验语音时间与视频音频对齐算法后,根据校验结果即可得知字幕与视频是否匹配。
123.步骤s50,若所述音频处理结果与所述局部视频匹配,则将所述音频处理结果与所述局部视频合成以得到目标视频,根据接收的播放需求将所述目标视频转码分发至云服务器。
124.可以理解的是,若字幕与视频音频匹配,则将ai字幕合成进源视频,得到所述目标视频(即可以进行正常播放的录播视频或直播视频)。最后根据不同用户的播放需求将录播视频或直播视频快速发布、上传、转码分发到云服务器以及有播放需求的用户终端上。将字幕合成等需要耗费算力的工作均在本地完成,减轻了云服务器的负担,有效地降低了运营成本。
125.需要说明的是,在得到所述目标视频后,还会将所述目标视频上传至本地服务器,以在本地形成备份,在有需求时即可调用该备份使用,避免云端服务器丢失文件后需要重新对未处理过的视频源进行处理,浪费不必要的时间。
126.在本实施例中,提供了一种视频处理方法,通过实时获取视频源并截取所述视频源中的视频段,得到局部视频,对所述局部视频进行视频转码和音视频分离,得到待处理视频和待处理音频,减轻了本地ai算力负载,对所述待处理视频进行截帧,以获取所述待处理视频的多个画面帧,对所述待处理音频进行文本转化,以获取所述待处理音频的文本信息,通过本地ai对所述画面帧进行ai行为分析,得到ocr审核结果,通过本地ai对所述文本信息进行ai敏感字审核,得到文本审核结果,同时本地ai也可以通过快速学习,将数据库完善并且上传到云,为后续审核提供越来越精准的深审核,保证了教育系统视频内容的安全性;通过基于所述视频源得到目标视频,将所述目标视频上传至本地服务器,实现了对目标视频的备份,避免云端服务器丢失文件后需要重新对未处理过的视频源进行处理,浪费不必要的时间;根据接收的播放需求将所述目标视频转码分发至云服务器,将字幕合成等需要耗
费算力的工作均在本地完成,减轻了云服务器的负担,有效地降低了运营成本。
127.进一步的,参照图4,基于上述图3所示的实施例,提出本发明视频处理方法的第二实施例。
128.步骤s40中将所述待处理音频进行进一步处理以得到音频处理结果的步骤包括:
129.步骤k10,将所述待处理音频上传到云服务器,以使所述云服务器完成对所述待处理音频的语音校准,得到音频处理结果;
130.步骤k20,接收所述云服务器回传的所述音频处理结果。
131.步骤s40中根据预设核验算法核验所述音频处理结果与所述局部视频是否匹配的步骤包括:
132.步骤k30,通过所述人工智能根据预设核验算法核验所述音频处理结果与所述局部视频中的音频时间轴是否对齐;
133.步骤k40,若所述音频处理结果与所述局部视频中的音频时间轴对齐,则认定所述音频处理结果与所述局部视频匹配;
134.步骤k41,若所述音频处理结果与所述局部视频中的音频时间轴不对齐,则调整所述音频处理结果,以使所述音频处理结果与所述局部视频匹配。
135.需要说明的是,在审核通过后,使用ai语音转ai字幕合成技术,将所述待处理音频转化为mp4格式,语音转文字主要通过视频语音提取技术,在系统本地进行基于deep peak2端到端建模,超过10万小时数据训练,多采样率多场景声学建模,同时再通过5g蜂窝技术快速将核对好的语音文本上传到云服务器做二次校准,并将生成的字幕回传至本地,即所述音频处理结果,以提高视频语音识别准确率。
136.可以理解的是,将所述生成的字幕通过本地的编解码系统和ai算力系统,校验语音时间与视频音频对齐算法后,将ai字幕合成所述待处理视频,得到处理完成的视频,即所述目标视频。若字幕与音频时间轴对齐,说明字幕与音频匹配,则校验无问题,若字幕与音频时间轴不对齐,则说明字幕与音频不匹配,此时需调整字幕,以使字幕能够与音频时间轴对齐。
137.在本实施例中,提供了一种视频处理方法,通过实时获取视频源并截取所述视频源中的视频段,得到局部视频,对所述局部视频进行视频转码和音视频分离,得到待处理视频和待处理音频,减轻了本地ai算力负载,对所述待处理视频进行截帧,以获取所述待处理视频的多个画面帧,对所述待处理音频进行文本转化,以获取所述待处理音频的文本信息,通过本地ai对所述画面帧进行ai行为分析,得到ocr审核结果,通过本地ai对所述文本信息进行ai敏感字审核,得到文本审核结果,同时本地ai也可以通过快速学习,将数据库完善并且上传到云,为后续审核提供越来越精准的深审核,保证了教育系统视频内容的安全性;通过本地ai算力以及硬件编解码能力,将录播内容或直播内容进行本地ai安全审核处理,并且通过本地ai加云端合成字幕,快速的将录播内容或直播内容快速发布、上传、转码分发到服务器以及需要用户终端上面,可以有效降低使用者的使用成本,提高工作效率。
138.需要说明的是,上述实施例主要是针对教育市场的录播需求或直播需求,但是其所述的ai本地审核技术同样也可以用于工厂视频监控,安防监控等领域。
139.此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有视频处理程序,所述视频处理程序被处理器执行时实现如上所述视频处理方法中
各实施例的步骤。
140.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
141.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
142.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
143.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1