本申请实施例涉及人工智能,尤其涉及一种用于视频的文字分类方法、文字分类模型训练方法和装置。
背景技术:
1、随着互联网技术的快速发展,多媒体的应用越来越广泛,视频数量也急剧增长,用户需要了解海量的视频内容。通常视频中包含多种类型的文字对象。视频中特定文字的提取对视频内容的理解有着重要的作用。视频中常见的文字类型包括字幕文字、标题文字、台标水印文字,以及被摄像机拍摄到的场景文字等。
2、一般情况下,针对每种文字类型会根据该文字类型本身的特性设计对应的文字检测和提取方法。例如,对于字幕的提取,通常会首先检测字幕在视频中的区域,再对字幕区域中的文字进行识别得到字幕信息。又例如,一种方案可以使用已知的水印模板与图像进行匹配,比如使用卷积技术得到待检测视频中的水印;另一种方案使用一致台标水印训练水印检测网络,使得网络根据视频前后帧的差异得到水印。又例如,对于标题的提取,可以在人工确定标题出现的区域后,通过对字幕的特征进行判断,得到字幕标题。但是,目前还没有通用的对视频中多种类型的文字进行提取和分类方法。
技术实现思路
1、本申请提供一种用于视频的文字分类方法、文字分类模型训练方法和装置,能够作为一种通用方案对视频中各种类型的文字对象进行提取并输出文字对象的类型。
2、第一方面,本申请实施例提供一种用于视频的文字分类方法,包括:
3、利用字符识别模块,提取视频帧序列中的n个文字对象的文字内容和轨迹信息;
4、利用m个第一表征模块对所述n个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的m个模态信息;所述m个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;其中,n、m为正整数;
5、将所述每个文字对象的m个模态信息输入神经网络模块,得到所述每个文字对象的融合特征;
6、将所述每个文字对象的融合特征输入分类头,得到所述每个文字对象的类型。
7、第二方面,本申请实施例提供一种文字分类模型训练方法,所述文字分类模型包括m个第一表征模块、神经网络模块和分类头,所述方法包括:
8、获取训练样本集,所述训练样本集包括多个文字对象的文字内容、轨迹信息和类型标签,其中,所述轨迹信息是根据文字对象在视频帧序列中的位置标注得到的;
9、利用所述m个第一表征模块对每个所述文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的m个模态信息;所述m个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;m为正整数;
10、将所述每个文字对象的m个模态信息输入所述神经网络模块,得到所述每个文字对象的融合特征;
11、将所述每个文字对象的融合特征输入所述分类头,得到所述每个文字对象的类型;
12、根据所述每个文字对象的类型和所述每个文字对象的类型标签,确定损失函数,并根据所述损失函数对所述m个第一表征模块、所述神经网络模块和所述分类头中的至少一个模块进行参数更新,得到训练后的文字分类模型。
13、第三方面,本申请实施例提供了一种用于视频的文字分类装置,包括:
14、字符识别模块,用于提取视频帧序列中的n个文字对象的文字内容和轨迹信息;
15、m个第一表征模块,用于对所述n个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的m个模态信息;所述m个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;其中,n、m为正整数;
16、神经网络模块,用于输入所述每个文字对象的m个模态信息,得到所述每个文字对象的融合特征;
17、分类头,用于输入所述每个文字对象的融合特征,得到所述每个文字对象的类型。
18、第四方面,本申请实施例提供了一种文字分类模型训练装置,所述文字分类模型包括m个第一表征模块、神经网络模块和分类头,所述装置包括:
19、获取单元,用于获取训练样本集,所述训练样本集包括多个文字对象的文字内容、轨迹信息和类型标签,其中,所述轨迹信息是根据文字对象在视频帧序列中的位置标注得到的;
20、所述m个第一表征模块,用于对每个所述文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的m个模态信息;所述m个模态信息包括语义表征、视觉表征和轨迹表征中的至少一种;m为正整数;
21、所述神经网络模块,用于输入所述每个文字对象的m个模态信息,得到所述每个文字对象的融合特征;
22、所述分类头,用于输入所述每个文字对象的融合特征,得到所述每个文字对象的类型;
23、参数更新单元,用于根据所述每个文字对象的类型和所述每个文字对象的类型标签,确定损失函数,并根据所述损失函数对所述m个第一表征模块、所述神经网络模块和所述分类头中的至少一个模块进行参数更新,得到训练后的文字分类模型。
24、第五方面,本申请实施例提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面或第二方面中的方法。
25、第六方面,本申请实施例提供一种计算机可读存储介质,包括指令,当其在计算机上运行时使得计算机执行如第一方面或第二方面中的方法。
26、第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或第二方面中的方法。
27、第八方面,本申请实施例提供一种计算机程序,计算机程序使得计算机执行如第一方面或第二方面中的方法。
28、通过上述技术方案,通过根据文字对象的文字内容和文字对象在视频中的轨迹信息得到文字对象的多个模态信息,能够表征文字对象更加丰富的特征,进一步通过对文字对象的多个模态信息进行融合得到文字对象的融合特征,能够表征文字对象以及文字对象的模态信息之间的相关性,因此基于该融合特征对文字对象进行分类,能够得到更加准确的文字对象类型。由于本申请实施例的方案并未根据不同的文字类型特性设计对应的文字提取和检测方法,本申请实施例适用于视频中的各种文字类型的文字对象的提取和分类,因此本申请实施例能够作为一种通用方案对视频中各种类型的文字对象进行提取并输出文字对象的类型。
1.一种用于视频的文字分类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述利用m个第一表征模块对所述n个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的m个模态信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述利用m个第一表征模块对所述n个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的m个模态信息,包括:
4.根据权利要求1所述的方法,其特征在于,所述利用m个第一表征模块对所述n个文字对象中的每个文字对象的所述文字内容和所述轨迹信息进行表征,得到所述每个文字对象的m个模态信息,包括:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求1所述的方法,其特征在于,还包括:
8.根据权利要求1-7任一项所述的方法,其特征在于,所述神经网络模块包括多头注意力模块。
9.根据权利要求1-7任一项所述的方法,其特征在于,所述文字对象的类型包括字幕文字、标题文字、水印文字、台标文字、场景文字和自定义类型文字中的至少一种。
10.一种文字分类模型训练方法,其特征在于,所述文字分类模型包括m个第一表征模块、神经网络模块和分类头,所述方法包括:
11.根据权利要求10所述的方法,其特征在于,所述文字分类模型还包括时序表征模块,所述方法还包括:
12.根据权利要求10所述的方法,其特征在于,所述文字分类模型还包括类型表征模块,所述方法还包括:
13.根据权利要求10所述的方法,其特征在于,所述文字分类模型还包括视频表征模块,所述方法还包括:
14.一种用于视频的文字分类装置,其特征在于,包括:
15.一种文字分类模型训练装置,其特征在于,所述文字分类模型包括m个第一表征模块、神经网络模块和分类头,所述装置包括:
16.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有指令,所述处理器执行所述指令时,使得所述处理器执行权利要求1-13任一项所述的方法。
17.一种计算机存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括用于执行权利要求1-13中任一项所述的方法。
18.一种计算机程序产品,其特征在于,包括计算机程序代码,当所述计算机程序代码被电子设备运行时,使得所述电子设备执行权利要求1-13中任一项所述的方法。