本发明涉及视频图像处理,尤其涉及一种基于字精度的歌词时间提取方法及计算机可读存储介质。
背景技术:
1、现有歌曲的歌词文本以及时间信息的提取技术通常是利用歌曲的音频数据,通过语音识别模型等技术从音频中识别歌词,并提取到歌词的时间信息。虽然这类方法目前已经比较成熟,但是极易受到同音字、近音字、拖长音、歌曲速度和伴奏音乐等因素影响,识别出错误的歌词以及错误的歌词起止时间。
技术实现思路
1、本发明所要解决的技术问题是:提供一种基于字精度的歌词时间提取方法及计算机可读存储介质,可准确地获取歌词中每个字的起止时间。
2、为了解决上述技术问题,本发明采用的技术方案为:一种基于字精度的歌词时间提取方法,包括:
3、读取音乐视频中的各视频帧;
4、通过文本检测算法获取各视频帧中的文本图像;
5、根据各视频帧及其上一视频帧对应的文本图像,判断各视频帧对应的文本图像是否存在颜色变化,并当存在颜色变化时,获取颜色变化位置;
6、根据各视频帧的颜色变化位置,确定各句歌词的演唱起始帧和演唱结束帧;
7、通过文本识别算法分别对各句歌词的演唱起始帧进行文本识别,得到各句歌词的文本信息,并确定各句歌词中每个字的左右边界;
8、根据各句歌词的演唱起始帧和演唱结束帧之间的各视频帧的颜色变化位置以及各句歌词中各字的左右边界,确定各句歌词中各字的起始视频帧和结束视频帧;
9、根据所述音乐视频的帧率以及各字的起始视频帧和结束视频帧的帧号,确定各字的起始时间和结束时间。
10、本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的方法的步骤。
11、本发明的有益效果在于:通过光学字符识别技术来提取歌词文本信息,不会受到歌曲伴奏以及歌曲速度快慢的影响,也不会由于同音字、近音字等因素影响所导致的识别错误的问题,还能准确地捕捉到时长较长的歌词的停止时间。本发明可准确地获取歌词中每个字的起止时间。
1.一种基于字精度的歌词时间提取方法,其特征在于,包括:
2.根据权利要求1所述的基于字精度的歌词时间提取方法,其特征在于,所述通过文本检测算法获取各视频帧中的文本图像;根据各视频帧及其上一视频帧对应的文本图像,判断各视频帧对应的文本图像是否存在颜色变化,并当存在颜色变化时,获取颜色变化位置,包括:
3.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述第一判断变量的计算公式为k1=xstd/h,所述第一阈值为1;所述第二判断变量的计算公式为k2=(xmax-xmean)/xmax,所述第二阈值为0.94;
4.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述第三判断变量的计算公式为k3=(xi-xmean)/xi,所述第三阈值为0.8;
5.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述通过文本检测算法对当前视频帧进行检测,得到当前视频帧中的文本边界框,具体为:
6.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述对当前视频帧及其上一视频帧对应的文本图像进行灰度化处理,并通过背景消除算法消除当前视频帧及其上一视频帧对应的文本图像中的背景,得到当前视频帧及其上一视频帧对应的灰度文本图像,具体为:
7.根据权利要求2所述的基于字精度的歌词时间提取方法,其特征在于,所述根据所述横向差值分布数组中的各数值以及所述平均值,计算各数值对应的第三判断变量,具体为:
8.根据权利要求7所述的基于字精度的歌词时间提取方法,其特征在于,所述根据当前视频帧的上一视频帧对应的文本图像的颜色变化位置,确定当前视频帧对应的文本图像的颜色变化位置的候选范围,具体为:
9.根据权利要求1所述的基于字精度的歌词时间提取方法,其特征在于,所述通过文本识别算法分别对各句歌词的演唱起始帧进行文本识别,得到各句歌词的文本信息,并确定各句歌词中每个字的左右边界,包括:
10.根据权利要求9所述的基于字精度的歌词时间提取方法,其特征在于,所述对所述初始字边界进行重新切分,得到新边界具体为:
11.根据权利要求10所述的基于字精度的歌词时间提取方法,其特征在于,所述根据各第二初始字边界的初始字宽的最大值,分别对所述长边界组中的各第一初始字边界进行分割,并将分割得到的边界以及所述短边界组中的各第二初始字边界作为新边界,具体为:
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11任一项所述的方法。