一种检测字幕清晰度的方法及装置与流程

文档序号：14023292阅读：249来源：国知局

本发明涉及计算机视频技术领域，尤其涉及一种检测字幕清晰度的方法及装置。

背景技术：

随着计算机技术的发展，人们的生活也随之越来越丰富多彩。当今社会中，人们通常将唱卡拉ok作为娱乐项目，由于歌曲种类繁多，人们在唱卡拉ok时，无法完整地记住各个歌曲的歌词，唱歌的过程中往往需要参照mv(musicvideo，音乐短片)视频中的字幕才能顺利的唱完一首歌曲，但是，由于各种因素，如硬件的显卡驱动发生故障或软件解码器存在问题时，将导致歌曲视频中的字幕无法正常显示，因此，将对人们参照视频中的字幕唱歌时造成极大的不便，影响用户的唱歌体验。现有技术中，往往依靠人工肉眼识别mv视频中的字幕是否显示正常。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：人工肉眼识别mv视频中的字幕的方式，效率极低，并且许多工作需要大量的重复，同时，由于人工肉眼的客观因素，当肉眼进行大量识别工作后将导致眼睛疲劳，将无法避免地发生识别错误的情况。

因此，亟待一种高效、便捷的检测方法来确定出视频文件中的字幕是否正常显示。

技术实现要素：

本发明实施例提供一种检测字幕清晰度的方法及装置，实现了高效、快速地检测出视频文件中的字幕的显示效果是否合格。

一方面，本发明实施例提供了一种检测字幕清晰度的方法，包括：

获取待识别字幕的视频文件，解析得到所述视频文件中各个帧的图片，并将各个帧的图片保存至与所述视频文件对应的队列中；

通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值；

将各个第一比值与预定比值阈值进行比较，确定各个第一比值的权重值；

确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值，根据计算出的所述第二比值判断所述视频文件字幕显示效果是否合格。

另一方面，本发明实施例提供了一种检测字幕清晰度的装置，包括：

获取及保存单元，用于获取待识别字幕的视频文件，解析得到所述视频文件中各个帧的图片，并将各个帧的图片保存至与所述视频文件对应的队列中；

识别及计算单元，用于通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值；

比较及确定单元，用于将各个第一比值与预定比值阈值进行比较，确定各个第一比值的权重值；

计算及判断单元，用于确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值，根据计算出的所述第二比值判断所述视频文件字幕显示效果是否合格。

上述技术方案具有如下有益效果：通过识别视频每一帧图片的字幕，来计算权重，并加入优先级队列中，为排序扫描识别队列中的值并快速地计算视频文件的清晰程度提供了必要的前提保障；实现了依靠ocr识别算法，无需人为干预的情况下即可快速、便捷地检测出视频文件中的字幕的清晰程度，从而精确地判断出视频文件的字幕显示是否合格，避免了人工检测时容易出错的情况，极大地提高了检测的效率，同时，极大地降低了检测的成本；进一步地，提高了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例中一种检测字幕清晰度的方法流程图；

图2为本发明另一实施例中一种检测字幕清晰度的装置结构示意图；

图3为本发明一优选实施例中一种检测字幕清晰度的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明一个实施例中一种检测字幕清晰度的方法流程图，包括：

101、获取待识别字幕的视频文件，解析得到所述视频文件中各个帧的图片，并将各个帧的图片保存至与所述视频文件对应的队列中；

102、通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值；

103、将各个第一比值与预定比值阈值进行比较，确定各个第一比值的权重值；

104、确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值，根据计算出的所述第二比值判断所述视频文件字幕显示效果是否合格。

可选地，所述通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值之前，还包括：

依据所述视频文件中字幕的预定坐标位置，遍历所述队列中存储的各个图片，并裁剪所述各个图片，得到裁剪后只包含字幕位置的各个图片。

优选地，所述通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值，包括：

通过ocr算法识别出空字幕对应的图片信息，删除所述队列中存储的裁剪后只包含字幕位置的空字幕图片；

所述通过ocr算法识别删除空字幕图片后的各个图片中的字符串总长度与文字的总个数，并分别计算删除空字幕图片后的各个图片中字符串总长度与文字的总个数的第一比值。

可选地，所述确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值之前，还包括：

依据各个第一比值的权重值，对所述队列中的删除空字幕图片后的各个图片进行排序。

优选地，所述确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值，根据计算出的所述第二比值判断所述视频文件字幕显示效果是否合格，包括：

确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值，判断计算出的所述第二比值是否高于预定合格阈值；

若是，确定所述视频文件字幕显示效果为合格；

若否，确定所述视频文件字幕显示效果为不合格。

如图2所示，为本发明另一实施例中一种检测字幕清晰度的装置结构示意图，包括：

获取及保存单元21，用于获取待识别字幕的视频文件，解析得到所述视频文件中各个帧的图片，并将各个帧的图片保存至与所述视频文件对应的队列中；

识别及计算单元22，用于通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值；

比较及确定单元23，用于将各个第一比值与预定比值阈值进行比较，确定各个第一比值的权重值；

计算及判断单元24，用于确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值，根据计算出的所述第二比值判断所述视频文件字幕显示效果是否合格。

可选地，还包括：

裁剪单元，用于依据所述视频文件中字幕的预定坐标位置，遍历所述队列中存储的各个图片，并裁剪所述各个图片，得到裁剪后只包含字幕位置的各个图片。

优选地，所述识别及计算单元，包括：

删除模块，用于通过ocr算法识别出空字幕对应的图片信息，删除所述队列中存储的裁剪后只包含字幕位置的空字幕图片；

计算模块，用于所述通过ocr算法识别删除空字幕图片后的各个图片中的字符串总长度与文字的总个数，并分别计算删除空字幕图片后的各个图片中字符串总长度与文字的总个数的第一比值。

可选地，还包括：

排序单元，用于依据各个第一比值的权重值，对所述队列中的删除空字幕图片后的各个图片进行排序。

优选地，所述计算及判断单元，包括：

判断模块，用于确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值，判断计算出的所述第二比值是否高于预定合格阈值；

第一确定模块，用于若是，确定所述视频文件字幕显示效果为合格；

第二确定模块，用于若否，确定所述视频文件字幕显示效果为不合格。

本发明实施例上述技术方案具有如下有益效果：通过识别视频每一帧图片的字幕，来计算权重，并加入优先级队列中，为排序扫描识别队列中的值并快速地计算视频文件的清晰程度提供了必要的前提保障；实现了依靠ocr识别算法，无需人为干预的情况下即可快速、便捷地检测出视频文件中的字幕的清晰程度，从而精确地判断出视频文件的字幕显示是否合格，避免了人工检测时容易出错的情况，极大地提高了检测的效率，同时，极大地降低了检测的成本；进一步地，提高了用户的使用体验。

以下结合应用实例对本发明实施例上述技术方案进行详细说明：

本发明应用实例旨在高效、快速地检测出视频文件中的字幕的显示效果是否合格。

如图1所示，在字幕识别的过程中，首先获取待识别字幕的视频文件，如abc.mv，随后，通过解析得到所述视频文件中每一帧的图片，并将每一帧的图片保存至与视频文件abc.mv对应的队列中，如队列a；通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值；将各个第一比值与预定比值阈值进行比较，若当前第一比值小于预定比值阈值则依据经验，确定当前对比结果为一个较小的权重值，并放入队列a中，若当前第一比值大于预定比值阈值则依据经验，确定当前对比结果为一个较大的权重值，并放入队列a中，其中，权重值为可变值，优选地，每个权重值不同；随后，确定各个第一比值的权重值中低于预定权重阈值的个数，计算该个数与各个第一比值总个数的第二比值，根据计算出的第二比值判断视频文件abc.mv字幕显示效果是否合格。

在一优选实施例中，步骤102通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值之前，还包括：依据所述视频文件中字幕的预定坐标位置，遍历所述队列中存储的各个图片，并裁剪所述各个图片，得到裁剪后只包含字幕位置的各个图片。

例如，在字幕识别的过程中，预定坐标位置，如根据视频文件abc.mv确定出视频文件abc.mv中的固定长宽的坐标位置，如(0，宽/1.4)遍历队列a中存储的每一个图片，并裁剪队列a中存储的每一个图片，得到裁剪后只包含字幕位置的每一个图片。

在一优选实施例中，步骤102通过ocr算法识别各个图片中的字符串总长度与文字的总个数，分别计算各个图片中字符串总长度与文字的总个数的第一比值，包括：通过ocr算法识别出空字幕对应的图片信息，删除所述队列中存储的裁剪后只包含字幕位置的空字幕图片；所述通过ocr算法识别删除空字幕图片后的各个图片中的字符串总长度与文字的总个数，并分别计算删除空字幕图片后的各个图片中字符串总长度与文字的总个数的第一比值。

例如，在字幕识别的过程中，通过ocr算法识别出空字幕对应的图片信息，删除队列a中存储的裁剪后只包含字幕位置的空字幕的图片，随后，通过ocr算法识别删除空字幕图片后的各个图片中的字符串总长度与文字的总个数，并分别计算删除空字幕图片后的各个图片中字符串总长度与文字的总个数的第一比值。

在一优选实施例中，步骤104确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值之前，包括：依据各个第一比值的权重值，对所述队列中的删除空字幕图片后的各个图片进行排序。

例如，在字幕识别的过程中，分别计算删除空字幕图片后的各个图片中字符串总长度与文字的总个数的第一比值依据各个第一比值的权重值后，将各个第一比值与预定比值阈值进行比较，依据经验值确定各个第一比值的权重值，并根据各个第一比值的权重值由低至高，对队列a中的删除空字幕图片后的各个图片进行排序。

在一优选实施例中，步骤104确定各个第一比值的权重值中低于预定权重阈值的个数，计算所述个数与各个第一比值总个数的第二比值，根据计算出的所述第二比值判断所述视频文件字幕显示效果是否合格，包括：确定各个第一比值的权重值中低于预定权重阈值的个数，根据预定的权重计算公式计算所述个数与各个第一比值总个数的第二比值，判断计算出的所述第二比值是否高于预定合格阈值；若是，确定所述视频文件字幕显示效果为合格；若否，确定所述视频文件字幕显示效果为不合格。

例如，在字幕识别的过程中，预定的权重计算公式，如(中文字符个数/总字符串长度*100)，预定合格阈值，如60％；确定各个第一比值的权重值中低于预定权重阈值的个数，如50，计算个数50与各个第一比值总个数，如80，的第二比值，判断计算出的第二比值，如62.5％高于预定合格阈值，确定视频文件abc.mv字幕显示效果为合格，从而评价视频文件abc.mv的清晰度，参考图3中的字幕识别过程的流程示意图。

本发明实施例提供了一种检测字幕清晰度的装置，可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrativecomponents)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(asic)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中，asic可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘剑;马哲
技术所有人：北京雷石天地电子技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。