一种视频文本分割方法

文档序号：6630470阅读：421来源：国知局

专利名称：一种视频文本分割方法
一种视频文本分割方法
技术领域
本发明属于图像分割与智能视频分析领域，涉及数字图像处理和模式识别技术。
技术背景
随着网络与数字化媒体技术的不断发展，大量多媒体信息不断涌现，这使得基于内容的信息检索成为迫切需求。视频中的文字信息是一种高级语义特征，可以用于视频分析、语义理解及检索。如要提取视频中的文字信息，视频文本分割是其中非常关键的一步。视频文本分割就是将视频中经文本定位得到的文字区域分割为二值图像，为后续OCR (Optical Character Recognition，光学字符识别)处理提供输入。视频文本分割步骤的性能对整个视频文本信息的提取有着直接的影响。
已有的视频文本分割方法主要有基于阈值的分割方法、基于多帧融合的方法、基于颜色聚类的方法等。基于阈值的分割方法的基本原理是通过分析视频解码图像中文本和背景层之间的像素值关系，从而获取最优的分割阈值。由于这种方法的计算效率较高，其在图像以及文本分割中应用比较广泛。基于阈值的分割方法最早是用于扫描文档分割，对于视频文本，由于其背景比较复杂，且分辨率较低，直接采用这类方法一般难以取得好的分割效果。基于多帧融合的方法则是利用视频帧间的冗余信息，通过对视频中的文本进行运动分析，移除视频帧间的运动量，保留不变量，从而达到文本分割的目的。这种方法由于采用了视频帧间的冗余信息，所以其应用也存在一定的局限性，对于处在较为明显场景变换中的视频文本，该方法一般能取得较为不错的分割结果，而对于场景变化不大的视频文本，该类方法则无能为力。基于颜色聚类的方法的基本原理是通过颜色聚类，将视频文本图像分为多个图层，然后通过对各个图层的分析处理，达到视频文本分割的目的。这种方法的效率比较低，在不能确定文本所属图层的情况下，需要消耗大量的时间来对各个图层进行分析，且在视频文本背景比较复杂的情况下，该方法也难以得到理想的分割结果
发明内容
本发明所要解决的技术问题是提供一种视频文本分割方法，迅速有效地将视频文本从复杂背景中分割出来。
为了解决上述技术问题，本发明提供了一种视频文本分割方法，包括步骤1 对输入的视频文本图像进行预处理，使预处理后的视频文本图像具有统一的尺度，满足下述步骤的处理要求；步骤2 利用一阶高斯模型作为颜色分布模型来拟合预处理后的视频文本图像的颜色分布，根据所述预处理后的视频文本图像的笔画图来估计该分布模型的参数，并利用所述的颜色分布模型对预处理后的视频文本图像进行文本初分割，得到包含一定冗余信息的初分割结果图；步骤3 对所述初分割结果图进行噪声滤除，滤除所述冗余信息。
进一步来说，步骤1中所述预处理，包括对输入的视频文本行进行边界扩充，对边界扩充后的结果进行尺度归一化。
进一步来说，步骤1中所述输入的视频文本图像为灰度图像。
进一步来说，所述尺度归一化，包括采用双线性插值的方法对边界扩充的结果进行尺度归一化。
进一步来说，所述步骤2进一步包括步骤加提取预处理后的视频文本图像的笔画图；步骤2b 计算所述提取的视频文本图像的笔画图的二值笔画图；步骤2c 采用所述二值笔画图计算视频文本图像的颜色分布模型参数；步骤2d 根据所述颜色分布模型对输入的视频文本图像进行初分割。
进一步来说，所述的步骤2c中，视频文本图像的颜色分布模型采用一阶高斯分布函数表示，为
权利要求
1.一种视频文本分割方法，其特征在于，包括步骤1 对输入的视频文本图像进行预处理，使预处理后的视频文本图像具有统一的尺度；步骤2 利用一阶高斯模型作为颜色分布模型来拟合预处理后的视频文本图像的颜色分布，根据所述预处理后的视频文本图像的笔画图来估计该颜色分布模型的参数，并利用所述的颜色分布模型对预处理后的视频文本图像进行文本初分割，得到包含一定冗余信息的初分割结果图；步骤3 对所述初分割结果图进行噪声滤除，滤除所述冗余信息。
2.根据权利要求1所述的视频文本分割方法，其特征在于，步骤1中所述对输入的视频文本图像进行预处理，包括对输入的视频文本行进行边界扩充，对边界扩充后的结果进行尺度归一化。
3.根据权利要求2所述的视频文本分割方法，其特征在于，步骤1中所述输入的视频文本图像为灰度图像。
4.根据权利要求2所述的视频文本分割方法，其特征在于，所述尺度归一化，包括采用双线性插值的方法对边界扩充的结果进行尺度归一化。
5.根据权利要求1所述的视频文本分割方法，其特征在于，所述步骤2中根据所述预处理后的视频文本图像的笔画图来估计该颜色分布模型的参数包括步骤加提取预处理后的视频文本图像的笔画图；步骤2b 计算所述提取的视频文本图像的笔画图的二值笔画图；步骤2c 采用所述二值笔画图计算视频文本图像的颜色分布模型参数。
6.根据权利要求5所述的视频文本分割方法，其特征在于，所述的步骤2c中，视频文本图像的颜色分布模型采用一阶高斯分布函数表示，为1U(P)-MfF(P)= ^^ GKp yjlnS式中，_表示点P属于文本像素的概率，/(P)表示预处理后的灰度图像中A ^的像素值私和#为模型参数，分别表示在预处理后的灰度图像上求取的二值笔画图对应区域的均值和方差。
7.根据权利要求6所述的视频文本分割方法，其特征在于，μ和s为模型参数通过以下步骤获得在输入图像空间上，获得预处理后的灰度图像与二值笔画图以&中的点的集合的交隼^在4上获得模型参数私和包括令去 Σ/泌 Λ 5= Tr μ)iv P^jb.iv Vpcjtr其中为集合金中点的个数。
8.根据权利要求7所述的视频文本分割方法，其特征在于，根据所述颜色分布模型对预处理后的文本图像进行初分割包括
9.根据权利要求1所述的视频文本分割方法，其特征在于，所述步骤3中所述进行噪声滤除，滤除所述冗余信息，包括步骤3a 进行边界种子填充，滤除边界上的连通区域；步骤北对滤除边界上的连通区域后的结果图进行连通域分析；步骤3c 根据所述连通域分析结果进行全局滤噪和局部滤噪。
10.根据权利要求9所述的视频文本分割方法，其特征在于，所述根据所述连通域分析结果进行全局滤噪包括将步骤3b中进行连通域分析得到的连通体序列记为:
11.根据权利要求10所述的视频文本分割方法，其特征在于，所述对所述连通体序列C进行处理，滤除其中为非文本噪声的连通体，得到经过全局滤噪的连通体序列Cw ,包括1)计算预处理后的灰度图像/中与初分割结果图Se对应区域的均值和方差(/^ ), 计算预处理后的灰度图像，与各个连通体对应区域的均值和方差(辑,C〗；2)当当前连通体Ci(其中N，N为连通体序列C中连通体的个数)满足下列条件时
12.根据权利要求9所述的视频文本分割方法，其特征在于，所述根据所述连通域分析结果进行局部滤噪包括对经全局滤噪后的连通序列Cw进行处理，滤除其中为非文本噪声的连通体，其具体
全文摘要
本发明公开了一种视频文本分割方法，属于图像分割与智能视频分析领域，所述方法包括对输入的视频文本图像进行预处理，使处理后的视频文本图像具有统一的尺度，满足下述步骤的处理要求；利用一阶高斯模型作为颜色分布模型来拟合预处理后的视频文本图像的颜色分布，根据所述预处理后的视频文本图像的笔画图来估计该分布模型的参数，并利用所述的颜色分布模型对预处理后的视频文本图像进行文本初分割，得到包含一定冗余信息的初分割结果图；对所述初分割结果图进行噪声滤除，滤除所述冗余信息。本发明能够迅速有效地将视频文本从复杂背景中分割出来，为后续的文本识别提供精确的输入。
文档编号G06K9/00GK102043948SQ20101060622
公开日2011年5月4日申请日期2010年12月24日优先权日2010年12月24日
发明者王修飞, 黄磊申请人:汉王科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄磊;王修飞
技术所有人：汉王科技股份有限公司
我是此专利的发明人

上一篇：一种双界面智能卡inlay的制造方法
上一篇：一种网页文本的无阻滞层次分类方法与装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。