基于BP神经网络和频谱分析的视频文字区域定位方法与流程

文档序号：14861122发布日期：2018-07-04 07:29阅读：430来源：国知局

本发明涉及图像处理技术领域，具体地说是基于bp神经网络和频谱分析的视频文字区域定位方法。

背景技术：

随着多媒体数据呈爆炸性增长，文本、图像、语音、视频等各种形式的多媒体信息都将被传入网上，人们正在飞速进入信息化社会。多媒体信息在网络以及通信中的应用也越来越广泛，尤其以视频数据为代表，该类数据成为人们分享信息的重要资源。视频数据以其丰富、直观而具体的信息表达形式成为最重要的信息载体，为人们传递着大量的信息和知识。其中新闻视频作为视频数据中有代表性的一种媒体，在视频资源中占有重要比例，相对于文本新闻，视频新闻生动、直观、易于理解、信息量大，广泛地受到人们的关注。由于新闻视频的特殊性，绝大部分高层语义都在文本字幕中，而音频和图像特征几乎被文本特征所包含，因此对新闻视频中字幕区域的定位提取就尤为重要。

由于文本的颜色、大小、字体和位置是可变的，因此很难找到一种通用的方法将其与背景分离。文本位置方法可以分为两大类：基于区域的方法和基于纹理的方法。这些方法各有优缺点，针对不同的情况选用合适的方法才可以有很好的效果。但大多数方法定位后都包含很多假阳性区域，降低了文本定位的准确率。因此本发明提出一种新的方法，基于bp神经网络和频谱分析来对新闻视频字幕区域进行有效地定位并对定位后的假阳性区域进行滤除。

技术实现要素：

本发明所要解决的技术问题是提供基于bp神经网络和频谱分析的视频文字区域定位方法，解决目前现有方法中存在假阳性的问题，提高算法定位的准确率。

本发明为解决上述技术问题所采用的技术方案是：基于bp神经网络和频谱分析的视频文字区域定位方法，包括以下步骤：

步骤1、提取新闻视频帧，并将所提取的新闻视频帧转化为灰度图像；

步骤2、构建bp神经网络作为分类器，将每个图像内的所有像素点进行分类，获得分类为文字类的像素点；

步骤3、对步骤2获得的分类为文字类的像素点进行基于距离的聚类处理，获得候选文字区域；

步骤4、对步骤3中获得的候选文字区域进行快速傅里叶变换得到频谱图；

步骤5、再次构建bp神经网络作为分类器，将候选文字区域分类，滤除假阳性区域。

本发明所述步骤2构建bp神经网络作为分类器，将每个图像内的所有像素点进行分类的具体方法为：

步骤2.1、对图像内的所有像素点进行角点检测，将被判定为角点的像素点赋予特征值1，非角点赋予特征值0；

步骤2.2、依次将每个像素点作为中心像素点，取其m*m大小的邻域窗口作为特征窗口；

步骤2.3、构建神经网络，将所取窗口内所有像素点的灰度值以及角点判定值作为神经网络的输入，输入层结点的个数m设置为m*m*2个，输出层结点个数n设置为2；

步骤2.4、设置隐含层结点，隐含层结点的个数n的设置由公式(1)或(2)计算得到：

其中，n表示所设置隐含层结点的个数，m和n分别表示输入层和输出层结点的个数，a为常数；

步骤2.5、输出层2个结点分别代表文字类和非文字类，输出为一个包含两个浮点值的向量，标定样本时，将属于文字类的像素点标定为(1,0)，将非文字类的像素点标定为(0,1)；

步骤2.6、对神经网络进行训练和测试，测试样本的像素点的输出向量中，如果第一个值大于第二个值，那么该像素点被分类为文字类，如果第二个值大于第一个值，那么该像素点被分类为非文字类，最后将所有被判定为文字类的像素点进行标记。

本发明所述步骤3对分类为文字类的像素点进行基于距离的聚类处理，获得候选文字区域的具体方法为：

步骤3.1、设置距离阈值d1，在所有被分类为文字类的像素点中，随机选择一个像素点p1作为基本像素点，并计算p1和其它被分类为文字类的像素点之间的欧氏距离，并将欧氏距离小于d1的像素点加入p1的集合g1，直到所有满足条件的像素点都被找到，然后将g1中除p1外的其他像素点依次作为基本像素点进行同样的操作，直到没有新的像素点加入该集合，则集合g1将被分类为k1类；

步骤3.2、对所有被分类为文字类的除k1类外的其他像素点依次重复以上操作，直到所有文字类像素点被分类，得到所有的类kt，t≥1；

步骤3.3、将所有包含过少像素点的类清除；

步骤3.4、做出每个类的最小外接矩形，即获得了候选文字区域。

本发明所述步骤4对获得的候选文字区域进行快速傅里叶变换得到频谱图的具体方法为：

步骤4.1、对候选文字区域进行图像的二值化；

步骤4.2、将二值化后的图像进行竖直方向上的灰度投影；

步骤4.3、对投影后的函数进行快速傅里叶变换，将时间域转换到频率域，得到频谱图。

本发明所述步骤5将候选文字区域分类，滤除假阳性区域的具体方法为：

步骤5.1、在频谱图中，选取平均文字宽度的2到3倍大小的特征窗口，此窗口不包含频率1；

步骤5.2、构建bp神经网络，将所取窗口范围内频率所对应的的幅值以及平均文字宽度附近频率内最高幅值所处的频率值作为神经网络的输入值，设置输出层结点数为2；

步骤5.3、使用公式(1)或公式(2)进行隐含层结点的选取；

步骤5.4、2个输出层结点数分别代表真阳性区域(含有文字的候选文字区域)和假阳性区域(不含有文字的候选文字区域)，输出为一个包含两个浮点值的向量，标定样本时，将真阳性文字区域标定为(1,0)，将假阳性区域标定为(0,1)；

步骤5.5、对神经网络进行训练和测试，测试样本的候选文字区域的输出向量中，如果第一个值大于第二个值，那么该候选区域将被分类为真阳性类，如果第二个值大于第一个值，那么该候选区域将被分类为假阳性类并予以滤除；

步骤5.6、滤除假阳性区域后所剩的真阳性候选文字区域即为最终文字定位区域。

本发明所述步骤2.1中进行角点检测的方法为harris角点检测法。

本发明所述步骤2.4中常数a的取值为1-10。

本发明所述步骤3.3中被清除的类的像素点的个数小于20个。

本发明的有益效果是：本发明所提供的的方法通过构建bp神经网络对视频帧中的像素点进行分类，对分类到文字类的像素点进行一个基于距离的聚类算法的处理后得到候选文本区域，将候选区域通过快速傅里叶转换到频率域后，再次构建神经网络，基于频谱图对候选区域进行分类，滤除分类为假阳性类的候选区域，从而滤除假阳性，提高算法的准确率，使对于视频文字区域的定位更加准确，实用性更加全面。

附图说明

图1为本发明所涉及定位方法的流程示意图；

图2为本发明所构建的bp神经网络模型；

图3为本发明基于距离的广度优先聚类算法图；

图4为本发明候选文字区域定位例图；

图5为本发明含有假阳性的候选文字区域定位示例图；

图6为本发明候选文本区域中真阳性例图；

图7为本发明候选文本区域中假阳性例图；

图8为图6真阳性例图的频谱图；

图9为图7假阳性例图的频谱图；

图10为图5经过假阳性滤除后的效果图；

图11为本发明与现有方法在不同情况下定位结果对比图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式(实施例)进行描述，使本领域的技术人员能够更好地理解本发明。

图1为本发明方法的流程图。基于bp神经网络和频谱分析的视频文字区域定位方法，具体分为以下步骤：

步骤1：构建如图2所示的bp神经网络模型作为分类器，选用5*5大小的邻域窗口作为特征窗口，设置输入层结点数为50个，隐含层结点数为17个，输出层结点数为2个，对数据集内的视频帧像素点进行人工标注，并进行神经网络的训练和测试。

如图3所示，被分类为文字类的像素点被标记为蓝色方便展示。

步骤2：对步骤1处理后所得到的被分类为文字类的像素点进行基于距离的广度优先聚类，图4为算法示意图。

图5展示了经过聚类后，图3中例图的候选文本区域定位效果。

步骤3：由于步骤1不能完全的将文字类和非文字类像素点无误的正确分类，所以在一些情况下会生成假阳性区域，图6为一个具有多个假阳性候选文字区域的定位结果图。

将所有得到的候选文本区域二值化后在竖直方向进行灰度投影，并进行傅里叶变换后得到频谱图，图7为真阳性区域和假阳性区域的示例图。图8为两者频谱图的对比图，发现真阳性区域和假阳性区域的频谱图有明显不同。

再次构建bp神经网络作为分类器，在候选区域的频谱图中选取频率2-频率60的窗口为特征窗口，宽度不足60的候选文本区域将不足的频率所对应的幅值全部设置为0，设置输入层结点数为60，隐含层结点数为45，输出层结点数为2。对所有产生的候选文本区域进行人工标注，并进行神经网络的训练和测试。

步骤4：将分类为假阳性类的候选文字区域全部滤除，保留下来的真阳性类候选文字区域即为最终文字定位区域。图9为经过假阳性滤除后的图6中例图的最终定位结果。

步骤5：图10为本方法与现有的基于角点的方法和基于边缘的方法在一些不同情况下的定位结果对比，发现此方法的适用性更全面，对于多种不同的定位情况都有不错的定位效果。

本发明使用harris角点检测法对图片内的所有像素点进行角点检测，但不仅限于harris算法，也可以用其他的角点检测算法。由于harris算法能够在图像发生灰度变化、旋转和干扰噪声等情况下检测兴趣点，有较好的抗噪能力，而且兼顾了效率和精度两方面的要求，误检测率低，角点提取的可靠性高，因此本发明使用此方法来进行角点检测。

以上所述为本发明提供的一种基于bp神经网络和频谱分析的新闻视频文字区域定位方法。但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明思想的基础上均会有改变，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：霍华;吕靖;李宁波;常国沁
技术所有人：河南科技大学
我是此专利的发明人

上一篇：一种具有高温预警功能的开关柜的制作方法
上一篇：一种半挂车侧防护调节装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。