基于ocr的菜名识别方法

文档序号：6472076阅读：415来源：国知局

专利名称：基于ocr的菜名识别方法
技术领域：
本发明属于OCR技术领域，涉及一种基于OCR的识别方法，尤其涉及一种基于OCR 的菜名识别方法。
背景技术：
OCR技术是光学字符识别的縮写(Optical Character Recognition)，是通过扫
描、拍摄等光学输入方式将各种书籍、文稿、报刊、票据及其它印刷品的文字转化为图像信
息，然后再利用文字识别技术将图像信息转化为可以编辑的文字编码字符流的计算机输入
技术。可应用于大量文字资料、档案巻宗、文案的录入和银行票据处理领域。拍照手机现在已经普及，但是基于摄像头的应用还是很贫乏，没有发挥出应有的
作用。目前OCR技术已经非常成熟，但是其应用还是局限于扫描仪图像的识别，在目前的高
端智能手机上的虽然有所应用，比如三星SCH-i819和LG G832等，这些手机虽然可以通过
摄像头针对名片等进行识别，并将识别结果存储到通讯录中，但也仅是单纯的文本识别，还
需通过手工对识别结果进行校正。随着餐饮业的发展和生活节奏的加快，在网上发布餐饮信息成为了一种餐饮业的潮流，但需要把大量的菜肴信息发布到网上，给网站工作者提供了不小的负担。另外，顾客在用餐时，特别是外国朋友，往往希望记录下来一些感兴趣菜肴的相关信息，但由于菜名等相关信息的特殊性，目前的智能手机对于菜名信息识别的效果不是很好，往往存在着较大误差。

发明内容
本发明提供一种基于OCR的菜名识别方法，通过手机上的摄像头对菜谱上的菜名信息进行拍摄，并通过用户的指定对菜名区域进行智能定位，而后OCR识别引擎对该区域进行识别，然后调用菜名知识库进行校验，得到正确的菜名信息。通过用户指定的菜名区域准确有效，并采用菜名知识库对OCR识别文本进行校验，大大提高了菜名识别结果的正确率，能够有效地对菜名信息进行识别，方便了用户对菜名信息的采集，而且不增加任何的硬件设备，降低了成本，具有良好的应用价值和市场价值。
基于OCR的菜名识别方法，包括如下步骤
步骤1 :通过手机的摄像头对菜单进行拍摄，得到菜单图像；步骤2 :对菜单图像进行边缘检测，如果图像检测为模糊图像，则重新对菜单进行拍摄；否则执行步骤3; 步骤3 :在符合清晰度的菜单图像上划定待识别区域，并对待识别区域进行智能调整；步骤4 :调用OCR识别引擎对调整后的待识别区域进行识别，得到识别文本；
步骤5 :对识别文本进行校正，得到菜名识别结果。所述步骤2的边缘检测中，对菜单图像求边缘梯度，并对所有边缘梯度值取平均，
3如果该平均梯度值大于设定阈值，则认为是清晰图像，否则为模糊图像。所述步骤3划定待识别区域时，指定一个或者两个坐标点，或在待识别菜名的中
部画一条直线，根据待识别菜名的位置粗略确定一个矩形区域。所述步骤3确定矩形区域时，如果指定一个坐标点，以该坐标点位初始点向四周扩展，得到包含待识别菜名的外接矩形区域；如果指定两个坐标点时，以坐标点为对角点确定包含待识别菜名的外接矩形区域；如果在待识别菜名的中部画一条直线，将该直线向两侧扩展，得到包含待识别菜名的以直线长度和扩展幅度之和为边长的外接矩形区域。
所述步骤3智能调整时，对待识别区域的边界进行调整，减小待识别菜名周围的空白区域，得到的紧密包含菜名的待识别区域。所述步骤5识别文本进行校正时，将识别文本在菜名知识库中进行模糊匹配，选取匹配度最高的菜名供用户确认，如果用户确认该匹配结果为最终的识别结果，则将此识别结果进行存储或网络发布；反之识别结果被手动编辑后进行存储和网络发布，同时被添加到菜名知识库中。所述步骤5识别文本进行校正时，菜名知识库支持多语种。本发明基于OCR的菜名识别方法，与现有技术相比的优点在于 1、本方法在对待识别区域进行识别时，首先制定了坐标点，根据指定的坐标点的
位置确定矩形的待识别区域，并在此基础上进行智能调整，这样有效确定了待识别区域，最
大程度上滤除了识别过程中的噪声，提高了 OCR引擎的识别率。 2、本方法对于识别文本进行校正，在菜名知识库中选取匹配度最大的结果作为菜名识别的结果，大大提高了识别的准确度，滤除了无意义的识别结果，方便了用户的使用。
3、提出了一种0CR新的应用方向，先用拍照手机进行菜单图像采集，而后0CR识别引擎对菜名进行识，然后利用知识库对识别文本进行校正，用户可以对识别结果通过网络上传到餐饮业的网站上，供网站将更多的菜名信息发布后进行宣传或订餐，同时也方便广大美食爱好者了解和选择他们的佳肴。

图1为本发明基于OCR的菜名识别方法的流程图；图2为本发明基于OCR的菜名识别方法的制定一个坐标点划定待识别区域的示意图；图3为本发明基于OCR的菜名识别方法的制定两个坐标点划定待识别区域的示意图；图4为本发明基于OCR的菜名识别方法的制定直线划定待识别区域的示意图；图5为本发明基于OCR的菜名识别方法的经过智能调整后的待识别区域的示意图；图6为本发明基于OCR的菜名识别方法的OCR引擎输出的识别文本；图7为本发明基于OCR的菜名识别方法的校正后得到的识别结果。
具体实施例方式
以下结合附图对本发明的方法进行详细说明。
4
本实施例中的手机装有500万像素的摄像装置、以及OCR识别引擎，采用的SDK为汉王0CR6. 0 SDK，并可以通过WAP方式进行上网。本方法基于OCR的菜名识别方法，如图1所示，包括如下步骤步骤一通过手机的摄像头对菜单进行拍摄，得到菜单照片，作为待处理的菜单图
像；步骤二通过手机摄像头拍摄的照片，有时候由于抖动，就会导致图像很虚，字符模糊，达不到OCR识别的要求。所以对拍摄的照片进行清晰度的判定，以确定是否进行下一步处理。对菜单图像的平均边缘强度作为检测值，进行边缘检测，当平均边缘强度小于预先设定的阈值T时，图像模糊，需要进行重新拍摄，直至图像的平均边缘强度大于预先设定的阈值T，判定图像清晰为止。这里所述的平均边缘强度是指由边缘算法如Sobel、Roberts等计算的到梯度值，本实施例中采用Sobel算法。如图2所示，设定的阈值为T = 60，该图像
的平均边缘强度为ioo，大于特定阈值，该图像为清晰图像。步骤三在符合清晰度要求的菜单图像上划定一个矩形的待识别区域，指定待识别的菜名的粗略位置。本实施例中，指定一个坐标点，如图2所示，该坐标点为十字形光标，以该坐标点为初始点分别向上下左右四个方向扩展，得到包含待识别菜名的外接矩形区域。图2中位于"肉沙司面"字样处的十字光标就是用户指定的坐标点。
如果指定两个坐标点时，如图3所示，以两个坐标点为对角点确定包含待识别菜名的外接矩形区域。同样该矩形区域的边界在待识别的菜名之外，即该矩形区域必须完全包含菜名，得到包含待识别菜名的外接矩形区域。图3中位于"肉沙司面"处的用户指定的矩形区域就是由两个对角点确定的矩形区域，该菜名"肉沙司面"就是待识别的菜名。
如果在待识别菜名图像的中部画一条直线，该直线方向与文字排列方向平行。本实施例中，如图4所示，贯穿"肉沙司面"的直线方向与文字排列方向平行，将直线向其两侧，即上下方向扩展，直到空白区域为止。最终得到包含待识别菜名的外接矩形区域，该外接矩形区域以直线长度为长，以上下扩展幅度之和为宽。用户交互的时候，不可能定位到需要处理菜名的精确位置，只是给出一个或者两个坐标点。通过这些坐标点，智能地定位到需要处理的菜名字符区域。选定待识别区域后，对待识别区域进行智能调整，调整该矩形区域的边界，减小待识别菜名周围的空白区域，得到一个紧密包含待识别菜名的待识别区域。对于本实施例中用户给定一个点坐标的情况，经过智能调整得到如图5所示待识别矩形区域。步骤四调用光学字符识别(OCR)引擎模块，将定位到的菜名文字图像区域，送入 OCR识别引擎进行处理，对待识别区域进行字切分，然后进行单字符特征提取和模板的匹配；最终形成识别文本(可编辑字符流)，得到的识别文本如图6所示，得到的识别结果为 "肉炒司面"。步骤五识别文本校正。将识别文本与本机存储的菜名知识库中进行模糊匹配，找到与识别文本相关的菜名信息。选取匹配度最高(如果有多个相同的匹配度，则全部列出来)的菜名以供用户确认，如果用户确认该匹配结果为最终的识别结果，则将此识别结果进行存储或网络发布。反之用户发现匹配的结果不正确，而且识别文本有错误，则用户需要对OCR识别结果进行手动编辑，然后进行存储或网络发布，同时程序自动将该菜名增加到菜名知识库中。本实施例中，如图7所示，匹配度最高的菜名为"肉沙司面"，匹配度为 0. 98。用户认为识别结果正确，将这个结果通过手机上的WAP模块上传到特定的餐饮网站中，作为网站的信息发布，用来进行宣传或者订餐等业务。所述知识库库还支持多语种，用户可以选择将识别结果转换为手机设置的语言形式输出。如果用户手机中的语言为英文，则将识别文本"肉沙司面"将转化为英文 "Meat-sauce Spaghetti ，，进行显不。虽然这里只说明了本发明的部分优选实施例，但其意并非限制本发明的范围、适用性和配置。相反，对实施例的详细说明可使本领域技术人员得以实施，并且应能理解，在不偏离所附权利要求书确定的本发明精神和范围情况下，可对一些细节做适当变更和修改。
权利要求
一种基于OCR的菜名识别方法，其特征在于，包括如下步骤步骤一通过手机的摄像头对菜单进行拍摄，得到菜单图像；步骤二对菜单图像进行边缘检测，如果图像检测为模糊图像，则重新对菜单进行拍摄；否则执行步骤三；步骤三在符合清晰度的菜单图像上划定待识别区域，并对待识别区域进行智能调整；步骤四调用OCR识别引擎对调整后的待识别区域进行识别，得到识别文本；步骤五对识别文本进行校正，得到菜名识别结果。
2. 根据权利要求1所述一种基于OCR的菜名识别方法，其特征在于所述步骤二的边缘检测中，对菜单图像求边缘梯度，并对所有边缘梯度值取平均，如果该平均梯度值大于设定阈值，则认为是清晰图像，否则为模糊图像。
3. 根据权利要求1所述一种基于OCR的菜名识别方法，其特征在于所述步骤三划定待识别区域时，指定一个或者两个坐标点，或在待识别菜名的中部画一直线，根据待识别菜名的位置粗略确定一个矩形区域。
4. 根据权利要求3所述一种基于OCR的菜名识别方法，其特征在于所述步骤三确定矩形区域时，如果指定一个坐标点，以该坐标点位初始点向四周扩展，得到包含待识别菜名的外接矩形区域；如果指定两个坐标点时，以坐标点为对角点确定包含待识别菜名的外接矩形区域；如果在待识别菜名的中部画一直线，将该直线向两侧扩展，得到包含待识别菜名的以直线长度和扩展幅度之和为边长的外接矩形区域。
5. 根据权利要求1所述一种基于OCR的菜名识别方法，其特征在于所述步骤三智能调整时，对待识别区域的边界进行调整，减小待识别菜名周围的空白区域，得到的紧密包含菜名的待识别区域。
6. 根据权利要求1所述一种基于OCR的菜名识别方法，其特征在于所述步骤五利用菜名知识库对识别文本进行校正时，将识别文本在菜名知识库中进行模糊匹配，选取匹配度最高的菜名供用户确认，如果用户确认该匹配结果为最终的识别结果，则将此识别结果进行存储或网络发布；反之识别结果被手动编辑后进行存储和网络发布，同时被添加到菜名知识库中。
7. 根据权利要求1所述一种基于OCR的菜名识别方法，其特征在于所述步骤五识别文本进行校正时，菜名知识库支持多语种。
全文摘要
本发明基于OCR的菜名识别方法，属于OCR技术领域。包括如下步骤对菜单进行拍摄，在符合清晰度的菜单照片上划定待识别区域，并对待识别区域进行智能调整。调用OCR引擎对调整后的待识别区域进行识别，得到识别文本。本方法利用菜名知识库对识别文本进行校正，选取匹配度最大的结果作为菜名识别的结果，滤除了无意义的识别结果。根据指定的坐标点的位置确定矩形的待识别区域，并在此基础上进行智能调整，这样最大程度上滤除了识别过程中的噪声，提高了OCR引擎的识别效果。用户可以对识别结果通过网络上传到餐饮业的网站上，供网站将更多的菜名信息发布后进行宣传或订餐，同时也方便广大美食爱者了解和选择他们的佳肴。
文档编号G06K9/20GK101770569SQ200810246630
公开日2010年7月7日申请日期2008年12月31日优先权日2008年12月31日
发明者朱军民申请人:汉王科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱军民
技术所有人：汉王科技股份有限公司
我是此专利的发明人

上一篇：基于领域本体结合机器学习模型的汉语文本共指消解方法
上一篇：名片图像倾斜角度的测量方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。