一种图像文字识别方法和装置的制作方法

文档序号：6374587阅读：172来源：国知局

专利名称：一种图像文字识别方法和装置的制作方法
一种图像文字识别方法和装置
技术领域：
本发明涉及计算机应用技术领域，特别涉及一种图像文字识别的方法和装置。背景技术：
随着移动互联网的迅速发展，基于移动终端摄像头采集到的图像的应用越来越广泛。其中图像文字识别技术将图像中的文字进行识别，转换为文本文字，从而减轻了用户输入对应文字信息的负担，方便用户存储、编辑对应的文字信息。在实际应用过程中存在如下情况，用户通过移动终端拍摄的图像中，有很多是用户不认识或者用户了解的文字，例如一些生僻字、诗词等，这种情况下，用户除了想提取这些文字内容之外还想进一步了解文字的知识信息，现有图像文字识别技术则无法解决该问题，用户需要通过手工方式进行进一步查询，例如查询字典或者手工输入搜索引擎中进行查询。

发明内容有鉴于此，本发明提供了一种图像文字识别方法和装置，以便于方便用户获取图像文字的知识信息。具体技术方案如下一种图像文字识别的方法，该方法包括SI、获取待识别图像中的文字区域；S2、对所述文字区域进行文字识别；S3、利用识别结果查询知识库获得识别结果对应的知识信息；S4、在返回所述识别结果时，推送包含所述知识信息的知识拓展词包。根据本发明一优选实施例，所述步骤SI具体包括服务器接收移动终端发送来的待识别图像，从所述待识别图像中提取文字区域；或者，服务器接收移动终端从待识别图像中提取并发送来的文字区域。根据本发明一优选实施例，所述步骤S2具体包括对文字区域进行二值化；对二值化后的文字区域分割为各字块；提取各字块的特征信息并与特征数据库进行匹配，将匹配结果作为各字块的识别结果;按顺序将各字块的识别结果进行组合得到所述文字区域的识别结果。根据本发明一优选实施例，所述步骤S3具体包括以下中的一种或任意组合查询文字词典库获得文字的读音、含义、用法或其他语种的翻译信息；查询文化知识库获得文字对应的典故或出处信息；查询书籍查询库获得文字对应的书籍信息或网络资源信息；
查询商品查询库获得文字对应的商品信息；查询音乐查询库获得文字对应的音乐信息或网络资源信息；查询网络应用搜索库获得文字对应的网络应用信息或网络入口。根据本发明一优选实施例，在所述步骤S3中查询所有知识库，将获得的所有知识信息生成知识拓展词包；或者，在所述步骤SI中还获取用户选择的个性化选项内容，在所述步骤S3中查询所述个性化选项内容对应的知识库，将获得的知识信息生成知识拓展词包；或者，在所述步骤S3中查询所有知识库，对查询到的知识信息进一步确定知识信息对应的权重，将权重值排在前N个的知识信息生成知识拓展词包，N为预设的正整数。根据本发明一优选实施例，所述知识信息对应的权重采用以下方式确定根据知识信息被查询到的总次数确定该知识信息对应的权重，总次数越大权重值越大；或者，利用知识信息被查询到的总次数确定该知识信息对应的知识权重，利用该知识信息所属类别的所有知识信息被当前用户查看的总次数确定用户个性化权重，利用知识信息的知识权重与用户个性化权重的乘积确定该知识信息对应的权重。一种图像文字识别的装置，该装置包括区域获取单元，用于获取待识别图像中的文字区域；文字识别单元，用于对所述文字区域进行文字识别；知识查询单元，用于所述文字识别单元的识别结果查询知识库获得识别结果对应的知识信息;结果推送单元，用于在返回所述识别结果时，推送包含所述知识信息的知识拓展词包。根据本发明一优选实施例，所述区域获取单元接收移动终端发送来的待识别图像，从所述待识别图像中提取文字区域；或者，接收移动终端从待识别图像中提取并发送来的文字区域。根据本发明一优选实施例，所述文字识别单元具体执行对文字区域进行二值化，对二值化后的文字区域分割为各字块，提取各字块的特征信息并与特征数据库进行匹配，将匹配结果作为各字块的识别结果，按顺序将各字块的识别结果进行组合得到所述文字区域的识别结果。根据本发明一优选实施例，所述知识查询单元具体执行以下中的一种或任意组合查询文字词典库获得文字的读音、含义、用法或其他语种的翻译信息；查询文化知识库获得文字对应的典故或出处信息；查询书籍查询库获得文字对应的书籍信息或网络资源信息；查询商品查询库获得文字对应的商品信息；查询音乐查询库获得文字对应的音乐信息或网络资源信息；查询网络应用搜索库获得文字对应的网络应用信息或网络入口。根据本发明一优选实施例，所述知识查询单元查询所有知识库，将获得的所有知识信息生成知识拓展词包；或者，
所述区域获取单元还用于获取用户选择的个性化选项内容，所述知识查询单元查询所述个性化选项内容对应的知识库，将获得的知识信息生成知识拓展词包；或者，所述知识查询单元查询所有知识库，对查询到的知识信息进一步确定知识信息对应的权重，将权重值排在前N个的知识信息生成知识拓展词包，N为预设的正整数。根据本发明一优选实施例，所述知识查询单元采用以下方式确定所述知识信息对应的权重根据知识信息被查询到的总次数确定该知识信息对应的权重，总次数越大权重值越大；或者，利用知识信息被查询到的总次数确定该知识信息对应的知识权重，利用该知识信息所属类别的所有知识信息被当前用户查看的总次数确定用户个性化权重，利用知识信息的知识权重与用户个性化权重的乘积确定该知识信息对应的权重。由以上技术方案可以看出，本发明利用文字识别的结果查询知识库获得识别结果对应的知识信息，并包含在知识拓展词包中连同识别结果一起返回给用户，使得用户在获取图像中文字识别结果的同时，能够获取到对应的知识信息，而无需进一步通过手工的方式获得知识信息，显然更加方便和省力。

图I为本发明实施例一提供的图像文字识别的方法流程图；图2为本发明实施例提供的系统示意图；图3为本发明实施例二提供的图像文字识别的装置结构图；图4和图5为本发明实施例提供的移动终端的两个展示效果示意图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。实施例一、图I为本发明实施例提供的图像文字识别的方法流程图，如图I所示，该方法可以包括以下步骤步骤101 :获取待识别图像中的文字区域。服务器获取移动终端发送来的包含文字信息的图像，该图像可以是移动终端拍摄到的原始图像，服务器在本步骤中提取待识别图像中的文字区域。或者，该图像可以是移动终端拍摄到原始图像后，提取出待识别图像中的文字区域后将待识别图像中的文字区域发送给服务器。在提取文字区域时可以采用现有的方式，去除图像背景后提取文字区域，可以采用但不限于以下方式方式一、首先根据彩色欧式距离进行彩色游程编码，然后进行颜色聚类，基于聚类结果进行文字层的生成和选择，例如保留面积大于一定值的连通域，基于连通域与各颜色聚类中心的欧式距离生成各图像层面，最后依据各图像层面的像素个数与该层分割阈值的像素个数的关系确定文字层面、噪声层面或背景层面，最后取出噪声层面和背景层面后就得到文字层面，即文字区域。方式二、选择大量的文字样本图像和不含文字的图片，使用canny算子提取这两类图片的边缘信息作为稀疏表示分类字典的训练样本；将两类训练样本输入分类稀疏表示字典训练算法得到文字稀疏表示分类字典和非文字稀疏表示分类字典；将待识别图像转为灰度图像，使用canny算子提取灰度图像的边缘信息；利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域；在水平方向上和垂直方向上分别使用游程平滑算法将候选文字区域孤立的边缘连接为较大的区域，再进行投影分析找出相应的文字行，同时舍去候选文字区域中文字行以外的孤立边缘；将检测出的文字区域标识出来。如果移动终端进行文字区域的提取，则可以采用已有的文字区域提取软件或者手动的方式进行文字区域的提取。另外，本步骤中获取的文字区域可以是一个，也可以是两个以上。由于本步骤中的内容为现有技术，在此不再赘述。步骤102 :对文字区域进行文字识别。其中对文字区域进行文字识别的过程同样可以采用现有技术，即包括以下步骤对文字区域进行二值化；对二值化后的文字区域分割为各字块；提取各字块的特征信息并与特征数据库进行匹配，将匹配结果作为各字块的识别结果，按顺序将各字块的识别结果进行组合就得到文字区域的识别结果。另外，文字识别的方式多种多样，除了上述方式之外还可以采用其他任意能够实现文字识别的方式，具体不再赘述。步骤103 :利用识别结果查询知识库获得识别结果对应的知识信息。本步骤中查询的知识库可以包括但不限于以下知识库中的一种或任意组合I)文字词典库，查询该文字词典库可以获得文字的读音、含义、用法或者其他语种的翻译信息等。例如用户通过移动终端拍摄到书中的一个生僻字，服务器利用识别结果查询文字词典库就能够获得该生僻词的读音、含义、例句等信息。2)文化知识库，查询该文化知识库可以获得文字的典故、出处信息等。例如，用户通过移动终端拍摄到一段诗词，服务器利用识别结果查询文化知识库就能够获得该诗词的出处。3)书籍查询库，查询该书籍查询库可以获得文字对应的书籍信息或网络资源信息等。例如，用户通过移动终端拍摄到一本书籍封面，服务器利用识别结果查询书籍查询库就能够获得该书籍的出版社信息、价格以及出售该书籍的书店等。4)商品查询库，查询该商品查询库可以获得文字对应的商品信息，例如商品名称、商品来源、商品价格、商品注意事项、商品评价等。例如用户通过移动终端拍摄到一个商品标识，服务器利用识别结果查询商品查询库就能够获得出售该商品的书店、商品的价格等。再例如，用户拍摄一款药品，服务器利用识别结果查询商品库就能够获得用药量等信息，尤其在特殊时期的注意事项。5)音乐查询库，查询该音乐查询库可以获得文字对应的音乐信息或网站资源信息等。例如用户通过移动终端拍摄一个专辑封面，服务器利用识别结果查询商品查询库就能够获得该专辑的歌曲信息、能够视听或下载该专利的网站资源等。6)网络应用搜索库，查询该网络应用搜索库可以获得文字对应的网络应用信息或网络入口等。例如用户通过移动终端拍摄到一个app的画面，服务器利用识别结果查询网络应用搜索库就能够获得该app的相关信息以及该app的网络入口等。上述的知识库可以是本地知识库，也可以是在线的网络知识库，也可以是通过第三方开放的数据接口访问第三方提供的知识库。—种实现方式是，在查询了所有知识库后，将匹配得到的所有知识信息生成知识拓展词包以供返回给移动终端。由于可能存在较多数量的知识库，用户可能并不需要那么多种类的知识信息，因此另一种实现方式是，移动终端向用户提供个性化设置选项，在向服务器发送图像时同时发送用户选择的选项内容，服务器在本步骤中查询知识库时，仅查询用户选择的选项内容对应的知识库。举个例子，移动终端向用户提供文字词典、文化知识、书籍查询、商品查询、音乐查询、网络应用等个性化设置选项，如果用户通过移动终端拍摄了生僻词的图像，可以选择文字词典这一选项，然后移动终端将图像和用户选择的选项内容发送给服务器，服务器在针对图像的文字识别结果查询知识库时，就可以仅查询文字词典这一知识库，将获得的查询结果生成知识拓展词包，然后在步骤104中连同文字识别结果一起返回给移动终端。当然，用户可以选择一个以上的选项。还存在一种实现方式，在查询知识库时，依旧查询所有知识库，但在返回的知识信息时进行有选择的返回，其中选择返回哪一种或几种类别的知识信息可以通过基于权重排序的方式。具体地，如果在某类别的知识库中查询到识别结果对应的知识信息，则进一步确定该知识信息对应的权重，最终将获得的知识信息中权重值排在前N个的生成知识拓展词包供返回给移动终端，N为预设的正整数。其中知识信息对应的权重可以采用但不限于以下方式确定其一、该识别结果对应的知识信息被查询到的总次数，该总次数越大权重值越大。其二、利用识别结果对应的知识信息被所有用户查询到的总次数确定该知识信息对应的知识权重，再利用知识信息所属类别的所有知识信息被当前用户查看(即将该知识信息推送给移动终端后，用户会查看其中某些类别的知识信息，例如向用户推送了某文字信息对应的书籍信息和商品信息，如果用户查看了其中的商品信息，则会更新商品类别知识信息被查看的次数，用于更新商品类别知识信息的用户个性化权重)的总次数确定用户个性化权重，将知识信息的知识权重与用户个性化权重的乘积作为该知识信息对应的权重。另外，本步骤在查询知识库时可以基于识别结果的全部文字信息，也可以基于对识别结果进行切词后获得的关键意义文字信息。步骤104 :在返回识别结果的同时，推送包含对应知识信息的知识拓展词包。服务器将识别结果和知识拓展词包返回给移动终端后，用户就能够从移动终端的显示获取识别结果的同时获取到对应的知识信息。并且，其中的知识信息可能是一种以上类别的，如果用户查看了其中某一个或几个类别，则会向服务器上报，由服务器更新各个知识信息被所有用户查询的总次数，同时更新知识信息所属知识类别对应的用户个性化权重。以上是对本发明所提供的方法进行的描述，下面通过实施例二对本发明所提供的装置进行详细描述。为了方便理解首先对本发明上述方法所应用的系统进行描述，如图2所示，该系统由移动终端和服务器构成，其中移动终端可以将拍摄到的包含文字的图像作为待识别图像发送给服务器，由服务器从中提取文字区域，或者，移动终端将拍摄到的包含文字的图像作为待识别图像后，从中提取出文字区域，将该文字区域发送给服务器。之后服务器执行实施例一中所示流程。本发明下述实施例二所提供的装置设置在服务器中，用于完成实施例一中所示流程。实施例二、图3为本发明实施例二提供的图像文字识别的装置结构图，如图3所示，该装置包括区域获取单元301、文字识别单元302、知识查询单元303和结果推送单元304。首先，区域获取单元301获取待识别图像中的文字区域。此处，区域获取单元301接收移动终端发送来的待识别图像，从待识别图像中提取文字区域；或者，接收移动终端从待识别图像中提取并发送来的文字区域。在提取文字区域时，可以采用实施例一中步骤101中所述的两种方式，由于该部分内容为现有技术，在此不再详述。然后文字识别单元302对文字区域进行文字识别。具体的识别过程可以包括对文字区域进行二值化，对二值化后的文字区域分割为各字块，提取各字块的特征信息并与特征数据库进行匹配，将匹配结果作为各字块的识别结果，按顺序将各字块的识别结果进行组合得到文字区域的识别结果。知识查询单元303利用文字识别单元302的识别结果查询知识库获得识别结果对应的知识信息。具体地，知识查询单元303在查询知识库时可以执行以下中的一种或任意组合查询文字词典库获得文字的读音、含义、用法或其他语种的翻译信息；查询文化知识库获得文字对应的典故或出处信息；查询书籍查询库获得文字对应的书籍信息或网络资源信息；查询商品查询库获得文字对应的商品信息；查询音乐查询库获得文字对应的音乐信息或网络资源信息；查询网络应用搜索库获得文字对应的网络应用信息或网络入口。其中一种实施方式，知识查询单元303查询所有知识库，将获得的所有知识信息生成知识拓展词包。另一种实施方式，区域获取单元301还用于获取用户选择的个性化选项内容，此时知识查询单元303查询个性化选项内容对应的知识库，将获得的知识信息生成知识拓展词包(此种情况图3中未示出)。再一种实施方式，知识查询单元303查询所有知识库，对查询到的知识信息进一步确定知识信息对应的权重，将权重值排在前N个的知识信息生成知识拓展词包。其中可以采用以下方式确定知识信息对应的权重方式一、根据知识信息被所有用户查询到的总次数确定该知识信息对应的权重，总次数越大权重值越大。方式二、利用知识信息被查询到的总次数确定该知识信息对应的知识权重，利用该知识信息所属类别的所有知识信息被当前用户查看的总次数确定用户个性化权重，利用知识信息的知识权重与用户个性化权重的乘积确定该知识信息对应的权重。
最后，结果推送单元304在返回识别结果时，推送包含知识信息的知识拓展词包。将识别结果和知识拓展词包返回给移动终端后，用户就能够从移动终端的显示获取识别结果的同时获取到对应的知识信息。并且，其中的知识信息可能是一种以上类别的，如果用户查看了其中某一个或几个类别，则会向服务器上报，由知识查询单元303基于用户查看的每条知识信息更新对应的被所有用户查询到的总次数，以及更新知识类别对应的用户个性化权重。通过本发明的上述方法和装置，用户在获取图像文字识别结果的同时，能够获取到对应的知识信息，而无需进一步通过手工的方式获得知识信息，显然更加方便和省力。例如，用户在书上看到一个生僻字，通过移动终端将其拍摄下来之后发送给服务器，通过服务器执行本发明的方法之后，在向移动终端返回文字识别结果的同时，能够将该文字的读音、含义和用法等知识信息一同发送给移动终端。其中文字识别结果和知识信息在移动终端的展示方式并发明并不加以限制，可以采用任意的形式，例如在识别结果的附近采用引用框的形式展示知识信息，如图4所示。再例如，用户拍摄的图片中包含文字“笑忘书”，移动终端将其发送给服务器后经过文字识别和知识查询，服务器向移动终端返回文字识别结果和知识信息，在移动终端的展示结果可以如图5所示。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。
权利要求
1.一种图像文字识别的方法，其特征在于，该方法包括 51、获取待识别图像中的文字区域； 52、对所述文字区域进行文字识别； 53、利用识别结果查询知识库获得识别结果对应的知识信息； 54、在返回所述识别结果时，推送包含所述知识信息的知识拓展词包。
2.根据权利要求I所述的方法，其特征在于，所述步骤SI具体包括服务器接收移动终端发送来的待识别图像，从所述待识别图像中提取文字区域；或者，服务器接收移动终端从待识别图像中提取并发送来的文字区域。
3.根据权利要求I所述的方法，其特征在于，所述步骤S2具体包括对文字区域进行二值化；对二值化后的文字区域分割为各字块；提取各字块的特征信息并与特征数据库进行匹配，将匹配结果作为各字块的识别结果; 按顺序将各字块的识别结果进行组合得到所述文字区域的识别结果。
4.根据权利要求I所述的方法，其特征在于，所述步骤S3具体包括以下中的一种或任意组合查询文字词典库获得文字的读音、含义、用法或其他语种的翻译信息；查询文化知识库获得文字对应的典故或出处信息；查询书籍查询库获得文字对应的书籍信息或网络资源信息；查询商品查询库获得文字对应的商品信息；查询音乐查询库获得文字对应的音乐信息或网络资源信息；查询网络应用搜索库获得文字对应的网络应用信息或网络入口。
5.根据权利要求I或4所述的方法，其特征在于，在所述步骤S3中查询所有知识库，将获得的所有知识信息生成知识拓展词包；或者，在所述步骤SI中还获取用户选择的个性化选项内容，在所述步骤S3中查询所述个性化选项内容对应的知识库，将获得的知识信息生成知识拓展词包；或者，在所述步骤S3中查询所有知识库，对查询到的知识信息进一步确定知识信息对应的权重，将权重值排在前N个的知识信息生成知识拓展词包，N为预设的正整数。
6.根据权利要求5所述的方法，其特征在于，所述知识信息对应的权重采用以下方式确定根据知识信息被查询到的总次数确定该知识信息对应的权重，总次数越大权重值越大；或者，利用知识信息被查询到的总次数确定该知识信息对应的知识权重，利用该知识信息所属类别的所有知识信息被当前用户查看的总次数确定用户个性化权重，利用知识信息的知识权重与用户个性化权重的乘积确定该知识信息对应的权重。
7.一种图像文字识别的装置，其特征在于，该装置包括区域获取单元，用于获取待识别图像中的文字区域；文字识别单元，用于对所述文字区域进行文字识别；知识查询单元，用于所述文字识别单元的识别结果查询知识库获得识别结果对应的知识息; 结果推送单元，用于在返回所述识别结果时，推送包含所述知识信息的知识拓展词包。
8.根据权利要求7所述的装置，其特征在于，所述区域获取单元接收移动终端发送来的待识别图像，从所述待识别图像中提取文字区域；或者，接收移动终端从待识别图像中提取并发送来的文字区域。
9.根据权利要求7所述的装置，其特征在于，所述文字识别单元具体执行对文字区域进行二值化，对二值化后的文字区域分割为各字块，提取各字块的特征信息并与特征数据库进行匹配，将匹配结果作为各字块的识别结果，按顺序将各字块的识别结果进行组合得到所述文字区域的识别结果。
10.根据权利要求7所述的装置，其特征在于，所述知识查询单元具体执行以下中的一种或任意组合查询文字词典库获得文字的读音、含义、用法或其他语种的翻译信息；查询文化知识库获得文字对应的典故或出处信息；查询书籍查询库获得文字对应的书籍信息或网络资源信息；查询商品查询库获得文字对应的商品信息；查询音乐查询库获得文字对应的音乐信息或网络资源信息；查询网络应用搜索库获得文字对应的网络应用信息或网络入口。
11.根据权利要求7或10所述的装置，其特征在于，所述知识查询单元查询所有知识库，将获得的所有知识信息生成知识拓展词包；或者，所述区域获取单元还用于获取用户选择的个性化选项内容，所述知识查询单元查询所述个性化选项内容对应的知识库，将获得的知识信息生成知识拓展词包；或者，所述知识查询单元查询所有知识库，对查询到的知识信息进一步确定知识信息对应的权重，将权重值排在前N个的知识信息生成知识拓展词包，N为预设的正整数。
12.根据权利要求11所述的装置，其特征在于，所述知识查询单元采用以下方式确定所述知识信息对应的权重根据知识信息被查询到的总次数确定该知识信息对应的权重，总次数越大权重值越大；或者，利用知识信息被查询到的总次数确定该知识信息对应的知识权重，利用该知识信息所属类别的所有知识信息被当前用户查看的总次数确定用户个性化权重，利用知识信息的知识权重与用户个性化权重的乘积确定该知识信息对应的权重。
全文摘要
本发明提供了一种图像文字识别的方法和装置，其中方法包括S1、获取待识别图像中的文字区域；S2、对所述文字区域进行文字识别；S3、利用识别结果查询知识库获得识别结果对应的知识信息；S4、在返回所述识别结果时，推送包含所述知识信息的知识拓展词包。本发明使得用户在获取图像中文字识别结果的同时，能够获取到对应的知识信息，而无需进一步通过手工的方式获得知识信息，显然更加方便和省力。
文档编号G06K9/20GK102855480SQ201210279368
公开日2013年1月2日申请日期2012年8月7日优先权日2012年8月7日
发明者韩钧宇, 丁二锐, 吴中勤, 文林福申请人:北京百度网讯科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩钧宇;丁二锐;吴中勤;文林福
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：发现Web内网代理漏洞的方法
上一篇：一种基于图像文字识别的商品推送方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。