移动捕捉、处理、存储和传输文本包含字符和图像的混合信息的方法和装置的制作方法

文档序号：6554948阅读：479来源：国知局

专利名称：移动捕捉、处理、存储和传输文本包含字符和图像的混合信息的方法和装置的制作方法
有许多这样的情况，即真正需要快速、有效并简单地在不使用诸如拷贝机、扫描仪、传真和计算机等现在常在办公室里可用到的技术资源的情况下，捕捉大量形式为文本或文本+图像的信息。我们举航空旅行作为一种本发明在其中将非常有用的情况的一个例子，其中旅行者正在阅读比如《金融时报》上的一篇有趣的可能有图像和图表说明的文章，并且旅行者希望尽快将相应信息发送给一位同事或将文章保存为自己或他人的参考材料。现在，此读者可选择撕下有趣的页或者拿走整份报纸。在一次会议旅行或其他较长的旅行中，这种情况可能重复出现，结果造成繁重的实际纸张处理问题。
有大量相似的情况，即某人希望能够在不限于或依靠一个具有现代资源的办公室的情况下，例如，由于疾病或懒惰在床上阅读或工作，收集和/或发送其接收到的印刷信息。
本发明的目标是以有效、实用且灵活的方式解决所提出的问题。解决方案基于可用技术的结合和进一步发展，可用技术主要包括数字摄影、智能图像处理incl.OCR，矢量图形、数据压缩、宽带数据传输和数据库处理。
本发明的基础是使用一个小型数字照相机，该照相机宜配备有广角镜头，大光圈，并且在近距离处也具有大锐化深度，其中智能是基于以如下方式处理并解译整个图像的软件，该方式为，包含文本的部分被识别并转化及存储为例如ASCII-或EBCDIC码，而其余部分被存储为一幅具有所需分辨率的图像。
此外根据本发明的方法一个特征为软件具有解译诸如字体和版式等图像质量的智能，以及使用该译码重建/合成一幅图片的能力，该图片匹配(覆盖)原文本。如果匹配结果令人满意，则原图像中包含文本块的部分被删除，之后所存储的信息包含编码后的文本、版式信息和未解译的图像部分。
在未实现原文本块图像与重建/合成后的图像的满意匹配的情况下，原始的图像以其原格式存储。匹配方法的结果可表示为一致的点的百分比。即使从百分比来看匹配得很好，也可能有单个字符、单词或短语未被正确解译。这种未解译或不正确解译的原始信息不会被从文本块中删去，而是显示为插入到解译后的文本中的适当的被标记的图像。因此用户以后就有机会介入并帮助程序解译被标记的部分。
根据本发明的方法一个进一步特征为，在本发明的首选实施例中安装在照相机本身中，但也可在外部单元中实现的解译软件，包括基于用于分析和存储有关原图像的版式信息的矢量图形方法的算法，并且此版式信息用于原图像和合成后图像的匹配程序，并且，可选地，用于当以后打印出合成图像时重建一个适于所选的打印格式(例如，A4)的版式并尽可能接近地复制原版式。这一点是重要的，因为版式(包括诸如下划线、斜体、部分之间的细分等方面)对于理解内容和上下文是重要的。
作为选择，照相机可具有取景功能(framing functions)，以便只有图像的具体被选部分才被存储和处理，因此不必要的文本或图像信息(如一篇有关我们的环境的文章中的一幅有蓝天和摇摆的玉米地的图片，或在一篇有关性角色的文章中的一幅挑逗的女性图片)在来源处已被排除。
根据本发明，信息已被智能照相机的软件标记，以便以后处理数据库中的信息更容易。这一点是通过自动识别诸如标题和作者姓名等特征并自动从标题中选择关键字的内在功能实现的。
为实现更多的功能，智能照相机的软件可通过翻译不同语言和/或解译数学符号和公式和/或识别一种或几种手写体等选项获得扩展。手写体识别宜基于神经系统中的自学算法。
根据存储器和处理器能力的发展状态，尽可能多的智能位于照相机本身。但是，在给定的发展状态下从存储器或处理器能力和性能来看太苛求的功能和选项可在外部实现并执行，其中高速通信协议(如FIRE WIRE 1394)将会非常有用。
将智能移动数字照相机连接到一部具有宽带传输能力的移动电话上将使得把解译和压缩后的数据传输到某人的个人数据库或第三方成为可能。传输可基于存储后的数据实时或延时进行。
根据本发明的装置的一个实用的重要特征是，照相机可配备超广角摄影，这样，例如，最初提到的报纸出版物的一整页可在正常观察距离(0.3至0.5米)处以一次曝光捕捉。这既可通过特殊广角镜头实现，其中数字地纠正失真，或者通过依照并列或重叠原理的平面镜头实现，其中通过计算合成完整图像，或者通过具有一个诸如移动镜子等的扫描配置的镜头实现，在这种情况下也通过软件合成完整图像。
在本发明的范围内，当然也允许智能照相机被用作常规数字照相机。
权利要求
1.用于移动智能捕捉、处理、存储和传输文本以及文本与图像的混合信息的方法，该方法包括一个具有微处理器、存储器和软件的数字照相机，其特征为，分析照相机获得的整幅图像的文本信息，所述信息被例如OCR技术所识别和解译，并被存储为压缩文本码以用于进一步处理和/或传输。
2.根据权利要求1的方法，其特征为诸如字体、下划线、粗体印刷等文本属性被识别并添加到解译后的文本中。
3.根据权利要求1和2的方法，其特征为分析基本图像的其它特定信息，例如段落的细分、版式，解译后文本的整个组合信息用于产生一个合成文本图像，该图像与原图像相比较，当原图像与合成图像匹配得足够好时，原图像被从照相机的存储器中删除。
4.根据权利要求3的方法，其特征为不能被解译的文本信息不被删除，而是作为有关的原始字符/单词/段落的适当标记的图像显示在解译后/合成图像中。
5.根据权利要求1-4的方法，其特征为原图像被分割为两块，其中一块包含解译后的文本信息，而另一块包含来自原图像的其余相关信息，这些块被标记，以便能够被独立处理和传输以及当任何需要时重新组合以产生原图像的再现。
6.根据权利要求1-5的方法，其特征为，在重新组合的图像是在不同于原图像的格式的另一格式上再现的情况下，再现被执行为使得再现后的图像的版式尽可能接近地与原图像的一致。
7.根据权利要求1-6的方法，其特征为根据诸如作者和出版物名称、标题里的关键字等特征对文本信息自动进行分析，并标记出这些特征，以方便向数据库系统地存储信息以及取出信息。
8.用于移动智能捕捉、处理、存储和传输文本以及文本与图像的混合信息的装置，包括一个具有微处理器、存储器和软件的数字照相机，其特征为照相机的镜头设计为超广角。
9.根据权利要求8的装置，其特征为镜头的失真被数字地纠正，以便重建一幅无失真的图像。
10.根据权利要求8的装置，其特征为根据并列原理镜头被设计为一个平面镜头，在局部图像间有一定重叠，并且一幅连续的整个图像由软件产生。
11.根据权利要求8的装置，其特征为根据重叠原理镜头被设计为一个平面镜头，并且当需要时失真通过软件纠正。
全文摘要
用于通过一个具有微处理器和软件的数字照相机移动智能捕捉、处理、存储和传输文本和图像混合信息的方法，其特征为首先用微处理器和软件分析整幅图像，其特征为首先分析整幅图像的文本信息，其中将原图像分割为一个文本块和一个图像块，并通过例如OCR技术解译文本块，将其转化并压缩为一种诸如ASCII码的码，然后用图形信息补充文本码，以允许产生合成文本块图像，通过覆盖技术比较该图像与原文本块，以评估解译质量，并用数据库处理的相关信息标记文本和图片块，以便他们能够被独立存储、处理和传输并在需要时重新组合成所选格式的最佳再现。还有实现该方法的装置，其特征主要为数字照相机允许超广角成像，以及数字地纠正例如用一个平面镜头捕捉的图像的失真和交叠。
文档编号G06K9/20GK1443339SQ0181296
公开日2003年9月17日申请日期2001年7月16日优先权日2000年7月19日
发明者雅各布·威特曼申请人:雅各布·威特曼

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雅各布.威特曼
技术所有人：雅各布.威特曼
我是此专利的发明人

上一篇：分类试探方法
上一篇：向聚合物模制品上不可逆施用不可见标识的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。