用于将印刷对象与电子内容链接的方法和系统的制作方法_3

文档序号：8287926阅读：来源：国知局

逼近操作使得足够接近的斑点被混合在一起。
[0070]8.在逼近运算之后再次查找图像中的所有斑点。如果在图像中具有足够的文本(例如，甚至3行文本将足矣)，则所有字将在单个斑点中；
[0071]9.根据该算法的可调参数，对小的斑点和非常大的斑点进行过滤；
[0072]10.计算要用作非文本对象(例如，图和图像)与文本区域之间的掩码(mask)的每个斑点的边界框；
[0073]11.得到二进制抗扭斜图像(S卩，二值化图像)，并且对于每个边界框，计算在其中出现的“on (接通)”像素的质心；
[0074]12.对于每个边界框:根据所计算的质心查找其中“on”像素(在x维度和y维度上)的平均距离(其中，X = fwidth和y = fheight)。在二进制表示中，“I”指的是黑色像素(即，“on”像素)，而“O”指的是白色像素(S卩，无像素)；
[0075]13.对于每个边界框:利用宽度fx*fwidth和高度fy*fheight来计算以所计算的质心为中心的新边界框，其中，仁和f y是该算法的可调参数；
[0076]14.利用ny行和每行中的η ,个像素将每个新边界框双线性地缩放为固定大小的图像；其中，\和η ,是该算法的可调参数；以及
[0077]15.将缩放图像逐行地整平为向量，其中，所述整平的缩放图像在本文中指的是文本描述符。
[0078]B.描述符提取一非文本描述:
[0079]1.根据缩放因子s*中值来调整抗扭斜的灰度级图像的尺寸(如在上文的步骤Α.2中获得的那样)(与上文的步骤Α.7相同)，其中，s是该应用的可调参数；
[0080]2.相对于调整尺寸后的图像对上述步骤A.10中所计算的掩码进行缩放，并且对调整尺寸后的图像应用缩放后的掩码；
[0081]3.通过应用诸如AGAST角点检测器的角点检测算法来提取兴趣点，以及如果兴趣点落入文本区域内部，则丢弃感兴趣点；以及
[0082]4.对于每个有效的特征点，通过应用关键点描述符算法(诸如FREAK:快速视网膜关键点算法)来提取二进制描述符，其中，该二进制描述符表示图像(非文本)描述符。
[0083]给出了不同类型的图像处理中的每一种的仅一个示例。本领域的技术人员将明白，很多不同的图像处理技术可用于检测图像内的图案，当然，文本仅仅是图像图案。从而，存在很多不同的用于检测图像的哪些部分是文本对象而哪些部分是非文本对象的处理。
[0084]根据本发明的实施例，为了提供用于查找捕获的图像与所存储的源对象的数字拷贝之间的匹配的快速搜索过程，将从数字拷贝中提取的、系统的服务器130中的描述符转换成哈希字(串文本)形式。哈希字被保存在编码字典中，并且使得能够以文本形式搜索服务器130的数据库(通过利用常见的搜索引擎，诸如谷歌搜索引擎、SQL等)。对于每个文本描述符和非文本描述符，字典构建过程可以包括以下步骤:
[0085]1.给定图像的数据库(例如，如以数字拷贝的PDF文件格式提供)，从所有文字拷贝中提取所有文本描述符；以及
[0086]2.通过对于二进制向量应用诸如分层k-均值算法的聚类分析来对所有描述符进行聚类；
[0087]3.为每个聚类分配随机的哈希字(例如，6个字母的字)；以及
[0088]4.对于非文本描述符，重复步骤I至步骤3的相同过程。
[0089]现在参照图3，现在将对主要示出用于实现用于将印刷对象与电子内容链接的本发明的方法的实施例的流程图进行描述。该实施例的该方法包括以下步骤:
[0090]-通过MMD150获取图像(步骤30)；
[0091]-对于所获取的图像内的文本对象和非文本对象执行描述符提取(步骤31)，并且将描述符从MMD 150发送至系统的服务器130 ；
[0092]-使用前面提到的字典来将每个所接收的描述符转换成文本哈希字格式(步骤32);在下文更详细地描述描述符到哈希字的转换；
[0093]-利用所转换的描述符对出现在字典中的哈希字进行文本搜索(步骤33)。如上文中前面所提到的，在通过MMD 150捕获图像之前从数字拷贝(诸如数字拷贝110)提取在字典中出现的哈希字(这样的提取过程在图中概括地由附图标记131表示)；
[0094]-查找所进行的文本搜索的最佳匹配结果(步骤34)；
[0095]-对于每一个最佳匹配，执行几何匹配以提供对描述符的最佳匹配的单应性得分(homograph score)(步骤35)。几何匹配指的是在表示所获取的图像的描述符与表示每个数字拷贝的描述符之间对描述符的几何位置进行匹配的任务；
[0096]-在最佳匹配当中，根据所获取的图像与数字拷贝之间的描述符的最大匹配数量来选择最佳结果(即，最高单应性得分一如下文中更详细描述的那样)(步骤36);以及
[0097]-对于所选择的最佳结果，定位最接近所获取的图像中心的相关联链接或电子内容(步骤37)，并且将其发送至MMD 150 (步骤38)。
[0098]描述符到哈希字的转换过程:
[0099]对于给定如上文中所描述的描述符和词典构建过程一创建类似描述符的聚类并且为聚类分配随机字符阵列(例如，字母)。这些字符组将被保存为“哈希字”的编码字典。
[0100]数据库结果的单应性得分
[0101]给定查询图像及其描述符(即，如从所获取的图像中提取的一源对象)以及可能的目标图像(即，数字拷贝的目标图像)及其描述符，使用众所周知的公共域开放CV库中适合的、被称为RANSAC单应性的算法查找适合两个图像之间的单应性的最大数量的描述符。其中，假定具有最高等级的文档(即，数字拷贝)最可能是合适的文档。
[0102]根据本发明的实施例，以如下方式标记源对象:用户将知道，该对象通过本发明的技术来支持，例如通过将可视指示符添加到源对象。
[0103]根据本发明的实施例，还可使得MMD应用能够选择要对其应用图像处理的文本对象或非文本对象的一部分。这可以通过显示目标元素、同时操作MMD的应用以从印刷对象捕获图像来进行。例如，如上文前面提到的那样，目标元素可以是目标帧的形式。
[0104]技术人员将会理解，图中所描述的布置产生如下系统:其允许将对象(诸如印刷页面、符号、广告牌、展览中的展品或地标)链接至电子内容(例如，广告、公司网站、销售代表、文本信息、优惠券或任何其他种类的视觉和/或音频内容)。
[0105]本发明的系统使得能够在任何印刷制品(例如，字、句子、图片、广告等)中添加多个链接，在不对印刷制品的外观和感觉进行折衷的情况下很像网页中的超链接的功能。另夕卜，本发明的系统提供了链接现有印刷物(在不为读者添加标记的情况下)的能力。在这种情况下，该系统仅可以识别印刷页面。例如，如果存在涉及印刷页面的多个链接，则该系统将在MMD的应用中显示多个按钮以供读者从其中选择。因此，诸如旧书的很多已印刷的对象以及新的印刷对象设置有类似于超链接的功能。其允许使用在页面中可能存在的许多链接，就像在在线页面中一样，但不对外观和感觉进行折衷。
[0106]本发明提

完整全部详细技术资料下载

当前第3页1 2 3 4