识别具有相机功能的移动设备捕获的可视媒体内容的制作方法

文档序号:6361339阅读:187来源:国知局
专利名称:识别具有相机功能的移动设备捕获的可视媒体内容的制作方法
技术领域
本发明涉及移动操作环境,并且更具体地,涉及以可视方式识别由具有相机功能的移动设备捕获的可视媒体内容。
背景技术
几十年来,数字图像处理的发展已经尝试使某些可视能力自动化,诸如图像识别。计算机可视已经尝试识别障碍物以便实现自主导航。光学字符识别依赖于诸如检测图像中的歪斜以及执行字符形状关联之类的技术。监控系统尝试识别诸如人脸之类的生物测定数据以便保持安全性。图像处理的一个实例是为视频广播节目的每个已知段产生数字密钥签名,其随后能够由为未知段产生的数字密钥签名进行匹配。这种技术被广播广告商用于自动追踪以便查看在特定市场中传播了什么广告节目。这种处理得益于能够采样到广播视频信号的高保真版本。另外,这种采样和分析能够由在时间上具有高处理容量的装置来执行。由此,执行图像处理的设备通常并非是移动的或旨在消费者使用的。技术的进步已经产生了更小且更为强大的处理设备。例如,当前存在各种小型、轻质量且易于用户携带的便携式个人计算设备,包括无线计算设备,诸如便携式无线电话、个人数字助理(PDA)和寻呼设备。更具体地,诸如蜂窝式电话和互联网协议(IP)电话之类的便携式无线电话能够经由无线网络传输语音和数据分组。此外,很多此类无线电话包括其他类型的设备,这些类型的设备也包含在本文中。在具有数码相机或显示由数码相机捕获的图像或视频数据的便携式个人计算设备中常常使用数字信号处理器(DSP)、图像处理器和其他处理设备。上述处理设备能够用于提供视频和音频功能,以便处理接收到的诸如图像数据之类的数据或执行其他功能。数字成像技术使得小型设备能够捕获图像数据以及增强和发送图像数据。会产生以下情况在某个场景(venue)用户正在使用媒体内容,但希望在行进中在他们的移动设备上观看或阅读该数据。希望在离开该位置之后继续观看或阅读该内容,用户希望不需要费力的搜索就能够容易地定位该内容。在缺乏对媒体内容的源的直接访问的情况下,这种情况尤其如此。另外,与语音识别不同,在对媒体内容的段进行自动可视识别时可以出现各种复杂情况。图像的朝向和视野内的无关图像能够使得通过便携式个人计算设备的取景器捕获图像或视频段的努力复杂化。

发明内容
以下给出了对一个或多个方案的简单概要,以便提供对这些方案的基本理解。该概要并非是对所有设想到的方案的宽泛概述,并且并非旨在确定所有方案中的关键或重要的元素或勾画出任何或全部方案的范围。其唯一的目的在于以简化的形式提供一个或多个方案的一些构思来作为稍后给出的更为详细的描述的前序。在一个方案中,提供了一种用于识别可视媒体内容的方法。从移动设备的相机接收图像。检测在所述图像中包含的四边形。捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容。在另一个方案中,提供了用于识别可视媒体内容的至少一个处理器。第一模块用于从移动设备的相机接收图像。第二模块用于检测在所述图像中包含的四边形。第三模块用于捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容。在另一个方案中,提供了一种用于识别可视媒体内容的计算机程序产品。非瞬态计算机可读存储介质多组代码。第一组代码用于使得计算机从移动设备的相机接收图像。第二组代码用于使所述计算机检测在所述图像中包含的四边形。第三组代码用于使所述计算机捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容。在又另一个方案中,提供了一种用于识别可视媒体内容的装置。提供了用于从移动设备的相机接收图像的单元。提供了用于检测在所述图像中包含的四边形的单元。提供了用于捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容的单元。在再一个方案中,提供了一种用于识别可视媒体内容的装置。移动设备的相机产生图像。计算平台检测在从所述相机接收的所述图像中包含的四边形,并且捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容为了实现上述目的和相关目的,该一个或多个方案包括在以下完整地描述且在权利要求中特别指出的特征。以下说明以及附图详细地阐述了该一个或多个方案的特定说明性特征。但是,这些特征仅表示可应用各种方案的原理的各种方式中的几个,并且该说明旨在包括全部这些方案及其等同形式。


图1示出了移动设备的示意图,该移动设备识别由显示器在外部呈现供用户观看的可视媒体内容。图2示出了用于识别可视媒体内容的方法或操作序列的流程图。图3A示出了用于捕获并识别在由相机成像的被检测的外部显示器内的可视媒体内容的方法或操作序列的流程图。图3B示出了用于查找图像内的四边形图像/视频源的方法或操作序列的流程图。图3C示出了用于识别所捕获的帧的媒体内容的方法或操作序列的流程图。图4示出了使用具有相机功能的通信设备来进行图像分析的方法或操作序列的示例性流程图。图5示出了包含从侧面观看的显示器的房间的示意性低分辨率图像的图形图示。图6示出了房间的感兴趣区域(ROI)部分的示意性低分辨率图像的图形图示,其具有多个已检测拐角(corner)作为用于自动定义显示器的候选。图7示出了从图像分析中导出的一组候选的经群集和删除的像素的图形图示。图8示出了用于识别可视媒体内容的系统的示意图。图9示出了具有用于识别可视媒体内容的模块的装置的示意图。图10是包括直方图、拐角检测器和尺度不变特征转换(SIFT)产生器的移动设备的方框图。图11示出了可以包括执行干扰控制操作的一个或多个组件的通信组件的示意图。图12示出了示例性计算环境的示意图。
具体实施例方式存在以下的场合需要通过另一装置识别和传送正在观看的媒体内容(例如,文本、图像、视频)。由此用户能够以便利的方式来使用媒体内容。例如,用户能够阅读媒体内容,诸如在印刷的定期出版物中包含的或在计算机监视器上显示的基于文本的新闻或娱乐文章。类似地,媒体内容可以是图形的,诸如示意性图画或照片。作为另一实例,用户可以观看正在显示可视媒体内容的场景。为了快速地捕获正在观看的内容以便稍后进行检索,用户能够方便地使用相机功能。为了快速地捕获并在稍后查询基于文本的或图形的文章或者可视媒体内容的全部内容,用户能够使用具有相机功能的移动设备(例如,智能手机、便携式游戏机、个人数字助理等等)。现在将参考附图描述各个方案。在以下描述中,为了解释的目的而阐述了众多具体细节以便提供对一个或多个方案的透彻理解。然而,显然该各种方案可以在没有这些具体细节的情况下实现。在其他实例中,以方框图的形式示出了公知的结构和设备以便有助于描述这些方案。最初参考图1,装置100被图示为移动设备102,装置100识别由显示器106在外部呈现供用户108观看的可视媒体内容104。移动设备102的相机110产生数字图像112。计算平台114检测四边形116,其对应于外部显示器106并包含在从相机110接收到的数字图像112内。计算平台114可以引导相机110进行的更高分辨率的成像来包含四边形116,以便捕获在四边形116内包含的可视媒体内容104。计算平台114、远程服务器118、或这二者协作能够分析可视媒体内容104以相对于具有媒体内容文件122的数据库120进行识别。然后可以经由空中信道128将识别信息124或可视媒体内容104的更为完整的版本126传输至移动设备102以便在用户界面130中呈现给用户108。在图2中,图示了用于识别可视媒体内容的方法或操作序列200。从移动设备的相机接收图像(方框202)。检测在该图像内包含的四边形(方框204)。捕获在该四边形内包含的可视媒体内容以便识别该可视媒体内容(方框206 )。在一个示例性使用中,考虑以下情况用户正在电视上观看媒体内容,诸如电影,但是选择在移动设备上观看剩余的部分。用户将其移动电话的相机指向TV。移动设备被触发,以便通过处理输入帧经由该移动设备的取景器来识别运转的TV上的节目。具体地,利用电视是位于取景器中心的四边形并通常比周围环境更明亮的预期,从背景中裁剪出TV上的图像。可以将所捕获的内容的一部分(也许针对机器可视识别而进行了预处理)发送至服务器以便查找该序列来自哪部电影。例如,上述系统能够使用哈希表来快速地查找应当进一步检查哪些电影中的哪些场景。哈希表的关键是使用在帧中找到的颜色的局部直方图。例如,如果图像I的左上象限具有50%的蓝色像素、30%的白色像素和20%的黑色像素,并且随后其在给定的时间后改变为30%的蓝色像素、50%的白色像素和20%的黑色像素,则该特征结合其它三个象限将会用来缩减来自电影数据库中的帧的场景。基于该精简集合,随后将不基于颜色而是基于频率来重复该过程。如果左上象限在给定时间具有700个边缘像素,在300帧后变为400个边缘像素,则该模式将进一步精简该集合。依据该精简的片段集合,系统能够使用SIFT或某种其他基于特征的提取方法来缩减精确的帧。一旦发现了电影的名称和时间戳,该设备就能够连接至专属的服务器,购买并随后下载整个电影,但是从用户当前正在TV上观看该电影的点处开始流式传输章节(title)。除了图像检测方法,还能够使用麦克风来捕获来自TV的音频,并在哈希查找函数中使用该音频来辅助媒体内容的确定。可替换地,移动设备能够在本地或在远程服务器上采用图像处理算法,来识别合法的(forensic)视频水印。视频水印可以包含时间戳、客户标识符和内容标识符,以允许提取这些数据,甚至于在压缩和经过多次数字-模拟-数字转换之后进行提取。在另一方案中,如果用户正在阅读其PC上的文章、杂志、报纸、图书等等,但选择在其移动设备上访问该内容。用户拍摄该内容的照片。例如,相机使用微距模式(macromode)来在距离镜头小于2英寸的对象上进行聚焦,并具有足够的分辨率来进行光学字符识别。由此,能够利用搜索引擎来搜索所识别的字母数字字符串,并在用户界面上将最佳文章匹配呈现给用户来进行选择。可以对所识别的匹配的文章做书签或下载以供将来查看。如果该内容有版权保护和/或在网上找不到,则能够使用水印技术来确定该用户是否是该内容的权利拥有者。如果未使用水印技术但该内容仍有版权保护,则用户能够输入来自该内容的物理拷贝(例如,书、期刊)的订阅标识符来访问该内容。可替换地,如果找不到该文章,则系统能够推送该主题的类似文章或同一作者的文章。在一个示例性方案中,在图3A-3C中,提供了用于捕获并识别在相机成像的被检测的外部显示器内的可视媒体内容的方法或操作序列300。用户将无线移动设备的相机指向显示器或监视器(方框302)。用户选择用于捕获图像内容的用户控制(方框304)。在一个方案中,使移动设备能够捕获一种类型的可视媒体内容(例如,文本、图形图像、视频图像)。在另一方案中,移动设备可以接收关于要捕获或已捕获哪种类型的可视媒体内容的指示。作为另一方案,移动设备可以在几种选项中自动地确定可视媒体内容的类型。为了这些目的,移动设备可以确定针对文本捕获的意图或适当性(方框306)。如果是,则可以将捕获引导至高对比度(通常是黑白)的没有原生运动的文本(方框308)。移动设备还可以确定针对图像捕获的意图或适当性(方框310)。如果是,则目标可以是彩色的并且具有变化的对比度,但是仍然没有原生运动(方框312)。移动设备还可以确定针对视频捕获的意图/适当性(方框314)。如果是,则目标可以具有原生运动(方框316)。在一个示例性方案中,在方框317,颜色转换处理支持上述的这些确定。从输入颜色空间(通常是从RGB)变换至亮度-色度空间,可以是有帮助的,因为系统可以确定在图像中的颜色的量。可以基于Cb和Cr来确定所研究的图像中的颜色的量,其中,Cb和Cr处于其范围的中值(例如,128),表示没有颜色。可替换地或附加地,可以检测诸如白色和黑色或蓝色的特定颜色,其表示印刷物。可替换地或附加地,可以检测一致的背景颜色,其中,为了解析(depend)图像或字母数字内容可以丢弃该背景颜色。可替换地或附加地,可以使用Gabor滤波器来确定内容是否在某个频率处具有规则的模式,这可能表示具有特定字体大小的文本。在低分辨率的相机预览过程中能够找到四边形的图像或视频源(方框318),其将参考图3B来论述。进一步参考图3A,可替换地,可以存在足够的处理能力来使用更高分辨率的初始捕获。在另一方案中,用户可以通过点击(touch)取景器将关注聚焦在相机预览的一部分上,来加以辅助(方框320)。在另一方案中,移动设备显示所识别的源或显示候选源以供用户选择(方框322)。如果是后者,则用户界面接收用户选择并前进至确定图像/视频源(方框324)。如果需要或者能够进行,则用户可以通过将相机对准或聚焦或者点击取景器来按照提示进行辅助(方框326)。在一些实现方式中,移动设备可以向相机发送感兴趣区域(ROI)以进行最佳分辨率设置(方框328)。移动设备从该区域捕获一个(或多个)帧(方框330)。识别所捕获的一个(或多个)帧的媒体内容(方框332)。在各种方案中,该识别可以由移动设备执行、由移动设备和远程服务器之间的分布式处理执行、或主要由远程服务器来执行,如参考图3C进一步描述的。继续参考图3A,移动设备能够下载媒体内容(方框334)。在图3B中,提供了用于查找图像内的四边形的图像/视频源的示例性方法318(方框318)。如果使用较低相机预览分辨率,则一个或多个初始图像可以在“η”个帧(η = I则表示无运动)上采用VGA分辨率(方框336)。进一步参考图3Β,可以创建具有255个值的ROI图,其中在点击用户输入时,其可以由于值的减少而变模糊(方框338 )。在一些实例中,检测可以利用显示器或监视器具有比房间内其他表面更亮的照度级的趋势。为此,借助于针对值>x(例如,实现20%的像素剩余)阈值化最大照度,诸如由红-绿-值(RGB)定义的,来创建“明亮的(glowing)”R0I图(方框340)。在一些希望进行视频捕获的实例中,检测可以利用在帧间存在着用于显示运动的变化这一事实。为此,借助于每个帧与先前“m”帧(例如m=3)的差来创建“运动”ROI图。可以记录最大差异(Λ),以帮助去除抖动(方框342)。可以基于ROI图的权重来裁剪来自取景器的图像(方框344)。将所裁剪的图像送入快速拐角检测器(方框346)。可以对比阈值像素6)更为接近的拐角点(CP)进行群集(方框348)。如果CP在明亮的图内完整的nXn区域内,则可以删除CP (方框350)。如果在mXm区域中的运动完全在明亮的图内,则可以删除CP (方框352)。

依据删除后的CP识别四边形的候选(方框354)(i)无凸面(角度总和为360° )(方框356);(ii)任何内角 >110° (方框 358);(iv)视频长宽比(4:3,16:9)(方框 360);(V)面积彡图像的1/25 (方框362);(vi)具有两个(2个)相等的邻角(方框364);以及(vii)基于深度查找来关联四边形的候选(方框365)。因此,识别出表示以监视器或显示器的形状关联的组。针对使用深度查找的最后一种方案,通过使用深度聚焦能力,能够将特定的拐角组确定为具有特定深度。从而,能够基于拐角在被认为是与候选拐角集合无关的前景深度或背景深度中,来删除拐角。能够使用深度信息来确定图像中处于同一深度级的拐角集合。在于2008年8月5日提交的、发明人为Babak Forutanpour的、序列号12/185,887、公开号 No. 20100033617A1 的共同未决美国专利申请“System and Method toGenerate Depth Data Using Edge Detection”中描述了关于深度查找的使用的额外公开内容,该申请被转让给其受让人,并特别以引用方式并入本文。在主列表中添加候选的四个(4个)拐角(方框366)。选择从该主列表中的拐角集合形成的四边形形状,使得不允许基本上包含整个图像的大的伪四边形包围较小的四边形。例如,不允许大于图像面积的五分之一的四边形包围其他候选四边形。在一个示例性方案中,删除占据另一四边形的80%的任何四边形(方框368)。可以基于检测表示监视器/显示器的边框(border)形状和统一颜色,来删除拐角(方框370)。对于另一实例,四边形左一半和右一半的直方图应该匹配。可替换地或附加地,四边形上一半和下一半的直方图应该匹配。在另一方案中,允许一个边框侧边不同于其相对侧的边框侧边,以便应对用户控制、音频扬声器、安装或支撑结构等等的不对称放置。在一个示例性方案中,通过用于一侧的柱状直方图(binned histogram)与另一侧的差在总像素的某个限度(例如20%)内来计算匹配,其中该限度可以是不同的。可替换地,如果转换到色调饱和度值(HSV),则可以将平均色调限制为一个低值(例如,在10%内)。在一个示例性方案中,删除边框(宽度的1/14)具有的直方图具有远离标准偏差达值1. 5的任何四边形。由于此示例性识别,能够从图像中识别出与显示器或监视器相对应的四边形。在图3C中,提供了用于识别所捕获的一个(或多个)帧的媒体内容的示例性方法或操作序列332。确定与远程服务器进行合作的能力(方框371)。例如,该能力可能由于可用的资源、干扰、信道衰落、发射功率限制、用户使用限制等等而受限。为了针对这些考虑中的一些或全部而进行调整,可以对至服务器的连接的带宽进行测试(方框372)。能够确定设备性能约束(例如,中央处理单元(CPU)的速度和可用性、数字信号处理硬件/软件的配置等等)(方框374)。可以访问用户偏好或使用带宽的成本(方框376)。能力约束还可以是功率限制,其基于本地执行图像处理的功耗或发送可变量的图像数据所需的功率。能力约束还可以与用于处理和发送图像数据的端到端时间相关。在一些实例中,能力的一个特性是确定性的。例如,低性能的移动设备可能无法执行额外的数字图像处理,从而必须上传原始图像数据而不考虑信道限制。在另一实例中,基于数字图像处理的哪些部分能够在本地或在远程执行,来确定一组可能的模式。然后,可以基于用户偏好(例如实现成本)、流量优化的系统偏好、或通过减少完成该数字图像处理的时间来增强用户体验,来进行选择以得到最优解决方案。例如,可以访问查找表(LUT)来决定在设备与服务器之间分配用于媒体内容识别的图像处理(方框378)。因此,在一个方案中,认为本地处理模式是适当的。例如,检测到非常低的连接,确定有能力的设备是可用的、或者已经选择了该模式(方框380)。执行基于nXn的直方图+边缘检测&尺度不变特征转换(SIFT)(方框382)。将特征矢量发送至服务器以便节省带宽(方框384)。在另一方案中,认为共同处理(sharing processing)模式是适当的。例如,检测到介质连接、确定本地和远程组件可用于共同处理、或者已经选择了该模式(方框386)。执行基于nXn的直方图+边缘检测而不执行SIFT (方框388)。将结果发送至服务器(方框390)。在另一方案中,认为远程处理模式是适当的。例如,本地设备被确定为无法执行该处理、确定快速连接是可用的、或者已经选择了该模式(方框392 )。不是进行处理,而是将所捕获的片段发送至服务器(方框394)。
在远程服务器完成了任何剩余处理并且针对其媒体内容目录进行了匹配之后,移动设备接收到媒体内容匹配的候选列表(方框396)。在一个方案中,考虑在移动设备上呈现上述匹配的约束。另外,可能需要用户的辅助(例如,相机的额外对准、与用户界面的交互等等)来唯一地识别该媒体内容。为此,可以确定未得到匹配并且需要捕获更多的媒体内容(方框397)。可替换地或附加地,可以确定有限的匹配(例如,3个),这些匹配适合于在用户界面上呈现以供用户选择(方框398)。可替换地或附加地,可以识别大量的匹配。作为响应,移动设备可以捕获更多内容或发送所捕获内容的更高分辨率的版本以供服务器在其匹配中使用(方框399)。在另一示例性方案中,在图4中,方法400使用诸如智能手机之类的具有相机功能的通信装置或设备执行图像分析。能够存储来自相机取景器的低分辨率模式的帧(方框402)。可替换地,可以针对自动或手动选择的较高分辨率快照或快照序列执行图像分析(方框404)。执行算法,其提取取景器图像中与正在呈现媒体内容的外部显示器或监视器(例如,电视监视器)相对应的部分的显示(方框406)。为了方便,可以将该区域标识为液晶显示器(LCD),LCD是电子书、电视和计算机常用的显示器类型,虽然应该设想到,能够使用符合本发明的方案的其它技术。在图5中,房间的示例性的较低分辨率图像500包括从侧面观看的显示器502。进一步参考图4,正确部分的选择可以部分地涉及执行一系列处理,或者完全在本地执行、或者在本地和在远程分布式地执行、或者全部在远程执行(方框408 )。例如,可以运行Harris拐角检测器来查找感兴趣区域(R0I)中的所有拐角(方框410)。可以检查所找到的拐角的全部排列和组合,直到创建一个集合为止(方框412)从而(I)在该区域中的内容具有的平均亮度比整体图像的平均亮度高很多,该比值表示为T (方框414)。(2)连接4个拐角的线均匀且在色调饱和度值(HSV)空间中具有大致相同的色调(方框416)。例如,检查监视器/显示器的边框像素具有大致或基本上相同的颜色,其中,一对或两对相对侧边具有大约相同的宽度。在一个示例性方案中,可以确定边框像素彼此之间具有在一个阈值之内(例如,20%)的RGB匹配。可允许的边框厚度可以基于LUT。例如,当四边形内的面积是图像的1/10时,边框应该是图像的X轴的水平宽度的1/30。将会预期640X480的图像是电视,其具有的边框大约为20个像素宽。(3)删除四个(4个)点的透视(perspective)与在眼睛高度处或低于眼睛高度的物体的取景不匹配的区域(例如,删除屋顶灯光)(方框418).在图6中,房间的ROI部分的示意性较低分辨率图像600 (其包括从侧面观看的显示器602)已经检测了多个拐角604,这些拐角可以是用于自动定义显示器602以便能够捕获媒体内容606的候选。在图7中,从拐角检测中得到的房间的候选像素集合700包括定义显示器706的外部点和内部点702和704的多个点,以及在媒体内容710内的图像点708和在显示器706外部的无关点712,这些点需要被选择性地删除。进一步参考图4,现在找到了 IXD显示器的准确拐角,随后可选地,如果透视大于某个阈值P,则智能手机可以对透视进行校正(方框420)。例如,该阈值P可以基于相对的横向侧边的长度比值。例如,考虑比值P1,其指示这些横向侧边在彼此的90%内。可以确定匹配算法足够鲁棒,从而能够在不校正所捕获的视频图像中造成的失真的情况下实现匹配。对于另一实例,考虑比率P2,其指示横向侧边在彼此的90%至70%之间。可能需要校正来校正由于在该范围中的透视造成的失真。对于另一实例,考虑比率P3,其指示横向侧边彼此尺寸相对差异较大从而无法进行校正并且导致怀疑是否找到了正确的四边形。假设用户并不尝试以该非垂直的角度来进行捕获。还应该认识到,垂直透视和水平透视可以使用不同的阈值。在一个方案中,能够校正图像从垂直平面相对于相机视点的任何旋转。可以找到一对平行线(例如,上/下侧边,或左/右侧边),并且以数字方式旋转整个图像以使得这两条直线相对于图像为O或90度,其中计算更为接近的那个角度。在矩形或正方形nXn网格中创建图像的直方图,例如,n=3 (方框422)。按照硬边缘或软边缘来计算每个区域中的像素数量(方框424)。针对硬(尖锐)边缘和软(模糊)边缘能够使用各种定义。例如,“硬边缘”像素是这样的像素距离该像素达η (例如,在所有方向上,η=2)个像素远的邻近像素具有比该像素自己的值大很多或小很多的值,例如阈值>120。如果一个像素的值在两个邻居之间且这两个邻居具有彼此不同的值,则该像素在“软边缘”上。在图像中的变化尖锐程度能够指示深度上的不连续性、表面方向上的不连续性、材料特性的改变、或场景照明的变化。将这η2个红绿蓝(RGB)值和硬边缘值+软边缘值合并至数据有效负荷中并进行发送(方框426)。通过向服务器不仅发送颜色信息还发送硬/软像素的数量,服务器能够使用该信息来从其电影库中搜索帧以找到具有类似特性的块。简言之,仅发送颜色信息可能是不够的。可能不足以知道一个块具有多少红/绿/蓝。在图像块中有过多的RGB的情况下,可以使用改进型过滤器。例如,还可以通过发送关于该块在硬边缘上具有45个像素且在软边缘上具有39个像素的信息,来缩小候选列表。在没有传输或处理限制的理想情况下,可以发送整个块,以使得服务器能够逐个帧地对两个图像进行相减。媒体内容(例如,电影、电视、新闻文章、无线电广播、播客(podcast)节目等等)被识别并被格式化以便在移动 设备上继续呈现(方框428)。如果用户不具有足够的权利来使用数据,则可以帮助进行数据权利订阅(方框430)。借助于前述内容,为用户提供了一种便利的方式来经由移动设备继续使用特定的媒体内容,而无需经由移动设备的识别、定位和访问媒体内容的繁琐处理。参考图8,示出了用于识别可视媒体内容的系统800。例如,系统800可以至少部分地位于用户设备(UE)内。要认识到,系统800被表示为包括多个功能块,这些功能块可以是表示由计算平台、处理器、软件、或其组合(例如固件)所实现的功能的功能块。系统800包括能够联合动作的多个电组件的逻辑组802。例如,逻辑组802可以包括用于从移动设备的相机接收图像的电组件804。此外,逻辑组802可以包括用于检测图像内包含的四边形的电组件806。对于另一实例,逻辑组802可以包括用于捕获在四边形内包含的可视媒体内容以便识别该可视媒体内容的电组件808。另外,系统800可以包括存储器820,其保存用于执行与电组件804 - 808相关的功能的指令。虽然被显示在存储器820之外,但是要理解,电组件804 - 808之中的一个或多个可以存在于存储器820内。在图9中,图示了用于识别可视媒体内容的装置902。提供模块904用于从移动设备的相机接收图像。提供模块906用于检测图像内包含的四边形。提供模块908用于捕获在四边形内包含的可视媒体内容以便识别该可视媒体内容。图10是特定移动设备1000的方框图,其包括直方图、拐角检测器和尺度不变特征转换(SIFT)产生器1064。移动设备1000可以实现在便携式电子设备中,并且包括耦合至存储器1032的信号处理器1010,诸如数字信号处理器(DSP)。直方图、拐角检测器和尺度不变特征转换(SIFT)产生器1064包含在信号处理器1010中。在示例性实例中,拐角检测器和SIFT产生器1064按照根据图1 一 7所述地或其任意组合来进行操作。相机接口 1068耦合至信号处理器1010并且还耦合至相机,诸如摄像机1070。相机接口 1068可以适用于自动地或响应于由DSP1010产生的信号,响应于单个图像捕获命令(诸如用户“点击”快门控制器或其它图像捕获输入)而拍摄一个场景的多个图像。显示控制器1026耦合至信号处理器1010和显示设备1028。编码器/解码器(编解码器)1034也可以耦合至信号处理器1010。扬声器1036和麦克风1038可以耦合至编解码器1034。无线接口 1040可以耦合至信号处理器1010和无线天线1042。信号处理器1010适于按照如前所述地,基于在邻近数据点之间的亮度值变化来检测图像数据中的拐角。信号处理器1010还适于按照如前所述地,产生图像数据1046,诸如深度图或深度数据的其它形式,图像数据1046是用图像数据集合导出的。通过使用深度聚焦能力,可以确定某些拐角组具有特定深度。因此,可以基于拐角在被认为是与拐角候选集合无关的前景深度或背景深度中,来删除拐角。在一个示例性方案中,除了使用明亮性和运动ROI图之外,当对象模糊或尖锐时,相机可以扫描镜头以查找聚焦级。基于该信息,可以确定是不存在边缘、存在软边缘还是存在硬边缘。可以将在同一深度处的拐角认为是共面的。可替换地,可以部分地基于深度信息确定拐角的三维坐标,以便确定并不相对于相机而垂直的共面点。图像数据可以包括来自摄像机1070的视频数据、经由天线1042来自无线传输的图像数据、或来自诸如经由通用串行总线(USB)接口(未示出)耦合的外部设备之类的其它源的数据,这些皆是示例性的而非限定性的实例。显示控制器1026被配置为接收经处理的图像数据并将经处理的图像数据提供给显示设备1028。另外,存储器1032可以被配置为接收并存储经处理的图像数据,并且无线接口 1040可以被配置为接收经处理的图像数据以便经由天线1042进行发送。在一个特定实施例中,信号处理器1010、显示控制器1026、存储器1032、编解码器1034、无线接口 1040和相机接口 1068包含在系统级封装或芯片上系统设备1022中。在一个特定实施例中,输入设备1030和电源1044耦合至移动芯片上系统设备1022。此外,在一个特定实施例中,如图10所示的,显示设备1028、输入设备1030、扬声器1036、麦克风1038、无线天线1042、摄像机1070和电源1044在芯片上系统设备1022外部。然而,显示设备1028、输入设备1030、扬声器1036、麦克风1038、无线天线1042、摄像机1070和电源1044中的每一个皆可耦合至芯片上系统设备1022的某个组件上,诸如接口或控制器。在一个示例性方案中,移动设备可以使用多输入多输出(MIMO)蜂窝通信能力来执行媒体内容的识别和传送。在一个示例性方案中,MIMO系统使用多个(NT个)发射天线和多个(NR个)接收天线进行数据传输。由Nt个发射天线和Nk个接收天线构成的MMO信道可以被分解为Ns个独立信道,其也称为空间信道,其中Ns ( min{NT, Nj。Ns个独立信道中的每一个都对应于一个维度。如果利用了由多个发射天线和接收天线所创建的额外维度,MIMO系统就可以提供更高的性能(例如,更高的吞吐量和/或更大的可靠性)。MMO系统可以支持时分双工(“TDD”)和频分双工(“FDD”)。在TDD系统中,前向链路传输和反向链路传输在相同的频率范围上,从而使得互易原理允许依据反向链路信道来估计前向链路信道。这使得当在一个接入点处有多个天线可用时,该接入点能够提取前向链路上的发射波束成形增益。本文的教导可以结合至使用各种组件来与至少一个其它节点进行通信的节点(例如,设备)中。图11示出了可用来实现在节点之间的通信的几个示例性组件。具体地,图11示出了 MIMO系统1100的无线设备1110 (例如接入点)和无线设备1150 (例如接入终端)。在设备1110处,从数据源1112将多个数据流的业务数据提供给发射(“TX”)数据处理器1114。在一些方案中,每个数据流是通过各自的发射天线发送的。TX数据处理器1114可以基于为每个数据流选择的特定编码方案,对每个数据流的业务数据进行格式化、编码和交织,以提供编码数据。可以使用OFDM技术将每 一个数据流的编码数据与导频数据进行复用。导频数据通常是以已知的方式进行处理的已知的数据模式,并且可以在接收方系统处使用导频数据来估计信道响应。随后基于为每一个数据流选择的特定调制方案(例如,BPSK、QPSK、M-PSK或M-QAM)来调制(即,符号映射)该数据流的经复用的导频数据和编码数据,以提供调制符号。可以通过由处理器1130执行的指令来确定每一个数据流的数据速率、编码和调制。数据存储器1132可以存储由处理器1130或设备1110的其它组件使用的程序代码、数据和其它信息。可以将全部数据流的调制符号提供给TX MIMO处理器1120,其可以进一步处理这些调制符号(例如,用于OFDM)。TX MMO处理器1120随后向Nt个收发机(“XCVR”)1122a到1122t提供Nt个调制符号流,每一个收发机都具有发射机(TMTR)和接收机(RCVR)。在一些方案中,TX MIMO处理器1120可以对数据流的符号和发送符号的天线使用波束成形权重。每一个收发机1122a到1122t接收并处理各自的符号流,以提供一个或多个模拟信号,并进一步调节(例如,放大、滤波和上变频)模拟信号,以提供适合于通过MIMO信道传输的调制信号。随后分别从Nt个天线1124a到1124t发送来自收发机1122a到1122t的Nt个调制信号。在设备1150处,由Nk个天线1152a到1152r接收发送的调制信号,将来自每一个天线1152a - 1152r的接收信号提供给各自的收发机(“XCVR”)1154a到1154r。每一个收发机1154a到11541■可以调节(例如,滤波、放大和下变频)各自的接收信号,数字化经调节的信号,以提供采样,并进一步处理这些采样以提供相应的“接收”符号流。接收(“RX”)数据处理器1160随后基于特定接收机处理技术来接收并处理来自Nk个收发机1154a到1154r的Nk个接收符号流,以提供Nt个“检测”符号流。RX数据处理器1160随后对每一个检测符号流进行解调、解交织和解码,以恢复该数据流的业务数据。由RX数据处理器1160执行的处理与由在设备1110处的TX MMO处理器1120和TX数据处理器1114执行的处理相反。处理器1170周期性地确定使用哪一个预编码矩阵。处理器1170形成反向链路消息,其包括矩阵索引部分和秩值部分。数据存储器1172可以存储由处理器1170或设备1150的其它组件使用的程序代码、数据和其它信息。该反向链路消息可以包括与通信链路和/或接收数据流有关的各类信息。该反向链路消息随后可以由TX数据处理器1138进行处理,由调制器1180进行调制,由收发机1154a到1154r进行调节,并被发送回设备1110,TX数据处理器1138还从数据源1136接收多个数据流的业务数据。在设备1110处,来自设备1150的调制信号由天线1124a — 1124t进行接收,由收发机1122a到1122t进行调节,由解调器(“DEM0D”)1140进行解调,并由RX数据处理器1142进行处理,以提取由设备1150发送的反向链路消息。处理器1130随后确定将哪一个预编码矩阵用于确定波束成形权重,并随后处理所提取的消息。图11还示出了通信组件可以包括用于在存在干扰的情况下实现图像数据传输的一个或多个组件。例如,干扰(“INTER.,,)控制组件1190可以与处理器1130和/或设备1110的其它组件协作,以便向/从另一设备(例如设备1150)发送/接收信号。类似地,干扰控制组件1192可以与处理器1170和/或设备1150的其它组件协作,以便向/从另一设备(例如设备1110)发送/接收信号。应该认识到,对于每一个设备1110和1150,上述组件中的两个或更多个组件的功能可以由单个组件来提供。例如,单个处理组件可以提供干扰控制组件1190和处理器1130的功能,并且单个处理组件可以提供干扰控制组件1192和处理器1170的功能。参考图12,用于实现所要求保护的主题的各个方案的示例性计算环境1200包括计算机1212。计算机1212包括处理单元1214、系统存储器1216和系统总线1218。系统总线1218将多个系统组件耦合至处理单元1214,这些系统组件例如但不限于系统存储器1216。处理单元1214可以是各种可用的处理器中的任意处理器。还可以将双微处理器和其它多处理器架构用作处理单元1214。系统总线1218可以是几种类型的总线结构中的任意类型,这些总线结构包括存储器总线或存储器控制器、外围总线或外部总线、和/或本地总线,并且使用任意类型的可用总线架构,包括但不限于工业标准架构(ISA)、微通道架构(MSA)、扩展ISA (EISA)、智能电子驱动器(IDE)、VESA本地总线(VLB)、周边组件互连(PCI)、卡片式总线、通用串行总线(USB)、高级图形端口(AGP)、个人计算机存储器卡国际协会总线(PCMCIA)、火线(IEEE1294)和智能计算机系统接口(SCSI)。系统存储器1216包括易失性存储器1220和非易失性存储器1222。在非易失性存储器1222中存储了基本输入/输出系统(BIOS),其包含用于在诸如启动过程中在计算机1212的元件之间传递信息的基本例程。作为示例而非限制地,非易失性存储器1222可以包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPR0M)、或闪存。易失性存储器1220包括随机存取存储器(RAM),其充当外部缓冲存储器。作为示例而非限制地,RAM可以采用多种形式,诸如静态RAM (SRAM)、动态RAM (DRAM)、同步 DRAM (SDRAM)、双倍数据速率 SDRAM (DDR SDRAM)、增强型 SDRAM (ESDRAM)、SynchlinkDRAM (SLDRAM)、Rambus 直接 RAM (RDRAM)、直接 Rambus 动态 RAM (DRDRAM)和 Rambus 动态RAM (RDRAM)0计算机1212还包括可移除/不可移除、易失性/非易失性计算机存储介质。例如,图12示出了盘储存设备1224。盘储存设备1224包括但不限于诸如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或记忆棒之类的设备。另外,盘储存设备1224可以包括单独的存储介质或与其它存储介质组合的存储介质,包括但不限于光盘驱动器,诸如压缩光盘ROM驱动器(⑶-ROM)、⑶可刻录驱动器(⑶-R驱动器)、⑶可重写驱动器(⑶-RW驱动器)或数字多功能光盘ROM驱动器(DVD-ROM)。为了实现盘储存设备1224到系统总线1218的连接,通常使用可移除或不可移除接口,诸如接口 1226。要认识到,图12描述了充当用户与基本计算机资源之间的中介软件,其是在合适的操作环境1200中描述的。这种软件包括操作系统1228。操作系统1228可以存储在盘储存设备1224中,操作系统1228用于控制和分配计算机系统1212的资源。系统应用1230通过存储在系统存储器1216或盘储存设备1224中的程序模块1232和程序数据1234来利用操作系统1228对资源的管理。要认识到,可以采用各种操作系统或操作系统的组合来实现所要求保护的主题。用户通过输入设备1236将命令或信息输入至计算机1212中。输入设备1236包括但不限于诸如鼠标的定点设备、轨迹球、尖笔、触摸板、键盘、麦克风、游戏杆、游戏手柄、碟形卫星天线、扫描仪、TV调谐器卡、数码相机、数字摄像机、网络相机等等。这些和其它输入设备经由接口端口 1238通过系统总线1218连接至处理单元1214。接口端口 1238包括例如,串行端口、并行端口、游戏端口和通用串行总线(USB)。输出设备1240使用一些与输入设备1236相同类型的端口。因此,例如,可以使用USB端口向计算机1212提供输入,并从计算机1212向输出设备1240输出信息。提供输出适配器1242来说明在其它输出设备1240中有一些输出设备1240,例如监视器、扬声器和打印机,其需要特殊的适配器。作为举例说明但非限定地,输出适配器1242包括视频卡和声卡,其提供了在输出设备1240与系统总线1218之间的连接手段。应该注意到,其它设备和/或设备系统提供了输入和输出能力两者,诸如远程计算机1244。计算机1212可以在使用至一个或多个远程计算机(诸如远程计算机1244)的逻辑连接的联网环境中操作。远程计算机1244可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、对等设备或其它一般的网络节点等等,并且通常包括相对于计算机1212所述的多个或全部元件。为了简明,针对远程计算机1244仅示出了存储器储存设备1246。远程计算机1244经由网络接口 1248逻辑连接至计算机1212,并且随后经由通信连接1250进行物理连接。网络接口 1248涵盖有线和/或无线通信网络,诸如局域网(LAN)和广域网(WAN)。LAN技术包括光纤分布式数据接口(FDDI)、铜分布式数据接口(⑶DI)、以太网、令牌环网等等。WAN技术包括但不限于点对点链接、电路交换网络,如集成服务数字网络(ISDN)及其变体、分组交换网络和数字用户线路(DSL)。通信连接1250是指用于将网络接口 1248连接至总线1218的硬件/软件。虽然为了说明清楚而将通信连接1250显示为在计算机1212内部,但是其也可以在计算机1212外部。对于至网络接口 1248的连接所必需的硬件/软件包括(仅做举例目的)内部和外部技术,诸如包括常规电话级调制解调器、电缆调制解调器和DSL调制解调器之类的调制解调器、ISDN适配器和以太网卡。本领域普通技术人员将会在不脱离要求保护的公开内容的精神和范围的情况下设想到本文所述内容的变体、修改和其它实施方式。因此,此公开内容并非要由上述示例性说明来定义,而是由附带的权利要求的精神和范围来定义。
应该明显的是,本文的教导可以以各种形式体现,并且本文公开的任何具体结构或功能仅是代表性的。基于本文的教导,本领域技术人员应该认识到,本文公开的某个方案可以独立于其它方案来实施,并且这些方案中的两个或更多个可以以各种方式进行组合。例如,可以使用本文阐述的任意数量的方案来实施装置或实现方法。另外,可以使用其它结构或功能作为本文阐述的一个或多个方案的补充或替代来实施装置或实现方法。作为示例,在移动通信环境中提供动态查询和推荐的背景中描述本文所述的方法、设备、系统和装置中的多个。本领域技术人员应该认识到,类似的技术还可以应用于其它通信和非通信环境中。如在本公开内容中所使用的,术语“内容”和“对象”用于描述任意类型的应用、多媒体文件、图像文件、可执行文件、程序、网页、脚本、文档、呈文、消息、数据、元数据或能够在设备上呈现、处理或执行的任何其它类型的媒体或信息。如在本公开内容中所使用的,术语“组件”、“系统”、“模块”等等旨在指代与计算机相关的实体,或者是硬件、软件、执行中的软件、固件、中间件、或者使其任意组合。例如,组件可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序、或计算机。一个或多个组件可以存在于执行进程和/或执行线程中,并且组件可以位于一个计算机中或分布在两个或更多计算机中。此外,这些组件能够从在其上存储有各种数据结构的各种计算机可读介质中执行。这些组件可以通过本地和/或远程过程进行通信,例如根据具有一个或多个数据分组的信号(例如,来自一个组件的数据,而该组件以信号方式与本地系统、分布式系统中的另一个组件进行交互,或者通过诸如互联网之类的网络与其它系统进行交互)。另外,如本领域技术人员将会认识到的,本文所述的系统的组件可以进行重新排列或者由额外的组件进行补充,以便有助于实现结合这些组件所述的各个方案、目的、优势等等,并且并不限于在给定的附图中给出的精确配置。另外,可以用被设计为执行本文所述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或者晶体管逻辑设备、分立硬件组件或其任意组合,来实施或执行结合本文公开的方案所描述的各种示例性的逻辑、逻辑块、模块和电路。通用处理器可以是微处理器,但可替换地,该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP内核的结合,或者任何其它此种结构。另外,至少一个处理器可以包括可操作来执行一个或多个上述步骤及/或操作的一个或多个模块。此外,可以使用标准编程或工程技术将本文所述的各种方案或结构实施为方法、装置或制品。此外,结合本文公开的方案所描述的方法或算法的操作或动作可直接体现在硬件、由处理器执行的软件模块或二者的组合中。另外,在一些方案中,方法或算法的操作或动作可以作为代码或指令的至少一个或任意组合或集合而位于机器可读介质或计算机可读介质上,机器可读介质或计算机可读介质可以结合至计算机程序产品中。此外,本文所使用的术语“制品”旨在包括可以从任何计算机可读设备、载体或介质访问的计算机程序。例如,计算机可读介质可以包括但是不限于,磁存储设备(例如,硬盘、软盘、磁带等等)、光盘(例如,压缩光盘(CD)、数字多功能光盘(DVD)等等)、智能卡和闪存设备(例如,卡、棒、钥匙驱动器等等)。此外,本文所述的各种存储介质可以表示用于存储信息的一个或多个设备或其他机器可读介质。术语“机器可读介质”可以包括但不限于无线信道以及能够存储、包含或携带指令或数据的各种其它介质。此外,本文结合移动设备来描述各个方案。移动设备还可以被称作为系统、用户单元、用户站、移动站、移动装置、移动设备、蜂窝设备、多模设备、远程站、远程终端、接入终端、用户终端、用户代理、用户设备或用户装置等等。用户站可以是蜂窝电话、无绳电话、会话发起协议(SIP)电话、无线本地环路(WLL)站、个人数字助理(PDA)、具有无线连接能力的手持设备、或者连接到无线调制解调器或用以实现与处理设备的无线通信的类似机构的其它处理设备。除了上述内容之外,在本文中使用词语“示例性的”来表示用作示例、实例或举例说明。本文中被描述为“示例性的”的任何方案或设计不必被解释为优选于或者优于其它方案或设计。相反,对词语“示例性的”的使用旨在以一种具体的形式来给出概念。另外,如在本申请和附带的权利要求中所使用的,术语“或”旨在表示包含性的“或”而不是排他性的“或”。即,若非特别指出,或者从上下文中显而易见,否则“X使用A或B”旨在表示任意一种自然的包含性置换。S卩,在该示例中,X可以使用A,X可以使用B,或X可以使用A和B两者,并且因此语句“X使用A或B”在任何上述实例中皆得到满足。另外,本申请中和附带的权利要求中所使用的冠词“一”应该被整体理解为表示“一个或多个”,除非具体指出或者从上下文显而易见是指代单数形式。 如本文中使用的,术语“推断”或“推论”一般是指从经由事件或数据所获取的一组观察值来推理或推断系统、环境或用户的状态的过程。可以用推论来识别具体上下文或动作,或者推论可以生成例如状态的概率分布。推论可以是基于概率的一即,基于对数据和事件的考虑来计算感兴趣状态的概率分布。推论还可以指代用于根据一组事件或数据来组合高级别事件的技术。这种推论导致从一组观察的事件和/或存储的事件数据构成新的事件或动作,而不管这些事件是否在时间上紧密相关并且也不管该事件和数据是来自一个还是若干事件和数据源。
权利要求
1.一种用于识别可视媒体内容的方法,包括 从移动设备的相机接收图像; 检测在所述图像中包含的四边形;以及 捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容。
2.如权利要求1所述的方法,其中,捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容进一步包括 执行文本识别。
3.如权利要求1所述的方法,其中,捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容进一步包括 执行针对静态可视媒体内容的图像识别。
4.如权利要求1所述的方法,其中,检测在所述图像中包含的四边形进一步包括 基于对象对比度来创建感兴趣区域图,所述感兴趣区域图标识在所述图像中的重要细节。
5.如权利要求1所述的方法,其中,检测在所述图像中包含的四边形进一步包括 接收相对于所述图像的取景器景象的一部分的用户输入。
6.如权利要求1所述的方法,其中,从移动设备的相机接收图像进一步包括 接收连续的多个帧,并且 其中,捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容进一步包括 执行针对动态可视媒体内容的视频图像识别。
7.如权利要求6所述的方法,其中,检测在所述图像中包含的四边形进一步包括 通过确定在所述连续的多个帧之间的差来创建运动图。
8.如权利要求7所述的方法,还包括 执行拐角检测;以及 删除在所述运动图内的拐角点。
9.如权利要求1所述的方法,其中,检测在所述图像中包含的四边形进一步包括 创建感兴趣区域图;以及 裁剪所述图像以包含所述感兴趣区域图。
10.如权利要求1所述的方法,其中,检测在所述图像中包含的四边形进一步包括 通过检测具有较亮照度的部分来创建明亮图。
11.如权利要求10所述的方法,其中,检测在所述图像中包含的四边形进一步包括 执行拐角检测; 对拐角点进行群集;以及 删除在所述明亮图内的拐角点群集。
12.如权利要求1所述的方法,其中,检测在所述图像中包含的四边形进一步包括 通过检测所述图像中的多个部分的焦深来创建深度图。
13.如权利要求1所述的方法,其中,检测在所述图像中包含的四边形进一步包括 检测所选择的四个拐角点群集的满足识别标准的候选四边形形状,以识别矩形显示设备的透视图。
14.如权利要求13所述的方法,其中,识别矩形显示设备的透视图进一步包括 通过以下方式删除占据另一四边形的大部分区域的任何候选四边形形状确定该四边形形状是否足够大以至于包含全部其它候选四边形形状。
15.如权利要求13所述的方法,其中,识别矩形显示设备的透视图进一步包括 识别所述矩形显示设备的边框。
16.如权利要求15所述的方法,其中,识别所述矩形显示设备的边框进一步包括 检测所述边框在相对侧边上的部分的共同边框厚度。
17.如权利要求16所述的方法,其中,检测所述边框在相对侧边上的部分的共同边框厚度包括 检测所述矩形显示设备的包围尺寸的一百分比的厚度,例如约10%。
18.如权利要求15所述的方法,其中,识别所述矩形显示设备的边框进一步包括 检测所述边框在相对侧边上的共同的主要部分的共同颜色。
19.如权利要求18所述的方法,其中,检测所述边框在相对侧边上的共同的主要部分的共同颜色进一步包括 检测至少一百分比的多个像素具有所述共同颜色。
20.如权利要求13所述的方法,其中,识别矩形显示设备的透视图进一步包括 确定所述候选四边形形状满足多于一个的标准,所述标准包括非凸面、所具有的全部内角皆大于110度、具有占据所述图像的主要部分的区域、具有约等于标准视频长宽比的长宽比、以及具有大约相同角度的两个邻角。
21.如权利要求1所述的方法,还包括 在所述图像的在所选择的四边形内的部分上执行直方图分析、边缘检测和尺度不变特征转换,以识别相应的媒体内容。
22.如权利要求1所述的方法,还包括 确定图像处理约束;以及 响应于所述图像处理约束,在所述移动设备和远程服务器之间分配对所述图像的在所述四边形内的部分的图像处理。
23.如权利要求22所述的方法,其中,所述图像处理约束包括 所述移动设备执行所述图像处理的能力。
24.如权利要求22所述的方法,其中,所述图像处理约束至少部分地包括 经由从所述移动设备至所述远程处理的传输信道进行发送的数据传输成本。
25.如权利要求22所述的方法,其中,所述图像处理约束包括 从所述移动设备至所述远程处理的传输信道的能力。
26.如权利要求25所述的方法,其中,分配对所述图像的所述部分的图像处理包括 响应于确定所述传输信道的低能力,发送包含图像片段的图像数据; 响应于确定所述传输信道的中等能力,在部分图像处理之后发送包含所述图像片段的所述图像数据;以及 响应于确定所述传输信道的高能力,在全部图像处理之后发送包含所述图像片段的所述图像数据。
27.如权利要求1所述的方法,还包括向远程服务器发送从所述图像的在所述四边形内的部分得到的图像数据;以及 从所述远程服务器接收关于所述图像数据与媒体内容库的任何匹配的报告。
28.如权利要求27所述的方法,其中,从所述远程服务器接收关于任何匹配的报告进一步包括 确定没有识别出匹配;以及 对从移动设备的相机接收图像、检测在所述图像中包含的四边形、以及捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容进行重复,以便获得要发送给所述远程服务器的额外的图像数据。
29.如权利要求27所述的方法,其中,从所述远程服务器接收关于任何匹配的报告进一步包括 确定从所述报告得到的匹配的数量具有适合于在所述移动设备的用户界面上呈现的大小;以及 接收针对从所述报告中得出并呈现在所述用户界面上的媒体内容列表中的一个媒体内容的用户选择。
30.如权利要求27所述的方法,其中,从所述远程服务器接收关于任何匹配的报告进一步包括 确定从所述报告得到的匹配的数量具有比适合于在所述移动设备的用户界面上呈现的大小更大的大小;以及 响应于所述远程服务器而发送图像片段以便进行额外的图像处理。
31.如权利要求1所述的方法,还包括 接收匹配的媒体内容以供所述移动设备呈现。
32.如权利要求31所述的方法,还包括 从所捕获的可视媒体内容所标识的点开始呈现所述匹配的媒体内容。
33.如权利要求31所述的方法,还包括 针对所述移动设备的用户界面对所述匹配的媒体内容进行重新格式化。
34.如权利要求31所述的方法,还包括 发送所述移动设备的用户界面的标识符以提示重新格式化所述匹配的媒体内容。
35.如权利要求31所述的方法,还包括 协商数据管理权以呈现所述匹配的媒体内容。
36.如权利要求1所述的方法,还包括 接收由麦克风捕获的音频;以及 使用哈希查找函数来辅助将所述图像数据与媒体内容库进行匹配。
37.用于识别可视媒体内容的至少一个处理器,包括 第一模块,用于从移动设备的相机接收图像; 第二模块,用于检测在所述图像中包含的四边形;以及 第三模块,用于捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容。
38.一种用于识别可视媒体内容的计算机程序产品,包括 非瞬态计算机可读存储介质,包括 用于使计算机从移动设备的相机接收图像的第一组代码;用于使所述计算机检测在所述图像中包含的四边形的第二组代码;以及用于使所述计算机捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容的第三组代码。
39.一种用于识别可视媒体内容的装置,包括 用于从移动设备的相机接收图像的单元; 用于检测在所述图像中包含的四边形的单元;以及 用于捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容的单元。
40.一种用于识别可视媒体内容的装置,包括 移动设备的相机,用于产生图像;以及 计算平台,用于检测在从所述相机接收的所述图像中包含的四边形,并且用于捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容。
41.如权利要求40所述的装置,其中,所述计算平台进一步用于 捕获在所述四边形内包含的所述可视媒体内容,以通过执行文本识别来识别所述可视媒体内容。
42.如权利要求40所述的装置,其中,所述计算平台进一步用于 捕获在所述四边形内包含的所述可视媒体内容,以通过执行针对静态可视媒体内容的图像识别来识别所述可视媒体内容。
43.如权利要求40所述的装置,其中,所述计算平台进一步用于 通过基于对象对比度创建感兴趣区域图,来检测在所述图像中包含的所述四边形,所述感兴趣区域图标识在所述图像中的重要细节。
44.如权利要求40所述的装置,其中,所述计算平台进一步用于 通过接收相对于所述图像的取景器景象的一部分的用户输入,来检测在所述图像中包含的所述四边形。
45.如权利要求40所述的装置,其中,所述计算平台进一步用于 通过接收连续的多个帧,来从所述移动设备的所述相机接收所述图像,并且 其中,捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容进一步包括 执行针对动态可视媒体内容的视频图像识别。
46.如权利要求45所述的装置,其中,所述计算平台进一步用于 通过借助于确定在所述连续的多个帧之间的差而创建运动图,来检测在所述图像中包含的所述四边形。
47.如权利要求46所述的装置,其中,所述计算平台进一步用于 执行拐角检测;以及 删除在所述运动图内的拐角点。
48.如权利要求40所述的装置,其中,所述计算平台进一步用于 通过创建感兴趣区域图并裁剪所述图像以包含所述感兴趣区域图,来检测在所述图像中包含的所述四边形。
49.如权利要求40所述的装置,其中,所述计算平台进一步用于 通过借助于检测具有较亮照度的部分而创建明亮图,来检测在所述图像中包含的所述四边形。
50.如权利要求49所述的装置,其中,所述计算平台进一步用于通过以下来检测在所述图像中包含的所述四边形 执行拐角检测; 对拐角点进行群集;以及 删除在所述明亮图内的拐角点群集。
51.如权利要求40所述的装置,其中,所述计算平台进一步用于 通过借助于检测所述图像中的多个部分的焦深而创建深度图,来检测在所述图像中包含的所述四边形。
52.如权利要求40所述的装置,其中,所述计算平台进一步用于 通过检测所选择的四个拐角点群集的满足识别标准的候选四边形形状,以便识别矩形显示设备的透视图,来检测在所述图像中包含的所述四边形。
53.如权利要求52所述的装置,其中,所述计算平台进一步用于 通过借助于以下方式删除占据另一四边形的大部分区域的任何候选四边形形状,来识别所述矩形显示设备的所述透视图确定该四边形形状是否足够大以至于包含全部其它候选四边形形状。
54.如权利要求52所述的装置,其中,所述计算平台进一步用于 通过识别所述矩形显示设备的边框,来识别所述矩形显示设备的所述透视图。
55.如权利要求54所述的装置,其中,所述计算平台进一步用于 通过检测所述边框在相对侧边上的部分的共同边框厚度,来识别所述矩形显示设备的所述边框。
56.如权利要求55所述的装置,其中,所述计算平台进一步用于 通过检测所述矩形显示设备的包围尺寸的一百分比的厚度,例如约10%,来检测所述边框在相对侧边上的部分的所述共同边框厚度。
57.如权利要求54所述的装置,其中,所述计算平台进一步用于 通过检测所述边框在相对侧边上的共同的主要部分的共同颜色,来识别所述矩形显示设备的所述边框。
58.如权利要求57所述的装置,其中,所述计算平台进一步用于 通过检测至少一百分比的多个像素具有所述共同颜色,来检测所述边框在相对侧边上的共同的主要部分的所述共同颜色。
59.如权利要求52所述的装置,其中,所述计算平台进一步用于 通过确定所述候选四边形形状满足多于一个的标准来识别所述矩形显示设备的所述透视图,所述标准包括非凸面、所具有的全部内角皆大于110度、具有占据所述图像的主要部分的区域、具有约等于标准视频长宽比的长宽比、以及具有大约相同角度的两个邻角。
60.如权利要求40所述的装置,其中,所述计算平台进一步用于 在所述图像的在所选择的四边形内的部分上执行直方图分析、边缘检测和尺度不变特征转换,以识别相应的媒体内容。
61.如权利要求40所述的装置,其中,所述计算平台进一步用于 确定图像处理约束,并且用于响应于所述图像处理约束,在所述移动设备和远程服务器之间分配对所述图像的在所述四边形内的部分的图像处理。
62.如权利要求61所述的装置,其中,所述图像处理约束包括 所述移动设备执行所述图像处理的能力。
63.如权利要求61所述的装置,其中,所述图像处理约束至少部分地包括 经由从所述移动设备至所述远程处理的传输信道进行发送的数据传输成本。
64.如权利要求61所述的装置,其中,所述图像处理约束包括 从所述移动设备至所述远程处理的传输信道的能力。
65.如权利要求64所述的装置,其中,所述发射机进一步用于 响应于确定所述传输信道的低能力,发送包含图像片段的图像数据; 响应于确定所述传输信道的中等能力,在部分图像处理之后发送包含所述图像片段的所述图像数据;以及 响应于确定所述传输信道的高能力,在全部图像处理之后发送包含所述图像片段的所述图像数据。
66.如权利要求40所述的装置,还包括 发射机,用于向远程服务器发送从所述图像的在所述四边形内的部分得到的图像数据;以及 接收机,用于从所述远程服务器接收关于所述图像数据与媒体内容库的任何匹配的报生口 ο
67.如权利要求66所述的装置,其中,所述计算平台进一步用于通过以下来响应所述接收机从所述远程服务器接收关于任何匹配的所述报告 确定没有识别出匹配;以及 对从移动设备的相机接收图像、检测在所述图像中包含的四边形、以及捕获在所述四边形内包含的可视媒体内容以识别所述可视媒体内容进行重复,以便获得要发送给所述远程服务器的额外的图像数据。
68.如权利要求66所述的装置,其中,所述计算平台进一步用于通过以下来响应所述接收机从所述远程服务器接收关于任何匹配的所述报告 确定从所述报告得到的匹配的数量具有适合于在所述移动设备的用户界面上呈现的大小;以及 接收针对从所述报告中得出并呈现在所述用户界面上的媒体内容列表中的一个媒体内容的用户选择。
69.如权利要求67所述的装置,其中,所述计算平台进一步用于通过以下来响应所述接收机从所述远程服务器接收关于任何匹配的所述报告 确定从所述报告得到的匹配的数量具有比适合于在所述移动设备的用户界面上呈现的大小更大的大小;以及 响应于所述远程服务器而发送图像片段以便进行额外的图像处理。
70.如权利要求60所述的装置,其中,所述接收机进一步用于 接收匹配的媒体内容以供所述移动设备呈现。
71.如权利要求70所述的装置,其中,所述计算平台进一步用于 从所捕获的可视媒体内容所标识的点开始呈现所述匹配的媒体内容。
72.如权利要求70所述的装置,其中,所述计算平台进一步用于 针对所述移动设备的用户界面来对所述匹配的媒体内容进行重新格式化。
73.如权利要求70所述的装置,其中,所述发射机进一步用于 发送所述移动设备的用户界面的标识符以提示重新格式化所述匹配的媒体内容。
74.如权利要求70所述的装置,其中,所述计算平台进一步用于 经由所述发射机和所述接收机协商数据管理权以呈现所述匹配的媒体内容。
75.如权利要求60所述的装置,还包括 麦克风,用于捕获音频, 其中,所述计算平台进一步用于 使用哈希查找函数来辅助将所述图像数据与媒体内容库进行匹配。
76.—种方法,包括 使用移动通信设备的相机捕获数字图像; 确定所述移动通信设备、从所述移动通信设备到远程网络的空中接口和网络服务器中的至少一个的能力约束; 基于所述能力约束,在所述移动通信设备与所述网络服务器之间分配对所述数字图像的图像处理;以及 接收图像识别的结果。
77.如权利要求76所述的方法,其中,确定所述能力约束进一步包括 确定所述空中接口的数据传输能力。
78.如权利要求76所述的方法,其中,确定所述能力约束进一步包括 确定所述移动通信设备的图像处理能力。
79.如权利要求76所述的方法,其中,基于所述能力约束在所述移动通信设备与所述网络服务器之间分配对所述数字图像的图像处理进一步包括 选择本地处理、共同处理和远程处理中的一种。
全文摘要
媒体内容的自动识别至少部分地基于借助于另一设备以可视方式捕获正在向用户呈现的媒体内容的静态或视频图像。可以通过确定用户的位置、捕获所述媒体内容的音频部分、所述捕获的日期和时间或用户的简档/行为特性,来进一步精炼所述媒体内容。识别所述媒体内容可以要求(1)区分出与视频显示器相对应的矩形明亮区;(2)解码在所显示的图像/视频内呈现的水印;(3)对所述呈现进行足够的表征以便能够确定节目的特定时间戳或部分;以及(4)确定用于观看所述节目的用户设置偏好(例如,关闭字幕、长宽比、语言)。因此,在识别了之后,可以接收到被适当地格式化的媒体内容,以便在移动设备的用户界面上继续呈现。
文档编号G06F17/30GK103052961SQ201180038237
公开日2013年4月17日 申请日期2011年8月5日 优先权日2010年8月5日
发明者B·莫迈耶, S·M·萨拉查, B·福鲁坦普尔 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1