行为事件测量系统和相关方法与流程

文档序号：11851644阅读：415来源：国知局

本发明总体上涉及对数字设备、通信和使用背景的监测，在该使用背景中，用户在他们的日常生活中携带这些设备并且接触从装置内或外部(例如，户外广告)呈现的内容。具体地，但不完全地，本发明涉及采样和收集使用无线设备或附接的可穿戴技术产品捕获的图像，所捕获的可交付的图像代表了当通过例如数字眼镜(goggle)或其他可穿戴技术产品和关联的摄像头或更宽泛而言通过成像技术被捕获时在屏幕或外部对象上的内容。

背景技术：

当今的消费者越来越多地使用新的数字设备，如智能手机、平板计算机、智能手表、数字眼镜、还包括其他智能设备和可穿戴技术产品。这些设备中的许多，即使不是大多数，正开始具有如运行复杂数据处理和统计活动并且执行更重要的数字运算的能力的特征。此外，除了各种成像和声音捕获技术分别例如数字摄像头和传声器之外，所述设备也可以结合有便于将屏幕内容的样本捕获到图像中的技术。这样的特征和技术已很大程度上被提供在当今的无线设备，包括智能手机、平板计算机和平板手机中。此外，下一代设备如智能手表、数字耳机、数字眼镜和其他可穿戴技术产品也已经包括了这些相同的特征。这些可穿戴设备中的一些通过所谓的主设备(诸如智能手机)连接到互联网，并且甚至能够使用主设备的处理能力。然而，结合有一个或多个智能设备和数字捕获技术的系统正变得越来越普及。

此外，关于使用数字设备的交易和支付，它们正成为例如电子商务和游戏产业领域的大量参与者的重要收入来源。使用计算机和智能无线设备来完成这样的交易正在增加。相关的过程还涉及在智能设备上或者通过可穿戴技术产品的用户界面的一系列步骤和动作。

事实上，当今人们使用越来越多的技术手段来通过他们的智能设备消费内容物和获取数字服务。传统地，例如大多数互联网用途是关于网页浏览和访问某些网站。现在人们用本地应用程序、基于HTML5的微件(widget)、不同类型的通知和基于弹出窗口的向导、实时摄像头图像显示在背景中的增强现实应用程序、或者投影到例如智能手表或数字眼镜的一组基于文本或通知的对话框。不能再基于简单的动作如跟踪设备与互联网之间的流量(诸如基于测量网站访问事件或加载到设备中的页面的各种方法)来识别这样的事件。

除了设备上的活动之外，显然人们还接触他们的智能和数字设备外部的媒体事件。这些活动是什么以及人们是否对这些活动提供任何关注/他们对这些活动可能怎样反应是要解决的并非微不足道的信息检索和分析问题。

技术实现要素：

本发明的目标是至少缓解现有技术问题并且克服关于对用户经由设备感知的或至少与设备并列感知的、在数字设备的使用和在物理世界(即环境)中的活动产生的行为事件和用户接触的监测和分析的许多挑战。

在一个方面中，提供了一种电子系统，该电子系统经由一个或多个数字设备通过使用若干传感器、可选的可穿戴技术产品来获取关于用户行为、数字交易和与数字内容和服务相关的接触(exposure)的数据，或者外部接触和关于用户与环境之间的关联事件的数据，该系统被配置以：

收集反映用户在通过关联的数字投影或者对于数字内容或对象专用的特征呈现在附接到设备的一个或多个数字屏幕上至少潜在地感知的内容和对象的数据，或者收集反映用户在环境中至少潜在地感知的内容和对象的数据，

基于所收集的数据重构至少潜在地感知的视觉景观，以及

根据重构和在重构中检测到的关联的接触事件，确定用户关注的目标和/或程度，

其中这样的系统被配置以在数字对象识别过程中应用本地存储的关于规则或识别性特征(fingerprint)的信息，所述数字对象识别过程涉及所收集的数据以及由重新捕获视觉景观的所述重构所反映的用户动作、数字内容或外部对象的类型或身份的验证。

在另一个方面中，一种用于获取数据的方法，该方法经由一个或多个数字设备通过使用若干个传感器、可选的可穿戴技术产品获取关于用户行为、数字交易以及与数字内容和服务相关的接触的数据，或者关于外部接触和用户与环境之间的关联事件的数据，该方法包括：

基于所收集的数据重构至少潜在地感知的视觉景观，以及

根据重构和在重构中检测到的关联的接触事件，确定用户关注的目标和/或程度，

其中，在数字对象识别过程中应用在所述一个或多个设备处本地存储的关于规则或识别性特征的信息，所述数字对象识别过程涉及所收集的数据以及由重新捕获视觉景观的所述重构所反映的用户动作、数字内容或外部对象的类型或身份的验证。

在又一个方面中，提供了一种在非临时性载体介质上的计算机程序产品，该计算机程序产品包括促使计算机执行上述方法各项步骤的指令。该载体介质可以包括例如存储卡、光盘或磁性存储介质。

关于本发明的不同实施方案可以提供的许多益处，一个显著的有利特征在于识别和阐明媒体接触事件、这样的接触的内容和目标、该事件的持续时间以及甚至由用户所经历的其他特征的能力。因此，本发明提供一种关键技术使得能够实现下一代数字终端用户服务和增强现实应用、或用于媒体研究目的。考虑解决方案的通用性的另一个实施例，即使数字设备的用户不与设备交互或不检查屏幕事件，建议的解决方案可以被配置以利用可用的传感器(诸如摄像头)来确定用户接触和/或关注。传感器可以与数据采集/处理设备集成或至少功能性地连接到所述数据采集/处理设备上。

更详细地，本发明的实施方案提供了一种技术上可行的解决方案，该解决方案用于收集和验证例如关于用户用数字设备发起的动作的视觉数据、识别背景(contextual)因素(例如是用户外部或内部，即用户的相对和/或绝对位置背景)以及甚至识别和跟踪各种外部对象和事件，如用户持续4秒在给定的位置看到或关注到一则户外广告的情况。以下实施例描述了本发明的有效的其他使用例。

第一，可以跟踪和分析人们如何执行和完成交易(如支付或购买)或者他们的数字设备上的其他类似的事件。可以收集关于这样的事件的视觉信息并且最终可以检索和阐明这样的活动的类型和内容。

第二，可以测量与数字内容的接触以及接触的持续时间。所监测的活动可以通过用户和设备之间的交互发生，或者至少通过机载或功能性连接的传感器可监测的方式发生。这样的活动可以包括使用移动电话应用程序、通过任何数字设备访问网站、接触或使用服务或内容的微件或通知类型，所述服务或内容位于智能手机主屏幕上、或位于外部的但功能性连接的设备的例如数字眼镜类型的屏幕上或位于附接到用户的例如腕部的智能手表设备上。

所建议的解决方案可以被配置以检索接触的内容和服务的视觉跟踪与关于该内容(例如无论用户关注是否针对这样的事件，并且无论内容是否对用户而言是技术上可见)的控制信息从而跟踪与当今服务和内容的真正的接触。关于可穿戴设备的物理屏幕或投影叠加的关键特征和视觉信息可以被捕获并且用以识别用户这样的活动。

如以上已经提及的，本发明可用于跟踪与用户外部的内容、对象、事件和介质的接触。实例可以包含使用例如由用户佩戴的数字眼镜的摄像头监测对户外广告的接触来捕获这样的事件，并且在该方法中进一步利用智能数字设备的处理能力。

因此，通常可以以新颖的方式用例如附接到智能手表和数字眼镜的摄像头并且采样数据来执行跟踪媒体事件或对数字设备本身外部的任何活动的接触/关注。可以应用图像识别技术来得到关于用户在环境(外部物理世界)中接触的对象的身份和类型的有价值的信息。例如，系统可以跟踪有多少个用户、以及用多长时间接触选定类型的户外广告或者甚至被识别的某些广告。

第四，本发明可以被配置以阐明背景状况，诸如用户的关注或状态(使用例如从用户与数字设备之间的交互所捕获的可用信息，该交互包括使用触摸界面、眼睛的位置和移动，和/或一般身体状况如心率或测量的身体/皮肤温度)或环境光水平、噪声、温度、位置数据和基于加速度或速度的数据点，从而确定用户在做什么或通常他/她的或携带的数字设备的背景是什么。

背景状况或“变量”是相关的，因为除了其他应用之外，它们表征接触的类型或者用户活动具有的内容、服务或外部对象。可以在多个不同的水平上，可选地同时地监测用户关注。一个任务可能意味着确定用户关注在哪里或者究竟有没有任何关注，并且将该数据叠加以接触类型或记录的数字动作，以验证用户实际上是否故意采取这样的动作，并且将该数据与噪音和非用户发起的、潜在地意外的或者其他错误的动作相分离。但是，所应用的背景逻辑可以被配置以得到关于用户行为或接触的背景的信息，诸如所述活动是否在增强叠加环境中发生；是否在黑暗或明亮背景下看到广告；当观察到所述活动时，是否有充满用户可见内容的多个或仅一个(屏幕)窗口等等。

总之，各种各样的面向终端用户的服务和应用程序都可以建立在本发明所提供的之上。作为另一个实施例，可以向用户提供下一代增强现实(AR)应用，所述下一代增强现实应用识别用户何时潜在地接触一种具体类型的外部对象(例如特许零售商店)并且可选地通知用户诸如在那家商店目前是否有特别折扣的信息，将信息与用户概况匹配。另一个实施例是一个应用程序，所述应用程序不管服务的技术交付如何，能够跟踪人们在智能手表、数字眼镜或例如智能手机上使用何种内容和服务以及使用多长时间，并且用这些数据可以提供关于对有关用户可能有特殊兴趣或价值的一些其他应用和服务的准确建议。

本发明还发现了与媒体跟踪应用有关的许多用途。与媒体研究行业的目标一致，本发明建议的系统可以被布置以从使用某些服务、消费内容以及接触事件的用户中的一些样本(或全体)收集信息，从而量化关于影响范围、参与和活动类型的信息，并且提供这样的数据用于研究的目的以理解某些特性有多普及、用户如何使用这样的特性、特性的参与程度如何、用户接触了何种户外或屏幕上的广告或促销消息等。在许多不同的工业领域中，的确有受益于本发明的实施方案的各种大量的应用。

表述“若干(a number of)”在此指代从一(1)开始的任何正整数，例如指代一、二或三。

表述“多个(a plurality of)”在此指代从二(2)开始的任何正整数，例如指代二、三或四。

根据在数据传输动作相关的分析下具体实体的角色(即发送者的角色、接收者的角色或二者)，表述“数据传输(data transfer)”可以指代发送数据、接收数据或二者。

术语“一(a)”和“一个(an)”不表示数量的限制，但表示存在至少一个所引用的项。

在从属权利要求中公开了本发明的不同实施方案。根据以下详细描述，本领域技术人员将明了本发明的各种其他的实施方案和进一步的益处。

附图说明

参考所附附图更详细地说明本发明的不同方面和实施方案，附图中：

图1是例示根据本发明的总体构思的不同元素和其可能的实施方案的各种元件的高级简图。

图2重点在功能方面更详细地例示了根据本发明的系统的一个实施方案。

图3例示了根据一个可行的实施方案本发明在小组类型研究中的应用。

图4例示了根据本发明通过至少一个设备实现的数字系统的一个实施方案，该数字系统主导硬件和控制硬件进行数据计量和通信的软件。

图5是根据本发明的一种方法的高级流程图。

图6经由一对屏幕快照和相关的差分图像例示了一种差分成像方法的一个实施方案的运行。

图7是关于屏幕捕获——尤其是相关速率调节程序——的一个实施方案的流程图。

图8示出了用菜单指示符从数字用户终端获取的数个屏幕捕获，所述数个屏幕捕获将由根据本发明的屏幕捕获分析程序的一个实施方案所检测。

图9例示了用于菜单指示符搜索算法的潜在屏幕(快照)目标区域。

图10描述了菜单指示符模板的四个实施例。

图11是菜单/主页和应用程序内的屏幕快照识别程序的一个实施方案的流程图。

图12表示与本发明有关的所应用的整体屏幕捕获分析框架的一个实施方案。

图13例示了所提供的框架的应用的一个实施方案。

图14是用于压缩屏幕捕获的图像(屏幕快照图像)的指示并将其传输到远程实体(诸如服务器)的方法的一个实施方案的流程图。

图15示出了两幅屏幕快照图像和其基于压缩和编码原始图像以减少内存和数据传输资源消耗的重构。

图16例示了购买跟踪的一个实施方案。

图17例示了窗口形状检测的一个实施方案。

图18示出了相对于显示视图(或屏幕快照)特征诸如微件的内容分析的一个实施方案。

图19例示了图像分割的一个实施方案。

图20表示例如经由智能眼镜显示的增强现实视图，其中补充有通过本发明的一个实施方案从该视图检测到的感兴趣区域(ROI)的指示。

具体实施方式

本发明总体上提供一种系统，该系统可以被配置以测量与各种实体(诸如应用程序、网站、通知、弹出窗口和小窗口部件)有关的行为事件，所述行为事件通常被设计用于与包括一个或多个用户界面(UI)的无线或有线数字设备一起使用，所述数字设备或者是整体的或者是功能性连接的设备(例如数字(智能)眼镜)。解决方案基本上是不理会设备和技术(原生应用程序、HTML5、微件等)，并且显然具有如在此所研讨的围绕媒介/互联网行为跟踪的大量事务中的广泛应用。

更进一步地，本发明使用关于用户经由例如智能数字设备(如智能手机)的整体(固定地附接)屏幕对所消费的内容和数字服务的识别相似的方法，提供了一个可行的平台用于跟踪由用户所看见的或至少潜在地看见的并且可选地通过可穿戴技术产品(眼镜、智能衣服等)所收集的物理对象或者接触设备-外部事件或对象。

图1在100处示出了例示根据本发明的整体概念和系统的不同元素和其潜在实施方案的各种元件的高级简图。用户102访问并且经常随身携带不同的数字(用户)设备104(诸如计算机、移动电话如智能手机、平板计算机以及智能电视)，所述数字设备可以提供结合本发明使用的数据收集和分析逻辑105，以用于收集、处理和分发关于用户行为、数字交易、用户接触屏幕上的或外部的活动、用户关注等的数据。

设备104可以进一步至少功能性地连接到其他设备，例如可穿戴技术/设备如数字(智能)眼镜104a或智能手表，如果没有提供必要的处理、用于自治数据记录和处理的存储器或数据传输能力，所述其他设备可以向设备提供数据用于分析。如将在以下更详细地描述的，可以通过本发明来测量设备上的(参见屏幕捕获112)和外部的(参见用户102所处的地方的物理世界中的环境的提取物110)活动和相关的现象诸如用户关注。

测量的数字(用户)设备104、104a外部的实体可以包括组织成一个或多个布置110的不同的远程服务器108，所述布置包括至少一个服务器，每个服务器包含例如用于存储由数字设备104提供的数据的若干数据库，用于处理、充实(enriching)和汇总数据的处理逻辑，以及用于传输、分发数据的数据传输接口。这些实体可以经由通信网络107(诸如互联网)来连接到。

图2通过块图和流程图的组合公开了在适于测量设备上的事件和外部环境(物理世界)事件两者时的本发明的一个实施方案。在一些实现中，许多或在极端情况下，全部示出的实体都可以在单个的数字设备上实现。

本发明可在许多背景中使用。在一种背景中获取视觉数据诸如视觉(重新)捕获(例如屏幕快照)。它反映了用户在任何特定的时间能够看见的显示屏的内容。例如，显示器可以是智能手机或平板计算机的例如OLED(有机LED)显示器。一个另外的技术背景包括将本技术与附接到数字智能设备、可穿戴设备(智能手表或数字眼镜)等的摄像头和任何其他传感器一起应用，因此，视觉数据反映物理世界(例如零售商店、户外广告)中的对象和/或用真实物理或虚拟内容的背景叠加的一些数字内容。

例如，用户可以通过使用数字眼镜接触视觉资料，其中一些通知被示为增强的通知，而背景图像基本上由用户可视的实际物理背景构成。背景图像可以通过例如眼镜或塑料制品的光学透明的表面来实现，该表面使得用户能够通过其看见和观察环境，而其他的数据可以HUD(平视显示器)的方式投影到表面上，从而形成集合屏幕(aggregate screen)，或者背景(视频)图像也可以通过布置在用户眼睛前面并附接到眼镜框的小数字显示屏提供。在后一种背景中，可以利用安装在眼镜上的若干摄像头提供图像。

例如，外部事件和对象202可以指的是接触户外广告或环境中的其他可感觉的对象/事件。可以在投影的虚拟(表面)或真实的物理屏幕上监测通知和弹出窗口208。进一步地，可以监测用户用应用程序(诸如网页浏览器、微件等)发起的动作212。

视觉捕获逻辑204指的是用于数据输入的技术和技巧，诸如摄像头、屏幕抓取和增强现实叠加记录。

背景数据和验证206指的是通过合适的传感器(当可用且激活时)获取和记录表示例如用户关注、温度、环境声音、光(即期望的环境参数)、速度、加速度等的数据。背景数据和验证可以向视觉捕获逻辑204提供数据并且监测由逻辑204发出的相关请求并为所述请求服务。

在项目210中包括的元数据数据库、识别性特征库和规则库对于本领域技术人员而言是相当明白的。例如，项目210可以对请求进行服务以将对象(诸如图标、窗口、文本或相关的应用)识别或分类并且返回适当的确认。元数据数据库可以是用户(设备)创建的或维护的，这意味着数字用户设备可以识别新的显示器上的或外部的(例如通过摄像头)对象并向数据库或主导数据库的实体提供所述对象的指示，以用于可选的处理和添加于其中。

主控制(器)216指的是对包括在204处的传感器的控制(诸如传感器的采样或性能)并且在另一方面从204对所捕获的数据和相关的解释规则的接收。

在218处执行数据处理、充实和同步(用潜在的外部实体诸如服务器)。因此，本地和/或外部数据库214和其他实体用于存储记录的活动和接触事件，可选地为了该目的进一步利用通用元数据数据库210。当实体214从块218接收到记录的信息时，实体214可以将控制信息(诸如记录规则更新、各种设置)提供回块218。

图3结合内容识别、应用/流量跟踪检测、参与或关注度量的确定以及背景识别303的方面提供了对本发明在小组类型研究中的使用的总体见解。如以上提到的，本发明总体上涉及连接到无线通信网络的移动设备和其他类似的设备302，但也可以应用于台式计算机和其他数字终端。通过使用SDK(软件开发工具包)，本发明很适合例如不同的基于小组的研究方法，所述SDK被嵌入在分发给用户的在线和/或移动设备的应用程序/服务中以启用例如设备上的客户侧计量308。

可应用的观众获取技术304(例如应用程序或嵌入应用程序的特征)和候选(empanelment)/观众管理工具306可以用于雇用应答者(小组成员)和控制相关的小组。用于数据记录的客户端数字设备和外部实体(诸如服务器)都可以被用于主导用于数据的数据库并且实际上处理数据310。多个实体可以参与程序，该程序可选地包括例如基于云的分类引擎和相关的机器人技术/自动化技术311。报告和商业智能平台312可以为收集的、分析的、汇总的和获取的数据的终端用户提供期望类型的后期处理特征并且输出元素，诸如报告、数据库视图、仪表板等314。

参考图4，在400处例示了本发明的一个优选实施方案，该实施方案强调计量软件/应用相对于远程实体(诸如互联网服务器)和被监测的不同UI的功能性。公开的系统包括在设备上可下载的软件，该软件能够使用电池和CPU优化在主导的数字设备(例如智能手机、平板计算机或其他计算机设备)的背景中智能运行以避免对于用户体验的不必要的改变。该软件有利地在终端的中央处理器402(包括例如微处理器、微控制器和/或信号处理器)中运行，因此靠近设备的运行中心，并且关联的用户界面404可以在该汇合点上被全部捕获。设备可能具有多个不同的用户界面(耳机、数字眼镜、智能手表等)或仅具有单一一个用户界面，诸如触摸屏。用户界面诸如屏幕和/或各种传感器可以固定地(整体解决方案)或可移动地/功能性地附接到设备。设备可以包括存储器406，所述存储器例如为若干个存储器芯片的形式，和/或与其他元件(诸如处理元件)集成，以主导计量软件并且存储收集的数据、设置、各种应用等。存储器406可被本地软件(SW)操作412利用，可选地由以下过程执行，所述过程关于屏幕图像(屏幕快照或其他视觉数据)的生成、随后重新捕获/重构和从中识别特征等408a以及基于数据分析的行为日志的数据分类/生成408b。但是，存储在存储器406中的数据可以和从外部实体接收的数据410都通过互联网提供向可到达的外部实体。

优选地，使计量软件能够在系统级上与用户可能拥有和使用的其他数字设备通信，这些其他设备也在其上安装有计量软件。

具体参考图中的项目408a，当设备执行其他动作并且用户潜在地与设备交互时，在后台运行的该软件被配置以可选地周期性地捕获屏幕图像，并且用设备上的逻辑来重构屏幕图像，包括例如压缩、识别数字识别性特征(例如某些像素、像素组、配置)或通常其中的文本、颜色和符号(例如应用程序或公司标志)、识别某些屏幕/显示视图区域，和/或规定一组压缩的特征向量(人们可以称之为“特性/服务/应用程序的DNA”)，所述特征向量以所希望的详细程度描述内容的本性(类别-或例如应用程序-专用的)。

有利地将软件进一步配置以利用若干(其他)日志文件，如HTTP跟踪和应用程序活动日志，来支持决定并且控制计量通过屏幕捕获的屏幕内容的逻辑。在进一步的实施方案中，为了音频匹配目的，解决方案可被安排以跟踪可用的音频信道(音频回放、传声器信号等)并记录音频采样。

另外，具体参考图中的项目408b，计量有利地被配置以收集其他有关的数据点并且将这些数据点与用户的具体动作关联或链接。而且，计量应用程序也可以被配置以产生心跳信号(指示设备什么时候接通)并且产生反映参与(例如，确认屏幕接通)或其他接触(例如在数字眼镜中可以看见某物，并且用户是移动的，或者在耳机中可以听见某物并且用户已经戴上耳机)的信号。

计量软件可以被配置以产生关于识别的项目或事件的日志文件，该日志文件例示例如使用了哪些设备、在哪种背景中、在哪种模式中和/或使用什么用户界面)。

这些数据向量可以在统计方面与参考库(在分类引擎中)匹配以进一步增加元数据和分类信息。

实际上，可以允许选定的一组人将专门构成的数据收集应用下载到一个或多个他们的有联网能力的设备，包括智能手机、平板计算机、可穿戴技术产品(智能手表、带式计算机、数字眼镜等)、膝上型计算机、台式计算机、电视机等。

所述应用可以由至少两个主元件组成。第一，应该有用户界面，该用户界面能够向用户显示基本信息，如计量应用软件的状态，同时也为用户-应用程序交互提供简单的选项(例如通过按钮或其他触发特征将数据从计量同步到互联网的选项)。

第二，应该有主应用，也称为后台运行逻辑，该主应用负责在一个或多个单独的线程中收集数据，优选地被配置以进行优化的数据预处理和/或与基于网络的服务器通信以传输服务器的数据。另外，主应用可以被布置以从网络接收配置消息并且当应用程序第一次安装时方便注册用户。

主应用优选地被设计为抵抗任何原本可能导致主应用变得停用的技术过程或用户行为。因此，主应用可以包括如看门狗(watchdog)的特征，该特征能够发起检查主应用是否运行的单独的过程，并且如果没有运行，则重新发起主应用使得主应用可以返回其在后台上的活动。主应用优选地包括验证设备何时关闭和重新接通的特征，在重新接通的情况下通常默认主应用启动。

计量应用的优化的一个实用的实施例涉及屏幕上发生的活动/交易的验证，包括例如移动支付。仅在一些硬编码或动态定义的事件第一次发生时(例如，仅对于一些应用程序和/或网站而不是它们的全部，跟踪和识别支付)，可以执行图像捕获和相关数据的进一步的重构/识别。

优化的另一个实用的实施例涉及在使用数字眼镜或其他基于摄像头的方法重构在任何给定时刻用户能看到的东西时的数据采样。在这样的事件中，关于环境光(如果环境光是暗的，则采样应当被限于低频率)或用户关注(如果观察到用户的眼镜是闭着的并且他可能在睡觉，则采样可能被限于较低速率和/或使任何记录的关于接触的事件无效)的信息有助于构建现实的关于用户的动作和真实接触的信息流。

计量应用还能够通过动态的和可配置使用的设备API来优化电池消耗。例如，当需要较少颗粒(granular)数据时，本发明能够通过本地缓存的数据域跟踪应用程序的使用特征和名称，或者网站URL和名称，这些提供对先前活动的反映而不提供关于其的实时视图。类似地，基于网络的服务器(例如虚拟私人网络)可以被动态地用以收集所需数据中的一些而不需要从数字用户设备本地收集该数据。

然而，应该有能够明确地跟踪在屏幕上发生了什么的主应用的整体部分。这种通常的跟踪任务可以被认为包括例如如下三个方面。

第一，可以观察屏幕电源。如果屏幕被关闭，主应用可以提供用户没做任何事或者至少没看任何东西或没有专注于屏幕的日志记录。当今的计算设备还可以在后台在任何给定时刻执行若干应用，但是用户实际上没有使用或参与这些应用。屏幕电源观察者可以用于确认该参与并且优选地过滤掉不是关于真实参与的活动。

第二，可以可选地基本上连续地访问应用编程界面(API)，该应用编程界面提供关于在屏幕上的活动应用或其他实体的直接信息。该信息和前述屏幕电源观察者一起能够在最好的情况下给出非常精准的关于人们在屏幕上进行的活动的类型和身份的信息。

第三，主应用可以被布置以在限定的频率下执行屏幕采样或采取屏幕快照。可以在设备中至少预分析这些屏幕快照，并且可以观察到若干个已知形状、颜色、图标、符号、线条或其他特征。如果满足特定的条件，屏幕快照被提供以在主应用中或在网络服务器本地进一步分析。

屏幕捕获的使用可以涉及利用许多创新。一个创新可以包括以下过程，其中将特征向量库的单独目录可选地周期性地下载到设备，并且主应用能够访问该信息，并且配置屏幕捕获观察者以仅例如在选定的应用打开时运行，并且然后例如周期性地执行屏幕快照且通过例如众所周知的图像识别工具和方法重构屏幕快照的主特征。一组特征被输出，并且如果这些特征的任一个匹配所述库，可以做进一步的动作。进一步的动作可包括抓取在屏幕上可见的文本。例如，在移动支付跟踪的情况下，可以搜索标准化的弹出窗口，并且当识别到时，交易的价格和内容可以被提取并写入日志文件中。

其他方法可以涉及更连续地使用屏幕捕获和生成特征。这意味着例如从屏幕捕获中可选地基本上连续地跟踪、检测和记录若干个具体的预限定的形状(实际采样频率是多少，如本领域技术人员所认可的，该实际采样频率对于不同的实施方案是不同的)，或者所述应用正在从每个屏幕快照生成简单的、压缩的特征组。这些屏幕快照和/或它们的压缩版本可以被本地地存储和/或基本上立即或稍后(例如，根据进度表)可选地进一步发送例如到网络服务器以用于进一步分析。例如，为了与预限定的识别性特征匹配，可以随后将检测的特征或识别性特征连续地向前发送。如果处理单元能够解释内容，换句话说能够将检测到的特征与已知的某物匹配，则在该点生成日志文件以反映用户实际上在做什么。

屏幕捕获逻辑优选地涉及若干个识别性特征库，即“DNA”。这些库可以是定制的(管理员将启用某一应用程序，并且运行图像识别和识别性特征过程，并且观察将会有什么结果，并且将输出和关于所用应用程序的信息/元数据一起写入库)，和/或生成过程可以是自动化的，这可能意味着机器人从若干网络下载应用程序和内容，同时记录它们的身份和其他信息如内容类别，启动它们并且然后构建应用或服务的图像识别性特征，并且将元数据和识别性特征写入数据库。一个应用或服务将典型地具有可实现为识别性特征的若干特征(例如重复的图案)，所述特征然后可以用于匹配的目的。

因此屏幕捕获技术在本地模式(用预限定的识别性特征库)和网络模式(至少部分地在网络端/网络服务器上完成匹配)二者中工作。整个系统优选地被设计以使得主应用(作为计量的部分)优选地仅或主要执行轻量级的过程，并且或者通过本地设备中的批处理工作，或者然后通过网络服务器中的按需或批处理工作，可以及时地并且与第一级数据采集和图像重新捕获物理上分开地运行匹配算法和其他更复杂的抓取技术。

基于屏幕的观察可以结合另外的所谓的技术测量，如过程线程观察器，和/或结合来自技术测量的数据，以重构最全面且详细的用户活动的日志文件。例如，屏幕观察器仅验证用户参与，和/或活动名称是什么，但是在获取关于事物(如持续时间或活动类型等)的更多信息时可能期望详细的技术观察。

可以专门定制以上说明的屏幕捕获技术以快速识别重复和标准化的形状(例如应用程序中和游戏中的交易和支付)、广泛使用的移动应用以及它们的特征(身份验证、支付、动作)的使用。该技术还与例如基于网络的技术(HTML5微件)但不生成传统的HTTP请求的应用一起工作，并且不能被运行例如应用过程线程的技术观察器观察到。

识别性特征的生成是相对复杂的过程并且涉及观察屏幕快照中的变化，所述屏幕快照由使用特定服务或应用的过程产生。当根据预定的标准已经发生了显著的变化时，将更彻底的调查出哪些已经变化以及哪些保持不变。静态的/没有变化的对象、颜色、形状是优选地被保存为服务或应用程序的识别性特征的那些。这些有时可以是文本字符串，有时是简化的形状如标识，并且有时是一组颜色。机器学习方法可以用于以有效的方式生成识别性特征，从模拟测试运行(或手工测试例)提供给它的大量数据中得出。

有利地，使用误差校正并且还通过允许在识别性特征内容中限定数量的变化的过程来执行屏幕捕获和所产生的识别性特征与所述库的匹配。识别性特征(尤其是复杂的那些)不需要与屏幕功能相同来发现匹配。系统可以应用具有限定阈值的判定规则(诸如“最高相关性”)来完成匹配。

屏幕捕获技术的实施方案优选地被配置以观察设备中存在或打开/启用多少个窗口或框，并且分别为每个窗口重构每个应用或服务的本性。通过说明屏幕捕获，还可以表明启用的窗口是哪个(以及哪个是未启用的)。启用的窗口在其上可以有光标或指针，或者一些图形标识符，诸如与其他窗口不同地呈现/看上去不同的顶部栏。通过获取其他功能性附接的用户界面(如数字眼镜)的屏幕捕获，可以再次识别类似的重复的对象，传达关于叠加在潜在地更大变化的内容上的服务和应用(例如，在数字眼镜上，如由人眼所看见的正常景观的顶部上运行的系统观察器、重复的命令和应用特征)。

在识别或者验证设备的状态或设备的用户界面之一的状态的测量中或使用所述测量，系统还可以被配置以为其他测量加标签且充实使用度量的分类。例如，如果屏幕捕获技术能够识别显示器上没有观察到可见的活动，屏幕捕获技术可以指示本发明的选定的其他模块将全部其他测量数据在相应的时间段期间标记为“后台使用”。

类似地，屏幕捕获发明能够在“一个窗口屏幕”与“多个窗口屏幕”之间作出区分，并且与其他数据一起(如果不是单独的)描述特定的应用程序/服务何时在屏幕上被启用且可见，或者某物是否仅可见但未被启用。类似地，本发明优选地能够独立于原生应用程序为基于HTML5的微件加标签，并且从其他种类使用中区分出基于网络浏览器的使用。

本发明的一个具体实施方案处理或者在数据收集设备本地(通过附加的关系)或者替代地在服务器处或者在二者中的不同类型的数据流的集成。例如，基于屏幕捕获的观察可以与应用程序使用或过程线程日志结合，或者基于设备的计量数据可以与基于网络的数据一起收集，并且通过利用关联关系和时间戳，可以将不同数据源汇到一起并且数据流集成。通过应用若干个分析和分类过程，基于原始数据流可以再生成第二级或通常较高级数据流。例如，可以通过应用过程线程日志、HTTP数据流和基于图像重新捕获事件的日志文件的组合来生成描述在线属性级上的用户活动的日志文件。在数据的组合中，为了使单独的数据流互相可比较，可以执行对数据的动态按需处理或者各种后期处理活动。

图5是表示根据本发明的方法的一个实施方案的高级项目的流程图500。

方法开始502可以包括将计量软件安装到数字设备以及增加一个或多个服务器的网络服务/服务器装置，所述网络服务/服务器装置用于主导例如识别性特征或元数据数据库以用于数据收集或分析并且从数字设备接收收集的数据用于存储、汇总、分析和/或分发。

启动数据收集程序504。例如，获取的数据优选地包括视觉数据，该视觉数据是反映在数字设备的显示器上显示的、投影的或在环境中存在的内容和对象的数据。视觉数据可以包括例如屏幕快照数据和/或其他数据，诸如还反映用户可以在设备屏幕上或在环境中感知的元件和实体的各种技术数据。用户潜在地且很可能在许多情况下确实用他/她的眼睛感知到这样的视觉以及可见的数据，但可能并不总是这样，因为用户的关注可能在其他某个地方或遍布各种不同的事物。可以通过屏幕捕获(屏幕快照等)、监测用户与设备的交互(例如，通过用户输入技术(诸如触摸屏或按钮/键)的用户输入、被动/缺乏输入、基于例如特征(诸如眼睛跟踪(摄像头)、声音/传声器数据、移动/加速度数据等)的聚焦点)，并且通常通过各种可用的传感器(诸如摄像头、传声器、加速计、温度传感器、压力传感器、光/光照传感器、触摸敏感传感器等)来获取所述数据。

在506处，基于收集的视觉数据和进一步的其他数据(诸如用于描述能够在视觉数据中检测或识别的不同特征或项目的视觉数据和相关参数、元数据、各种传感器数据和例如识别性特征数据的处理规则/方法)来重构感知的(或者实际上，可能或者至少潜在感知的)视觉景观。例如，可以检测到表示动作(诸如支付/购买、广告互动、微件的使用等)的图标和文本字符串。正如本文透彻说明的，可以利用图像识别的各种技术。

因此，在508处确定相对于看到的项目(诸如设备上或外部(例如海报或数字标牌)广告、微件、应用程序等)的用户接触和可能的用户关注的优选不同特性，诸如其目标/程度。显然，确定结果仍然是基于可用信息的对接触和关注的估计，但基于实证检验提供了大体上精确的结果。

在510处将分析的数据选择性地存储在若干个本地和/或外部日志中。在收集数字设备外部提供数据将包括使用可用的数据传输技术(诸如无线通信/计算机网络)例如连续地/基本上瞬时地或按计划地向前传输数据，以用于由服务器实体远程存储、汇总、处理/分析和/或分发，所述服务器实体例如是用虚线描绘的可选的方法项目512指示的。

返回箭头强调了各种方法项目的执行的可能的重复性，以允许连续地或间歇性地监测用户接触和关注。方法执行在514处结束。

切换到根据几个可行的实施方案的分析屏幕捕获图像的总体框架的更全面的描述，提供了用于从屏幕快照提取有价值信息以及专用于特定任务的类似物的技术基础，诸如在浏览器或应用程序中跟踪支付、微件使用跟踪以及在许多应用程序之中进行应用程序中的广告跟踪。

除了其他替代物之外，分析智能设备屏幕快照的构思可被分类为在智能设备上执行视觉场景分析(VSA)的方法。视觉场景分析是根置于机器感知或计算机视觉中的一个主题，并且与图案识别在目的上相似但在范围上不同。

目标是从图像中不仅提取图案，而且还提取关于整个场景的高级信息。在智能数字设备屏幕快照的情况中，为了了解屏幕在向观众显示什么，这样的信息可以包括自动地且没有干扰地检索呈现在屏幕上的文本和图标、或其他图形。这样的信息有助于描述各种种类的设备-用户交互，并且对于许多公司和跨各种领域可能有很高的技术和商业价值。

除了许多其他使用实例之外，该框架的一个示例性使用实例包括主动地跟踪在应用程序内用户点击哪一分类的广告，以及用户关闭(例如，通过按“x”按钮)或忽略的是哪些广告，由此提供了关于用户喜好的主动反馈。例示该框架的多样性的另一个实施例可以包括跟踪和确认应用程序内进行的支付，无论它意味着游戏内的购买还是例如通过在线钱包进行账单支付。因此，证明本发明有用的场景的数量是相当大的，并且随着智能设备的类型数量的明显增加而只会增长。

可以以例如由将要执行的分析类型和/或用户活动所确定的速率通过从智能设备获取屏幕快照来发起从屏幕捕获图像提取有用信息的一般过程。因此，相比于当用户在他的智能设备上随意浏览时或者当屏幕接通但用户根本没有与设备交互时的速率，当将要跟踪根据利用的标准的重要活动(诸如在线支付)时屏幕捕获的速率可能很高且以短暂突发的形式。可以从一组预定值中选择所述速率，每一个速率对应于将被跟踪的特定情况或行为，或者可以在线确定所述速率。

对于在线自适应，可使用已知为“差分成像”的相当直观的技术，该技术中连续图像之间的绝对差别被提取、限定阈值并分析以获取变化。如果屏幕捕获的速率(例如，初始化为默认低值)是这样的，即两个连续快照之间的差分图像大部分是空白的(即，屏幕快照之间有很小的差别)，则维持或降低当前速率，否则增大速率并且重复分析。一旦已经增大了速率(通过自适应算法)，在回到默认低值之前，速率将在预设量的时间期间保持增大的速率，这优化了电池使用并最大限度地减小了消耗。在图6中提供了几幅示例性的图像，其中每排602、604有三幅图像，前两幅是连续的屏幕捕获，并且第三幅是差分图像。

第一排602表示屏幕事实上是空闲的但是接通的情况，因此，两幅屏幕快照606、608之间的变化610是最小的(在这种情况下唯一的变化是由于变化的时钟数据)。相反，第二排604示出用户是活动的并且屏幕快照612、614之间的差别616高的情况。可以确定一个度量来评估分数变化C，诸如：

C＝(#pixels>T)/(#rows*#columns) (1)

如果C是相当大的(大于阈值，即C_large)，则称两幅图像之间已经发生了变化，否则，没有发生变化。

根据C和C_large的定义，经由屏幕快照的屏幕捕获的速率R可能按照例如秒被定义。最初，R＝R_default并且以ΔR的步阶增大。并且，当速率为R时，连续的屏幕快照之间的时间间隙为(1/R)秒。阈值C_large和T以及用于R_default和ΔR的值可以使用测试图像通过实验来确定。

通过记住这些定义，接下来可以检查图7的流程图中给出的用于屏幕捕获控制的更全面的算法。

因此，算法700始于在702处通过设置R以与默认值R_default匹配。应当适当地配置该值以便捕获关于用户活动的足够的信息，而不会例如对电池有太多要求(由于采取屏幕快照消耗设备电池)。一旦已经在随后不同的采样时刻采取屏幕快照706、712，就在711处从连续的屏幕快照710、712构建差分图像714并且分析716所述差分图像。如果差别是显著的(即，例如参数C的高值)，则在708处将速率R增加值ΔR，并且在R的值固定在新值的情况下重复该过程。否则，可以利用旧值或例如默认值704，即一旦根据利用的标准，差分图像不再显著，则不增加速率R。

由于可以预期到跟踪各种相当重要的行为事件(如购买/支付跟踪，其中重要的是要按顺序快速捕获屏幕快照以确认已经做出的购买/支付)将仅持续几秒，在预设的时间段之后，潜在地大幅增加的速率R将返回到默认的速率以避免过多的电池消耗。

除了自适应地确定屏幕捕获速率的选项，更加省电的选项可以是利用在各种不同场景下的速率的预设值并且根据检测到的每个特别的场景选择适当的速率。例如，对于不同的场景(诸如用户的空闲浏览、购买跟踪和/或取决于应用程序性质的应用程序的交互等)可能有屏幕捕获速率的专用预设值。

例如，为了跟踪用户和设备之间的各种交互形式，可能必要的是知道屏幕捕获图像是主页(home)屏幕或菜单的图像还是从某个应用程序内获取的图像。一旦知道了这个信息，为了寻找特定特征的存在，分析图像的过程就可以以非常具体的方向继续。例如，如果在主页屏幕上，将不会启用支付跟踪机制，并且如果在应用程序内，不会开始微件使用跟踪过程而将开始一些其他检测过程。

可以例如用两种方法获取这个信息，第一种是通过从数字设备(使用计量软件)获取的元数据。除了这类方法，可以利用简单地确定屏幕快照是否是主页/菜单图像或例如应用程序中的图像的新颖的算法。下文参考图8仔细研究了这样的算法的一个实施方案。

通常主页/菜单屏幕与应用程序中的屏幕快照不同，因为虽然来自应用程序内的屏幕快照可能具有不同的特性，但是主页/菜单屏幕快照的特性可以更有限且明确，由此可以获知并且随后检测到所述特性。

除了例如电池栏的存在外，主页/菜单视图通常展示可以被观察到的许多图标的存在。进一步地，可以在例如屏幕顶部或底部的中央部分描绘专用元件，例如小的、白的(填充的和非填充的)和圆形对象，以下称为“菜单指示符”，以表明用户可以浏览的菜单窗口有多少个。观察来自不同设备和平台的各种屏幕捕获，可以采用并且潜在地利用图标和/或菜单指示符的存在作为可概括的、表征菜单/主页屏幕图像的特性。因此，接下来将展示如何定位和匹配菜单指示符以在主页/菜单和应用程序内的屏幕捕获之间区分，因为它通常比本地化和匹配图标快得多且计算更少。

图8包含从不同设备(移动电话、平板计算机)和品牌产品(索尼^TM、三星^TM)抓取的四幅屏幕捕获802、804、806、808，所述四幅屏幕捕获分别清楚地示出菜单指示符802a、802b、802c、802d的存在。

实际上，现代设备上的主页/菜单屏幕通常包含一些菜单指示符。菜单指示符可以由可为例如圆形或矩形(有或者没有圆角)的对象组成、或者至少包括可为例如圆形或矩形(有或者没有圆角)的对象，而所述对象通常位于图像中的四个区域之一中。

图9根据屏幕捕获902中的定位菜单指示符例示了可能感兴趣的四个区域904、906、908、910。这些区域基本上水平居中并且不包括屏幕的绝对中央部分。

图11示出了用于形状的算法(诸如菜单指示符跟踪)的一个实施方案的流程图。该算法可以被配置以在获取的屏幕快照图像1102的这些区域904、906、908、910中的每一个内跟踪特定的形状(圆形或矩形)并且报告它们。如果存在一个这样的区域，在其中形状与为菜单指示符设置的标准匹配，则该屏幕快照最有可能是主页/菜单屏幕快照。

由于屏幕快照是可用的，所述算法可以通过以下方式进行：通过从以上提到的图像区域经由例如过滤提取边缘1104、然后使边缘图像经历形态后期处理1106(例如关闭、填孔)、使用连接部件分析提取边界框1108以及检查每个这样的边界框内的形状是否匹配通常出现的菜单指示符形状的模板的任一个(如图10中在1000处示出的实施例)。

形状匹配1110是计算机视图中的一个有些广泛研究的领域，并且有可自行支配的许多方法来实现良好的匹配。由于这里的形状描述起来相对简单且直接，在目前情况下合理选择的一个可行的方法可能是将边界框内的形状的傅里叶描述符匹配到模板的傅里叶描述符。使用快速傅里叶变换计算傅里叶描述符速度快，并且可以使傅里叶描述符对于缩放保持不变。存储潜在匹配的形状位置1112。

为了使整体算法对于其他或多或少相似的形状(诸如字母‘O’)更加稳定，所述相似的形状可能被误认为是模板，可以执行下列一个或多个额外的检查步骤：当(通过形状匹配)检测到对象(诸如在菜单指示符中的一个对象)时，可以检查该对象的数量是否大于一(或二)1114、是否规则地间隔开1116以及是否相互靠近/在相同屏幕区域内1118，因为菜单指示符很少是单一的对象但它们通常是相等间隔的。如果满足这些检查，则称有关的区域包含菜单指示符1120。否则，则认为屏幕快照表示其他类型，通常在应用程序中1122。

建立在本文已想出的方法基础上，图12中示出了根据本发明的整体屏幕捕获分析框架的一个实施方案。首要步骤(称为“内容分析”)1202取决于待要进行的分析的类型。对于当今全球使用的智能数字设备(电话、平板计算机)，这些任务可能是流程图中明确提到的几个中的一个(即支付/购买跟踪，等)。对于未来有希望的设备(诸如Google眼镜)，模型可以很容易集合信息，诸如用户注视眼睛跟踪的信息，以测量用户行为，如用户关注的(通过Google眼镜看的)体育广告是什么以及如何放置这些广告产生差别。用于分析各类进入的屏幕捕获图像(有或没有任何其他形式的可集合信息)的总体框架的意图对于媒体搜索以及当今和未来的其他应用是有益的。

为了证明可以如何使用该框架，以下将参考图13提供一个更具体的实施例。我们可以期望使用所提出的框架及其算法监测用户-设备交互的具体方面，即应用程序中的和基于浏览器的购买跟踪，例如移动支付跟踪和微件使用跟踪。除了其他目标之外，我们可以跟踪通常是数十亿美元产业的例如用户做出的应用程序中的购买，而没有软件开发工具包(SDK)的任何干扰，仅使用一个定制的应用程序，该应用程序抓取屏幕快照并且处理它们以跟踪购买并且产生/发送所进行的购买的输出日志。

一旦屏幕快照已经被获取并且分类1302到(主页/)菜单或应用程序中/浏览器的图像，然后使用算法处理屏幕快照，该算法主动跟踪在应用程序内或在流行的网站(诸如eBay^TM和Amazon^TM)中进行的购买或支付。

一个基础的想法是在发起购买/支付过程的时候使用可用的信息，因为经常有引导用户向前的可视化的特定特征。这些特征可以包括弹出窗口、按钮或特定词语如“购买”或“买”(通常为用户的选择语言)的存在。可以使用可用的图像处理工具(诸如模板匹配、检测亮度水平、边缘提取和/或光学字符识别)非常迅速地并且高度精确地发现和分出这些特征。

一旦已经检测到这样的特征1304，并且确认支付/购买过程的发起，想法是观察随后的屏幕快照来完成支付/购买过程。如果用户成功完成该过程，则建立/更新支付特性的日志(例如汇总日志中的新条目)，否则假定已经中止了购买。

在屏幕捕获图像是菜单/主页屏幕的图像的其他情况中，可以触发小窗口部件跟踪机制1308。由于场景分析算法必须处理的广泛的搜索空间，小窗口部件使用跟踪是具有挑战性的。尽管已知跟踪具体地关于在用户主页屏幕快照中存在的微件或应用程序图标，但是可能的微件和应用程序的数量大约为数百或数千，并且因此寻找的特征至少和那个数量一样多。

总体上，图13中的流程图公开了一种用于跟踪购买、小窗口部件使用图案和用户的图标偏好的方法。该方法始于检测图像屏幕快照中的所谓的“关键点”。关键点基本上是图像中的重要区域。一旦已经检测到这些区域，则算法将每个区域分割为文本部分和图形部分(如果存在的话)1307。可以使用光学字符识别来辨认文本部分，而图形部分(可能是或包括图标)与图标的库匹配。

关于文本和图标/图形的信息用于确定在屏幕快照中是否存在微件1308a。在这里关于不同微件的数据可以被应用，并且结合利用其他做出决策的标准或代替利用其他做出决策的标准，将所述数据与研究结果相比较。如果存在，则可以记录用户已经在微件(或他与微件的接触)上花费的时间量。

如果不存在微件，仍然可以记录关于用户偏好的感兴趣信息1310。为了详细阐述，智能手机菜单具有按字母顺序、根据用户偏好或根据使用量被排序的应用程序图标。可以检查应用程序图标的排序，并且如果不是按字母顺序的排序，则完全可以假定排序很好地符合用户对特定应用程序的偏好。在这样的情况下，我们知道受用户欢迎的应用程序是哪些/用户喜欢哪些应用程序。

当例如客户端设备执行屏幕捕获的电池寿命可能有问题时，可以根据性能优化框架。为了详细阐述，框架进行使得屏幕快照从客户端设备被抓取并且然后被处理。处理可能既在设备上也在服务器上，可以使用客户端的网络(通常互联网连接)将图像从客户端设备发送到服务器。这些可能性的每个都具有自己的优点和缺点。在设备上的处理意味着将设备的存储器用于计算，并且尽管已经优化了使用的算法以在设备存储器上施加最小的压力，它仍然是对电池的消耗。相反，在服务器上的处理速度快且灵活，在那里可以利用许多先进的算法来分析屏幕捕获图像；然而可能需要过多地向服务器传输图像，这将是例如对用户(设备)的互联网带宽的消耗。

通过从客户端设备向服务器发送压缩和编码形式的屏幕捕获图像可以实现中间解决方案。这里实现的算法可以具有例如图14中所述的特征。

可以通过将较大的输入图像1402下采样到它们的原始尺寸的一小部分(例如一半)来开始处理/分析。仔细地试验这个步骤1404以保留有价值的信息。由于进入的屏幕捕获图像1402可能分辨率相当大(例如对于智能手机大约为1920x1200，并且对于平板计算机大约为1200x1920)，因此合理的下采样仍然保持了大多数有用的信息在某种程度上的完整。对于根据利用的标准而言初始具有低分辨率的屏幕快照，可以避免这个步骤。

接下来，量化所述图像1406使得现在由大大减少的色心数量(例如20种色心)来表示可能的256³种颜色。太少的色心则图像将遭受假轮廓(false contouring)，太多的色心则聚集算法将花费太多的时间来收敛。实验性地，对于许多应用20色心被认为是令人满意的折中方案。在图15中示出了处理结果的一个示例，其中在左侧呈现了原始屏幕捕获图像1402，而在右侧为重构1504。在重构1504中，对于减少的色心数量，重要的轮廓仍然是完整的。

一旦被量化，就已经获取了重构的图像1408，它可以经历编码诸如行程长度编码1410(RLE)并且被存储为例如(文本)文件1412。

因此，可以仅使用最初所需的带宽的一小部分将屏幕捕获图像从数字客户端/用户设备发送到远程实体(诸如服务器)。类似地，降低了存储(存储器)容量需求，而没有丧失我们框架的信息提取能力。

切换到涉及购买跟踪1309的一个更详细的实施例，参考公开了用于执行任务的一个可行的实施方案1600的图16。

该图描述了专门建立的后台运行的测量软件如何潜在地与本地和服务器侧数据处理能力的动态使用相结合，被布置以识别、抓取和解释移动和在线支付交易，包括购买时间、购买背景、购买中涉及的金额以及购买交易的目标。

从跟踪的视角来看，在例如移动应用中的支付可以被分成至少两个类别：应用程序中的购买和非标准化的购买。应用程序中的购买是在应用中经由通常在显示器上生成标准化事件的操作系统的市场所完成的支付，无论供应商是谁，都可以通过相同方法检测应用程序中的购买。

可以例如通过网站在应用或甚至经由SMS(短消息)来完成其他购买。这些购买通常不在显示器上生成标准化事件，但仍然能够通过使用关于具有特定供应商的购买或一般购买的外观或关键词的知识而被检测并记录。

支付跟踪系统可以被设计以当计量应用注意到显示器上存在可能涉及进行购买的应用或网站时执行。为了不错过任何相关事件，该系统还可以请求计量应用在有事物表明在显示器上正看到购买时缩短屏幕快照之间的时间间隔。

在显示器上由应用程序中的购买生成的事件可以由以下组成或包括以下：例如特别显示在显示器中央上的窗口，该窗口包括要购买的产品的名称和价格以及为了购买而需要按下的按钮。按下按钮之后，根据操作系统，可能询问密码并且可能出现确认购买的文本。如果没有按下按钮，则取消交易并且窗口将消失。在应用之间窗口的外观可能不同，由于例如窗口的透明度和至少窗口外部显示的内容将不同。

检测至少应用程序中购买的系统可以包含例如如下两个模块：分割模块1601和OCR(光学字符识别)模块1605。第一个模块(分割模块1601)的目标是检测在屏幕上是否有与应用程序中购买相关联的窗口并且确定窗口的尺寸。如果检测到窗口，第二个模块(OCR模块1605)应当确认所检测的窗口实际上是购买窗口并且提取所购买产品的名称和价格。

可以以类似的方式确认购买：首先要检测窗口形状，并且然后要搜索与确认窗口相关联的关键词。因此系统的结构采用：

分割模块：亮度测试1602：程序始于完整性测试以快速确定是否的确可能在屏幕上存在窗口。用于这部分的输入可以包括屏幕捕获，并且至少一个输出可以是表示可能有或没有购买窗口的真值。

分割模块：窗口形状检测1604：这部分检测是否实际上在屏幕上有窗口形状并确定它的尺寸。输入包括屏幕捕获，并且输出包括两组点：在第一组中为窗口的位置和尺寸，以及在第二组中为包含关键词的按钮的位置。

OCR：关键词检测1606：这部分在检测到的窗口形状中寻找关键词，并且抓取例如仅包含按钮的子图像作为输入，并且输出表示找到或没找到关键词的真值。

OCR：名称和价格提取1608：在这里提取产品的名称和价格。输入可以包括包含购买窗口的子图像，并且输出可以包括产品的名称和价格。

购买验证1610通过在专注于不同关键词的程序流中抓取例如进一步的屏幕快照来验证已经完成购买，直到确认购买是否已经完成或取消。

关于分割模块1601，亮度测试1602可以例如通过比较显示器中央的区域的平均强度值和整个显示器的平均强度值以设置阈值来实现，这是由于当在显示器上出现窗口时，这些值似乎落入一定范围内。如果窗口不是透明的并且在不同购买窗口之间在外观上没有变化，即例如使用Android^TM平台的情况，仅计算显示器中央的平均强度值就足够了。

亮度测试1602还可以用于节省能量：如果对于可靠的亮度测试计算仅来自某些像素的统计数据是足够的，则最初仅这些像素能够被转换到系统可理解的格式。如果随后通过了亮度测试，那么可以转换和处理屏幕捕获的其余部分。

窗口形状检测1604可以以很多方法实现，参考图17，例如在iOS6^TM上用于检测窗口形状的一个有效的方法是设置阈值，然后是连接部件分析；在设置阈值1704之前，为了使框架更亮且框架外的像素更暗，优选地用未锐化的罩来锐化1702屏幕捕获。在设置阈值1704之后，在具有高强度值的屏幕捕获中，窗口的框架保持在二进制图像中并且没有附接到购买窗口外部区域中的任何其他二进制对象。接着，跟踪二进制对象的边界，并且优选地为每个对象计算1706下列描述符的一个或多个：

·矩形性(rectangularity)：轮廓的面积与边界矩形的面积的比率；

·延伸性：边界矩形的较长顶点与较短顶点的长度的比率；

·到屏幕中央的水平距离和垂直距离。

然后比较这些描述符以设置阈值：例如矩形性必须在预定的阈值之上，并且延伸性必须小于其他预定的阈值。通常窗口水平地位于屏幕中央，因此到屏幕中央的水平距离应该等于或小于预定的限度。垂直地，例如所述距离应该小于屏幕高度的一定百分比。并且，边界矩形的宽度应该小于屏幕宽度。如果发现形状满足这些条件的所有或大多数，则可以用例如Canny边缘检测和类似于如上提到的连接部件分析从形状的右下区域搜索购买按钮1708。

在Android^TM平台上，检测窗口形状的一个有效方式意味着使用一种形式的区域生产。由于购买窗口的背景强度通常高且几乎一致并且窗口位于显示器的中央，因此可以用以下方法检测窗口：

从屏幕中央开始，向左和向右遍历像素，直到强度变化大于预定的限度(例如一)。如果发现的强度中断位于对称的位置中，接着靠近中央的五个或其他期望数量的像素距离的像素上方和下方的像素被遍历，直到强度再次改变。如果位置再次几乎/基本上是对称的并且用先前的方法从窗口内发现按钮，则检测到窗口形状。

回到在图16中的OCR模块1605，并且从当今智能设备的两个主流操作系统(即，Android^TM和iOS^TM)的角度来看，由窗口形状检测1604检测的窗口形状可以被搜索，以寻找表明窗口形状实际上是购买窗口的单词1606。这可以通过在按钮内部的区域内执行OCR和将结果与关键词匹配来完成，所述关键词与购买交易相关联，例如英语的“Buy”。操作系统的语言可以结合屏幕捕获作为元数据，使得能够知道正确的关键词。在一些实施方案中，为了抑制非文本像素并且突出文本，优选地用高强度值限定区域的阈值。

对于一些操作系统如iOS^TM，购买的产品的名称和价格是窗口中的较长字符串的子字符串。例如，在英语操作系统中，字符串可能是“你想要买X的一个N.N吗？(Do you want to buy one N.N for X？)”的形式，其中N.N表示名称以及X表示价格。这样通过搜索第一次出现的字符串“buy one”的和最后一次出现的字符串“for”并且提取这两个字符串之间的子字符串就可以提取名称。类似地从最后一次出现“for”和“？”之间可以提取价格。

在例如Android^TM的情况下，可以在窗口的左上区域发现产品的名称，并且在右上区域发现价格。这样通过分别在这些区域上执行OCR可以容易地提取它们。

关于紧跟着名称和价格提取1608之后的购买验证1610，根据平台而定，可能没有绝对确定的程序来仅使用屏幕内容确认已经完成购买。如果用户已经启用了在完成购买之前询问密码的设置，如果随后的屏幕捕获包含询问密码的窗口，则可以推断某些事情。除了窗口占据屏幕的上半部分而下半部分为虚拟键盘保留之外，该窗口在外观上与购买窗口十分相似。因此，早前描述的方法可以用于检测该窗口。然而，通过观察用户是否点击包含按钮的显示器区域可以确认购买。

然而，例如在Android^TM中通过仅使用屏幕上的信息可以确认购买。用户可能已经再次启用询问密码的选项，但在那之后或甚至在那没有发生的情况下，包含指示购买已经完成的文本的窗口将在屏幕上。另外，在确认窗口之前，可能出现仅包含指示购买正在处理的小动画的空窗口。由于在被询问密码时虚拟键盘占据了屏幕的下半部分，并且没有与购买验证过程相关联的其他种类窗口相关的信息，因此在验证购买时，通常仅屏幕的上半部分足以被搜索。

如果已经验证了购买，可以将以下信息写入日志1612：

●应用的名称；

●产品的名称；

●产品的价格；

●货币；和/或

●时间和位置。

关于检测非标准化支付，检测非标准化支付可能需要使用与涉及特定供应商的或一般的购买事件相关联的对象库和关键词。考虑到随着时间的推移购买事件的外观可能改变并且新供应商可能出现/旧供应商消失，所述库必须是可配置的。

所述库可以包含用于对象的不同种类的描述符，或在某些情况下可以存储在模板匹配中使用的对象本身的模板。可以分别存储关键词或者将关键词与一些对象关联。例如，如果一些关键词应该在特定形状内部或者附近被发现，则可以将关键词与形状的描述符关联。然后如果发现该形状，可以确定关键词的存在。

用户例如经由互联网商店进行非标准化购买时执行的行为通常遵循一定的模式：首先用户浏览供应商的收集品，并且将要购买的项目添加到虚拟购物车上。当他/她准备好，他/她进行结账，其中示出购物车的内容并且询问用户是否想要继续完成购买程序。然后用户填写他/她的联系方式和支付信息并且确认购买，紧跟着是来自供应商的确认信息。确认还可以包括购买的总结，该购买的总结包括所购买的产品、它们的价格和送货地址。

考虑到所述的模式，在基本情况下，通过检测用户何时在显示器上看见购买总结，可以执行跟踪在互联网商店的购买。这可以通过检测与显示器上的特定事件关联的特定对象和关键词并且然后使用OCR提取显示器上的文本来完成，所述文本包括所购买的产品和它们的价格。另一个方法是检测用户何时在显示器上看见虚拟购物车的内容，并且然后检查在那之后用户看见了什么，直到用户看见确认消息或者退出网站或关闭应用。

当然一些供应商有专门的采购环境，其中仅用单一点击/命令就可以完成购买，或者其中购买事件与早前描述的非常不同，因此在一些特定情况下，不同的方法是必要的。

通过增加系统复杂性可以提取来自用户的消费行为的更多信息。例如，可以识别和记录用户注视过哪些产品、他访问过哪些品类以及当搜索目录时他使用过哪些关键词。此外，可以记录用户在订货之前是否浏览过类似产品的竞争的互联网商店。这些增加需要对产品进行分类，这需要单独的参考库。

通过扩展整个屏幕捕获框架可以提取更多信息。例如，可以确定用户是否在一些设备上看到过购买过的产品的广告，或者甚至也通过使用例如数字眼镜的摄像头或其他可穿戴技术跟踪在物理世界是否接触过物理世界广告。还可以确定用户是否在社交或传统电子媒体中或者甚至在物理世界中阅读过或看到过产品。

转到没有专门针对购买跟踪的内容分析领域，以下将从小窗口部件跟踪1308的仅示例性的视角呈现一个可行的实施方案。虽然彻底描述的实施例涉及小窗口部件使用监测，由于通过目前使用的传统的工具包或方法不能及时跟踪小窗口部件，但是所列出的方法可以被容易地扩展以描述目前的(电话、平板计算机屏幕快照等)和可能在未来的产品(例如Googleglass^TM屏幕快照)上的基本上所有类型的图像的内容。

“小窗口部件”是允许用户与应用和操作系统交流的GUI(图形用户界面)的部分的通用术语。小窗口部件显示信息并且邀请用户以多种方式采取动作，因此促进交互。使用例如图像分析的小窗口部件使用跟踪使得能够估计在客户端方面的小窗口部件使用的持续时间。

在图18中呈现了整个图像内容分析过程的概述，其可用以提取任何进入的输入屏幕快照图像的特征或“识别性特征”以进行随后用于识别的与特征库的匹配。特别是当考虑到小窗口部件识别和跟踪时，除了最后一步之外，步骤可以保持相同，在最后一步中将提取的特征仅与小窗口部件特定的特征的库匹配。

用于从屏幕快照提取特征的程序包含多个阶段：(i)将抓取的屏幕捕获图像1802分割为感兴趣区域1804，(ii)为了整个过程的加速(如果必要的话)，从非文本区域中分离出文本区域1806，(iii)光学字符识别(OCR)以及字符串匹配1810、1814、1816，(iv)图标识别1808、1812以及(v)内容检测1818和记录1820(即在这个具体实施例中的微件识别)。

注意到对于不同类型的跟踪，除了倒数第二步以外，所有步骤可以几乎保持相同。

关于可能的感兴趣区域的分割1804，在计算机视觉范例中，通常假定包含在图像或‘场景’中的信息被本地化为与整个图像相对的一些“感兴趣的”区域。这引起了‘背景’和‘前景’的二分法。‘背景’区域是指不感兴趣的一个区域，并且‘前景’区域是在它里面有有用信息的一个区域。即使在屏幕捕获分析的情况下，也认为保留该二分法。例如，在主页/菜单屏幕捕获图像中，壁纸可被称为背景，而图标、微件和叠加在壁纸上的其他图形可以形成充满信息的前景。然后，从背景中分离前景的任务是分割任务，其中对背景像素和各种类型的前景像素之间的相似性进行建模，并且然后用于分离两个主要的组。

存在许多种用于检测这些‘感兴趣的’区域(或‘连通区域(blobs)’，如在计算机视觉中它们被称呼的)的方法，每个方法具有自己的一组优点和缺点。取决于手中的任务，可以利用与本发明有关的多种方法。某些优选的方法可以包括在屏幕捕获图像上执行边缘检测和高斯差分(DoG)的那些方法。ROI分割的一个示例输出如下：

关于用于优化目的的文本/非文本分割，一旦上述方法完成，留给我们的仅有屏幕捕获图像中的重要区域，或感兴趣区域(ROIs)。每个这样的ROI可以包括关于图标或图形的信息、文本信息或者图形和文本信息二者。由于可以将每个这样的ROI传递到检测图标1808a或者文本1808b(经由光学字符识别)的不同流水线，将每个ROI传递通过两个流水线是浪费的。因此，为了最优，通常不应将文本区域传递到图标检测框架，并且不应将具有图标的区域传递通过光学字符识别(OCR)流水线。

为了遵循以上原则，首先扫描每个ROI以获取文本信息，其中，如果发现文本信息，将该文本信息从母ROI分离到它自己的ROI。一旦对于ROI已经完成了这个步骤1804，可以配置另一个算法以检查1806分离的ROI是否对应于文本或图形/图标。如果对应于图形，则发送它以用于图标匹配1808a，否则，通过在1807处指示的OCR路径1808b。

可以将基于块的算法应用于从非文本区域分离出文本区域，该算法使用已知特征的组合来很好的描述文本区域。可以快速计算这些特征，即delta-DCT(离散余弦变换)特征、DCT-18以及方差特征并且它们很好地相互补充。该算法通过将图像分为小块和计算每个块的前述特征来工作。如果这些特征的每一个的值高于特定的阈值，则将块分类为文本块，否则它是非文本块。如果ROI大部分由文本组成，它被分类为文本-ROI。

在图19中，首排1904示出了若干个原始图像，而底排1906表明了在其中用白色示出的文本分割区域。三幅原始图像是具有图形和文本(上左)二者、仅图形(上中)和仅文本(上右)的区域的典型示例。

可以将文本区域传递到光学字符识别(OCR)流水线1808b，该光学字符识别流水线自动地将文本分为字符并且识别每个字符。为了执行文本的快速检测和识别，可以执行非常基础的OCR 1810，并且因此它可能遇到对噪声、分辨率以及训练字体不稳定的问题。因此，一些区域仅得到部分翻译，并且一些区域具有带错误字符的翻译。为了纠正这个问题，可以对OCR处理的文本1814执行基于例如莱文斯坦(Levenshtein)距离或其他选择的字符串度量的字符串匹配算法1816。

将检测与经常在智能设备中出现的关键词的存储库匹配，所述关键词诸如应用程序名称和常用词。如果例如检测和存储库中的关键词之间的莱文斯坦距离小于阈值距离，该阈值距离是基于原始关键词的长度，则可以说已经发生匹配。

接着解释图标识别1808a。在假设较大区域可能包含大于一个的不同图形/图标而小区域仅有单个感兴趣的图标/图形的情况下，可以根据大小将包含图形/图标的ROI分类为‘大’或‘小’区域。然后将每个ROI传递通过特征描述框架，该特征描述框架根据应用提取各种类型的特征/特性。然后将提取的特征与来自存储库的图标的特征匹配，并且返回最接近的匹配。

对于小区域，可以假定它仅包含单个图标，并且返回最接近的匹配，而对于大区域，返回满足预定距离阈值的所有最接近的匹配。用于执行这样的辨别的特征涵盖从对于小区域的全局特征到局部特征以在大区域中定位图标。优选的一些特征包括例如Gabor、LBP、BRISK以及FREAK特征。

关于内容检测，它是与手中的具体任务相适应的阶段。一旦已经检测到显示在屏幕捕获图像上的图标和文本，该任务是要推断显示在屏幕上的内容，如由图像分析系统从屏幕捕获检索得到的关键词指示的。

对于目前的特别是小窗口部件检测的情况，步骤基本上意味着将检测到的关键词与关键词库匹配，关键词库的每个以一些小窗口部件为特征。较大数量的匹配转换成被准确检测的小窗口部件的较高可能性。

还可以将小窗口部件与‘纯粹的’图标区分，即使它们涉及相同的实体(例如Facebook^TM图标对Facebook^TM小窗口部件)。较大数量的从ROI的检测关键词可以被解释为目标是小窗口部件而不是图标的较高的机会，因为图标可能仅有图标的名称作为特征。

从另一些使用例的视角，由于智能眼镜获取普及并且变得更实用且一直可用，将本发明的实施方案应用于检测用户行为和与其相关的与现实世界内容的交互方面会有真正的价值。可以检测叠加在用户可能正通过他的设备注视的自然场景上的人工文本或图形，以了解用户的数字接触以及用户如何与这样的智能、可穿戴、增强现实设备交互。

图20示出了从Google Glass^TM捕获的图像，在该图像上设置有ROI检测结果的指示2002。因此，可以在例如从Google Glass^TM捕获的自然场景图像上检测叠加的图形和/或文本。

下一步，并且将检测到的图形和文本与存储库匹配，本发明可以被配置以描述在屏幕上的图形或文本的情况。在所示的机场情景中，例如由于检测到航班(飞机)图标和相关文本(例如承运人、航班代码、时间数据)，可以确定它是示出飞行时间的应用的问题。

关于本发明的前述应用和实施指导原则也适用于跟踪新型的数字设备。例如，关于外部物理世界的用户视觉的重构允许监测对户外广告的接触或当用户看见例如著名景象时自动识别。虽然先前的情况对于媒体搜索目的特别相关，但是后者对于向用户提供自动的和被动的增强现实应用程序是相当有益的。

观察视觉特征(例如，智能设备的屏幕的屏幕快照、在智能手表屏幕上描述弹出窗口和通知的内容的日志文件的生成、或采样摄像头仍然使用附接的可穿戴技术产品(如数字眼镜)拍摄)的逻辑可以与对这样的观察的控制(例如，在用户口袋中的中央智能手机设备可以控制数字眼镜)分离，并且只要使信息对于本文描述的处理逻辑是现成的，可以将所需的识别性特征库或元数据数据库保留在云中或本地存储。

以上，详细地讨论了本发明的各种实施方案。这些实施方案总体上涉及互联网设备、智能无线设备、可穿戴设备或技术以及连接到无线或有线通信网络的其他类似的设备，并且示出了通常可以如何利用可用的移动和互联网设备以自动地和被动地收集用户的情况下的数据和对屏幕上或外部的内容、服务或广告的接触。所获取的信息还可以与关于用户关注、环境光和声音以及它们的解释的情景数据结合以生成例如用于媒体搜索目的或基于收集数据的其他用途的衍生信息，其中该数据可以与来自其他设备的数据或与例如通过媒体研究用户小组收集的其他人相关的数据集成。最后，可以通过各种应用将获取的数据提供回用户或其他接收者。

本发明还包括一种方法以利用环境声音、眼球跟踪或类似的传感器技术从而验证用户关注的目标和例如针对一些内容、服务或外部对象的关注的任何部分的时间跨度。根据对事件、对象或内容的接触、和集中关注的验证以及其他潜在因素的组合，可以计算关注的时间。

本发明还能够包括音频和其他类似数据以更好地识别用户的背景(例如是否有其他人在场)，并且在一些情况下更准确地验证用户正在使用的服务，可选地通过用户关注的视觉精确定位精确地指出(可穿戴)设备是否在运行例如导航应用程序并且提供声音指导，而实际上用户的关注可能针对道路。通常，可以用与音频信号或音频接触有关的数据来充实视觉内容，以及基于例如图像识别的视觉景观重构可用于提供有价值的音频输出。输出可以与识别的视觉数据(诸如用户可能感兴趣的关于相同的或其他关联的信息的音频通知)有关。

因此，技术人员将认识到的事实是，范围不限于明确公开的实施方案，而是还覆盖落入权利要求措辞的许多其他实现方式。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汉努·韦尔卡萨罗;萨布赫拉迪普·卡亚勒;马蒂亚斯·肯特蒂里;埃里克·马尔米;
技术所有人：威图数据研究公司;
我是此专利的发明人

上一篇：一种用于风力发电齿轮箱润滑系统油泵加热器的制作方法与工艺
上一篇：一种适用于厕所的除臭器的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。