方法、装置和系统的制作方法

文档序号：7892856阅读：82来源：国知局

专利名称：方法、装置和系统的制作方法
技术领域：
本发明涉及方法、装置和系统。
背景技术：
许多人喜欢观看和制作家庭视频。例如，YouTube非常流行。一旦这种视频被上载到因特网，人们就可以对视频进行评论并向制作者留言。但是，为了观看视频，视频剪辑(clip)被下载。这具有两个优点。首先，在视频被流式传输到设备时，需要很大的带宽。此外，视频是被从单个视场捕捉并被这样显示的。本发明的一个目的在于提高一个用户对另一个用户所创建的视频集锦(video highlight)的交互性。

发明内容
根据第一方面,提供了一种在客户端设备上观看集锦套件(highlight package)的方法，该方法包括在该客户端设备处接收包括多个帧的视频流，从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段(segment)的位置信息，并将所限定的片段显示给用户。该方法还可以包括在所述客户端设备处接收注解信息，所述注解信息限定了要写在所显示的帧的片段上的注解。该方法还可以包括从除了提供所述视场信息的所述服务器之外的源接收所述视频流。所述源可以是对等(peer-to-peer)源。该方法可以包括从所述客户端设备向所述服务器传送对所述集锦套件的用户评分。该方法可以包括在所述客户端设备处接收基于针对所述集锦套件的评分来选择的视频流。该方法可以包括在所述客户端设备处接收基于由所述客户端设备的用户提供的且被存储在所述服务器内的偏好来选择的视频流。所述偏好可以是用户最喜欢的足球队或者最喜欢的集锦套件作者中的任一者。该方法可以包括向所述服务器传送由所述客户端设备的用户提供的对所述集锦套件的注解(annotation)。该方法可以包括向所述服务器传送所述集锦套件的经修改版本。根据本发明另一个方面，提供了一种在客户端设备上生成集锦套件的方法，包括在所述客户端设备处接收包括多个帧的视频流，生成视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并且将所述位置信息和唯一地标识出所述视频流中的帧的帧标识符传输给服务器。该方法还可以包括在所述客户端设备处生成限定了写在所述帧的片段上的注解的注解信息。根据一个方面，提供了一种包括计算机可读指令的计算机程序，所述计算机可读指令当被载入到计算机上时将所述计算机配置为执行根据任一个实施例所述的方法。根据一个方面，提供了一种客户端设备，包括接收器和显示器，所述接收器可操作来接收包括多个帧的视频流并从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，所述显示器在使用时可操作来向用户显示所限定的片段。所述接收器可能还可操作来接收注解信息，所述注解信息限定了要写在所显示的帧的片段上的注解。所述接收器可能还可操作来从除了提供所述视场信息的所述服务器之外的源接收所述视频流。所述源是对等源。该设备可以包括输出设备，该输出设备可操作来从所述客户端设备向所述服务器传送对所述集锦套件的用户评分。所述接收器可能还可操作来在所述客户端设备处接收基于针对所述集锦套件的评分来选择的视频流。所述接收器可能还可操作来在所述客户端设备处接收基于由所述客户端设备的用户提供的且被存储在所述服务器内的偏好来选择的视频流。所述偏好可以是用户最喜欢的足球队或者最喜欢的集锦套件作者中的任一者。所述输出设备可能还可操作来向所述服务器传送由所述客户端设备的用户提供的对所述集锦套件的注解。所述输出设备可能还可操作来向所述服务器传送所述集锦套件的经修改版本。根据另一个方面，提供了一种用于在客户端设备上生成集锦套件的设备，包括接收器、生成设备和输出设备，所述接收器可操作来接收包括多个帧的视频流，所述生成设备可操作来生成视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并且所述输出设备可操作来将所述位置信息和唯一地标识出所述视频流中的中贞的巾贞标识符传输给服务器。所述生成设备可能可操作来在所述客户端设备处生成限定了写在所述帧的片段上的注解的注解信息。根据另一个方面，提供了一种系统，该系统包括连接到网络的服务器，该服务器在使用时与根据任一个上述实施例所述的设备通信。

本发明的上述和其它目的、特征和优点将从要结合附图阅读的如下对例示性实施例的详细描述中清楚明了，在附图中图I示出了根据本发明第一实施例的系统；图2示出了在第一实施例的系统中的客户端设备；图3示出了根据本发明第二实施例的系统；图4A示出了本发明第一实施例的服务器；
图4B示出了本发明第二实施例的服务器；图5示出了根据第一或第二实施例的、说明了客户端设备向服务器的登记过程的流程图；图6示出了根据适用于第一和第二实施例两者的本发明的示例的对象跟踪方法的流程图；图7A示出了根据本发明的第一和第二实施例两者的对象键值创建；图7B示出了根据本发明的第一和第二实施例两者的向球场的3D模型添加方向性指示;图8示出了根据本发明第一和第二实施例的多个球员以及他们的关联边界框；图9示出了根据本发明第一和第二实施例两者的对象跟踪和遮蔽检测方法的流程图；图IOA和IOB示出了根据本发明第一和第二实施例两者的对象跟踪和遮蔽检测的
一些示例；图11示出了根据本发明第一实施例的服务器内的重定格式设备；图12示出了根据本发明第二实施例的服务器内的重定格式设备；图13是根据本发明第一和第二实施例两者的、用于确定相机位置与相机视场内的对象之间的距离的系统的示意图；图14是根据本发明第一和第二实施例两者的、用于确定相机与相机视场内的对象之间的距离的系统的示意图；图15A示出了根据本发明第一实施例的客户端设备；图15B示出了根据本发明第二实施例的客户端设备；图16A示出了位于图15A的客户端设备中的客户端处理设备；图16B示出了位于图15B的客户端设备中的客户端处理设备；图17示出了根据本发明另一实施例的联网系统；图18示出了根据第一或第二实施例的位于图17的联网系统中的用于生成集锦套件的客户端设备；图19A和19B示出了根据第一或第二实施例的位于图17的联网系统中的用于观看集锦套件的客户端设备；图20示出了根据本发明另一实施例的可在便携式设备上实现扩增现实的体育场的平面视图；图21示出了根据图20的便携式设备的看图；图22示出了当扩增现实被启动时、图20和图21的便携式设备的显示；以及图23示出了说明本发明的扩增现实实施例的流程图。
具体实施例方式图I示出了系统100。在该系统100中，由相机布置130捕捉场景的图像。在实施例中，场景具有诸如足球比赛之类的体育事件，但是本发明不限于此。在该相机布置130中，三个高清相机被定位在机架(rig)(未示出)上。布置130使得能够生成缝合图像(stitched image)。布置130因此使得各个相机捕捉同一场景的不同部分,其中在各个相机之间具有小的视场重叠。三幅图像各自是高清图像，它们在被缝合在一起时产生超高清图像。由相机布置130中的三个相机捕捉的三幅高清图像被馈入到图像处理器135，该图像处理器135对这些图像执行诸如色彩增强之类的编辑。此外，图像处理器135从相机布置130中的相机接收与诸如焦距、缩放系数等的相机参数有关的元数据。增强的图像和元数据被馈给后面将参考图4A说明的第一实施例的服务器110或者将参考图4B说明的第二实施例的服务器110'。在实施例中，在用户设备200A-N中执行实际的图像缝合。但是，为了降低用户设备200A-N内的运算成本，执行缝合所需的参数是在与图像处理器135相连的服务器110内计算的。服务器110可以以有线或者无线方式直接或经由诸如局域网、广域网或因特网之类的网络连接到图像处理器135。在GB 2444566A中描述了计算这些参数和实际执行缝合的方法。此外，在GB 2444566A中公开了一种合适类型的相机布置130。GB2444566A中与参数计算、缝合方法和相机布置有关的内容被结合于此。如GB 2444566A所述，针对相机布置130中的每一个相机的相机参数被确定。这些参数包括针对每一个相机的焦距和相对偏转(yaw)、俯仰(pitch)和滚转(roll),以及对镜头失真、桶形失真等进行校正的参数，并且这些参数在服务器110上被确定。此外，还可以在服务器110中计算用于缝合图像所需的诸如色像差(chromatic aberration)校正参数、色度测量和曝光校正参数之类的其它参数。而且，如技术人员所了解的，还可以在服务器110中计算图像缝合处理所需的其它值。GB 2444566A中说明了这些值，因此为了简便起见，将不在下文中对其进行说明。在服务器110中计算出的这些值被发送到将在后面说明的各个用户设备200A-N。除了图像缝合参数是在服务器110中计算的之外，还可以发生其它计算。例如，发生对象检测和分割，以识别并提取图像中的可应用三维效果的对象。标识出图像中的每一个检测出的对象的位置的位置信息也在服务器110内被确定。此外，还在服务器110内生成深度图。深度图向相机所捕捉的图像中的每一个像素分配在所捕捉的场景中离相机的相应距离。换而言之，一旦针对所捕捉图像完成了深度图，就可以确定场景中与像素相对应的点与捕捉该图像的相机之间的距离。此外，还在服务器110内维持被周期性更新的背景模型。以使得背景图像的不同部分被以不同速率更新的方式来更新背景模型。具体而言，依据图像部分是否在先前帧中被检测为参与者(Player)来更新背景模型。可替代地，服务器110可以具有两个背景模型。在此情况中，在服务器110内维持了一个长期背景模型和一个短期背景模型。长期背景模型定义了图像中在诸如5分钟之类的较长时间段内的背景，而短期模型定义了在诸如I秒之类的较短时段内的背景。对短期和长期背景模型的使用使得能够将诸如照明变化之类的短期事件考虑在内。在服务器110内计算出的深度图被发送到各个用户设备200A-N。在实施例中，相机布置130内的每一个相机是固定的。这意味着深度图不随时间变化。但是，针对每一个相机的深度图在受触发而允许新的用户设备连接到服务器110时被发送到各个用户设备200A-N。例如，深度图可以在新的用户设备向服务器110登记时或者在时间方面周期性地被发送出去。如将了解到的，如果相机的视场移动了，则深度图需要被重新计算并被更加频繁地发送到用户设备200A-N。但是，还可以设想到将深度图持续地发送到各个用户设备200A-N。后面将说明生成深度图和背景模型的方式。此外，后面将说明执行对象检测和对象分割的方式。与服务器110相连的还有多个用户设备200A-N。这些用户设备200A-N在实施例中通过因特网120来连接到服务器110。但是，将理解，本发明不限于此，而是，用户设备200A-N可以通过诸如局域网(LAN)之类的任何类型的网络来连接到服务器110，或者可以以有线方式连接到服务器110，或者可以以无线方式连接到服务器110。与各个用户设备附接的还有相应的显示器205A-N。显示器205A-N可以是电视机、或者监视器或者能够显示可被用户感知为三维图像的图像的任意种类的显示器。在本发明的实施例中，用户设备200A-N是PlayStation 3游戏机(games console)。但是,本发明不限于此。事实上，用户设备可以是机顶盒、计算机或者能够处理图像的任何其它类型的设备。经由因特网120与服务器110和各个用户设备200A-N相连的还有社区集线器1700(有时候称为网络服务器)。后面将说明社区集线器1700的构造和功能。图2中示出了用户设备200A的示意图。用户设备包含存储介质220。在本发明的实施例中，存储介质220是硬盘驱动器，但是本发明不限于此。存储介质可以是光学介质或者半导体存储器等。与存储介质220相连的是中央处理器250。在实施例中，中央处理器250是单元处理器(Cell Processor) 0单元处理器在实施例中是有利的，因为其特别适合于诸如图像处理之类的复杂计算。另外，连接到中央处理器250的有无线配件接口 210，该无线配件接口 210适合连接到无线配件210A并与之通信。在实施例中，无线配件210A是用户操作设备，该用户操作设备可以是六轴控制器，不过本发明不限于此。六轴控制器允许用户与用户设备200A交互并控制用户设备200A。此外，图形处理器230连接到中央处理器250。图形处理器230可操作来连接到显示器205A并控制显示器205A以显示立体图像。如将了解的，诸如音频处理器240之类的其它处理器也连接到中央处理器250。参考图3，示出了系统100的另一实施例。该另一系统称为100'，其中，相似标号指示相似特征，并且该另一实施例被配置为经由长期演进3GPP网络来提供内容。在此另一实施例中，服务器110'连接到服务网关305，并提供特别适合于经由移动网络分发的内容。如技术人员所了解的，服务网关305将用户数据路由至数个增强型Node-B以及从这数个增强型Node-B路由用户数据。为了简便起见，在图3中示出了单个增强型Node-B 310。该增强型Node-B 310与多个用户装备315A-C通信。图4A示出了服务器110的实施例。在图4A的此实施例中，经图像处理器135处理的图像被馈给图像缝合设备1101。如上所述，图像缝合设备1101生成超高清影像，该超高清影像包括三幅单独捕捉的被缝合在一起的图像。GB 2444566A对此进行了描述，因此下文中将不对其进行描述。缝合图像被馈给背景生成器1102，背景生成器1102从该缝合图像中去除前景对象。换而言之，背景生成器1102生成了仅包含缝合图像的背景的图像。后面将说明背景生成器1102的构造和功能。另外，缝合图像还被馈给对象键值(object key)产生设备1103。这识别出缝合图像中的前景对象并确定各个识别出的对象的位置，如将说明的。生成的背景被馈给重定格式设备1104，并被馈给对象键值产生设备1103。重定格式设备1104将生成的背景格式化成更适当的格式以供经由网络120传输，如后面将说明的。来自对象键值产生设备1103的输出被馈给加法器1105和高级视频编码(AVC)编码器1106。特别地，对象键值产生设备1103的一个输出可操作来控制与AVC编码器1106相关联的量化器。AVC编码器1106的输出产生合成流,该合成流包括来自相机布置130的缝合图像和所提取的对象两者，如后面将说明的。来自对象键值产生设备1103的输出还包含与对象相关联的元数据。例如，元数据可以包括参与者名字、参与者数目或者参与者生物信息。该元数据被馈给与网络120相连的数据流产生设备1108。重定格式设备1104的输出也被馈给加法器1105。来自加法器1105的输出被馈给AVC编码器1106。来自AVC编码器1106的输出被馈给数据流产生设备1108。数据流产生设备1108随后将输入的信号复用在一起。复用流随后被转换成数据分组并经由因特网120被传送到适当的用户设备。图4B示出了替代的服务器110'。在该替代服务器110'中，许多组件与结合图4A论述的组件相同。这些相同组件具有相同标号。但是，此实施例中的背景生成器1102'没有到重定格式设备1104'的输出。取代之，来自图像缝合设备1101的输出被馈给背景生成器1102'和重定格式设备1104'两者。此外，在替代服务器110'中，没有加法器。取代之，来自重定格式设备1104'的输出被直接馈给AVC编码器1106'。而且，此实施例中的对象键值产生设备1103'不产生如图4A的实施例中所产生那样的合成图像。用户登记在从服务器110向用户设备200A-N或者从替代服务器110'向用户装备315A-C发送任意内容之前，各个设备或装备需要向适当的服务器登记。下面涉及用户设备200A向服务器110的登记，并且在图5中进行说明。应当注意，用户装备将以相同方式向替代服务器110'登记。当用户开启用户设备200A时，用户使用无线配件210A来选择他们希望在显示器205A上观看的特定事件。该事件可以是流行音乐会、体育事件或者任何种类的事件。在下面的示例中，事件是足球比赛。该选择是开始步骤S50。为了观看事件，用户可能需要支付一次性的费用，或者事件可以是订阅套件的一部分。该费用或者套件可以通过在观看事件之前在用户设备200A中输入信用卡详情来购买。可替代地，事件可通过任何其它手段来购买，或者事实上，事件可能是免费的。为了观看事件，用户将需要向服务器110登记。用户设备200A因此用作相对于服务器110的客户端设备。该登记发生在步骤S55中，并且允许服务器110从用户设备200A获得使能在服务器110和用户设备200A之间发生通信的诸如IP地址等的必要信息。此外，在此阶段还可以由服务器110收集其它信息，例如，与要由用户观看的事件有关的、允许对该用户发生定向广告的信息。在登记之后，用户在步骤S510中对他们希望观看的事件进行确认并确认支付详情。
在步骤S515，用户设备200A从服务器110和显示器205A两者接收初始化信息。来自显示器205A的初始化信息可以包括与画面尺寸有关的信息。这可以直接从显示器205A获得或者可以由用户输入。来自服务器110的初始化信息可以包括深度图。初始化信息可以响应于来自用户设备200A的请求而被提供，或者可以响应于登记而从服务器110传送过来。可替代地，初始化信息可以周期性地被传送到与服务器110相连的各个用户设备200A。这里应当注意，深度图仅需要被提供给用户设备200A—次，因为相机布置130是固定的。在相机布置130是可移动的情况下，则初始化信息将被更加定期地提供。初始化信息被存储在用户设备200A内的存储介质220中。在步骤S520，服务器110提供从在图像缝合设备1101中被缝合在一起的图像生成的背景的格式化高清图像。用户设备200A的中央处理器250使用该格式化背景图像来生成超闻清图像以供显不。另外，中央处理器250还生成超闻清图像的左右版本和/或超闻清图像的可变视场，以显示超高清图像或者图像的视场的3D(或者立体)表示。如这里指出的，用户还可以确定他们希望具有的、事件的视场。该视场将使用接口 210A来选择。在GB 2444566A中还描述了用户设备200A用来允许选择适当视场的方法。另外，针对每一个捕捉的图像，服务器110对该图像进行分析以检测图像中的对象。该检测是在对象键值产生设备1103中执行的，对象键值产生设备1103的功能在下面论述。在检测出图像中的对象之后，产生对象块。对象块包含前景对象。这将在后面得到说明。还产生了标识出所提取的对象在图像中的位置的位置数据。这也在后面论述。高清背景图像、图像内的经分割对象以及位置数据被发送给用户设备200A。在用户设备200A从服务器110接收到前述信息之后，用户设备200A生成超高清图像。这是步骤S325。另外，使用深度图、隔离的对象块和所检出对象在图像中的位置数据，用户设备200A对超高清图像应用三维效果。此外，其它元数据被提供给用户设备200A。为了改进用户体验，诸如球员信息之类的对象元数据被提供。此外，宏块数目可以与各个对象块一起被提供。这标识出了与各个对象块相关联的宏块数目。这降低了在用户设备200A内的将对象块置于背景图像上的运算成本。对于替代服务器110'，类似信息被提供给用户装备320A。但是，在此实施例中，重定格式后的所捕捉并经缝合图像(而不是在服务器110的实施例中的重定格式后的背景图像)被提供。另外，对象块未被提供，因为在此实施例中没有对检测出的对象应用额外的
三维效果。对象检测和跟踪现在将参考图6、7和8来描述根据本发明示例的对象跟踪。特别地，下面的对象检测和跟踪涉及服务器110。但是，在替代服务器110'中使用相同的对象检测和跟踪技术。图6示出了根据本发明示例的对象跟踪方法的流程图。为了跟踪对象，从所接收视频中的、跨预定数目的帧被检测为基本静态的那些部分构造背景模型。在第一步骤S60中，对从布置130内的一个相机接收的表示足球场的视频图像进行处理以构造图像的背景模型。构造背景模型是为了创建前景掩膜，该前景掩膜辅助识别和跟踪各个球员。前景掩膜将被用于生成后面说明的对象键值。在步骤S60通过如下方式来形成背景模型针对每一个像素确定连续帧之间的像素平均以及像素值的方差，以便构建背景模型。于是，在连续帧中像素均值没有大变化的这些像素可被识别为背景像素，以便识别前景掩膜。
这样的背景/前景分割是在图像处理领域中已知的处理，并且本发明可以利用发表在会议记录ICVGIP, 2004中的由Manzanera和Richefeu所著且题为“A robust andComputationally Efficient Motion Detection Algorithm Based on E - A BackgroundEstimation”的文献中描述的算法。但是，本发明不应当被视为限制于此已知技术，用于相对于背景模型生成前景掩膜以供在跟踪时使用的其它技术也是已知的。将了解，在视频相机的视场包含人群中的一些人的情况下，该人群不太可能被包括在背景模型中，因为他们很可能来回走动。这是不希望的，因为这很可能增大在执行对象跟踪时在单元处理器上的处理负荷，并且这是不必要的，因为大多数体育播音员不太可能对跟S示人群中的人感兴趣。在本发明的示例中，可以构造单个背景模型，或者事实上可以构造两个背景模型。在构造单个背景模型的情况中，背景的不同部分被取决于是否曾在先前帧中的这种位置处检测到球员来以不同速率更新。例如，在球员存在于先前帧中的情况下，背景可以不那么频繁地被更新，以使得球员不成为背景图像的一部分。
可替代地，在创建两个背景模型的情况下，一个模型可在比赛开始时构造，并且甚至可以在球员进入球场之前完成。这被称为长期背景模型。另外，另一个背景模型可贯穿整个比赛被周期地重新计算，以便将可能贯穿整个比赛变化的诸如阴影之类的照明条件的任何改变考虑在内。这是短期背景模型。在比赛开始时创建的背景模型和周期性地被重新计算的背景模型两者都被存储在服务器110的存储介质(未示出)中。对于下面的说明，使用单个背景模型。在步骤S605，从来自相机的进入图像中减去背景模型以识别出具有差异的区域。于是，背景模型被从图像中减去，并且得到的图像被用于生成针对每一个球员的掩膜。在步骤S610，针对已经减去背景模型而产生的图像版本中的像素值来创建阈值。通过首先跨视频图像的一系列帧确定像素平均来生成背景模型。根据每一个像素的均值，可以从视频图像的帧计算出每一个像素的方差。像素的方差随后被用于确定阈值，该阈值将针对视频图像的所有像素中的每一个像素而变化。对于与图像中的方差较高的部分(例如包括人群的部分)相对应的像素，阈值可被设定为较高值，而图像中的与球场相对应的部分将具有较低阈值，这是因为除了球员的存在之外的球场的颜色和容量将总是相同。于是，阈值将判断出前景元素是否存在，并因此前景掩膜可被相应地识别出。在步骤S615，使用基于与平均人形模型的相关度的形状概率来提取前景掩膜内的形状。此外，还从图像中提取出颜色特征以创建颜色概率掩膜，从而例如从球员汗衫的颜色来识别出球员。于是，可以使用各个球队的汗衫的颜色来对球员进行彼此区分。为此，服务器110依据各个足球队的队服的已知颜色来生成颜色模版。因而，需要各个球队的汗衫的颜色、守门员汗衫的颜色以及裁判的汗衫的颜色。但是，将了解，可以使用其它合适的颜色模版和/或模版匹配处理。上面说明的背景生成是在背景生成器1102中执行的。返回到图6，在步骤S615中，服务器110对各个颜色模版的各个像素与球员图像的汗衫区域所对应的像素进行比较。服务器110随后生成指示出颜色模版的像素与所选择的像素之间的相似性的概率值，以根据球队和球场颜色模型、基于色相饱和度值(HSV)颜色空间中的距离来形成颜色概率。另外，使用形状概率来定位球员，这是基于与平均人形模型的相关度的。此外，运动概率是基于距由递归最小平方估计器使用开始位置、速度和加速参数预测出的位置的距离的。在图7A中图示出了对象键值创建设备1103对对象键值的创建。图7A示出了由布置130中的相机之一生成的足球场的相机视图710。如已经说明过的，球场形成了背景模型部分，而球员730、732、734、736、738和740应当形成前景掩膜部分并且各自是分离的，如上所述。球员边界框(可以称为矩形轮廓)被示出为围绕各个球员的虚线。到目前为止，针对相机图像处理执行了步骤S60、S605、S610和S615。已经设计出前景掩膜，在步骤S620中在首先按距相机的接近度对球员轨迹进行排序之后执行球员跟踪。于是，首先对被识别为最接近相机的球员进行处理，以从跟踪处理中消除这些球员。在步骤S630，对球员位置进行更新以便最大化形状概率、颜色概率和运动概率。在步骤S640中，构造遮蔽掩膜(occlusion mask),该遮蔽掩膜排除了已知被其它更接近的球员轨迹覆盖的图像区域。这确保了部分或全部被其它球员遮蔽的球员仅能够被匹配到可视图像区域。遮蔽掩膜提高了跟踪可靠性，因为其降低了轨迹合并(通过轨迹合并，两条轨迹在遮蔽事件之后跟随同一球员)的发生率。这是在许多目标由于他们无法按颜色进行(容易地)区分而看起来相同时的特殊问题。遮蔽掩膜允许将像素指派给较近的球员并排除较远的球员，从而防止两条轨迹匹配到相同的像素集合并因而维持了它们的单独身份。之后跟随的是通过提取相机图像内提供的特征并将这些特征映射到3D模型上来跟踪各个球员的处理，如图7A和7B所示。于是，针对由相机产生的2D图像内的相应位置，向球员指派使得形状概率、颜色概率和运动概率最大化的3D位置。如将简短说明的，在已经检测到遮蔽事件的情况下，将修改对球员的选择以及球员从2D图像到3D模型的映射。为了辅助从2D图像到3D模型的映射，在步骤S625中将要跟踪的球员初始化为使得形状和颜色概率的峰值被映射到最适当选择的球员。应当强调，在步骤S625执行的跟踪初始化仅被执行一次，通常是在跟踪处理的开始时。为了系统的良好跟踪初始化，应当适当地分离球员。在跟踪初始化之后，根据本发明的技术来自动校正在跟踪球员时的任何错误。为了根据2D图像位置实现3D模型中的跟踪，通过使用投影矩阵P来实现变换。跟踪要求2D图像位置能够与3D模型内的位置相关。这种变换是通过使用投影(P)矩阵来实现的。2D空间中的点等同于3D空间中的线
P P P 尸
r -I r 00 ^rOl 1 02 1 03 Ay = Pl° Pu Pn Pu y
PPPPz'
IrIQ r2\ 1 22 1 23 “
_」 0 0 0 I _ _w_2D空间中的点等同于3D空间中的线，是因为作为距相机的距离的第三维度是未知的，并因此将相应地表现为跨3D模型的线。可以使用对象(球员)的高度来确定距相机的距离。通过沿着位于已知地平线上方固定高度(人的平均身高)处的线选择一点来获得3D空间中的点。投影矩阵P被先验地获得，在通过相机校准处理进行的匹配之前每一相机进行一次这种获得，在该相机校准处理中，球场的物理特性(例如，球场70的角71a、71b、71c、71d)被用于确定相机参数，这些相机参数因而可以辅助将已被识别的球员的2D位置映射到3D模型上。这是使用已建立方法的已知技术。就物理参数而言，投影矩阵P包含相机的缩放水平、焦点中心、3D位置和3D旋转向量(其指向何方)。在步骤S630中执行的跟踪算法是可扩展的，并且能够在一个或多个相机上操作，而仅要求球场上的所有点都从至少一个相机(以足够的分辨率)可见。除了颜色和形状匹配之外，步骤S630还包括如下处理其中，被跟踪的球员的运动也被包括以便以更高的概率来正确地识别各个球员。于是，可以在相关运动和方向两个方面来确定帧之间的球员的相关运动。因而，可以对后续帧使用相对运动以产生用于识别特定球员的搜索区域。此外，如图7B所示，足球场的3D模型可以用线条730. 1,732. I、734. 1,736. 1,738. 1,740. I来扩增(augment)，这些线条被相对于球员的位置的图形指示来定位，以反应出球员的运动在足球场上的相对方向。在步骤S640，一旦已经在3D模型中识别出球员的相对位置，则该位置被相应地往回投影到足球场的2D图像视图，并且相对边界被投影成围绕根据其在3D模型中的位置识别出的球员。此外，在步骤S640，围绕球员的相对边界随后被添加到针对该球员的遮蔽掩膜。
图7B示出了足球场的虚拟模型220的平面视图。在图7B所示的示例中，(在球场左手侧的)球员730、732和734已被服务器110识别为穿着与(在球场右手侧的)球员736、738和740不同颜色的足球衫，因而指示出他们属于不同的球队。以这种方式区分球员使得可以更容易地检测在遮蔽事件之后的各个球员，因为他们能够按照他们的衣服的颜色来容易地进行相互区分。往回参考图6，在步骤S630，使用诸如卡尔曼滤波之类的已知技术来跟踪各个球员的位置，不过将了解可以使用其它的合适技术。这个跟踪既发生在相机视图710中，又发生在虚拟模型720中。在本发明的示例中，由服务器110使用球员在虚拟模型720中的位置执行的速度预测被用于辅助跟踪相机视图710中的各个球员。步骤S630和S640被重复，直到如判决框S635所表示的、所有球员都已得到处理为止。于是，如果不是所有球员都已得到处理，则处理行进到步骤S630，而如果处理已经结束，则处理终止于S645。如图6所示，所图示的方法包括另一步骤S650，如果由一个以上的相机产生图像则需要该步骤S650。如此一来，可以针对来自每一个相机的视频图像来执行处理步骤S60至S645。如此一来，每一个球员都将被提供以来自每一个相机的检测概率。因此，根据步骤S650，根据来自每一个相机的、每一个球员的概率来估计每一个球员的位置,并且根据各个相机所提供的概率中的最高者估计出的球员的位置(因而是针对每一个球员的具有最高概率的位置)被识别为针对该球员的位置。该位置是上面提及的位置数据。如果已经确定在跟踪足球场上的球员时发生了错误，则可以在步骤S655重新初始化针对该球员的轨迹。在对特定球员的检测概率针对特定轨迹而言相对较低的情况下产生对跟踪时的错误的检出，相应地该轨迹被重新初始化。执行图6所图示的方法的结果是生成针对每一个球员的路径数据，该路径数据提供了球员在视频图像的每一帧中的位置，并且表示该球员贯穿整场比赛所采取的路径。这一计算出的位置是被发送到用户设备200A的位置数据。因而，路径数据提供了相对于时间的位置。当在一个球员遮掩了另一个球员的全部或者一部分(如图8所示)的情况下从单个相机视图跟踪各个球员的位置时，可能产生问题。图8示出了多个球员810、820、830和840以及如围绕各个球员的虚线所指示的他们的关联边界框。球员810和840可清楚地相互区分，而球员820遮掩了球员830的一部分。这是所谓的遮蔽事件。遮蔽事件可能在如下情况中发生一个球员的全部或者一部分遮掩了至少一个其它球员的全部或者一部分，使得跟踪这些球员变得模糊，即使在将诸如球员的相对运动和方向之类的其它因素考虑在内之后也是如此。但是，将了解，可能发生涉及两个或更多个球员的遮蔽事件。为了检测遮蔽事件，服务器110检测是否在与一个球员所关联的掩膜的全部或一部分相同的图像区域中发生了另一个球员所关联的掩膜的全部或一部分，如图8所示。在遮蔽事件所涉及的球员属于对立球队并因而具有不同颜色的汗衫的情况中，他们可能很容易被区分并相应地被跟踪。但是，在遮蔽事件之后，如果球员两者都属于同一方，则服务器110可能无法区分哪个球员是哪个，特别是因为在例如由冲撞引起的遮蔽事件之后的他们的运动可能是不可预测的，并因此可能不能正确地跟踪球员。其结果是，被指派给各个球员的跟踪路径可能变成是交换了的。为了解决被跟踪的球员的模糊性，服务器110利用遮蔽事件所涉及的所有球员的身份来标示(label)遮蔽事件所涉及的所有那些球员。然后，在稍后的时间，如果这些球员中的一个或多个变得可容易区分，则服务器110使用该信息来将球员的身份重新指派给正确的球员以便维持哪个球员是哪个的记录。这个处理将参考图9更详细地描述。图9示出了根据本发明的示例的进行对象跟踪和遮蔽检测的方法的流程图。在步骤S900，服务器110对所捕捉的视频图像执行图像处理，以便如参考上面的图6所描述那样地提取一个或多个图像特征。所提取的图像特征随后被与从对象的可能示例提取出的相应图像特征进行比较，以便识别出各个对象。在一个示例中，根据汗衫上的编号来识别球员。服务器110随后生成每一个对象的对象标识，该对象标识识别出各个对象。该标识被连同图像和位置信息来存储为元数据。可替代地，在一个示例中，由操作者经由操作者界面来识别每一个对象(例如，球员)。服务器110随后使用来自操作者界面的数据输入来生成对象标识数据。但是，技术人员将了解，操作者可将图像辨识技术与标识相组合来生成对象标识数据，或者可以使用其它的合适对象标识方法，例如通过球员汗衫后背上的数字来标识球员的数字辨识。在步骤S905，服务器110依据在步骤S900提取出的一个或多个图像特征来检测如上面参考图6所述的诸如球员之类的要检测的任何对象。如上所述，还使用虚拟模型720和相机视图710两者来跟踪各个球员。服务器110使用在跟踪处理期间生成的数据来生成并存储对象路径数据，对象路径数据描述了各个对象在所接收的视频图像内所采取的路径。对象路径数据采取球员的x-y坐标的样本相对于时间的形式。在本发明的示例中，路径数据具有格式(ti; Xi, Yi),其中，ti是样本时间，Xi和Ji是对象在样本时间&处的X和y坐标。但是，将了解，可以使用其他合适的路径数据格式。在步骤S915，服务器110登录针对每一个对象的对象标识数据以及与每一个对象在视频图像内采取的路径有关的对象路径数据。所登录的数据被存储在服务器110的硬盘驱动器(HDD)上或者动态随机存取存储器(DRAM)中。这使得可以保持关于哪个球员与各个检测到并跟踪的路径相关联的记录。所登录的数据随后可被用于生成关于各个球员以及他们在比赛期间所处的位置的数据。例如，可从存储在关联日志中的数据生成一球员在球场的特定区域中花费的时间。这一信息可在比赛期间或者在比赛结束时被发送给用户设备200A，并且可被显示给用户(如果他们希望的话)。在本发明的实施例中，被显示的所登录数据可以包括球员所覆盖的距离等。这将由用户设备200A的用户来选择。此外，如果由于任何原因使得球员与路径之间的关联性变得模糊(例如，在遮蔽事件之后可能发生)，则此记录可被保持直到模糊性得到解决为止，如下面所述的。下面的表I示出了所登录的对象标识数据以及对象路径数据的示例。
权利要求
1.一种在客户端设备上观看集锦套件的方法，包括在所述客户端设备处接收包括多个帧的视频流，从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并将所限定的片段显示给用户。
2.根据权利要求I所述的方法，还包括在所述客户端设备处接收注解信息，所述注解信息限定了要写在所显示的帧的片段上的注解。
3.根据权利要求I或2所述的方法，包括从除了提供所述视场信息的所述服务器之外的源接收所述视频流。
4.根据权利要求3所述的方法，其中，所述源是对等源。
5.根据权利要求I所述的方法，包括从所述客户端设备向所述服务器传送对所述集锦套件的用户评分。
6.根据权利要求I所述的方法，包括在所述客户端设备处接收基于针对所述集锦套件的评分来选择的视频流。
7.根据权利要求I所述的方法，包括在所述客户端设备处接收基于由所述客户端设备的用户提供的且被存储在所述服务器内的偏好来选择的视频流。
8.根据权利要求7所述的方法，其中，所述偏好是用户最喜欢的足球队或者最喜欢的集锦套件作者中的任一者。
9.根据权利要求I所述的方法，包括向所述服务器传送由所述客户端设备的用户提供的对所述集锦套件的注解。
10.根据权利要求I所述的方法，包括向所述服务器传送所述集锦套件的经修改版本。
11.一种在客户端设备上生成集锦套件的方法，包括在所述客户端设备处接收包括多个帧的视频流，生成视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并且将所述位置信息和唯一地标识出所述视频流中的帧的帧标识符传输给服务器。
12.根据权利要求5所述的方法，还包括在所述客户端设备处生成限定了写在所述帧的片段上的注解的注解信息。
13.—种包括计算机可读指令的计算机程序，所述计算机可读指令当被载入到计算机上时将所述计算机配置为执行根据权利要求I所述的方法。
14.一种存储介质，被配置为在其中或其上存储根据权利要求13所述的计算机程序。
15.一种客户端设备，包括接收器和显示器，所述接收器可操作来接收包括多个帧的视频流并从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，所述显示器在使用时可操作来向用户显示所限定的片段。
16.根据权利要求15所述的设备，其中，所述接收器还可操作来接收注解信息，所述注解信息限定了要写在所显示的帧的片段上的注解。
17.根据权利要求15或16所述的设备，其中，所述接收器还可操作来从除了提供所述视场信息的所述服务器之外的源接收所述视频流。
18.根据权利要求17所述的设备，其中，所述源是对等源。
19.根据权利要求15所述的设备，包括输出设备，该输出设备可操作来从所述客户端设备向所述服务器传送对所述集锦套件的用户评分。
20.根据权利要求15所述的设备，其中，所述接收器还可操作来在所述客户端设备处接收基于针对所述集锦套件的评分来选择的视频流。
21.根据权利要求15所述的设备，其中，所述接收器还可操作来在所述客户端设备处接收基于由所述客户端设备的用户提供的且被存储在所述服务器内的偏好来选择的视频流。
22.根据权利要求21所述的设备，其中，所述偏好是用户最喜欢的足球队或者最喜欢的集锦套件作者中的任一者。
23.根据权利要求15所述的设备，其中，所述输出设备还可操作来向所述服务器传送由所述客户端设备的用户提供的对所述集锦套件的注解。
24.根据权利要求15所述的设备，其中，所述输出设备还可操作来向所述服务器传送所述集锦套件的经修改版本。
25.一种用于在客户端设备上生成集锦套件的设备，包括接收器、生成设备和输出设备，所述接收器可操作来接收包括多个帧的视频流，所述生成设备可操作来生成视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并且所述输出设备可操作来将所述位置信息和唯一地标识出所述视频流中的帧的帧标识符传输给服务器。
26.根据权利要求25所述的设备，其中，所述生成设备可操作来在所述客户端设备处生成限定了写在所述帧的片段上的注解的注解信息。
27.—种系统，包括连接到网络的服务器，该服务器在使用时与根据权利要求15所述的设备通信。
全文摘要
本发明提供了方法、装置和系统。一种在客户端设备上观看集锦套件的方法，包括在客户端设备处接收包括多个帧的视频流，从服务器接收视场信息，所述视场信息针对所接收的视频流中的帧标识出限定了该帧的片段的位置信息，并将所限定的片段显示给用户。
文档编号H04N21/266GK102740127SQ20121009285
公开日2012年10月17日申请日期2012年3月29日优先权日2011年3月29日
发明者克里夫·亨利·吉尔拉德, 罗伯特·马克·斯特凡·波特申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：克里夫·亨利·吉尔拉德;罗伯特·马克·斯特凡·波特
技术所有人：索尼公司
我是此专利的发明人

上一篇：符合层叠对象相关的信任决定的用户界面的制作方法
上一篇：方法、装置和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。