媒体通信的制作方法

文档序号：16811193发布日期：2019-02-10 13:40阅读：128来源：国知局

本公开内容涉及网络上的通信和协作，以及增强网络上的通信。

背景技术：

通信和协作在社交和商业两方面都是人类生活中的重要方面。已经开发了目的在于连接人们以共享体验的通信和协作工具。在许多或大多数情况下，这些工具的目的是通过网络提供反映个人和人群之间真实生活交互的体验。交互通常由音频和/或视觉元素来提供。

此类工具包括即时消息传送、语音呼叫、视频呼叫、群聊、共享桌面等等。此类工具可以执行对音频和视觉元素的捕获、操纵、传输和再现，并使用这些元素的各种组合以尝试提供通信或协作环境，该通信或协作环境提供直观和沉浸式用户体验。

用户可以在用户终端处访问此类工具，这些工具例如可以由膝上型或台式计算机、移动电话、平板设备、游戏控制台或系统或者其他专用设备来提供。此类用户终端可以在各种可能的网络架构中链接，例如对等架构或客户端-服务器架构或混合体，例如集中管理的对等架构。

技术实现要素：

可以创建通信可视化环境以用于表示媒体共享事件(例如语音或视频呼叫)中的参与者。在此类环境中，通常提供屏幕或显示器的区域来表示参与者，并且可以智能地确定该区域的大小或位置，更好地反映事件并允许参与者彼此参与。媒体共享事件(例如视频呼叫)的参与者也可以共享作为事件的一部分的内容，例如文档或演示。可以结合表示事件(例如视频呼叫)的参与者的显示区域来显示此类内容。

智能地显示内容和参与者信息以使体验对于用户更直观将是令人期望的。

根据第一方面，提供了一种方法，包括：获得表示适合于作为共享媒体事件的一部分来显示的图形内容的内容项，确定针对所述内容项的活动度量，所述活动度量基于共享媒体事件的多个参与者针对所述内容项的活动；确定所述共享媒体事件的参与者的活动度量；将内容项的活动度量与参与者的活动度量进行比较；使得显示器呈现与所述内容项相关联的图形内容，并呈现所述参与者的表示；并且其中，所述图形内容的相对显示位置和所述参与者的所述表示基于所述比较的结果。

在一个实施例中，共享媒体事件是音频/视频呼叫、群聊、演示、实时文档协作或广播中的一个，并且在各实施例中内容项可以是电子文档。

在各实施例中，所述内容项的活动度量基于对所述内容项进行的编辑活动的测量来确定，并且可以例如基于使所述项目在可编辑状态下活动的参与者的数量来确定。在各实施例中，该参与者的数量可以被表达为参与者总数的比例。

在各实施例中可以定义第一显示区域和第二显示区域，所述第一区域大于所述第二区域，并且所述图形内容和所述参与者的所述表示根据所述比较的结果被分配给所述第一显示区域和所述第二显示区域。以此方式，可以更突出地显示内容或参与者表示中具有较高相对活动的任何一个。

根据另一方面，提供了一种方法，包括：获得表示适合于作为共享媒体事件的一部分来显示的图形内容的内容项；确定所述共享媒体事件的积极参与所述内容项的参与者数量；获得积极参与所述内容项的参与者总数的比例作为所述内容项的活动度量；将所述活动度量与对应于显示区域的阈值进行比较；响应于所述活动度量大于或等于所述阈值，使得显示器在所述显示区域中呈现与所述内容项相关联的图形内容。

在各实施例中，如果参与者正在编辑内容项，则该参与者被确定为积极参与所述内容项。

根据另一方面，提供了一种方法，包括：接收表示适于作为共享通信事件的一部分来显示的图形内容的一个或多个内容项，获得所接收到的一个或多个内容项的活动度量，所述活动度量基于与所述内容项相关联的一个或多个参与者的活动；取决于所述活动度量，使得显示器选择性地呈现与所述一个或多个内容项相关联的图形内容。

在各实施例中，共享媒体事件可以包括语音呼叫、视频呼叫、群聊、共享桌面、共享演示、实时文档协作、共享应用、共享在线位置，混合现实位置、全息/空间现实、虚拟3d现实或各实施例中的广播。

内容项可以包括可用图形方式显示为事件的一部分的任何文档、工作产品、电子文档、或书面或图形材料。内容的典型示例包括演示或演示的一个或多个幻灯片、文字处理文档的至少一部分、电子表格文档、图片或插图、视频或共享桌面视图。

内容还可以被定义为共享的在线位置、应用、社交媒体、相机pov、被识别为共享数据/图形内容的相机馈送(干擦板上的手写/绘图)、虚拟3d、混合现实或全息3d环境、娱乐媒体或广播事件。

对所述内容项的选择性呈现可以包括：在显示器上相对于其他显示项(例如共享媒体事件的参与者的信息或表示)来布置内容项的位置。在各实施例中，这可以在被称为“阶段”的二维网格或3d分层环境内。选择性呈现还可以包括确定是否使内容项被显示。以此方式，可以基于内容项形成其一部分的共享媒体事件的上下文中的相关性或活动的测量来智能地选择和显示内容项。

上述方法可以是计算机实现的，并且根据另一方面，提供了一种包括计算机可读指令的非暂时性计算机可读介质或计算机程序产品，这些计算机可读指令在计算机上运行时使得该计算机执行基本上如本文所描述的方法。

本发明扩展到基本上如本文参考附图所描述的方法、装置和/或用途。

本发明的一个方面中的任何特征可以以任何适当的组合应用于本发明的其他方面。具体而言，方法方面的各特征可以应用于装置方面，反之亦然。

此外，以硬件实现的特征通常可以用软件实现，反之亦然。本文对软件和硬件特征的任何引用都应该相应地解释。

附图说明

现在将参考附图仅通过示例的方式描述本发明的优选特征，其中：

图1示意性地示出了示例性通信系统；

图2是用户终端的功能示意图；

图3示出了共享媒体事件的显示环境；

图4示出了共享媒体事件的另一显示环境；

图5示出了共享媒体事件的又一显示环境。

具体实施方式

图1示出了包括示例性终端和设备的通信系统的示例。网络102(例如互联网或移动蜂窝网络)实现设备104-110之间的通信和数据交换，其中设备104-110经由有线或无线连接来连接到网络。各种各样的设备类型是可能的，包括智能电话104、膝上型或台式计算机106、平板设备108和服务器110。在某些情况下，服务器可以充当网络管理器设备，从而控制网络上其他设备之间的通信和数据交换，然而，网络管理并非总是必需的，例如对于某些对等协议而言。

例如，图2中示出了适用于图1的通信系统中的示例性用户终端的功能示意图。

总线202连接各组件，包括非易失性存储器204和诸如cpu206的处理器。总线202还与网络接口208通信，其中网络接口208可以提供输出并从外部网络(例如适合于与其它用户终端进行通信的移动蜂窝网络或互联网)接收输入。还连接到总线的是用户输入模块212(其可以包括点击设备，例如鼠标和触摸板)以及显示器214(例如lcd或led或oled显示面板)。显示器214和输入模块212可以集成到单个设备中，例如触摸屏，如由虚线框216指示的。程序(例如存储器204存储的通信或协作应用)可以由cpu执行，并且可以使得在显示器214上呈现和输出对象。用户可以与显示的对象交互，从而向模块212提供一个或多个输入，这些输入可以具有例如利用鼠标点击或悬停在对象上、或者在触摸屏上使用一个或多个手指轻击或滑动或以其他方式与控制设备交互的形式。cpu可以识别并处理这些输入，以在响应中提供动作或输出。还可以通过响应于用户输入而对显示器214上提供的一个或多个对象进行更新来向用户提供视觉反馈。可选地，相机218和麦克风220也可以连接到总线，以用于提供通常是终端用户的音频和视频或静止图像数据。

用户终端(例如参考图2所描述的用户终端)可以适于使用各种通信协议/编解码器、可选地基本上实时地在诸如图1中所示出的网络上发送媒体(例如音频和/或视觉数据)。例如，可以使用实时传输协议rtp(rfc1889)在网络上流式传输音频，其中rtp是用于流式传输媒体的端到端协议的示例。可以使用实时传输控制协议rtcp(rfc3550)来格式化与媒体数据相关联的控制数据。可以使用诸如会话发起协议sip之类的协议来建立不同装置和/或用户终端之间的会话。

共享媒体事件通常是实时的，并且由参与者或参与者的终端提供的数据(例如文本、语音、视频、手势、注释等等)可以基本上实时地传输给其他参与者。然而，共享媒体事件可以是异步的。也就是说，由用户提供的数据或内容可以在稍后的时间发送给其他参与者。

图3示出了向共享媒体事件的参与者提供的显示器，在该情况下共享媒体事件是视频/音频呼叫。

可以看到，显示器或屏幕被划分成不同的区域或网格部分，每个网格部分表示呼叫的参与者。此处，网格被示出为相邻的矩形单元，但是网格单元可以是其他形状，例如六边形或圆形，并且不需要是规则的或相邻的或连续的。在屏幕的左手侧，区域302被分配给参与者，并且由该用户提供的视频流被显示在区域304中。可以看到，区域304未填满整个网格部分302。为了保持其纵横比，针对宽度使视频最大化，并且背景部分306和308存在于视频的上方和下方。

显示器的右手侧被划分为两个另外的矩形网格部分。这些网格部分中的每个网格部分包括标识符314，以标识归因于该网格部分或由该网格部分表示的一个或多个参与者。标识符可以是照片、化身、图形或其他标识符，在所看到的右上网格部分的情况下标识符由基本上包括网格部分的其余部分的背景区域310围绕。在该情况下，右手侧的网格部分表示语音呼叫参与者，并且这些参与者均向共享事件提供音频流。

可选地在显示器的右下角提供自视图320，以允许用户查看正在或将要潜在地作为共享媒体事件(例如视频呼叫)的一部分发送给其他用户的他们自己的图像或视频。自视图320位于右下网格部分的背景312的一部分的顶部。

图4示出了提供给共享媒体事件的参与者的另一显示器。

显示器再次包括各个网格部分。此处，显示器402的主要部分或上部包括四个网格部分404、406、408和410。这四个网格部分均表示呼叫事件的参与者，并且显示相应参与者的视频，然而一个或多个网格部分可以使用标识符(例如图3的标识符314)来表示基于音频的参与者。显示器的下部412被划分成布置在右手侧的三个网格部分414、416和418。这些网格部分可以用于表示参与者并以与上部的网格部分类似的方式显示视频，尽管规模减小。左手侧的下部412的剩余部分用于显示一个或多个参与者的标识符420。

在图4的示例中，网格部分416用于显示内容，例如以阴影示出的演示。内容可以包括可以作为事件的一部分来显示的任何文档、工作产品、或书面或图形材料。在各实施例中，内容的典型示例包括演示或演示的一个或多个幻灯片、文字处理文档或电子表格文档、图片或插图、或共享桌面视图、用户指定或系统识别的手写或绘图、3d或全息图、混合现实或基本上任何共享体验、虚拟位置或媒体。多块内容或一块内容的多个版本可以包括在给定的用户事件中。在各实施例中，可以依据网格部分和显示区域将内容视为参与者，并且可以显示内容来代替用户视频或用户的标识符。

在图4的示例中，可以根据相对优先级来分配不同的网格部分以表示参与者或内容。上部402中的网格部分对应于被视为或被确定为最重要或最高优先级的参与者或内容，而下部412中的网格部分(例如414、416和418)对应于较低优先级。由标识符420表示的参与者在优先级方面排名最低，并且在该示例中没有显示相应的视频(如果可用的话)。

虽然此处已经描述了上部和下部，但是将理解，指定具有不同优先级的显示区域群组的其他布置是可能的，例如并排布置中的显示区域或网格部分群组。

在某些情况下，可以如图5中所示出的来重新配置图4的显示器。在图5中，上部显示部分502构成单个网格部分，并用于显示内容，例如先前在图4的416处显示的内容。图5的显示器的下部512的结构与图4大致类似，其中右手侧的网格部分514、516和518显示表示参与者的视频，并且左手侧用于显示表示参与者的标识符520。

可以看到，在图5中，与图4相比内容占用先前用于表示4个参与者的显示器部分。在各示例中，这四个参与者被“移动”到下部512中的网格部分。这使得更多的参与者在下部(假设事件中参与者的总数保持不变)，并且可以看到，与图4相比标识符520的数量增加。如果参与者多于用于标识符的空间，则标识符可以简单地指示未示出的另外参与者的数量。例如，“+3”表示另外三个参与者。

在图5的示例中，尽管沿下部412、512的网格部分具有基本上相等的大小，但是定义了从左到右递增的优先级顺序。因此，当内容被提升到上部显示部分时，可以认为来自该上部的参与者最初被移动或下降到右下网格部分，并且随后沿下部显示部分向左移动，最终仅由标识符表示，并不包括或显示视频。

因此，可以向不同的显示区域或网格部分分配相对优先级，并且可以根据相对优先级将内容和/或参与者分配给这些显示区域或网格部分。通常，被分配较高重要性的显示区域更大和/或更突出。如已经描述的，网格部分或显示区域可以被分组或分层。主层或顶层是上部显示部分402中的区域，并且中间层是显示部分414、416和418，并且下层或底层是用于表示由标识符420示出的参与者的显示区域。

因此，可以响应于基于规则的逻辑评估内容和参与者的相对重要性或优先级而自动地在显示器中布置和重新布置内容和参与者。

因此，基于内容与人之间的关联的逻辑可以影响每个项目在网格中的位置，从而基于每个网格占用者的活动测量来指定并排视图或替换内容和视频流。例如，如果位置a处的fred正在呈现数字表示x，并且fred的活动视频流在上一个活动发言人anne旁边显示，但anne在设定的持续时间内未发言，则该活动内容可以取代fred旁边的anne的视频流，作为仍然是活动参与发言人的fred旁边的网格部分中的当前活动内容(以参与者的方式)。允许远程参与者观看者参与fred的活动发言视频和活动内容视图作为媒体堆栈中的当前优先级。但是，如果在另一情况下，fred在设定的持续时间内未发言，但在他的远程位置处确实开始利用活动内容，并且anne是当前的活动发言人，则fred的实时视频将用他位置处的活动内容来替代。这允许远程位置情况感知/关联到显示器中的特定网格位置。

然而，如果参与者期望，则可以手动重新布置内容和参与者。具体而言，参与者可以选择“切换”内容以具有最高优先级，并且反之在显示器的主网格部分或区域中显示内容。如果例如用户希望更清楚地和/或以更大清晰度观看内容，则可能发生这种情况。如果期望，可以类似地将内容“切换”回其原始位置，从而释放该或某一主区域或网格部分以表示参与者。这种重新布置可以覆盖任何自动优先化。

用户可以控制对参与者和内容的显示的另一种方式是通过将这些参与者和/或内容“固定”到特定的显示区域或部分。如果参与者被用户固定到网格部分(例如图5的部分518)，则该参与者被锁定在该位置而不管任何优先级确定，并且可以在该空间锁定的内容周围移动(提升或下降)其他内容和参与者，从而允许观看参与者持久参与其他参与者或内容。

因此，除了基于规则的逻辑对优先级的评估之外，还可以基于用户输入来半自动化地选择哪些内容和参与者显示在哪些网格部分或显示区域中。

可以用多种不同方式来确定参与者的优先级。一种方式是使优先级对应于参与者的活动水平或活动度量。在该情况下，考虑高活动参与者或内容是在事件中的给定时刻处可能最相关的那些参与者或内容，并且因此应当在该帧内的网格布局或层序列中更突出地显示。

活动的测量或活动度量可以基于或代表期望表示的参与者的任何类型的可检测活动或输入。例如，活动或输入可以由相机(例如相机218)或麦克风(例如图2的用户终端的麦克风220)来检测。还可以从用户输入设备(例如图2的用户终端的输入设备212)检测输入，该输入设备例如可以是键盘或触摸屏。

一种类型的活动是音频或语音活动，并且可以用于获得度量的语音活动的不同方面包括音量、持续时间、信号电平变化、或信号变化的持续时间。

另一种类型的活动是由用户终端处的相机检测到的移动。以此方式，可以例如通过应用于基于像素的图像信号的移动检测算法来检测连续帧中的差异，来检测一个或多个用户的物理移动。

另一种类型的活动是来自诸如键盘或鼠标或其他点击设备之类的设备的其他输入的文本输入。这种输入可以是符号或图标的输入，例如表情符号、或指针在屏幕上的移动。输入可以与作为在通信事件(例如演示)中共享的文档的一部分来共享的内容、或者与在原生应用中对该文档或媒体进行更新相关。任何系统识别的对该共享内容的当前状态的更新都可以被视为输入。

与通信事件有关的参与者的状态也可以用作活动度量可以基于的活动类型。例如，可以考虑加入或离开所述通信事件的状态，并且还可以使用诸如静音状态之类的其他状态。

还可以针对内容推导出或向内容分配活动度量，其中内容是事件的一部分或在事件内共享。

向内容分配活动度量一种方式是将该度量和与该内容有关的用户或参与者的活动进行相关。此类用户活动可以是专门针对所讨论的内容的活动，例如对该内容的操纵或直接交互。然而，事件中的内容可以与一个或多个参与者相关联，例如，内容可以链接到管理员或演示者，并且因此参与者(该参与制与所讨论的内容相关联)的任何活动(例如上面所描述的那些活动)可以用于分配活动度量。由于单块内容可以作用于多个参与者或与多个参与者相关联，因此内容的活动度量可以代表共享事件中的多个参与者的组合输入。然而，在一些示例中，可以将其布置成使得期望的度量仅与一个参与者或仅与所选参与者相关。

例如，可以考虑将内容引入或上传到通信事件或环境中的动作，并且如果多个参与者引入或希望引入同一块内容，则这样做的这些参与者的数量可以由度量来表示。

此外，可以识别多种不同类型的内容并填充网格部分或定义的显示区域，从而允许经由个人或群组在活动内容之间进行多任务处理。

如上所述，可以提供用户输入(已经描述了切换和固定的示例)以控制将内容和参与者分配给显示器的不同区域或部分。在此类输入与内容相关的情况下，它们可以用于为该内容提供优先级度量。例如，多个用户选择将内容提升到主显示区域可以产生高活动度量。类似地，多个用户将内容固定到低优先级显示区域可以产生低活动度量。

如果以允许多个用户编辑内容的方式来共享该内容，则可以使用在编辑活动方面的用户输入量来提供内容的度量。在向内容项提供输入或参与内容项时，该项目可被视为处于活动状态。在各实施例中，使项目处于活动状态的总参与者的比例可以用作为优先级度量。

在更复杂的示例中，应用于参与者的语音输入的语音识别可以标识相关的单词和短语，并且这些单词和短语可以被引用或者与内容项中的文本相关联，作为对是否或者哪个内容正被积极讨论的评估。可以将相关程度用作为该内容的活动度量。

如所描述的，内容和参与者两者都可以共享显示环境以用于共享用户事件(例如音频/视频呼叫)。此外，可以在活动和所分配的优先级度量方面来评估内容和参与者两者。内容和参与者的优先级度量可以被布置为直接可比较，以使得它们可以根据相对重要性或优先级而在显示网格中可互换地移动或“竞争”。

上述示例主要针对显示内容项或参与者的位置，即在“何处”显示内容项或参与者，并且在各示例中还针对突出显示的大小。然而，各示例还涉及显示“什么”-是否要显示内容。最简单的是，在能够显示内容或参与者的网格部分的有限数量的可能位置的情况下，被认为具有不足优先级的任何内容项将不会优先于其他项目或参与者而被显示。

然而，在各示例中，可能期望显示固定数量的内容项。例如，可能希望显示仅一个或至少一个内容项。如果参与者希望或已经选择要在主网格部分中显示的内容，并且参与者占用所有其他部分，则可能是这种情况。作为响应，可以评估已引入或可用于事件的多个内容项以确定具有最高优先级或活动度量的项目。以此方式，可以显示一个或多个“主导”内容项。因此，即使与多个参与者相比内容的优先级排序低于可用网格部分或显示区域的数量，也可以显示该内容。

可以建立一个或多个阈值，并且可以将内容项的活动度量与阈值进行比较以确定是否应该显示此类内容项。在显示区域被分层为网格部分或显示区域群组的示例中，阈值可以与顶层相关联，而下阈值与下层相关联。

考虑共享媒体事件的特定示例，其中多个参与者正在讨论并协作演示文档。可以确定使文档处于活动状态(即，使演示处于可编辑状态)的参与者的数量。这可以被表达为事件中的参与者总数的分数，以提供活动度量。在该示例中，假设40％的参与者在给定时间使文档处于活动状态。

例如，可以将50％的阈值设置为重要活动点，高于该活动点，在参与者的显示器的主要部分或上部中显示内容项。还可以定义40％的下阈值，高于该阈值，在下部或次要显示区域中显示内容项。因此，在该示例中，在下部区域中显示演示项目。如果更多用户随后打开活动状态中的演示，则活动度量可以上升到高于50％，此时内容项被提升到主显示区域。

因此，虽然一些参与者可以选择控制所显示的内容，但是更被动的参与者可能希望为他们选择和显示最相关的内容或内容部分。

将理解，上面仅通过示例的方式描述了本发明，并且可以在权利要求的范围内作出对细节的修改。在说明书以及(在适当的情况下)权利要求和附图中公开的每个特征可以独立地或以任何适当的组合来提供。

在经记录体验或经重现体验的情况下，可以保留参与者和内容焦点并重建以供回放。也就是说，可以存储和回放参与者和内容的显示位置的变化序列。替代地，可以针对所期望的用户输出的偏好来编辑或新创建此类序列。还可以进行标记删除或添加以组织事件的优先级。

可以利用被设计为执行本文所描述的一个或多个功能的通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件(pld)、分立门或晶体管逻辑器件、分立硬件组件或者其任意组合，来实现或执行结合本公开内容所描述的各种说明性的逻辑框、功能框、模块和电路。所描述的处理器还可以实现为计算设备的组合，例如，dsp和微处理器的组合，或者例如多个微处理器。反之，单独描述的功能框或模块可以集成到单个处理器中。结合本文公开内容所描述的方法或算法的步骤可以直接地体现在硬件中、由处理器执行的软件模块中、或者二者的组合中。软件模块可以驻留在本领域已知的任何形式的存储介质中。可以使用的存储介质的一些示例包括随机存取存储器(ram)、只读存储器(rom)、闪存、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、以及cd-rom。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·T·福尔克纳;R·阿斯塔范斯;M·H·希尔;E·戴维斯坎努托蒂伊尔;M·R·斯威夫特
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。