多媒体互动系统及方法

文档序号：7980546阅读：172来源：国知局

多媒体互动系统及方法
【专利摘要】一种由显示装置与处理模块所组成的多媒体互动系统。显示装置用以接收并显示第一使用者与第二使用者之间所进行的视频的画面。处理模块用以从视频的画面识别出第三使用者，以及在视频中进行与第三使用者相关的互动操作。
【专利说明】多媒体互动系统及方法
【技术领域】
[0001]本发明主要关于操作界面设计，特别是有关于一种多媒体互动系统及方法，能够针对视频情境提供与第三方人士进行互动的操作。
【背景技术】
[0002]近年来，随着网络普及与频宽提升，甚至是在移动智能装置的推波助澜之下，实时的多媒体应用越来越受到欢迎，包括:视频通话、视频会议、随选视频、高画质电视、在线学习课程等等。对企业用户而言，得以通过上述应用施行远程管理以提升企业的整体运作效率并降低成本。对个人用户而言，则可通过上述应用拉近人与人之间的距离，或增加多媒体生活的便利性。
[0003]然而，目前针对视频情境所提供的操作界面通常只限于使用者对事先选定的对象进行视频，而缺乏对第三方人士进行互动的弹性。以一对一视频通话为例，使用者A在与使用者B进行视频的过程中，如果临时想要与使用者C进行互动，则使用者A必须先中断与使用者B的视频，再另外发起与使用者C的视频，或者，使用者A必须先切换操作界面才能向使用者C发送消息。
[0004]因此，亟需有一种多媒体互动方法，能够针对视频情境提供与第三方人士进行互动的弹性操作。

【发明内容】

[0005]本发明的一实施例提供了一种多媒体互动系统，包括一显不装置、以及一处理模块。上述显示装置用以接收并显示一第一使用者与一第二使用者之间所进行的一视频的画面。上述处理模块用以从上述视频的画面识别出一第三使用者，以及在上述视频中进行与上述第三使用者相关的互动操作。
[0006]本发明的另一实施例提供了一种多媒体互动方法，包括以下步骤:在一显示装置上显示一第一使用者与一第二使用者之间所进行的一视频的画面；从上述视频的画面识别出一第三使用者；以及在上述视频中进行与上述第三使用者相关的互动操作。
[0007]关于本发明其它附加的特征与优点，本领域技术人员，在不脱离本发明的精神和范围内，当可根据本发明实施方法中所揭露的多媒体互动系统及方法做些许的更动与润饰而得到。
【专利附图】

【附图说明】
[0008]图1是根据本发明一实施例所述的多媒体互动系统的示意图。
[0009]图2是根据本发明一实施例所述的多媒体使用者装置的架构示意图。
[0010]图3是根据本发明一实施例所述的多媒体服务器的架构示意图。
[0011]图4是根据本发明一实施例所述在多媒体使用者装置端所呈现的多媒体互动界面的示意图。[0012]图5是根据本发明另一实施例所述在多媒体使用者装置端所呈现的多媒体互动界面的示意图。
[0013]图6是根据本发明又一实施例所述在多媒体使用者装置端所呈现的多媒体互动界面的示意图。
[0014]图7是根据本发明ー实施例所述的多媒体互动方法的简要流程图。
[0015]图8A?SC是根据本发明ー实施例所述的多媒体互动方法的细部流程图。
[0016][主要元件标号说明]
[0017]100?多媒体互动系统；10、20、30?多媒体使用者装置；
[0018]40?多媒体服务器； 210?显示装置；
[0019]220?输入输出模块； 230、320?储存模块；
[0020]240、310?网络模块； 250、330?处理模块；
[0021]p?视频画面。
【具体实施方式】
[0022]本章节所叙述的是实施本发明的最佳方式，目的在于说明本发明的精神而非用以限定本发明的保护范围，本发明的保护范围当视所附的申请专利范围所界定者为准。
[0023]图1是根据本发明ー实施例所述的多媒体互动系统的示意图。在多媒体互动系统100中，多媒体使用者装置10、20、30是通过多媒体服务器40进行互动，包括:进行视频、传送语音或文字消息、传送电子邮件、以及分享文件等等。多媒体使用者装置10、20、30可为智能型手机、平板计算机、笔记本型计算机、桌上型计算机、或其它具备连网功能的多媒体装置，且多媒体使用者装置10、20、30可通过有线或无线的方式连接至因特网。多媒体服务器40可为架设于网络上的计算机主机，用以提供视频串流服务。
[0024]图2是根据本发明ー实施例所述的多媒体使用者装置的架构示意图。显示装置210可包括屏幕、面板、或触控面板等具备显示功能的装置。输入输出模块220可包括视频镜头、麦克风、以及喇叭，或者还可再包括键盘、鼠标、触控板等内建或外接元件。储存模块230可为易失性存储器，例如:随机存取存储器(Random Access Memory，RAM)，或非易失性存储器，例如:闪存(Flash Memory)，或硬盘、光盘，或上述媒体的任意组合。网络模块240用以提供有线或无线网络连线，例如:以太网(Ethernet)、无线区网(WiFi)、或其它网络技术。处理模块250可为通用处理器或微控制单元(Micro-Control Unit,MCU),用以执行计算机可执行的指令，以控制显示装置210、输入输出模块220、储存模块230、以及网络模块240的运作，并执行本发明的多媒体互动方法。
[0025]图3是根据本发明ー实施例所述的多媒体服务器的架构示意图。网络模块310用以提供有线或无线网络连线，储存模块320用以储存计算机可执行的程序码，并包括储存多媒体使用者装置10、20、30的相关信息，处理模块330用以加载并执行储存模块320中的程序码，以执行本发明的多媒体互动方法。
[0026]值得注意的是，在另ー实施例中，多媒体使用者装置可与多媒体服务器集成在一起，也就是说，每个多媒体使用者装置皆具备有提供视频串流服务的能力，所以多媒体使用者装置之间所进行的视频就不需再经由另一独立的多媒体服务器来协调/处理，因此，本发明不限于图1所示的架构。[0027]图4是根据本发明ー实施例所述在多媒体使用者装置端所呈现的多媒体互动接ロ的示意图。在此实施例，多媒体使用者装置10、20、30是分别由使用者A、B、C所拥有，且以使用者A的使用经验为所示范例，意即以多媒体使用者装置10的操作为主，其余为辅。首先，在步骤S4-1，多媒体使用者装置10通过多媒体服务器40与多媒体使用者装置20进行视频，所以在多媒体使用者装置10的显示装置上所显示的是在使用者B端的视频画面p。特别是，除了使用者B之外，视频画面p中亦可见到使用者C的存在(例如:在视频进行之时，使用者B正好与使用者C在一起)。当使用者A从视频画面p中看到使用者C时，便可进ー步以多模(multimodal)的方式(例如:语音(speech)、触控事件(touch event)、手势(gesture)、以及鼠标事件(mouse event)的任意组合)产生输入指令以与使用者C进行互动，而不需再经由任何图形使用者界面或与使用者C重新建立一视频连结而进行互动。明确来说，在步骤S4-2，使用者A可在多媒体使用者装置10的显示装置上触碰使用者C的对应位置，同时以语音方式叙述欲进行的互动操作:「加入好友清単」。根据该触碰事件，多媒体服务器40先从视频画面p识别出使用者C,然后使用自然语言处理(Natural LanguageProcessing,NLP)技术将上述语音输入转换为交友请求并传送该请求给多媒体使用者装置
30。所以在步骤S4-3，多媒体使用者装置30的显示装置上所显示的是使用者A所发出的交友请求。
[0028]于ー具体实施例中，当使用者A触碰使用者C的对应位置，多媒体服务器40即会判断使用者C是否已在使用者A的好友清单中，若否，则使用者A无需以语音方式叙述欲进行的互动操作:「加入好友清単」，多媒体服务器40即直接将交友请求传送该请求给多媒体使用者装置30。
[0029]于ー具体实施例中，使用者A与使用者C进行互动时，原来使用者A与使用者B之间的视频可先暂停(paused)，之后，使用者A可再输入另一指令以结束与使用者C的互动并继续(resume)与使用者B的视频，例如，语音:「返回与使用者B的视频」、在视频画面p上非对应于使用者C的位置发起ー触控事件、或在视频画面p上使用者B的对应位置发起ー触控事件。或者，可于使用者A与使用者C之间的互动结束吋，自动继续使用者A与使用者B之间的视频。
[0030]图5是根据本发明另一实施例所述在多媒体使用者装置端所呈现的多媒体互动界面的示意图。类似于图4的实施例，在步骤S5-2，使用者A可在多媒体使用者装置10的显示装置上触碰使用者C的对应位置，同时以语音方式叙述欲进行的互动操作:「进行视频」，而原来使用者A与使用者B之间的视频可先暂停。根据该触碰事件，多媒体服务器40先从视频画面P识别出使用者C，然后使用自然语言处理技术将上述语音输入转换为视频请求并建立多媒体使用者装置10与30之间的视频串流。所以在步骤S5-3，多媒体使用者装置30的显示装置上所显示的是使用者A端的视频画面。在另ー实施例，使用者A与使用者C之间的互动可以预约的方式进行，例如，在步骤S5-2中，使用者A可改以语音叙述:「十分钟后与他进行视频」，多媒体服务器40则等待十分钟后才建立多媒体使用者装置10与30之间的视频串流。
[0031]于ー具体实施例中，当使用者A触碰使用者C的对应位置，多媒体服务器40即会判断使用者C是否已在使用者A的好友清单中，若是，则使用者A无需以语音方式叙述欲进行的互动操作:「进行视频」，多媒体服务器40即直接将视频请求传送该请求给多媒体使用者装置30。
[0032]图6是根据本发明又一实施例所述在多媒体使用者装置端所呈现的多媒体互动界面的示意图。类似于图4的实施例，在步骤S6-2，使用者A可在多媒体使用者装置10的显示装置上将一欲分享文件的图像(icon)拖曳到使用者C的对应位置，同时以语音方式叙述欲进行的互动操作:「文件分享」。根据该触碰事件，多媒体服务器40先从视频画面P识别出使用者C，然后使用自然语言处理技术将上述语音输入转换为文件分享请求并传送该请求给多媒体使用者装置30。所以在步骤S6-3，多媒体使用者装置30的显示装置上所显示的是使用者A所发出的文件分享请求。
[0033]于一具体实施例中，当使用者A将一欲分享文件的图像(icon)拖曳到使用者C的对应位置时，多媒体服务器40即自动将此行为转换成文件分享请求，而无需使用者A以语音方式叙述欲进行的互动操作:「文件分享」。
[0034]于一具体实施例中，多媒体服务器40可执行一社群网络程序，该社群网络可接受使用者的注册并提供使用者的相关信息，例如姓名、移动电话、电子邮件账号、照片、好友清单、喜好运动、艺人、影音等。因此，多媒体服务器40可根据使用者的社群网络账号而得知使用者的相关信息，并可根据使用者所建立的好友清单，进一步连结至好友的社群网络账号，并根据使用者及其好友所公开的照片或图像，而建立使用者及其好友的图像数据库或图像特征等等。进一步地，使用者可提供其它社群网络的账号，例如脸书或google+等，如此一来，多媒体服务器40便可从其它的社群网络更精确地搜集使用者的相关信息。于一具体实施例中，多媒体服务器40根据每一使用者分别建立图像数据库或图像特征。
[0035]在图4?6的实施例中，多媒体服务器40可在视频进行之前根据使用者A的社群网络账号预先搜集相关图像数据，并分析图像数据的特征以建立一图像数据库。之后，在从视频画面P识别出使用者C的步骤中，多媒体服务器40可使用脸部识别(face detection)技术在视频画面P找出使用者C的外貌特征，然后根据使用者C的外貌特征去比对图像数据库，进而判断使用者C是谁，是否属于使用者A的好友等等。
[0036]在图4?6的实施例中，多媒体服务器40可在视频进行之前根据使用者A的社群网络账号预先搜集其好友信息，包括:姓名、移动电话、以及电子邮件账号等等。接着，使用者B可在视频的过程中在视频画面P上为使用者C标记使用者标签(user tag)。之后，在从视频画面P识别出使用者C的步骤中，多媒体服务器40可再根据使用者B所设定的使用者标签识别出使用者B及其相关信息。
[0037]需注意的是，除了图4?6所示的实施例之外，使用者A与使用者C进行的互动还可包括传送语音或文字消息、传送电子邮件、以及传送会议邀请等等，且本发明不再此限。
[0038]关于上述多模的输入指令，在其它实施例，使用者A可运用预先定义好的手势来产生输入指令，例如:在使用者C的对应位置上画圈则表示要将使用者C放入电话黑名单(block list)或社群网站黑名单。
[0039]图7是根据本发明一实施例所述的多媒体互动方法的简要流程图。在此实施例中，多媒体互动方法可适用于图1所示的多媒体使用者装置10?30以及多媒体服务器40的协同运作，或者，亦可适用于多媒体使用者装置与多媒体服务器的一集成装置所单独运作。首先，在一显示装置上显示一第一使用者与一第二使用者之间所进行的一视频的画面(步骤S710)，然后从上述视频的画面识别出一第三使用者(步骤S720)。之后，在上述视频中进行与上述第三使用者相关的互动操作(步骤S730)。互动操作可包括:将上述第三使用者加入一朋友清单、与上述第三使用者进行视频或话讯、传送语音或文字消息给上述第三使用者、传送电子邮件给上述第三使用者、传送会议邀请给上述第三使用者、以及分享文件给上述第三使用者。特别是，步骤S730中与上述第三使用者相关的互动操作是根据ー输入指令所进行，而上述输入指令可以多模的方式，例如:语音、触控事件、手势、以及鼠标事件的任意组合所产生的，且无需切断第一使用者与第二使用者之间所进行的视频画面。
[0040]图8A?SC是根据本发明ー实施例所述的多媒体互动方法的细部流程图。在此实施例中，多媒体互动方法可适用于图1所示的多媒体使用者装置10?30以及多媒体服务器40的协同运作。首先，在使用者A与使用者B进行视频之前，多媒体服务器40根据使用者A的社群网络账号预先搜集相关图像数据(步骤S800-1?S800-2)，并分析图像数据的特征以建立ー图像数据库(步骤S800-3);并预先搜集使用者A的相关信息，如好友清单等。当使用者B发起与使用者A的视频吋，多媒体使用者装置20通过视频镜头撷取使用者B的图像(步骤S801)，将撷取的图像进行编码(步骤S802)，然后套用实时串流协议(RealTime Streaming Protocol,RTSP)或实时传送协议(Real-time Transport Protocol,RTP)将编码图像传送给多媒体服务器40 (步骤S803)，由多媒体服务器40建立与使用者A之间的视频串流(步骤S804)。多媒体使用者装置10针对接收到的串流数据进行解码(步骤S805)，接着交由显示装置呈现使用者B端的图像(步骤S806)。虽未绘示，但使用者A端的图像亦可经由相同步骤(步骤S801?S806)通过多媒体服务器40串流至多媒体使用者装置20，以供使用者B观看。
[0041]若使用者A看到视频画面中除了使用者B之外还有使用者C(若使用者B看到视频画面中除了使用者A之外还有使用者D)，决定与使用者C进行互动(步骤S807)，于是使用者A在多媒体使用者装置10的显示装置上触碰使用者C的对应位置(步骤S808)。根据该触控事件，多媒体服务器40开始对视频画面进行处理(步骤S809)，撷取对应至该触控事件的图像信息，也就是使用者C的图像信息(步骤S810)，然后再分析取得使用者C的外貌特征(步骤S811)，接着根据使用者C的外貌特征去比对前置步骤所建立的图像数据库(步骤S812)，如此ー来，便可决定使用者A欲另外发起互动的对象为使用者C以及使用者C的相关信息。
[0042]使用者A在发起触控事件之后，可将原来与使用者B所进行的视频暂停或静音(步骤S813)，然后以多模的方式产生输入指令(步骤S814)。需注意的是，在其它实施例，原来使用者A与使用者B之间的视频可继续进行而不需暂停或静音。之后，由多媒体服务器40使用自然语言处理技术处理该输入指令(步骤S815)，再对处理结果进行语意分析(步骤S816)，以将输入指令转换计算机可执行的具体命令(步骤S817)。根据转换后的命令以及決定的互动对象，多媒体服务器40再将互动请求传送给多媒体使用者装置30 (步骤S818)。
[0043]在使用者C端，多媒体使用者装置30先判断互动请求的类别(步骤S819)，再据以进行相关处理。明确来说，如果互动请求是要进行话讯，则建立与使用者A的语音通话(步骤S820);如果互动请求是要进行视频，则建立与使用者A的视频通话(步骤S821);如果互动请求是要传递多媒体短消息，则接收使用者A所发送的多媒体短消息(步骤S822)。多媒体短消息例如文字通讯，交友请求或文件传送等。[0044]于一具体实施例中，步骤S814(以多模的方式产生输入指令)可适应性地根据使用者A的相关信息而省略或设定预定的指令。例如，若多媒体服务器40发现使用者C并非使用者A的好友，则预定的指令为请求加入好友，则无需步骤S814的行为；若多媒体发现使用者C是使用者A的好友，则预定的指令为语音通话，则无需步骤S814的行为，若使用者A是使用视频通话或多媒体短消息等，此时才需步骤S814的行为以告知多媒体服务器40。
[0045]本发明虽以各种实施例揭露如上，然而其仅为范例参考而非用以限定本发明的范围，任何本领域技术人员，在不脱离本发明的精神和范围内，当可做些许的更动与润饰。因此上述实施例并非用以限定本发明的范围，本发明的保护范围当视所附的权利要求范围所界定者为准。
【权利要求】
1.ー种多媒体互动系统,包括: ー显示装置，用以接收并显示一第一使用者与一第二使用者之间所进行的一视频的画面；以及ー处理模块，用以从上述视频的画面识别出一第三使用者，以及在上述视频中进行与上述第三使用者相关的互动操作。
2.根据权利要求1所述的多媒体互动系统，其中上述处理模块还用以分析每ー使用者的一社群网络账号的相关图像数据以建立一图像数据库。
3.根据权利要求2所述的多媒体互动系统，其中上述识别步骤包括:在上述视频的画面找出上述第三使用者的外貌特征，以及比对上述图像数据库。
4.根据权利要求1所述的多媒体互动系统，其中上述互动操作包括以下的任意组合: 将上述第三使用者加入一朋友清单；与上述第三使用者进行视频或话讯；传送语音或文字消息给上述第三使用者；传送电子邮件给上述第三使用者；传送会议邀请给上述第三使用者；以及分享文件给上述第三使用者。
5.根据权利要求1所述的多媒体互动系统，其中上述处理模块根据ー输入指令进行与上述第三使用者相关的互动操作，上述输入指令是通过以下方式的任意组合所产生: 语音；触控事件；手势；以及鼠标事件。
6.—种多媒体互动方法,包括: 在ー显示装置上显示ー第一使用者与一第二使用者之间所进行的一视频的画面；从上述视频的画面识别出一第三使用者；以及在上述视频中进行与上述第三使用者相关的互动操作。
7.根据权利要求6所述的多媒体互动方法，还包括:分析每ー使用者的一社群网络账号的相关图像数据以建立ー图像数据库。
8.根据权利要求7所述的多媒体互动方法，其中上述识别步骤包括:在上述视频的画面找出上述第三使用者的外貌特征，以及比对上述图像数据库。
9.根据权利要求6所述的多媒体互动方法，其中上述互动操作包括以下的任意组合: 将上述第三使用者加入一朋友清单；与上述第三使用者进行视频或话讯；传送语音或文字消息给上述第三使用者；传送电子邮件给上述第三使用者；传送会议邀请给上述第三使用者；以及分享文件给上述第三使用者。
10.根据权利要求6所述的多媒体互动方法，其中与上述第三使用者相关的互动操作步骤是根据ー输入指令所进行，且上述输入指令是通过以下方式的任意组合所产生:语音；触控事件；手势；以及鼠标事件。
【文档编号】H04L29/06GK103491067SQ201210225223
【公开日】2014年1月1日申请日期:2012年6月29日优先权日:2012年6月11日
【发明者】林贯文申请人:广达电脑股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林贯文
技术所有人：广达电脑股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。