会议信息处理装置和方法以及计算机可读存储介质的制作方法

文档序号:6430583阅读:84来源:国知局

专利名称::会议信息处理装置和方法以及计算机可读存储介质的制作方法
技术领域
:本发明涉及会议信息处理装置、会议信息处理方法以及计算机可读存储介质。
背景技术
:已存在与会议记录相关的多种传统技术,例如用于对会议视频进行索引以备将来使用的技术、用于分析会议视频图像的技术、用于对会议视频进行概要处理的技术以及用于根据预定的模式和规则对会议视频进行概要处理的技术。这些传统技术仅在物理事件级别上实施。但是,在要通过任何上述传统技术来处理会议过程中捕获的图像数据的情况下,不能对会议参加者的各种动作进行适当的索引,并且不能为在会议之后观看会议视频的那些人提供有用的会议视频。此外,这些传统技术甚至没有公开特别重要的动作。该方法也不能根据不同的应用目的而提供不同的会议视频概要。
发明内容鉴于上述情况提出了本发明,并且本发明提供了一种会议信息处理装置和会议信息处理方法,以及计算机可读存储介质,其中消除了上述缺点。根据本发明的一个方面,提供了一种会议信息处理装置,其具有提取单元,用于从会议音频和/或可视信息中提取部分会议音频和/或可视信息,所述部分会议音频和/或可视信息还包含会议参加者的一个或多个物理事件。此外,该装置还具有提供单元,用于根据从一个或更多个物理事件中摘录的功能性动作来为所述部分会议音频和/或可视信息提供索引。根据本发明的另一方面,提供了一种会议信息处理方法。该方法包括以下步骤从会议音频和/或可视信息中提取部分会议音频和/或可视信息;以及根据从会议参加者的一个或更多个物理事件中摘录的功能性动作来为所述部分会议音频和/或可视信息提供索引。根据本发明的另一方面,提供了一种计算机可读存储介质,该存储介质存储有可由计算机执行的指令程序,以执行包括以下步骤的功能从会议音频和/或可视信息中提取部分会议音频和/或可视信息,所述会议音频和/或可视信息包含会议参加者的一个或多个物理事件;以及根据从一个或多个物理事件摘录的功能性动作来为所述部分会议音频和/或可视信息提供索引。基于以下附图对本发明的实施例进行详细说明,其中图1是表示根据本发明的会议信息处理装置的方框图;图2表示以分级方式表述会议参加者的动作的可视化数据;图3是由图1中所示的索引提供单元提供的图形用户界面的示例画面;图4表示功能性动作的二维图形表述的示例;图5是以XML数据的形式表述的索引数据集的前半部分;图6是以XML数据的形式表述的索引数据集的后半部分;图7是会议记录处理的流程图;图8是图7中所示的概要规则生成步骤的详细过程的流程图;图9是表示其中三个人参加会议并且如本发明第一实施例中那样对各个参加者的功能性动作进行定义的情况的时间线图;图10表示持续时间比预定阈值长的功能性动作以及持续时间比预定阈值短的功能性动作;图11是索引显示操作的流程图;图12表示在功能层和介质层中的图像数据结构的示例;图13是功能性动作“发言”的时间线图;图14是功能性动作持续时间确定处理的流程图;图15是功能性动作持续时间确定处理的更详细的流程图;图16是功能性动作“获得发言权(AttentionSeeking)”的时间线图;图17是功能性动作“继续发言”的时间线图;图18是功能性动作“观察”的时间线图;图19是功能性动作“参加”的时间线图;图20是功能性动作“不参加”的时间线图;图21是功能性动作“附应(Backchanneling)”的时间线图;图22是功能性动作“提问”的时间线图;图23是功能性动作“确认提问”的时间线图;图24是功能性动作“发言型思考”的时间线图;图25是功能性动作“提问型思考”的时间线图;图26是功能性动作“确认提问型思考”的时间线图;图27是功能性动作“不发言型思考”的时间线图;图28是功能性动作“自言自语”的时间线图;图29是功能性动作“发言型公共信息空间使用”的时间线图;图30是功能性动作“提问型公共信息空间使用”的时间线图;图31是功能性动作“确认提问型公共信息空间使用”的时间线图;图32是功能性动作“不发言型公共信息空间使用”的时间线图;图33是功能性动作“参加型私人信息空间使用”的时间线图;图34是功能性动作“不参加型私人信息空间使用”的时间线图;以及图35是功能性动作“笑”的时间线图。具体实施例方式在下文中,参照附图详细说明本发明的示例性实施例。(第一实施例)首先参照图1,对根据本发明第一实施例的会议信息处理装置进行说明。图1是表示根据该实施例的会议信息处理装置的示例的方框图。图1中所示的会议信息处理装置包括会议视频摄像单元2、会议视频记录单元3、部分会议视频提取单元4、索引提供单元5、索引记录单元6、会议视频显示单元7、索引显示单元8、同步单元9、概要规则生成单元10、概要规则记录单元11、概要规则显示单元12、视频概要生成单元13以及视频概要记录单元14。在会议信息处理装置1中,会议视频摄像单元2、会议视频记录单元3、部分会议视频提取单元4、索引提供单元5、索引记录单元6、会议视频显示单元7、索引显示单元8、同步单元9、概要规则生成单元10、概要规则记录单元11、概要规则显示单元12、视频概要生成单元13以及视频概要记录单元14通过网络或数据线、控制线和电路彼此相连。会议信息处理装置1处理会议视频,并包括CPU(中央处理单元)、ROM(只读存储器)和RAM(随机存取存储器)。CPU将预定程序加载到RAM中以部分地执行图1中所示的功能。根据该程序实现本发明所要求保护的会议信息处理方法。会议视频摄像单元2由摄像机和麦克风系统(声音采集系统、声音拾取系统或语音记录系统)或者两者的组合等构成。会议视频摄像单元2获取运动图像数据和音频数据、或者作为运动图像数据和音频数据的组合的会议视频数据,并将数据输出到会议视频记录单元3。会议视频记录单元3由诸如存储器或硬盘的记录介质以及记录装置等构成。会议视频记录单元3接收由会议视频摄像单元2获取的会议视频数据,并在诸如内置存储器或硬盘的记录介质上记录该会议视频数据。会议视频记录单元3随后将所记录的会议视频数据输出到部分会议视频提取单元4、视频概要生成单元13以及会议视频显示单元7。也就是说,部分会议视频提取单元4提取由运动图像数据和音频数据构成的视频数据的部分或者全部。更具体地说,部分会议视频提取单元4可以从视频数据(记录在会议视频记录单元3上)中只提取运动图像,或只提取音频数据,或者提取部分或全部运动图像数据和音频数据。部分会议视频提取单元4从存储在会议视频记录单元3中的会议音频和/或可视信息中提取部分会议音频和/或可视信息。该部分会议音频和/或可视信息包含会议参加者的一个或更多个物理事件。部分会议视频提取单元4还从该部分会议视频信息中提取各个物理事件的音频和/或可视信息。当提取部分音频和/或可视信息时,部分会议视频提取单元4可以提取记录在会议视频记录单元3上的部分会议音频和/或可视信息,或者提取记录在会议视频记录单元3上的全部会议音频和/或可视信息。由部分会议视频提取单元4提取的部分音频和/或可视信息也称作为部分会议视频数据或部分图像数据。部分会议视频提取单元4包括诸如图像识别装置的音频和/或可视处理装置、诸如运动图像数据处理装置或音频和/或可视数据处理装置的视频音频和/或可视处理装置、以及诸如语音识别装置的语言处理装置等。索引提供单元5由CPU等构成。索引提供单元5为由部分会议视频提取单元4提取的各个物理事件的音频和/或可视信息提供适当的索引数据。索引提供单元5还对从索引数据中的各个对应物理事件中摘录的一个或更多个功能性动作进行识别,并根据这些功能性动作,为由部分会议视频提取单元4提取的部分会议视频数据提供索引。索引提供单元5执行半自动或全自动索引数据生成操作。在第一实施例中,执行半自动索引数据生成操作。在稍后描述的第二实施例中,执行全自动索引数据生成操作。索引提供单元5包括诸如鼠标的指示器、键盘、以及诸如显示器的图形用户界面。用户可以利用指示器、键盘和图形用户界面手工生成索引数据。索引记录单元6由诸如存储器或硬盘的记录介质以及记录装置构成。索引记录单元6记录从索引提供单元5输入的索引数据,并将该索引数据输出到索引显示单元8或视频概要生成单元13。会议视频显示单元7由诸如显示器或监视器的显示装置构成。会议视频显示单元7显示从会议视频记录单元3输出的会议视频、从部分会议视频提取单元4输出的部分图像、以及由视频概要生成单元13进行了概要处理的会议视频。索引显示单元8由诸如显示器或监视器的显示装置构成,并向用户显示通过索引记录单元6输入的索引数据。当在相同时间段内由会议视频摄像单元2获取两个或更多个会议视频时,同步单元9使所捕获的会议视频的数据彼此同步。通过这样做,可以使两个或更多个会议视频彼此同步。同步单元9使用延时数据作为同步化的参数。将延时数据作为关于各个图像数据集的属性信息记录在会议视频记录单元3上。概要规则生成单元10产生要用于对记录在会议视频记录单元3上的图像数据进行概要处理的概要规则数据。概要规则生成单元10将概要规则数据输出到概要规则记录单元11。概要规则记录单元11由诸如存储器或硬盘的记录介质以及记录装置构成。概要规则记录单元11在诸如内置存储器或硬盘的记录介质上记录已从概要规则生成单元10输入的概要规则数据,并且随后将概要规则数据输出给概要规则显示单元12。概要规则显示单元12由诸如显示器或监视器的显示装置构成,并向用户显示从概要规则记录单元11输入的概要规则数据。视频概要生成单元13基于从概要规则记录单元11输入的概要规则数据和由索引提供单元5提供的索引结果,生成作为会议视频记录单元3的会议音频和/或可视信息概要的会议视频。视频概要生成单元13将概要会议视频输出给视频概要记录单元14。视频概要记录单元14由诸如存储器或硬盘的记录介质以及记录装置构成。视频概要记录单元14记录由视频概要生成单元13进行了概要处理的会议视频。视频概要记录单元14将所记录的视频概要数据输出给会议视频显示单元7。由此,在会议视频显示单元7上显示根据功能性动作产生的会议视频。部分会议视频提取单元4、索引提供单元5、视频概要生成单元13、视频概要记录单元14、会议视频显示单元7、以及同步单元9分别相当于本发明的权利要求中的提取单元、提供单元、生成单元、记录单元、显示单元和同步单元。现参照图2,对会议参加者的动作进行说明。图2表示以分级的方式显示会议参加者的动作的分级可视化数据22。通过索引显示单元8由图形用户界面(稍后描述)将可视化数据22呈现给用户。如图2中所示,将会议参加者的动作划分成场景层22a、功能性动作层22b和介质层22c。场景层22a的级别比功能性动作层22b高。例如,将“讨论”和“陈述”分类为场景层22a的动作。功能性动作层22b表示功能性动作单元中的功能性动作,并且级别比场景层22a低但比介质层22c高。例如,尽管功能性动作层22b的细节将在后面描述,但将“发言”和“发言型公共信息空间使用”视为功能性动作。介质层22c的级别比功能性动作层22b低,并根据话音识别技术或姿势识别技术表示数据输入/输出单元中的数据。将诸如交谈、看某物和做出姿势的物理动作(事件)分类为介质层22c的事件。在此,可以将功能性动作定义为一个或多个物理事件的摘录。通过这种方式,图形用户界面分级地显示多个物理事件和从这些物理事件摘录的功能性动作。图形用户界面还显示以分级的方式从一个或更多个功能性动作摘录的场景。通过图形用户界面,可以以分级化布局清楚地识别多个物理事件和从这些物理事件摘录的功能性动作之间的差异,也可以以分级化布局清楚地识别功能性动作和从功能性动作摘录的场景之间的差异。如图2中所示,通过多级数据表示各个会议视频,在该多级数据中至少一个级层表示功能性动作的描述,至少另一个级层表示场景的描述。可以通过具有一个或多个单层分级表达或多层分级表达的数据来表示各个会议视频。会议信息处理装置1分级地显示会议参加者的每个动作。而且,会议信息处理装置1可以处理、存储、累积并在外部以分级方式显示数据(例如XML数据等)。会议参加者的功能性动作的示例包括发言;获得发言权;继续发言;观察;参加;不参加;附应;提问;确认型提问;发言型思考;提问型思考;确认提问型思考;不发言型思考;自言自语;提问型公共信息空间使用;确认提问型公共信息空间使用;不发言型公共信息空间使用;参加型私人信息空间使用;不参加型私人信息空间使用;笑;以及不可描述动作。上述动作仅仅是从一个或多个物理事件摘录的功能性动作的示例,也可以包括其他功能性动作。在该实施例的说明的最后将对这些功能性动作进行定义。现将对由索引提供单元5提供的图形用户界面15进行详细说明。图3表示由索引提供单元5提供的图形用户界面15的显示的示例。例如,通过操作系统(OS)的用户来控制图形用户界面15的显示。索引提供单元5通过索引记录单元6在索引显示单元8上显示图形用户界面15。图形用户界面15在会议视频显示单元7上显示索引提供单元5的索引结果。利用该图形用户界面15,用户可以控制整个会议信息处理装置1。而且,可以根据功能性动作提供索引。如图3中所示,图形用户界面15包括图像显示窗口16a至16d、控制面板17、菜单18、功能性动作描述表19A和19B、轨道表(tracktable)20和场景描述表21。视频显示窗口16a至16d显示记录在会议视频记录单元3上的会议视频以及由部分会议视频提取单元4提取的部分会议视频。图形用户界面15显示通过四个系统的摄像机和一个系统的立体声麦克风获取的会议的运动图像数据。在此,分别在图像显示窗口16a、16b、16c和16d上显示从四个摄像机提供的运动图像数据。控制面板17包括图像数据重放按钮17a、图像数据停止按钮17b、图像数据快进按钮17c、图像数据倒退按钮17d以及滑动条(sliderbar)17e。用户对控制面板17进行控制,以控制在图像显示窗口16a至16d上重放的运动图像数据,并通过扬声器重放音频数据(可以将运动图像数据和音频数据总称为“图像数据”)。由用户操纵滑动条17e,以在任何所需时间在图像显示窗口16a至16d上显示经同步处理的运动图像数据。菜单18包括文件菜单18a和概要菜单18b。文件菜单18a包括多个菜单项,例如“新运动图像数据读取”、“现有数据读取”、“重写”、“重命名并保存”和“结束”。概要菜单18b包括多个菜单项,例如“用于回顾的会议视频”、“用于公共观看的会议视频”以及“用于管理人员的会议视频”。通过选择这些项,可以从原始会议视频中生成用于回顾的会议视频、用于公共观看的会议视频和用于管理人员的会议视频。用于回顾的会议视频对于会议参加者回顾他们所参加的会议的视频图像是有用的。用于公共观看的会议视频对于没有参加会议但允许观看会议视频图像的人是有用的。用于管理人员的会议视频对于公司管理人员观看会议的视频图像是有用的。根据会议参加者的数量设置功能性动作描述表19A和19B。功能性动作描述表19A包括“动作人姓名”显示栏19a、“识别编号”栏19b、“开始时间”栏19c、“结束时间”栏19d、“功能性动作名称”栏19e、“动作人的角色”栏19f、以及“动作的预计方向”栏19g。根据各个单个会议参加者生成并显示功能性动作描述表19B。在图3中,例如,存在两个会议参加者“Alice”和“Betty”。因此,在图3中显示作为“Alice”的功能性动作描述表和“Betty”的功能性动作描述表的两个表。“识别编号”栏19b表示用于识别各个功能性动作的序列编号。“开始时间”栏19c和“结束时间”栏19d表示各个功能性动作的开始时间和结束时间。“功能性动作名称”栏19e表示会议参加者的功能性动作。在用户手工提供索引的情况下,用户参照图形用户界面15的图像显示窗口16a至16d识别各个功能性动作。根据所识别的功能性动作,用户通过键盘输入适当的索引,从而在“功能性动作名称”栏19e中的对应栏中显出功能性动作的名称。在自动提供索引的情况下,部分会议视频提取单元4从会议音频和/或可视信息中提取包含会议参加者的一个或更多个物理事件的部分音频和/或可视信息,并且索引提供单元5根据该部分会议音频和/或可视信息识别从一个或更多个物理事件摘录的功能性动作。基于该功能性动作,索引提供单元5提供部分会议音频和/或可视信息的索引。通过这样做,在图形用户界面15上的“功能性动作名称”栏19e中的对应栏中显示功能性动作的名称。在“动作人的角色”栏19f中,写入动作人的摘录角色,例如“发起者”、“回答者”或“观察者”。在“动作的预计方向”栏19g中,写入各个功能性动作的预计方向。在“Alice”向“Betty”提问的功能性动作的情况下,将动作的预计方向表示为“Betty”。进而,将“Betty”回答“Alice”的提问的动作的预计方向表示为“Alice”。如功能性动作描述表19A和19B中所示,图形用户界面15显示各个会议参加者的以下多项中的每一项的数据索引识别符、索引开始时间、索引结束时间、功能性动作、会议参加者的角色以及动作的预计方向。轨道表20表示同步化操作所需的延迟。轨道表20包括表示要用作为视频识别符的轨道编号的轨道编号栏20a、用于识别介质的介质识别符栏20b、以及表示相对延时的延时栏20c。根据要使用的运动图像数据集(显示在图像显示窗口16a至16d上)的数量来生成并显示轨道表20中所包含的数据。在图3中,轨道编号栏20a中所示的轨道编号与图像显示窗口16a至16d相对应。更具体地,在图像显示窗口16a上显示与轨道编号0相对应的运动图像数据,在图像显示窗口16b上显示与轨道编号1相对应的运动图像数据,在图像显示窗口16c上显示与轨道编号2相对应的运动图像数据,以及在图像显示窗口16d上显示与轨道编号3相对应的运动图像数据。将轨道表20用于指定或提供关于包含同步的运动图像数据集的数据的信息。轨道编号栏20a中的轨道编号表示轨道表20中的数据顺序。介质识别符栏20b表示诸如记录在会议视频记录单元3上的运动图像数据或图像数据集合的名称的识别符。延迟时间栏20c表示对于由系统规定的介质(或图像数据)的重放开始时间的相对延时。图3中所示的轨道表20表示与轨道编号3相对应的运动图像数据或者与介质识别符“Video3”相对应的运动图像数据相对于其他运动图像数据延迟0.05秒。通过在延迟时间栏20c中指定各组图像数据的延迟时间,用户可以同步地重放两个或更多个视频图像。场景描述表21表示对具有与功能性动作不同程度的摘录或不同意义的图像数据的内容和结构的描述。更具体地,场景描述表21表示用于描述会议的各个场景的数据,包括识别编号栏21a、开始时间栏21b、结束时间栏21c、场景名称栏21d以及自由文本注释栏21e。在识别编号栏21a中,写入用于规定场景顺序的编号。在开始时间栏21b和结束时间栏21c中,写入各个场景的开始时间和结束时间。在场景名称栏21d中,写入诸如“讨论”和“陈述”的场景名称。在自由文本注释栏21e中,以文本格式写入各个场景中的事件。通过图形用户界面15可以以不同的颜色表示记录在功能性动作描述表19A和19B以及场景描述表21中的索引数据。更具体地,以不同的颜色二维地或三维地表示表19A、19B和21中的图形元素,并按年月日顺序排列,以使得用户可以从图形上识别各个元素。现参照图4,对功能性动作的二维图形表达进行说明。图4表示功能性动作的二维图形表达,即经索引的会议视频的图形表达的示例。在索引显示单元8上显示会议视频的图形表达。在该实施例中,会议参加者是“Alice”和“Betty”。在图4中,将会议参加者“Alice”和“Betty”的功能性动作划分成与两个参加者相对应的两行,并按年月日顺序排列。而且,以时间线和图表的方式显示功能性动作。在图4中,横坐标轴表示时间。“Alice”和“Betty”行中所示的各个矩形表示功能性动作。为功能性动作的各个单元设置索引。在图4中,以黑色表示与要用于产生回顾“Alice”的某些动作的视频概要的功能性动作相对应的图形元素。通过不同颜色的矩形来表示功能性动作。例如,用淡粉红色表示“发言”、用暗粉红色表示“获得发言权”、用枣红色表示“继续发言”、用洋红色表示“观察”、用猩红色表示“参加”、用中国红表示“不参加”、用金色表示“附应”、用棕色表示“提问”、用浅褐色表示“确认型提问”、用青铜色表示“发言型思考”、用拿浦黄色表示“提问型思考”、用奶油黄表示“确认提问型思考”、用柠檬黄表示“不发言型思考”、用海绿色表示“自言自语”、用钴绿色表示“发言型公共信息空间使用”、用翠绿色表示“提问型公共信息空间使用”、用青绿色表示“确认提问型公共信息空间使用”、用青天蓝表示“不发言型公共信息空间使用”、用铁蓝色表示“参加型私人信息空间使用”、用深蓝色表示“不参加型私人信息空间使用”、用紫罗兰色表示“笑”、用紫色表示“不可描述的动作”、用雪白色表示“暂时离开”、以及用灰色表示“会议室准备”。在图4所示的示例中,为以下场景描述设置标签和索引“介绍”、“自言自语”、“陈述”、“讨论”以及“交谈”。如图4中所示,图形用户界面15以时间线或图表的形式表示索引提供单元5的索引结果,以能够以用户友好的方式设置各个视频概要的属性信息。在图4所示的示例中,图形用户界面15通过使用特定颜色、特定形状或特定运动的图形表达,着重表示特定功能性动作,例如会议参加者中的语音发言者的变化、物理性发言者的变化、或者语音和物理性发言者的变化。因此,可以以图形的方式表示会议参加者中的语音发言者的变化、物理性发言者的变化、或者语音和物理性发言者的变化。下面,对将索引数据表示为XML数据的情况进行说明。在此,索引数据由索引提供单元5生成并记录在索引记录单元6上。图5表示被表示为XML数据的索引数据的前半部分,图6是该索引数据的后半部分。在图5和6中,索引数据被表示为具有作为根单元的MPEG-7单元的XML数据的索引数据。Mpeg7单元包括Description单元。Description单元包括用于对要用于索引的图像数据集进行描述的ContentCollection单元、以及用于对功能性动作进行描述的Session单元。在该示例中,ContentCollection单元包括用于描述两个图像数据集的使用的两个MultiMediaContent单元。每一个MultiMediaContent单元包括Audio和/或Visual单元,该Audio和/或Visual单元包括用于描述对应图像数据的位置的MediaLocation单元以及用于描述同步化所需延时的MediaTime单元。MediaLocation单元包括MediaUri单元,MediaUri单元具有用于识别对应图像数据被存储在何处的识别符。在该示例中,使用“file/video1.mpg”和“file/video2.mpg”作为图像数据。MediaTime单元包括MediaTimePoint单元,MediaTimePoint单元表示对于由系统规定的基准时间(基准点)的相对延迟时间。在该示例中,“file/video1.mpg”的延迟时间为0.0秒,其中没有延迟。另一方面,“file/video2.mpg”的延迟时间为1.0秒,意味着“file/video2.mpg”比“file/video1.mpg”落后1秒。因此,会议信息处理装置1执行重放等操作,使“file/video2.mpg”相对于“file/video1.mpg”延迟1秒。Session单元包括表示会议参加者的Actor单元以及表示会议的场景集合的ConceptualSceneCollection单元。在该示例中,存在描述两个会议参加者的两个Actor单元。每个Actor单元包括描述会议参加者姓名的Name单元以及表示会议参加者的功能性动作集合的FunctionalActCollection单元。在该示例中,Name单元表示“Alice”和“Betty”是会议参加者。每个FunctionalActCollection单元包括表示功能性动作的一个或更多个FunctionalAct单元。在该示例中,会议参加者“Alice”的功能性动作由两个FunctionalAct单元表示,“Betty”的功能性动作也由两个FunctionalAct单元表示。每一个FunctionalAct单元包括表示执行对应的功能性动作的时间段的MediaTime单元、表示会议参加者的角色的RoleofActor单元、以及表示动作的预计方向的ActDirectionIntention单元。每一个FunctionalAct单元还具有表示功能性动作的类型的“类型”属性、以及表示功能性动作的识别符的“id”属性。在该示例中,将“Alice”的功能性动作表示为“提问”和“观察”,而将“Betty”的功能性动作表示为“观察”和“发言”。每一个FunctionalAct单元中的MediaTime单元包括MediaTimePoint单元和MediaTimeDuration单元。MediaTimePoint单元表示对应的功能性动作的开始时间,MediaTimeDuration单元表示功能性动作的持续时间。由会议参加者“Alice”执行的“提问”的功能性动作从由会议信息处理装置1限定的基准时间(基站点)的0秒点开始持续了1秒。在该示例中,将执行该功能性动作的动作人的角色(RoleOfActor)表示为“发起者”,将动作的预计方向表示为“Betty”。ConceptualSceneCollection单元包括一个或更多个表示场景的ConceptualScene单元。每个ConceptualScene单元包括表示对应场景的内容的TextAnnotation单元以及表示关于该场景的时间的MediaTime单元。TextAnnotation单元包括FreeTextAnnotation单元。在该示例中,FreeTextAnnotation单元表示场景为“讨论”。对应的MediaTime单元包括分别表示场景的开始时间和场景的持续时间的MediaTimePoint单元和MediaTimeDuration单元。在该示例中,“讨论”从作为基准时间点的0秒点开始持续了60秒。接下来,对为部分会议视频手工设置索引数据并生成参加者的功能性动作的视频概要数据的处理进行说明。作为本发明的第二实施例,将在下面描述根据参加者的功能性动作自动生成并提供索引数据的处理。图7是会议记录处理的流程图。该会议记录处理包括会议视频获取步骤S1、会议视频索引步骤S2和会议视频概要处理步骤S3。在会议视频获取步骤S1中,将包括由会议视频摄像单元2捕获的运动图像数据和由麦克风系统捕获的音频数据的会议视频数据记录在会议视频记录单元3上。在从用户发出请求时,在会议视频显示单元7上显示记录在会议视频记录单元3上的会议视频。用户可以通过图3中所示的图形用户界面15上的视频显示窗口16a至16d来参看会议视频数据(会议的运动图像数据)。因此,为了使运动图像数据集彼此同步,用户在轨道表20中指定轨道编号栏20a、介质识别符栏20b以及延迟时间栏20c。将轨道表20中的轨道编号栏20a、介质识别符栏20b以及延迟时间栏20c的数据从索引提供单元5发送到同步单元9。利用该数据,同步单元9使已记录在会议视频记录单元3上的图像数据集彼此同步。现将对会议视频索引步骤S2进行描述。会议视频索引步骤S2包括部分会议视频提取步骤S21、索引记录步骤S22和索引显示步骤S23。在部分会议视频提取步骤S21中,部分会议视频提取单元4从记录在会议视频记录单元3上的会议视频数据中提取部分会议视频。在索引记录步骤S22中,为在部分会议视频提取步骤S21中所提取的部分会议视频数据提供根据参加者的各个功能性动作的索引数据。由用户通过图形用户界面15来执行该索引设置。例如,在索引记录单元6上记录图5和6中所示的XML数据格式的索引数据。然后在索引显示步骤S23中,将在索引记录步骤S22中记录在索引记录单元6上的作为XML数据的索引数据作为图表在图形用户界面15上显示给用户。在会议视频索引步骤S2中,通过操纵控制面板17上的图像数据重放按钮17a,用户查看显示在图像显示窗口16a至16d上的运动图像数据,并通过扬声器系统接听音频数据。在这样做时,用户观察作为图像数据内容的会议参加者的功能性动作,并在功能性动作描述表19A和19B中写入所观察的功能性动作。具体地,根据会议参加者的功能性动作,用户填写“识别编号”栏19b、“开始时间”栏19c、“结束时间”栏19d、“功能性动作名称”栏19e、“动作人的角色”栏19f、以及“动作的预计方向”栏19g。在此,可以从对应的图像数据中获得要写入开始时间栏19c和结束时间栏19d中的开始时间和结束时间。功能性动作描述表19A和19B是记录在索引记录单元6上的索引数据通过图形用户界面15的表达,也是索引提供单元5和索引显示单元8的实施例。而且,用户通过控制面板17参看特定(或部分)图像数据的操作相当于由会议信息处理装置1的部分会议视频提取单元4所执行的图像数据提取操作。在会议视频索引步骤S2中,用户通过操纵控制面板17上的图像数据重放按钮17a来观看显示在图像显示窗口16a至16d上的运动图像数据,并通过扬声器系统接听音频数据。在这样做时,用户识别图像数据中的每个场景,并在场景描述表21中的场景名称栏21d中写入对应的场景名称(例如“讨论”或“陈述”)。用户还填写场景描述表21中的识别编号栏21a、开始时间栏21b、结束时间栏21c、以及自由文本注释栏21e。现将对会议视频概要处理步骤S3进行详细说明。在会议视频概要处理步骤S3中,根据各种目的生成各种图像概要。会议视频概要处理步骤S3包括概要规则生成步骤S31和视频概要处理步骤S32。在概要规则生成步骤S31中,概要规则生成单元10生成概要规则数据,并将该概要规则数据记录在概要规则记录单元11上。随后概要规则显示单元12向用户显示所记录的概要规则数据。图形用户界面15没有具体实施概要规则显示单元12的用户界面。在视频概要处理步骤S32中,视频概要生成单元13参照记录在会议视频记录单元3上的会议视频数据、记录在索引记录单元6上的索引数据、以及记录在概要规则记录单元11上的概要规则数据。根据索引数据和概要规则数据,视频概要生成单元13编辑会议视频数据并生成概要会议视频数据。在视频概要处理步骤S32中,视频概要生成单元13将预定的最大部分图像持续时间与各个部分图像数据集的持续时间进行比较。视频概要生成单元13通过使用在所有的现有部分图像数据中没有超过预定持续时间的部分图像数据,基于会议音频和/或可视信息产生概要会议视频。例如,预定的最大部分图像持续时间可以为10秒。如果部分图像数据集的持续时间超过10秒,则仅部分图像数据的第一个10秒可以用作为视频概要数据的数据源。将由视频概要生成单元13生成的会议视频概要数据记录在视频概要记录单元14上。在会议视频显示单元7上显示所记录的会议视频概要数据。可以通过用户指定菜单18中的概要菜单18b中的一项来启动视频概要处理步骤S32。现参照图8,对概要规则生成步骤S31进行详细说明。图8是概要规则生成步骤S31的详细过程的流程图。概要规则生成步骤S31开始于从概要菜单18b中的“用于回顾的会议视频”、“用于公共观看的会议视频”以及“用于管理人员的会议视频”中选择一项。在此,用于回顾的会议视频对会议参加者回顾他们所参加的会议的视频图像是有用的。用于公共观看的会议视频对于那些没有参加会议但允许观看会议视频图像的人是有用的。用于管理人员的会议视频对于公司管理人员观看会议的视频图像是有用的。在步骤S41中,概要规则生成单元10确定是否选择了“用于回顾的会议视频”。如果选择了“用于回顾的会议视频”,则操作转移到步骤S42。如果没有选择“用于回顾的会议视频”,则操作转移到步骤S43。在步骤S42(回顾会议视频规则生成步骤)中,概要规则生成单元10集中于功能性动作中的“活动功能性动作”或“思考陈述的功能性动作”。在参加者指定步骤S421中,由用户通过键盘等指定要回顾的参加者的姓名。在回顾功能性动作确定步骤S422中,概要规则生成单元10参照记录在索引记录单元6上的索引数据,并随后确定是否存在与“活动功能性动作”或“思考陈述的功能性动作”相对应的索引数据。如果存在与“活动功能性动作”或“思考陈述的功能性动作”相对应的索引数据,则概要规则生成单元10生成视频概要生成规则,以获取对应的部分会议视频数据作为可能要用于产生用于回顾的视频概要的数据源。概要规则生成单元10还生成视频概要生成规则,以获取与来自现有部分图像数据的与“讨论”场景相对应的部分图像数据,并将所获取的部分图像数据设置为可用来生成用于回顾的视频概要的第二数据源。概要规则生成单元10随后向概要规则记录单元11输出作为用于回顾的会议视频规则数据的规则。在此,“活动功能性动作”包括诸如“发言”、“提问”、“发言型公共信息空间使用”、“提问型公共信息空间使用”以及“不发言型公共信息空间使用”的功能性动作。在回顾功能性动作确定步骤S422中要处理的功能性动作是与在参加者指定步骤S421中所指定的参加者相关的功能性动作。在步骤S43中,概要规则生成单元10确定是否选择了“用于公共观看的会议视频”。如果选择了“用于公共观看的会议视频”,则操作转移到S44。如果没有选择“用于公共观看的会议视频”,则操作转移到步骤S45。在公共观看会议视频规则生成步骤S44中,概要规则生成单元10处理以下功能性动作之一“发言”、“提问”、“发言型思考”或“发言型公共信息空间使用”。在阈值和参加者指定步骤S441中,由用户通过键盘等指定要用于生成视频概要的阈值数据。会议视频处理装置1可以预先设置阈值数据作为预定值。用户还通过键盘等指定要观看的会议参加者。该阈值数据表示要观看的场景的持续时间与现有部分图像数据的总持续时间的比率。在此,将场景的持续时间定义为场景的开始时间和结束时间之差。在公共观看功能性动作确定步骤S442中,概要规则生成单元10参照索引记录单元6,并且确定是否存在与以下功能性动作中的任何一个相对应的索引数据“发言”、“提问”、“发言型思考”以及“发言型公共信息空间使用”。如果存在与“发言”、“提问”、“发言型思考”以及“发言型公共信息空间使用”中的任何一个相对应的索引数据,则概要规则生成单元10生成图像概要规则,以获取对应的部分会议视频数据,作为可用来产生用于公共观看的会议视频的数据源。如果与要处理的功能性动作相对应的部分图像数据中的场景的持续时间与该部分图像数据的总持续时间的比率超过由在阈值和参加者指定步骤S441中所指定的阈值数据表示的值,则概要规则生成单元10生成视频概要生成规则以获取部分图像数据,作为可用来产生用于公共观看的会议视频的第二数据源。概要规则生成单元10随后将所产生的规则作为公共观看会议视频生成规则数据输出到概要规则记录单元11。在公共观看功能性动作确定步骤S442中,要进行处理以产生视频概要的功能性动作是与在阈值和会议参加者指定步骤S441中所指定的会议参加者相关的功能性动作。在步骤S45中,概要规则生成单元10确定是否选择了“用于管理人员的会议视频”。如果选择了“用于管理人员的会议视频”,则操作转移到步骤S46。如果没有选择“用于管理人员的会议视频”,则结束概要规则生成操作。在管理人员会议视频生成步骤S46中,概要规则生成单元10处理功能性动作“发言”、“发言型思考”和“发言型公共信息空间使用”中的任何一个。在阈值和参加者指定步骤S461中,由用户通过键盘等指定要用于产生视频概要的阈值数据。可以通过会议信息处理装置1预先设置阈值数据作为预定值。用户还通过键盘等指定要观看的会议参加者。该阈值数据表示要观看的场景的持续时间与现有的部分图像数据的总持续时间的比率。在管理人员关心的功能性动作确定步骤S462中,概要规则生成单元10参照索引记录单元6,并确定是否存在与任何以下功能性动作相对应的索引数据“发言”、“发言型思考”和“发言型公共信息空间使用”。如果存在与功能性动作“发言”、“发言型思考”和“发言型公共信息空间使用”中任何一个相对应的索引数据,则概要规则生成单元10生成概要规则数据,以获取对应的部分会议视频数据作为可以用来产生用于管理人员的会议视频的数据源。概要规则生成单元10还产生概要规则数据,以从可以用作为用来产生用于管理人员的会议视频的数据源的现有的部分图像数据中获取与场景“讨论”或“陈述”相对应的部分图像数据,并将所获取的部分图像数据设置为可以用来产生用于管理人员的会议视频的第二数据源。如果与要观看的功能性动作相对应的部分图像数据中的场景的持续时间与该部分图像数据的总持续时间的比率超过了由在阈值和参加者指定步骤S461中所指定的阈值数据表示的值,则概要规则生成单元10生成视频概要生成规则,以获取部分图像数据作为可以用来产生用于管理人员的会议视频的第三数据源。概要规则生成单元10随后将所生成的概要规则数据作为管理人员会议视频生成规则数据输出到概要规则记录单元11。在管理人员关心的功能性动作确定步骤S462中,要进行处理以产生视频概要的功能性动作是与在阈值和会议参加者指定步骤S461中所指定的会议参加者相关的功能性动作。接下来,对会议视频概要步骤S3的过程进行详细说明。根据情况存在三种不同类型的会议视频概要。通过选择“用于回顾的会议视频”、“用于公共观看的会议视频”和“用于管理人员的会议视频”多个项之一,来相应地产生会议视频概要。首先对“用于回顾的会议视频”的情况进行说明。在“用于回顾的会议视频”的情况下,视频概要生成单元13使用在回顾会议视频规则生成步骤S42中所生成的回顾会议视频规则数据,以从记录在索引记录单元6上的索引数据中提取要回顾的索引数据。视频概要生成单元13从会议视频记录单元3中提取与所提取的索引数据相关的图像数据或部分图像数据,并随后产生包含关于以下“活动功能性动作”的数据的回顾会议视频数据“发言”、“提问”、“发言型公共信息空间使用”、“提问型公共信息空间使用”和“不发言型公共信息空间使用”,以及“发言型思考功能性动作”。现对“用于公共观看的会议视频”的情况进行详细说明。在“用于公共观看的会议视频”的情况下,视频概要生成单元13使用在公共观看会议视频规则生成步骤S44中所生成的公共观看会议视频规则数据,以从索引记录单元6中提取要观看的索引数据。视频概要生成单元13从会议视频记录单元3中提取与所提取的索引数据相关的图像数据或部分图像数据,并且随后产生包含关于以下功能性动作的数据的公共观看会议视频数据“发言”、“提问”、“发言型思考”以及“发言型公共信息空间使用”。现对“用于管理人员的会议视频”的情况进行说明。在“用于管理人员的会议视频”的情况下,视频概要生成单元13使用在管理人员会议视频规则生成步骤S46中生成的管理人员会议视频规则数据,以从索引记录单元6中提取要观看的索引数据。视频概要生成单元13提取与所提取的索引数据相关的图像数据或部分图像数据,并且随后产生包含关于以下功能性动作的数据的管理人员会议视频数据“发言”、“发言型思考”以及“发言型公共信息空间使用”。现参照图9和图10说明要对该三种类型的会议视频概要执行的概要处理。以下还对要在概要处理中使用的功能性动作数据进行说明。图9表示在会议参加者为Alice、Betty和Cherryl并根据该实施例如上所述定义参加者的功能性动作的情况下获得的时间线。总之,图9中所示的时间线表示功能性动作的持续时间。在图9中,横坐标轴表示时间(经过的时间)。如可从图9中看到的,在会议中,Alice执行了以下的功能性动作(a)发言;(b)发言;(c)附应;(d)提问;(e)附应;以及(f)不发言型公共信息空间使用。如还可从图9中看到的,Betty执行了(g)发言,而Cherryl执行了(h)发言。在回顾会议视频规则生成步骤S42中,生成图像概要规则以产生由会议参加者用于回顾会议的视频概要。在公共观看会议视频规则生成步骤S44中,生成图像概要规则以产生由那些没有参加会议但允许在会议之后通过视频概要观看会议的人使用的视频概要。同样地,在管理人员会议视频规则生成步骤S46中,生成图像概要规则以产生由领导会议参加者工作并希望观看会议以作参考的管理人员、主管和经理使用的视频概要。例如,在参加了会议之后,Alice可以通过“用于回顾的会议视频”来回顾会议视频。没有参加会议的Diana可以通过“用于公共观看的会议视频”来观看会议视频。作为公司管理人员和Alice的上级的Elly可以通过“用于管理人员的会议视频”来参看会议视频。在此,Diana没有出席(attend)主题会议,意味着她没有实际出席会议,或者她没有参加(participate)视频会议(通过诸如视频监视器的装置)。这与“不参加(non-participating)”完全不同,而是意味着她没有参与(takeanypartin)该会议。当Alice使用“用于回顾的会议视频”时,她在参加者指定步骤S421中指定她自己(即“Alice”)作为主题参加者。通过指定她自己作为参加者,Alice可以仅指定她自己的功能性动作作为要回顾的对象。因此,将要由Alice回顾的关于“用于回顾的会议视频”的功能性动作限制为图9中所示的(a)发言、(b)发言、(c)附应、(d)提问、(e)附应,以及(f)不发言型公共信息空间使用。在生成回顾会议视频规则的步骤中,只考虑“活动功能性动作”以及“发言型思考功能性动作”。因此,使用功能性动作(a)发言、(b)发言、(c)提问、以及(f)不发言型公共信息空间使用作为要进行概要处理的对象,来执行所述概要处理。当没有参加会议的Diana使用“用于公共观看的会议视频”时,她首先指定会议参加者。例如,在阈值和参加者指定步骤S441中,Diana指定Alice。因此,将要在“用于公共观看的会议视频”中进行概要处理的功能性动作限制为图9中所示的(a)发言、(b)发言、(c)附应、(d)提问、(e)附应,以及(f)不发言型公共信息空间使用。如上所述,在“用于公共观看的会议视频”中,功能性动作“发言”、“提问”、“发言型思考”和“发言型公共信息空间使用”是要进行概要处理的对象。因此,仅将图9中所示的功能性动作(a)发言、(b)发言和(d)提问作为要进行概要处理的对象,来执行概要处理。当作为管理人员的Elly使用“用于管理人员的会议视频”时,在阈值和参加者指定步骤S461中她可以指定Alice、Betty和Cherryl。在这种情况下,在概要处理中仅将图9中所示的由Alice执行的(a)发言和(b)发言、由Betty执行的(g)发言以及由Cherryl执行的(h)发言的功能性动作作为要进行概要处理的对象。这是因为在管理人员会议视频规则生成步骤S46中仅将“发言”、“发言型思考”和“发言型公共信息空间使用”的功能性动作指定为要进行概要处理的对象。现参照图10,对阈值处理过程进行说明。可以使用阈值来产生更紧凑的视频概要。例如,可以使用阈值来设定要进行概要处理的各个功能性动作的持续时间的上限。图10表示具有比阈值长的持续时间的功能性动作,以及具有比阈值短的持续时间的功能性动作。在图10中,横坐标轴表示时间(经过的时间)。如可以从图10中看到的,Alice执行了功能性动作(a’)发言和(b’)发言。例如,为了对要进行概要处理的功能性动作的持续时间设定上限,将阈值t设定为8秒。由Alice执行的第一发言(a’)持续了10秒,而由Alice执行的第二发言(b’)持续了6秒。由于在图像概要处理操作中处理的功能性动作是“发言”,并且阈值t为8秒,所以要处理的仅仅是第一发言(a’)的前8秒的数据。同时,要处理比8秒的阈值t要短的整个第二发言(b’)。对上述各个功能性动作进行具体定义。将“发言”归为独立功能性动作类别,并且通常被写作或解释为参加者发言。“发言”与语言动作相关联。将“提问”归为另一个类别,但将反问归类为“发言”。“获得发言权”表示参加者希望在讨论中开始交谈的动作。可以将“获得发言权”动作分为语音动作和可视动作。为了获得发言权,参加者举起他/她的手以示意他/她希望开始谈话,或者发出噪声以吸引其他参加者的注意力。除了保持发言权的动作以外,“继续发言”表示与“获得发言权”相同的动作。当另一个参加者试图获得发言权时,正在发言的参加者执行“继续发言”。“观察”表示参加者有意地看着关注点的动作,而不执行任何其他动作。“关注点”字面的意思表示吸引参加者注意力的物体或人的动作。“参加”表示参加者无意地看着关注点的动作。参加者可能惊讶地睁大他/她的眼睛,或者在他/她的椅子上挪动。当仅考虑“凝视”时,检测(或识别)这种动作的预计方向不象所想的那样困难。一个人凝视的物体应该是重要的,因此,在开始和结束时该动作的凝视方向暗示该动作的预计方向。当另一个参加者执行“附应”或发言者以某种方式强调他/她的发言时(通过姿势或较大的声音),实际“参加”会议的参加者应该向“动作的预计方向”看。“不参加”表示有意地涉及完全与会议无关的事情的参加者的动作。“不参加”动作的示例包括睡觉或打电话。“附应”表示每个参加者可能给出以继续讨论的确认手势。“附应”动作的示例包括诸如点头或“啊哈”的短的可听到的响应。“提问”表示参加者以回答者可以保持发言权的方式提出问题的动作。“确认型提问”表示参加者以不允许回答者发言的方式提出问题的动作。确认型提问通常由非常短的句子构成。“发言型思考”表示参加者在谈话的同时进行思考的动作。当参加者向上看时,可以将参加者的动作确定为“发言型思考”动作。“提问型思考”表示参加者思考问题的动作。“确认提问型思考”表示参加者进行思考但不谈话的动作。“自言自语”表示参加者对自己说话的动作。该动作的标记之一是参加者向下看的动作。该动作无意针对任何人。“陈述型公共信息空间使用”表示参加者在谈话的同时在白板或在两个或更多个会议参加者之间共享的某些其他信息空间上进行书写的动作。“提问型公共信息空间使用”表示参加者在提出问题的同时在白板或在两个或更多个会议参加者之间共享的某些其他信息空间上进行书写的动作。“确认提问型公共信息空间使用”表示参加者在提出确认型提问的同时在白板或在两个或更多个会议参加者之间共享的某些其他信息空间上进行书写的动作。“不发言型公共信息空间使用”表示参加者在白板或在两个或更多个会议参加者之间共享的某些其他信息空间上进行书写的动作。除了“不发言型公共信息空间使用”动作以外,不发言型功能性动作不具有任何“动作的预计方向”。“参加型私人信息空间使用”表示参加者在“参加”会议的同时有意地涉及“私人信息空间”的动作。“参加型私人信息空间使用”的示例包括在纸张上进行书写和在膝上型计算机上输入笔记。在这种情况下,参加者可能偶尔扫视一下会议,甚至可能提出短的评论或执行“附应”动作。“不参加型私人信息空间使用”表示参加者在“不参加”会议的同时有意地涉及“私人信息空间”的动作。“笑”字面的意思表示参加者笑的动作。“不可描述的动作”表示不能对来自视频的动作或该动作的预计方向进行解释。根据上述第一实施例,可以基于从一个或更多个物理事件摘录的各个功能性动作对会议音频和/或可视信息进行编辑。因此,可以提供对于那些希望以后观看会议的人有用的会议视频。(第二实施例)现将对本发明的第二实施例进行说明。在第二实施例中,索引提供单元5根据会议参加者的功能性动作自动地产生索引数据。更具体地,使用音频/非音频部分检测技术、语音识别技术以及姿势识别技术,对图像数据中的各个功能性动作进行识别,并且自动地生成与参加者的功能性动作相对应的索引数据以及通过群集技术(clusteringtechnique)等识别的场景。图11是索引显示处理的流程图。如从图11中可看到的,该处理包括事件索引步骤S51、功能性动作索引步骤S52、场景索引步骤S53、以及索引显示步骤S54。事件索引步骤S51、功能性动作索引步骤S52、以及场景索引步骤S53是上述索引记录步骤S22的更详细的方案。在事件索引步骤S51中,索引提供单元5对与介质层22c相对应的图像数据进行索引。更具体地,索引提供单元5从由部分会议视频提取单元4提取的部分会议视频数据中识别会议参加者的各个物理事件(例如扫视和点头)。索引提供单元5随后提供索引并使图像数据结构化。在功能性动作索引步骤S52中,索引提供单元5对与功能性动作层22b相对应的图像数据进行索引。更具体地,索引提供单元5根据关于被结构化为介质层22c的物理事件的索引数据来识别各个功能性动作。索引提供单元5随后提供索引并使图像数据结构化。在场景索引步骤S53中,索引提供单元5对与场景层22a相对应的图像数据进行索引。更具体地,索引提供单元5根据关于被结构化为功能性动作层22b的功能性动作的索引数据来识别各个场景。索引提供单元5随后提供索引并使图像数据结构化。在索引显示步骤S54中,索引显示单元8以图形的方式显示被结构化为介质层22c、功能性动作层22b和场景层22a的索引数据,以使得可以将索引数据如图2中所示呈现给用户。图12表示与功能性动作层和介质层相对应的图像数据的示例结构。在图12中所示的示例中,存在介质层22c的四个事件(动作)。事件A表示参加者离开他/她的座位的物理事件。事件B表示参加者发言的物理事件。事件C表示参加者在白板上进行书写的物理事件。事件D表示参加者入座的物理事件。在此,事件B和C彼此同时发生。更具体地,存在发言的同时在白板上进行书写的会议参加者。根据关于该事件的索引数据,可以在对应的功能性动作层22b上将该会议参加者的动作识别为“发言型公共信息空间使用”。为了识别每两个场景之间的边界,可以利用“MethodofDetectingMovingPictureCutsfromaMPEGBitStreamthroughLikelihoodRatioTest”(Kaneko,etal.,IEICETransactionsD-II,vol.J82-D-II,No.3,pp.361-370,1990)。在一个场景包括两个或更多个剪辑的情况下,可以使用在“AnInteractiveComicBookPresentationforExploringVideo”(Boreczky,etal.,CHI2000CHILetters,volume2,issue1,pp.185-192,2000)中公开的群集技术来将两个或更多个剪辑作为一个场景集中进行处理。根据Boreczky等人所公开的技术,通过阶层式聚合群集技术(hierachicalagglomerativeclusteringtechnique)的所谓完全连通法(completelinkmethod)来群集所有的视频帧。为了识别图像数据(或者部分会议视频数据)中的“发言”的功能性动作,可以使用在“MethodofDetectingTimingforPresentingSubtitlesinTelevisionprogram,UsingWordSpottingandDynamicProgrammingTechnique”(Maruyama,etal.)中公开的“块逆谱通量(BlockCepstrumFlux)”技术。如果根据音频数据和非音频数据之间的阈值确定为非音频帧的序列帧的数量超过预定数量,则将非音频帧部分归类为非音频部分,并将所有的剩余部分归类为音频部分。通过检测这些音频部分,可以识别图像数据中的“发言”的功能性动作。在参加者作出手势以获得发言权(“获得发言权”)的情况下,可以使用传统的姿势识别技术来从图像数据(或部分会议视频数据)中检测手和身体姿势。例如,可以使用在日本未审专利公报No.2001-229398中公开的装置来从视频图像中检测由动作者作出的姿势,并以可以再现该姿势的方式设定姿势的参数。随后将标签加入这些参数。存储带有标签的参数,以使这些参数可以用于制作以自然方式动画运动的角色。而且,可以使用在日本未审专利公报No.2000-222586中公开的装置来有效地描述与视频图像中的对象相对应的运动信息。更具体地,通过累加运动频率分布图来产生累计运动频率图,并产生有效描述与视频图像中的对象相对应的运动信息的运动描述符,并且将该运动描述符用于视频搜索。还提出了几种技术以构造用于根据序列图像帧来精确估测运动对象的运动和结构的模型方法,由此识别由运动对象作出的姿势。例如,可以使用在日本未审专利公报No.9-245178中公开的姿势运动图像识别方法。更具体地,将构成运动图像的各个图像帧视为矢量空间中的点,并将各个点的运动轨迹设定为各个对应类型的姿势的特征参数。将通过该方式得到的特征参数与基准模式的特征参数进行比较。由此,可以精确地识别姿势的类型。还可以使用在日本未审专利公报No.11-238142中公开的装置。将在原始运动图像中可以看到的姿势具体分类成多种类型,例如提问(前倾)和同意(点头)。因此,构成要加入到各种类型姿势中的识别标签,并从各个对应的识别标签中提取各种姿势的含意。因此,可以产生说明各个姿势的开始时间和结束时间的脚本(script)。还可以使用在日本未审专利公报No.6-89342中公开的运动图像处理器。更具体地,输入构成运动图像的多个图像,并根据该多个图像中的至少三个特征点的位置变化来估测图像帧中的仿射变形(affinedeformation)。因此,可以根据图像特征数量的位置变化来检测运动对象的运动和结构。可以利用以上的姿势识别技术来识别图像数据中诸如“获得发言权”和“附应”的功能性动作。现将对待由索引提供单元5执行的功能性动作识别操作进行说明。索引提供单元5根据一个或多个物理事件的持续时间的逻辑总和来计算各个功能性动作的持续时间。各个功能性动作的持续时间可以根据对应的功能性动作的开始时间和结束时间来确定,并且可以在上述功能性动作索引处理中使用。换句话说,可以在图像数据结构化处理中使用各个功能性动作的持续时间。索引提供单元5还根据包含在部分会议音频和/或可视信息中的各个会议参加者作出的姿势、各个会议参加者的鼠标的运动、各个会议参加者的眼睛的移动、各个会议参加者的头部的移动、各个会议参加者的书写动作、各个会议参加者从椅子上站起的动作、各个会议参加者在预定输入装置上打字的动作、各个会议参加者的面部表情,以及各个会议参加者的语音数据来识别功能性动作。现参照图13,对“发言”情况进行说明。图13是功能性动作“发言”的时间线图。图13中的横坐标轴表示时间(经过的时间)。图13中的时间线图表示(a)“发言视频源数据”;(b)“发言者的姿势数据”;(c)“发言者的鼠标移动图像数据”;和(d)“发言语音数据”。这些数据可以视为上述介质层中的数据。同时,将(e)“所检测的发言持续时间(时间段)”的数据视为功能性动作层中的数据。图13中的“发言视频源数据”是发言的运动图像数据,并用作为“发言者的姿势数据”和“发言者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“发言视频源数据”中提取“发言者的姿势数据”。同样地,部分会议视频提取单元4从“发言视频源数据”中提取“发言者的鼠标移动图像数据”。索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层的“发言”的持续时间,如图14中所示。图14是功能性动作持续时间确定处理的流程图。该功能性动作持续时间确定处理包括介质层事件持续时间逻辑总和计算步骤S61、其余事件(数据源)确定步骤S62,以及功能性动作持续时间确定步骤S63。这些步骤由索引提供单元5执行。通常,可以通过介质层的一个或更多个事件的持续时间来识别功能性动作。因此,索引提供单元5以与介质层的对应事件的数量相同的次数来重复介质层事件持续时间逻辑总和计算步骤S61。索引提供单元5确定在另一个事件(数据源)确定步骤S62中是否应该再次重复步骤S61。在介质层事件持续时间逻辑总和计算步骤S61中,索引提供单元5计算在时间轴上已计算的事件持续时间和当前计算的事件持续时间的逻辑总和。在功能性动作持续时间确定步骤S63中,索引提供单元5基于在步骤S61中得到的时间逻辑总和,计算事件的开始时间和结束时间之间的差值。索引提供单元5随后将该差值确定为对应功能性动作的持续时间。通过这种方式,通过开始时间和结束时间之间的差值来确定各个功能性动作的持续时间。在要确定“发言”功能性动作的持续时间的情况下,索引提供单元5计算作为图13中所示的“发言者的姿势数据”、“发言者的鼠标移动图像数据”和“发言语音数据”的介质层事件的持续时间的逻辑总和。由此,确定“发言”功能性动作的持续时间。现参照图15,对图14中所示的功能性动作持续时间确定步骤S63进行详细说明。图15是功能性动作持续时间确定处理的流程图。如图15中所示,功能性动作持续时间确定步骤S63包括开始时间获取步骤S71、最早开始时间比较步骤S72、最早开始时间设定步骤S73、结束时间获取步骤S74、最晚结束时间比较步骤S75、最晚结束时间设定步骤S76、其他事件(数据源)确定步骤S77,以及功能性动作持续时间确定步骤S78。这些步骤由索引提供单元5执行。在开始时间获取步骤S71中,索引提供单元5获取具有介质层的事件的开始时间。在最早开始时间比较步骤S72中,索引提供单元5将预定的最早开始时间与在开始时间获取步骤S71中获取的事件开始时间进行比较。如果在步骤S72中获取的开始时间早于预定的最早开始时间,则索引提供单元5执行最早开始时间设定步骤S73。如果在步骤S71中获取的开始时间等同于或晚于预定的最早开始时间,则索引提供单元5转移到结束时间获取步骤S74。在最早开始时间设定步骤S73中,索引提供单元5将在步骤S71中获取的开始时间设定为最早开始时间。在结束时间获取步骤S74中,索引提供单元5获取具有对应介质层的事件的结束时间。在最晚结束时间比较步骤S75中,索引提供单元5将预定的最晚结束时间与在结束时间获取步骤S74中获取的事件结束时间进行比较。如果在步骤S74中获取的结束时间比预定的最晚结束时间晚,则索引提供单元5执行最晚结束时间设定步骤S76。如果在步骤S74中获取的结束时间等同于或早于预定的最晚结束时间,则索引提供单元5转移到其他事件(数据源)确定步骤S77。在其他事件(数据源)确定步骤S77中,索引提供单元5确定是否存在与功能性动作相关的任何其他事件(或数据源)。如果存在另一事件,则操作返回到该事件的开始时间获取步骤S71。如果不存在与功能性动作相关的任何其他事件,则索引提供单元5执行功能性动作持续时间确定步骤S78。在功能性动作持续时间确定步骤S78中,索引提供单元5计算在最早开始时间设定步骤S73中设定的最早开始时间和在最晚结束时间设定步骤S76中设定的最晚结束时间之间的差值。索引提供单元5随后将该差值确定为功能性动作的持续时间。通过这种方式,通过最早开始时间和最晚结束时间之间的差值来确定功能性动作的持续时间。通过上述过程,可以根据图13中所示的“发言者的姿势数据”、“发言者的鼠标移动图像数据”和“发言语音数据”来计算“所检测的发言持续时间(时间段)”。接下来,对从图13中所示的“发言视频源数据”中提取介质层中的各个物理事件的处理进行说明。该处理由部分会议视频提取单元4执行。为了从图13中所示的“发言视频源数据”中提取“发言者的姿势数据”,可以使用软件版实时三维运动测量系统“SV-Tracker”或图像运动测量软件“Pc-MAG”(两者都由OKKINC.制造)。在使用SV-Tracker的情况下,各个会议参加者必须事先佩带有用于姿势的三维测量的标记。使用所谓的IEEE1394数码相机,可以从通过该数码相机捕获的“发言视频源数据”中提取“发言者的姿势数据”。在使用Pc-MAG的情况下,不需要上述标记,但必须相对于与“发言视频源数据”相对应的图像设定用于测量姿势的测量点,以使得可以从“发言视频源数据”中提取“发言者的姿势数据”。作为姿势识别技术,可以使用在“MethodofEstimatingtheLocationandtheHandAreaofaPersonbyaMulti-EyeCameraforGestureRecognition”(Tominaga,etal.,IPSJTechnicalReport,Vol.2001,No.87,HumanInterface95-12(9.13.2001),pp.85-92)中公开的方法。为了从图13中所示的“发言视频源数据”中提取“发言者的鼠标移动图像数据”,可以使用在“SpeechStartandEndDetectionfromMovementsofMouseandSurroundingArea”(Murai,etal.,ProceedingsofIPSJNationalConferenceinAutumn2000,Vol.2,pp.169-170,2000)中公开的方法。在提取图13中所示的“发言语音数据”的处理中,可以使用“Java(已注册商标)语言”(由InternationalBussinessMachinesCorporation生产),以从普通音频数据中提取实际发言音频部分的音频数据。而且,可以使用在“BasicsofVoiceRecognitionDescriptionandDevelopmentofApplicationPrograms”(Interface(Aug.1998),pp.100-105)中公开的语音识别方法提取发言音频数据。现参照图16,对“获得发言权”情况进行说明。图16是“获得发言权”的功能性动作的时间线图。图16中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“获得发言权视频源数据”;(b)“获得发言权姿势(举起他/她的手)数据”;(c)“参加者的站起图像数据”;(d)“参加者的鼠标移动图像数据”;以及(e)“获得发言权(“对不起”)话音数据”。该时间线图还示出了被视为功能性动作层中的数据的(f)“所检测的获得发言权持续时间(时间段)”。图16中的“获得发言权视频源数据”是获得发言权动作的运动图像数据,并且用作为“获得发言权姿势数据”、“参加者的站起图像数据”和“参加者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“获得发言权视频源数据”中提取“获得发言权姿势数据”。部分会议视频提取单元4还从“获得发言权视频源数据”中提取“参加者的站起图像数据”。同样地,部分会议视频提取单元4从“获得发言权视频源数据”中提取“参加者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“获得发言权””的持续时间。在Alice作为会议的参加者试图获得发言权(“获得发言权”)的情况下,将上述(a)“获得发言权视频源数据”、(b)“Alice的获得发言权姿势(举起她的手)数据”、(c)“Alice的站起图像数据”、(d)“Alice的鼠标移动图像数据”以及(e)“获得发言权语音数据(Alice说“对不起”)”视为与Alice相关的介质层中的数据。此外,将上述(f)“所检测的获得发言权持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图17,对“继续发言”的情况进行说明。图17是“继续发言”的功能性动作的时间线图。图17中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“继续发言视频源数据”;(b)“继续发言姿势(向前伸出他/她的手表示“停止”)数据”;(c)“参加者的鼠标移动图像数据”以及(d)“继续发言(“以及…”)语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的继续发言持续时间(时间段)”。图17中的“继续发言视频源数据”是继续发言动作的运动图像数据,并且用作为“继续发言姿势数据”和“参加者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“继续发言视频源数据”提取“继续发言姿势数据”。同样地,部分会议视频提取单元4从“继续发言视频源数据”提取“参加者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“继续发言”的持续时间。在Alice作为会议的参加者保持发言权(“继续发言”)的情况下,将上述(a)“继续发言视频源数据”、(b)“Alice的继续发言姿势(向前伸出她的手)数据”、(c)“Alice的鼠标移动图像数据”以及(d)“继续发言语音数据(Alice说“以及...”)”视为与Alice相关的介质层中的数据。此外,将上述(e)“所检测的继续发言持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图18,对“观察”的情况进行说明。图18是“观察”功能性动作的时间线图。图18中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“观察视频源数据”和(b)“观察者的眼睛移动图像数据”。该时间线图还示出了被视为功能性动作层中的数据的(c)“所检测的观察持续时间(时间段)”。图18中的“观察视频源数据”是观察动作的运动图像数据,并用作为“观察者的眼睛移动图像数据”的数据源。部分会议视频提取单元4通过传统的眼睛移动跟随技术从“观察视频源数据”中提取“观察者的眼睛移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“观察”的持续时间。为了获得眼睛移动数据,可以使用在“ApplicationInnerStructureVisualizingInterfaceUtilizingEyeMovements”(Yamato,etal.,IEICETechnicalReport,HIP2000-12(2000-06),pp.37-42)和“ForEnvironmentswithEyesfromEyeInterfacetoEyeCommunication”(byTakehikoOhno,IPSJTechnicalReport,Vol.2001,No.87,HumanInterface95-24(9.14.2001),pp.171-178)中公开的技术。现参照图19,对“参加”的情况进行说明。图19是“参加”的功能性动作的时间线图。图19中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“参加视频源数据”和(b)“参加者的眼睛移动图像数据”。该时间线图还示出了被视为功能性动作层中的数据的(c)“所检测的参加持续时间(时间段)”。图19中的“参加视频源数据”是参加动作的运动图像数据,并用作为“参加者的眼睛移动图像数据”的数据源。部分会议视频提取单元4通过传统的眼睛移动跟随技术从“参加视频源数据”中提取“参加者的眼睛移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“参加”的持续时间。现参照图20,对“不参加”的情况进行说明。图20是“不参加”的功能性动作的时间线图。图20中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“不参加视频源数据”;(b)“不参加者的摇头运动图像数据”;(c)“不参加者的鼾声数据”以及(d)“不参加者的鼾声数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的不参加持续时间(时间段)”。图20中的“不参加视频源数据”是不参加动作的运动图像数据,并用作为“不参加者的摇头运动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“不参加视频源数据”中提取“不参加者的摇头运动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“不参加”的持续时间。现参照图21,对“附应”的情况进行说明。图21是“附应”的功能性动作的时间线图。图21中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“附应(点头)视频源数据”;(b)“附应姿势(伴随有点头的“拍手”)数据”;(c)“附应(点头)的颈部移动图像数据”;(d)“参加者的鼠标移动图像数据”以及(e)“附应(“啊哈”)语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(f)“所检测的附应持续时间(时间段)”。图21中的“附应视频源数据”是附应动作的运动图像数据,并用作为“附应姿势数据”、“附应的颈部移动图像数据”和“参加者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“附应视频源数据”中提取“附应姿势数据”。部分会议视频提取单元4还从“附应视频源数据”中提取“附应的颈部移动图像数据”。同样地,部分会议视频提取单元4从“附应视频源数据”中提取“参加者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“附应”的持续时间。在Alice作为会议的参加者作出响应(附应)的情况下,将上述(a)“附应视频源数据”、(b)“Alice的附应姿势(拍手)数据”、(c)“Alice的点头(颈部移动)图像数据”、(d)“Alice的鼠标移动图像数据”以及(e)“附应语音数据(Alice发出的“啊哈”)”视为与Alice相关的介质层中的数据。而且,将上述(f)“所检测的附应持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。为了确定点头(颈部移动)图像数据的持续时间,可以使用在“AhalysisofGestureInterrelationshipinNaturalConversations”(Maeda,etal.,IPSJTechnicalReport,Vol.2003,No.9,HumanInterface102-7(1.31.2003),pp.39-46)中公开的技术。为了检测参加者的头部位置和姿势,可以使用在“MethodofDetectingHeadLocationandPosture,andApplicationsoftheMethodforLarge-SizedInformationPresentingEnvironments”(Fujii,etal.,IPSJTechnicalReport,Vol.2002,No.38,HumanInterface98-6(5.17.2002),pp.33-40)中公开的技术。为了检测颈部移动,可以使用在“StudyonNeck-MovementPCOperationSupportToolsfortheHandicapped”(Kubo,etal.,IEICETechnicalReport,HCS2000-5(2000-04),pp.29-36)中公开的技术。现参照图22,对“提问”的情况进行说明。图22是“提问”的功能性动作的时间线图。图22中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“提问视频源数据”;(b)“提问姿势(举起他/她的手)数据”;(c)“提问者的鼠标移动图像数据”;以及(d)“提问语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的提问持续时间(时间段)”。图22中的“提问视频源数据”是提问动作的运动图像数据,并用作为“提问姿势数据”和“提问者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“提问视频源数据”中提取“提问姿势数据”。同样地,部分会议视频提取单元4从“提问视频源数据”中提取“提问者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“提问”的持续时间。在Alice作为会议参加者提问的情况下,将上述(a)“提问视频源数据”、(b)“Alice的提问姿势(举起她的手)数据”、(c)“Alice的鼠标移动图像数据”,以及(d)“Alice的提问语音数据”视为与Alice相关的介质层中的数据。另外,将上述(e)“所检测的提问持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图23,对“确认型提问”的情况进行说明。图23是“确认型提问”的功能性动作的时间线图。该时间线图示出了被视为上述介质层中的数据的(a)“确认型提问视频源数据”;(b)“确认型提问者的站起图像数据”;(c)“确认型提问者的鼠标移动图像数据”;以及(d)“确认型提问语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的确认型提问持续时间(时间段)”。图23中的“确认型提问视频源数据”是确认型提问动作的运动图像数据,并用作为“确认型提问者的站起图像数据”和“确认型提问者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“确认型提问视频源数据”中提取“确认型提问者的站起图像数据”。同样地,部分会议视频提取单元4从“确认型提问视频源数据”中提取“确认型提问者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“确认型提问”的持续时间。在Alice作为会议参加者提出确认型问题的情况下,将上述(a)“确认型提问视频源数据”、(b)“Alice的站起图像数据”、(c)“Alice的鼠标移动图像数据”,以及(d)“Alice的确认型提问语音数据”视为与Alice相关的介质层中的数据。另外,将上述(e)“所检测的确认型提问持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图24,对“发言型思考”的情况进行说明。图24是“发言型思考”的功能性动作的时间线图。图24中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“发言型思考视频源数据”;(b)“参加者的眼睛移动(看天花板)图像数据”;(c)“发言者的鼠标移动图像数据”;以及(d)“发言语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的发言型思考持续时间(时间段)”。图24中的“发言型思考视频源数据”是发言型思考动作的运动图像数据,并用作为“参加者的眼睛移动(看天花板)图像数据”和“发言者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的眼睛移动测量技术和传统的姿势识别技术从“发言型思考视频源数据”中提取“参加者的眼睛移动(看天花板)图像数据”。同样地,部分会议视频提取单元4从“发言型思考视频源数据”中提取“发言者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“发言型思考”的持续时间。在Alice作为会议参加者进行“发言型思考”的情况下,将上述(a)“发言型思考视频源数据”、(b)“Alice的眼睛移动(看天花板)图像数据”、(c)“Alice的鼠标移动图像数据”,以及(d)“Alice的发言语音数据”视为与Alice相关的介质层中的数据。另外,将上述(e)“所检测的发言型思考持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图25,对“提问型思考”的情况进行说明。图25是“提问型思考”的功能性动作的时间线图。图25中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“提问型思考视频源数据”;(b)“参加者的眼睛移动(看天花板)图像数据”;(c)“提问者的鼠标移动图像数据”;以及(d)“提问语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的提问型思考持续时间(时间段)”。图25中的“提问型思考视频源数据”是提问型思考动作的运动图像数据,并用作为“参加者的眼睛移动(看天花板)图像数据”和“提问者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的眼睛移动测试技术和传统的姿势识别技术从“提问型思考视频源数据”中提取“参加者的眼睛移动(看天花板)图像数据”。同样地,部分会议视频提取单元4从“提问型思考视频源数据”中提取“提问者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“提问型思考”的持续时间。在Alice作为会议参加者进行“提问型思考”的情况下,将上述(a)“提问型思考视频源数据”、(b)“Alice的眼睛移动(看天花板)图像数据”、(c)“Alice的鼠标移动图像数据”,以及(d)“Alice的提问语音数据”视为与Alice相关的介质层中的数据。另外,将上述(e)“所检测的提问型思考持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图26,对“确认提问型思考”的情况进行说明。图26是“确认提问型思考”的功能性动作的时间线图。图26中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“确认提问型思考视频源数据”;(b)“参加者的眼睛移动(看天花板)图像数据”;(c)“确认提问者的鼠标移动图像数据”;以及(d)“确认提问声音数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的确认提问型思考持续时间(时间段)”。图26中的“确认提问型思考视频源数据”是确认提问型思考动作的运动图像数据,并用作为“参加者的眼睛移动(看天花板)图像数据”和“确认提问者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的眼睛移动测量技术和传统的姿势识别技术从“确认提问型思考视频源数据”中提取“参加者的眼睛移动(看天花板)图像数据”。同样地,部分会议视频提取单元4从“确认提问型思考视频源数据”中提取“确认提问者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“确认提问型思考”的持续时间。在Alice作为会议参加者进行“确认提问型思考”的情况下,将上述(a)“确认提问型思考视频源数据”、(b)“Alice的眼睛移动(看天花板)图像数据”、(c)“Alice的鼠标移动图像数据”,以及(d)“Alice的确认提问语音数据”视为与Alice相关的介质层中的数据。另外,将上述(e)“所检测的确认提问型思考持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图27,对“不发言型思考”的情况进行说明。图27是“不发言型思考”的功能性动作的时间线图。图27中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“不发言型思考视频源数据”;(b)“参加者的眼睛移动(看天花板)图像数据”;以及(c)“参加者的曲臂姿势数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的不发言型思考持续时间(时间段)”。图27中的“不发言型思考视频源数据”是不发言型思考动作的运动图像数据,并用作为“参加者的眼睛移动(看天花板)图像数据”和“参加者的曲臂姿势数据”的数据源。部分会议视频提取单元4通过传统的眼睛移动测量技术和传统的姿势识别技术从“不发言型思考视频源数据”中提取“参加者的眼睛移动(看天花板)图像数据”。同样地,部分会议视频提取单元4从“不发言型思考视频源数据”中提取“参加者的曲臂姿势数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“不发言型思考”的持续时间。在Alice作为会议参加者进行“不发言型思考”的情况下,将上述(a)“不发言型思考视频源数据”、(b)“Alice的眼睛移动(看天花板)图像数据”,以及(c)“Alice的曲臂姿势的数据”视为与Alice相关的介质层中的数据。另外,将上述(d)“检测到的不发言型思考持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图28,对“自言自语”的情况进行说明。图28是“自言自语”的功能性动作的时间线图。图28中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“自言自语视频源数据”;(b)“参加者的鼠标移动图像数据”;以及(c)“自言自语语音数据”。该时间线图示出了被视为功能性动作层中的数据的(d)“所检测的自言自语持续时间(时间段)”。图28中的“自言自语视频源数据”是自言自语动作的运动图像数据,并用作为“参加者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“自言自语视频源数据”中提取“参加者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“自言自语”的持续时间。在Alice参加会议时自言自语的情况下,将上述(a)“Alice的视频源数据”、(b)“Alice的鼠标移动图像数据”,以及(c)“Alice的自言自语语音数据”视为与Alice相关的介质层中的数据。另外,将上述(d)“所检测的自言自语持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图29,对“发言型公共信息空间使用”的情况进行说明。图29是“发言型公共信息空间使用”的功能性动作的时间线图。图29中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“发言型公共信息空间使用视频源数据”;(b)“参加者的站起图像数据”;(c)“发言者的在白板上进行书写的图像数据”;(d)“发言者的鼠标移动图像数据”;以及(e)“发言语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(f)“所检测的发言型公共信息空间使用持续时间(时间段)”。图29中的“发言型公共信息空间使用视频源数据”是发言型公共信息空间使用动作的运动图像数据,并用作为“发言者的站起图像数据”、“发言者的在白板上进行书写的图像数据”和“发言者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“发言型公共信息空间使用视频源数据”中提取“发言者的站起图像数据”。部分会议视频提取单元4还从“发言型公共信息空间使用视频源数据”中提取“发言者的在白板上书写的图像数据”。同样地,部分会议视频提取单元4从“发言型公共信息空间使用视频源数据”中提取“发言者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“发言型公共信息空间使用”的持续时间。在Alice作为会议参加者执行“发言型公共信息空间使用”的情况下,将上述(a)“发言型公共信息空间使用视频源数据”、(b)“Alice的站起图像数据”、(c)“Alice的在白板上进行书写的图像数据”、(d)“Alice的鼠标移动图像数据”以及(e)“Alice的发言语音数据”视为与Alice相关的介质层中的数据。另外,将上述(f)“所检测的发言型公共信息空间使用持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图30,对“提问型公共信息空间使用”的情况进行说明。图30是“提问型公共信息空间使用”的功能性动作的时间线图。图30中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“提问型公共信息空间使用视频源数据”;(b)“提问者的站起图像数据”;(c)“提问者的在白板上进行书写的图像数据”;(d)“提问者的鼠标移动图像数据”;以及(e)“提问语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(f)“所检测的提问型公共信息空间使用持续时间(时间段)”。图30中的“提问型公共信息空间使用视频源数据”是提问型公共信息空间使用动作的运动图像数据,并用作为“提问者的站起图像数据”、“提问者的在白板上进行书写的图像数据”和“提问者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“提问型公共信息空间使用视频源数据”中提取“提问者的站起图像数据”。部分会议视频提取单元4还从“提问型公共信息空间使用视频源数据”中提取“提问者的在白板上进行书写的图像数据”。同样地,部分会议视频提取单元4从“提问型公共信息空间使用视频源数据”中提取“提问者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“提问型公共信息空间使用”的持续时间。在Alice作为会议参加者执行“提问型公共信息空间使用”的情况下,将上述(a)“提问型公共信息空间使用视频源数据”、(b)“Alice的站起图像数据”、(c)“Alice的在白板上进行书写的图像数据”、(d)“Alice的鼠标移动图像数据”以及(e)“Alice的提问语音数据”视为与Alice相关的介质层中的数据。另外,将上述(f)“所检测的提问型公共信息空间使用持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图31,对“确认提问型公共信息空间使用”的情况进行说明。图31是“确认提问型公共信息空间使用”的功能性动作的时间线图。图31中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“确认提问型公共信息空间使用视频源数据”;(b)“确认提问者的站起图像数据”;(c)“确认提问者的在白板上进行书写的图像数据”;(d)“确认提问者的鼠标移动图像数据”;以及(e)“确认提问语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(f)“所检测的确认提问型公共信息空间使用持续时间(时间段)”。图31中的“确认提问型公共信息空间使用视频源数据”是确认提问型公共信息空间使用动作的运动图像数据,并用作为“确认提问者的站起图像数据”、“确认提问者的在白板上进行书写的图像数据”和“确认提问者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“确认提问型公共信息空间使用视频源数据”中提取“确认提问者的站起图像数据”。部分会议视频提取单元4还从“确认提问型公共信息空间使用视频源数据”中提取“确认提问者的在白板上进行书写的图像数据”。同样地,部分会议视频提取单元4从“确认提问型公共信息空间使用视频源数据”中提取“确认提问者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“确认提问型公共信息空间使用”的持续时间。在Alice作为会议参加者执行“确认提问型公共信息空间使用”的情况下,将上述(a)“确认提问型公共信息空间使用视频源数据”、(b)“Alice的站起图像数据”、(c)“Alice的在白板上进行书写的图像数据”、(d)“Alice的鼠标移动图像数据”以及(e)“Alice的确认提问语音数据”视为与Alice相关的介质层中的数据。另外,将上述(f)“所检测的确认提问型公共信息空间使用持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图32,对“不发言型公共信息空间使用”的情况进行说明。图32是“不发言型公共信息空间使用”的功能性动作的时间线图。图32中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“不发言型公共信息空间使用视频源数据”;(b)“参加者的站起图像数据”;以及(c)“参加者的在白板上进行书写的图像数据”。该时间线图还示出了被视为功能性动作层中的数据的(d)“所检测的不发言型公共信息空间使用持续时间(时间段)”。图32中的“不发言型公共信息空间使用视频源数据”是不发言型公共信息空间使用动作的运动图像数据,并用作为“参加者的站起图像数据”和“参加者的在白板上进行书写的图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“不发言型公共信息空间使用视频源数据”中提取“参加者的站起图像数据”。同样地,部分会议视频提取单元4从“不发言型公共信息空间使用视频源数据”中提取“参加者的在白板上进行书写的图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“不发言型公共信息空间使用”的持续时间。在Alice作为会议参加者执行“不发言型公共信息空间使用”的情况下,将上述(a)“不发言型公共信息空间使用视频源数据”、(b)“Alice的站起图像数据”以及(c)“Alice的在白板上进行书写的图像数据”视为与Alice相关的介质层中的数据。另外,将上述(d)“所检测的不发言型公共信息空间使用持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图33,对“参加型私人信息空间使用”的情况进行说明。图33是“参加型私人信息空间使用”的功能性动作的时间线图。图33中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“参加型私人信息空间使用视频源数据”;(b)“参加者的在笔记本电脑上打字的图像数据”;(c)“参加者的摇头运动(点头)图像数据”;(d)“参加者的鼠标移动图像数据”;以及(e)“参加者的点头语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(f)“所检测的参加型私人信息空间使用持续时间(时间段)”。图33中的“参加型私人信息空间使用视频源数据”是参加型私人信息空间使用动作的运动图像数据,并用作为“参加者的在笔记本电脑上打字的图像数据”、“参加者的摇头运动(点头)图像数据”和“参加者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“参加型私人信息空间使用视频源数据”中提取“参加者的在笔记本电脑上打字的图像数据”。部分会议视频提取单元4还从“参加型私人信息空间使用视频源数据”中提取“参加者的摇头运动(点头)图像数据”。同样地,部分会议视频提取单元4从“参加型私人信息空间使用视频源数据”中提取“参加者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“参加型私人信息空间使用”的持续时间。在Alice作为会议参加者执行“参加型私人信息空间使用”的情况下,将上述(a)“参加型私人信息空间使用视频源数据”、(b)“Alice的在笔记本电脑打字的图像数据”、(c)“Alice的摇头运动(点头)图像数据”、(d)“Alice的鼠标移动图像数据”以及(e)“Alice的同意语音数据(例如“啊哈”和“我明白”)”视为与Alice相关的介质层中的数据。另外,将上述(f)“所检测的参加型私人信息空间使用持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图34,对“不参加型私人信息空间使用”的情况进行说明。图34是“不参加型私人信息空间使用”的功能性动作的时间线图。图34中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“不参加型私人信息空间使用视频源数据”和(b)“参加者的在笔记本电脑上打字的图像数据”。该时间线图还示出了被视为功能性动作层中的数据的(c)“所检测的不参加型私人信息空间使用持续时间(时间段)”。图34中的“不参加型私人信息空间使用视频源数据”是不参加型私人信息空间使用动作的运动图像数据,并用作为“参加者的在笔记本电脑上打字的图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“不参加型私人信息空间使用视频源数据”中提取“参加者的在笔记本电脑上打字的图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“不参加型私人信息空间使用”的持续时间。在Alice作为会议参加者执行“不参加型私人信息空间使用”的情况下,将上述(a)“不参加型私人信息空间使用视频源数据”和(b)“Alice的在笔记本电脑上打字的图像数据”视为与Alice相关的介质层中的数据。另外,将上述(c)“所检测的不参加型私人信息空间使用持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。现参照图35,对“笑”的情况进行说明。图35是“笑”的功能性动作的时间线图。图35中的横坐标轴表示时间(经过的时间)。该时间线图示出了被视为上述介质层中的数据的(a)“笑的视频源数据”;(b)“参加者的面部表情图像数据”;(c)“参加者的鼠标移动图像数据”;以及(d)“参加者的笑的语音数据”。该时间线图还示出了被视为功能性动作层中的数据的(e)“所检测的笑的持续时间(时间段)”。图35中的“笑的视频源数据”是笑的动作的运动图像数据,并用作为“参加者的面部表情图像数据”和“参加者的鼠标移动图像数据”的数据源。部分会议视频提取单元4通过传统的姿势识别技术从“笑的视频源数据”中提取“参加者的面部表情图像数据”。同样地,部分会议视频提取单元4从“笑的视频源数据”中提取“参加者的鼠标移动图像数据”。如图14中所示的“发言”的情况那样,索引提供单元5通过计算介质层中的动作的持续时间的逻辑总和来确定功能性动作层中的“笑”的持续时间。在Alice作为会议参加者笑的情况下,将上述(a)“笑的视频源数据”、(b)“Alice的面部表情图像数据”、(c)“Alice的鼠标移动图像数据”和(d)“Alice的笑的语音数据”视为与Alice相关的介质层中的数据。另外,将上述(e)“所检测的笑的持续时间(时间段)”视为与Alice相关的功能性动作层中的数据。如上所述,根据第二实施例,对于由部分会议视频提取单元4提取的部分会议视频数据,可以由索引提供单元5自动地生成与参加者的功能性动作相对应的索引数据。尽管已示出并说明了本发明的一些优选实施例,但本领域的技术人员应该理解,可以在不脱离本发明的原理和精神的情况下对这些实施例进行变化,本发明的范围是由权利要求及其等同物限定的。通过引用并入于2004年3月22日提交的日本专利申请No.2004-083268的全部内容,包括说明书、权利要求、附图以及摘要。权利要求1.一种会议信息处理装置,其包括提取单元,用于从会议音频和/或可视信息中提取部分会议音频和/或可视信息,所述部分会议音频和/或可视信息包含会议参加者的一个或更多个物理事件;以及提供单元,用于根据从所述一个或更多个物理事件中摘录的功能性动作,为所述部分会议音频和/或可视信息提供索引。2.根据权利要求1所述的会议信息处理装置,进一步包括生成单元,用于根据由所述提供单元提供的所述索引,产生所述会议音频和/或可视信息的概要会议视频。3.根据权利要求2所述的会议信息处理装置,进一步包括记录单元,用于记录由所述生成单元进行了概要处理的所述会议视频。4.根据权利要求2所述的会议信息处理装置,进一步包括显示单元,用于显示由所述生成单元进行了概要处理的所述会议视频。5.根据权利要求1所述的会议信息处理装置,进一步包括同步单元,用于使多个会议视频彼此同步,所述多个会议视频是在相同的时间段内捕获的。6.根据权利要求1所述的会议信息处理装置,进一步包括图形用户界面,用于显示由所述提供单元提供的索引。7.根据权利要求1所述的会议信息处理装置,其中所述提供单元根据所述一个或更多个物理事件的持续时间的逻辑总和来计算所述功能性动作的持续时间。8.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者做出的姿势来识别所述功能性动作,所述姿势包含在所述部分会议音频和/或可视信息中。9.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者的鼠标的移动来识别所述功能性动作,所述鼠标的移动包含在所述部分会议音频和/或可视信息中。10.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者的眼睛的移动来识别所述功能性动作,所述眼睛的移动包含在所述部分会议音频和/或可视信息中。11.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者的头部的移动来识别所述功能性动作,所述头部的移动包含在所述部分会议音频和/或可视信息中。12.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者的书写动作来识别所述功能性动作,所述书写动作包含在所述部分会议音频和/或可视信息中。13.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者从他/她的座位上站起的动作来识别所述功能性动作,所述站起的动作包含在所述部分会议音频和/或可视信息中。14.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者在预定输入装置上进行输入的动作来识别所述功能性动作,所述输入的动作包含在所述部分会议音频和/或可视信息中。15.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者的面部表情来识别所述功能性动作,所述面部表情包含在所述部分会议音频和/或可视信息中。16.根据权利要求1所述的会议信息处理装置,其中所述提供单元至少通过所述会议参加者的语音数据来识别所述功能性动作,所述语音数据包含在所述部分会议音频和/或可视信息中。17.根据权利要求2所述的会议信息处理装置,其中所述生成单元生成用于回顾的会议视频,该会议视频包括活动功能性动作以及发言型思考的功能性动作,其中活动功能性动作有发言、提问、发言型公共信息空间使用、提问型公共信息空间使用、以及不发言型公共信息空间使用。18.根据权利要求2所述的会议信息处理装置,其中所述生成单元生成用于公共观看的会议视频,该会议视频包括的功能性动作有发言、提问、发言型思考和发言型公共信息空间使用。19.根据权利要求2所述的会议信息处理装置,其中所述生成单元生成用于管理人员的会议视频,该会议视频包括的功能性动作有发言、发言型思考和发言型公共信息空间使用。20.根据权利要求6所述的会议信息处理装置,其中所述图形用户界面分级地显示所述多个物理事件和从所述多个物理事件中摘录的所述多个功能性动作。21.根据权利要求6所述的会议信息处理装置,其中所述图形用户界面对所述多个功能性动作分级地显示多个场景,所述多个场景中的每一个是从所述多个功能性动作中的一个或更多个中摘录的。22.根据权利要求6所述的会议信息处理装置,其中所述图形用户界面以时间线或表格的形式表示所述索引。23.根据权利要求6所述的会议信息处理装置,其中所述图形用户界面以各种颜色表示所述多个功能性动作。24.根据权利要求6所述的会议信息处理装置,其中所述图形用户界面通过对所述多个功能性动作中的每一个对应的功能性动作的图形表示赋予不同的颜色或不同的形状或者提供运动图像,来着重显示语音发言者的变化、物理性发言者的变化或者语音和物理性发言者的变化。25.根据权利要求6所述的会议信息处理装置,其中所述图形用户界面显示关于索引识别符、索引开始时间、索引结束时间、功能性动作名称、会议参加者的角色、动作的预计方向的数据。26.根据权利要求2所述的会议信息处理装置,其中所述生成单元通过对所述对应的部分会议音频和/或可视信息中没有超过预定持续时间的图像部分进行概要处理来产生各个会议视频。27.一种会议信息处理方法,包括以下步骤从会议音频和/或可视信息中提取部分会议音频和/或可视信息,所述部分会议音频和/或可视信息包含会议参加者的一个或更多个物理事件;以及根据从所述一个或更多个物理事件中摘录的功能性动作,为所述部分会议音频和/或可视信息提供索引。28.根据权利要求27所述的会议信息处理方法,进一步包括以下步骤根据所述索引,产生所述会议音频和/或可视信息的概要会议视频。29.一种计算机可读存储介质,该存储介质存储有可由计算机执行以实现包括以下步骤的功能的指令程序从会议音频和/或可视信息中提取部分会议音频和/或可视信息,所述会议音频和/或可视信息包含会议参加者的一个或更多个物理事件;以及根据从所述一个或更多个物理事件中摘录的功能性动作,为所述部分会议音频和/或可视信息提供索引。30.根据权利要求29所述的存储介质,进一步使计算机执行多个指令以根据所提供的索引产生所述会议音频和/或可视信息的概要会议视频。31.根据权利要求1所述的会议信息处理装置,其中由用户手工生成所述索引。全文摘要会议信息处理装置和方法以及计算机可读存储介质。一种会议信息处理装置,其包括提取单元,用于从会议音频和/或可视信息中提取部分会议音频和/或可视信息,所述部分会议音频和/或可视信息包含会议参加者的一个或更多个物理事件;以及提供单元,用于根据从所述一个或更多个物理事件中摘录的功能性动作,为所述部分会议音频和/或可视信息提供索引。文档编号G06F9/00GK1674672SQ20041008115公开日2005年9月28日申请日期2004年9月30日优先权日2004年3月22日发明者平田和贵,宫崎淳申请人:富士施乐株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1