信息处理设备,信息处理方法,显示控制设备和显示控制方法

文档序号:2826067阅读:119来源:国知局
信息处理设备,信息处理方法,显示控制设备和显示控制方法
【专利摘要】本发明涉及信息处理设备,信息处理方法,显示控制设备和显示控制方法。提供一种信息处理设备,包括信息获取单元,所述信息获取单元根据内容的语言分析,获得识别包括语音的内容的编辑点的信息,和输出获得的信息的信息输出单元。
【专利说明】信息处理设备,信息处理方法,显示控制设备和显示控制方法
【技术领域】
[0001]本公开涉及信息处理设备,信息处理方法,显示控制设备和显示控制方法,更具体地,涉及处理包括语音的内容的信息处理设备。
【背景技术】
[0002]现有技术中,已知一种通过考虑并类推用户的偏好,从内容组中只提取被认为感兴趣内容的部分内容,并再现该内容的方法。在识别所有人都觉得有趣的一部分内容的方法中,待提取的内容的数量减少。因此,必须补充不足的内容,以把该内容用于幻灯片放映。当考虑用户的偏好时,如何构成数据库,以识别用户的偏好是一个问题。
[0003]例如,在W02009/025155中提出了根据包括语音的内容自动生成章节,并再现该章节的技术。按照该技术,根据声音的波形分析,确定语音块,以语音块为单位进行章节跳转,然后观看内容。此外,在JP H10-84526A中提出一种根据声音分析,自动确定编辑点的技术。按照该技术,当无声区间持续恒定时间时,无声区间被保存为编辑点,在以后的编辑时,进行剪裁编辑。

【发明内容】

[0004]但是,按照在W02009/025155中提出的技术,在倾听语音的内容时,可能识别不出不必要的区间,从而不能仅仅剪裁内容的有意义部分,并再现该部分。由于语音块是依据声音的振幅确定的,因此不能确定其中词尾被拖长的区间。
[0005]按照在JP H10-84526A中提出的技术,能够识别被视为在会话或讲话时产生的冗长区间的过长无声区间。然而,不能识别除语音以外的声音区间,或者在倾听会话或讲话的内容时,不能识别语音的无意义声音的区间。通常,要求提出一种确定其中检测到语音的区间中的有意义区间和无意义区间,从而使会话当中的无意义区间减至最少的方法。
[0006]理想的是提供识别编辑点的优良信息。
[0007]按照本公开的实施例,提供一种信息处理设备,所述信息处理设备包括信息获取单元,所述信息获取单元根据内容的语言分析,获得识别包括语音的内容的编辑点的信息,和输出获得的信息的信息输出单元。
[0008]在本公开中,信息获取单元根据包括语音的内容的语言分析,获得识别内容的编辑点的信息。例如,识别编辑点的信息可包括利用编辑点的周围区间中的语言分析获得的语言信息。在这种情况下,语言信息可包括语音的发音信息。
[0009]识别获得的内容的编辑点的信息由信息输出单元输出。例如,信息输出单元可把获得的信息与内容关联地记录在记录介质上。此外,信息输出单元可按内容的传输单位,把获得的信息传送给网络。
[0010]因而,在本公开中,能够提供识别包括语音的内容的编辑点的信息,所述信息是根据内容的语言分析获得的,并被输出。[0011 ] 在本公开中,信息输出单元可输出包含在编辑点的周围区间中的内容之中的视频的运动信息。因而,如果输出视频的运动信息,那么能够提供有用的信息,作为识别编辑点的信息。
[0012]按照本公开的另一个实施例,提供一种显示控制设备,所述显示控制设备包括信息获取单元,所述信息获取单元获取识别包含语音的内容的编辑点的信息,所述编辑点是根据所述内容的语言分析获得的,和显示控制单元,所述显示控制单元根据获得的信息,控制与所述内容相关的显示。
[0013]在本公开中,信息获取单元获取识别根据包含语音的内容的语言分析获得的所述内容的编辑点的信息。例如,识别编辑点的信息可包括利用编辑点的周围区间中的语言分析而获得的语言信息。在这种情况下,语言信息可包括语音的发音信息和语音的字符串信息。另外,与内容相关的显示由显示控制单元根据获得的信息控制。
[0014]例如,显示控制单元可根据识别编辑点的信息,识别具有高有用度的内容的第一区间,和具有低有用度的内容的第二区间。显示控制单元可以按照第一区间和第二区间可区分的状态,显示内容的时间轴的方式,进行控制。
[0015]这种情况下,显示控制单元可按依照时间轴的预定区间的选择,利用包含在语言信息中的字符串信息,显示与时间轴的预定区间的语音对应的字符串的方式,进行控制。此时,显示控制单元可按显示与预定区间的语音对应的字符串,和与在预定区间前后的区间的语音对应的字符串,并突出地显示与预定区间的语音对应的字符串的方式,进行控制。这种情况下,所述突出显示可具有与其它区间的显示颜色不同的显示颜色。
[0016]例如,显示控制单元可按照显示依据用包含在语言信息中的字符串信息表示的子句的区间分割的内容的时间轴,并且对应于时间轴的区间地显示与时间轴的每个区间的语音对应的字符串的方式,进行控制。
[0017]因而,在本公开中,根据识别包含语音的内容的编辑点的信息,控制与所述内容相关的显示,所述信息是根据所述内容的语言分析获得的。于是,能够恰当地进行与内容相关的显示,例如,编辑用时间轴的显示。
[0018]按照上面说明的本公开的实施例,能够提供识别编辑点的优良信息。
【专利附图】

【附图说明】
[0019]图1是图解说明按照实施例的信息处理设备的结构例子的方框图;
[0020]图2是图解说明语音特征检测单元的处理序列的例子的流程图;
[0021]图3是图解说明文本转换单元的处理序列的例子的流程图;
[0022]图4图解说明由语言分析结果记录格式转换单元生成的内容关联结构和字符串结构的示图;
[0023]图5是图解说明字符串、语音特征区间(拆分)和视频数据(内容)的对应关系的例子的意图;
[0024]图6是图解说明按照实施例的编辑设备的结构例子的方框图;
[0025]图7是图解说明语言分析信息列表生成单元中的每个句子的子章节登记的处理序列的例子的流程图;
[0026]图8是图解说明确定语音特征部分的有用度的水平的处理序列的例子的流程图;[0027]图9是图解说明文本信息获取单元中的字符串数据的获取的处理序列的例子的流程图;
[0028]图10是图解说明显示在显示单元上的编辑屏幕的显示例子的示图;
[0029]图11是图解说明其中当用户通过鼠标操作,选择时间轴的预定子章节区间时,显示与所述预定子章节区间和在所述预定子章节区间前后的区间的语音对应的字符串的情况的示图;
[0030]图12是图解说明语言分析信息列表生成单元中的每个句子的子章节登记的处理序列的例子的流程图;
[0031]图13是图解说明其中显示为每个声音特征区间(拆分)分割的时间轴,和对应于每个语音特征区间地显示与每个语音特征区间的语音对应的字符串的情况的示图;
[0032]图14是图解说明表格生成单元中的表格生成的处理序列的例子的流程图;
[0033]图15是图解说明基于单词选择的视频搜索系统的示图;
[0034]图16是图解说明当进行对网络的直播流媒体发布时的信息处理设备的结构例子的方框图;
[0035]图17是图解说明当进行网络传输时的内容关联结构的例子的示图;
[0036]图18是图解说明信息处理设备的另一个结构例子的方框图;
[0037]图19是图解说明利用分析信息综合单元生成的内容关联结构,和包含在内容关联结构中的字符串结构和运动结构的示图;
[0038]图20是图解说明编辑设备的另一个结构例子的方框图;
[0039]图21是图解说明确定声音特征部分的有用度的水平的处理序列的另一个例子的流程图;
[0040]图22是图解说明计算机的结构例子的示图。
【具体实施方式】
[0041]下面参考附图,详细说明本公开的优选实施例。注意在说明书和附图中,功能和结构基本相同的构成元件用相同的附图标记表示,这些构成元件的重复说明被省略。
[0042]将按照下述顺序进行说明。
[0043]1.实施例
[0044]2.变形例
[0045]〈1.实施例 >
[0046][信息处理设备的结构例子]
[0047]图1图解说明信息处理设备10的结构例子。信息处理设备10包括视频输入单元101、语音输入单元102、运动图像多路复用单元103、语言分析单元104、语言匹配数据库105、运动图像/语言分析信息关联单元106和记录介质107。
[0048]视频输入单元101输入形成内容的视频数据。语音输入单元102输入与输入视频输入单元101的视频数据对应,并形成内容的语音数据。运动图像多路复用单元103多路复用输入视频输入单元101的视频数据,和输入语音输入单元102的语音数据,从而生成多路复用数据。
[0049]语言分析单元104具有语音特征检测单元104a、文本转换单元104b和语言分析结果记录格式转换单元104c。语音特征检测单元104a分析输入语音输入单元102的语音数据,检测语音特征区间(拆分)。每当语音特征检测单元104a检测到语音特征区间时,语音特征检测单元104a输出表示语音特征的种类的发音信息,及起点和终点的时间信息。
[0050]语音特征区间包括(a)元音的长音区间(例如,ee、ea等),(b)始于爆破音或强重音的区间,(C)拟音的表现区间,和(d)语音的音调的变化区间。(a)的元音的长音区间很可能是谈话时的比较无意义的区间,从而是用户在编辑时希望剪切的区间。(b)的始于爆破音或强重音的区间是谈话者期望强调或者感到惊讶的区间,从而用户在编辑时希望采用。
[0051](C)的拟音的表现区间是其中谈话者希望说明某事,但是可能想不起适当的词语,或者谈话者期望强调某事,并且用户在编辑时期望采用的区间。在(d)的语音的音调的变化区间中,从高音调到低音调的变化区间主要是更加说明性的部分,而从低音调到高音调的变化区间主要是感情表现区间。从高音到低音的变化区间和从高音到低音的变化区间是用户在编辑时希望采用的区间。
[0052]图2的流程图图解说明语音特征检测单元104a的处理序列的例子。首先,在步骤ST1,语音特征检测单元104a接收语音数据的输入。之后,在步骤ST2,语音特征检测单元104a进行语音分析。然后在步骤ST3,语音特征检测单元104a判断语音特征区间是否从语音特征区间的起点前进到终点,即,是否检测到语音特征区间。
[0053]当未检测到语音特征区间时,语音特征检测单元104a返回步骤ST1,重复和上述处理相同的处理。同时,当检测到语音特征区间时,在步骤ST4,语音特征检测单元104a识别语音特征区间的种类,并输出种类信息,及语音特征区间的起点和终点的时间信息,作为检测到的语音特征区间的信息。随后,语音特征检测单元104a返回步骤ST1,进行下一个语音特征区间的检测处理。
[0054]文本转换单元104b利用语言匹配数据库105,对输入语音输入单元102的语音数据进行语言分析,并为运动图像的每个章节,提取包含在运动图像的每个章节中的每个句子的字符串。每当检测到字符串时,文本转换单元104b输出字符串数据及起点和终点的时间信息。
[0055]图3的流程图图解说明文本转换单元104b的处理序列的例子。首先,在步骤ST11,文本转换单元104b接收语音数据的输入。之后在步骤ST12,文本转换单元104b判断会话是否开始,即,句子是否开始。当句子未开始时,文本转换单元104b返回步骤ST11,重复和上面说明的处理相同的处理。
[0056]当句子开始时,在步骤ST13,文本转换单元104b对语音数据进行语言分析,并进行文本生成处理。之后,在步骤ST14,文本转换单元104b判断是否检测到句子的断点(语音的断点)。当未检测到断点时,文本转换单元104b在步骤ST15,输入语音数据,并在步骤ST13中进行语言分析和进行文本生成处理,直到检测到断点为止。
[0057]当检测到句子的断点时,在步骤ST16,文本转换单元104b输出句子的信息,即,字符串数据及起点和终点的时间信息。随后,文本转换单元104b返回步骤ST11,并根据下一个句子的语言分析,进行文本生成处理。
[0058]返回图1,语言分析结果记录格式转换单元104c把来自语音特征检测单元104a的每个语音特征区间的信息的格式,和来自文本转换单元104b的每个句子的信息的格式转换成记录格式。
[0059]这种情况下,语言分析结果记录格式转换单元104c为每个章节生成在图4(a)中图解所示的内容关联结构。“识别关联内容的ID”是内容的章节标识信息。包含在该章节中的每个句子的字符串结构(例示于图4(b)中)包含在“分析字符串列表”的一部分中。
[0060]字符串结构包括句子的字符串数据(图4(b)的例子中的XXXXAAAAACCCCCCBBBBB的数据),以及对应字符串的开始时间和终止时间的信息。在这种情况下,开始时间表示当字符串的发音开始时的时间,而终止时间表示当字符串的发音结束时的时间。开始时间和终止时间表示构成内容的视频数据和语音数据的对应关系。即,开始时间和终止时间表示字符串对应于内容的哪个区间,并且在编辑时必须剪裁。
[0061]字符串结构包括句子中的每个语音特征区间(拆分)的信息。一个语音特征区间的信息包括开始字符位置、开始时间和发音信息。开始字符位置表示字符串的断点位置。开始字符位置是以使字符串和语音特征区间彼此对应的字符串的编号位置的形式描述的。在图4(b)的例子中,与字符串的“AAAA”对应的语音特征区间中的开始字符位置是第5个字符的位置。
[0062]开始时间表示断点位置的时间,并且表示构成内容的视频数据和语音数据的对应关系。发音信息表示语音特征的种类。语音特征的种类包括元音的长音区间,以爆破音或强重音开始的区间,拟音的表现区间,和语音的音调的变化区间,如上所述。
[0063]图5示意地图解说明字符串、语音特征区间(拆分)和视频数据(内容)的对应关系的例子。图5(a)图解说明字符串,图5(b)示意地图解说明具有电影格式的视频数据的每一帧。在这个例子中,4个语音特征区间(拆分)“拆分[O]?拆分[3]”包含在字符串 “XXXXAAAAACCCCCCBBBBB” 中。
[0064]返回图1,运动图像/语言分析信息关联单元106使利用运动图像多路复用单元103获得的视频数据和语音数据的多路复用数据,与利用语言分析单元104获得的内容关联结构相互关联,并把多路复用数据和内容关联结构记录在记录介质107上。这种情况下,通过利用以下的格式(a)?(d),把多路复用数据和内容关联结构记录在记录介质上,能够进行关联。
[0065](a)对于每个章节,向章节的多路复用数据的结尾附加与所述多路复用数据对应的内容关联结构(参见图4),并记录所述多路复用数据和内容关联结构。(b)对于每个章节,利用相同的文件名和不同的扩展名,记录章节的多路复用数据,和与所述多路复用数据对应的内容关联结构。(C)对于每个章节,利用任意文件名,记录章节的多路复用数据,和与所述多路复用数据对应的内容关联结构,但是生成使所述多路复用数据和内容关联结构彼此关联的独立数据库。
[0066](d)对于每个章节,利用任意文件名,记录章节的多路复用数据,和与所述多路复用数据对应的内容关联结构,但是在该章节的内容关联结构中,嵌入识别对应的多路复用数据的信息,例如,通用唯一标识符(UUID)。
[0067]下面,说明在图1中图解说明的信息处理设备10的操作。输入视频输入单元101的视频数据被提供给运动图像多路复用单元103。另外,输入语音输入单元102的语音数据被提供给运动图像多路复用单元103。在运动图像多路复用单元103中,视频数据和语音数据被多路复用,从而获得多路复用数据。[0068]输入语音数据输入单元102的语音数据被提供给语言分析单元104的语音特征检测单元104a和文本转换单元104b。在语音特征检测单元104a中,分析语音数据,并检测语音特征区间(拆分)。在该语音特征检测单元中,每当检测到语音特征区间时,输出表示语音特征区间的种类的发音信息,以及起点和终点的时间信息。
[0069]文本转换单元104b利用语言匹配数据库105,对语音数据进行语言分析,并为运动图像的每个章节,检测包含在每个章节中的每个句子的字符串。每当检测到每个句子的字符串时,文本转换单元104b输出字符串数据,以及起点和终点的时间信息。
[0070]在语言分析单元104中,语音特征检测单元104a的输出信息和文本转换单元104b的输出信息被提供给语言分析结果记录格式转换单元104c。在格式转换单元104c中,来自语音特征检测单元104a的每个语音特征区间的信息的格式和来自文本转换单元104b的每个句子的信息被转换成记录格式。
[0071]即,在格式转换单元104c中,为每个章节生成内容关联结构(参见图4 (a))。在内容关联结构中,包含包括在该章节中的每个句子的字符串结构(参见图4 (b))。字符串结构包括句子的字符串数据,以及字符串的开始时间和终止时间的信息。字符串结构包括句子中的每个语音特征区间(拆分)的信息。在这种情况下,一个语音特征区间的信息包括开始字符位置、开始时间和发音信息。
[0072]利用运动图像多路复用单元103获得的视频数据和语音数据的多路复用数据被提供给运动图像/语言分析信息关联单元106。利用语言分析单元104获得的,并且其格式被转换成记录格式的每个句子的信息(内容关联结构)被提供给运动图像/语言分析信息关联单元106。在运动图像/语言分析信息关联单元106中,每个句子的信息与视频数据和语音数据的多路复用数据关联,所述信息和多路复用数据被记录在记录介质107上。
[0073]如上所述,在图1中图解说明的信息处理设备10中,对形成内容的语音数据进行语言分析,为每个章节生成内容关联结构。内容关联结构包括以语音数据的分析为基础的语音特征区间(拆分)的信息,和以文本转换为基础的字符串数据。使构成内容的视频数据和语音数据的多路复用数据和内容关联结构相互关联,并记录在记录介质107上。于是,能够提供识别编辑点的优良信息。
[0074][编辑设备的结构例子]
[0075]图6图解说明编辑设备20的结构例子。编辑设备20处理由图1中图解所示的信息处理设备10记录在记录介质107上的各个章节的多路复用数据和内容关联结构。编辑设备20包括运动图像读取单元201、语言分析信息读取单元202、运动图像/语言分析信息关联单元203和语言分析信息列表生成单元204。编辑设备20还包括时间轴(章节)生成单元205、显示控制单元206、文本信息获取单元207和显示单元208。
[0076]运动图像读取单元201从记录介质107,读取与编辑相关的预定章节的视频数据和语音数据的多路复用数据。语言分析信息读取单元202从记录介质107,读取与利用运动图像读取单元201读取的预定章节的视频数据和语音数据的多路复用数据对应的内容关联结构(参见图4)。此时,运动图像/语言分析信息关联单元203把诸如章节的标识信息或文件信息之类的关联信息传送给语言分析信息读取单元202。
[0077]语言分析信息列表生成单元204接收利用语言分析信息读取单元202读取的内容关联结构,并生成语言分析信息列表。即,在语言分析信息列表中,登记包含在预定章节中的每个句子的字符串数据、开始时间和终止时间。在语言分析信息列表中,登记每个句子的每个语音特征区间(拆分)的开始字符位置、开始时间和发音信息。
[0078]在语言分析信息列表中,为每个句子确定每个语音特征区间(拆分)的有用度的水平,并登记依据有用度的水平分割的区间,即,子章节。在子章节的登记中,相互关联地保存子章节的标识信息和子章节的开始位置和终止位置的信息。
[0079]图7的流程图图解说明在语言分析信息列表生成单元204中的每个句子的子章节登记的处理序列的例子。语言分析信息列表生成单元204在步骤ST31中,开始处理,随后进入步骤ST32。在步骤ST32,语言分析信息列表生成单元204提取处理对象的字符串结构。
[0080]之后,在步骤ST33,语言分析信息列表生成单元204提取第一语音特征区间(拆分)的信息,作为处理对象的语音特征区间。在步骤ST34,语言分析信息列表生成单元204判断该语音特征区间是具有高可用度的区间还是具有低可用度的区间。
[0081]之后,在步骤ST35,语言分析信息列表生成单元204判断区间是否被切换。当区间未被切换时,语言分析信息列表生成单元204返回步骤ST33,提取下一个语音特征区间(拆分)的信息,作为处理对象的语音特征区间。同时,当区间被切换时,在步骤ST36,语言分析信息列表生成单元204关于切换前的区间进行子章节的登记。
[0082]随后,语言分析信息列表生成单元204返回步骤ST33,提取下一个语音特征区间(拆分)的信息,作为处理对象的语音特征区间。当不存在下一个语音特征区间时,语言分析信息列表生成单元204关于其中未进行子章节登记的区间,进行子章节登记,然后结束处理。
[0083]图8图解说明图7的流程图中的步骤ST34的区间判定的处理序列的例子。在步骤ST41,语言分析信息列表生成单元204开始处理,随后进入步骤ST42。在步骤ST42,语言分析信息列表生成单元204判断处理对象的语音特征区间是否是元音的长音区间。
[0084]当处理对象的语音特征区间不是元音的长音区间时,在步骤ST43,语言分析信息列表生成单元204判断处理对象的语音特征区间的开始字符串是否存在于字典中。当开始字符串存在于字典中时,在步骤ST44,语言分析信息列表生成单元204把该处理对象的语音特征区间确定为具有高可用度的区间。随后,在步骤ST45,语言分析信息列表生成单元204终止处理。
[0085]当在步骤ST43中,判定开始字符串不存在于字典中时,在步骤ST46,语言分析信息列表生成单元204判断处理对象的语音特征区间是否是始于爆破音的区间。当处理对象的语音特征区间是始于爆破音的区间时,在步骤ST44,语言分析信息列表生成单元204把处理对象的语音特征区间确定为具有高可用度的区间。随后,在步骤ST45,语言分析信息列表生成单元204终止处理。
[0086]当在步骤ST42中,确定处理对象的语音特征区间是元音的长音区间时,或者当在步骤ST46中,确定处理对象的语音特征区间不是始于爆破音的区间时,在步骤ST47,语言分析信息列表生成单元204把处理对象的语音特征区间确定为具有低可用度的区间。随后,在步骤ST45,语言分析信息列表生成单元204终止处理。
[0087]返回图6,时间轴生成单元205生成利用运动图像读取单元201读取的,与编辑相关的预定章节的视频数据和语音数据的时间轴。时间轴的生成是在显示控制单元206的控制下进行的。显示控制单元206控制时间轴生成单元205的操作,以致根据登记在语言分析信息列表中的子章节,按能够区分具有高有用度的区间和具有低有用度的区间的状态,生成时间轴。
[0088]文本信息获取单元207根据语言分析信息列表,获取对应于时间轴显示的字符串数据。文本信息的获取是在显示控制单元206的控制下进行的。显示控制单元206根据来自用户的时间轴的预定子章节区间的选择信息,控制文本信息获取单元207的操作,以致获得与预定子章节区间和在所述预定子章节区间前后的子章节区间的语音对应的字符串数据。用户通过操作指示装置,比如附图中未例示的鼠标,选择所述预定子章节区间。
[0089]图9的流程图图解说明文本信息获取单元207中的字符串数据的获取的处理序列的例子。当用户请求子章节的选择处理时,文本信息获取单元207在步骤ST51中,开始该处理。
[0090]之后,在步骤ST52,文本信息获取单元207获得所选子章节的开始位置和终止位置的信息。在这种情况下,文本信息获取单元207根据从显示控制单元206提供的所选子章节的标识信息,从利用语言分析信息列表生成单元204生成的语言分析信息列表中,获得子章节的开始位置和终止位置的信息。
[0091]之后,在步骤ST53中,文本信息获取单元207获得所述子章节区间,和在所述子章节区间前后的区间的字符串数据。在这种情况下,文本信息获取单元207根据利用步骤ST52获得的子章节的开始位置和终止位置的信息,参照语言分析信息列表的对应语音特征区间(拆分)的信息,从而获得必需的字符串数据。
[0092]返回图6,显示单元208是利用诸如液晶显示器(IXD)之类的显示器构成的,显示编辑屏幕。显示单元208在显示控制单元206的控制下,显示利用时间轴生成单元205生成的时间轴和利用文本信息获取单元207获得的字符串。
[0093]图10图解说明显示在显示单元208上的编辑屏幕的显示例子。
[0094]沿着水平方向延伸的视频时间轴VTL和语音时间轴ATL被布置和显示在编辑屏幕的下部。在编辑屏幕的右上部中,设置预览屏幕区域PVS。在预览屏幕区域中,显示位于用户在视频时间轴VTL上指定的位置的静止图像,或者从所述位置起的运动图像。如在附图中图解所示,按能够利用亮度、色调、饱和度和形状,区分具有高有用度的子章节区间HS和具有低有用度的子章节区间LS的状态,显示时间轴VTL和ATL。
[0095]当用户利用鼠标操作,选择时间轴的预定子章节区间时,如在图11中图解所示,显示与预定子章节区间和在所述预定子章节区间前后的区间的语音对应的字符串。在这种情况下,会按相同的状态,显示所有的字符串。然而,在本实施例中,通过利用不同地设定预定子章节区间的显示颜色,和在所述预定子章节区间前后的区间的语音的字符串的显示颜色的方法,突出地显示与预定子章节区间的语音对应的字符串。从而,能够在视觉上容易地区分预定子章节区间的字符串和其它区间的字符串。
[0096]下面说明在图6中图解所示的编辑设备20的操作。运动图像读取单元201从记录介质107,读取与编辑相关的预定章节的视频数据和语音数据的多路复用数据。语言分析信息读取单元202从记录介质107,读取与利用运动图像读取单元201读取的预定章节的视频数据和语音数据的多路复用数据对应的内容关联结构(参见图4)。
[0097]利用语言分析信息读取单元202读取的内容关联结构被提供给语言分析信息列表生成单元204。语言分析信息列表生成单元204根据内容关联结构,生成语言分析信息列表。在语言分析信息列表中,登记包含在预定章节中的每个句子的字符串数据、开始时间和终止时间。在语言分析信息列表中,登记每个句子的每个语音特征区间(拆分)的开始章节位置、开始时间和发音信息。
[0098]在语言分析信息列表中,为每个句子确定每个语音特征区间(拆分)的有用度的水平,并登记依据有用度的水平分割的区间,即,子章节。在子章节的登记中,相互关联地保存子章节的标识信息,和该子章节的开始位置和终止位置的信息。
[0099]利用运动图像读取单元201读取的与编辑相关的预定章节的视频数据和语音数据被提供给时间轴生成单元205。时间轴生成单元205生成与编辑相关的预定章节的视频数据和语音数据的时间轴。在这种情况下,在显示控制单元206的控制下,根据登记在语言分析信息列表中的子章节,按能够区分具有高有用度的区间和具有低有用度的区间的状态,生成时间轴。
[0100]利用时间轴生成单元205生成的时间轴的信息被提供给显示单元208。在显示单元208上,在显示控制单元206的控制下,显示视频时间轴VTL和语音时间轴ATL。在这种情况下,按能够区分具有高有用度的区间HS和具有低有用度的区间LS的状态,显示时间轴VTL和ATL (参见图10)。
[0101]利用语言分析信息列表生成单元204生成的语言分析信息列表被提供给文本信息获取单元207。按照来自用户的时间轴的预定子章节区间的选择,预定子章节的标识信息从显示控制单元206被提供给文本信息获取单元207。
[0102]文本信息获取单元207根据语言分析信息列表,获得与和用户的选择相关的预定子章节区间,以及在所述预定子章节区间前后的子章节区间的语音对应的字符串数据,作为对应于时间轴显示的字符串数据。所述字符串数据被提供给显示单元208。在显示单元208的编辑屏幕上,显示与和用户的选择相关的预定子章节区间,以及在所述预定子章节区间前后的子章节区间的语音对应的字符串(参见图11)。
[0103]如上所述,在图6中图解所示的编辑设备20中,当从记录介质107读取与编辑相关的预定子章节的视频数据和语音数据的多路复用数据时,读取与所述多路复用数据关联地记录的内容关联结构,从而生成语言分析信息列表。内容关联结构包括基于语音数据的分析的语音特征区间(拆分)的信息和基于文本转换的字符串数据。
[0104]当根据多路复用数据生成视频或语音的时间轴时,根据登记在语言分析信息列表中的子章节,按能够区分具有高有用度的区间和具有低有用度的区间的状态,生成时间轴。因此,在编辑屏幕上,按能够区分具有高有用度的区间HS和具有低有用度的区间LS的状态,显示视频时间轴VTL和语音时间轴ATL。于是,用户能够利用这两个区间之间的边界作为编辑点,并进行适当的编辑。
[0105]当用户利用时间轴上的鼠标操作,选择预定子章节时,根据语言分析信息列表,获得与和用户的选择相关的预定子章节区间,以及在所述预定子章节区间前后的子章节区间的语音对应的字符串数据。因此,在编辑屏幕上,显示与和用户的选择相关的预定子章节区间,以及在所述预定子章节区间前后的子章节区间的语音对应的字符串。于是,用户能够在不再现内容的情况下,在某种程度上识别内容,从而能够高效并且有效地进行编辑。
[0106]<2.变形例 >
[0107][子章节登记的另一示例][0108]在上面说明的实施例中,在编辑设备20的语言分析信息列表生成单元204中,为每个语音特征区间(拆分)确定有用度的水平,依据有用度的水平分割的区间被登记为子章节。在显示单元208上,显示被分割成具有高可用度的区间HS和具有低可用度的区间LS的视频和语音的时间轴。
[0109]不过,也可考虑把每个子句的每个区间,S卩,每个语音特征区间(拆分)登记为子章节,在显示单元208上显示关于每个子句分割的视频和语音的时间轴,并且在显示单元208上显示对应于每个子句的字符串的方法。
[0110]图12的流程图图解说明语言分析信息列表生成单元204(参见图6)中的每个句子的子章节登记的处理序列的例子。语言分析信息列表生成单元204在步骤ST61中,开始处理,随后进入步骤ST62。在步骤ST62,语言分析信息列表生成单元204提取处理对象的句子的字符串结构。
[0111]之后,在步骤ST63,语言分析信息列表生成单元204提取包含在利用步骤ST62提取的字符串结构中的第一语音特征区间(拆分)的信息。在步骤ST64,语言分析信息列表生成单元204把该语音特征区间登记成子章节。在子章节的登记中,子章节的标识信息与子章节的开始位置和终止位置的信息被相互关联并被保存。
[0112]随后,语言分析信息列表生成单元204返回步骤ST63,并提取下一个语音特征区间(拆分)的信息,作为处理对象的语音特征区间。当不存在下一个语音特征区间时,语言分析信息列表生成单元204终止处理。
[0113]在时间轴生成单元205中,当生成与编辑相关的预定章节的视频数据和语音数据的时间轴时,根据登记在语言分析信息列表中的子章节,生成关于每个语音特征区间(拆分)分割的时间轴。在文本信息获取单元207中,从语言分析信息列表获得与每个语音特征区间(拆分)的语音对应的字符串数据。
[0114]因此,在显示单元208上,利用时间轴生成单元205生成的时间轴的信息,显示关于每个语音特征区间(拆分)分割的时间轴VTL和ATL,如在图13中图解所示。在显示单元208上,根据利用文本信息获取单元207获得的字符串数据,对应于每个语音特征区间地显示与每个语音特征区间(拆分)的语音对应的字符串。
[0115][基于单词选择的视频搜索系统]
[0116]尽管上面未说明,不过,编辑设备20可根据利用语言分析信息读取单元202读取的,与编辑相关的预定章节的内容关联结构,生成表示构成字符串的单词和所述单词所属于的语音特征区间(拆分)的对应关系的表格。利用所述表格,能够构成搜索与所选单词存在于的语音特征区间(拆分)对应的视频的系统。
[0117]图14的流程图图解说明表格生成单元(图6中未示出)中的表格生成的处理序列的例子。在步骤ST71,表格生成单元开始处理。之后,在步骤ST72,表格生成单元从记录介质107 (参见图4),读取与和编辑相关的预定画面的视频数据和语音数据的多路复用数据关联的内容关联结构。
[0118]之后,在步骤ST73,表格生成单元提取与包含在内容关联结构中的每个字符串对应的字符串结构。在步骤ST74,表格生成单元从包含在每个字符串结构中的字符串中,提取单词。在这种情况下,以单词的形式,包含拟音。在步骤ST75,表格生成单元把利用步骤ST74提取的单词和该单词所属于的语音特征区间(拆分)的对应关系登记在表格中。[0119]对所有单词,反复进行步骤ST74的单词提取处理,和步骤ST75的表格登记处理。当对于所有单词的单词提取处理和表格登记处理结束时,表格生成单元终止处理。
[0120]图15图解说明利用如上所述生成的表格的搜索例子。例如,在显示在显示单元208上的编辑屏幕上,显示像以“A”开头的单词,以“B”开头的单词…那样地分类的登记在表格中的单词,如在图15(a)中图解所示。
[0121]当用户从登记在表格中的单词中选择预定单词时,参照所述表格,获得预定单词所属于的语音特征区间(拆分),在编辑屏幕的预览屏幕区域PVS中,显示对应语音特征区间的预定帧,例如第一帧和最后一帧的图像,如在图15(b)中图解所示。对应语音特征区间的运动图像可被显示在预览屏幕区域PVS中。运动图像和对应语音特征区间可被清楚地表示在时间轴上。
[0122][对网络的传输]
[0123]在上面说明的实施例中,说明了其中信息处理设备10(参见图1)的运动图像/语言分析信息关联单元106使构成内容的视频数据和语音数据的多路复用数据与语言分析信息(内容关联结构)关联,并把所述多路复用数据和语言分析信息记录在记录介质107上的情况的例子。
[0124]然 而,当进行对网络的直播流媒体发布时,构成内容的视频数据和语音数据的多路复用数据与语言分析信息被相互关联,并被传送。在这种情况下,按传输单位(缓存单位),例如4秒,传送多路复用数据。然而,假定语言分析信息也是依据传输单位分割的,以改善参照性能。
[0125]图16图解说明当进行对网络的直播流媒体发布时,信息处理设备IOA的结构例子。在图16中,与图1的构成元件对应的构成元件用相同的附图标记表示,并省略其详细说明。
[0126]语言分析单元104的语言分析结果记录格式转换单元104cA为构成内容的视频数据和语音数据的多路复用数据的每个传输单位,生成在图17中图解所示的内容关联结构。“识别关联内容的ID”是内容的章节标识信息。
[0127]内容关联结构包括诸如“参考文本”、“开始时间”、“持续时间”和“发音信息”之类的信息。“参考文本”表示在传输单位区间中生成的单词的字符串数据。“开始时间”表示断点位置的开始时间位置。“持续时间”表示断点位置的持续时间,并表示等于或小于与传输单位区间对应的最长持续时间的时间。“发音信息”表示语音特征的种类。语音特征的种类包括元音的长音区间,始于爆破音或强重音的区间,拟音的表现区间,和语音的音调的变化区间,如上所述。
[0128]运动图像/语言分析信息关联单元106A按传输单位,顺序把利用运动图像多路复用单元103获得的多路复用数据传送给网络108。此时,对于每个传输单位,运动图像/语言分析信息关联单元106A向多路复用数据附加利用语言分析单元104生成的内容关联结构(参见图17),并传送所述多路复用数据和内容关联结构。
[0129]在图16中图解说明的信息处理设备IOA中,语言匹配数据库105可利用存在于网络(云)108中的信息,如用虚线箭头所示。
[0130][运动分析信息的附加]
[0131]在上述实施例中,说明了其中只使语言分析信息与视频数据和语音数据的多路复用数据关联,并记录或传送所述多路复用数据的情况的例子。然而,还可考虑进一步使从视频数据获得的运动分析信息和多路复用数据关联,并记录或传送语言分析信息、运动分析信息和多路复用数据的方法。从而,能够提供作为识别编辑点的信息的有用信息。
[0132]图18图解说明信息处理设备IOB的结构例子。在图18中,与图1的构成元件对应的构成元件用相同的附图标记表示,并省略其详细说明。信息处理设备IOB包括视频输入单元101、语音输入单元102、运动图像多路复用单元103、语言分析单元104和语言匹配数据库105。信息处理设备IOB还包括运动特征检测单元111、运动分析结果记录格式转换单元112、分析信息综合单元113、运动图像/分析信息关联单元106B和记录介质107。
[0133]语言分析单元104具有语音特征检测单元104a、文本转换单元104b和语言分析结果记录格式转换单元104cB。语言分析结果记录格式转换单元104cB根据来自语音特征检测单元104a的每个语音特征区间的信息,和来自文本转换单元104b的每个句子的信息,为包含在章节中的每个句子,生成在图19(d)中图解说明的字符串结构。
[0134]字符串结构包括在图19(b)中图解说明的分析信息结构。分析信息结构具有“结构种类”、“开始时间”和“终止时间”的信息。在包含在字符串结构中的分析信息结构中,“结构种类”表示结构是字符串结构,开始时间表示字符串的发音开始的时间,而终止时间表示字符串的发音终止的时间。
[0135]字符串结构包括句子的字符串数据(图19 (d)的例子中的XXXXAAAAACCCCCCBBBBB的数据)。字符串结构包括句子中的每个语音特征区间(拆分)的信息。一个语音特征区间的信息包括开始字符位置、开始时间和发音信息。开始字符位置表示字符串中的断点位置。开始字符位置是以使字符串和语音特征区间彼此对应的字符串的编号位置的形式描述的。在图19(d)的例子中,与字符串的“AAAA”对应的语音特征区间中的开始字符位置是第5个字符的位置。
[0136]运动特征检测单元111分析输入视频输入单元101的视频数据,从而检测运动特征。这种情况下,检测的运动特征包括焦点位置移动和成像方向变化。运动特征检测单元111为每个运动特征区间,输出运动特征的种类,及起点和终点的时间信息。
[0137]运动分析结果记录格式转换单元112根据来自运动特征检测单元111的运动特征区间的信息,为每个运动特征区间生成图19(d)中图解所示的运动结构。运动结构包括图19(b)中图解所示的分析信息结构,和表示运动特征的种类,比如焦点位置移动和成像方向变化的“运动种类”的信息。
[0138]分析信息结构具有“结构种类”、“开始时间”和“终止时间”的信息。在包含在运动结构中的分析信息结构中,“结构种类”表示结构是运动结构,开始时间表示运动特征区间的开始时间,而终止时间表示运动特征区间的终止时间。
[0139]分析信息综合单元113为每个章节,综合利用语言分析单元104的语言分析结果记录格式转换单元104cB生成的字符串结构,和利用运动分析结果记录格式转换单元112生成的运动结构,从而生成图19(a)中图解所示的内容关联结构。“识别关联内容的ID”是内容的章节标识信息。每个句子的字符串结构和每个运动特征区间的运动结构包含在“分析信息列表”的一部分中。
[0140]运动图像/分析信息关联单元106B使利用运动图像多路复用单元103获得的视频数据和语音数据的多路复用数据与利用分析信息综合单元113获得的内容关联结构相互关联,并把多路复用数据和内容关联结构记录在记录介质107上。图18中图解说明的信息处理设备IOB的其它结构和操作与图1中图解说明的信息处理设备10的结构和操作相同。
[0141]图20图解说明编辑设备20B的结构例子。在图20中,与图6的构成元件对应的构成元件用相同的附图标记表示,并省略其详细说明。编辑设备20B处理由图18中图解说明的信息处理设备IOB记录在记录介质107上的每个章节的多路复用数据和内容关联结构。
[0142]编辑设备20B包括运动图像读取单元201、语言分析信息读取单元202B、运动图像/分析信息关联单元203B和分析信息列表生成单元204B。编辑设备20B还包括时间轴(章节)生成单元205、显示控制单元206、文本信息获取单元207和显示单元208。
[0143]分析信息读取单元202B从记录介质107,读取与利用运动图像读取单元201读取的预定章节的视频数据和语音数据的多路复用数据对应的内容关联结构(参见图19)。此时,运动图像/分析信息关联单元203B把诸如章节的标识信息或文件信息之类的关联信息传送给分析信息读取单元202A。
[0144]分析信息列表生成单元204B接收利用分析信息读取单元202B读取的内容关联结构,并生成分析信息列表。即,在分析信息列表中,登记包含在预定章节中的每个句子的字符串数据、开始时间和终止时间。在分析信息列表中,登记每个句子的每个语音特征区间(拆分)的开始字符位置、开始时间和发音信息。在分析信息列表中,登记包含在预定章节中的每个运动特征区间的种类信息、开始时间和终止时间。
[0145]在分析信息列表中,为每个句子确定每个语音特征区间(拆分)的有用度的水平,并登记依据有用度的水平分割的区间,即,子章节。在子章节的登记中,相互关联地保存子章节的标识信息和所述子章节的开始位置和终止位置的信息。
[0146]与图6的编辑设备20类似,按照图7的流程图,执行分析信息列表生成单元204B中的关于每个句子的子章节登记处理。然而,步骤ST34的区间确定处理是利用运动分析信息,以及语言分析信息进行的,如在图21的流程图中图解所示,而不是如在图8的流程图中图解所示。
[0147]在步骤ST81,分析信息列表生成单元204B开始处理,然后进入步骤ST82。在步骤ST82,分析信息列表生成单元204b判断处理对象的语音特征区间是否是元音的长音区间。
[0148]当处理对象的语音特征区间不是元音的长音区间时,在步骤ST83,分析信息列表生成单元204B判断处理对象的语音特征区间的开始字符串是否存在于字典中。当开始字符串存在于字典中时,在步骤ST84,分析信息列表生成单元204B把处理对象的语音特征区间确定为具有高可用度的区间。之后,在步骤ST85,分析信息列表生成单元204B终止处理。
[0149]当在步骤ST83中,判定开始字符串不存在于字典中时,在步骤ST86,分析信息列表生成单元204B判断处理对象的语音特征区间是否是始于爆破音的区间。当处理对象的语音特征区间是始于爆破音的区间时,在步骤ST84,分析信息列表生成单元204B把处理对象的语音特征区间确定为具有高有用度的区间。之后,在步骤ST85,分析信息列表生成单元204B终止处理。
[0150]当在步骤ST82中,确定处理对象的语音特征区间是元音的长音区间时,或者当在步骤ST86中,确定处理对象的语音特征区间不是始于爆破音的区间时,在步骤ST87,分析信息列表生成单元204B判断周围运动信息是否有用。例如,当焦点位置移动或成像方向变化的运动特征区间存在于周围部分中时,分析信息列表生成单元204B确定周围运动信息有用。
[0151]当确定周围运动信息有用时,在步骤ST84,分析信息列表生成单元204B把处理对象的语音特征区间确定为具有高可用度的区间。随后,在步骤ST85,分析信息列表生成单元204B终止处理。同时,当确定周围运动信息无用时,在步骤ST87,分析信息列表生成单元204B把处理对象的语音特征区间确定为具有低可用度的区间。随后,在步骤ST85,分析信息列表生成单元204B终止处理。
[0152]返回图20,时间轴生成单元205生成利用运动图像读取单元201读取的,与编辑相关的预定章节的视频数据和语音数据的时间轴。时间轴是在显示控制单元206的控制下生成的。显示控制单元206根据登记在分析信息列表中的子章节,控制时间轴生成单元205的操作,以致按能够区分具有高有用度的区间和具有低有用度的区域的状态,生成时间轴。
[0153]文本信息获取单元207根据分析信息列表,获取对应于时间轴显示的字符串数据。文本信息的获取是在显示控制单元206的控制下进行的。显示控制单元206根据来自用户的时间轴的预定子章节区间的选择信息,控制文本信息获取单元207的操作,以致获得与预定子章节区间和在所述预定子章节区间前后的子章节区间的语音对应的字符串数据。用户通过操作诸如鼠标(附图中未例示)之类的指示装置,选择预定子章节区间。
[0154]显示单元208是利用诸如液晶显示器(IXD)之类的显示器构成的,显示编辑屏幕。显示单元208在显示控制单元206的控制下,显示利用时间轴生成单元205生成的时间轴,和利用文本信息获取单元207获得的字符串。在图20中图解说明的编辑设备20B的其它结构和操作与在图6中图解说明的编辑设备20的结构和操作相同。
[0155][基于内容关联结构的再现控制]
[0156]在上述实施例中,说明了其中对于每个章节,根据包含在与视频数据和语音数据的多路复用数据关联的内容关联结构中的信息,进行编辑屏幕的显示控制的情况的例子。然而,还可考虑根据内容关联结构,在再现内容的最重要部分时进行控制的方法。例如,根据内容关联结构,被确定为具有低有用度的区间的区间可作为不必要的区间被预先排除。于是,能够高效地检测突出场景。
[0157][本公开适用于的计算机]
[0158]上述信息处理设备和编辑设备中的一系列处理可用硬件执行,或者可用软件执行。在其中利用软件执行所述一系列处理的情况下,构成所述软件的程序被安装在通用计算机中。
[0159]图22图解说明其中安装执行所述一系列处理的程序的计算机的结构例子。程序可被预先记录在起嵌入计算机中的记录介质作用的存储单元308或者只读存储器(ROM) 302 中。
[0160]程序可被保存(记录)在可拆卸介质311中。可以所谓的套装软件的形式,提供可拆卸介质311。在这种情况下,软盘、光盘只读存储器(CD-ROM)、磁光(MO)盘、数字通用光盘(DVD)、磁盘和半导体存储器被例举为可拆卸介质311。
[0161]程序可通过驱动器310,从可拆卸介质311安装到计算机。另外,程序可通过通信网络或广播网络下载到计算机,然后可被安装在嵌入式存储单元308中。S卩,程序可通过数字卫星广播用人造卫星,无线地从下载站点传送给计算机,或者可通过诸如局域网(LAN)或因特网之类的网络,有线地从下载站点传送给计算机。
[0162]计算机具有嵌入其中的中央处理器(CPU) 301,输入/输出接口 305通过总线304,连接到CPU301。如果用户通过操作输入单元306,经输入/输出接口 305输入命令,那么CPU301按照该命令,执行保存在R0M302中的程序。CPU301把保存在存储单元308中的程序载入随机存取存储器(RAM),然后执行该程序。
[0163]从而,CPU301执行与上述流程图相应的处理,或者利用上述方框图的结构进行的处理。另外,CPU301按照必要性,通过输入/输出接口 305,从输出单元307输出处理结果,从通信单元309传送处理结果,或者把处理结果记录在存储单元308中。输入单元306是利用键盘、鼠标和麦克风构成的。输出单元307是利用液晶显示器(LCD)和扬声器构成的。
[0164]在本公开中,按照所述程序,由计算机执行的处理不一定按与如流程图说明的顺序相应的时序进行。即,按照所述程序,由计算机执行的处理包括并行地或者单独地进行的处理(例如,并行处理或者基于对象的处理)。程序可由一个计算机(处理器)处理,或者可被分发给并由多个计算机处理。另一方面,程序可被传送给远程计算机,并由远程计算机执行。
[0165]本领域的技术人员应明白,根据设计要求和其它因素,可以产生各种修改、组合、子组合和变更,只要它们在所附的权利要求或其等同物的范围之内。
[0166]另外,还可以如下构成本技术。
[0167](I) 一种信息处理设备,包括:
[0168]信息获取单元,所述信息获取单元根据内容的语言分析,获得识别包括语音的内容的编辑点的信息;和
[0169]输出获得的信息的信息输出单元。
[0170](2)按照(I)所述的信息处理设备,
[0171]其中识别编辑点的信息包括利用编辑点的周围区间中的语言分析获得的语言信
肩、O
[0172](3)按照⑵所述的信息处理设备,
[0173]其中语目/[目息包括语首的发首/[目息。
[0174](4)按照⑵或(3)所述的信息处理设备,
[0175]其中语言信息包括语音的字符串信息。
[0176](5)按照(1)-(4)任意之一所述的信息处理设备,
[0177]其中信息输出单元还输出包含在编辑点的周围区间中的内容之中的视频的运动信息。
[0178](6)按照(1)-(5)任意之一所述的信息处理设备,
[0179]其中信息输出单元把获得的信息与内容关联地记录在记录介质上。
[0180](7)按照(1)-(5)任意之一所述的信息处理设备,
[0181]其中信息输出单元按内容的传输单位,把获得的信息传送给网络。
[0182](8) 一种信息处理方法,包括:
[0183]根据内容的语言分析,获得识别包括语音的内容的编辑点的信息;和
[0184]输出获得的信息。
[0185](9) 一种显示控制设备,包括:[0186]信息获取单元,所述信息获取单元获取识别包含语音的内容的编辑点的信息,所述编辑点是根据所述内容的语言分析获得的;和
[0187]显示控制单元,所述显示控制单元根据获得的信息,控制与所述内容相关的显示。
[0188](10)按照(9)所述的显示控制设备,
[0189]其中识别编辑点的信息包括利用编辑点的周围区间中的语言分析而获得的语言信息。
[0190](11)按照(9)或(10)所述的显示控制设备,
[0191]其中显示控制单元根据识别编辑点的信息,识别具有高有用度的内容的第一区间,和具有低有用度的内容的第二区间,和
[0192]其中显示控制单元按照第一区间和第二区间可区分的状态,显示内容的时间轴的方式,进行控制。
[0193](12)按照(11)所述的显示控制设备,
[0194]其中显示控制单元按依照时间轴的预定区间的选择,利用包含在语言信息中的字符串信息,显示与时间轴的预定区间的语音对应的字符串的方式,进行控制。
[0195](13)按照(12)所述的显示控制设备,
[0196]其中显示控制单元按显示与预定区间的语音对应的字符串,和与在预定区间前后的区间的语音对应的字符串,并突出地显示与预定区间的语音对应的字符串的方式,进行控制。
[0197](14)按照(13)所述的显示控制设备,
[0198]其中突出显示具有与其它区间的显示颜色不同的显示颜色。
[0199](15)按照(10)所述的显示控制设备,
[0200]其中显示控制单元按照显示依据用包含在语言信息中的字符串信息表示的子句的区间分割的内容的时间轴,并且对应于时间轴的区间地显示与时间轴的每个区间的语音对应的字符串的方式,进行控制。
[0201](16) —种显示控制方法,包括:
[0202]获取识别包含语音的内容的编辑点的信息,所述编辑点是根据所述内容的语言分析获得的;和
[0203]根据获得的信息,控制与所述内容相关的显示。
[0204]本公开包含与在2012年7月12日向日本专利局提交的日本优先权专利申请JP2012-156201中公开的主题相关的主题,该专利申请的整个内容在此引为参考。
【权利要求】
1.一种信息处理设备,包括: 信息获取单元,所述信息获取单元根据对包括语音的内容的语言分析,获取识别内容的编辑点的信息;和 信息输出单元,输出所获取的信息。
2.按照权利要求1所述的信息处理设备, 其中识别编辑点的信息包括利用编辑点的周围区间中的语言分析获得的语言信息。
3.按照权利要求2所述的信息处理设备, 其中所述语言信息包括语音的发音信息。
4.按照权利要求2所述的信息处理设备, 其中所述语言信息包括语音的字符串信息。
5.按照权利要求1所述的信息处理设备, 其中信息输出单元还输出包含在编辑点的周围区间中的内容之中的视频的运动信息。
6.按照权利要求1所述的信息处理设备, 其中信息输出单元把所获 得的信息与内容关联地记录在记录介质上。
7.按照权利要求1所述的信息处理设备, 其中信息输出单元按内容的传输单位把所获得的信息传送给网络。
8.—种信息处理方法,包括: 根据对包括语音的内容的语言分析,获得识别内容的编辑点的信息;和 输出所获得的信息。
9.一种显示控制设备,包括: 信息获取单元,所述信息获取单元获取识别包含语音的内容的编辑点的信息,所述编辑点是根据对所述内容的语言分析获得的;和 显示控制单元,所述显示控制单元根据所获得的信息,控制与所述内容相关的显示。
10.按照权利要求9所述的显示控制设备, 其中识别编辑点的信息包括利用编辑点的周围区间中的语言分析而获得的语言信息。
11.按照权利要求9所述的显示控制设备, 其中显示控制单元根据识别编辑点的信息,识别具有高有用度的内容的第一区间和具有低有用度的内容的第二区间,和 其中显示控制单元按照能够区分第一区间和第二区间的状态显示内容的时间轴的方式,进行控制。
12.按照权利要求11所述的显示控制设备, 其中显示控制单元按依照时间轴的预定区间的选择,利用包含在语言信息中的字符串信息显示与时间轴的预定区间的语音对应的字符串的方式,进行控制。
13.按照权利要求12所述的显示控制设备, 其中显示控制单元按显示与预定区间的语音对应的字符串和与在预定区间前后的区间的语音对应的字符串,并突出地显示与预定区间的语音对应的字符串的方式,进行控制。
14.按照权利要求13所述的显示控制设备, 其中突出显示具有与其它区间的显示颜色不同的显示颜色。
15.按照权利要求10所述的显示控制设备,其中显示控制单元按照显示内容的时间轴,并且对应于时间轴的区间地显示与时间轴的每个区间的语音对应的字符串的方式,进行控制,所述时间轴用包含在语言信息中的字符串信息表示的子句的区间来分割。
16.—种显不控制方法,包括: 获取识别包含语音的内容的编辑点的信息,所述编辑点是根据对所述内容的语言分析获得的;和 根据所获得的信息,控制 与所述内容相关的显示。
【文档编号】G10L15/04GK103544950SQ201310278580
【公开日】2014年1月29日 申请日期:2013年7月4日 优先权日:2012年7月12日
【发明者】桑原立 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1