兴趣区间抽取装置、兴趣区间抽取方法

文档序号：2832713阅读：175来源：国知局

专利名称：兴趣区间抽取装置、兴趣区间抽取方法
技术领域：
本发明涉及从AV内容中抽取成为用户的兴趣对象的兴趣区间的技术，尤其涉及使用音频信号的技术。
背景技术：
在数字摄像机等动态图像摄影设备中，要求能够从用户拍摄的AV内容中去除不需要的区间而仅抽取有兴趣的区间(下面称为“兴趣区间”)的功能。与此相对，在过去的动态图像摄影设备中，用户视听AV内容的内容，并在兴趣区间的开始时刻到来时操作控制器(例如按下控制器的输入按钮的操作)确定兴趣区间的开始时刻，然后在兴趣区间的结束时刻到来时，再次操作控制器确定兴趣区间的结束时刻，由此能够抽取兴趣区间。可是，在这种动态图像摄影设备中，在想要抽取适宜的兴趣区间时，需要视听AV内容的内容并在恰当的定时操作控制器，在视听AV内容的内容的同时操作控制器的作业需要某种程度的熟练功。并且，在不能恰当地确定兴趣区间的开始时刻和结束时刻的情况下，需要再次反复视听AV内容的内容来操作控制器的作业，兴趣区间的抽取花费许多功夫。因此，过去提出了一种动态图像编辑装置(参照专利文献I )，该动态图像编辑装置具有将针对用户指定的时刻加上用户预先根据内容的内容而设定的偏置时间后的时刻作为起始点和终止点的功能。在这种动态图像编辑装置中，如果将起始点的时刻设定为例如比用户指定的时刻提前偏置时间，即使是用户指定起始点的定时延迟了，也能够指定期望的起始点，能够抽取适宜的兴趣区间。另外，过去还提出了这样的方法(参照专利文献2)，预先设定兴趣区间的开始时刻(起始点)的音响特征条件和结束时刻(终止点)的音响特征条件，根据这些音响特征条件来确定起始点和终止点，由此抽取兴趣区间。现有技术文献专利文献专利文献I :日本特开2001 - 057660号公报专利文献2 :日本特开平3 - 080782号公报
发明概要发明要解决的问题但是，在专利文献I记载的方法中，通常需要根据AV内容的内容将适宜的偏置时间设定为不同的长度，例如在想要从多种AV内容分别抽取兴趣区间来生成摘要的情况下，需要在对每种AV内容分别设定偏置时间后抽取兴趣区间。在想要从这些多种AV内容分别抽取兴趣区间的情况下，按照每种AV内容分别设定不同的偏置时间的作业，对于用户而言是非常费功夫的作业。
另外，在专利文献2记载的方法中，需要根据AV内容的内容设定起始点和终止点的音响特征条件，因而在想要从多种AV内容抽取兴趣区间的情况下，需要对每种AV内容分别设定起始点和终止点的音响特征条件。因此，在对多种AV内容分别设定音响特征条件来抽取兴趣区间的情况下，这种设定作业对于用户而言成为较大的负担。
发明内容
本发明正是鉴于上述情况而提出的，其目的在于，减轻从AV内容抽取兴趣区间时的用户的作业负担。用于解决问题的手段本发明的兴趣区间抽取根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取装置具有锚模型(anchor model)存储单元，预先存储有用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得单元，取得指定时刻；似然度向量生成单元，对于音频信号的每个单位区间，使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取单元，根据似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。发明效果根据这种结构，在从AV内容抽取兴趣区间时，仅通过指定指定时刻即可抽取适宜的兴趣区间，因而能够减轻抽取兴趣区间时的用户的作业负担。并且，也可以是，本发明的兴趣区间抽取装置具有频次向量生成单元，该频次向量生成单元将单位区间作为第I单位区间，根据从长度为该第I单位区间的N倍的第2单位区间的音频信号生成的N个似然度向量生成频次向量，N为2以上的自然数，候选区间是根据频次向量而计算出的。并且，也可以是，本发明的兴趣区间抽取装置具有分量分类单元，将频次向量的各个分量分类为多个分量组；以及特征区间计算单元，根据多个分量组分别计算多个特征区间，候选区间由多个特征区间确定。根据这种结构，根据表示AV内容整体中的各个音素的出现频次的、从音频信号的整体区间生成的似然度向量的重心向量的各个分量来分类为多个分量组，按照根据多个分量组分别计算出的特征区间来确定候选区间，由此如果按照声音环境的性质上的差异将分量分类，则能够从根据声音环境为相同性质的分量而计算出的特征区间中确定候选区间，因而能够使声音环境的性质体现在特征区间中。并且，也可以是，在本发明的兴趣区间抽取装置中，分量分类单元根据音频信号的整体区间的似然度向量生成重心向量，根据该重心向量的各个分量的大小，将频次向量的各个分量分类为第I分量组和第2分量组，特征区间计算单元根据重心向量中的属于第I分量组的各个分量计算第I特征区间，根据重心向量中的属于第2分量组的各个分量计算第2特征区间，候选区间由第I特征区间和第2特征区间确定。根据这种结构，特征区间计算单元构成为将重心向量中对应于与大小为预定量以上的分量对应的锚模型的重心向量的分量作为第I分量组，将重心向量中对应于与大小小于预定量的分量对应的锚模型的重心向量的分量作为第2分量组，并根据第I分量组计算第I特征区间，根据第2分量组计算第2特征区间，由此能够根据属于第I分量组的各个分量计算稳定性质的声音环境的持续期间即第I特征区间，并根据属于第2分量组的各个分量计算突发性质的声音环境的持续期间即第2特征区间，因而能够抽取包括稳定性质的声音环境和突发性质的声音环境的兴趣区间。并且，也可以是，在本发明的兴趣区间抽取装置中，兴趣区间是包含于第I特征区间中且包含第2特征区间的区间。根据这种结构，兴趣区间是包含于第I特征区间中且包括第2特征区间的区间，由此能够准确抽取包括突发性的声音环境的兴趣区间，因而能够准确抽取包括稳定的声音环境和突发性的声音环境的兴趣区间。并且，也可以是，本发明的兴趣区间抽取装置具有兴趣区间长度取得单元，取得用户预先设定的兴趣区间的长度；以及特征时刻抽取单元，从指定时刻开始使时刻每次错时第2单位区间，同时检索并提取包含于第2特征区间中的特征时刻，兴趣区间抽取单元，从指定时刻开始使时刻朝向由特征时刻抽取单元抽取的特征时刻每次错时第2单位区间，同时判定对象时刻是否属于第I特征区间、且该对象时刻与指定时刻之间的长度是否比预·先设定的兴趣区间的长度短，在判定为对象时刻属于第I特征区间、且该对象时刻与指定时刻之间的长度比预先设定的兴趣区间的长度短时，将包括对象时刻的第2单位区间作为兴趣区间。根据这种结构，在第I特征区间的长度比用户预先设定的兴趣区间的长度短的情况下，能够减轻兴趣区间抽取单元的处理负荷。并且，也可以是，在本发明的兴趣区间抽取装置中，动态图像文件对应于表示一个内容的动态图像。根据这种结构，动态图像文件对应于表示一个内容的动态图像，由此能够从一个内容整体中抽取第I特征区间和第2特征区间，因而能够更准确地抽取用户对内容的兴趣区间。并且，也可以是，在本发明的兴趣区间抽取装置中，兴趣区间抽取单元将表示与多个指定时刻对应的多个兴趣区间的兴趣区间数据按照指定时刻的顺序进行排列，并向外部存储装置存储。根据这种结构，在生成按照指定时刻的顺序来呈现兴趣区间的动态图像的摘要动态图像的情况下，不需要进行从外部存储装置取得兴趣区间数据时的兴趣区间数据与时刻信息的对应处理，因而能够减轻摘要动态图像生成处理的负担。并且，也可以是，在本发明的兴趣区间抽取装置中，指定时刻取得单元根据包含于动态图像文件中且与用户指定的区间对应的图像数据各自的特征量的时间性变化，从该用户指定的区间中自动取得指定时刻。根据这种结构，仅通过用户大致指定包括想要设为指定时刻的时刻在内的区间，指定时刻取得单元即可从该用户指定的区间中自动取得指定时刻，因而能够减轻用户指定指定时刻时的负担。并且，也可以是，本发明的兴趣区间抽取方法根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取方法包括锚模型存储步骤，存储用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得步骤，取得指定时刻；似然度向量生成步骤，对于音频信号的每个单位区间，使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取步骤，根据似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。根据这种结构，仅通过用户指定指定时刻即可容易抽取兴趣区间。并且，也可以是，本发明的兴趣区间抽取程序是用于通过计算机实现兴趣区间抽取处理的程序，在该兴趣区间抽取处理中，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取处理包括锚模型存储步骤，存储用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得步骤，取得指定时刻；似然度向量生成步骤，对于音频信号的每个单位区间，使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取步骤，根据似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。根据这种结构，仅通过用户指定指定时刻即可容易抽取兴趣区间。本发明的兴趣区间抽取用集成电路根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取用集成电路具有锚模型存储部，预先存储有用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得部，取得指定时刻；似然度向量生成部，对于音频信号的每个单位区间，使用锚模型求出相对于表现音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取部，根据似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括指定时刻的候选区间的全部或者一部分候选区间作为兴趣区间。根据这种结构，能够实现所搭载的装置的小型化。

图I是说明安装了实施方式中的兴趣区间抽取装置的影像编辑装置的概况的图。图2是实施方式中的特征量向量的计算方法的说明图。图3是表示实施方式中的特征量向量的示例的图。图4是表示实施方式中的锚模型的示例的图。图5是表示实施方式中的似然度向量的示例的图。图6是安装了实施方式中的兴趣区间抽取装置的影像编辑装置的结构图。图7是实施方式中的兴趣区间抽取装置的功能框图。图8是实施方式中的分量分类部的动作说明图。图9是表示实施方式中的第I单位区间和第2单位区间的关系的图。图10是表示实施方式中的低频次向量和高频次向量的图。图11是表示实施方式中的基准向量/阈值生成部生成基准向量时的动作说明图。图12是表示实施方式中的基准向量/阈值生成部计算阈值时的动作说明图。图13是实施方式中的特征点抽取部的动作说明图。图14是用于说明实施方式的特征区间中所包含的高频次向量的图。图15是实施方式中的兴趣区间抽取部的动作说明图。图16是用于说明实施方式中的兴趣区间和第I特征区间和第2特征区间的关系的图。图17是用于说明实施方式中的兴趣区间和第I特征区间和第2特征区间的关系的图。图18是实施方式中的锚模型生成装置的功能框图。
具体实施例方式<实施方式>〈1> 概要本实施方式的兴趣区间抽取装置针对动态图像文件中所包含的音频信号的每个第I单位区间(10msec)，使用多种锚模型Ar分别生成以相对于表现音频信号的特征量的特征量向量的似然度为分量的似然度向量，将似然度向量的各个分量分类为两个分量组，根据属于各个分量组的分量计算第I特征区间(候选区间)和第2特征区间的结束时刻。例如，如图I所示，假设动态图像文件是拍摄了运动会的场景的图像文件。并且，假设用户想要进行从该动态图像文件中仅切取赛跑的开始时刻前后的预定长度的时间内的场景的编辑。在这种情况下，用户在指定赛跑场景中的开始时刻附近的时刻时，首先从相当于赛跑场景整体的第I特征区间中抽取包括指定时刻的一部分区间作为兴趣区间。并且，在本实施方式的兴趣区间抽取装置中，能够以如下方式抽取兴趣区间，SP，使在想要抽取为兴趣区间的区间内包括用于通知赛跑开始的鸣枪场景(图I中的第2特征区间)。另外，在本实施方式中，将第I单位区间的100倍的第2单位区间(Isce)作为最小单位来抽取兴趣区间。并且，在本实施方式中，适宜设定鸣枪场景等突发性的声音环境的持续时间，仅求出第2特征区间的结束时刻(特征点Tk)，将从该结束时刻开始追溯该持续时间后的时刻视为第2特征区间的开始时刻来进行处理。<2> 数据对在本实施方式的兴趣区间抽取装置中使用的数据进行说明。<2 - 1>动态图像文件动态图像文件由音频信号和多个图像数据构成。并且，音频信号具有如图2 (a)所示的波形。另外，音频信号指振幅值的时间序列。〈2 — 2>特征量向量下面，说明从音频信号生成特征量向量M的概况。首先，如图2 (a)所示，针对由声音抽取装置102抽取的音频信号的每个第I单位区间(从时刻Tn到时刻Tn +i之间的区间，IOmsec)计算功率谱S ( ω )(参照图2 (b))。然后，将功率谱S ( ω )的横轴从实际频率ω变换为元频率(参照图2 (C))。并且，根据横轴被变换为元频率ωκ1的功率谱S ( ωπε1)，计算由第I单位区间内的26个美尔频率倒谱系数MFCC (Mel — Frequency Cepstrum Coeff icients)构成的向量(下面称为特征量向量)。如图3所示,针对每个第I单位区间(每IOmsec)计算出该特征量向量M。因此,根据从时刻Osec到时刻Isec之间的音频信号生成100个特征量向量M。〈2 - 3> 锚模型本实施方式中的锚模型用于表现在计算似然度时作为基准的1024种音素的各自特征，是按照每个音素来生成的。并且，由规定各个锚模型的参数构成。在本实施方式中采用GMM (Gaussian Mixture Model :高斯混合模型)生成锚模型Ar。如图4所示，各个锚模型Ar利用与第I单位区间中的1024种音素分别对应的特征量出现概率函数(M)构成。其中，特征量出现概率函数是针对每个锚模型Ar而存在的概率函数，通过使用该特征量出现概率函数(M),将MFCC26次的向量(特征量向量)M作为自变量计算出似然度。另外，关于哪个锚模型对应于哪个音素没有予以区分。〈2 —4>似然度向量似然度向量F以似然度Lr为分量，该似然度Lr是使用与多个音素分别对应的锚模型Ar (r = 1、2、…、1024)，针对表现音频信号的特征量的特征量向量M而计算出的。因此，似然度向量利用1024维的向量进行表述。该特征量向量M如前述〈2 - 3>所述是针对由声音抽取装置102抽取的音频信号的每个第I单位区间而生成的。图5表示使用1024种音素的各个锚模型Ar计算出的似然度向量Fn、Fm (n〈m)。其中，图5中的纵轴表不似然度,横轴表不锚模型Ar的类型。似然度向量Fn、Fm表不与从时刻0开始的第n个第I单位区间(即，从时刻(IOXn) msec到时刻(IOX (n + I)) msec之间的区间)对应的似然度向量、和第m个第I单位区间(S卩，从时刻(IOXm) msec到时刻(10X (m + l))msec之间的区间)的似然度向量Fm (参照图2 (a))。该似然度向量F如图5所示根据作为对象的音频信号的时间性变化而变化。〈3> 结构安装了本实施方式的兴趣区间抽取装置104的影像编辑装置100如图6所示。<3 - 1>整体结构影像编辑装置100如图6所示具有输入装置101、内容存储装置103、声音抽取装置102、兴趣区间抽取装置104、兴趣区间存储装置105、输出装置106、锚模型生成装置108、声音数据存储装置130、接口装置109。输入装置101利用盘驱动装置等构成，在安装记录介质110后，从记录介质110读入动态图像文件并存储在内容存储装置103中。内容存储装置103利用硬盘装置等构成，存储输入装置101从记录介质110取得的动态图像文件。声音抽取装置102从内容存储装置103取得动态图像文件，从所取得的动态图像文件中抽取音频信号，并输入兴趣区间抽取装置104。在此，声音抽取装置102通过对被编码后的音频信号进行解码处理，生成如图2 Ca)所示的音频信号。输出装置106使在显示装置120显示影像。在此，输出装置106从兴趣区间存储装置105取得兴趣区间数据，根据所取得的兴趣区间数据从内容存储装置103选出构成动态图像文件的一部分的多个图像数据。即，选出与表示根据兴趣区间数据而确定的时刻的时刻数据相对应的多个图像数据。并且，输出装置106使外部的显示装置120显示按照与各个兴趣区间对应的指定时刻从早到晚的顺序将动态图像连接形成的摘要动态图像。声音数据存储装置130利用硬盘装置等构成，存储在锚模型生成装置108生成用于表现多种音素的各自特征的锚模型Ar时使用的声音数据。该声音数据由音频信号构成，该音频信号是预先从与作为抽取兴趣区间的对象的动态图像文件不同的多个动态图像文件中抽取并进行解码处理而得到的。接口装置109具有键盘等操作部(未图示)，具有受理来自用户的输入操作，并将输入的信息通知兴趣区间抽取装置104和锚模型生成装置108的功能。用户通过该接口装置109将与指定时刻和兴趣区间的长度相关的信息输入兴趣区间抽取装置104。<3 - 2>兴趣区间抽取装置兴趣区间抽取装置104由存储器(未图示)和处理器(未图示)构成，通过由处理器执行被读入到存储器中的程序，实现图7所示的各个构成要素。下面，对各个构成要素进行详细说明。<3 — 2 — 1>特征量向量生成部特征量向量生成部201从输入的首频信号生成特征量向量。该特征量向量生成部 201首先对从声音抽取装置102输入的音频信号按照每个第I单位区间进行音响分析，并计算出功率谱S (ω)。特征量向量生成部201根据计算出的功率谱S (ω)生成特征量向量M (Μ (1)、Μ (2)、…、M (26))。特征量向量生成部201生成100个的特征量向量M (参照图3)。〈3 — 2 — 2〉似然度向量生成部似然度向量生成部202使用各个音素的锚模型Ar计算相对于特征量向量M的似然度Lr，并生成以计算出的似然度Lr为各个分量的似然度向量F。似然度向量生成部202从锚模型存储部107取得构成锚模型Ar的各个参数。<3 - 2 - 3>似然度向量缓冲器似然度向量缓冲器203利用存储器的一部分区域构成，存储由似然度向量生成部202生成的似然度向量F。〈3 — 2 — 4〉分量分类部分量分类部205按照[数式I]的关系式，从似然度向量缓冲器203读出从音频信号的整体区间生成的全部似然度向量F，计算将这些似然度向量F的总和的各个分量除以整体区间中所包含的第I单位区间的数量而得到的值(重心向量G)。[数式I]
权利要求
1.一种兴趣区间抽取装置，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取装置具有锚模型存储单元，预先存储有用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得単元，取得所述指定时刻；似然度向量生成単元，对于音频信号的每个单位区间，使用所述锚模型求出相对于表现所述音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取単元，根据所述似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括所述指定时刻的所述候选区间的全部或者一部分候选区间作为兴趣区间。
2.根据权利要求I所述的兴趣区间抽取装置，其特征在于，所述兴趣区间抽取装置具有频次向量生成単元，该频次向量生成单元将所述单位区间作为第I単位区间，根据从长度为该第I単位区间的N倍的第2単位区间的音频信号生成的N个似然度向量生成频次向量，N为2以上的自然数，所述候选区间是根据所述频次向量而计算出的。
3.根据权利要求2所述的兴趣区间抽取装置，其特征在于，所述兴趣区间抽取装置具有分量分类单元，将所述频次向量的各个分量分类为多个分量组；以及特征区间计算単元，根据多个所述分量组分别计算多个特征区间，所述候选区间由多个所述特征区间确定。
4.根据权利要求3所述的兴趣区间抽取装置，其特征在于，所述分量分类单元根据音频信号的整体区间的似然度向量生成重心向量，根据该重心向量的各个分量的大小，将所述频次向量的各个分量分类为第I分量组和第2分量组，所述特征区间计算単元根据所述重心向量中的属于所述第I分量组的各个分量计算第I特征区间，根据所述重心向量中的属于所述第2分量组的各个分量计算第2特征区间，所述候选区间由所述第I特征区间和所述第2特征区间确定。
5.根据权利要求4所述的兴趣区间抽取装置，其特征在于，所述兴趣区间是包含于所述第I特征区间中且包含所述第2特征区间的区间。
6.根据权利要求5所述的兴趣区间抽取装置，其特征在于，所述兴趣区间抽取装置具有兴趣区间长度取得単元，取得用户预先设定的兴趣区间的长度；以及特征时刻抽取单元，从所述指定时刻开始使时刻每次错时所述第2单位区间，同时检索并提取包含于所述第2特征区间中的特征时刻，所述兴趣区间抽取单元，从所述指定时刻开始使时刻朝向由所述特征时刻抽取单元抽取的所述特征时刻每次错时所述第2単位区间，同时判定对象时刻是否属于所述第I特征区间、且该对象时刻与所述指定时刻之间的长度是否比预先设定的兴趣区间的长度短，在判定为对象时刻属于所述第I特征区间、且该对象时刻与所述指定时刻之间的长度比预先设定的兴趣区间的长度短时，将包括所述对象时刻的第2単位区间作为兴趣区间。
7.根据权利要求6所述的兴趣区间抽取装置，其特征在于，所述动态图像文件对应于表示ー个内容的动态图像。
8.根据权利要求7所述的兴趣区间抽取装置，其特征在于，所述兴趣区间抽取单元将与多个所述指定时刻对应的多个所述兴趣区间按照所述指定时刻的顺序进行排列，井向外部存储装置存储。
9.根据权利要求8所述的兴趣区间抽取装置，其特征在于，所述指定时刻取得単元根据包含于动态图像文件中且与用户指定的区间对应的图像数据各自的特征量的时间性变化，从该用户指定的区间中自动取得所述指定时刻。
10.一种兴趣区间抽取方法，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取方法包括锚模型存储步骤，存储用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得步骤，取得所述指定时刻；似然度向量生成步骤，对于音频信号的每个单位区间，使用所述锚模型求出相对于表现所述音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取步骤，根据所述似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括所述指定时刻的所述候选区间的全部或者一部分候选区间作为兴趣区间。
11.一种兴趣区间抽取程序，其是用于通过计算机实现兴趣区间抽取处理的程序，在该兴趣区间抽取处理中，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取处理包括锚模型存储步骤，存储用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得步骤，取得所述指定时刻；似然度向量生成步骤，对于音频信号的每个单位区间，使用所述锚模型求出相对于表现所述音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取步骤，根据所述似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括所述指定时刻的所述候选区间的全部或者一部分候选区间作为兴趣区间。
12.一种兴趣区间抽取用集成电路，根据动态图像文件中所包含的音频信号来抽取包括指定时刻的用户的兴趣区间，其特征在于，该兴趣区间抽取用集成电路具有锚模型存储部，预先存储有用于表现作为基准的多种音素各自的特征的锚模型；指定时刻取得部，取得所述指定时刻；似然度向量生成部，对于音频信号的每个单位区间，使用所述锚模型求出相对于表现所述音频信号的特征量的特征量向量的似然度，并生成以各个似然度为分量的似然度向量；以及兴趣区间抽取部，根据所述似然度向量计算成为兴趣区间的候选的候选区间，并抽取包括所述指定时刻的所述候选区间的全部或者一部分候选区间作为兴趣区间。
全文摘要
一种兴趣区间抽取装置(104)，根据动态图像文件中所包含的音频信号来抽取包括指定时刻(T0)的用户的兴趣区间，该兴趣区间抽取装置(104)具有接口装置(109)，取得指定时刻(T0)；似然度向量生成部(202)，对于音频信号的每个第1单位区间计算表现多种音素各自的特征的各个锚模型(Ar)的似然度，并生成以计算出的各个似然度为分量的似然度向量(F)；以及兴趣区间抽取部(209)，根据似然度向量(F)计算成为兴趣区间的候选的第1特征区间，并抽取包括指定时刻(T0)的第1特征区间的一部分区间作为兴趣区间。
文档编号G10L15/04GK102782750SQ20118001251
公开日2012年11月14日申请日期2011年10月28日优先权日2011年1月5日
发明者上野山努, 小沼知浩, 川西亮一申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：小沼知浩;川西亮一;上野山努
技术所有人：松下电器产业株式会社
我是此专利的发明人

上一篇：用于包括通用音频和语音帧的音频信号的解码器的制作方法
上一篇：社会网络中的数字媒体语音标签的制作方法