信号处理装置、信号处理方法及程序的制作方法

文档序号：2835961阅读：161来源：国知局

专利名称：信号处理装置、信号处理方法及程序的制作方法
技术领域：
本公开涉及信号处理装置、信号处理方法及程序，并且更具体地涉及能够从混合有乐曲和噪声的输入信号中识别该乐曲的信号处理装置、信号处理方法及程序。
背景技术：
在相关技术中，为了识别作为输入信号而输入的乐曲，进行将输入信号的特征量与作为要被识别的乐曲的候选的参考信号的特征量相匹配的匹配处理。然而，例如，当电视节目(诸如戏剧)的广播声源作为输入信号被输入时，该输入信号通常包括作为背景音乐 (BGM)的乐曲的信号分量以及除了该乐曲以外的诸如人类对话或噪声(环境噪声)的噪声分量(在下文中也被称为噪声)，并且由噪声导致的该输入信号的特征量的变化影响匹配处理的结果。因此，已经提出了如下技术该技术通过利用对输入信号的特征量中的低可靠性分量进行屏蔽的屏蔽模式而只使用高可靠性分量来进行匹配处理。特别地，已经提出了如下技术该技术准备与表示输入信号的特征量的特征矩阵的预定时频域相对应的、用于屏蔽矩阵分量的多种屏蔽模式，并且使用所有屏蔽模式来进行将该输入信号的特征量与数据库中的多个参考信号的特征量相匹配的匹配处理，从而将具有最高相似程度的参考信号的乐曲识别为输入信号的乐曲，其中该输入信号被转换为该时频域中的信号(例如，参见日本未审查专利申请公开2009-276776)。还提出了如下技术该技术假定输入信号中具有高平均功率的时间段的分量是叠加有除乐曲以外的噪声的分量，并且创建允许只使用输入信号中具有低平均功率的时间段的特征量来进行匹配处理的屏蔽模式(例如，参见日本未审查专利申请公开 2004-326050)。

发明内容
然而，由于难以预测输入信号中叠加了噪声的时间段和叠加了噪声的频率，并且也难以预先准备适合于这种输入信号的屏蔽模式，所以在日本未审查专利申请公开 2009-276776中公开的技术并未进行适当的匹配处理，而且不能以高精确度从混合了乐曲和噪声的输入信号中识别出该乐曲。在日本未审查专利申请公开2004-3^050中所公开的技术中，能够创建与输入信号相对应的屏蔽模式，但是由于没有考虑频率分量，因此很难说这个屏蔽模式是适合于该输入信号的屏蔽模式。如图1左侧所示，当时频域中的输入信号中的乐曲的信号分量Dm中包括了基于人类对话的噪声Dv的时候，日本未审查专利申请公开2004-3^050中所公开的技术能够仅使用人类对话中断的区域Sl和S2中的几个时间段的特征量来进行匹配处理，因而很难以高精确度从混合了该乐曲和噪声的输入信号中识别出该乐曲。为了以高精确度从混合了乐曲和噪声的输入信号中识别出该乐曲，优选地，应该使用如图1右侧所示的区域S3和S4中的该乐曲的信号分量Dm的特征量来进行匹配处理。
期望以高精确度从输入信号中识别乐曲。根据本公开的一个实施例，提供一种通过将输入信号与仅包括乐曲的多个参考信号进行比较而识别所述输入信号的乐曲的信号处理装置，所述信号处理装置包括权重分布生成部，用于生成与变换到时频域的所述输入信号的各区域中的音乐类似度对应的权重分布；以及相似度计算部，用于以基于所述权重分布的权重设置为基础，计算变换到所述时频域的所述输入信号的各区域中的特征量和变换到所述时频域的所述参考信号的各区域中的特征量之间的相似程度。所述权重分布生成部可以生成所述权重分布，所述权重分布通过基于表示所述音乐类似度的音乐度对所述音乐度大于预定阈值的区域进行权重设置来屏蔽所述音乐度不大于所述预定阈值的区域。所述信号处理装置可以进一步包括检测部，用于从所述输入信号中检测信号分量的功率谱为最大值的点；以及音乐度计算部，用于基于预定时间段中所述最大值点的出现频度计算所述音乐度。所述出现频度可以是每个频率的最大值点的出现频度。所述相似度计算部可以计算所述输入信号的特征量和所述多个参考信号的特征量之间的相似程度。在此情况下，所述信号处理装置可以进一步包括确定部，该确定部将各相似程度当中被计算出比预定阈值高的最高相似程度的参考信号的乐曲确定为所述输入信号的乐曲。所述相似度计算部可以计算所述输入信号的特征量和所述多个参考信号的特征量之间的相似程度。在此情况下，所述信号处理装置可以进一步包括确定部，该确定部将各相似程度当中被计算出比预定阈值高的相似程度的多个参考信号的乐曲确定为所述输入信号的乐曲。所述相似度计算部可以以基于所述权重分布的权重设置为基础，计算变换到所述时频域且与预定时间相对应的所述输入信号的各区域中的特征量和变换到所述时频域且与所述预定时间相对应的所述参考信号的各区域中的特征量之间的相似程度。根据本公开的另一个实施例，提供一种通过将输入信号与仅包括乐曲的多个参考信号进行比较而识别所述输入信号的乐曲的信号处理方法，所述信号处理方法包括生成与变换到时频域的所述输入信号的各区域中的音乐类似度对应的权重分布；以及以基于所述权重分布的权重设置为基础，计算变换到所述时频域的所述输入信号的各区域中的特征量和变换到所述时频域的所述参考信号的各区域中的特征量之间的相似程度。根据本公开的又一个实施例，提供一种使计算机执行通过将输入信号与仅包括乐曲的多个参考信号进行比较而识别所述输入信号的乐曲的信号处理过程的程序，所述信号处理过程包括生成与变换到时频域的所述输入信号的各区域中的音乐类似度对应的权重分布；以及以基于所述权重分布的权重设置为基础，计算变换到所述时频域的所述输入信号的各区域中的特征量和变换到所述时频域的所述参考信号的各区域中的特征量之间的相似程度。根据本公开的实施例，生成与变换到时频域的输入信号的各区域中的音乐类似度相对应的权重分布，并且以基于该权重分布的权重设置为基础，计算变换到时频域的输入信号的各区域中的特征量和变换到时频域的参考信号的各区域中的特征量之间的相似程度。根据本公开的实施例，可以以高精确度从输入信号中识别乐曲。

图1是示出用于匹配处理的输入信号的特征量的图。
图2是示出根据本公开实施例的信号处理装置的配置的框图。
图3是示出音乐度计算部的功能配置的框图。
图4是示出屏蔽模式生成部的功能配置的框图。
图5是示出乐曲识别处理的流程图。
图6是示出输入信号分析处理的流程图。
图7是示出输入信号的特征量的图。
图8是示出音乐度计算处理的流程图。
图9是示出音乐度计算的图。
图10是示出音乐度计算的图。
图11是示出屏蔽模式生成处理的流程图。
图12是示出屏蔽模式生成的图。
图13是示出参考信号分析处理的流程图。
图14是示出匹配处理的流程图。
图15是示出将输入信号的特征量与参考信号的特征量相匹配的匹配处理的图。
图16是示出计算机的硬件配置的框图。
具体实施例方式下文中将参考附图详细描述本公开的各实施例。根据本公开的实施例，提供了一种信号处理装置，用于通过将输入信号与仅包括乐曲的多个参考信号进行比较来识别所述输入信号的乐曲，所述信号处理装置包括权重分布生成部，用于生成与变换到时频域的所述输入信号的各区域中的音乐类似度对应的权重分布；以及相似度计算部，用于以基于所述权重分布的权重设置为基础，计算变换到所述时频域的所述输入信号的各区域中的特征量和变换到所述时频域的所述参考信号的各区域中的特征量之间的相似程度。根据本公开的实施例，提供了一种信号处理方法，用于通过比较输入信号与仅包括乐曲的多个参考信号来识别所述输入信号的乐曲，所述信号处理方法包括生成与变换到时频域的所述输入信号的各区域中的音乐类似度对应的权重分布；以及以基于所述权重分布的权重设置为基础，计算变换到所述时频域的所述输入信号的各区域中的特征量和变换到所述时频域的所述参考信号的各区域中的特征量之间的相似程度。信号处理装置的配置图2是示出根据本公开实施例的信号处理装置的配置的图。图2中所示的信号处理装置11通过将包括乐曲的信号分量以及诸如人类对话和噪声的噪声分量(噪声)的输入信号与不包括噪声而只包括乐曲的参考信号相比较，来识别输入信号的乐曲并输出识别结果。
信号处理装置11包括输入信号分析器31、参考信号分析器32和匹配部33。输入信号分析器31分析从外部装置等输入的输入信号，从输入信号中提取表示输入信号的特征的特征量，生成用于输入信号与参考信号的比较的屏蔽模式，并将所提取的特征量和该屏蔽模式提供给匹配部33。稍后将参考图12等描述生成屏蔽模式的细节。输入信号分析器31包括剪切部51、时频变换部52、特征量提取部53、音乐度计算部讨以及屏蔽模式生成部阳。剪切部51从到时频变换部52的输入信号中切出与预定时间相对应的信号片段，并将该信号片段提供给时频变换部52。时频变换部52将来自剪切部51的预定时间的信号片段变换为时频域中的信号 (谱图，spectrogram)，并将变换后的信号提供给特征量提取部53和音乐度计算部M。特征量提取部53从来自时频变换部52的输入信号的谱图中提取该谱图的每个时频区域的表示输入信号的特征的特征量，并将提取的特征量提供给匹配部33。音乐度计算部M基于来自时频变换部52的输入信号的谱图来针对该谱图的每个时频区域计算作为输入信号的音乐类似度指标的音乐度，并将计算出的音乐度提供给屏蔽模式生成部55。屏蔽模式生成部55基于来自音乐度计算部M的谱图的每个时频区域的音乐度来生成被用于将输入信号的特征量与参考信号的特征量相匹配的匹配处理的屏蔽模式，并将该屏蔽模式提供给匹配部33。参考信号分析器32分析存储在未示出的存储单元中的或从外部装置输入的多个参考信号，从这些参考信号中提取表示各个参考信号的特征的特征量，并将提取的特征量提供给匹配部33。参考信号分析器32包括时频变换部61和特征量提取部62。时频变换部61将参考信号变换为谱图，并将该谱图提供给特征量提取部62。特征量提取部62从来自时频变换部61的参考信号的谱图中提取该谱图的每个时频区域的表示参考信号的特征的特征量，并将提取的特征量提供给匹配部33。匹配部33通过使用来自输入信号分析器31的屏蔽模式进行将来自输入信号分析器31的输入信号的特征量与来自参考信号分析器32的参考信号的特征量相匹配的匹配处理，来识别输入信号中所包括的乐曲。匹配部33包括相似度计算部71和比较及确定部72。相似度计算部71使用来自输入信号分析器31的屏蔽模式来计算来自输入信号分析器31的输入信号的特征量和来自参考信号分析器32的多个参考信号的特征量之间的相似程度，并将计算出的相似程度提供给比较及确定部72。比较及确定部72将来自相似度计算部71的各相似程度当中被计算出高于预定阈值的最高相似程度的那个参考信号的乐曲确定为输入信号的乐曲，并且输出表示该参考信号的乐曲的属性的乐曲信息作为识别结果。音乐度计算部的配置下面将参考图3描述图2中所示的音乐度计算部M的详细配置。图3中所示的音乐度计算部M包括时间段选择部81、峰值检测部82、峰值出现频度计算部83、强调部84和输出部85。时间段选择部81在来自时频变换部52的输入信号的谱图中选择预定时间段的谱图，并将所选择的谱图提供给峰值检测部82。峰值检测部82针对由时间段选择部81选择的预定时间段的谱图中的每个时帧，检测信号分量的强度为最大值的峰值。峰值出现频度计算部83针对每个频率来计算由峰值检测部82检测到的峰值在预定时间段的谱图中的出现频度。强调部84进行强调由峰值出现频度计算部83计算出的出现频度的值的强调处理，并将结果提供给输出部85。输出部85存储被强调部84进行了强调处理的预定时间段的谱图的峰值出现频度。输出部85将全部时间段的谱图的峰值出现频度作为表示输入信号的音乐类似度的音乐度来提供(输出)给屏蔽模式生成部阳。这样，针对各时频区域中的每个预定时间段计算出具有每个单位频率的值(元素)的音乐度。屏蔽模式生成部的配置下面将参考图4描述图2中所示的屏蔽模式生成部55的详细配置。图4中所示的屏蔽模式生成部55包括提取部91、线性变换部92、分配部93、屏蔽部94和再采样部95。提取部91从来自音乐度计算部M的音乐度的元素中提取值大于预定阈值的元素，并将所提取的元素提供给线性变换部92。线性变换部92对由提取部91提取的元素的值进行预定的线性变换处理，并将结果提供给分配部93。分配部93将通过线性变换部92的预定线性变换处理而获得的值分配到时频域的音乐度中由提取部91提取的元素的周边元素。屏蔽部94屏蔽时频域的音乐度中未被提取部91提取的、且未被分配部93分配线性变换后的值的区域(元素)。再采样部95在时间方向上对被屏蔽了上述区域的时频域的音乐度进行再采样处理，从而与特征量提取部53所提取的输入信号的特征量的时间粒度(每个元素的时间段的大小)相对应。再采样部95将作为再采样处理结果而获取的音乐度作为被用于将输入信号的特征量与参考信号的特征量相匹配的匹配处理的屏蔽模式提供给匹配部33。信号处理装置的乐曲识别处理下面参考图5中所示的流程图来描述信号处理装置11中的乐曲识别处理。当包括要被识别的乐曲的输入信号被从外部装置等输入到信号处理装置11时启动该乐曲识别处理。该输入信号在时间上连续地被输入到信号处理装置11。在步骤S11，输入信号分析器31进行输入信号分析处理，从而分析从外部装置等输入的输入信号，从输入信号中提取输入信号的特征量，并生成用于输入信号与参考信号的比较的屏蔽模式。输入信号分析处理这里将参考图6中所示的流程图来描述图5中所示的流程图的步骤Sll中的输入信号分析处理的细节。在步骤S31，输入信号分析器31的剪切部51从输入信号中切出与预定时间(例如，15秒)相对应的信号，并将切出的信号提供给时频变换部52。
在步骤S32，时频变换部52将来自剪切部51的预定时间的输入信号变换为谱图，并将谱图提供给特征量提取部53和音乐度计算部M。时频变换部52可以进行频率轴变形(frequency axis distorting)处理，诸如以Mel比例来压缩谱图的频率分量的Mel频率变换处理。在步骤S33，特征量提取部53从来自时频变换部52的输入信号的谱图中提取该谱图的每个时频区域的特征量，并将所提取的特征量提供给匹配部33。更具体来说，特征量提取部53计算输入信号的谱图中每个预定时间段(例如，0. 25秒)的功率谱的平均值，将这些平均值归一化，并将这些平均值按时间序列的排列定义为特征量。图7是示出由特征量提取部53提取的特征量的图。如图7中所示，从输入信号的谱图中提取的输入信号的特征量S包括时间方向和频率方向上的元素(在下文中也称为分量)。特征量S中的方块(单元)分别代表每个时间和每个频率的元素，并且虽然图中未示出，但是特征量S中的方块(单元)具有作为特征量的值。如图7中所示，特征量S的时间粒度是0. 25秒。这样，由于从输入信号的谱图提取的输入信号的特征量具有每个时间和每个频率的元素，所以可以将特征量作为矩阵处理。特征量不局限于归一化的平均功率谱，也可以是稍后描述的音乐度或可以是通过将输入信号变换为时频域中的信号而获得的谱图本身。再次参考图6中所示的流程图，在步骤S34，音乐度计算部M基于来自时频变换部52的输入信号的谱图进行音乐度计算处理，以计算输入信号的谱图的每个时频区域的、作为输入信号的音乐类似度指标的音乐度。输入信号中音调的稳定性被用于音乐度计算处理中音乐度的计算。在此，音调被定义为代表每个频率的信号分量的强度(功率谱)。一般来说，由于在乐曲中具有特定音乐音高(频率)的声音持续预定的时间，所以音调在时间方向上是稳定的。另一方面，在人类对话中音调在时间方向上是不稳定的，并且环境噪声中罕有在时间方向上持续的音调。因此，在音乐度计算处理中，通过对预定时间段的输入信号中的音调的存在和稳定性进行数值转换，计算音乐度。音乐度计算处理下面，将参考图8中所示的流程图来描述图6中所示的流程图的步骤S34中的音乐度计算处理的细节。在步骤S51，音乐度计算部M的时间段选择部81在来自时频变换部52的输入信号的谱图中选择预定时间段的谱图(例如，15秒的输入信号中的第1秒)，并将所选择的谱图提供给峰值检测部82。在步骤S52，峰值检测部82针对时间段选择部81所选择的1秒的谱图中的每个时帧(时间元)来检测时频区域中每个频带的信号分量的功率谱(强度)为该频带附近的最大值的那个点，作为峰值。例如，在对应于1秒的乐曲的谱图中，由于具有特定频率的声音持续预定时间，所以如图9左侧所示，信号分量的峰值出现在特定频带中。另一方面，例如，在对应于一秒的人类对话的谱图中，由于人类对话的音调是不稳定的，所以如图10左侧所示，信号分量的峰值出现在各个频带中。
8
在步骤S53，峰值出现频度计算部83在一秒的谱图中计算每个频率由峰值检测部 82检测到的峰值在时间方向上的出现(存在)(在下文中称为峰值出现频度)。例如，当在一秒的谱图中检测到图9左侧所示的峰值时，这些峰值在时间方向上出现在固定频带中。因此，计算出如图9中央所示的具有固定频率的峰值的峰值出现频度。另一方面，例如，当在一秒的谱图中检测到图10左侧所示的峰值时，这些峰值在时间方向上出现在不同频带上。因此，计算出如图10中央所示的在时间方向上平缓的峰值出现频度。在计算峰值出现频度时，可以考虑持续预定时间或持续更久的峰值来计算峰值出现频度，即考虑峰值的长度来计算峰值出现频度。以这种方式计算出的每个频率的峰值出现频度可以作为一维矢量来处理。在步骤S54，强调部84进行用于强调由峰值出现频度计算部83计算出的峰值出现频度的强调处理，并将结果提供给输出部85。特别地，强调部84例如使用[-1/2，1，-1/2] 滤波器对表示峰值出现频度的矢量进行滤波处理。例如，当对图9中央所示的在固定频率处具有峰值的峰值出现频度进行滤波处理时，可以获得如图9右侧所示的具有被强调的峰值的峰值出现频度。另一方面，当对图10中央所示的具有在频率方向上平缓的峰值的峰值出现频度进行滤波处理时，可以获得如图10右侧所示的具有被削弱的峰值的峰值出现频度。强调处理不局限于滤波处理，还可以通过从峰值出现频度的值减去其附近的峰值出现频度的值的平均值或中值来强调峰值出现频率的值。在步骤S55，输出部85存储经过强调部84的强调处理的一秒钟谱图的峰值出现频度，并确定是否对所有时间段(例如，15秒)都进行了上述处理。当在步骤S55确定没有对所有时间段都进行上述处理时，处理流程返回到步骤 S51，并对下一时间段(一秒钟)的谱图重复步骤S51至S54的处理。可以如上所述对一秒钟时间段的谱图进行步骤S51至S54的处理，或者可以在把要被处理的谱图的时间段移位例如0. 5秒并且使要被处理的时间段的一部分与先前处理的时间段重叠的同时进行步骤 S51至S54的处理。另一方面，当在步骤S55确定对所有时间段都进行了上述处理时，处理流程前进到步骤S56。在步骤S56，输出部85将通过按时间序列排列所存储的每个时间段(一秒钟)的峰值出现频度(一维矢量)而获取的矩阵作为音乐度提供(输出)给屏蔽模式生成部阳，并且处理流程返回到步骤S34。这样，与由特征量提取部53提取的特征量类似地，从输入信号的谱图计算出的音乐度可以作为具有每个时间和每个频率的元素的矩阵来处理。在此，由特征量提取部53提取的特征量的时间粒度是0. 25秒，而音乐度的时间粒度是1秒。在进行图6中的步骤S34的处理之后，处理流程前进到步骤S35，并且屏蔽模式生成部55基于来自音乐度计算部M的音乐度进行屏蔽模式生成处理，并生成被用于将输入信号的特征量与参考信号的特征量相匹配的匹配处理的屏蔽模式。屏蔽模式生成处理下面将参考图11中所示的流程图来描述图6中所示的流程图中步骤S35的屏蔽模式生成处理的细节。在步骤S71，屏蔽模式生成部55的提取部91在来自音乐度计算部M的音乐度的各元素(分量)中提取值大于预定阈值的元素，并将所提取的元素提供给线性变换部92。例如，当从音乐度计算部M提供图12左上端所示的音乐度G作为音乐度时，提取部91在音乐度G的元素中提取值大于0. 3的元素。在此，在音乐度G的元素中，当关于音乐度G的左下元素在频率方向上的元素由f定义(其中f在1至8的范围内)并且在时间方向上的元素由u定义(其中u在1至3范围内)时，提取的元素Gfu是值为0. 8的元素G21 和(i22、值为0. 6的元素G71以及值为0. 5的元素(；63，并且获取图12左侧中央所示的音乐度 Gl作为结果。在步骤S72，线性变换部92对提取部91所提取的元素的值进行预定的线性变换处理，并将结果提供给分配部93。特别地，如果由χ定义线性变换处理之前的元素的值并且由y定义线性变换处理之后的元素的值，则对音乐度Gl中由提取部91提取的元素的值进行线性变换处理，以满足例如y = X-0. 3，从而获得图12左下端所示的音乐度G2。尽管上面陈述了对元素的值进行线性变换处理，但是也可以使用S形函数 (sigmoid function)等对元素的值进行非线性变换处理，或者通过进行二值化处理将元素的值变换为预定的二进制值。在步骤S73，分配部93把作为线性变换部92中的线性变换的结果而获得的值分配给与提取部91提取的元素所对应的时频区域属于同一时间段的周边区域。特别地，在图12左下端所示的音乐度G2中，值0. 5被分配给与值被变换为0. 5的元素G21所对应的区域属于同一时间段的相邻区域的元素，即元素G11和(；31。类似地，值0.5 被分配给与值被变换为0.5的元素(^2所对应的区域属于同一时间段的相邻区域的元素，即元素(；32和G12。值0. 3被分配给与值被变换为0. 3的元素G71所对应的区域属于同一时间段的相邻区域的元素，即元素(^61和(i81。值0. 2被分配给与值被变换为0. 2的元素G63所对应的区域属于同一时间段的相邻区域的元素，即元素G53和G73。这样，获得图12右上端所示的音乐度G3。在音乐度G3中，阴影区域中的元素的值是分配部93分配的值。在图12的音乐度G3中，通过线性变换部92中的线性变换获得的值被分配给与提取部91提取的元素所对应的时频区域属于同一时间段的相邻区域的元素。然而，可以将该值分配给进一步邻近于这些相邻区域的区域或者更进一步邻近于这些相邻区域的区域。在步骤S74，屏蔽部94屏蔽时频域的音乐度中未被提取部91提取的、且未被分配部93分配线性变换后的值的区域(元素)，即图12右上端所示的音乐度G3中的空白区域，从而获得图12右侧中央所示的音乐度G4。在步骤S75，再采样部95在时间方向上对被屏蔽了特定区域的音乐度进行再采样处理，从而与特征量提取部53提取的输入信号的特征量的时间粒度相对应。特别地，再采样部95通过在时间方向上对图12右侧中央所示的音乐度G4进行再采样处理，将时间粒度从1秒改变到0. 25秒，0. 25秒是输入信号的特征量的时间粒度。再采样部95将作为再采样处理结果而获得的音乐度作为图12右下端所示的屏蔽模式W来提供给匹配部33，并且处理流程返回到图6中所示的流程图中的步骤S35。
这样，在输入信号的谱图中，生成作为权重分布的屏蔽模式，在该权重分布中，具有高音乐度的区域被赋予基于音乐度的权重，音乐度是音乐类似度的指标，并且具有低音乐度的区域被屏蔽。与特征量提取部53所提取的特征量类似地，可以将屏蔽模式作为具有每个时间和每个频率的元素的矩阵来处理，并且时间粒度是0. 25秒，这等于特征量提取部 53提取的特征量的时间粒度。图6中所示的流程图中步骤S35之后的处理流程返回到图5中所示的流程图中的步骤Sll。在图5中所示的流程图中，步骤Sll之后的处理流程前进到步骤S12，并且参考信号分析器32进行参考信号分析处理，以分析从外部装置等输入的参考信号并从参考信号中提取参考信号的特征量。参考信号分析处理下面将参考图13中所示的流程图来描述图5中所示的流程图中步骤S12的参考信号分析处理的细节。在步骤S91，参考信号分析器32的时频变换部61将输入的参考信号变换为谱图，并将得到的谱图提供给特征量提取部62。在步骤S92，与特征量提取部53类似地，特征量提取部62从来自时频变换部61的参考信号的谱图中提取该谱图的各时频区域的特征量，并将所提取的特征量提供给匹配部 33。以这种方式提取的参考信号的特征量的时间粒度与输入信号的特征量的时间粒度(例如，0. 25秒)相同。输入信号的特征量与从输入信号切出的预定时间(例如，15秒) 的信号相对应，而参考信号的特征量与乐曲的信号相对应。因此，与输入信号的特征量类似地，可以将参考信号的特征量作为具有每个时间和每个频率的元素的矩阵来处理，但是参考信号的特征量在时间方向上具有比输入信号的特征量的元素更多的元素。此时，特征量提取部62从信号处理装置11中的数据库(未示出)中读取表示每个参考信号的乐曲的属性的乐曲信息(如，乐曲名称、音乐家名字和乐曲ID)，将读取的乐曲属性信息与提取的参考信号的特征量相关联，并且将关联结果提供给匹配部33。在参考信号分析处理中，对多个参考信号进行上述处理。匹配部33将多个参考信号的特征量和乐曲属性信息存储在匹配部33中的存储区(未示出)中。多个参考信号的特征量和乐曲属性信息可以存储在信号处理装置11中的数据库 (未示出)中。图13中所示的流程图中步骤S92之后的处理流程返回到图5中所示的流程图中的步骤S12。图5中所示的流程图中步骤S12之后的处理流程前进到步骤S13，并且匹配部33 进行匹配处理以识别输入信号中所包括的乐曲，并且输出识别结果。匹配处理下面将参考图14中所示的流程图来描述图5中所示的流程图中步骤S13的匹配处理的细节。在步骤Sl 11，匹配部33的相似度计算部71基于来自输入信号分析器31的屏蔽模式而计算来自输入信号分析器31的输入信号的特征量与从参考信号分析器32提供的且存储在匹配部33中的存储区(未示出)中的预定参考信号的特征量之间的相似程度，并将计算出的相似程度提供给比较及确定部72。当参考信号的特征量和乐曲属性信息存储在未示出的数据库中时，从该数据库中读取预定参考信号的特征量和乐曲属性信息。下面将参考图15来描述计算输入信号的特征量和参考信号的特征量之间的相似程度的示例。在图15中，上端示出参考信号的特征量L，左下端示出输入信号的特征量S，而右下端示出屏蔽模式W。如上所述，可以将它们作为矩阵来处理。如图15中所示，参考信号的特征量L在时间方向上的分量数目大于输入信号的特征量S在时间方向上的分量数目(输入信号S在时间方向上的分量数目等于屏蔽模式W在时间方向上的分量数目)。因此，在计算输入信号的特征量和参考信号的特征量之间相似程度时，相似度计算部71从参考信号的特征量L顺序切出在时间方向上与输入信号的特征量 S具有相同分量数目的子矩阵A，同时在时间方向上(向图中的右侧)移位该子矩阵(产生时间方向上的偏移量)，并计算子矩阵A和输入信号的特征量S之间的相似程度。在此，如果切出子矩阵A时在时间方向上的偏移量为t，则由表达式1来表示相似程度R(t)。表达式1
权利要求
1.一种信号处理装置，用于通过将输入信号与仅包括乐曲的多个参考信号进行比较来识别所述输入信号的乐曲，所述信号处理装置包括权重分布生成部，用于生成与变换到时频域的所述输入信号的各区域中的音乐类似度对应的权重分布；以及相似度计算部，用于以基于所述权重分布的权重设置为基础，计算变换到所述时频域的所述输入信号的各区域中的特征量和变换到所述时频域的所述参考信号的各区域中的特征量之间的相似程度。
2.根据权利要求1所述的信号处理装置，其中，所述权重分布生成部生成下述权重分布，所述权重分布通过基于表示所述音乐类似度的音乐度对所述音乐度大于预定阈值的区域进行权重设置来屏蔽所述音乐度不大于所述预定阈值的区域。
3.根据权利要求2所述的信号处理装置，进一步包括检测部，用于从所述输入信号中检测信号分量的功率谱为最大值的点；以及音乐度计算部，用于基于预定时间段中最大值点的出现频度计算所述音乐度。
4.根据权利要求3所述的信号处理装置，其中，所述出现频度是每个频率的最大值点的出现频度。
5.根据权利要求1所述的信号处理装置，其中，所述相似度计算部计算所述输入信号的特征量和所述多个参考信号的特征量之间的相似程度，并且其中，所述信号处理装置进一步包括确定部，所述确定部将各相似程度当中被计算出比预定阈值高的最高相似程度的参考信号的乐曲确定为所述输入信号的乐曲。
6.根据权利要求1所述的信号处理装置，其中，所述相似度计算部计算所述输入信号的特征量和所述多个参考信号的特征量之间的相似程度，并且其中，所述信号处理装置进一步包括确定部，所述确定部将各相似程度当中被计算出比预定阈值高的相似程度的多个参考信号的乐曲确定为所述输入信号的乐曲。
7.根据权利要求1所述的信号处理装置，其中，所述相似度计算部以基于所述权重分布的权重设置为基础，计算变换到所述时频域且与预定时间相对应的所述输入信号的各区域中的特征量和变换到所述时频域且与所述预定时间相对应的所述参考信号的各区域中的特征量之间的相似程度。
8.一种信号处理方法，用于通过比较输入信号与仅包括乐曲的多个参考信号来识别所述输入信号的乐曲，所述信号处理方法包括生成与变换到时频域的所述输入信号的各区域中的音乐类似度对应的权重分布；以及以基于所述权重分布的权重设置为基础，计算变换到所述时频域的所述输入信号的各区域中的特征量和变换到所述时频域的所述参考信号的各区域中的特征量之间的相似程度。
9.一种使计算机执行通过将输入信号与仅包括乐曲的多个参考信号进行比较来识别所述输入信号的乐曲的信号处理过程的程序，所述信号处理过程包括生成与变换到时频域的所述输入信号的各区域中的音乐类似度对应的权重分布；以及以基于所述权重分布的权重设置为基础，计算变换到所述时频域的所述输入信号的各区域中的特征量和变换到所述时频域的所述参考信号的各区域中的特征量之间的相似程度。
全文摘要
本公开提供了信号处理装置、信号处理方法及程序。该信号处理装置通过将输入信号与仅包括乐曲的多个参考信号进行比较来识别输入信号的乐曲，该信号处理装置包括权重分布生成部，用于生成与变换到时频域的输入信号的各区域中的音乐类似度对应的权重分布；以及相似度计算部，用于以基于该权重分布的权重设置为基础，计算变换到时频域的输入信号的各区域中的特征量和变换到时频域的参考信号的各区域中的特征量之间的相似程度。
文档编号G10L11/00GK102568474SQ20111032998
公开日2012年7月11日申请日期2011年10月21日优先权日2010年10月29日
发明者东山惠祐, 安部素嗣, 澁谷崇申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：澁谷崇;东山惠祐;安部素嗣
技术所有人：索尼公司
我是此专利的发明人