用于对音乐进行分类的方法

文档序号：6656395阅读：369来源：国知局

专利名称：用于对音乐进行分类的方法
技术领域：
本发明涉及一种用于对音乐进行分类的方法。本发明尤其涉及一种用于自动检测音乐基调(mood)的方法。
最近几年中出现了所谓的移动音乐播放器，由于这些移动音乐播放器仍在增大允许存储非常大数量的存储项的存储能力，所以这些移动音乐播放器能够提供可比较的大量音乐或可比较的大量音乐片段。但是，这些移动音乐播放器就对所存储的音乐片段的选择和分类过程而言有时不太方便。有时，要由这种移动音乐播放器的用户进行的音乐片段的分类和/或选择过程变得困难。
因此，本发明的目的是提供一种用于对音乐进行分类的方法，该方法能够以简单的方式可靠地提供未分类的音乐片段的分类。
该目的通过根据独立权利要求1的第一解决方案和根据独立权利要求31的第二解决方案的用于对音乐进行分类的方法来实现。用于对音乐进行分类的本发明方法的优选实施方案在从属权利要求的范围内。该目的此外通过分别根据权利要求41、42和43的用于对音乐进行分类的系统、相应的计算机程序产品以及计算机可读存储介质来实现。
根据该目的的第一解决方案的用于对音乐进行分类的本发明方法包括以下步骤(a)提供音乐分类数据，这些音乐分类数据描述有限数量的音乐种类的离散和有限集合，(b)提供要分类的未分类的音乐片段，以及(c)针对所述音乐种类集合的所述音乐种类中的每一个导出关于所述要分类的未分类的音乐片段的相应Gish距离值，从而得到有限数量的Gish距离值的离散和有限集合，其中所述有限数量的Gish距离值的有限集合描述所述要分类的未分类的音乐片段与所述有限数量的音乐种类的离散和有限集合的关系。
另外，可以包括一个另外的步骤(d)，根据该步骤，在所述Gish距离值集合中，确定至少一个最小Gish距离值，并且因此确定所述音乐种类集合中的对应于所述最小Gish距离值的显著的最小化音乐种类。
此外，可以包括步骤(e)将所述最小化音乐种类选择为所述要分类的未分类的音乐片段的特征种类。
因此，本发明的一个主要思想是从所提供的音乐种类中导出关于所述未分类的音乐片段的相应Gish距离值，以及从由此所收集的Gish距离值集合中得到关于所述未分类的音乐片段的相应Gish距离值。
另外，可以优选地得到最小Gish距离值并且由此得到表征该未分类的音乐片段的、使Gish距离值最小化的音乐种类形式的显著特征种类。
根据本发明的优选实施方案，Gish距离值根据等式(1)来计算Dj:=D(s.cj)def=log(L(s|m(s))·L(cj|m(cj))L(s+cj|m(s+cj)))---(1)]]>其中j＝1，...，n。在等式(1)中，s表示要分类的未分类的音乐片段或其一部分。符号+表示相应音乐片段或其部分的拼接操作。符号cj(其中j＝1，...，n)表示相应音乐种类或其代表或其代表的一部分。符号m(·)表示关于相应音乐片段的相应模型或模型构建操作。符号L(x|y)表示当给出模型y时观察到音乐片段x、数据集x、或其一部分x的似然性。
优选的是将高斯密度模型用作模型m(·)。
优选地，只使用一个单个全协方差高斯密度。
另外地或替代地，可以将多变量模型用作模型m(·)。
根据本发明的一个优选的并且有利的实施方案，所述提供所述音乐分类数据的步骤(a)是或包括接收和/或产生所述音乐分类数据或其一部分的过程或所述过程的一部分。
另外地或作为一种替代方案，所述提供要分类的未分类的音乐片段的步骤(b)可以包括尤其从外部源接收所述要分类的未分类的音乐片段或其一部分的过程或所述过程的一部分。
所述音乐分类数据和/或模型m(·)可以基于完整的歌曲或完整的音乐片段或基于其特征部分。
另外的优点是所述导出所述Gish距离值的步骤(c)和/或所述检测所述最小Gish距离值的步骤(d)构建或包括将所述要分类的未分类的音乐片段或其所述相应部分与多个或全部音乐种类进行比较并且由此在由所述音乐分类数据所限定的并且尤其是由所述音乐种类所限定的基调空间中定位所述未分类的音乐片段或其所述相应部分的过程。
根据本发明的另一有利的实施方案，用于对音乐进行分类的本发明方法包括提供歌曲分类数据的步骤(f)，这些歌曲分类数据描述所述要分类的未分类的音乐片段或其相应部分与所述音乐种类之间的关系并且因此根据所述音乐种类对所述未分类的音乐片段或其相应部分进行分类。
根据本发明的另一优选实施方案，可以对所述音乐片段和/或其部分进行采样。
在这种情况下，可以使用大约22kHz的采样频率。
此外，因此所述音乐片段和/或其部分可以被分割成帧。
在这种情况下，可以使用大约32ms的帧长度。
另外地或替代地，可以使用约为50ms的帧速率。
另外地或替代地，可以在计算相应的FFT之前对每一帧加汉明窗。
根据另一优选的并且有利的实施方案，从相应的FET可以得出相应的功率谱，并且可以将该相应的功率谱向量用作特征向量计算的基础。
在这种情况下，所述特征向量可以被梅尔刻度弯曲(melscalewarped)。
优选地，可以使用30个梅尔刻度系数。
而且，所述梅尔刻度系数可以被对数化(logarithmized)。
在这种情况下，所述对数化的梅尔刻度系数可以经受离散傅里叶反变换。
从所述对数化的梅尔刻度系数的离散傅里叶反变换可以得出每一帧的(尤其是13个)倒频谱系数的集合。
从所述每一帧的倒频谱系数的集合可以计算出一个或任意多个频谱中心、频谱流量和频谱滑动。
所述频谱中心的、所述频谱流量的和/或所述频谱滑动的方差可以被计算。
在这种情况下，所述频谱中心的、所述频谱流量的和/或所述频谱滑动的所述方差可以在具有Q个相邻帧的窗口的范围内被计算，其中尤其是Q的范围是5-20。
有利地，所述方差被视作参数。
根据另一优选实施方案，根据所述Gish距离值集合，导出所述要分类的音乐片段或其所述部分的、尤其是具有至少三个数的n元组形式的音乐分类数据。
本发明第一方法的另一有利实施方案包括(f)为要分类的给定音乐片段获得/提供代表所述音乐片段或其所述部分的基调的、具有至少三个数的n元组形式的音乐分类数据以及(g)从所述音乐分类数据的所述n元数组中确定代表所述音乐片段或其所述部分的基调的一对二维坐标值的步骤。
根据所述目的的第二解决方案的用于对音乐进行分类的本发明方法包括(f)为要分类的给定音乐片段获得/提供代表所述音乐片段或其所述部分的基调的、具有至少三个数的n元组形式的音乐分类数据以及(g)从所述音乐分类数据的所述n元数组中确定代表所述音乐片段或其所述部分的基调的一对二维坐标值的步骤。
另外地或替代地，笛卡尔坐标和/或极坐标可以被用作二维坐标值。
此外，三个一组的数可以被用作所述n元数组。
优选地，所述三个一组的数由所述音乐片段或其所述部分的三个基调值构成。
在这种情况下，根据所述音乐片段或其所述部分，所述基调值分别被选择用于对基调“高兴的”、“悲伤的”和“积极的(aggressive)”进行分类。
在本发明方法的优选实施方案中，根据下式确定作为二维坐标值的笛卡尔坐标x＝j·cos(π/6)-s·cos(π/6) (1a)y＝α-j·sin(π/6)-s·sin(π/6)(1b)-其中x，y分别表示所述第一和第二笛卡尔坐标值，以及-其中j，s，a分别表示所述音乐片段或其所述部分的所述音乐分类数据的、尤其是标准化形式的并且此外尤其是分别相对于所述基调“高兴的”、“悲伤的”和“积极的”的所述第一个、第二个和第三个数。
根据本发明方法的另一实施方案，根据下式确定作为二维坐标值的极坐标r=x2+y2---(2a)]]>φ=12π·arctan(y/x)---(2b)]]>-其中r，φ分别表示极半径和极角坐标值，以及-其中x，y表示尤其是根据等式(1a)、(1b)的二维笛卡尔坐标值。
根据尤其是标准化形式的二维坐标值，可以产生描述颜色的一个或多个颜色值，这些值描述所述音乐片段或其所述部分的基调。
在这种情况下，这个颜色值和/或这些颜色值可以根据HSV系统来确定。
尤其是，这个颜色值和/或这些颜色值可以根据所述HSV系统按下式来确定h＝φ (3a)s＝r(3b)v＝1.0，(3c)-其中h，s，v分别表示HSV颜色值色调、饱和度、和值，以及-其中r，φ分别表示尤其是根据等式(2a)、(2b)的二维极半径和极角坐标值。
根据本发明的另一方面，提供了一种用于对音乐进行分类的系统，该系统被适配和/或被布置并且该系统包含装置，以便实现用于对音乐进行分类的本发明方法及其步骤。
根据本发明的另一方面，提供了一种包括计算机程序装置的计算机程序产品，该计算机程序产品被布置和/或被适配，以便当它在数字信号处理装置或计算机上被执行时实现用于对音乐进行分类的本发明方法或用于对音乐进行分类的本发明步骤。
本发明的又一方面是提供一种包含本发明计算机程序产品的计算机可读存储介质。
在下文中，通过参考下列评论，本发明的这些和其它方面将变得更加清楚
本发明尤其涉及用于自动检测音乐基调的方法和装置。
随着提供用于非常多的音乐片段的巨大存储能力、但具有不允许包含屏幕或键盘的形状因素和尺寸的移动音乐播放器的发展，音乐选择问题变得越来越重要。在许多调查中，用户已表现出将他们的心情或音乐基调用作音乐选择的选择标准的偏爱。但是，音乐基调是到目前为止需要人工标记的概念，如果大规模地执行，则人工标记是极其麻烦和昂贵的。我们提出一种系统，该系统能够自动地确定任何音乐片段的基调并自动地为音乐分配基调标签。
自动从音乐得出基调的大多数尝试均限于符号数据(例如音乐的MIDI表示)。但是，大多数音乐不能以符号形式得到，因此这种方法的可用性非常有限。微软研究中心的Dan Liu、Lie Lu和Hong-JiangZhang创建了(据我们所知)唯一的处理古典音乐的这种系统。与我们的系统相比，他们的系统使用基调的Thayer模型并且采用分级结构，这使用户适应已经训练过的系统变得不可能并且也使得引入新的基调种类变得非常困难[1]。
目前没有从大的歌曲集(数据库)中选出一首歌的快速且可靠的方法。分级的、基于列表选择的、基于选择并点击的图形范例的方法需要几种基本操作并且麻烦，而语音命令选择是直接且简单的，但具有高的语音识别误差率。另外，在许多情况下，用户对为新音乐体验而研究给定的数据库有强烈的兴趣，而这在选择已知的音乐片段的情况下不能以任何选择范例来实现。
本发明的一个目的是简化用于浏览音乐数据库并从该音乐数据库中选择歌曲的容易且直观的方法，而无需昂贵且费时地为该数据库中的歌曲人工创建元数据。
这种能够自动地确定音乐基调的系统能被分解成三个子系统选择学习集，创建基调模型，以及利用预先计算出的基调模型确定给定音乐的基调。主要的发明步骤在第三子系统中，而一些附加的相关的和新颖的扩展在第一子系统中。
在所述第一子系统中，代表基调的学习集被选择。在最简单的形式中，这能够通过为每个所期望的基调类别选择一些音乐片段来完成。例如，如果期望有三种基调类别[高兴的、积极的、悲伤的]，则这可以通过为这三个类别中的每一个选择多首(例如N＝10)歌曲来完成10首高兴的歌曲、10首悲伤的歌曲、和10首积极的歌曲。在最简单的方案中，这是所需要的全部。然而，将整首歌曲视为给定基调的代表会使人误解。例如，虽然许多歌曲的一些部分(在许多情况下开头)相当悲伤，可是主要部分是积极的(合唱部分，或就与该歌曲的剩余部分的平均相似性而言最有代表性的部分，或包含歌唱的部分)，它们仍被归类为积极的。因此，有利的是仅从歌曲中提取一部分以便创建基调模型，而不是取整首歌。然而，如果实现了这种方案，那么重要的是在所述第三子系统中使用相同的方案，其中将未知歌曲与该基调模型进行比较；因此，只能使用用于提取歌曲的相关部分的自动装置。尤其是，在SSG的早期的专利申请中已经描述了一种提取音乐的相关部分的系统，并且本发明的教导能够被用于此目的。在另一从属权利要求中，应当注意，每种情绪的音乐片段的选择将最终决定整个系统的工作方式，因此，该选择能够由用户访问以便使该系统适配于其个人品位。例如，在这种情况下，用户能够例如将一首歌添加到任一类别中，然后该系统将重新训练模型。这允许用户在该系统中实现他或她自己的基调感觉(用户适配)，而无需以任何方式改变所述系统的结构。
所述三个子系统中的第二子系统根据先前所确定的音乐片段集(根据在所述第一子系统中所使用的提取方法，该音乐片段集可以是由系统开发者或用户手选的音乐片段的部分或全部)计算基调模型。音乐被采样(已经证明22kHz的采样频率足够了)，因此如果应减少存储，那么44.1kHz的立体声片段能够被下采样为22kHz，并且立体声通道能够被组合成一个单通道，并分割成32ms长的帧，其中帧速率为50ms。当然可以使用其它帧速率和帧长度。对每一帧加汉明窗，并计算FFT。根据该FFT得出功率谱。该功率谱向量用作特征向量计算的基础。首先，像在语音识别中一样，将它们梅尔刻度弯曲(参见相关文献)为30个梅尔刻度系数、对数化，并计算反DFT变换，从而产生每一帧的具有13个倒频谱系数的集合。其次，计算所述频谱中心、频谱流量和/或频谱滑动，并且它们在具有Q个相邻帧的窗口的范围内的方差被视作参数，其中Q的典型值的范围为5-20。频谱中心、频谱流量和频谱滑动均在文献[2]中被解释。
针对每个种类(悲伤、高兴等等)，得到这样所计算的参数向量，并且根据它以最大似然形式计算一个单个全协方差高斯密度。所产生的正态分布用作基调识别器的三个子系统中的第三子系统的基调模型。
所述三个子系统中的第三子系统获得基调模型(每个都是多变量高斯密度)的集合和未知的音乐片段，并通过比较每个基调模型和从该未知音乐片段导出的基调模型的相似性来计算该未知音乐片段的基调。为了实现这一点，首先在前两个子系统中将该未知音乐片段处理为训练集音乐如果合适，则在所述第一子系统中提取出其最相关的部分，然后在所述第二子系统中进行预处理并在所述第三子系统中计算多变量高斯密度。结果就是未知歌曲的多变量高斯密度。使用该模型和预先计算出的基调模型，利用所谓的Gish距离D来计算未知模型和基调模型之间的距离D(s1,s2)def=log(L(s1|m(s1))·L(s2|m(s2))L(s1+s2|m(s1+s2)))·---(2)]]>其中符号L(sX|m(sX))表示对于X＝1，2，观察到sX的给定多变量高斯密度模型m(sX)的数据序列sX的似然性。符号m(s1+s2)表示为歌曲或音乐片段或声音s1和s2的拼接所创建的模型。符号s1+s2表示歌曲或音乐片段或声音s1和s2的拼接。如果如迄今为止所提出的那样为单个高斯正态密度m或单个高斯正态密度模型m计算等式(2)，那么存在一个有效的公式，其中当s1是未知歌曲并且s2是当前基调的训练集歌曲的所有相关部分或歌曲的拼接时，无需存储这些歌曲或音乐片段或声音s1和s2。当然，可以使用其它模型来计算等式(2)中的项。然而，在这种情况下，公式的评价是明显更繁重的。
在针对所有基调模型评价了等式(2)之后，选择所产生的三个距离中的最小距离并将产生了该最小距离的基调模型选择作为音乐片段的暂定基调。也可以并且非常有用的是根据到所述基调模型的距离建立标准化向量。根据例如三种基调，所产生的三维向量在“基调空间”中给出一个坐标，该基调空间可被用于利用一个或多个基调轴来导航并定位歌曲。所产生的空间是高度不均匀分布的，各个维完全不独立，因此有利的是在目标空间中计算使变换(PCA，或Karhunen-Loewe变换)标准化并且对数化的方差，利用大的测试歌曲集来计算该变换。在坐标变换之后，所产生的空间能够适当地被用于在音乐基调空间中导航。还必须记住的是，Euclidean距离即使在变换后的空间中也不是一个量度，因为它由于等式(2)的Gish距离的特性而不总是满足三角不等式。
所提出的本发明允许在相对短的时间内并利用适度的计算资源自动生成具有非常高的质量的音乐基调标记。所述系统能够被扩展为仅集中于音乐的部分，并且基调个人观念的个性化是容易的，以便能够处理任何给定音乐片段的个人感觉差异。基调空间能够自动地被构建，该基调空间允许在该基调空间内定位歌曲并且该基调空间因此能够被用于音乐选择。
问题为了将所提供的歌曲基调数据(每首歌曲的至少三个、尤其是无限的、无符号的数)转换为线性可视界面。
解决方案概述从“库”(歌曲集)中为每首歌曲输入三个“基调”值；这些值在内部被称为“高兴的”、“悲伤的”和“积极的”。根据该库中的最大和最小值将这些值标准化，因此各自具有
的值，并被存储在数据库中。
接着，通过首先将这三个“基调”值转换成笛卡尔坐标并且然后从笛卡尔坐标转换成极坐标，将每首歌曲映射到一种颜色上。
从歌曲“基调”值到笛卡尔坐标的转换利用下面的公式来完成x＝j·cos(π/6)-s·cos(π/6)和y＝α-j·sin(π/6)-s·sin(π/6)，其中“x”是横坐标，“y”是纵坐标，“j”是歌曲“高兴的”值，“s”是歌曲“悲伤的”值，“a”是歌曲“积极的”值。
从笛卡尔坐标到极坐标的转换利用下面的(标准)公式来完成r=x2+y2]]>以及φ=12π·arctan(y/x),]]>其中“r”是半径，“φ”是弧度角，“x”是横坐标，“y”是纵坐标。
半径值通过所述库被标准化到范围
。然后利用HSV颜色系统将这个标准化的极坐标映射为一种颜色。所述HSV颜色系统用3个值来定义颜色；这些值是色度
、饱和度
和值
。
值颜色通过下面的公式来确定h＝φ，s＝r，v＝1.0，其中“h”是色度，“s”是饱和度，“v”是值，“r”是半径，“φ”是弧度角。
总结通过将歌曲的三个“基调”值映射到二维中、然后映射到颜色空间中，可以用色度(即歌曲“基调”)和饱和度(即歌曲“基调”强度)来对歌曲库进行导航。较饱和的颜色指示具有高强度的特定“基调”的歌曲。它还允许用户利用仅仅使用2个输入值的界面以简单的方式对所述库进行导航。
本发明的这些和其它方面将通过参考附图进一步进行论述。

图1是描述用于对音乐进行分类的本发明方法的一个优选实施方案的一些基本特征的流程图。
图2、3是用于说明二维和彩色映射的基本思想的二维和着色表示。
图1的用于对音乐进行分类的本发明方法的示意性描述的实施方案包括连续的第一至第五处理步骤(a)-(e)。
在第一步骤(a)中，提供音乐分类数据MCD。这些音乐分类数据可以至少部分地由音乐种类c1，...，cn的集合Γ来给出。在最简单的情况下，这些音乐种类c1，...，cn可以是音乐的样本片段，每个样本片段都是不同的音乐基调或音乐种类的实例。所述音乐分类数据还可以基于对样本片段或对给定种类c1，...，cn的狭义评价和分类过程。这种狭义评价在上面已经描述过了。
在接着的第二步骤(b)中，提供必须按照用于对音乐进行分类的本发明方法来分类的未分类的音乐片段s。
根据该未分类的音乐片段s，在接着的第三步骤(c)中，导出Gish距离值Dj＝D(s，cj)(其中j＝1，...，n)的集合ΓΓ＝{D1，...，Dn}。
在接着的第四步骤(d)中，将最小Gish距离值Djmin检测为所述集合Γ的最小值Djmin＝min{D1，...，Dn}。
最后，在第五步骤(e)中，不同的音乐种类cjmin被检测并被选择为要分类的所述未分类的音乐片段s的表征种类cs。cjmin是来自音乐种类c1，...，cn的集合Γ的不同种类，针对该种类获得所述最小Gish距离值Djmin。该未分类的音乐片段s能够被称为不同分类音乐种类cjmin的下一相邻种类，反之亦然。还可以根据所检测到的Gish距离值的相应阈值条件通过包含一定数量的下一相邻种类的Γ的子集对所述未分类的音乐片段s进行分类。在这种情况下，基于多个音乐种类的表征可以更完善，并且可以包含用于要分类的音乐片段s的更好的信息和分类。
图1和2是用于说明二维和彩色映射的基本思想的二维和着色表示。
参考符号cj 音乐种类，j＝1，...，ncjmin 最小化音乐种类cs 特征种类Dj Gish距离值，j＝1，…，nDjmin 最小Gish距离值MCD音乐分类数据s 要分类的未分类的音乐片段SCD歌曲分类数据Γ 音乐种类集合Δ Gish距离值集合所引用的文献[1]Dan Liu，Lie Lu，H.J.Zhang在Proceedings ISMIR 2003中发表的Automatic Mood Detection from Acoustic Music Data，Baltimore，MD。George Tzanetakis和Perry Cook在IEEE Transactions onspeech and audio processing中发表的Musical GenreClassification of Audio Signals，第10卷，第5期，2002年7月。
权利要求
1.用于对音乐进行分类的方法，包括以下步骤(a)提供音乐分类数据(MCD)，这些音乐分类数据描述有限数量(n)的音乐种类(c1...，cn)的离散和有限集合(Γ)，(b)提供要分类的未分类的音乐片段(s)，(c)针对所述音乐种类的集合(Γ)的所述音乐种类(c1...，cn)中的每一个，导出关于所述要分类的未分类的音乐片段(s)的相应Gish距离值(D1...，Dn)，从而得到有限数量(n)的Gish距离值(D1...，Dn)的离散和有限集合(Δ)，其中所述有限数量(n)的Gish距离值(D1...，Dn)的有限集合(Δ)描述所述要分类的未分类的音乐片段(s)与所述有限数量(n)的音乐种类(c1...，cn)的离散和有限集合(Γ)的关系。
2.根据权利要求1的方法，进一步包括步骤(d)在所述Gish距离值(D1...，Dn)的集合(Γ)中检测至少一个最小Gish距离值(Djmin)，并且尤其是由此在音乐种类(c1...，cn)的集合(Γ)中确定对应于所述最小Gish距离值(Djmin)的显著的最小化音乐种类(cjmin)。
3.根据权利要求2的方法，进一步包括步骤(e)将所述最小化音乐种类(cjmin)选择作为所述要分类的未分类的音乐片段(s)的特征种类(cs)。
4.根据前述权利要求中的任何一个的方法，-其中所述Gish距离值(D1...，Dn)根据等式(1)来计算Dj:=D(s,cj)def=log(L(s|m(s))·L(cj|m(cj))L(s+cj|m(s+cj)))---(1)]]>其中j＝1...，n，-其中s表示要分类的未分类的音乐片段或其一部分，-其中“+”表示相应音乐片段的拼接操作，-其中对于j＝1...，n，cj表示相应音乐种类或其代表或代表的一部分，-其中m(·)表示关于相应音乐片段的相应模型或模型构建操作，以及-其中L(x|y)表示当给出模型y时观察到音乐片段、数据集x或其一部分x的似然性。
5.根据权利要求4的方法，其中高斯密度模型被用作模型m(·)。
6.根据前述权利要求4或5中的任何一个的方法，其中只使用一个单个全协方差高斯密度。
7.根据前述权利要求4-6中的任何一个的方法，其中多变量模型被用作模型m(·)。
8.根据前述权利要求中的任何一个的方法，其中所述提供所述音乐分类数据(MCD)的步骤(a)是或包括接收和/或产生所述音乐分类数据(MCD)或其一部分的过程或所述过程的一部分。
9.根据前述权利要求中的任何一个的方法，其中所述提供要分类的未分类的音乐片段(s)的步骤(b)包括尤其是从外部源接收所述要分类的未分类的音乐片段(s)或其一部分的过程或所述过程的一部分。
10.根据前述权利要求中的任何一个的方法，其中所述音乐分类数据(MCD)和/或模型m(·)基于完整的歌曲或音乐片段或基于其特征部分。
11.根据前述权利要求中的任何一个的方法，其中所述导出所述Gish距离值(D1...，Dn)的步骤(c)和/或所述检测所述最小Gish距离值(Djmin)的步骤(d)建立或包含将所述要分类的未分类的音乐片段(s)或其所述相应部分与多个或全部音乐种类(c1...，cn)进行比较、并由此在由所述音乐分类数据(MCD)并且尤其是由所述音乐种类(c1...，cn)所限定的基调空间中定位所述未分类的音乐片段(s)或其所述相应部分的过程。
12.根据前述权利要求中的任何一个的方法，包括提供歌曲分类数据(SCD)并由此根据所述音乐种类(c1...，cn)对所述未分类的音乐片段(s)或其相应部分进行分类的步骤(f)，这些歌曲分类数据描述所述要分类的未分类的音乐片段(s)或其相应部分与所述音乐种类(c1...，cn)的关系。
13.根据前述权利要求中的任何一个的方法，其中对所述音乐片段和/或其部分进行采样。
14.根据权利要求13的方法，其中使用大约22kHz的采样频率。
15.根据前述权利要求13和14中的任何一个的方法，其中将所述音乐片段和/或其部分分割成帧。
16.根据权利要求15的方法，其中使用大约32ms的帧长度。
17.根据前述权利要求15和16中的任何一个的方法，其中使用大约50ms的帧速率。
18.根据前述权利要求15-17中的任何一个的方法，其中在计算相应的FFT之前对每一帧加汉明窗。
19.根据前述权利要求中的任何一个的方法，-其中从相应的FFT得出相应的功率谱，以及-其中相应的功率谱向量被用作特征向量计算的基础。
20.根据权利要求19的方法，其中所述特征向量被梅尔刻度弯曲。
21.根据权利要求20的方法，其中使用30个梅尔刻度系数。
22.根据权利要求21的方法，其中所述梅尔刻度系数被对数化。
23.根据权利要求22的方法，其中所述对数化的梅尔刻度系数经受离散傅里叶反变换。
24.根据权利要求23的方法，其中从所述对数化的梅尔刻度系数的所述离散傅里叶反变换得出每一帧的尤其13个倒频谱系数的集合。
25.根据权利要求24的方法，其中根据每一帧的所述倒频谱系数集合来计算频谱中心、频谱流量和频谱滑动中的一个或任意多个。
26.根据权利要求25的方法，其中计算所述频谱中心的、所述频谱流量的和/或所述频谱滑动的方差。
27.根据权利要求26的方法，-其中所述频谱中心的、所述频谱流量的和/或所述频谱滑动的所述方差在具有Q个相邻帧的窗口的范围内被计算，-其中尤其是Q的范围是5-20。
28.根据前述权利要求26或27中的任何一个的方法，其中所述方差被视作参数。
29.根据前述权利要求中的任何一个的方法，其中根据所述Gish距离值(D1...，Dn)的集合(Δ)，得出所述要分类的音乐片段(s)或其所述部分的、尤其是具有至少三个数的n元组形式的音乐分类数据(MCD)。
30.根据权利要求29的方法，还包括以下步骤(f)为要分类的给定音乐片段(s)获得/提供代表所述音乐片段(s)或其所述部分的基调的、具有至少三个数的n元组形式的音乐分类数据(MCD)，(g)根据所述音乐分类数据(MCD)的所述n元数组确定代表所述音乐片段(s)或其所述部分的基调的一对二维坐标值(x，y；r，φ)。
31.用于对音乐进行分类的方法，包括以下步骤(f)为要分类的给定音乐片段(s)获得/提供代表所述音乐片段(s)或其所述部分的基调的、具有至少三个数的n元组形式的音乐分类数据(MCD)，(g)根据所述音乐分类数据(MCD)的所述n元数组确定代表所述音乐片段(s)或其所述部分的基调的一对二维坐标值(x，y；r，φ)。
32.根据前述权利要求30或31中的任何一个的方法，其中笛卡尔坐标(x，y)和/或极坐标(r，φ)被用作二维坐标值(x，y；r，φ)。
33.根据前述权利要求30-32中的任何一个的方法，其中三个一组的数(j，s，a)被用作所述n元数组。
34.根据权利要求33的方法，其中所述三个一组的数(j，s，a)由所述音乐片段(s)或其所述部分的三个基调值(j，s，a)构成。
35.根据权利要求34的方法，其中根据所述音乐片段(s)或其所述部分，所述基调值(j，s，a)分别被选择用于对基调“高兴的”、“悲伤的”和“积极的”进行分类。
36.根据前述权利要求30-35中的任何一个的方法，-其中根据下式来确定作为二维坐标值的笛卡尔坐标(x，y)x＝j·cos(π/6)-s·cos(π/6) (1a)y＝a-j·sin(π/6)-s·sin(π/6) (1b)-其中x，y分别表示所述第一和第二笛卡尔坐标值，以及-其中j，s，a分别表示所述音乐片段(s)或其所述部分的所述音乐分类数据(MCD)的、尤其是标准化形式的并且此外尤其是分别根据所述基调“高兴的”、“悲伤的”和“积极的”的所述第一个、第二个和第三个数。
37.根据前述权利要求31-36中的任何一个的方法，-其中根据下式来确定作为二维坐标值的极坐标(r，φ)r=x2+y2---(2a)]]>φ=12π·arctan(y/x)---(2b)]]>-其中r，φ分别表示极半径和极角坐标值，以及-其中x，y表示尤其是根据等式(1a)、(1b)的二维笛卡尔坐标值。
38.根据前述权利要求31-37中的任何一个的方法，其中根据尤其是标准化形式的二维坐标值(x，y；r，φ)，产生描述颜色的一个颜色或多个颜色值(h，s，v)，这些颜色值描述所述音乐片段(s)或其所述部分的基调。
39.根据权利要求38的方法，其中所述一个颜色和/或多个颜色值(h，s，v)根据HSV系统来确定。
40.根据前述权利要求38和39中的任何一个的方法，-其中所述一个颜色和/或多个颜色值(h，s，v)根据HSV系统按下式来确定h＝φ， (3a)s＝r ， (3b)v＝1.0，(3c)-其中h，s，v分别表示HSV颜色值色度、饱和度、和值，以及-其中r，φ分别表示尤其是根据等式(2a)、(2b)的二维极半径和极角坐标值。
41.用于对音乐进行分类的系统，该系统被适配和/或被布置并且该系统包含装置，以便实现根据权利要求1-40中的任何一个的用于对音乐进行分类的方法及其步骤。
42.计算机程序产品，包括计算机装置，该计算机程序产品被布置和/或被适配，以便当它在数字信号处理装置或计算机上被执行时实现根据权利要求1-40中的任何一个的用于对音乐进行分类的方法或根据权利要求41的用于对音乐进行分类的系统。
43.计算机可读存储介质，包括根据权利要求42的计算机程序产品。
全文摘要
提出了一种用于对音乐进行分类的方法，包括以下步骤提供音乐分类数据(MCD)，提供要分类的未分类的音乐片段(s)，针对所述音乐分类数据(MCD)中的每个音乐种类(c1，...，cn)导出相应的Gish距离值(D1，...，Dn)，其中有限数量(n)的Gish距离值(D1，...，Dn)的有限集合(Δ)描述所述要分类的未分类的音乐片段(s)与有限数量(n)的音乐种类(c1，...，cn)的离散和有限集合(Γ)的关系。替代地，为要分类的给定音乐片段(s)获得代表所述音乐片段(s)的基调的、具有至少三个数的n元组形式的音乐分类数据(MCD)。根据所述音乐分类数据(MCD)的所述n元数组确定代表所述音乐片段(s)的基调的一对二维坐标值。
文档编号G06F17/30GK1985302SQ200580023228
公开日2007年6月20日申请日期2005年7月8日优先权日2004年7月9日
发明者T·坎普, M·托洛斯申请人:索尼德国有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｔ.坎普;Ｍ.托洛斯
技术所有人：索尼德国有限责任公司
我是此专利的发明人

上一篇：用于地理分布式虚拟路由的系统的制作方法
上一篇：计算机输入装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。