创建和访问音频内容的菜单而不使用显示器的方法

文档序号:6376197阅读:189来源:国知局
专利名称:创建和访问音频内容的菜单而不使用显示器的方法
技术领域
本发明涉及一种音频管理系统,允许用户以非常自然的方式来浏览所存储的音频文件。本发明涉及针对音频内容的大容量数字存储回放系统,诸如MPEG音频层3(MP3)播放器。
背景技术
受到数字存储和音频压缩技术的最新进步的驱动,管理非常大集合的音频文件的问题变得突出。例如,当前生产的MP3播放器包含10GB硬盘驱动器,使用户能够存储诸如超过300小时的MP3PRO音乐,意味着多于4000个标题。
需要可靠的工具使这些集合可由用户访问。
对音频文件进行索引的传统方式是基于文本元信息的,例如标题、艺术家、曲集或风格,例如针对MP3音频文件的ID3标记。
这种组织存在一些缺陷1、元数据是文本而非音频的,因此,不能够提供音频内容的精确表示,如该内容的代表性摘录所能做到的那样。
2、通过风格或艺术家来分类的组织允许用户定位特定的一首音乐。这预先假设用户具有明确的目标,确切知道其想要听什么。用户搜索策略必须是受目标驱动的且确定性的。
3、存在许多风格例如,音乐档案mp3.com当前列出了其在180个不同子风格下的标题,按照16个主风格组织。用户难以在这样的组织下进行导航。
4、由于先验地对风格进行建立而非从内容自身得出,因此风格有时是主观的。有时,难以对其进行解释。
5、通过风格的分类不能够满足非常简单的用户需要,例如“这首音乐使我放松。我愿意多听这种音乐”。
本发明用于克服这些缺陷。

发明内容
本发明涉及一种使用音频内容的简明代表来导航大量音频文件(例如MP3文件)的方法和系统。在用户选择音乐轨道之前,其可以得益于对简明代表摘录的收听,在下文中被称为“音频缩略曲”(audiothumbnail)。音频缩略曲具有足够的长度来识别音乐,例如5或6秒。
对所存储的音频文件进行预处理以提取一些相关和目标描述符。根据本发明,这些描述符用于将音乐轨道分簇为感觉上同类的组。从每一个簇中,自动或手动或半自动选择相关轨道,并从所选择的轨道中提取音频缩略曲。然后,将作为关键短语的这些音频缩略曲排列在树数据结构中或内容表中,使用户能够导航而无需任何可视导航装置,例如显示器等。
另外,音频缩略曲允许用户根据感觉对音频数据库进行导航,而不必记忆文本元素,例如标题或艺术家名。特别适合于使用户能够浏览其数据库,而无需精确知道他们想要听什么,并且从歌曲簇中根据感觉进行选择。这里,“根据感觉”意味着缩略曲涉及到用户的感觉而非记忆。此外,所述簇是感性的,意味着所述簇的结构化对于用户而言是相关的,因此所述结构化满足了实际用户需求。
使用本发明,用户可以创建超越传统音乐种类(例如通俗或乡村)的播放列表。


将参考附图来描述本发明的典型实施例,其中图1是使用音频菜单的音频再现系统的典型结构;图2是没有显示器的典型用户接口。
具体实施例方式
本发明描述了一种创建、组织和使用针对音频内容的音频表示的方法。图1中示出了本发明的结构。音频轨道,通常是音乐,存储在存储装置S中。在分类器CL中对这些轨道进行分类,并且将这些轨道与轨道簇C1、C2、C3相关联。对于每一个簇,在代表选择器R中选择代表示例。此外,提取器X从所述示例中提取特征样本、或缩略曲,并且将所述缩略曲与内容T的表格相关联。该用户使用接口I来选择由第一缩略曲表示的第一簇,收听所选的缩略曲,并且确定是选择另一簇还是选择与所述第一缩略曲相关的所述第一簇,然后选择属于所述簇的轨道,然后,从存储装置S中读取该轨道并再现。
有利地,与先前的方法相比,该方法更为基于感觉,因此对于用户而言更为方便。根据本发明的基于音频的索引系统组合了从其他内容搜索系统中已知的两个方法,即,“内容表”方法和“收音机类导航”方法。
所述“内容表”方法涉及内容的名册表,其中根据名册内容的结构来组合总结了实际文本的短代表序列。这通常与分类为主题的逻辑分类关联。使用针对音频内容的该方法意味着根据以下所定义的客观标准,从音频文件中提取参数或描述符,然后,将同类轨道一起组合在簇中。从用户的观点来看,由于其基于内容的特性比根据风格的先验分类更进一步,因此,这些簇更有意义。例如,可以将来自所有风格的吉他音乐的所有片断一起组合在簇中。所有放松音乐可以构成另一簇。根据本发明,不同的簇构成了数据库中的“内容表”。如同在书的内容表中那样,可能存在不同级别的细节,例如第1章、第1.1章等,如同读者可以逐章导航那样,并且可以确定更详细地读一章,收听者可以逐簇导航,或者从簇中收听更多类似音乐。
“收音机类导航”方法涉及当收听收音机时的典型用户行为。在这种情况下的内容浏览诸如在于用户扫描汽车收音机上的FM频带,并且收听轨道或切换到下一电台。本发明使用了该概念,其中无线电台对应于轨道簇。于是,“切换到另一电台”对应于“选择另一簇”,并且“收听轨道”对应于“收听该轨道或来自相同簇的类似轨道”。
在下文中,详细描述了在创建和组织音频表示时的前述步骤,当将轨道新添加到数据库上时,或者当对数据库重新组织时,执行这些步骤。
在第一步骤中,从音频轨道中提取描述符。使用三种类型的描述符,试图对用户而言是客观的且仍然相关。
第一类描述符是低级别描述符或物理特征,对于信号处理方法是典型的。示例为谱质心、短时能量或短时平均零交叉。
第二类描述符是介质级描述符或感觉特征,如由音乐家典型使用的。示例是节奏(例如,二元或三元节奏)、音调、形成种类(例如发声或特殊乐器)。
第三类描述符是高级别描述符或轨道的心理和社会特征,对于平均用户而言是正常的。为了试图使这些特征的主观性最小,例如,可以将音乐分类为快乐、焦虑、平静或有活力的。当诸如使用先前所述类型的描述符时,可以在特定程度上或利用特定的概率,将这些特性赋予一首音乐。此外,歌曲可以是高度难忘的,可以传递特定的情绪或感情,可以使用户想起一些事,等等。这可以使用监控算法来自动进行,即,需要用户交互的算法。
第二步骤在于给音乐轨道分簇。使用第一步骤中所定义的描述符,可以将这些轨道分类为同类。与通过艺术家或标题对音乐分类相比,这些类对用户更有价值。可以使用未受监控的算法将轨道分簇为具有类似属性的分组。这样的算法示例是K平均或自组织图。当与现有簇相比,新添加的轨道的相异性达到特定的最小水平时,可以自动地产生新簇,并且在这种情况下,新添加的轨道将与新簇相关联。
此时,对这些轨道进行分类,因此,能够创建内容表。不存在尖锐的所需分类,例如,能够在任意数量的簇中具有相同的轨道。例如,一个簇可以用于吉他音乐,而另一簇可以用于镇静音乐,并且匹配这两个特征的轨道可以与两个簇相关联。在这种情况下,两个簇均可以包含到所述音频轨道的链接,但是轨道自身仅需要被存储一次。
第三步骤在于自动选择每一个簇的代表轨道。有利地,利用传统的代表物件(medoid)选择,来选择针对簇的最具代表性轨道。代表物件(medoid)是其与该簇中所有对象的平均相异度最小的簇中的该对象。例如,可以利用在第一步骤中期间所提取的描述符来确定所述相异度。
在第四步骤中,针对代表物件(medoid)轨道创建并存储音频缩略曲。在本发明的另一实施例中,还可以针对其他轨道创建和存储音频缩略曲。对于缩略曲创建,需要评估哪些标准是使音频轨道以较短音频序列为特征的最佳标准,所述音频序列足够长以识别轨道,例如5或6秒。在本发明的一个实施例中,缩略曲的长度是恒定的,在第二实施例,可以对缩略曲的长度进行修改,并且在第三实施例中,缩略曲的长度可以根据轨道描述符逐轨道地发生改变。另外,在本发明的一个实施例中,缩略曲是来自所述轨道的原始抽样,或者在另一实施例中,从所述轨道中自动合成缩略曲。
在第五步骤中,将音频缩略曲列在虚拟表中,其可以由用户进行扫描,如同通过不同的无线电台来扫描。可以对所述表格进行组织,从而在一个簇内,当通过该表进行扫描时,将首先找到最相关的轨道或代表物件(medoid)。例如,可以根据相关性对簇内的其他轨道进行分类。有利地,不需要图形或文本显示对扫描内容表。所述内容表的结构可以如下

用户可以决定收听当前轨道、或属于相同簇的另一轨道,因此,类似于所述当前轨道。可选地,用户可以决定收听来自另一簇的轨道。有利地,仅需要一个按钮或其他命令输入装置来操作导航系统,即“切换簇”。对用户而言更为舒适的是具有三个按钮的设备,如图2所示。一个按钮SD用于“切换到近端簇”,另一按钮SU用于“切换到远端簇”,而一个按钮M用于“切换到来自当前簇的另一轨道。可选地,如果按钮具有多于一个功能或其他用户输入装置,仅具有一个按钮也是足够的。由用户输入控制的其他功能可以是随机轨道选择或随机簇选择模式。另一功能可以是连续再现所有簇的代表,直到用户选择了一个簇为止,由于用户不必手动地扫描内容表,因此所述功能是有利的。
在下面将描述另外的实施例。
在本发明的一个实施例中,音频轨道仅属于一个簇,而在另一实施例中,当各个分类标准并不互斥时,音频轨道可以属于多于一个簇。
在本发明的一个示例中,内容表仅具有一个级别的分簇,如同在先前所述的示例中那样,而在另一实施例中,内容表可以具有多个分层等级的簇。
在本发明的一个实施例中,针对音频轨道的分类规则是最终的,而在另一实施例中,可以对所述规则进行修改。或者通过更新(例如经由因特网)或者通过任意形式的用户交互(例如上载到PC、编辑并从PC中下载)或者通过诸如由人工智能所使用的统计或自学习方法,可以进行所述修改。可以对此进行实现,从而当诸如与一个簇相关的轨道数量远高于与任意其他簇相关的轨道数量时,可以执行具有修改或增强规则的自动或半自动重新分类。
在本发明的一个实施例中,仅针对表示簇的轨道来创建缩略曲。在本发明的另一实施例中,还可以针对其他轨道,例如满足特定条件的轨道(如同非常经常、或非常少或非常长地进行选择)来创建缩略曲。在第三实施例中,针对所有轨道创建缩略曲。
在本发明的一个实施例中,簇内的轨道可以具有恒定的次序,从而用户能够不久就能知道特定轨道何时到来。该次序可以遵循轨道相关性或任意其他参数,例如存储时间、或选择频率。在本发明的另一实施例中,簇内的轨道可以是无序的,或者当用户选择簇时随机地出现。
在本发明的一个实施例中,存在针对每一个簇所选的代表轨道,而在另一实施例中,有利地,可以没有针对所述簇之一的代表轨道,例如最喜爱的簇或针对轨道的簇不可由所采用的方法来分类。
有利地,可以在最好为便携式设备等设备中使用对音频内容的基于感觉的分类和检索的所述方法,以便存储和再现音乐或其他音频数据,例如MP3播放器。
权利要求
1.一种创建和访问存储装置(S)中所存储的音频内容的菜单的方法,所述内容由音频轨道构成,并且所述菜单包含所述音频轨道的表示,其特征在于-将音频轨道分类(CL)为组或簇(C1、…、C3),其中根据所述音频轨道的特征参数来执行所述分类;-自动选择(R)作为所述簇的代表的音频轨道,其中根据所述音频轨道和所述簇中的其他音频轨道的特征参数来执行所述选择;-产生(X)来自所述代表音频轨道的可再现音频摘录,作为所述表示;以及-将所述音频摘录与菜单列表(T)相关联。
2.根据权利要求1所述的方法,其特征在于用于音频内容分类的所述特征参数包括一个或多个音频描述符,所述音频描述符是音频内容的物理特征、或感觉特征、或心理或社会特征。
3.根据权利要求1或2所述的方法,其特征在于可以将音频轨道分类到多于一个簇(C1、…、C3)中。
4.根据权利要求1到3任一个所述的方法,其特征在于簇(C1、…、C3)内的音频轨道具有可变次序,从而当已经选择了簇(C1、…、C3)时,用户收听随机选择的轨道,其中所述轨道属于所述簇。
5.根据权利要求1到4任一个所述的方法,其特征在于用户可以修改音频轨道自动分类的结果。
6.根据权利要求1到5任一个所述的方法,其特征在于用户可以修改音频轨道自动分类的分类规则。
7.根据权利要求1到6任一个所述的方法,其特征在于根据所述菜单,在所述存储装置(S)内,对实际音频数据进行分簇。
8.根据权利要求1到7任一个所述的方法,其特征在于所述音频摘录是来自音频轨道的样本、或者是由实际音频轨道合成的音频序列。
9.根据权利要求1到8任一个所述的方法,其特征在于针对并非簇的代表的音频轨道另外创建音频摘录。
10.根据权利要求1到9任一个所述的方法,其特征在于音频摘录的长度并非预定的。
11.根据权利要求1到10任一个所述的方法,其特征在于所述簇之一没有代表轨道。
12.根据权利要求1到11任一个所述的方法,其特征在于所述菜单是分层的,从而簇可以包含一个或多个子簇。
13.根据权利要求1到12任一个所述的方法,其特征在于如果检测到所定义的先决条件,则自动地修改所述分类规则,并且可以执行重新分类。
14.根据权利要求13所述的方法,其特征在于所述先决条件包括簇中的轨道数量和另一簇中的轨道数量之间的差达到最大极限值。
15.根据权利要求13所述的方法,其特征在于所述先决条件包括将所有存储的轨道分类为一个簇,以及轨道的总数达到最大极限值。
16.一种创建和访问存储装置(S)中所存储的音频内容的菜单的设备,所述内容由音频轨道构成,并且所述菜单包含音频轨道的表示,其特征在于-装置,用于将音频轨道自动分类(CL)为组或簇(C1、…、C3),其中根据所述音频轨道的特征参数来执行所述分类;-装置,用于自动选择(R)作为所述簇的代表的音频轨道,其中根据所述音频轨道和所述簇中的其他音频轨道的特征参数来执行所述选择;-装置,用于产生(X)来自所述代表音频轨道的可再现音频摘录;以及-装置,用于将所述音频摘录与菜单列表(T)相关联。
17.根据权利要求16所述的设备,其特征在于还包括-装置,用于选择和再现来自第一簇的第一音频表示;-针对第一用户输入(M、SU、SD)的装置,所述输入控制是否选择与当前所选的音频缩略曲相关联的簇;以及-针对第二用户输入(M、SU、SD)的装置,所述输入控制是否选择另一簇。
18.根据权利要求16或17所述的设备,其特征在于从所述存储装置(S)中读取所选簇的音频轨道,用于回放。
全文摘要
一种创建音频内容(例如音乐轨道)的菜单(T)的方法使用了装置(CL),用于将音频轨道分类为具有相似轨道的簇(C1、…、C3),相似性涉及轨道的物理、感觉和心理特征。所述方法包括装置(R),用于所述簇(C1、…、C3)的自动代表选择;以及装置(X),用于产生音频轨道的缩略曲表示。所述音频缩略曲与所述菜单(T)相关联。有利地,由于用户可以通过诸如按下用于收听属于相同簇的相关轨道或类似轨道、或者通过选择表示另一簇的另一缩略曲来收听另一类型的音乐的适当按钮,来收听音频缩略曲然后输入命令,不需要图形或文本显示来进行导航。
文档编号G06F17/30GK1735941SQ200380108312
公开日2006年2月15日 申请日期2003年11月24日 优先权日2003年1月6日
发明者怒尔-埃丁·塔齐恩, 让-罗南·维古鲁, 伊莎贝拉·格拉斯兰 申请人:汤姆森许可贸易公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1