用于分布式音频文件编辑的门户网站的制作方法

文档序号:6476882阅读:243来源:国知局
专利名称:用于分布式音频文件编辑的门户网站的制作方法
用于分布式音频文件编辑的门户网站
交叉引用
本申请要求2007年2月14日提交的标题为"COLLABORATIVE MUSIC SHARING"(律师签号026287-000300US )的共同未决的美国临 时专利申请号60/889,816以及2007年2月14日^是交的标题为 "MUSIC-BASED SEARCH ENGINE"(律师签号026287-000400US )的 共同未决的美国临时专利申请号60/889,821的优先权利益,这两个专利 申请由此通过引用被并入,如在本文件中为了所有的目的充分阐述的。本 申请要求2008年2月13日提交的RobertD.Taub等人的标题为"MUSIC SCORE DECONSTRUCTION"(律师签号026287-000500US )的美国临时 专利申请号61/028,490的优先权利益。要求该临时申请提交日的优先权, 且该临时申请的公开为了所有目的在这里通过引用被并入。
本申请进一步涉及2008年2月14日提交的标题为"MUSIC-BASED SEARCH ENGINE"(律师签号026287-000410US )的共同未决的美国临
时专利申请号_,其同本申请同时提交并由此通过引用被并入,如在
本文件中为了所有的目的充分阐述的。
背景
本发明通常涉及音频应用,尤其是涉及合作式音乐创作。
由于很多原因,合作来创作和体验音乐可能是合乎需要的。 一个原 因是,音乐家在音乐的很多方面有不同的技能水平,包括在不同乐器上的 演奏、读谱、音乐理论、作曲、作词、配器和制作。另一原因是每个音乐 家可能有特别的影响、背景、亲和力和影响艺术^L野的其它特点。又一原 因是,音乐家可能希望从遥远的地点一起工作。
6即使是相对先进的音乐合作环境也常常在功能上受限,这是因为它
们缺乏以^艮多有用的方式处理音乐稿件(music contribution)的能力的缘 故。例如, 一些现有的环境允许投稿人(contributor)上载音频文件作为 曲目,其可被分组用于重放。 一些环境甚至可提供某些有限的信号处理能 力,如信号振幅的更改(例如,渐弱),或剪切、复制或粘贴信号的部分 的能力。
然而,某些类型的音乐合作可能要求在更基础的级别上(例如,单 独的音符、音调、拍速、和弦变化、乐旨、模式、音色等)处理音乐稿件。 例如,投稿人可能希望改变声道的乐器演奏法,以使旋律的乐段变调,插 入个别的音符、分析某些稿件的和弦进行、使来自多个投稿人的稿件同步, 以及可利用很多其它能力。提供这些能力中的很多能力可能要求处理音乐 稿件以从音频信号提取某些类型的基本信息。
至少由于这些原因,在基础级别提供对音乐合作的提高的能力可能 是合乎需要的。
概述
除了其它许多东西以外,还描述了对来自多个投稿人的音乐稿件的 合作式创作和处理的方法、系统和设备。
本发明的实施方式便于合作地处理来自多个合作者的音乐稿件。在 一方面,本发明的4支术可净皮实现为网络站点,例如门户网站。该门户网站 可利用音频信号处理、音乐特征识别技术和音乐转录技术来为音乐项目提 供合作环境。因此,本发明的实施方式可提供用于在合作的发展努力中伺 服多个用户的网络站点。
该门户可提供各种特征和功能。在某些实施方式中,该门户可支持 音频编辑功能,包括编辑音频文件、启动音频文件、共享音频文件、公布
音频文件、启动打印文件、定制音频文件(例如铃声)、支持对铃声和音 频文件的门户拍卖或市场、以及将音乐和音频添加到视频文件。在其它实 施方式中,该门户可支持联网和合作功能,包括会议(例如,通过文本、音频或视频)和限制访问(例如,对门户的某些部分、对某些文件或对某 些功能)。在又一些其它实施方式中,该门户可支持制作功能,包括乐语 的生成和合作项目的音频输出。
的其它特征和优点应很明显。 附图的简要说明
参考下列附图可实现对本发明的性质和优点的进一 步的理解。在附 图中,相似的部件或特征可具有相同的参考符号。进一步地,通过在参考 标记后跟有破折号和区分开相似部件的第二标记,可区分开相同类型的各 秤部件。如果在说明书中只使用第一参考标记,则此描述适用于具有相同 的第一参考标记的相似部件中的任一个,而不考虑第二参考标记。


图1示出用于音乐稿件的合作处理的根据本发明构造的系统的高级 的简化结构图。
图2示出才艮据本发明的用于音乐稿件的合作处理的示例性方法的流 程图。
图3示出才艮据本发明的用于产生音乐稿件的各种例证性类型的音乐 输入。
图4A示出根据本发明的用于解构音乐输入数据的方法的流程图。
图4B示出根据本发明的用于解构音乐微元素的方法的实施方式。
图4C示出根据本发明的用于解构音乐宏元素的方法的实施方式。
图5A示出才艮据本发明的用于解构音频信号输入以产生音乐元素的示 例性系统的简化结构图。
图5B示出根据本发明的音频解构单元的一个实施方式的低级结构图。
图6A示出根据本发明处理音乐图像数据以提供光学字符识别 (OCR)特4正的示例性系统。图6B示出从图6A所示捕获设备产生的、作为输入提供到OCR处理 器的示例性图像数据。
图7示出根据本发明的可合并在合作门户的实施方式中的各种模块 的一个示例性配置。
图8A示出观看功能的例证性实施方式,包括合作项目的一部分的三 个对齐的^L图。
图8B示出图8A所示的观看功能的放大视图的例证性实施方式,集 中在了特定音符上。
图9示出根据本发明的用于合作门户的GUI的实施方式。
图10提供用于实现本发明的某些实施方式的计算系统的结构图。
图11示出根据本发明的作为手持式消费电子设备的产品的例证性实 施方式。
图12提供示出与图ll所示设备类似的设备的实施方式的操作的简化 处理流程图。
详细描迷
该描述仅提供示例性实施方式,且不是用来限制本发明的范围、适 用性或配置。更确切地,实施方式的随后描述将给本领域技术人员4是供用 于实现本发明实施方式的可行的描述。可在元件的功能和布置上进行各种 变化,而不偏离本发明的实质和范围。
因此,不同实施方式可在适合时省略、替换或添加不同的程序或部 件。例如,应认识到,在可选实施方式中,可按不同于所描述的顺序执行 方法,并可添加、省略或合并不同的步骤。此外,关于某些实施方式描述 的特征,可合并在不同的其它实施方式中。实施方式的不同方面和元件可 按类似的方式合并。
还应认识到,下面的系统、方法和软件可单独地或共同为一较大系 统的部件,其中其它程序可优于其应用,-或以其他方式更改其应用。此外,在下面的实施方式之前、之后或与其同时,可能需要一定数量的步骤。综述
本发明的实施方式便于合作地处理来自多个合作者的音乐稿件。在一方面,本发明的技术可被实现为网络站点,例如门户网站。该门户网站可利用音频信号处理、音乐特征识别技术和音乐转录技术来为音乐项目提供合作环境。因此,本发明的实施方式提供用于在合作性发展努力中伺服多个用户的网络站点。
该门户可提供各种特征和功能。在某些实施方式中,该门户可支持音频编辑功能,包括编辑音频文件、启动音频文件、共享音频文件、公布音频文件、启动打印文件、定制设计音频文件(例如铃声)、支持铃声和音频文件的门户拍卖或市场、以及将音乐和音频添加到视频文件。在其它实施方式中,该门户可支持联网和合作功能,包括会议(例如,通过文本、音频或视频)和限制访问(例如,对门户的某些部分、对某些文件或对某些功能)。在又一些其它实施方式中,该门户可支持制作功能,包括乐谱的生成和合作项目的音频输出。
图1示出用于音乐稿件的合作处理的根据本发明构造的系统100的高级简化结构图。系统100包括通过网络110连4妄到多个工作站104的门户160。网络110可为多个工作站104之间的通信的任何服务商。例如,网络110可为互联网或局域网(LAN)。
工作站104可为配置成与网络110通信并接收音乐稿件102的任何设备或系统。在一些实施方式中,工作站104是多功能设备。例如,工作站104可为计算机(例如,膝上型计算机、桌上型计算机等)。在其它实施方式中,工作站104是专用设备。例如,工作站104之一可为专用的便携式设备,其特别被开发来提供合作环境,包括接收音乐稿件102和与网络IIO通信。在某些实施方式中,工作站104是音乐稿件设备的网络接口。例如,工作站104之一可为电子吉他或数字音频部件的直接网络接口。
应认识到,根据本发明,工作站104存在接收音乐稿件102的很多方法。例如,可通过内部或外部麦克风、线路电平音频端口、文件传输(例如,来自固定的或可移除的存储器或在网络上)、乐谱图像捕获设备等接
收音乐稿件102。下面进一步讨论音乐输入实施方式。
在一些实施方式中,工作站104配置成产生音乐输出106。在一个实施方式中,音乐输出106包括配置成通过扬声器播放的音频输出。在另一实施方式中,音乐输出106包括配置成被储存、播放和/或在网络上共享的音频文件。在又一实施方式中,音乐输出106包括由其它相容的系统使用的音乐元素数据(例如,音高、音程、拍速、音调、振幅等)。在再一实施方式中,音乐输出106包括乐谱表示数据,其配置成由乐谱编辑软件使用、被发送到文档编辑或公布系统、或4皮打印。
根据音乐稿件102的类型和合作者希望如何使用音乐稿件102,解构来自音乐稿件102的音乐元素可能是合乎需要的。在各种实施方式中,合作者可能希望以非解构(例如,信号级)形式来使用一些音乐稿件102,同时他们可能希望以解构(例如,乐镨级)形式来使用其它音乐稿件102。例如,假定第一音乐稿件102包括特殊声音(例如,使用音槌击高张力的线)的已录制的样本,以及第二音乐稿件102包括鼓点的已录制的演奏。合作者可能希望解构鼓点以提取关于拍速和节拍的音乐元素信息,并使用该音乐元素来使该特殊声音样本同步到某些节奏位置(即,不从特殊声音样本提取任何音乐元素)。下面更充分描述音乐解构。
在一些实施方式中,系统100包括用于提供音乐解构功能的一个或多个音乐解构单元120。在某些实施方式中,音乐解构单元120驻留在工作站104上。例如,音乐解构单元120可被实现为客户级软件。在这些实施方式中,音乐稿件102在通过网络110净皮发送到门户160之前可被解构成音乐元素。在其它实施方式中,音乐解构单元120可设置为门户160的部分(例如,元件120-3)。音乐稿件102可在工作站104被接收,通过网络110被发送到门户160,并接着在门户16(H皮解构成音乐元素。
在某些实施方式中,门户160可与一个或多个数据存储器115操作性地通信。在一些实施方式中,门户160通过网络110与数据存储器115通信。在其它实施方式中,门户160与数据存储器115直接通信。数据存储器115可配置成存储关于音乐稿件102或音乐输出106的一种或多种类型的信息。例如,数据存储器115可配置成存储原始音频文件(例如,包
含数字化音频信号数据的文件)、编码的音频文件(例如,包含关于文件内容凄t据或音频信号数据的元数据的文件)、音乐元素信息(例如,储存在多维关系数据库中的、与其相应的音乐稿件相关的被解构的音乐元素)、编辑凄t据(例如,对一个或多个音乐稿件进行的编辑的日志或记录、或某些指示符和时间戳数据,以有效地记录编辑而不保存音乐稿件的多个副
本)等。
应认识到,在本发明的实施方式中,某些类型的数据安全可能是合
乎需要的。在一些实施方式中,数据存储器115配置成使用某些类型的数据安全(例如,加密、口令保护等)来存储数据。在其它实施方式中,系统100的不同部件之间的物理和虚拟通信链接是安全的(例如,通过安全套接层加密)。例如,门户160和工作站104之间或门户160和数据存储器115之间的网络通信可能是安全的。在又一些其它实施方式中,音乐输出106可被保护以防止复制、删除等。例如,某些数字版权管理(DRM)技术可用于限制音乐输出106文件的未经授权的复制或共享。
在一些实施方式中,门户160通过网络接口单元150与网络110进行通信。网络接口单元150的某些实施方式通过提供某些类型的网络功能来促进门户160和网络IIO之间的通信。例如,网络接口单元150可发送和/或解译网络业务,以允许门户160的有效合作、文件传输和其它能力。
网络接口单元150的各种实施方式提供了增强的能力。在一些实施方式中,网结4矣口单元150配置成通过网络110接收和处理来自工作站104的登录信息。在一个实施方式中,登录信息用于验证工作站104的用户,以确定用户对门户160的访问权。访问权可确定例如是否用户可进入门户160,用户可访问哪些文件,用户可使用门户160的哪些功能,等等。
应认识到,根据本发明,门户160的4艮多实施方式是可能的。在一些实施方式中,门户160配置成通过网页浏览器使用,并且可通过网络地址来定位。在这些实施方式的某些中,门户160配置成可扩展到很多不同的浏览环境(例如,通过用XML、 HTML或另一可扩展标记语言编写)。在其它实施方式中,门户160被实现为驻留在工作站104上的客户端应用程序。在这些实施方式中,可在服务器上实现某种功能(例如,文件管理),
而合作处理中的大部分在客户工作站104上进行。在又一实施方式中,门户160可驻留在局域网的分离的网络服务器上,或工作站104可用于向网络提供应用程序。
门户160的实施方式包括合作接口单元130。在各种实施方式中,合作接口单元130配置成执行门户160的功能,包括合作功能(例如,虚拟会议、改变和文件管理等)、音乐观看功能(例如,显示乐谱视图、信号视图、钢琴巻帘视图、音色曲线、音符包络曲线、柱状图等)和音乐编辑功能(例如,同步、声道编辑、音符编辑、信号编辑、乐器法编辑等)。下面更充分描述合作^接口单元130的实施方式和功能。
门户160的实施方式进一步包括输出产生单元140。在一些实施方式中,输出产生单元140可配置成从合作接口单元130接收合作的输出,并产生输出数据。由输出产生单元140产生的数据可^皮传送到数据存储器115 (例如,直接地或通过网络110)或工作站104。在一些实施方式中,由输出产生单元140产生的输出数据可为音乐输出106。在其它实施方式中,由输出产生单元140产生的输出数据可由工作站104使用来产生音乐输出106。
图2示出根据本发明的用于音乐稿件的合作处理的示例性方法200的流程图。4吏用如图1所示系统100的系统可t丸行方法200的一些实施方式。方法200在块202开始,接收用于验证用户的登录信息。在块210,方法200根据登录信息确定用户是否有访问门户的权限。如果用户没有足够的访问权,则可在块220拒绝用户对门户的访问。如果用户有足够的访问权,则可在块230提供对门户的访问。
在块232,门户可接收音乐稿件。 一些音乐稿件可接收自登录到该门户中的用户或从另一用户(例如,通过用户的工作站和通过网络)。其它音乐稿件可接收自一个或多个智:据存储器。在某些情况下,在块232接收的一些或所有音乐稿件可在块234被解构成音乐元素。为了不同的目的,可在一个或多个级别4丸行解构,如下面进一步描述的。
在块236,门户可从一个或多个用户接收合作请求。该合作请求可包括关于与处理用户间合作、处理文件管理、处理编辑、编译或查看音乐稿件等相关的任何请求。在一个实施方式中,合作请求包括编辑门户上的音
乐稿件的请求。在块238,响应于合作请求并至少部分地根据该合作请求来编辑音乐稿件。接着,在块240,可产生输出数据。例如,在块240产生的输出数据可包括与在块238中执行的编辑有关的信息。
应认识到,关于图1和2描述的实施方式用来提供本发明的示例性结构和示例性功能的综述。因此,上面提供的描述不应被解释为限制本发明的范围。为了另外的清楚,下面进一步讨论某些功能的进一步描述。
音乐输入
用于产生音乐稿件的很多不同类型的音乐输入是可能的。图3示出根据本发明的用于产生音乐稿件的各种例证性类型的音乐输入。应认识到,图3所示的音乐输入设备只提供很多可能的音乐输入设备中的一些,且不应被解释为限制本发明的能力。
音乐输入的一个实施方式包括原始音频文件302。原始音频文件302可包括被数字化成数字信号表示的音频信号数据。例如,数字信号信息可包括样本,每个样本有时间戳和电压电平,其中该样本代表音频信号的模拟版本。在其它例子中,数字信号信息可被编码,以在算法上(例如,包括误差校正信息、编解码信息等)表示音频信号。
音乐输入的另一实施方式包括增强型音频文件304。增强型音频文件304可包括补充或代替存在于原始音频文件302中的数据的信息。在某些实施方式中,增强型音频文件304可包括关于该文件的内容、其格式或其它有用信息的元数据。例如,元数据可包括手工输入的关于音频文件的信息,包括声道名称、专辑名称、艺术家名称、风格等。在另一例子中,元数据可与其它系统相容(例如,专辑序列号和歌曲的声道号可祐:提供到元数据中,以允许某个数据库搜索来返回关于歌曲的其它信息,例如其标题)。
通过将原始音频文件302传送通过编码器330来产生增强型音频文件304的一些实施方式。例如,增强型音频文件304可由MPEG-7编码器产生,MPEG-7编码器可使用XML来存储元数据并将元数据附到增强 型音频文件304内的某些时间戳。在其它实施方式中,通过将原始音频文 件302传送通过音频解构器320,可产生增强型音频文件304。音频解构 器320可从原始音频文件302解构音乐元素(如下面更充分描述的),并 将它们储存在增强型音频文件304中。
音乐输入的又一实施方式包括来自相容的乐器306的数字化输出。 在一个实施方式中,乐器数字接口 (MIDI)装置(例如键盘)用于产生 MIDI数据。MIDI数据可包括音乐元素。在一些情况下,所包括的音乐 元素可用于产生其它音乐元素。例如,MIDI数据可包括音符音高,而该 音符音高可被分析来确定音调。在其它实施方式中,相容的乐器306可操 作来以可用的格式输出数据。例如,键盘可具有可与其它部件相容的数字 同轴、光学或其它类型的输出。
音乐输入的又一实施方式包括来自传感器308的模拟输出。在一个 实施方式中, 一个或多个麦克风用于检测一个或多个乐器所产生的压力 波,并将它们转换成模拟音频信号。在另一实施方式中,电磁拾音器用于 将电吉他的钢弦中的运动转换成才莫拟音频信号。
音乐输入的另一实施方式甚至包括可编辑的乐谱文件310。可编辑的 乐谱文件310可为包括可编辑的乐谱数据的任何类型的文件。例如,可编 辑的乐谱文件310可使用乐谱编辑软件340来产生。音乐输入的一些实施 方式包括乐镨图像312。乐镨图像312的实施方式可包括任何类型的可用 数字图像。在一个实施方式中,乐谱图像312是打印出的物理乐谱的数字 化表示(例如,活页乐语),其通过借助于图像捕获设备(例如,扫描仪、 数码照相机或视频摄-像机等)将打印出的乐i普转换成数字图像来产生。在 其它实施方式中,通过将乐谱图像312传送通过乐谱解构器350来将乐谱 图像312转换成可编辑的乐谱文件310。乐谱解构器350可操作来从乐谱 图像312解构音乐元素,如下面更充分描述的。
在某些实施方式中,编码器330、音频解构器320、乐语解构器350、 乐谱编辑器340或其它应用可驻留在工作站104 (或服务器计算机)上。 在其它实施方式中,音乐输入可为用于合作的音乐稿件102,或用于产生音乐稿件102。稿件102可接着被传送到工作站104、网络110或对提供 合作功能有用的任何其它地点。
音频解构
在本发明的一些实施方式中,提供从音乐输入数据如音频信号数据 和乐谱图像数据解构出音乐元素可能是合乎需要的。应认识到,存在很多 方法来从不同类型的音乐输入数据解构出音乐元素。在一些情况下,数据 储存在音频文件中的方式可使解构起来简单。例如,音乐元素数据可作为 头部信息储存在增强型音频文件中。然而在其它情况下,从音乐输入数据 提取某些类型的音乐元素可能并不简单。
图4A示出根据本发明的用于解构音乐输入数据的方法400的流程 图。方法400开始为,在块402接收音乐输入数据。在一些实施方式中, 在块402接收的音乐输入lt据可包括用于合作的音乐稿件。
在块410,从音乐输入解构音乐微元素。作为例子,音乐微元素可包 括音符音高和值、时间戳、音符包络和音色、音调、拍速和其它类似的元 素。在某些实施方式中,音乐微元素可包括其它音乐微元素(例如,连音、 三连音、按声道或乐器分组的音符、4姿小节分组的音符、按投稿人分组的 音符等)的组。在其它实施方式中,音乐微元素可包括其它音乐微元素的 组成部分(例如,符干、符尾、附点等)。
在块450,解构音乐宏元素。作为例子,音乐宏元素可包括从分析音 乐微元素的组和模式产生的信息。在一些实施方式中,音乐宏元素包括关 于音乐微元素(例如,节奏调号、重复的乐旨、和弦/音调变化、曲式(例 如,A-B-A或合唱-独唱-独唱-合唱)等)的组的局部和全局模式信息。 在其它实施方式中,音乐宏元素包括从音乐微元素的集合中得到的统计信 息(例如,音符或节奏模式的柱状图等)。接着,可在块490输出音乐微 元素和宏元素。
图4B示出才艮据本发明的用于解构音乐微元素的方法410的流程图。 方法410开始为,在块402接收音乐输入信号。在一些实施方式中,可预 处理音乐输入信号。例如,音频信号可从模拟转换到数字、下变频到较低的采样率、为与某些编码器或解码器的相容转换代码、解析成单音调音频 声道、或任何其它有用的处理。
在一些实施方式中,在块412提取音高信息并在块414提取音符开 始事件。在方法410的一些实施方式中,在块412提取的音高信息和在块 414提取的音符开始事件用于从在块402接收到的音频信号提取和处理其 它信息。
在某些实施方式中,上述信息用于在块416确定音符时值、在块418 确定休止符、在块420确定时间窗上的拍速、在块424确定窗上的音调、 以及在块428确定乐器。在其它实施方式中,在块416确定的音符时值、 在块418确定的休止符以及在块420确定的拍速用于在块422确定音符 值;在块424确定的音调用于在块426确定音调音高标志;以及在块428 确定的乐器用于在块430确定声道。在不同实施方式中,块412-430的输 出配置成用于在块490-1产生作为音乐微元素的输出。
图4C示出根据本发明的用于解构音乐宏元素的方法450的流程图。 方法450开始为,在块452接收(例如,来自图4B的方法410的)音乐 微元素。音乐微元素可用于产生很多类型的音乐宏元素。
在一些实施方式中,音乐孩i元素用于在块454确定曲式(例如,前 奏-独唱-合唱-独唱-过渡乐节-合唱-合唱-终奏);在块456确定风格(例如, 摇滚、古典、爵士、印度古典等);在块458确定节奏调号(例如,第一 乐章是以每分钟90拍的拍速(bpm)的4/4拍,第二乐章是以120 bpm 的拍速的3/4拍,而第三乐章返回到4/4拍,同时保持在120 bpm的拍速); 在块460确定轮廓(例如,歌曲仅以鼓声和低音乐器在相对低的音量和快 的拍速开始,且一分钟之后,歌曲在中等音量和较慢的拍速增加干净的吉 他线);在块462确定音调变化(例如,歌曲以C大调的音调开始,变调 到F大调,快速变调到D小调和G大调,并返回到C大调);以及在块 464确定和弦变化(例如,歌曲的一部分从Am7变化到Dm7、到Gm7、 到C7、到F6,或歌曲从iif变化到vi7、到ii7、到V7、到I6)。在各种实 施方式中,块454-464的输出配置成用于在块4卯-2产生作为音乐宏元素 的输出。应认识到,根据本发明,很多其它类型的音乐微元素和音乐宏元素 是可能的。进一步地,根据合作所需要的音乐元素的类型,音乐输入信号 可在按很多不同的级别进行解构。例如,临时鼓声道可只用于提供节奏信 息。在这种情况下,解构或保留关于音高、音色、音调等的音乐元素可能 是对资源的浪费。在另一例子中,声乐线可用于4是供对歌曲的一个乐段中 的音高变化的轮廓的一般指示。在这种情况下,解构准确的音高、音符时
值等可能不重要;更确切地,仅以近似的音高值和时值来提取音高移动的 大致方向可能是更有效的。
应进一步认识到,根据可用的音乐数据的类型和各种应用需要,可 能存在从音乐输入解构出音乐元素的很多方法。图5A示出根据本发明的 实施方式的用于解构音频信号输入以产生音乐元素的示例性系统的简化 结构图。如所示,输入102由音乐解构单元120接收,音乐解构单元120 解构输入102以产生被解构的输出570。
在一些实施方式中,输入102由音乐解构单元120在音频接收器单 元506接收。在一个实施方式中,乐曲由麦克风或麦克风阵列实时地接收, 并转换成模拟电子输入102,供音频接收器单元506接收。在其它实施方 式中,输入102可包括数字数据,例如适合于重放的已录制的音乐文件。 如果输入102是模拟信号,则它可由音频接收器单元506转换成数字表示, 以备由信号处理器单元510、音符处理器单元530和乐谱处理器单元550 进行数字信号处理。当输入102被实时地接收时,可能没有方法来预先确 定输入102的全长。因此,输入102可按预定的间隔(例如,消逝时间的 量、数字样本的数量、所使用的存储器的量等)被接收和存储,并可被相 应地处理。在另一实施方式中,已录制的声音片断由音频接收器506接收
并净皮it字化,A/v而具有固定的持续时间。
图5B提供了音乐解构单元120的一个实施方式的低级结构图。 一个 或多个音频源502可用于产生音乐输入信号102。音频源502可为能够向 音频接收器506提供音乐输入信号102的任何东西。在一些实施方式中, 一个或多个麦克风、转换器和/或其它传感器用作音频源502。麦克风可 将来自现场表演演奏(或已录制的演奏的重放)的压力或电磁波转换成电信号,以用作音乐输入信号102。例如,在现场表演的音频演奏中,麦克 风可用于检测和转换来自歌手的音频,而电磁"拾音器"可用于检测和转 换来自吉他和贝司的音频。在其它实施方式中,音频源502可包括配置成 提供音乐输入信号102或音频文件的模拟或数字设备,从音频文件可读取 音乐输入信号102。例如,数字化音频文件能够以音频格式储存在存储介 质上,并作为音乐输入信号102由存储介质提供给音频接收器506。
应认识到,根据音频源502,音乐输入信号102可具有不同的特征。 音乐输入信号102可为单音调或复调的,可包括音频数据的多个声道,可 包括来自很多类型的乐器的音频,并可包括某种文件格式,等等。类似地, 应认识到,音频接收器506可为能够接收音乐输入信号102的任何东西。 进一步地,音频接收器506可包括一个或多个端口、解码器、或与音频源 502连接、接收或解释音乐输入信号102所必需的其它部件。
音频接收器506可提供额外的功能。在一个实施方式中,音频接收 器506将模拟音乐输入信号102转换成数字音乐输入信号102。在另一实 施方式中,音频接收器506配置成将音乐输入信号102下变频到较低的采 样率,以减小系统500的计算负担。在一个实施方式中,音乐输入信号 102被下采样到大约8-9kHz。这可提供音乐输入信号102的较高的频率分 辨率,并可减小对系统500的设计的某些限制(例如,滤波器规范)。
在又一实施方式中,音频接收器506包括阈值检测部件,其配置成 在检测到音频电平超过某个阈值时开始接收音乐输入信号102(例如,开 始录制)。例如,阈值才企测部件可在规定的一段时间内分析音频,以检测 音乐输入信号102的振幅是否在某个预定量的时间内保持在预定阈值之 上。阈值检测部件可进一步配置成当音乐输入信号102的振幅在预定量的 时间内落在预定阈值之下时停止接收音乐输入信号102(例如,停止录 制)。在又一实施方式中,阈值才全测部件可用于为系统500产生标志,其 表示音乐输入信号102的振幅在一定量的时间内超过阈值或落在阈值之 下的条件,而不是实际上开始或终止对音乐输入信号102的接收。
根据图5B,音频接收器506将音乐输入信号102传送到包括振幅提 取单元512和频率提取单元514的信号处理器单元510。振幅提取单元512
19配置成从音乐输入信号102提取与振幅有关的信息。频率提取单元514 配置成从音乐输入信号102提取与频率有关的信息。
在一个实施方式中,频率提取单元514使用变换算法将信号从时域 变换到频域。例如,当在时域中时,音乐输入信号102可被表示为振幅随 着时间的变化。然而,在应用快速傅立叶(FFT)算法之后,同一音乐输 入信号102可被表示为其每个频率分量的振幅的曲线(例如,在频率范围 内的每个频带的相对强度或组成,如泛音系列一样,信号将在该泛音系列 上被处理)。对于处理效率,可能希望将该算法限制到某个频率范围。例 如,频率范围可只覆盖可听声谱(例如,大约20Hz到20kHz )。
在不同实施方式中,信号处理器单元510可用其它方式提取与频率 有关的信息。例如,很多变换算法以固定宽度的线性频率"存储段 (bucket)"输出信号。这可限制变换的可能频率分辨率或有效性,特别 是考虑到,音频信号在本质上内在地可以是对数的(而不是线性的)。用 于从音乐输入信号102提取与频率有关的信息的很多算法在本领域中是 已知的。
,振幅提取单元512所4是取的与振幅有关的信息和频率4是:取单元514 所提取的与频率有关的信息可接着由音符处理单元530的不同部件使用。 在一些实施方式中,音符处理单元530包括音符开始检测器单元532、音 符时值检测器单元534、音高检测器单元536、休止符检测器单元544、 包络检测器单元538、音色检测器单元540和音符力度强弱检测器单元542 中的全部或一些。
音符开始检测器单元532配置成检测音符的开始。音符的开始(或 起始) 一般在乐曲中表现为音高的变化(例如圆滑奏)、振幅的变化(例 如包络的附加部分)或音高和振幅的变化的一些组合。因此,音符开始检 测器单元532可配置成每当有频率(或音高)和/或振幅的某种类型的变 化时产生音符开始事件。
音乐音符也可以其时值(例如,音符以秒或样本的数量为单位持续 的时间的量)为特征。在一些实施方式中,音符处理单元530包括音符时 值检测器单元534,其配置成检测音符开始事件所标记的音符的时值。值得注意的是,乐曲的某些特征是心理声学的,而不纯粹地是信号 的物理属性。例如,频率是信号的物理特性(例如,表示正弦波每秒所传 播的周期数),但音高是更复杂的心理声学现象。 一个原因是乐器所演奏 的单个音高的音符通常由很多频率组成,每个频率振幅不同,被称为音色。 大脑可检测那些频率之一 (例如, 一般是基频)作为"音高",而其它频 率仅是感测到给音符添加了 "和声色彩"。在一些情况下,听者所感受到 的音符的音高可能为信号最缺乏或完全缺乏的频率。
在一些实施方式中,音符处理单元530包4舌音高检测器单元536,其 配置成检测由音符开始事件标记的音符的音高。在其它实施方式中,音高 ^r测器单元536配置成跟踪音乐输入信号102的音高,而不是(或除了 ) 跟踪个别音符的音高。应认识到,音高检测器单元536在一些情况下可由 音符开始检测单元532使用,以确定音乐输入信号102的超过阈值的音高 的变化。
音符处理单元530的一些实施方式包括配置成检测音乐输入信号102 内休止符的存在的休止符检测器单元544。休止符检测器单元544的一个 实施方式使用振幅提取单元512所提取的与振幅有关的信息和音高检测 器单元536所得到的置信度信息。例如,与振幅有关的信息可揭示音乐输 入信号102的振幅在某个时间窗内相对低(例如,在本底噪声处或附近)。 在相同的时间窗内,音高4全测器单元536可确定特定音高的存在的非常低 的置信度。使用这个和其它信息,休止符检测器单元544检测休止符的存 在以及休止符可能开始的时间位置。
在一些实施方式中,音符处理单元530包4舌音色4企测器单元540。振 幅提取单元512所提取的与振幅有关的信息和频率提取单元514所提取的 与频率有关的信息可由音色检测器单元540使用,来对音乐输入信号102 的一部分检测音色信息。音色信息可揭示音频信号102的该部分的谐波成 分。在一些实施方式中,音色检测器单元540可检测关于在音符开始事件 处开始的特定音符的音色信息。
在音色检测器单元540的一个实施方式中,与振幅有关的信息和与 频率有关的信息与高斯滤波器巻积,以产生滤波的频谱。滤波的频谱可接着用于产生在音高检测器单元536所检测到的音高周围的包络。该包络可 相应于在该音高处的音符的音色。
在一些实施方式中,音符处理单元530包括包络^:测器单元538。振 幅提取单元512所提取的与振幅有关的信息可由包络检测器单元538使 用,来对音乐输入信号102的一部分检测包络信息。例如,击钢琴上的键 可使音槌击打一组弦,导致具有大起奏振幅的音频信号。该振幅经历快速 衰减,直到它在弦共振的地方维持在稍微稳态的振幅(当然,当弦中的能 量耗尽时,振幅可在包络的该部分上緩慢地减小)。最后,当钢琴键被释 放时,制音器落在弦上,使振幅快速下降到零。这种类型的包络一般称为 ADSR(起奏、衰减、维持、释放)包络。包络检测器单元538可配置成 检测ADSR包络的一些或所有部分,或任何其它类型的有用包络信息。
在不同实施方式中,音符处理单元530还包括音符力度强弱检测器 单元542。在某些实施方式中,对于在某些音符开始事件处开始的特定音 符,音符力度强弱检测器单元542提供与包络检测器单元538类似的功能。 在其它实施方式中,音符力度强弱检测器单元542配置成检测相对于被包 络检测器单元538检测到的包络模式是异常的或符合某种预定的模式的 音符包络。例如,断奏音符可以以急剧的起奏和其ADSR包络的短持续 部分为特征。在另一例子中,重音音符可以明显大于周围音符的起奏振幅 的起奏振幅为特征。
应认识到,音符力度强弱检测器单元542和其它音符处理单元可用 于识别音符的多个其它属性,这些属性可被描述为被解构的输出570的部 分。例如,音符可被标记为圆滑奏、重音、断奏、装饰音符等。根据本发 明可提取很多其它音符特征。
与多个音符或音符开始事件(包括休止符)有关的信息可用于产生 其它信息。根据图5B的实施方式,音符处理单元530的不同部件可与乐 谱处理单元550的不同部件才乘作性地通信。乐谱处理单元550可包括拍速 检测单元552、节拍检测单元554、音调4企测单元556、乐器识别单元558、 声道4企测单元562和全局力度强弱检测单元564中的全部或一些。
在一些实施方式中,乐谱处理单元550包括拍速检测单元552,其配置成在一时间窗内检测音乐输入信号102的拍速。 一般, 一首乐曲的拍速
(例如,乐曲似乎在心理声学上传递的速度)可部分地由音符和休止符的
存在和时值影响。因此,拍速检测单元552的某些实施方式使用来自音符 开始检测器单元532、音符时值4企测器单元534和休止符检测器单元544 的信息来确定拍速。拍速检测单元552的其它实施方式进一步使用所确定 的拍速来给音符和^木止符分配音符值(例如,四分音符、八分音符等)。
节拍指示在音乐的每个小节中有多少拍,以及哪个音符值被认为是 单拍。例如,4/4的节拍表示每个小节有四拍(分子),以及单拍由四分 音符(分母)表示。由于这个原因,节拍可帮助确定音符和小节线位置, 以及提供有用的解构输出570可能需要的其它信息。在一些实施方式中, 乐语处理单元550包括配置成检测音乐输入信号102的节拍的节拍检测单 元554。
在一些实施方式中,从拍速信息和拍速4企测单元552所提取的音符 值并从其它信息(例如,音符力度强弱检测器单元542所提取的音符力度 强弱信息)推断简单的节拍。然而,通常,确定节拍是涉及复杂的模式识 别的复杂任务。
例如,假定音符值的下列序列从音乐输入信号102被提取四分音 符、四分音符、八分音符、八分音符、八分音符、八分音符。此简单的序 列可被表示为4/4的一个小节、2/4的两个小节、1/4的四个小节、8/8的 一个小节或很多其它节拍。假定在第一个四分音符和第一个八分音符上有 重音(例如,增加的起奏振幅),这可使序列更可能为2/4的两个小节、 4/8的两个小节或4/4的一个小节。进一步地,假定4/8是非常罕见的节 拍,则可足以消除此猜测。更进一步地,若知道音乐输入信号102的风格 是民谣,则最可能的候选节拍更可能是4/4。
上面的例子示出涉及即使是非常简单的音符值序列的复杂性。很多 音符序列复杂得多,涉及不同值的很多音符、跨越多个小节的音符、附点 音符和装饰音符、切分音以及在解释节拍中的其它困难。由于这个原因, 传统计算算法可能难于准确地确定节拍。因此,节拍^r测单元554的不同 实施方式使用被培训来检测那些复杂模式的人工神经网络(ANN) 560。通过给ANN 560可提供不同节拍的很多样本和针对每个样本改进的代价 函数来培训ANN 560。在一些实施方式中,4吏用学习范式来培训ANN 560。学习范式可包括例如有监督的学习、没有监督的学习或强化学习算 法。
应认识到,通过使用拍速和节拍信息中的任一个或两个可产生很多 有用类型的信息,以用作音乐元素或解构的输出570。例如,这些信息可 允许确定在哪里将音符分为小节(例如,作为八分音符组),而不是使 用符尾单独地指定音符;何时将一音符分在两个小节中,并将其用连接线 连起来;或何时将音符组指定为三连音符(或高阶组)、装饰音符、颤音 或波音、滑音等。
在产生音乐元素或解构的输出570中可能有用的另一组信息涉及音 乐输入信号102的一部分的音调。音调信息可包括例如被识别的根音高和 相关调式。例如,"A小调"表示音调的根音高是"A",而调式是小调。 每个音调以调号为特征,调号标识"在音调中"(例如,与音调关联的全 音阶的部分)和"在音调外"(例如,在音调的范式中的临时记号)的音 符。"A小调,,例如不包含升号或降号,而"D大调"包含两个升号且不 包含降号。
在一些实施方式中,乐谱处理单元550包括配置成4t测音乐输入信 号102的音调的音调;险测单元556。音调;险测单元556的一些实施方式基 于将音高序列与 一组代价函数进行比命支来确定音调。代价函数可例如试图 最小化一首乐曲在特定的时间窗内的临时记号的数量。在其它实施方式 中,音调检测单元556可^f吏用人工神经网络来进^f亍或改进复杂的音调确 定。在又一些其它实施方式中,可对照代价函数来评估音调变化的序列, 以改进音调确定。在另一些其它实施方式中,音调4企测单元556所得到的 音调信息可用于给音符(或音符开始事件)赋予特定的音调音高标志。例 如,F大调中的"B"可被指定为"B-本位音"。当然,音调信息可用于产 生调号或乐i普表示的其它信息。在一些实施方式中,音调信息可进一步用 于产生和弦或其它和声信息。例如,以弦线乐-谱的格式可产生吉他和弦, 或可"R供爵士和弦。在其它实施方式中,乐谱处理单元550还包括配置成识别正演奏音 乐输入信号102的乐器的乐器识别单元558。乐器常常^皮认为具有特定的 音色。然而,根据被演奏的音符或音符被演奏的方式,在单个乐器上可能 有音色的差异。例如,根据例如在其构造中使用的材料、演奏者的触摸、 被演奏的音符(例如,在开弦上演奏的音符具有与在用手指弹奏的弦上演 奏的相同音符不同的音色,以及在小提琴音区下部的音符具有与上部音区 中的音符不同的音色)、音符是用弓拉的还是弹拨的等,每个小提琴的音 色不同。然而,在小提琴音符之间仍然可能有足够的类似,以将其识别为 小提琴,而不是另一乐器。乐器识别单元558的实施方式配置成比较单个或多个音符的特征, 以确定明显由音乐输入信号102的乐器演奏的音高的音域、由该乐器在那 些音高的每个音高处产生的音色、和/或在该乐器上演奏的音符的振幅包 络。在一个实施方式中,音色差异被用于通过将乐器的一般音色符号样本 与来自音乐输入信号102的检测到的音色进行比较,以检测不同的乐器。 例如,即使以相同音量演奏相同时值的相同音符时,萨克斯和钢琴由于其 不同的音色也可能发出非常不同的声音。当然,如上所述,只基于音色的 识别的准确性可能是有限的。在另一实施方式中,音高音域用于检测不同的乐器。例如,大提琴 一般可演奏范围从中央C音之下的大约两个八度到中央C音之上的大约 一个八度的音符。然而,小提琴一般可演奏范围从恰好在中央C音之下 到中央C音之上的大约四个八度的音符。因此,即使小提琴和大提琴可 具有相似的音色(它们都是拉奏弦乐器),其音高音域可充分不同以用于 识别。当然,假定音域在某种程度上确实交叠,存在误差是可能的。进一 步地,其它乐器(例如钢琴)具有可与^f艮多乐器交叠的较大音域。在又一实施方式中,包络检测用于识别不同的乐器。例如,在槌打 乐器(例如钢琴)上演奏的音符的发声可能不同于在木管乐器(例如长笛)、 簧乐器(例如双簧管)、铜管乐器(例如小号)或弦乐器(例如小提琴) 上演奏的音符。然而,每种乐器能够产生^f艮多不同类型的包络,取决于音 符如何被演奏。例如,小提琴可被弹拨或拉奏,或音符可被连奏或断奏。25至少由于上面提到的困难,准确的乐器识别可能需要检测复杂的模 式,包括可能在多个音符上的音乐输入信号102的多个特征。因此,乐器识别单元558的一些实施方式利用被培训来检测这些复杂模式的组合的 人工神经网^各560。乐谱处理单元550的一些实施方式包括配置成识别来自音乐输入信 号102内的音频声道的声道检测单元562。在一些情况下,音乐输入信号 102可以为已经被声道分离的格式。例如,在某些数字音频磁带(DAT) 上的音频可被储存为8个分离的数字音频声道。在这些情况下,声道检测 单元562可配置成仅^l识别这些分立的音频声道。然而在其它情况下,多个声道可储存在单个音乐输入信号102中, 且需要通过从音乐输入信号提取某些数据来进行识別。因此,声道检测单 元562的一些实施方式配置成使用从音乐输入信号102提取的信息来识别 分开的音频声道。例如,演奏可包括同时演奏的5种乐器(例如爵士五重 奏)。可能希望将那些分开的乐器识别为分开的声道。声道4全测可用很多不同的方式完成。在一个实施方式中,声道才企测 单元562使用音高检测来确定是否不同的音符序列表现为被限制到某些 音高音域。在另一实施方式中,声道检测单元562使用来自乐器识别单元 558的乐器识別信息来确定不同的声道。很多乐谱也包含关于乐曲或演奏的全局力度强弱的信息。与上述音 符力度强弱不同,全局力度强弱指跨越多个音符的力度强弱。例如,整个 曲子或曲子的一部分可被标记为强的(高声)或弱的(轻柔)。在另一例 子中,音符的序列可在声音渐强中逐渐增大。为了产生这种类型的信息, 乐谱处理单元550的一些实施方式包括全局力度强弱4全测单元564。全局 力度强弱4企测单元564的实施方式使用振幅信息,在一些情况下包括音符 力度强弱信息和/或包络信息,以检测全局力度强弱。在某些实施方式中,从音乐输入信号102预先确定或适应性地产生 阈值,以帮助力度强弱确定。例如,摇滚演奏的平均音量可被认为是强的。 超过该平均值某个数量(例如,阈值、标准偏差等)的振幅可被认为是极 强的,而落在该平均值之下某个数量的振幅可被认为是弱的。某些实施方式可进一步考虑力度强弱变化出现的时值。例如,以两 分钟的平静音符开始并随后转换到两分钟的较大声的音符段的部分可被 认为弱音段后跟随有强音段。另一方面,在几个音符的过程中增加、对几 个更多的音符保持在该较高的音量并接着返回到原始振幅的平静段,可被 认为渐强段跟随有渐弱段。可产生上面描述的所有不同类型的信息以及任何其它有用的信息,以用作音乐元素或解构的输出570。除了参考系统的各种部件描述的音乐 元素或解构的输出570以外,任何数量的其它音乐元素或解构的输出570 也可从相同的或其它信息产生。在一个例子中,例如,音符-陂确定为断奏 附点八分音符。其它音乐元素570可包括音符主体、符干、符尾、时值附 点、断奏附点和音符的其它特征。其它音乐元素570甚至也可包括在显示 器上的或打印出的音符表示的风格和颜色、符干的方向(例如,该方向可 以是默认的,或根据其在五线谱上的位置来指示其反向,或它可被改变以 指明音符是特定音符序列的部分)、音符主体的大小(例如,它可为了易 读性按大小排列,以将它与其它音符区分开,或为了某个其它原因)、音 符符头的形状(例如,对于击发声,它可为不同的形状)、或任何其它有 用的信息。在其它例子中,音乐元素或解构的输出570可包括五线谱线、 谱号、小节号、歌词、歌词对齐、页标题、五线谱标题、页边空白、乐器 数据、重放数据等。在又一些其它实施方式中,音乐元素或解构的输出 570可包括关于是哪个合作者增加或编辑了 一文件的一部分、其他合作者 是赞成还是反对该编辑的信息、或其它有用的合作信息。音乐元素或解构 的输出570可^皮保存或输出。应认识到,上面描述的各种单元和部件可用各种方法实现,而不偏 离本发明。例如,某些单元可为其它单元的部件,或可实现为另一单元的 额外功能。进一步地,根据本发明,可用很多方法连接单元,且数据可在 其间以很多方式流动。更进一步地,在2008年2月1日^是交的Robert D.Taub等人的标题为"MUSIC TRANSCRIPTION "的美国申请号 12/024,981中进一步描述了的涉及音频解构的各种实施方式,该专利申请 为了所有目的在这里通过引用被并入。从乐谱图像解构出音乐元 素在一些情况下可能是合乎需要的。本发明的实施方式配置成接受乐谱图 像作为输入。应认识到,从乐谱图像解构出音乐元素或执行乐谱解构的很 多方法是可能的。图6A示出根据本发明处理音乐图像数据以提供光学字符识别(OCR)特征的系统。OCR处理器602接收使用乐谱捕获设备606例如 摄像机或扫描仪捕获的乐谱604的图像数据。OCR处理器602产生包括 相应于乐谱输入的数据的乐语输出,但是是以可被多样化地利用的数字形 式。乐谱的数字表示可容易由其它系统处理,包括但不限于,打印出的输 出,供搜索机构使用,用于分配和与多个用户合作,并用于例如使用MIDI 部件产生音频输出。例如,图6A示出乐语可被提供到打印功能608、搜 索功能610、分配功能612和音频/MIDI输出614。所捕获的乐谱图像可使用任何图像捕获设备产生,包括网络摄像头、 电话摄像机、对准即拍摄像机以及其它的和更复杂的摄像机。 一旦乐谱的 图像被捕获,它就被提供给OCR处理器用于调节和额外的处理。图6B示出从捕获设备606 (图6A)产生的、作为输入提供到OCR 处理器602的示例性图像数据652。图6B示出,OCR处理器602包括接 收图像数据的图像预处理部件654。图像数据可以为例如位像 (.bmp)、 JPEG数据、TIFF数据的形式和数码摄像机通常使用的其它文 件格式等。图像处理部件执行二值化、图像的倾斜校正以及不相关的背景 成分的移除。二值化操作涉及对所捕获的图像中的亮度和对比度的调节。 倾斜校正操作涉及图像的校正,这些图像从一方向旋转,将音乐五线谱线 对齐为平行于图像的底部边缘。不相关的背景成分移除通过移除噪声伪像 和其它不需要的背景成分来清理图像。如果需要,预处理操作可由外部图 像处理例程或模块执行。预处理部件654向神经网络(NN)处理部件656提供所产生的数据。 NN处理部件656识别在所捕获的图像中的音乐符号,并执行对光学图像 的认知处理。也就是说,神经网络执行识别在所捕获的音乐图像中的音乐符号的计算机过程,且在必要的场合认知地解译识别出的符号并从输入数 据推断,以确定在所捕获的图像中的伪像或符号的适当标记。
NN处理部件656包括被培训的神经网络,其接收经调节的乐谱图像。 如果需要,被培训的神经网络可利用其输出来提供反馈并调节其操作。这 样的反馈可能需要因子图操作,以利用反向传播技术或调节已被培训的神 经网络的网络节点权重。使用输出作为反馈的其它技术对本领域技术人员 是已知的。
NN处理部件656的输出被4是供到产生NN的输出的后处理部件658。 后处理部件的输出可接着被提供到各种功能,例如图6A所示的打印、搜 索、分配和音频功能。后处理部件对NN输出4丸行解译功能,以确定NN 所识别的哪些伪像类型可能是正确的。由后处理部件658所进行的解译是 基于NN所产生的置信度值。本领域技术人员应熟悉对NN置信度值输出 数据的解译技术。后处理接着产生以适当格式的OCR处理器输出,例如 音乐音符信息或相应于识别出的音乐伪像的其它信息。例如,音乐信息可 采取电子乐器表示的形式,例如MIDI格式、或其它数据格式、或信息的 其它组合。
应认识到,上面描述的各种单元和部件可用各种方法实现,而不偏 离本发明。例如,某些单元可为其它单元的部件,或可实现为另一单元的 额外功能。进一步地,根据本发明,可用很多方法连接单元,且数据可在 其间以4艮多方式流动。更进一步地,在2008年2月13日^是交的Robert D.Taub等人的标题为"MUSIC SCORE DECONSTRUCTION"的美国临 时申请号61/028,490中进一步描述了的涉及乐谱分解的各种实施方式, 该专利申请为了所有目的在这里通过引用被并入。在2005年12月15曰 提交的Robert D.Taub的标题为"SYSTEM AND METHOD FOR MUSIC SCORE CAPTURE AND SYNCHRONIZED AUDIO PERFORMANCE WITH SYNCHRONIZED PRESENTATION"的美国专利申请第11/303,812 号中可找到乐谱捕获技术的其它方面,该专利申请为了所有目的在这里通 过引用禾皮并入。
合作门户本发明的很多方面涉及合作门户的功能和/或构成。在一些实施方式
中,合作门户可实现为图1的门户160。合作门户的各种实施方式可提供 关于文件管理、音乐观看、音乐编辑、虚拟会议、会话记录和合作音乐处 理的其它方面的功能。应认识到,就图形用户界面(GU1)设计和实现、 合作门户所允许的用户互动的水平、GUI控制的类型、模块和部件之间 的功能交叉和依赖性、网络i殳计和接口、文件管理和合作门户的其它方面 而言,可存在很多可能性。因此,下面的描述仅用来说明本发明的一些示 例性实施方式,且本领域技术人员应认识到,本发明的范围不受所公开的 特定实施方式的限制。
图7示出根据本发明的可包括在合作门户700中的实施方式中的各 种模块的一个示例性配置。在一些实施方式中,合作门户700包括三个主 要的层登录层702、 GUI层710和输出产生层790。应认识到,分成三 层仅用来使合作门户700的各种功能的讨论清楚,并且可以或可以不影响 合作门户700的实际实现。
登录层702可操作来控制合作门户700的各个meta-GUI方面。登录 层702的一些实施方式实现为图1的网络接口单元150。在一些实施方式 中,登录层702可操作来控制网络路由和权限。由于各种原因,保护或管 理GUI或合作项目元素可能是合乎需要的。例如,比如说,服务器为很 多不同的合作者存储关于很多不同合作项目的数据。合作者可能希望限制 对其合作文件的访问,例如以保护数据免遭不希望有的编辑或删除,保护
数据免遭不希望有的观看或复制,查看谁正在使用文件以及它们何时被使 用,以及为了其它原因。
在一些实施方式中,登录层702可操作来接收登录信息,使用该登 录信息可确定用户访问权限。用户可以被或可以不被限制访问整个合作门 户700 (例如,合作门户700可作为订阅服务才喿作)、合作门户700的某 些部分(例如,可能有允许访问不同价格的不同功能的分层定价结构,不 同级别的用户可访问不同的功能,不同类型的合作项目可与不同类型的功 能相关,等等)、某些文件(例如,用户只可访问与给定合作项目相关的 文件,用户只可访问该用户上载或招:稿的文件,用户对项目中的不同文件可以有不同类型的访问(例如,读、写、编辑、删除、评论等),等等)、 或其它信息(例如,合作者信息、某些文件管理功能、某些公布和/或共 享功能等)。
在其它实施方式中,登录层702可操作来接收登录或其它信息以确 定用户的特征,而不是访问权限。例如,某个配置或偏好信息可能与给定 的用户、用户工作站、用户类别等相关。例如,对于给定的合作项目,一 组用户可为该合作项目的"所有者"(例如,有对相关文件的所有方面的 完全权限),第二组用户可为"合作者"(例如,有对某些合作和编辑能力 的使用权),第三组用户可为"投稿人,,(例如,只有对他们投稿的文件的 编辑权),第四组用户可为"爱好者"(例如,没有对任何文件的编辑权, 但有权听被公布的输出文件),以及第五组用户可能根本没有使用权。在 另一实施方式中,登录信息用于配置合作门户700的偏好,以匹配关于用 户的配置文件。例如,可给新用户和专家用户"R供不同的特征组和菜单。
在又一些其它实施方式中,登录层702可操作来接收登录信息或关 于某些用户的能力或偏好的其它信息,包括没有权访问特定合作项目的那 些用户。在一个实施方式中,用户向门户提交关于他们知道如何演奏哪些 乐器、其4支能水平、其影响力等的信息。这可帮助乐队和其他人找到要联 系来接收音乐稿件或某些类型的反馈的人。在另一实施方式中,用户向门 户提交关于其收听偏好的信息。乐队、制作人、其他用户以及其他人和实 体可接着使用该信息来向那些用户指示或建议可能合意的内容,以满足其 偏好。
在又一些其它实施方式中,登录层702可控制各种网络业务和/或文 件管理功能。例如,根据各种网络特征(例如,用户工作站的地理位置、 登录到合作门户700或特定合作项目中的用户的数量、在给定时间传输的 数据的量、被传输的数据的类型、所使用的加密的类型等)发送或控制网 络业务和/或文件上载和下载的流量可能是合乎需要的。在某些实施方式 中,登录层702可操作来收集某些类型的网络信息,并使用该信息来执行 上面的功能。
在合作门户700的一个示例性使用中,用户可发起一合作项目。用
31户可通过建立关于该项目的偏好来开始。例如,用户可设定访问权限、文 件处理偏好、音乐创作偏好、乐谱表示权限等。用户也可上载至少一个音
乐稿件,以开始合作项目的创作。在合作门户700的另一示例性使用中, 用户可登录到合作门户700中以访问现有的合作项目。用户可接着将额外 的音乐稿件上载到该项目,编辑关于合作项目的现有信息,或以其他方式 与合作项目交互。
GUI层710可操作来才艮据本发明的实施方式控制各种用户界面功能。 完全为了描述的清楚,GUI层710的一些功能可关于两个子层被描述 乐谱层720和合作层730。应认识到,合作门户700的实施方式可以或可 以不使用这些层来实现。
如这里描述的乐谱层720可处理合作门户700的与音乐有关的方面 中的任何一个或全部,这些方面包括^见看722、编辑724、录制和重放726 以及制作728功能。这些不同功能中的任何一个或全部可用^f艮多不同的方 法处理音频和有关数据。例如,用户可在信号级、在乐谱表示级或以任何 其它形式与音频数据交互。进一步地,取决于所使用的数据表示的类型, 用户可能能够或可能不能够利用各种功能。例如,可能希望只在合作门户 700的乐谱表示模式中提供音符编辑能力,而只可在合作门户700的信号 表示模式中提供信号处理功能。
当然,合作门户700也可操作来在多个表示模式中同时操作。在一 些实施方式中,观看功能722可操作来提供如图8A和8B所示的多个视 图。图8A示出观看功能722的例证性实施方式,其包括一合作项目的一 部分的三个对齐的视图。图8B示出图8A所示的观看功能722的放大视 图的例证性实施方式,集中于一特定的音符。
首先转到图8A,其示出乐谱表示视图810、信号表示视图820和钢 琴巻帘表示视图830。可对齐这些视图的时间标尺。在一些实施方式中, 不同的视图可操作来随着重放或录制的进行而滚动。在某些实施方式中, 当重放或录制进行时,某些元素可保持在适当的位置,以增强观看体验。 例如,当视图滚动时,当前重放位置条812可保持在观看窗的一个位置(例 如,中央)上,以表示当前正播放或接收什么数据。在另一例子中,当视图滚动时,语号、调号、声道标题、节拍和其它元素可保持在观看窗的一 个位置(例如,左边)上。
乐谱表示视图810可提供关于乐谱(例如,活页乐谱)元素的信息,
包括音符、五线谱、小节号、歌词、调号等。在乐谱表示视图810中提供 关于所显示的(或可显示的)音乐元素中的任何一个或全部的某些编辑能 力可能是合乎需要的。例如,可添加、删除或移动音符;音符的部分可被 变调、数字转换(例如,到最接近的八分音符)等;可转换符干方向;可 添加或更改表达标记(例如,断奏附点、圓滑奏、重音等);可更改谱号、 调号、拍号和其它信息,可添加、更改、排列歌词,等等;可添加反复符 号、小节线和其它小节处理;等等。
信号表示视图820可提供关于一个或多个音频信号的信息,包括振 幅、包络等。在信号表示视图820中提供关于所显示的(或可显示的)音 乐元素中的任何一个或全部元素的某些编辑能力可能是合乎需要的。例 如,可清理信号(例如,通过使用滤波器、或通过比较该信号与其它信号 数据);可产生包络;可解构出音符开始和其它音乐元素信息(例如,以 不同的分辨率或使用来自其它音乐稿件的更多信息进行解构);可对信号 进行标准化(例如,以避免多个音乐稿件之间的平均或峰值音量中的差异, 或避免削波);可对某些部分进行重新采样(例如,以不同的采样率);可 添加谐波效应(例如,失真、滤波、混响等);可添加包络和有关的效果 (例如,摇摄、渐强、减弱等);可剪切、复制或粘贴信号的部分等;等 等。
钢琴巻帘表示视图830可提供与在乐谱表示视图810中所提供的类 似或不同的信息,但由于各种原因,可被不同地表示。例如,用户可能不 理解如何阅读活页乐谱,这使乐语表示视图810对该用户可能是不合需要 的表示方案。在另一例子中,用户可能希望微移音符,以细微地影响该音 符的表现性重放,但不够影响该音符在乐谱上的位置。如所示,钢琴巻帘 表示视图830示出与钢琴键盘有关的音符音高和音符时值随着时间的过 去的条线图式表示。也可提供其它信息,例如包括小节线。
应认识到,可才是供很多其它观看功能。在一个实施方式中,每个视图显示在可选择的窗口中,该窗口可与其它窗口中的一些或全部对齐(如所示)或可被独立地显示(例如,可被最大化到显示器的较大部分)。在各种实施方式中,可提供用于增强用户界面体验的菜单和控制。例如,可提供可点击的图标,以允许用户执行与特定的表示有关的各种功能(例如,
在乐谱表示视图810中,可提供"添加音符"图标)。在另一实施方式中,控制可根据当前活动的表示或用户的其它动作而变化。例如,如果用户在信号表示视图820中选择音频信号的一部分(例如,通过使用鼠标点击和拖曳),"对选择提取音符开始"图标可能出现(或变成可选择的)。在又一些其它实施方式中,当用户在不同的表示视图中左击、右击、双击或以其它方式选择音符或其它音乐元素时,可给提供用户不同的菜单和选项。
在一些实施方式中,可提供放大功能。例如,放大信号表示视图820以能够更清楚地看到音频信号的方面可能是合乎需要的。当多个窗对齐地显示时,这些窗都可一起缩放,以维持对齐。用户可能能够例如通过选择缩放窗(例如,信号表示视图820中的信号的一部分)或通过选择特定的音乐元素来缩放。在各种实施方式中,"放大"视图可提供额外的信息,且可以或可以不处在分开的窗或框中。
例如,通过选择特定的音符,可给用户提供对该音符特定的额外视图。图8B示出这种情况的实施方式。用户在图8A的乐谱表示视图810中选择音符814。给用户提供了三个新的表示视图音符包络视图840、音符音色视图850和音符信息视图860。
在音符包络视图840中,可提供音频信号的关于该音符的部分。也可提供其它信息,包括所得出的包络、包络交叉等。在音符音色视图850中,可提供音频信号的关于该音符的部分的谐波成分。也可提供其它信息,包括所识别出的具有高置信度的频率、置信度值、峰值位置和振幅、基频标识、泛音系列、叠加的乐器音色图(例如,模拟的大钢琴的谐波成分)、本底噪声阈值等。在音符信息视图860中,可提供关于选定音符的各种类型的文本信息。例如,可提供关于下列内容的信息音符的表示音乐位置(例如,声道、五线谱、小节、开始时间戳、终止时间戳、时值等);所提取的信息(例如,所提取的音符开始和音符终止时间、峰值振幅、ADSR包络信息等);量化的或以其他方式校准的信息(例如,四舍五入的开始和终止时间、预测的音符值、预测的音高、预测的音调、预测的乐器或声道等);关于各种信息的置信度值(例如,只可能以96%的置信度确定音符是四分音符等);等等。
返回到图7,合作门户700的乐i普层720的其它功能涉及编辑功能724。编辑功能724可涉及音乐稿件的信号级、音乐稿件的音乐元素、多个音乐稿件中的或作为整体的合作项目的共享元素或特征、或合作项目的任何其它有用的方面。在一些实施方式中,编辑功能724直接影响合作项目的音乐元素(例如,音符、拍速、力度强弱等)。在其它实施方式中,编辑功能724影响音乐元素的重放(例如,通过表现的细微之处、效果、乐器等)。在又一些其它实施方式中,编辑功能724影响音乐元素的显示(例如,"摆动的"八分音符可被显示为八分音符,即使它使用切分音来演奏)。
编辑功能724的一些方面涉及音频和乐i普解构。上面更充分地讨i仑了音频和乐谱解构的实施方式。在合作门户700的一些实施方式中,在不同的解构级别接收音乐稿件。根本没有解构的音乐稿件可以在它们被上载到合作门户700或添加到合作项目时被解构。在一些情况下,音乐稿件(或其部分)可在没有任何解构的情况下添加到合作项目。
在某些实施方式中,以前没有#:解构(或以前在特定的级别被解构)的音乐稿件可以在需要时-陂解构。例如,低音线可添加到合作项目以对一构想进行试验,并可保持为音频录制,而没有解构成音乐元素。稍后,合作者可能希望进一步对低音线的组成部分进行试验。因此,他们可能希望解构出节奏(例如,以将另一声道重新调准到该低音线的节奏或改变拍
速),解构出音符音高或音程(例如,这样,此选择可能被变调到不同的音调,或可改变乐器),等等。
应认识到,虽然可在信号级执行某些功能,但是,音乐元素级可提供更多或改进的功能。例如,在没有首先在音符级提取某些音乐元素的情况下从信号确定音调或节拍可能不实际。在另一例子中,可能在信号级减慢乐段的拍速(例如,通过将样本智能地插到数字音频信号中),但可能
35增加不希望有的伪像(例如,可能有混叠,或某些类型的失真或混响可能在时间延长时听起来很奇怪)。通过在解构音乐元素之后改变拍速可改进结果(例如,音符效果可保持联系到一音符,而不影响效果本身),
合作门户700的乐谱层720的其它功能涉及录制和重放功能726。 一些实施方式提供非合作式音乐创作和处理环境所提供的传统类型的录制和音频重放功能726。然而,其它实施方式利用合作门户700的合作性质来提供额外的功能。
在各种实施方式中,音乐稿件可用各种方式添加到一合作项目,包括通过上载、从凄t据库添加、或直接录制到该项目中。在一个实施方式中,投稿人通过连同项目的其它部分一起表演而将其音乐稿件录制到合作项目中。例如,投稿人可演奏合作项目的一部分,同时通过重放录制声乐作品。在另一实施方式中,音乐稿件以更先进的方式净皮添加。例如,投稿人可上载音频样本(例如,弹子落进水晶々大水玻璃杯中的录音),并指导合作门户700将样本添加到每隔三个小节的第一拍。
在一些实施方式中,可录制音乐稿件以提供特定的数据。例如,用户可录制节拍器声道(例如,以帮助录制其它声道或帮助拍速和节拍确定)、 一组基本的根音位置和弦(例如,以帮助音调确定)、 一组声乐音节(例如,以充当应用于吉他声道的音码滤波器)等。在某些实施方式中,所提供的音频信息可实质上实时地、以特定的时间间隔、在用户请求时或在任-f可其它有用的时间被解构。
也可用各种方法来实现录制和重^C功能726的重放功能以利用合作门户700的合作性质。在一个实施方式中,用户可能能够播放合作项目中的特定声道的全部或一部分。在另一实施方式中,用户可能能够播放整个合作项目及其所有組成的声道和音乐稿件。在又一实施方式中,用户可能能够播放满足特定特征的所有音乐稿件(例如,来自特定的投稿人或投稿人的组,在特定的时间范围期间被添加或更改,被安排好以备合作者考虑,等等)。在又一些其它实施方式中,用户可能能够跳到合作项目的最近被修改的特定部分,在各种所提出的稿件之间转换到特定的部分,或执行任何其它有用的重放功能。应认识到,也可根据本发明提供很多其它重放和录制功能。例如, 音乐稿件可在它们被栽入(例如,它们可为流式的)时播放。在另一例子 中,音频可在被上载、录制、重放等时被处理或解构。
合作门户700的乐谱层720的其它功能涉及制作功能728。在一些情 况下,合作者可能希望设计合作数据的形式或添加与各种类型的制作有关 的合作数据。在一个实施方式中,合作门户700包括歌词处理功能。例如, 歌词处理功能可包括添加和编辑歌词;使歌词与音符或其它音乐元素对 齐;并设计歌词显示的形式(例如,字体、尺寸、跨越多个音符的音节或 单词的处理,等等)。
在另一实施方式中,制作功能728包括非音乐(或间接的音乐)乐 谱表示信息的处理。例如,合作门户700可允"i午用户添加小节号;声道标 题;乐谱标题;页眉、页脚和页边空白;表情和力度强弱标记;乐谱符号 表示法(例如,西格纳、尾奏等);乐器特有的标记(例如,弦线记谱栅 格、拉奏或弹拨的方向等);文本信息(例如,演奏乐语上的指引文本、 版权信息等);或对演奏者或其他参与者可能有用的任何其它数据。
制作功能728的又一些其它实施方式可包括音频制作特征而不是乐 谱制作特征。例如,合作门户700可提供关于采样(例如,为了改变采样 率)、低半音(例如,为了除去声道特有的或4殳稿人特有的数据)、编码(例 如,对于特定的编解码或媒体播放器)等的能力。其它信息可被提供给合 作门户700的输出产生层790或由输出产生层790提供。
在合作门户700的各种实施方式中,4是供了与合作层730有关的功 能。在一些实施方式中,合作层730包括文件管理功能732和会议功能 734。
图9示出根据本发明的用于合作门户700的GUI 900的实施方式, GUI900示出各种合作层730功能。GUI 900的一些功能可涉及文件管理 功能732,而GUI 900的其它功能可涉及会议功能734。
GUI900提供了很多方面,每个方面提供各种类型和级别的功能,包 括视频会议区910、聊天区920、音乐区930和很多按钮950。视频会议区910提供对视频会议有用的特征。例如,可在视频会议的时间为每个在
线的合作者提供视频窗,因此合作者都可以有虚拟的"现场直播"合作会 话。应认识到,根据本发明可包括各种音频和视频特征来增强^见频会议区
910和能力。例如,可提供音频和视频控制(例如,音量、分辨率等)、"呼 叫,,控制(例如,参加会议、邀请、挂断、转移等),以及呼叫者控制选 项(例如,将屏幕控制传递到会议的特定出席者,等等)。
在各种实施方式中,聊天区920可包括对文本会议或对记录有用的 各种特征。在一个实施方式中,聊天区920仅仅充当记录由会议会话中的 参与者输入的文本信息的虚拟记事本。在其它实施方式中,聊天区920 可操作来记录和/或显示视频、音频和其它数据。例如,投稿人可播放即 兴小段并将它与文本"你们认为这怎么样?,, 一起附到聊天区920。在又 一些其它实施方式中,聊天区920可充当接受徒手画的图画和文本(例如, 使用鼠标作为笔)的虛拟白板。在又一些其它实施方式中,聊天区920 可操作来翻译信息,以获得增强的记录或可用性)。例如,聊天区920可 自动转录在音频或视频会议期间讲的对话,将徒手画的文字转换成可编辑 的文本,或其它类似的功能。
音乐区930可提供对合作项目的音乐部分的合作处理有用的任何功 能。在一个实施方式中,各种表示视图可显示和/或捕获在音乐区930的 表示框932中。例如,如所示,合作项目的一部分的乐谱和信号表示可显 示在表示框932中。
音乐区930也可包括重方丈控制框634。如所示,重放控制才匡634可包 括任何数量的控制和指示器,包括播放控制(例如,播放、暂停、停止、 录音等)、进度条(例如,显示消逝的重放时间的进度指示器、对在装入 期间的重放的进度指示器(例如,流式重放)、章节或其它索引指示器等)、 用于评论的指示器(例如,合作者输入评论或标注位置的位置)、以及任 何其它有用的指示器或控制。
在一些实施方式中,音乐区930提供增强的功能。在一个实施方式 中,合作者可向合作文件的部分提供评论936。例如,比如it, 一乐队将 其合作文件张贴到歌迷网站上,以让歌迷听和评论。当听该项目时,歌迷
38(John)可将评论936添加到文件,表达某些想法,例如"我喜欢这段, 但我认为,如果有爵士风格更强的低音即兴小段,那么它听起来更棒,就 像他们的上一张专辑上的一样"。接着,此评论936可作为该文件的一部 分显示出来,供合作者和其它爱好者观看。其他歌迷可接着响应于John 的评论来张贴文本、视频、音频或其它评论936。例如,另一歌迷(Mary) 可张贴陈述"我喜欢它本来的样子!"的响应。又一歌迷(Steve)可张贴 包含他创作的新低音线的音频片段的响应,他认为这个音频片段将完美地 适合该歌曲。以这种方式,评论936可以变成一种博客工具。如所示,在 视频会议会话期间,合作者可停下其合作项目,及其相关的评论936,并 讨论对其项目的反应。
音乐区930的另一增强的功能可以是以合作方式在音乐区930内编 辑的能力。在各种实施方式中,合作者可从音乐区930内使用合作门户 700的所有可适用的功能。在其它实施方式中,提供了进一步的功能,如 在音乐区930上虚拟"画图"的能力。例如,在视频会议会话期间,合作 者可能希望暂停合作项目的重放,并指出他不喜欢的音符。使用虚拟画图 功能,合作者可虚拟地绘制在该音符周围的圆圈和甚至指向音符938的箭 头。应认识到,这个和其它类似的信息可暂时在会话期间储存在与合作项 目相关的会议会话的日志中,或根本不存储,取决于某些偏好。
GUI 900的实施方式也可提供任何数量的其它控制。在一些实施方式 中,提供了用于使用合作门户700的其它某些功能的多个按钮950。应认 识到,根据本发明可用很多其它方式提供对门户功能的使用,包括通过使 用菜单、其它窗口和模块等。作为例子,在图9中示出8个按钮950:"添 加稿件(Add Contribution)"、"爵士音乐即兴演奏会的模式(Jam Session Mode)"、"转换重放(Toggle Playback)","播方i7录制选项(Play/Record Options ),,、"偏好(Preferences ),,、"合作菜单(Collaboration Menu)"、"公 告板(BulletinBoard)"和"搜索(Search)"。
"添加稿件,,按钮可允许GUI 900的用户将音乐稿件添加到合作项 目。在添加过程期间,也可提供其它选项(例如,通过l是供其它菜单)。 例如,音乐稿件可作为新声道添加或添加到现有的声道,或作为对项目的部分的4艮多选项之一;音频可在添加期间净皮处理(例如,通过下变频、角竽 构等);或音频可^皮同步或量化到某些参数(例如,到鼓声道)。
"爵士音乐即兴演奏会的模式"按钮可允许用户输入虚拟的即兴演 奏会。在该示例性冲莫式中,参与者可在一起"即兴演奏"(例如,表演) 的同时演奏合作项目的全部或部分。额外的选项可允许参与者例如重复演 奏合作项目的某些部分(例如,以对相同乐段不断尝试新的理念或实践歌 曲的片段),录制即兴演奏会的全部或部分(例如,实时地),自动解构即 兴演奏会的全部或部分(例如,以产生音乐元素、产生乐谱等),等等。
"转换重放"按钮可允许合作者在合作项目中的多个可能的乐段之 间转换。例如,假定三个不同的合作者(例如,两个歌迷和一个乐队成员) 都为声乐声道提出了想法。在合作项目的重放期间(例如,在^L频会议期 间),合作者可能能够在三个提交中转换,以决定他们最喜欢哪个,如果 有的话。
额外的功能可允许合作者选择他们更喜欢的乐段。例如,GUI 900的 一些实施方式可给合作者提供投票表决按钮,以允许合作者投票表决特定 的意见。当然,4艮多额外的控制、指示器和功能可支持或增强此能力。例 如,合作门户700可操作来记录选票,产生统计数字,确定优胜者,考虑 其它各方(例如,歌迷)的投票,等等。
"播力l/录制选项"按钮可提供对任何数量的播放和录制选项的访问 途径。例如,选择该按钮可使一菜单显示在GUI 900中,该菜单具有选 择播放哪些声道、是否锁定某些声道以防止进一步的编辑等的选项。上面 进一步讨论了可利用的一些其它播放和录制功能。
"偏好"按钮可给用户提供对任何数量的偏好的访问途径。在一些 实施方式中,很多偏好可用于配置GUI900。例如,用户可选择GUI900 所提供的不同框、区域、控制和指示器的尺寸、可用性和功能。在其它实 施方式中,偏好可用于配置^i义、用户配置文件和合作门户700的任何其 它特4正。
"合作菜单,,按钮可提供与合作有关的选项。例如,该菜单可提供
40会议选项(例如,开始会议、结束会议、邀请出席者、阻挡出席者、显示 出席者信息等)、安全设置(例如,关于数字版权管理、加密、文件访问 等)、改变用户状态(例如,给特定的用户提供特定的许可)、7>布选项(例 如,输入公布模式、向歌迷网站公布合作项目、烧毁试播曲目等),等等。
合作菜单的其它特征可涉及文件管理。与合作项目有关的音乐稿件 和其它文件可来自不同的源,储存在不同的位置,以不同的才各式储存,包
含不同类型的信息,具有不同的安全设置,等等。因此,合作门户700 的很多功能可涉及允许某些用户处理文件管理。此外,在合作环境中提供 与改变管理有关的功能可能是合乎需要的。例如,合作者可能希望能够锁 定文件以防止进一步的改变,对某些用户限制改变,记录文件的以前的版 本(例如,在一些情况下限制到某个数量的版本,在某个量的时间内等), 以及对合作项目的改变有其它类型的控制。
"公告板"按钮可提供对虚拟公告板的访问途径,其中用户可张贴 不同类型的内容。例如,歌迷可张贴关于乐队(例如,关于音乐指导、最 近的巡回演出音乐会、最近的专辑、成员等)、试听磁带和音乐稿件等的 一般评论;合作者可张贴对歌迷的问题、即将来临的演出的传单、对歌迷 评论的反应等;以及任何其它有用的信息。
"搜索"可提供对各种搜索功能的访问途径,包括基于音乐的搜索 功能。在一个实施方式中,合作者可^:索具有某些特征(例如,来自地理 区域、经过某种培训、具有某些影响等)的音乐家,作为其乐队、乐团、 管弦乐队等的可能的未来^:稿人或成员。在另一实施方式中,音乐家可能 希望搜索音乐"剪贴画"。例如,音乐家可能希望从头到尾浏览以7/8节 拍写的主旋律库,以得到对合作项目的某些部分的启发。该库可例如从解 构的音频文件的数据库中自动产生,被贡献出作为开放式音乐共享数据 库,张贴到数据库用于出售等。在又一个实施方式中,音乐家可能希望搜 索与他们写的乐段类似的乐段,以避免或检测可能的侵权或乐曲作品的其 它未经授权的4吏用。在Robert D.Taub等人的标题为"MUSIC-BASED
SEARCHING"的美国专利申请第_号中提供了基于音乐的搜索功能
的实施方式,该申请同本申请同时提交并为了所有目的在这里通过引用被并入。
虽然上面的描述主要集中于音乐家的乐队和乐团对GUI 900的使用, 应认识到,很多其它类型的用户是可能的。在一个实施方式中,制作人和 工程师可使用合作门户700来在最终音乐输出上进行合作。在另一实施方 式中,市场人员、音乐节目主持人和其他人可与乐队和/或其他人合作, 以评论、帮助完成或预览音乐。在又一个实施方式中,音乐家可使用合作 门户来学习音乐。例如,乐团能够一起在GUI 900内练习,或乐队的新 成员或可能的成员能够演奏歌曲来练习或试音。
在合作门户700的一个示例性用法中,学生可能希望通过互联网与 其钢琴老师会面,以得到对难的乐段的帮助。乐谦可显示在音乐区930 中,且学生和老师可在视频会议区910开始视频会议。当学生演奏时,老 师能够使用GUI卯0的各种特征指出错误或改进的区域。可选地,老师 能够演奏乐曲的某些部分,以让学生听。
在合作门户700的另一示例性用法中,学生可能希望练习钢琴曲。 乐谱可显示在音乐区930中,且学生可进入练习模式。当学生演奏时,他 的音乐输入可自动解构成音乐元素(例如,至少到显示为乐谱表示所必需 的水平)。学生演奏的乐谱表示也可显示在音乐区930中。例如,当学生
演奏时,他可看到其演奏的乐谱表示上;fl在音乐区930中的原始乐谱上
(例如,以不同的颜色)。学生可接着能够清楚地看到其演奏中有错误的 地方(例如,在音符音高和/或时值上)。进一步的功能可帮助学生识别改 进的区域、需要额外的练习的区域、需要额外的练习的技能、显示随着时 间的过去的提高的得分和学习进程、供学生的老师所使用的练习日志和记 录、以及任何其它有用的信息。例如,合作门户700可识别出,每当在音 乐中出现大的跳跃时,学生演奏不正确的音符。合作门户700可接着产生 或识别一组练习曲(或其它乐曲)以帮助学生练习该技能。
应认识到,在合作项目创作期间或之后,很多不同类型的数据的很 多类型的输出是可能的。如图7所示,合作门户700的其它功能可涉及输 出产生。在一些实施方式中,输出产生由输出产生单元处理,如图l所示 的输出产生单元140 —样。在各种实施方式中,来自合作项目的输出用于产生乐谱表示的输出。 在一个实施方式中,处理从音频输入或乐谱输入解构的或以其他方式接收 到的音乐元素,以自动产生乐语表示。传统软件包和库可用于从乐谱表示
产生活页乐谱。很多这样的工具接受以诸如MIDI等预定格式、以乐曲表 示的形式的输入。因此,系统的一些实施方式产生实质上与MIDI标准一 致的乐谱表示,以确保与这样的传统工具的相容性。 一旦产生乐谱表示, 可能的应用就是大量的。在不同实施方式中,乐谱显示在设备显示器上、 被打印出、导入到音乐出版程序中、^皮储存或与其它人共享(例如,用于 另一合作的音乐项目)。
在另一实施方式中,来自合作项目的输出用于产生音频表示输出。 在一个实施方式中,音频表示输出与音频存储器和/或重放设备相容。例 如,音频表示输出可适合于烧录成音频光盘、MP3文件或任何其它专有 的或非专有的格式。在另一实施方式中,音频表示输出可配置成由音频信 号处理系统使用。在又一实施方式中,音频表示输出可操作来直接或间接 地通过音频重放部件(例如,数字家庭音频部件、扬声器、声卡等)播放。
在输出产生的其它实施方式中,来自合作门户700的表示输出被配 置成被储存,供随后使用或发送到另一系统。在一个实施方式中,输出数 据通过网络发送到客户工作站,用于进一步的处理。例如,客户工作站可 用于解构音频输出,以重放音频信号数据或执行合作门户700的任何其它 输出功能。
示例性实施方式
上面描述的系统和方法可用很多方式实现。 一种这样的实现包括各 种电子部件。例如,使用适合于在硬件中执行一些或全部适用功能的一个 或多个专用集成电路(ASIC),可单独地或共同地实现各种系统的单元。 可选地,功能可由一个或多个其它处理单元(或核心)在一个或多个集成 电路上执行。在其它实施方式中,可《吏用其它类型的集成电路(例如,结 构化的/平台ASIC、现场可编程门阵列(FPGA)和其它半定制IC),其 可用本领域已知的任何方式编程。每个单元的功能也可使用包含在存储器 中的指令来整体或部分地实现,这些指令被设计成由一个或多个通用或专用处理器执行。
图10提供了用于实现本发明的某些实施方式的计算系统1000的结 构图。在一个实施方式中,计算系统1000可起图1所示的门户160的作 用。应注意,图IO只表示提供各种部件的一般化图示,在适合时可利用 这些部件中的任4可一个或全部。因此,图10广泛示出各个系统元件可如 何以相对分开的或相对更综合的方式实现。
示出包括硬件元件的计算才几系统1000,这些硬件元件可通过总线 1026电连接(或可在适当时以其他方式进行通信)。硬件元件可包括一 个或多个处理器1002,其包括但不限于, 一个或多个通用处理器和/或一 个或多个专用处理器(例如,数字信号处理芯片、图形加速芯片和/或类 似物); 一个或多个输入设备1004,其可包括但不限于,鼠标、键盘和/ 或类似物;以及一个或多个输出i殳备1006,其可包括^旦不限于,显示设 备、打印机和/或类似物。
计算系统1000可进一步包括(和/或与其通信的) 一个或多个存储设 备1008,其可包括但不限于,本地和/或网络可访问的存储器,和/或可包 括但不限于,磁盘驱动器、驱动器阵列、光学存储设备、固态存储设备例 如随机存取存储器(RAM)和/或只读存卩渚器(ROM),这些存储器可为 可编程的、可快速更新的,等等。计算系统1000也可包括通信子系统1014 , 其可包括但不限于,调制解调器、网卡(无线或有线)、红外通信设备、 无线通信设备和/或芯片组(例如蓝牙设备、802.11设备、WiFi设备、WiMax 设备、蜂窝通信设备等)和/或类似物。通信子系统1014可允许使用网络 (例如,下面描述的网络,列举一个例子)和/或这里描述的任何其它设 备交换数据。在很多实施方式中,计算系统1000将进一步包括工作存储 器1018,其可包括RAM或ROM设备,如上所述。
计算系统1000也可包括4皮显示为当前位于工作存储器1018内的软 件元件,包括操作系统1024和/或其它代码,例如一个或多个应用程序 1022,应用程序1022可包括本发明的计算初4呈序,和/或可设计成实现本 发明的方法和/或配置本发明的系统,如这里所述的。仅仅作为例子,关 于上面讨-沦的方法描述的一个或多个程序可#皮实现为计算机(和/或计算机内的处理器)可执行的代码和/或指令。在一个实施方式中,图1的音
频和/或乐i普解构单元120以及各种其它客户端方法被实现为计算系统 IOOO可读取的应用程序1022。
这些指令和/或代码的集合可储存在计算机可读介质1010b上。在一 些实施方式中,计算机可读存储介质1010b是上面描迷的存储设备1008。 在其它实施方式中,计算机可读存储介质1010b可包括在计算机系统内。 在又一些其它实施方式中,计算机可读存储介质1010b可与计算机系统分 离(即,可移除的介质,例如光盘等)和/或设置在安装包中,使得存储 介质可用于4吏用储存在其上的指令/代码给通用计算机编程。这些指令可 采取可由计算机系统1000执行的可执行代码的形式,和/或可采取源代码 和/或可安装的代码的形式,源代码和/或可安装的代码当在计算机系统 1000上编译和/或安装(例如,使用各种通常可得到的编译器、安装程序、 压缩/解压缩工具等)时接着呈现可执行代码的形式。在这些实施方式中, 计算机可读存储介质1010b可由计算机可读存储介质阅读器1010a读取。
对本领域技术人员来说很明显,可根据特定的要求进行相当多的变 化。例如,也可使用定制的硬件,和/或特定的元件可在硬件、软件(包 括可移植软件,例如小程序等)或两者中实现。进一步地,可使用到其它 计算设备例如网络输入/输出设备的连接。
在一些实施方式中, 一个或多个输入设备1004可与音频接口 1030-1 连接。音频接口 1030-1可配置成通过与麦克风、乐器、数字音频设备或 其它音频信号或文件源例如物理地、光学地、电磁地等连接来接收音乐稿 件102-1。在其它实施方式中, 一个或多个输入设备1004可与乐i普4妄口 1030-2连接。乐谱接口 1030-2可配置成通过与摄像机、扫描仪、数字成 像设备或其它数字图像源连接来接收乐谱稿件102-2。
进一步地,在一些实施方式中, 一个或多个输出i殳备1006可与音频 输出设备106-1连接。音频输出设备106-1可配置成将本发明的实施方式 产生的音频信号数据输出到能够处理该数据的一个或多个系统或设备,例 如扬声器、音频部件、翁:才莫转换器、光盘烧录器等。在其它实施方式中, 一个或多个输出设备1006可与乐谱输出设备106-2连接。乐i普输出设备
45106-2可配置成将本发明的实施方式产生的乐i瞽表示数据输出到能够处理 该数据的一个或多个系统或设备,例如乐镨转录软件、乐谱公布系统、文 件存储设备等。
在一个实施方式中,本发明使用计算机系统(例如计算系统1000) 来执行本发明的方法。才艮据一组实施方式,响应于处理器1002执行包含 在工作存储器1018中的一个或多个指令的一个或多个序列(其可合并到 操作系统1024和/或其它代码中,例如应用程序1022),这样的方法的一 些或全部程序由计算系统1000来实现。这样的指令可/人另一机器可读介 质被读取到工作存储器1018中,例如一个或多个存储i殳备1008(或1010 )。 仅作为例子,包含在工作存储器1018中的指令的序列的执行可使处理器 1002执行这里描迷的方法的一个或多个程序。
如这里使用的术语"机器可读介质"和"计算机可读介质"指参与 提供使机器以特定的方式操作的数据的任何介质。在使用计算系统1000 实现的实施方式中,各种机器可读介质可包括向处理器1002提供供执行 的指令/代码,和/或可用于储存和/或承载这样的指令/代码(例如,作为 信号)。在很多实现中,计算机可读介质是物理和/或可触知的存储介质。 这样的介质可采取很多形式,包括但不限于,非易失性介质、易失性介质 和传输介质。非易失性介质包括例如光盘或^兹盘,例如存储设备(1608 或1010)。易失性介质包括但不限于,动态存储器,例如工作存储器1018。 传输介质包括同轴电缆、铜线和光纤,包括构成总线1026的导线以及通 信子系统1014的不同部件(和/或通信子系统1014^是供与其它i殳备的通 信的介质)。因此,传输介质也可采取波的形式(包括但不限于,无线电 波、声波和/或光波,例如在无线电波和红外凄t据传输期间产生的波)。
物理和/或可触知的计算机可读介质的一般形式包括,例如,软盘、 软碟、硬盘、磁带或任何其它磁性介质、CD-ROM、任何其它光学介质、 穿孔卡片、纸带、具有孔的图案的任何其它物理介质、RAM、 PROM、 EPROM、 FLASH-EPROM、任何其它存储器芯片或盒式磁带、诸如以下 描述的载波、或计算机可从其读取指令和/或代码的任何其它介质。
机器可读介质的各种形式可涉及将一个或多个指令的一个或多个序列传送到处理器1002用于执行。仅作为例子,指令可最初被承载在远程 计算^L的磁盘和/或光盘上。远程计算才几可将指令装入其动态存储器中, 并在传输介质上作为信号发送指令,以被计算系统1000接收和/或执行。 根据本发明的不同实施方式,形式可能为电磁信号、声信号、光信号和/ 或类似信号的这些信号,都是指令可编码在其上的载波的例子。
通信子系统1014 (和/或其部件)通常接收信号,且总线1026接着 可能将该信号(和/或该信号所承载的数据、指令等)传送到工作存储器 1018,处理器1002从工作存储器1018取回并执行这些指令。工作存储器 1018所接收的指令可在被处理器1002执行之前或之后可选地储存在存储 设备1008上。
应认识到,根据本发明,可以或可以不包括关于图IO描述的部件或 功能的系统的很多实施方式是可能的。在一些实施方式中,系统被实现为 专用设备。该设备可包括一个或多个内部麦克风,其配置成检测声压并将 其转换成由系统使用的音乐稿件。可选地,该设备可包括用于与外部麦克 风j某体设备、数据存储器或其它音频源连接的一个或多个音乐输入端口。 在这些实施方式中的某些中,设备可为手持式或便携式设备。在其它实施 方式中,系统可在多功能或通用设备中实现(例如,作为储存在计算机可 读介质上的软件模块,用于由计算机才丸行)。在这些实施方式中的某些中, 音频源可为声卡、外部麦克风或所储存的音频文件。输入接着被产生并提 供到该系统。
系统的其它实施方式可被实现为简化或单声道形式,以作为从用户 接收音频的听音设备来操作,这些用户对着一个麦克风演奏乐器或演唱某 个曲调或旋律或其一部分。在单麦克风布置中,系统相继地将来自一个麦 克风的已录制的乐曲转换成相应的乐语。这可提供文本到语音软件的音乐 等^f介物,其将口语单词和句子转换成计算机可读的文本。作为声音到音符 转换,曲调或旋律将被记录下来,就好像一个乐器正在演奏。
应认识到,系统的不同实现也可包括涉及与用户和其它系统的相容 性的不同类型的接口和功能。例如,可为线路电平输入(例如,来自立体 声系统或吉他放大器)、麦克风输入、网络输入(例如,来自互联网)或其它数字音频部件提供输入端口。类似地,可为扬声器、音频部件、计算 机和网络等的输出提供输出端口。进一步地,在一些实现中,系统可提供 用户输入(例如,物理或虛拟键盘、滑块、旋钮、开关等)和/或用户输 出(例如,显示器、扬声器等)。例如,可提供接口能力,以允许用户听 录制品或由系统从录制品提取的数据。
在一个实施方式中,本发明的特征在包括可安装在数字计算机上的 应用程序的软件中实现。软件实现优选地为演奏者提供输入和输出接口 。 也就是说,安装有软件的主机计算机一般包括用于产生演奏者可阅读的乐 谱的视觉表示的显示器,以随着演奏者的乐器演唱或演奏该乐器。计算机 也一般包括用于录制演奏者的会话的输入接口,例如麦克风,并包括输出 接口,例如扬声器,以使演奏者能够听已录制的演奏。计算机实现可包括 图像捕获,其中包括五线谱上的音符的乐谱可通过光学输入装置被数字
化,并接着输入到计算机中。数字化的乐谱可通过OCR技术被解译,这 样形成的已解译的数据被处理,以便产生乐谱的合成音频再现,在适当时 包括使单词与适当音高匹配的合成的声乐再现,使得音频再现与乐i普的视 觉表示同步。在下面提供的额外详细的描述中,计算机软件实现被称为 "Level X"实现或被称为"eMuse X"产品(名称"eMuse"指来自美国 普林斯顿、新泽西的MuseAmi公司 一本发明中所有权利的受让人一的产 品实施方式)。
在另一实施方式中,本发明的特征体现在一可包括显示器、输入接 口、音频和视觉输出接口以及OCR图像解i奪接口的手持式设备中。该手 持式设备实现包括各种方便的用户控制旋钮和用于设备功能的方便导航 的机制。该显示器支持由用户对功能进行选择的菜单选项的视觉表示。
如下面进一步详细描述的,计算设备通过从外部源接收乐谱数据, 并随后产生乐谦数据的合成音频再现和乐谱的同步视觉表示来解译和处 理乐谱数据。
外部源可由通过网络连接向计算设备提供乐i普数据的网络数据源组 成。网络连接可由通过无线连接的计算设备和网络之间的通信组成。
将记录有数据的介质接受进入计算设备的阅读器中,而该阅读器接着从该记录有数据的介质获得乐镨数据,通过这种方式,可从记录有数据 的介质读取乐谱数据。记录有数据的介质包含充足的数据,来根据合成音
乐制作的MIDI规范合成音频再现。也就是说,计算设备可接收指定乐谱 的数据,并可按选定的拍速、音色、谱号、调号、拍号等产生或合成相应 的音乐乐音。记录有数据的介质可包括闪存设备。
可给计算设备^R供用于录制用户对一 乐谱的演奏并提供已录制的用 户演奏的重放的能力。用户演奏重放可独立于合成乐谱再现而发生,或可 与其同时发生。此外,可将用户演奏重放连同相应于该已录制的用户演奏 的乐镨的视觉表示一起提供给用户。以这种方式,提供了 "听音"特征。
在一个可选方案中,通过光学地捕获乐谱的数字图像、接着解译并 处理数字信息以产生表示适当的音乐音符的数据的集合、因而产生相应于 该乐谱的数据,由此,该设备可获得由其用来产生合成音频再现和乐谱的 同步视觉表示的乐谱数据。
此外,可提供用于确定乐镨数据的合成音频再现的特征的音乐情境 信息,其中所有特征都可被用户调节。这样的音乐情境信息可包括多个调 号、拍号、音色、拍速和表现性术语,例如连奏、渐强、渐慢等。
在另一可选方案中,通过与网络数据源的通信来实现产生乐谱数据 的音频重放和音乐音符的视觉表示。如果需要,网络数据源向计算设备提 供乐镨数据。在又一可选方案中,网络数据源可向计算设备提供决定乐谱 数据的合成音频再现的音乐特征的音乐情境信息。此外,网络数据源可通 过无线连接提供音乐情境信息。
在一个可选方案中,通过将记录有数据的介质插入计算设备的阅读 器中来实现产生乐谱数据的合成音频再现和乐谱的合成视觉表示。如果需 要,计算设备从记录有数据的介质获得乐谱数据,且记录有数据的介质也 可向计算设备提供用于确定乐谱数据的合成音频再现的音乐特征的音乐 情境信息。
一个可选的特征是提供对乐谱的用户乐器演奏和/或声乐演奏的录 制。另一可选方案是才艮据MIDI规范产生合成音频再现。此外,产生视觉表示可包括显示与相应的合成音频再现同步的乐谱。另 一选择是同时提供 同步的重放、乐谱数据的视觉表示和音频再现的重放,以及已录制的用户 演奏的音频组成和用户演奏所产生的乐语的同步的相应一见觉表示。
根据本发明,计算设备可以可选地数字地捕获乐语并解译数字图像, 以及产生乐i普数据的合成音频再现和乐谱的同步视觉表示,该数字图像为 计算设备产生的相应于数字捕获的乐语的乐谱数据。该计算设备可接收音 乐情境信息,该音乐情境信息由计算设备使用来确定乐语数据的合成音频 再现的音乐特征。类似于上面描述的可选实施方式,音乐情境信息可包括 多个调号、拍号、音色、拍速和表现性术语,例如连奏、渐强、渐慢等, 这些信息可由用户选择来确定乐谱数据的合成音频再现的音乐特征。作为 选择,该计算设备从光学地数字捕获的乐谱来识别出音乐情境信息,并可 选地可以从网络数据源获得音乐情境信息。如果需要,网络数据源通过与 计算设备的无线连接来提供音乐情境信息。
可给计算设备提供其自己的扩音器,用于所合成的再现和/或用户所 录制的演奏的音频重》丈。此外,该设备可包4舌用于连接到耳机或外部扩音 器等的输出插孔,并可设置有允许设备向无线声音重放系统(例如使用无 线部件实现的家庭立体声系统)传输音频演奏的无线传输能力。该设备具 有充足的计算存储器,使它能够储存预定长度的乐段。
下面额外详细的描述涉及在手持式设备实现中的特征的各种实现,
且分别^皮称为"Leveir和"Level 2"或"eMuse 1"和"eMuse2"。
下面的讨论描述了可安装在 一 系列数字计算设备上的音乐重放软 件,并且也描述了手持式活页乐谱阅读设备的实施方式,这些设备在这里 孚皮共同称为eMuse产 品。
图11示出作为手持式的、电池供电的"对准即拍"消费电子设备1100 的产品的例证性实施方式,设备1100从活页乐语捕获选定乐段一几个小
节或甚至整页一的图像,数字地设计该乐段的形式并编码该乐段,接着演 奏选定的乐段,全部都是实际上即时实时地进行的。重放声音是针对乐器 的,即,以用户选择的音色(例如,钢琴、小提琴、长笛的声音)演奏。
可同时演奏多种音色。设备1100设计成识别音乐变量,例如调号、节拍、音量和拍速,并解释乐文术语,例如强音、轻声演奏、渐强音、连奏等。
当该设备正重放乐段1104时,LCD屏幕1102显示乐段1104,每个被演 奏的音符以独特的颜色加亮,以便将其与乐谱的其余部分区别开。
图11的设备1100包括数字"音乐卡"特征,其支持编码有一个或多 个已录制的或下载的乐曲的数据卡(未示出)的插入,并允许快速参考特 定的小节。数据卡可包括可记录的介质,例如一般由便携式电话和数字摄 像机使用的介质。数据卡被接收到设备1100的卡插槽1106中。设备1100 也使用表示被编码的乐曲的数字数据来工作。下载的文件也可保存在设备 的存储器内。被编码的乐曲提供了丰富的收听体验,允许快速参考乐谱的 特定小节。
设备1100的录制/重放特征允许用户立即参考乐i普来评估已录制的 演奏。也就是说,设备1100可录制用户对乐曲的演奏,并重放用户的演 奏,以及(或同时)重》文接收到的乐曲。用户演奏重》文能够呈现相应的视 觉表示,提供"听音"特征。节拍器和音乐调音器能力也合并到该设备中, 且可对"缺一音乐(music minus one)"特征调节该设备。在多音度线或 多声部乐曲中,"缺一音乐"特征允许用户确定乐曲的哪些部分将由MIDI 接口重放。这允许用户随着设备演奏/唱特定的部分。
图11示出具有翻转顶部1108的手持式设备1100, LCD屏幕1102合 并到盖或顶部1108的下侧。该设备也包括用于音乐重放的扬声器lllO(在 图11中示出了立体声对)以及用于录制用户演奏的麦克风1112。可实现 图像捕获能力,如图11所示的,其中翻转顶部1108包括摄像机系统,其 包括安装在翻转顶部1108的外侧表面中的并为了图像捕获的目的由镜头 快门按钮1114触发的光学透镜。提供了各种用户界面控制,其被示为用 于调节音量1116、重放拍速1118、菜单导航1120和位置1122的拇指轮。 设备1100可设置有用于更容易与网络或其它设备连4妄的USB端口 1124。 开/关开关1125打开和关闭设备1100。-
如图ll所示,控制按钮也被提供来用于控制涉及乐镨的再现(合成 演奏)和用户演奏的重放的功能。图11示出用于播放/暂停1126、停止 1128、下一首/重置1130和录制1132的功能的示例性控制按钮。图ll也
51示出节拍器读出显示器1134,其显示定时指示器并与重放拍速1118关联。 结合菜单拇指轮1120和/或位置拇指轮1122的操作使用LCD屏幕1102 的菜单导航来实现对节拍器功能和设备iioo的其它特征的选择。可通过 下一首/重置控制按钮1130的操作来实现选择。4盍盘或辅助4建盘1135可 用于通过辅助键盘1135的专用功能键的输入或来自辅助键盘1135的字母 数字输入。在LCD屏幕1102上,提供了来自音乐乐段1104的音乐音符 的图形图像,其在整个屏幕内移动,单独的音符出现在屏幕上或在显示器 中被加亮,作为被演奏的音符。显示器优选地提供在重放期间扩展的音乐 五线谱图像,由此,预定数量的音乐音符或小节显示为被演奏的音乐乐段 1104。
在设备1100的一个实施方式中,数字摄像机系统1114捕获乐谱内的 乐段(单个音符、几个小节或甚至整页)的图像。数字摄像机可构造到设 备1100中,并可包括类似于本领域技术人员熟悉的透镜和图像传感器组 合。LCD屏幕1102允许用户准确地确定捕获哪些小节。该设备可读取单 个五线i瞽表乐曲行、二重奏、三重奏、四重奏或甚至完整的乐队指挥乐谱。 设备1100提供了多个同时的音色。
OCR模块可接收音乐摘录的"照片",其包括数字化的图像数据。重 要的额外音乐情境信息,例如调号和节拍也通过乐谱数字图像或通过列出 所有可用的调号和拍号的"备忘单"(例如从网站下载,4妄着无线地或通 过USB端口传输到该设备,见下文)发送到OCR模块。"备忘单"也可 包括用户可从其选择期望音色的部分,或者,用户可手工指定(输入)期 望的音色。
在另一实施方式中,设备1100可提供MIDI合成器功能。OCR模块 可将声音信息发送到产生合成声音的MIDI模块。这提供了可调节的音 色;用户为特定的乐段或乐曲指定乐器的类型(钢琴、小提琴、长笛等)。 该模块也可提供可调节的拍速,以便用户可听到比在乐谱中指示的节拍器 (如果有的话)慢(或快)的乐段,而没有音高的任何改变。该设备通过 其自己的小扩音器重放,并且还具有用于耳机和/或外部扬声器的耳机插 孔1134和无线能力。在各种实施方式中,设备1100可提供某些视觉显示能力。例如,LCD 屏幕1102可帮助用户确保被捕获(拍摄)的小节是预期要听到的小节。 包括游标1136的LCD屏幕1102将音乐乐,史1104显示为被重放的乐段, 其来自用户所拍摄的乐段或来自具有存储的数据的音乐卡。游标指示当音 乐乐段1104实时地播放时当前被演奏的音符的乐谱中的确切的音乐位 置,而不管固定的拍速。不同于传统类型的移动游标,当音符被演奏时, 游标1136可替代地通过加亮音符(例如,4吏其更亮)或通过给与它不同 于其它音符的显示颜色来指示正被演奏的音符。另一选择是LCD屏幕 1102显示音符1138的名称(用英语和用^L唱标记),特别是对于单旋律 音乐乐段1104。如果音乐乐段1104由多个同时的音乐旋律组成,则用户 可指定音符1138的名称所显示针对的旋律。
LCD屏幕1102也可显示被选择用于播放的音乐乐段1104的指示符。 指示符称为乐段标记1139。在图11中,乐段标记1139被示为包围在圓 圏中的数字"1"。数字'T,指示当前正显示音乐乐段1104的第一小节, 且圓圈指示重放在第一小节开始。如果重;t丈继续到下一小节,"2"将代替 'T'被显示,但"2"将被包围。
在另一实施方式中,设备1100可提供录制传感器功能。例如,麦克 风1112可配置成使得用户可录制他/她自己演奏(和/或演唱)的有问题的 音乐乐段1104,并重放该录制结果,以比较该用户的演奏与设备1100的 演奏(即,以前录制的演奏或合成的再现)。该特征对进行音符、调音、 节奏和力度强弱的调节的学生可能有帮助。如上所述,可通过麦克风1112 录制用户演奏以4是供"听音"特征。
设备1100的一些实施方式提供了无线能力。例如,设备1100可操作 来允许与网络和其它有无线能力的设备进行无线通信,并允许下载具有情 境信息的被编码的音乐文件。可例如通过安装到无线平台例如PDA或智 能电话的eMuse软件来为便携式的音乐互动提供这里描述的特征。此外, 设备1100可使用家用PC和/或立体声系统或另一部件的计算和存储器(以 及重力文音频)。
在另一实施方式中,用户的演奏可由i殳备1100录制,且用户的演奏可被音乐音符解译处理,以产生数据,从该数据产生相应于用户的已录制 的演奏的音乐音符的显示。以这种方式,该设备可采用"听音"并可将用 户的现场表演的音频演奏转换成相应于该演奏的乐二潜的视觉显示。因此, 该设备的音乐解译特征可处理光学或电子网络通信所接收的乐谱数据,并 可处理用户的现场表演的演奏所产生的、麦克风所捕获的乐谱数据。
这里描迷的软件可用在各种平台上。在一个实施方式中,eMuse的某 些方面被嵌入高端便携式电话中,在高端便携式电话中的便携式电话摄像 机拍摄乐语中的特定乐段。所捕获的图像接着被压缩,并发送到远程服务 器,其对图像数据执行OCR操作,以将图像解译成相应的音乐音符信息。 该服务器接着发送回MIDI文件和图形文件,使该版本的eMuse能够播放 被拍4聂的音乐,并在播放该音乐时,将音符显示在LCD上。
图12提供了示出图11中设备1100的实施方式的操作的处理流程图 的简化图示。在初始操作中,乐谱的数字表示被提供到该设备。该数字表 示可通过视觉表示1202例如打印出的页接收到设备,视觉表示1202使用 数字图像捕获设备1204例如与设备一起操作的数字摄像机被数字地捕 获。从光学输入1206得到的数字数据接着被提供到音符数据解译过程 1208。可选地,乐语的数字表示可被电子地提供(1210),例如通过相应 于乐谱的数字数据的无线传输或在网络上数据的有线传输,或通过存储介 质例如存储卡或其它介质输入。乐谱1210的电子接收的版本被提供到音 符数据解译过程1208。
音符数据解译过程1208接收相应于乐谱的数字数据,并对其进行处 理,以产生一组音乐音符和足够的附随信息,以指定音乐音符并能通过适 当的硬件再现。过程1208包括使用机器学习技术培训的处理器,以识别 乐谱数字数据1206、 1210,并产生经适当转换的数据。过程1208可例如 使用神经网络软件工程技术被培训,以将解译过程的准确性增加到实质上 100%的准确性。根据本发明,输入的乐谱数据必须被产生来用于对用户 的实时的视频和视觉显示,因此,输入的乐谱数据的解译必须是实时的, 且必须达到100%的解译(转换)准确性。过程1208利用光学字符识别 (OCR)技术,但被调整为适于音乐音符识别并适于将(电子或光学扫描得到的)数字数据解译为适合的表示。
解译过程输出1212包括被提供到设备的显示屏1214的乐谱的视觉 表示,以及还包括被提供到适当的设备系统和硬件1216的乐谱的合成音 频再现,该合成音频再现用于通过该设备的扩音器或类似物进行音频表 示。
其它能力
应认识到,除了上面描述的能力以外,很多其它处理能力也是可能 的。 一组额外的处理能力包括增加提供给用户的可定制性的量。例如,实 施方式可允许本发明的各种部件和方法的增强的可定制性。
在一些实施方式中,由于各种原因,部件和方法的不同阈值、窗和 其它输入每一个都是可调节的。例如,如果音调确定看起来进行得太频繁 (例如,用户可能不希望与音调的短暂偏离作为音调变化展现在乐谱上), 用户能够调节音调^提取窗。对于另一例子,录制品可包括在录制时因在演 奏期间使用的60 Hz电源而出现的背景噪声。用户可能希望调节各种滤波 算法,以忽略此60Hz音高,以便不将它表示为乐谱上的下部音符。在又 一例子中,用户可调节音高被量化成的乐曲盒(bin)的分辨率,以调节 音符音高分辨率。
在其它实施方式中,可给用户提供较小的可定制性。在一个实施方 式中,用户能够调节表示准确性水平。根据一个或多个参数,包括选择对 单独的乐"i普表示元素如拍速和音高的准确性,用户可llr入(例如,通过物 理或虛拟滑块、旋钮、开关等)系统是应产生更准确的还是较不准确的乐 谱表示。
例如,很多内部设置可一起起作用,使得最小音符值是十六分音符。 通过调节表示的准确性,较长或较短的时值可被检测到并表示为最小值。 这可能在演奏者不严格按恒定拍子演奏(例如,没有打击乐器组,没有节 拍器)的情况下是有用的,且如果太灵敏的话,系统可产生不合需要的表 示(例如,三拍附点音符)。作为另一例子,很多内部设置可一起起作用, 以便最小音高变化是半音级(即,以半音音阶计的音符)。
55在又一些其它实施方式中,可给用户提供甚至更小的可定制性。在 一个实施方式中,用户可输入他或她是新用户还是高级用户。在另一实施 方式中,用户可输入系统是应具有高灵敏性还是低灵敏性。在任一实施方 式中,在^f艮多部件或方法中的^f艮多不同的参数可在一起调节,以符合期望 水平。例如,在一种情况下,歌手可能希望准确地转录音高和时值中的每 个波动(例如,作为对找到错误或以所有其美学的细微之处忠实地再现特
定的演奏的实际帮助);而在另一情况下,歌手可能希望通过使系统忽略 小偏差来产生容易阅读的乐语用于发表。
在某些实施方式中,可定制性的水平、功能的类型以及系统和方法 的其它方面可用不同的方式指定。在一个实施方式中,用户可选择某些偏
好,操:作某些物理或虚拟控制,或以其他方式有效地与系统进行互动以确 定这些方面。在另一实施方式中,系统可自动选择不同的方面(例如,根 据与用户有关的登录和/或配置文件信息,根据用户使用该系统的模式 等)。
另 一组额外的处理能力包括使用不同类型的输入来改进或以其他方 式影响对输入音频信号的处理。 一个实施方式使用 一个或多个经培训的人
工神经网络(ANN)来改进某些确定。例如,心理声学确定(例如,节 拍、音调、乐器等)可完全适合于使用经培训的ANN。
另一实施方式给用户提供使多个声道分层的能力(例如, 一人乐队)。 用户可通过演奏鼓声道来开始,使用本发明的系统实时地处理该鼓声道。 用户可接着相继地演奏吉他声道、键盘声道和声乐声道,其中每个都被处 理。在一些情况下,用户可选择多个声道来一起处理,而在其它情况下, 用户可选择使每个声道被单独地处理。来自 一些声道的信息可接着用于改 进或引导对其它声道的处理。例如,鼓声道可被独立地处理,以产生高置 信度拍速和节拍信息。拍速和节拍信息可接着与其它声道一起使用来更准 确地确定音符时值和音符值。对于另一例子,吉他声道可在小时间窗内提 供4艮多音高,这可使确定音调更容易。该音调确定可接着用于将音调音高 确定分配^键盘声道中的音符。对于又一例子,多个声道可在一维或多维 中被排列、量化或标准化(例如,声道可3皮标准化为具有相同的拍速、平均音量、音高音域、音高分辨率、最小音符时值等)。进一步地,在"一 人乐队"的一些实施方式中,用户可使用一个乐器来产生音频信号,接着
使用本系统或方法来转换到不同的乐器(例如,使用4定盘演奏四重奏的所
有四个声道,并使用该系统来将键盘输入转换成弦乐四重奏)。在一些情 况下,这可包括调节音色、使音乐旋律变调和其它处理。
又一实施方式使用音频输入信号之外的输入来改进或引导处理。在 一个实施方式中,从用户、从另一系统(例如,计算机系统或互联网)或 从数字音频文件中的头部信息来接收风格信息,以改进各种代价函数。例
如,音调代价函数可对蓝调、印度古典、民谣等不同;或不同的乐器可能 在不同的风格中更可能(例如,"风琴类,,声音可能在赞美诗音乐中更可 能是管风琴,而在波尔卡音乐中更可能是手风琴)。
另 一组额外的处理能力包括使用在多个部件或方法中的信息来改进 复杂的确定。在一个实施方式中,乐器识别方法的输出用于根据所识别的 乐器的已知能力或限制来改进确定。例如,比如乐器识别方法确定乐曲谱 线可能是由钢琴演奏的。然而,音高识别方法确定该乐曲旋律包含快速微 弱的颤音(例如,在检测到的音调音高标志的仅一个或两个半音程内的音 高的颤音)。因为这一^:不可能是在钢琴上产生的效果,系统可确定该旋 律正由另一乐器(例如,电子键盘或风琴)演奏。
又一组额外的能力涉及使用用于处理铃声(例如,用于便携式电话、 互联网协议的语音电话和其它设备)的系统和方法的各种功能。在一个实 施方式中,解构的音乐元素被操作以符合铃声的规范。例如, 一些设备可 能对铃声的带宽、复调深度和音乐长度有限制。因此,在一些情况下,系 统可自动调节合作项目来符合铃声规范,或可给用户提示根据那些规范引 导用户所需要或要求的信息。用户可接着能够例如听铃声,将铃声下载到 便携式电话或其它设备(或存储位置),在网络上与其他人共享铃声,拍 卖或出售铃声,等等。
又一组额外的能力涉及将音频或乐谱输出配置为用于出售或拍卖的 产品。例如,合作门户可包括音乐拍卖功能或音乐商店功能。购买功能可 包括与以下项有关的能力版税和定价、投票表决(例如,展示在给定时间跨度内最流行的,或优胜者获得门户上的特别节目)、按设备或规范搜 索、不同的付款处理、安全的电子商务、版权保护和数字版权管理等。
又一组额外的能力涉及使用解构的或接收到的音乐元素来搜索类似 的作品,以避免(检测)版权侵犯。该能力可能需要被合并到系统中的额 外模块或被合并到方法中的额外步骤,以调整搜索来获得该特定结果。例 如,在一些实施方式中,可提供关于版权法和政策的信息,以帮助系统和 方法确定是否有潜在的侵权。
合作门户的一些实施方式可包括这种和其它类型的搜索功能。例如, 可能希望将音乐模拟提供到"剪贴画",由此合作者可搜索特定类型的音
乐主题(例如,"Hawaii five-O"鼓花等)来添加到一项目。也可搜索其 它类型的信息。例如,合作者可能希望找到类似的乐曲并看其乐谙表示, 来确定该乐曲是如何编曲的;或看类似的和弦序列,并找到解译类似的和 弦序列以帮助制定有趣的声乐旋律的任何爵士声乐即席创作。应认识到, 提供这种和其它功能的基于音乐搜索的很多方法是可能的。在Robert D.Taub等人的标题为"MUSIC-BASED SEARCH ENGINE"的美国申请
第_号中更充分描述了的基于音乐搜索的一些实施方式,该专利申请
同本申请同时提交并为了所有目的在这里通过引用被并入。
再一组额外的能力涉及将音乐添加到视频信息。在一些实施方式中, 合作门户可允许用户提供视频数据。例如,用户可提供视频片段,以用作 对合作项目的启发,作为与合作项目同步的音乐视频,作为合作者正为其 写乐谱的较大的视频项目(例如电影)的一部分,等等。在另一例子中, 用户可提供某些时间码信息(例如,电影与电视工程师学会(SMPTE) 时间码),供合作者使用来使合作音频项目与视频项目同步。
应认识到,根据本发明,很多这样的额外处理能力是可能的。进一 步地,应注意,上面讨论的方法、系统和设备只:故确定为例子。必须强调, 不同实施方式可在适合时省略、替换或添加各种程序或部件。例如,应认 识到,在可选实施方式中,方法可按不同于所描述的顺序4丸行,且可添加、 省略或合并不同的步骤。此外,关于某些实施方式描述的特征可合并在各 种其它实施方式中。实施方式的不同方面和元件可以类似的方式合并。此外,应强调技术是发展的,因此,这些元件中的很多是例子,且不应被解 释为限制本发明的范围。
在说明书中给出了具体的细节,以提供对实施方式的彻底理解。然 而,本领域普通技术人员应理解,在没有这些具体细节的情况下可实现该 实施方式。例如,在没有不必要的细节的情况下示出了公知的电路、过程、 算法、结构和4支术,以便避免使实施方式含糊。进一步地,这里提供的标 题只用来有助于对不同实施方式的清楚描述,且不应被解释为限制本发明 的范围或本发明的任何部分的功能。例如,某些方法或部件可被实现为其 它方法或部件的部分,即使它们是在不同的标题下描述的。
此外,注意,实施方式可被描述为一过程,其被描绘为流程图或结 构图。虽然每个实施方式可将操作描述为顺序的过程,但这些操作中的很 多操作可并行或同时执行。此外,可重新排列操作的顺序。过程可以有未 包括在附图中的额外步骤。
权利要求
1.一种用于通过网络合作处理音乐稿件的方法,所述方法包括在一门户接收音乐稿件,所述音乐稿件包括一组音乐元素,且所述门户可通过所述网络来访问;在所述门户通过所述网络接收多个合作请求,所述多个合作请求中的每个至少部分地涉及所述音乐稿件,其中,所述多个合作请求的至少第一部分来自第一用户,而所述多个合作请求的至少第二部分来自第二用户,以及其中至少一个合作请求涉及所述一组音乐元素;以及响应于所述合作请求中的至少一个而在所述门户产生与所述音乐稿件的至少一部分有关的音乐输出。
2. 如权利要求l所述的方法,进一步包括在所述门户接收所述音乐稿件,所述音乐稿件包括音频信号;以及 解构所述音频信号以产生所述一组音乐元素的至少 一部分。
3. 如权利要求l所述的方法,其中所述音乐稿件是第一音乐稿件, 且所述方法进一步包括在所述门户接收第二音乐稿件,所述第二音乐稿件包括音频信号。
4. 如权利要求3所述的方法,进一步包括 至少部分地根据所述一组音乐元素编辑所述第二音乐稿件。
5. 如权利要求3所述的方法,进一步包括根据所述一组音乐元素的至少一部分^f吏所述第一音乐稿件和所述第 二音乐稿件同步。
6. 如权利要求l所述的方法,其中,所述音乐稿件在所述门户通过 所述网^^妄收自多个工作站之一。
7. 如权利要求l所述的方法,其中所述音乐稿件在所述门户接收自距多个工作站远距离的数据存储器。
8. 如权利要求l所述的方法,进一步包括至少部分地根据所述音乐稿件和所述编辑步骤的结果来产生一组输 出数据。
9. 如权利要求8所述的方法,其中所述一组输出数据包括音频信号 数据。
10. 如权利要求8所述的方法,其中所述一组输出数据包括音乐元素 数据。
11. 如权利要求8所述的方法,其中所述一组输出数据包括乐谱表示 数据。
12. 如权利要求8所述的方法,进一步包括 将所述一组输出数据储存在一数据存储器中。
13. 如权利要求l所述的方法,进一步包括通过所述网络从用户接收登录信息,所述用户使用多个工作站之一。
14. 如权利要求13所述的方法,进一步包括 至少部分地根据所述登录信息确定所述用户的一组访问权限。
15. 如权利要求13所述的方法,进一步包括 至少部分地根据所述登录信息确定所述用户的一组偏好。
16. —种用于通过网络合作处理音乐稿件的系统,所述系统包括 门户,所述门户可被多个用户通过所述网络访问且所述门户包括合作单元,其可操作来^接收多个音乐稿件,所述音乐稿件中的至少 一个包括一组音 乐元素;以及才妾收并解译多个合作请求,所述多个合作请求中的至少第一 个通过所述网络接收自第 一用户,且所述多个合作请求中的至少第二个通过所述网络接收自第二用户; 编辑单元,其可操作来提供一组编辑能力,用于至少部分地根据所述多个合作请求来编辑音乐元素;输出产生单元,其可操作来至少部分地根据所述音乐稿件和所述多个合作请求来产生输出数据;以及网络接口单元,其可4喿作来促进多个工作站和所述门户之间通过 所述网络的通信。
17. 如权利要求16所述的系统,进一步包括 音频解构单元,其可操作来接收一音乐稿件;以及将该音乐稿件解构成一组音乐元素。
18. 如权利要求17所述的系统,其中所述音频解构单元驻留在所述 多个工作站中的至少一个上。
19. 如权利要求16所述的系统,进一步包括 乐谱解构单元,其可操作来接收乐谱图像;以及将所述乐谱图像解构成一组音乐元素。
20. 如权利要求17所述的系统,其中所述乐谱解构单元驻留在所述 多个工作站中的至少一个上。
21. 如权利要求16所述的系统,其中所述网络接口单元进一步可操 作来接收来自所述工作站之一的用户的登录信息。
22. 如权利要求16所述的系统,其中所述网络接口单元进一步可操 作来提供所述门户和所述多个工作站之间的安全虚拟连接。
23. 如权利要求16所述的系统,进一步包括数据存储器,其与所述门户操作性地通信并可操作来储存一组音频数 据记录,每个音频数据记录与所述多个音乐稿件中的至少一个相关。
24. 如权利要求23所述的系统,其中所述数据存储器通过所述网络 与所述门户操作性地通^f言。
25. 如权利要求24所述的系统,其中所述网络接口单元进一步可操 作来提供所述门户和所述数据存储器之间的安全虚拟连接。
26. 如权利要求16所述的系统,其中由所述输出产生单元产生的输 出数据包括音频数据、音乐元素或乐i普表示数据中的至少 一个。
27. 如权利要求16所述的系统,其中所述网络是互联网。
28. 如权利要求16所述的系统,其中所述网络是局域网。
29. —种计算机可读存储介质,其具有包括在其中的计算机可读程序, 所述计算机可读程序用于引导通过网络合作处理音乐稿件的门户的操作, 所述门户包括合作单元、编辑单元、输出产生单元和网络接口单元,所述 计算机可读程序包括用于根据下列操作合作处理音乐稿件的指令在一门户接收所述音乐稿件,所述音乐稿件包括一组音乐元素,且所 述门户可通过所述网络来访问;通过所述网络接收多个合作请求,其中所述多个合作i會求的至少第 一部分来自多个工作站中的第一个, 而所述多个合作请求的至少第二部分来自所述多个工作站中的第二个;以 及响应于所述合作请求中的至少一个而在所述门户产生与所述音乐稿 件的至少一部分相关的音乐输出。
全文摘要
描述了用于通过网络合作处理音乐稿件的方法、系统和设备。本发明的实施方式提供了门户,该门户可通过网络被多个工作站访问并配置成提供用于编辑音乐元素的一组编辑能力。在门户可接收音乐稿件。音乐稿件的至少一部分包括音乐元素。在某些实施方式中,从音频信号或乐谱图像解构音乐元素。可通过网络在门户接收多个合作请求。一些合作请求可来源于第一工作站,而其它合作请求可来源于第二工作站。响应于合作请求的至少一个,音乐元素的至少一部分可使用门户的编辑能力而得到编辑。
文档编号G06F17/30GK101657816SQ200880012023
公开日2010年2月24日 申请日期2008年2月14日 优先权日2007年2月14日
发明者G·图特洛特, J·A·卡瓦尼利亚, R·D·陶布 申请人:缪斯亚米有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1