用于分析声音的方法和系统的制作方法

文档序号:6496204阅读:1019来源:国知局
用于分析声音的方法和系统的制作方法
【专利摘要】本发明涉及分析音轨(例如音乐)的方法和系统。描述了人类大脑中的下层皮质、边缘和皮质下区域中的一个或多个的神经生理运行和对声音的反应的预测模型。声音被分析,以便合适的声音能够被选择和播放给收听者,以便刺激和/或操纵收听者的神经生理唤醒。该方法和系统特别适用于利用生物反馈资源的应用。
【专利说明】用于分析声音的方法和系统
[0001]发明背景
1.【技术领域】
[0002]本发明涉及一种分析声音的方法和系统(例如,音乐音轨)。来自于声音——例如音乐——数据库的音轨能够被分析,以便自动预测这些声音对收听者产生的效果和影响。
2.技术背景
[0003]公知地存在最适合例如学习、放松、睡觉或运动这样具体的活动特定神经生理唤醒水平(涉及情绪、精神状态和情感)。然而,因为这些唤醒水平是由意识心智、环境刺激、自主神经系统、内分泌活动、神经传递和基础代谢之间的复杂的相互作用引起的,所以其很难控制和维持。
[0004]也公知地存在基于一系列复杂功能的对于音乐的普遍的人类反应,该一系列复杂功能从感知系统延伸,通过大脑皮层和其它的过程,以激活大脑和躯体系统的核心情感中心。同样公知这些功能存在于大脑的某部分中,例如,耳蜗、初级听皮层、运动前区皮层、杏仁核和导水管周围灰质(等)。例如节奏对运动前区皮层、自主神经系统、躯体系统、内分泌系统和神经传递具有可测量的影响。音乐结构和体验的其它方面也可影响人类的神经生理学,如下所述。
[0005]3.相关技术的论述
[0006]已知三种对用于唤醒和逆唤醒人类的音乐的分析方法(为了简便起见,术语“唤醒”在本文中有时也包括逆唤醒)。第一种方法需要个人的判断,此人可以是专家或受检者本身。第二种方法是通过测试一些人并问其对于不同音乐音轨的感受。这两者都不可靠,因为每个都太过主观。
[0007]第三种方法是分析根据音乐自身计算出的韵律(通常是节拍,但也包括平均能量的测量),并且将该韵律与所需的主体的唤醒状态关联。有几种这样的系统,其中一些将在下文中引用。其中大多数依赖于“诱导”(在惠斯登感应中,也就是与外部的节拍或节奏同步的倾向)或者增加的节拍(在已知的情况下,能量)和增加的作用或者唤醒之间的相关性(并且,对于减少的节拍和能量则相反)。
[0008]现有技术的系统的实例是利用根据节拍选定的音乐来操纵唤醒和逆唤醒,包括专利文献 US282045、US191037、US113725、US270667、W0151116、US5267942。该技术可利用计算的每分钟的节拍数来预测诱导,或者,如专利文献US060446所述,可以调控节拍以便改进诱导。虽然该技术可以定向地校正,并且,通过惠斯登诱导原理(Huygens’ entrainmentprinciple)的扩展,其很可能通过一些曲目在一定程度上起效,但是,节拍难以被自动检测,并且其自身在容易而准确地检测节拍并且节拍接近收听者的当前心率(见下段)的受限情况下才可以最佳地用于计算神经生理影响。任何重要的分离和诱导的效果很可能会丢失。最重要地,如下所述,有效的节奏诱导不仅取决于每分钟的节拍数,并且不可分离地协同并依赖于其它的唤醒的音乐生成器,举个例子,例如谐度和扰动(turbulence)。[0009]专利文献US5667470是凭借对照曲目中确定的模式来实现或者否定音乐预期结果,而专利文献US4883067引入训练大脑的构思,以通过结合某些声音信号来复制神经活动的积极模式。一项专利文献US5267942,引用阿特舒勒在1948年记录的情绪同态原理(iso-moodic principle)作为其推断的证据,即,音乐节拍要对诱导心率产生任何影响,其必须位于个体的实际心率的“诱导范围”内,即接近它。其引入这样一个概念,即,一段音乐的神经生理影响依赖于受检者的初始状态,也就是说任何给定的音乐片段的影响是相对的而不是绝对的。也可以参考专利文献US2007/0270667,尝试使用生物计量反馈来操纵唤醒。
[0010]也可以参考心理声学。心理声学已经广泛地应用在音乐压缩技术中(例如MP3),但另一个应用记录在专利文献US7081579中,其描述了一种基于七个测量的特性进行的歌曲相似性分析的方法,这七个特性是:亮度、频带宽、音量、节拍、节奏、低频噪声和八度音阶。在神经生理学术语中,这些技术能够识别“相似声音”的音乐(关于这点目前有许多),但是不能用于预测音乐的神经生理效果。

【发明内容】

[0011]本发明是一种用于分析声音——例如音轨——的计算机实现的系统,该系统根据来源于或关联到神经生理运行的预测模型的音乐参数以及人类大脑中的下层皮质(lowercortical)、边缘(limbic)和皮质下区域(subcortical region)中的一个或多个对声音的反应来自动分析音乐;
[0012]并且在其中,该系统分析声音,以便可以选择和播放合适的声音给收听者,从而刺激和/或操纵该收听者的神经生理唤醒。
[0013]该模型是一种“人类神经生理运行和响应的预测模型”,因为其预测大脑(例如,在下层皮质、边缘和皮质下的区域中的结构,包括相关的自主神经系统、内分泌系统、和神经传递系统)将如何响应特定的声音。
[0014]在一个实施例中,分析了来自于音乐数据库的音轨,以便自动预测这些声音将给收听者带来的神经生理效果或影响。由此能够选择不同的音轨及其最佳的播放顺序,以操
纵神经生理唤醒、精神状态和/或情感-例如接近、达到或保持所需的唤醒或逆唤醒状
态、精神状态或情感(术语“情感”用在情绪、心情或状态的心理感受中)。
[0015]我们可以将该系统与传统的心理声学(是例如MPEG MP3音频压缩算法的基础)进行比较,因为心理声学总体上涉及通过模拟信号处理来了解如何处理引入的压力波,该信息的处理是由例如耳蜗和初级听觉皮层承担,然而,本发明涉及声音效果一例如大脑中的下层皮质、边缘和皮质下的区域的神经生理运行以及对声音的反应。并且,心理声学科学不涉及为了刺激和操纵所需的收听者的唤醒状态而选择特定声音。
[0016]我们也可以将该系统与音乐效果的普通模型(trivial model)进行比较,例如增加的节拍导致更大的唤醒。从这样的模型中完全缺失的是对神经生理运行和对声音的反应的广义理解;而且,在实际中,这样的模型过于薄弱以至于不具备真正的预测特性,并且,基于上述原因,该模型不是针对选择不同声音以便刺激和操纵收听者的唤醒水平的技术问题的通用的解决方案,这与本发明不同。
[0017]源于或关联到预测模型的音乐参数可涉及节奏性和谐度也可涉及扰动一这些术语将在下面详细解释。本发明可用于音乐的搜索、选择、定序(即按顺序安排)、使用、推广、订购和销售。其可进一步用于选择、修改、定购或设计非音乐的声音,以对收听者产生期望的神经生理效果,或可以用于允许选择,例如设计或修改发动机排气音调、电影配乐、工业噪声和其它的音频源。
[0018]本发明通过一种称为X-系统的系统实现。X-系统包括音乐音轨的数据库,根据源于或关联到人类神经生理运行的预测模型的音乐参数以及对那些音轨的反应已经分析了该音乐音轨。X-系统也可以包括传感器、用于选择合适的音轨的音乐选择算法/播放列表计算器以及连接音乐播放器的连接器。一旦激活传感器,系统将诊断受检者的神经生理唤醒的初始水平,并自动构建源自于对X-系统编码的音乐或声音数据库的搜索的播放列表,该播放列表将首先符合或反映此唤醒水平,之后将收听者引导向和帮助将他/她保持在期望的唤醒水平。按照需要,根据定期的神经生理或其它指示信号的测量而重新计算播放列表。
[0019]神经生理状态的测量可以利用多种技术实现,例如电子脑造影、正电子放射断层造影术、血浆、唾液或其它的细胞采样、皮肤电导、心率以及一些其它的技术,同时反应的预测可以通过任何合适的算法集得以实现,其首先假设,之后通过测试来完善。任何给定的算法集将依赖于模拟的刺激以及测量刺激效果的生物计量,但是,即使给定常量参数,也有很多有效的数学方法:因此在本说明书中所述的特定的算法本身不是本发明最根本的特征,即使该系统中的大部分算法在构思和实施上都是独特的。也没有选择特定的生物计量来测量神经生理状态,尽管皮肤电导和心率都适合于一般用途,这是因为它们使测量能够容易地和非侵入性地实施,同时能够给出对自主神经系统中的唤醒或逆唤醒的良好指示,这又在很大程度上协同于内分泌活动和相关的神经传递。
[0020]X-系统代表了基于现有技术的改进,因为:a)通过参考大脑的音频刺激处理,该音频刺激包括音乐,描述了音乐的生物活性成分(除了节拍和能量以外),和b)描述了如何将任何给定的声源校准到受检者的初始状态,以便具有最大化的诱导效果。其提供了很多优于其它系统的优点,其既不需要节拍的调制(从专利文献US2007/0113725、US20070060446AUUS2006/0107822A1已知节拍调制)也不需要心理声学校正的成分、合成音乐(从专利文献US4883067已知)来实现其效果。在无需以任何方式操纵音乐的渲染的情况下,X-系统提供了利用全世界的音乐曲目进行情感的调制的可能性。
[0021]X-系统是以我们将其称之为“对音乐的先天神经生理反应”(INRM-我们将在下面详细描述)的范例为基础的,并且以与这些反应相关的下层皮质、边缘和皮质下功能中的一个或多个的独特信息模拟为基础。X-系统具有独特的能力来自动分析音轨并构建产生收听者的唤醒和逆唤醒水平的可能性。这一独特的分析方法是人类通用的分析方法,并且其不但可以适用于所有人类文化的音乐而且适用于环境的和其它的声源。X-系统有能力根据核心情感效应将音乐和声音数据库归类。X-系统可远程地实施自动分类,例如针对个人的曲目。利用独特的基于无线电电极和扩音器的电导/心率传感器和其它装置,X-系统也可以具有检测用户的心理状态和身体的能力。X-系统可使用该传感器数据从任何选择的曲目中子选择音乐,无论是通过单独的音轨还是诱导的序列,当听这些曲目时,将帮助用户实现兴奋、放松、专注、警觉、提高身体活动的潜力等目标状态。其实现是通过分析用户的音乐数据库中的音轨(利用源于人类神经生理反应的预测模型的音乐参数),并且之后自动创建音乐播放列表,其也可以根据实时的生物反馈被动态地重新计算,该音乐播放列表将播放给用户,以便引导她/他接近,且有助于保持她/他处于期望的目标状态。
[0022]如上所述,X-系统模拟音乐对大脑下部和中部的特定部分——包括边缘系统和皮质下系统——的效果,但是大脑对音乐做出反应的部分不仅仅是这些。其他的中心支配着更多的个人感受,包括偏好、修养、记忆和联想、歌词的意义、写下它们的历史背景、表演者或作曲家有关情形的认识以及其它的因素。这些也具有显著的效果,因此重要的是不要期待任何音乐片段对任何个体具有绝对的影响。INRM描述了音乐效果的重要部分,但不是全部。某些音乐片段将使收听者平静、甚至诱发睡眠的预测不像药物或麻醉剂,其中某种剂量的效果可以以合理的精确性预测到,并且该效果不能被有意识的努力所抵抗。然而,实验证实了 INRM模型所基于的大脑的每个元素紧密的联系着唤醒和逆唤醒。然而,当适当地选择以伴随所需的状态或活动时音乐具有其最大的效果,并且X-系统提供了选择总是适合于收听者正在做的事情的音乐的自动化方法,这在许多情况下可以非常有效,从治疗焦虑症以增强松弛或专注,或刺激创造“流”,或为体育活动带来力量和流畅性。支持X-系统的大脑模拟提供其它存在的分类系统所不能提供的进一步能力:就是普遍性;x-系统可针对全世界的音乐曲目准确地预测心理唤醒的水平,无论是西方古典和流行、中国或印度的古典或民间的音乐、非洲流行或传统、还是前卫的电子或爵士乐。
[0023]已经证明,在广泛的曲目中,X-系统在根据心率和皮电反应电阻这样的生物计量参数预测唤醒/逆唤醒的总指数(general index)方面能够胜过音乐专家,但是在这些生物计量参数不同的情况下,等式一我们将在本文的后面部分中描述一几乎确定需要修改。同样地,有很多本领域技术人员熟悉的数学技术,其已经用于预测一段音乐的神经生理效果,并且许多中的任何一项可产生同样令人满意的结果。因此,本发明的关键特征在于对音乐中的模式的识别,其是有神经生理活性的(“生物活性”)且对于人类的神经生理——包括唤醒和逆唤醒——具有可预测的效果。
[0024]本发明的其它方面
[0025]我们下面列举了本发明15个进一步的方面,每个也可以与其它任何一个相结合:
[0026]1.一种以这样一种方式将声音分类的通过计算机实施的方法(例如无论流派或文化渊源的任何音乐片段)(例如根据源于人类的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型的音乐参数),即,其可以被选择(例如根据由传感器捕获的生物计量数据自动地进行)以用于诱导神经生理唤醒接近目标水平;这可能发生在引导收听者接近一些预先指定的精神状态和/或情感中的一个或多个的时候,或者为了引导收听者接近一些预先指定的精神状态和/或情感中的一个或多个而发生。
[0027]2.在远程数据库中(例如根据源于人类的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型的音乐参数)的声音(例如音乐片段)的自动分类。这包括我们能够搜索/发现具有类似于X-系统深层结构的的音乐和将传统的分类方案(Gracenote?等)与X-系统交叉匹配的计划。作为自动分类的另-种选择,或者除此之外,X-系统提供了用于商业和宣传目的的选择和“推送”,或者用于特定音乐的描述和检测的方法论,其针对所有的应用,而不仅是诱导。一个实例是一种根据对音乐的先天神经生理反应将不论流派或文化渊源的任何音乐片段分类的通过计算机实现的方法,以用于搜索、引导、音乐发现、检索和选择的目的。
[0028]我们现在扩大搜索/发现的概念,其中X-系统提供远程或者本地音乐数据库以及X-系统编码服务的自动搜索。在本发明中,用户可以:
[0029]?通过在其计算机或者智能手机的X-系统设备应用程序上按下“查找更多”或“我喜欢”键,就可以搜索具有与他们标记为喜欢的音乐类似的签名的音乐。
[0030]?通过社交网络群体中的收听喜好模式搜索和搜索社交网络群体中的收听喜好模式,这样通过分享自己的喜好和选择并且将这些与自己的朋友交流,人们将看到自己对特定首轨的情绪反应和在网络中与其它人的对照之丨B]的关系。
[0031]?通过音乐或体验之旅搜索,这样可以存储特定的音乐序列在例如自己的智能手机中,并且当自己按下“我喜欢该序列,存储其以便我再次播放”时重复。[0032]?通过发现模式和用户标记为“我喜欢”的音轨之间的关系搜索,这样所述流派、音乐家、活动的类似的组合和X-系统编码的唤醒数据能够主动进行推荐。因此,例如,X-系统将产生播放列表建议,其将结合爵士、特定的迈尔斯?戴维斯音轨、记录一篇短文、专注和唤醒水平,其前提是类似的组合已经从更早的收听序列中标记(标记的活动是智能手机应用程序的一部分);和
[0033]?在Google和其它网站搜索X_系统编码的信息,这样,例如,对音乐、视频或其它网页内容进行分类和标记——这是自动地进行;或者与搜索引擎服务商合作,以便其“宣传”x-系统唤醒或情绪状态;或者根据在查看网页时自动标记网站的访问者。
[0034]3.个体的下层皮质、边缘和皮质下神经生理唤醒的水平的自动诊断并将其表达为数值,以便对应于在数据库中理论上数量无上限的音乐片段中的任何一个的音乐效果。可选择地或附加地,可以提供一种自我诊断的反复试验的方法,例如通过上述的歌曲选择。
[0035]4.一种创建音轨播放列表的计算机实施的方法,该音轨播放列表是由自动(或实际上手动)分析音乐参数产生的,该音乐参数源于人类的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型,以便诱导唤醒和引导精神状态和/或情感。可选择地,其可包括:
[0036]通过参考现有的描述性元数据——如果可用,例如流派或用户创建的播放列表——来在数据库中挑选音乐的子集;b)通过将用户的下层皮质、边缘和皮质下的神经生理唤醒的初始水平与音乐效果矩阵的相关行中包含的音乐进行匹配(我们将在之后详细解释该矩阵),从该音乐子集中选择符合该神经生理唤醒的初始水平的一些片段;c)选择目标的精神状态和/或情感;d)选择一系列升序或降序的音乐效果值,其对应于从初始的到所需的神经生理唤醒水平的预期诱导通路;e)在这一系列的值的基础上,从音乐数据库选择合格的目录;f)从合格的内容中随机挑选播放列表,该合格的内容服从于其他的规贝U,例如流派喜好、防重复规则(看下面的“音乐选择算法”)或美国的千禧年数字版权法(DMCA)规则;g)以连续的生物计量反馈为基础每隔一段时间重复播放列表的计算,例如,基于包括最新反馈的生物计量反馈,播放列表可以被每分钟重复计算一次。
[0037]5.一种确定音乐数据库(例如个人的)对于情感的诱导的充分性并且之后将关于充分和不充分的信息显示给用户的方法。
[0038]6.一种推荐音乐内容的补充给个人的音乐数据库以便保证充分性的方法,这是通过使用源于人类的下层皮质、边缘和皮质下的神经生理运行和对该音乐的反应的预测模型的音乐参数实现的。
[0039]7.一种选择具有类似的音乐效果的音乐的方法(例如根据源于人类的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型的音乐参数)。其可包括X-系统编码的搜索。
[0040]8.一种根据音乐效果而不是描述性特性的将音乐分类的方法。
[0041]9.一种通过将每段的音乐效果与音乐效果矢量所描述的值的时间序列匹配以便给播放列表中的一系列音乐片段排序的方法。
[0042]10.一种利用上述任何一种方法和系统操纵用户唤醒的方法。
[0043]11.一种利用上述任何一种方法和系统来修改任何给定的环境中的环境声属性以便在收听者中产生所需的神经生理反应的方法。以及其作为定义这些反应的选择、控制或设计的工具的用途。
[0044]12.一种适于执行上述任何一种方法的系统。
[0045]13.北边称为或者适应于执行上述的任何方法或形成上述系统的一部分的软件(不论是装置驻留、网络驻留或其它位置)、固件、系统芯片(SoC)或音频堆栈(audiostack)。
[0046]14.一种适于通过利用上述任何方法或通过利用或包括上述任何系统、软件、固件、系统芯片或音频堆栈来操纵用户的唤醒的计算装置,例如智能手机或平板电脑。
[0047]15.适于与上述定义的计算装置一起工作的传感器。
[0048]一些更广义的说明如下:
[0049]关于音乐中的哪些结构和经验现象(experiential phenomena)激活原脑(primitive brain)的哪些部分的识别,利用数字签名分析来测量的技术的发展,以及一系列通用模型结构的构建,其使用相对简单的等式预测大脑的相关区域和器官的激活水平并且进而预测其在生物计量指标上效果,这些是本发明的关键方面。
[0050]本发明的实例可对所有的音乐流派有效并且不依赖于任何预存在数字化音乐数据库中的元数据。该数据库可以由用户从他或她自己的收藏中汇编并且存储在本地播放器中,在这种情况下,数据库中的音乐可以进行远程地描述,其可以在数字存储装置上被提供预分析,或其可以从中央服务器流动式接收。在后一种情况下,音乐可以与其它的数据和/或数字媒体关联,以便增强用户的体验,或者可以描述和包括签名片段(signatureexcerpt),以便促进所需的效果。
[0051]本发明可以作为应用软件在远程服务器、音乐播放器自身或另一个直接或通过本地或广域网连接音乐播放器的装置,或固件或嵌入在芯片中执行;其可以形成音频堆栈的一部分或用作一组设计工具的一部分。这些实施例可实现音轨和其它声音的实时分析,都在例如智能手机或平板电脑这样的便携式计算装置内部本地地完成,或在服务器上远程地完成,或一些分散式的基于本地和服务器的处理的组合。所有这些部署也将支持一致的API (应用程序界面),使应用程序供应商和服务提供商有接入系统的能力,例如,使新的应用程序被构建和部署。
[0052]如果必要的元数据是可用的,可在音乐数据库上的这些元数据中挑选首选的音乐风格;如果必要的元数据不是可用的,系统也可从全部音乐数据库而不是挑选的子集中选择。
[0053]如下术语在本文中采用特定含义:
[0054]“神经生理唤醒的水平”:一种计算出的指数,其根据例如皮肤电导和脉搏率来计算,虽然也可以选择其它的参数,包括需要更复杂的测量的情况。不同的神经生理唤醒水平促进不同的活动、精神状态和情感。
[0055]“精神状态”:与例如创造力、学习、沉思、想象等这样的不同类型的思维相关的大脑的功能区之间的动态关系。
[0056]“情感”(名称):在心理学中使用以表示感觉或情绪,以及在精神病学中表示表达出的或观察到的情绪反应。心情。
[0057]“音乐效果”:由给定的音乐片段引起的精神状态或心情,以及其对神经生理唤醒的影响。
[0058]“声音”:包括任何声音,其包括如传统地理解的音乐,但是也延伸到其它的声音,例如,在工作场所、电影院、家、商店、车辆、汽车、火车、飞机一声音可以在理论上影响收听者的唤醒的任何地方——的环境或背景噪声。例如,调谐汽车排气的音律就是一个实例;修改引擎声是另一个实例。自然的声音(风、海等)、动物的声音、超声(行星、恒星、花、树、金融市场、细胞活性等)是“声音”的其它实例。在本文中,我们将涉及“音乐”,但是该术语应该被宽泛地解释为,不仅包括艺术形式的音乐,其中的声音和/或乐器联合展现了和谐、优美或自我表现,而且还包括其它所有的声音形式,如上述宽泛定义的术语。
[0059]关于术语的说明:初级听觉皮层位于新皮质——大脑中最“进化”的部分——的颞叶中,但是其实质上在系统的“下层”,因此是“下层皮质”。对X-系统关键的器官一例
如海马和杏仁核(amygdala)-通常被描述为“边缘”(来自拉丁文“ limen、liminis”,意
思是“阈值”,即,在新皮质的下限部分)。这与情绪相关的区域接近,例如伏隔核(nucleusaccumbens)、和导水管周围灰质有时也被视为边缘。边缘系统也可以描述为原脑皮质
(archicortex)和旧皮质(paleocortex)- “主要的、最初的或支配的”和“旧的”皮质。
最终,涉及节奏,核心情感和运动的很多X-系统区域是皮质下,例如基底神经节和小脑。
[0060]因此,相对于新皮质的更多认知相关、文化相关和反射区域来说,X-系统主要涉及大脑的下层皮质、边缘和皮质下区域,关系到对音乐的基本的和普遍的反应。
【专利附图】

【附图说明】
[0061]图1表示涉及适用于X-系统的音频处理的神经元件的图解示意图。实线框内封闭的元件是现有模型的一部分;包含在虚线框中的元件可以包括在该模型中。
[0062]图2表示其中系统的用户既要选择他们所需的情感目标又是产生的输出的接受者的整个系统结构。
[0063]图3表示其中由系统用户以外的一方做出目标情感的选择的整个系统结构。
[0064]图4表不X-系统发明的一个实施例,其中,软件的各个方面都位于用户的个人电脑上(术语“个人电脑”应该被宽泛地解释为涵盖任何形状因素的任何计算装置,包括能够执行计算功能的任何装置)。
[0065]图5表示X-系统发明的一个实施例,其中,初级的音乐库和分析软件位于用户的个人电脑上,其有能力传递选择的音乐给个人音乐播放器,其之后基于可用的音乐产生动态播放列表。
[0066]图6表示X-系统发明的一个实施例,其中,外部服务提供商通过网络连接提供分析工具。音频可位于用户的个人电脑上或由服务提供商“流动式接收”,并且存储音乐情感的数据库可用于最小化音轨分析。
[0067]图7A是表示X-系统音频分析工具的用于分析谐度的主要部分的详细的方框图。
[0068]图7B是表示X-系统音频分析工具的所有主要部分的详细的方框图。
[0069]图8是表示X-系统音乐重放和监测应用程序的主要部分的详细的方框图。
[0070]图9表示以图表表示针对兴奋、平稳或放松的通路的随时间变化的唤醒。
[0071]图10:通过使用A-加权滤波器实现耳蜗和初级听觉通路的模拟。其弱化低频和增大高频,向着人类听觉的频率上限再次快速地下降。
[0072]图11表示随时间变化的节拍能量(Beat Energy)。
[0073]图12表示随时间变化的谐波能量(Harmonic Energy)。
[0074]图13表示随时间变化的谐波损失(Harmonic Cost)。
[0075]图14表示随时间变化的音量。
[0076]图15表示随时间变化的谐波能量。
[0077]图16表示从迈尔斯.戴维斯的曲目中的取样分类。
[0078]图17表示其它手动分类的实例,其中,音轨被进一步分类成稳定、上升和下降的矢量。
[0079]图18表示来自贝多芬交响曲的乐章中已经根据矢量分类的实施例。
【具体实施方式】
[0080]【具体实施方式】由以下部分组成:
[0081]A.高级概念
[0082]B.对音乐的先天神经生理反应(INRM)的详细解释
[0083]C.如何使用X-系统
[0084]D.一个或多个传感器
[0085]E.音乐选择算法
[0086]F.音乐播放器
[0087]G.诊断和成流软件
[0088]H.手动分类
[0089]1.手动分类矢量
[0090]J.社交网络
[0091]K.扩展/增强的时机
[0092]L.X-系统的优势。
[0093]A.高级概念
[0094]科学证明,通过直接神经生理的参与,音乐诱导和塑造唤醒、精神状态和情感;本发明关注对音乐的先天神经生理反应的测定的发现和一般方法,并且包括一种利用这种现象的新方法。如上所述,本发明通过称为X-系统的产品实现。X-系统利用音乐的潜力来影响收听者的神经生理变化,尤其涉及唤醒和逆唤醒以及相关的精神状态,致力于大脑的边缘、下层皮质和皮质下区域的最基本的、先天的神经生理活动和反应的水平。
[0095]其不同于其它的音乐分类方法,因为其不关注通过符号标记或通过声学特性的分析的音乐相似性。其也不同于标准的治疗方法,例如情绪的分类。[0096]X-系统通过INRM(对音乐的先天神经生理反应)的预测性、确定性模拟(奥斯本2009,未出版),如图1所示,以及通过接近身体和精神的目标状态的通路的构建来工作。B部分详细解释了 INRM。简而言之,INRM范例采取听觉的标准解释,从耳道到耳蜗的卵圆窗。模拟耳蜗本身以复制人类听觉特征的模型。范例进一步假定了到下丘和初级听觉皮层的神经通路。通过对镜像神经元(mirror neuron)和与前运动区相关的系统的简单模拟来预测脉冲和节奏性相关的唤醒的水平,包括节拍感应以及节奏功率和密度的指数。其它的音乐的生物活性特征也可以被模拟,其中包括例如在右前次级听觉皮层中的节奏模式的识别。
[0097]X-系统附加地模拟黑索氏回(Heschls gyrus)、后颞平面(posterior planumtemporale)、颞上沟和岛环状沟(circular insular sulcus)的活动,以预测与唤醒相关的音质和与指数级数相关的频率结构,包括八度音阶等值。还存在其他模拟的可能性,例如,利用例如谐度指数来模拟颞上回前部(planum polare)中色度(chroma)(旋律的单个音符)之间的与唤醒相关的效果。
[0098]最后,计算“扰动”的一般水平以作为对核心情感位置和器官——例如导水管周围灰质和杏仁核——中唤醒和逆唤醒的预测。
[0099]将计算出的预测性唤醒和逆唤醒的值结合,以模拟自主神经系统和例如HPA (下丘-垂体-肾上腺)轴这样的相关系统中的唤醒和逆唤醒的过程。
[0100]传感器可选择地用于确定用户的唤醒状态,并通过INRM范例的预测性模拟分类的音乐被流动式接受/回放,以实现用户的目标唤醒状态。在一个可选择的实施例中未提供传感器。改为,初始和目标状态都是直接或间接地自选择的(例如,通过选择具有关于用户真实的当前状态的唤醒值的“开始曲”)。例如,用户做出粗略的初始选择,首先,他/她最初可以从歌曲之间一一跳过,直到发现一个(即通过反复试验)既“喜欢”又“适合”他们的初始状态的歌曲。由此,在无传感器的实施例中,X-系统可以根据预期的正常人的反应来创造趋向所需的唤醒状态的播放列表。
[0101]另一替代方案中,提供了一个将一群人看作具有软件但没有传感器、依靠平均预期的反应的系统的实施例。一种应用是适用于“人群”的应用程序,其中,自动的电台音乐节目主持人(DJ)将能够在聚会中操纵一群人的情绪。
[0102]其它的替代方案包括这些应用,S卩,通过传感器发送情绪暗示给系统来控制个人的音频环境,以及通过传感器或无传感器的输入来调查群体的情绪,以便诱导个人或群体接近所需的反应。
[0103]其它可选的应用包括,根据音乐的神经生理内容的音乐的搜索、选择、说明、检测、分享或推广。
[0104]在所有的系统和活动都涉及音乐和唤醒的情况下,个体之间的存在反应上的变差,以及由身体和精神、药物等的极端或罕见的状态造成的变化。X-系统的优势是,其以最根本的生理反应为基础工作,其可以随着用户有意识和无意识的应答在道德和民主的协同作用中发挥作用。基于INRM分类系统的进一步的优势是,其可以适用于任何人类文化的音乐,并真正地适用于声音设计和自然世界的声音。
[0105]B.对音乐的先天神经生理反应(INRM)的详细解释
[0106]图1表示与听觉处理和解释有关的神经结构的简化模型。本发明的实例X-系统可模拟这些系统响应于以下部分所描述的声音(例如音乐的)刺激作出的运行和行为。[0107]对音乐范例的先天神经生理反应是精神和身体对音乐的最基本的反应的预测性、确定性的模型。虽然对音乐的反应深深地受文化、个人的历史和背景的影响,但是基本的神经生理反应通用到所有的音乐体验中。目前在神经牛理学和神经科学中研究的真ιΗ的主体——包括来自于功能性磁共振成像、脑电图(EEG)和电子发射断层扫描(Positron
Emission Tomography)的证据,以及与内分泌和自主活动相关的研究-使得建立大脑的
下层皮质、皮质下和边缘部分如何对音乐起反应的预测模型成为可能。
[0108]X-系统使用以下协议用于音频输入。输入取自于未压缩的WAV文件或任何其它合适的格式(当X-系统进行远程分类时一例如分类在远程服务器或个人装置上的音乐音轨,X-系统可使用较低质量的文件格式。同样地,较高质量的文件格式可能更适合于其它情况)。如果音轨是立体声,我们通过将其均分来结合两个声道。这是特别重要的,例如,对于上世纪六十年代的音轨,其中一些响亮的乐器全部配置在左边或右边。这样应该不会导致干扰,除非音频由故障的立体声设备传出(例如错位的磁头)。音轨被分成给定长度的部分,并且独立地对每部分进行分析。
[0109]图7A是表示在X-系统中用于分析谐度的主要组件的方框图,以及图7B是音乐分析工具的全部主要组件的方框图表示。主要组件的运行将在B部分的其余部分中描述。
[0110]B.1耳蜗和初级听觉通路
[0111]耳蜗和初级听觉通路的模拟通过使用A-加权滤波器来实现,如IEC(国际电工委员会)61672中所规定的。这弱化低频和增强高频,向着人类听觉的频率上限再次快速地下降;滤波器“拐点”在6kHz左右。需要用该加权来确保,(如在人类听觉中)高能量低频率的声音不会覆盖其它频谱信息。参照图10。
[0112]B.2谐度:黑索氏回和相关的音质图(`tonotopic map)
[0113]“谐度”描述了声音(例如音乐)与谐波列(harmonic series)(当风吹过树洞,用你的手指轻轻地拨动小提琴或吉他的弦,或者渐进地吹长笛上更刺耳的单音符时,谐波列出现在你听到的声音中)的模式的对应。该谐波列在对称的共鸣对象中是声能量浓度的通用模式:基音f,伴随其谐波f2、f3、f4等联合发出的声音。该模式在有感知的生命形式的进化过程中自始至终都是非常重要的,从原始细胞的谐波共振,经过感知在环境中的谐波声音的“安全性”,到乐器和人类声音的赏心悦目的谐波共振。“谐度”或者谐波列的模式的对应是通过黑索氏回来检测,其位于大脑的初级听觉皮层中。谐度激活大脑的核心情感中心中逆唤醒和快乐的中心。失谐度(Inharmonicity)或者缺乏与谐波列的对应激活唤醒系统。
[0114]X-系统通过确定谐度和失谐度的水平来模拟黑索氏回对声音的活动和反应。这可能是一个复杂的过程。音乐结构可包括数个基音,每个都有各自的谐波或非谐波频谱。
[0115]X-系统是前所未有的,因为其将音高和音色的所有情感处理结合成两个与谐度相关的算法。音色(声音的内部结构“色”),谐度(内部结构对应于谐波列的模式的程度)和个别的音高是在初级听觉皮层中进行最初地处理。处理音色的主要区域是黑索氏回和颞上沟,延伸到岛环状沟中(McAdams等1995 !Griffiths等1998 ;Menon等2002)。音高是逐渐地更加深入地在黑索氏回周围的区域中处理:色度(或者说八度音阶中音高的差异,例如在大多数传统的旋律中)激活黑索氏回和颞平面前部的双侧区域,而音高的改变(八度音阶移调等,例如男人和女人唱同样的曲调之间的差异)激活黑索氏回和颞平面后部的双侧区域(Bruggel985 ;Pantev 等 1988 ;Recanzone 等 1993 ;Zatorre 等 1994 ;ffarren等 2000 ;Patterson 等 2002 ;Formisano2003 ;Decety 和 Chaminade2003 ;Jeannerod2004 ;Talavage2004)。谐度和音高结构激活杏仁核和海马区域,并进而激活自主神经系统、核心情感中心、和内分泌和神经传递系统(Wieser和Mazzolal986 ;Blood和Zatorre2001 ;Brown等2004 ;Baumgartner等2006 ;Koelsch等2006)。X-系统通过分析垂直谐度窗口来预测性地模拟简单音色的神经生理的感觉(黑索氏回、颞上沟、岛环状沟):x-系统通过谐波产物频谱(harmonic product spectrum)的计算来检测主要的基音,之后在不同的基音频谱内部和之间确定谐度的度。该分析“垂直地”应用于瞬时时刻,和“水平地”应用于音高和频谱随时间的演进(与黑索氏回周围区域的音质映射相关)并以线性谐波损失的方式表示出来。
[0116]在一个非常简单的实施例中,线性谐波损失(C)的平均值和瞬时的谐度(H)结合在一起计算一段声音的失谐度(I),其中:
[0117]I = C/10-H
[0118]该等式是如何计算失谐度非限制性实例,并且将I与C和H结合的其它方式可能也是适合的;而且,I可以以其它或附加的变量来定义,就像C和H。如图12和13,表示随时间变化的谐波能量和损失。
[0119]关于谐度计算的更多细节现说明如下:
[0120]B.2.1频谱分析
[0121]首先,利用8192样本的窗口长度和2250样本的间距(0.05秒)进行音频的STFT (短时傅里叶变换)。其产生时间相对于频率的二维数组。
[0122]B.2.2耳蜗建模
[0123]在处理节奏的情况下,分析是在输入样本数据的变换的实例上进行的,其解释听觉通路的某些方面,主要是耳蜗拾音器(cochlea pick-up)。耳蜗的特性是众所周知的,并且已经发展出了精确地模型。我们将基于频率的增益函数应用于输入信号,该输入信号减弱低音信号并放大高音部分,在在6kHz具有滤波器“拐点”。使用的确切变换是在IEC61672中规定的“A加权”。
[0124]B.2.3基本频率的检测
[0125]在STFT数组的每个时间片中,基本频率的确定是利用谐波产物频谱的方法(harmonic product spectrum method),如下所不:
[0126]?取频谱,通过因数2、3、4和5,产生其沿着频率轴压缩的副本。
[0127]籲乘以所有5个副本(包括原始的)
[0128]?基本频率是由此产生的频谱的最大值。
[0129]B.2.4平均谐度
[0130]对于STFT数组的每个时间片,平均谐度是谐波能量和时间片中存在的当前总能量的比值。谐波能量是在后面的基音、以及基音的1/2和1/4的谐波中所获得的能量:[1234567]。对于每个这些谐波,我们计算在最接近STFT存储桶(STFT bucket)加上每一侧的3个存储桶中获得的能量的总和,。
[0131]B.2.5线性谐波损失
[0132]在黑索氏回的周围区域(颞平面、后颞平面)的活动和演进(progression)的预测-包括色度、八度音阶的变化和和弦进行(chord progression)等-被结合在一个
单一操作中,描述为“线性谐度”或“谐波损失”。
[0133]这完全是前所未有的:其根据每个步骤的偏离于谐波列的简单比例有多远来分析全部旋律和谐波的演进:线性谐波损失从STFT时间片上升,STFT时间片的基本频率与之前的时间片的基本频率不同。在基音上无变化时间片损失为零。基音频率第一次归一化是通过将其凑整至A440音调以下的最接近的音符值,之后,将其转换为单八度音阶。之后将该(归一化的)基音与前一个进行比较:如果它们完全一样,损失为零。如果新的基音是之前(归一化的)基音的以下谐波和次谐波(1/91/71/61/51/33679)之一,那么损失将定义为谐波的乘数或次谐波的除数。否则损失定义为15。
[0134]线性谐波损失以每秒的损失表示。因此,度量标准既代表基音变化的比率,也代表变化的谐波距离。数值越大,表示更强的刺激效果。
[0135]线性谐度将类似的情感系统激活为垂直的谐度(Wieser和Mazzolal986 ;Blood和Zatorre2001 ;Brown 等 2004 ;Baumgartner 等 2006 ;Koelsch 等 2006)。
[0136]B.2.6谐度和效价
[0137]垂直和线性的谐度都是效价的强有力的指数(Fritz2009),或者说声音是“正面的”还是“负面的”,“令人愉快的”还是“不那么令人愉快的”。线性谐度可追踪效价指标随时间的发展——原理只不过是谐波越多、正效价越多,谐波越少、负效价越多。
[0138]可以想象的是,与黑索氏回相关的等式可以由不同的数学方法重新构建。颞平面函数能用任何不同的方式逼近是极不可能的。
[0139]B.3节奏性:镜像神经元、听觉皮层和前运动区皮层
[0140]人类对音乐节奏的反应涉及一组复杂的精神和身体系统的活动(Osbornel.2009 ;0sborne2009.2 ;0sborne2012.3),包括感知系统、蜗背侧核(dorsal cochlear nucleus)、下丘和脊柱系统(Meloni和Davisl998 ;Li等1998)初级和次级听觉皮层(Peretz和 Kolinskyl993 ;Penhune 等 1999)、镜像神经兀(Rizzolati 等 2001 ;Gallese2003 ;Molnar-Szakacs 和 0very2006 ; Overy 和 Molnar_Szakacs2009)、运动前和运动皮层、基底神经节、前庭系统和小脑(Zatorre 和 Peretz2001 ;Peretz 和 Zatorre2003 ;Turner 和1annides2009 ;)、自主神经系统(Updike 和 Charlesl987 ;Iwanaga 和 Tsukamoto 1997 ;Byers 和 Smythl997 ;Cardigan 等 2001 ;Knight 和 Rickard2001 ;Aragon 等 2002 ;Mok 和Wong2003 ;Lee等2003 ;Iwanaga等2005),以及最终的身体和核心情感的系统(Holstege等1996 ;Gerra等1998 ;Panksepp和Trevarthen2009)。其中一些可能特别涉及能够使编码在声音中的感知行为、生命力情感和活力再生的镜像神经元的激励,及其在在收听者的精神和身体中的表现形式。高能量的快节奏激活自主神经系统和内分泌系统中的唤醒,例如下丘脑-垂体-肾上腺轴。慢节奏激活逆唤醒。
[0141]X-系统根据每分钟的节拍数检测基本的、“默认的”节奏脉冲。经常在确定韵律的时候遇到困难,但是X-系统通过节奏事件的功率(power of a rhythmic event)随时间的累积来接近韵律结构的唤醒效果。节奏事件的功率定义为节拍前的能量与之后的能量的比率。在一个非常简单的实施例中,每分钟节拍的值(B)与节拍强度(S)的平均值结合以产生节奏性的值(R),其中:
[0142]R = VB*S~2[0143]该等式是如何计算节奏的非限制性实例,并且将R与B和S结合的其它方式也可能适合;而且,R可以以其它或附加的变量来定义。一般来说,R可以是B和S的函数,但是最佳的关系将依赖于各种因素。如图11,表示随时间变化的的节拍能量。
[0144]关于节奏性的更多细节:
[0145]B.3.1耳蜗的模型
[0146]根据前面的解释,节奏的听觉感知是由传统的耳蜗模型预测的:随着音频输入,在输入样本数据的转换实例上执行所有的后续分析,其解释听觉通路的某些方面,主要是耳蜗拾音器。耳蜗的行为是众所周知的并且已经开发出了精确的模型。我们将基于频率的增益函数应用于输入信号,该输入信号减弱低音信号和放大高音部分,具有6kHz左右处的滤波器“拐点”。使用的确切变换是在IEC61672中规定的“A加权”。
[0147]B.3.2节奏感应
[0148]通过节拍感应,利用具体校准的起始窗口预测性地模拟原始脊柱通路和运动前环(pre-motor loop)(包括基底神经节、前庭系统、小脑等)的激活,所有这些都与对节奏脉动的原始反应有关。
[0149]当然,节奏性是模拟样本基本节拍以及其中的高阶韵律结构的参数。其首先通过利用频谱峰值通量的检测确定音符起点(note onset)来计算。这些起点之后用于产生和给大量的韵律结构假设打分。利用Dixon的方法[音频节拍追踪系统节拍根源的评价(Evaluation ofthe Audio Beat Tracking System BeatRoot),新音乐石开究杂志(JournalofNew Music Research),36 (I),39-50,2007]来产生、过滤和和评分备选的假设。除了所描述的方法,我们将该程序延伸至包括起点事件周围的频谱通量的量级,以便评价更高阶的结构。产生的假设利用同样的方法进行过滤和打分,终端输出包含样本的基本节拍的预测,根据预测的韵律结构加权节拍的次级输出,其中,低音节拍的重音节拍越明显,该值越高。针对所有得分高于给定的阈值的节拍假说,置信度值也表示为这些输出的分布方差。将该置信度值归一化以允许横向比较样本。
[0150]B.3.3 自相关
[0151]节奏模式识别和保持(例如在颞叶的二级听觉皮层中)是通过自相似性/自相关算法(self-similarity/auto-correlation algorithm)(例如 Foote http://207.21.18.5/publications/FXPAL-PR-99-093.pdf)进行预测性地模拟。
[0152]首先音频在重叠步骤中用汉明窗口处理;针对每个窗的功率谱的记录,每个窗通过DFT (精细的傅里叶变换)的平均值计算。这些系数通过梅尔缩放(Mel-scaling)感知加权。最终,第二个DFT用于创造倒谱系数(cepstral coefficient)。高阶MFCC(梅尔频率倒谱系数)被删除,留下了 12个低阶MFCC,在IOOHz速度时形成13维的特征矢量(12加能量)。这些数据之后经过矢量自相关,绘制在二维窗中,其中,X和I轴随时间绘制音轨的展开。向上读数——例如从X轴上的音轨的第一瞬间上——的“亮度”区域显示相似点,和可能的韵律结构。
[0153]点的分布密度也用在节奏诱导的唤醒的预测指数中(密度越大,唤醒越高)。
[0154]B.3.4 功率
[0155]镜像神经元系统一除了别的之外,其检测“节奏的”活动的功率、轨迹和意向性——的激活通过节奏功率的指数预测性地模拟,该指数包括音量级、音量峰值密度、“低谷”,或能量缺乏和运行能量的动态分布的计算。
[0156]B.3.5 音量包络分析(Volume envelope analysis)
[0157]音量包络的计算为振幅数据的5毫秒的片的均方根。
[0158]B.3.6 音量级
[0159]这是简单的在时间段内的平均的均方根级。
[0160]B.3.7音量峰值密度
[0161]每片(通常10秒)音量峰值的数量一如通过最小峰值间距=100毫秒的矩阵
实验室(MATLAB)寻找峰值函数(findpeaks function)获得-乘以超过音量平均值的峰
值平均高度,除以音量标准偏差。
[0162]B.3.8 音量微分峰密度(Volume differential peak density)
[0163]类似于音量峰密度,但是采用音量的第一微分。
[0164]B.3.9音量波谷长度
[0165]音量比音量平均值低标准偏差的一半的平均持续时间。
[0166]B.3.10音量波谷的最小值
[0167]音量波谷的音量最小值的平均值除以音量标准偏差。
[0168]B.3.11动态分布图
[0169]此外,在起始之前和之间的能量损失的分布图(陡峭对于高唤醒,平滑对于低唤醒),其出现重要的镜像神经元信息,将在以后通过导致重要的发音的能量流的分布计算来预测。
[0170]例如,τ “tau” (希腊文第十九个字母)率禹合(Lee2005): τ χ = K x, g τ g
[0171]其中,tau =滑音原点的时间(前一个起始的终点),X =在下一个可预测的起始之前的间隙,g =通过神经元组装的电能的模式流(patterned flow) ,kappa =由大脑确定的移动值。能量的分布图将由kappaXG的平均值的分布图确定。
[0172]B.3.12标准的、市售的用于节奏检测的软件可能令人满意地用于一些音乐流派,但是这样的软件可能不能检测任何给定的音乐片段的特定生物激活的节奏,并且可能在检测某些节奏上依然有些困难。预测性地模拟大脑的核心节奏处理中心的激活的上述算法已经被证明是可靠的。这些算法中的一些——例如节拍检测——在理论上能被其它的数学程序代替。本发明的独创性在于前所未有的仿生性质。因此,我们在音乐(节奏)中有一个现象,就是已知对自主神经系统(也有核心情感系统、内分泌活动和神经传递)中的唤醒和逆唤醒产生效果,已知其进而对你的感觉产生强大的影响:放松、能够专注、想跳舞等。我们也具有测量节奏效果的的手段(我们的传感器)。我们的分类算法(上述的)作为来自于数字签名分析的有关数据的输入,并且产生对挑选的生物计量有预测性影响的输出。强烈的节奏将具有唤醒的效果而温和的节奏将具有镇静的效果,并且基于同样原理,没有现有技术中的不足。在模拟对节奏的先天神经生理反应中,假设、测试和细化将节奏的测量与其预期的对心率和皮肤电导产生的效果(在本实施例中)连接的算法。
[0173]B.4扰动和核心情感系统(位置和器官)
[0174]一段音乐的“扰动”涉及其在一段时间内变化的速度和程度,根据节奏性和谐度以
及声压中的一般波动。
[0175]“扰动”将涉及上述通路的节奏和谐度的变化指数与听觉脑干和皮质活动结合,该听觉脑干和皮质活动使杏仁核、海马和核心情感区域受神经支配,该杏仁核、海马和核心情感区域影响神经传递和内分泌系统,包括肾上腺轴、多巴胺回路和,例如去甲肾上腺素、裡黑素和催产素的水平(Miluk-Kolasa 等 1995 ;Gerra 等 1998 ;Kumar 等 1999 ;Evers 和Suhr2000 ;Schneider 等 2001 ;Blood 和 Zatorre2001 ;Grape 等 2003 ;Uedo 等 004 ;Stefano等2004 !Herbert等2005 ;Nilsson等2005)。唤醒和逆唤醒的这一重要的预测器可被表示为节奏和谐度的微分。
[0176]因此,“扰动”是音乐体验中的变化率的测量和变化程度的测量。这些因素似乎可以激活大脑的核心情感系统,例如杏仁核和导水管周围灰质,其进而与自主和内分泌系统连接。高水平的音乐能量扰动可提高唤醒;在低水平的音乐能量扰动可增加逆唤醒效果。
[0177]一段的总扰动(T)被确定为片段的谐度(H’ )和音轨(P)的音量峰值期间存在的能量的扰动的结合。谐度的扰动计算公式为谐度的微分的标准偏差除以微分的平均值。
[0178]在一个非常简单的实施例中,总扰动的计算公式是:
[0179]T = dH/dt*P
[0180]该等式是如何计算扰动的非限制性实例,并且将T与H和P结合的其它方式可能也是适合的;而且,T可以以其它或附加的变量来定义。
[0181]如图14和15,表示随时间变化的音量和谐波能量。
[0182]B.5结合值
[0183]上述通过测试假设和完善的每个算法有效地成为了大脑的“虚拟器官”,这有助于我们预测对唤醒和逆唤醒模式的水平所产生的效果,其能够在音乐中利用数字签名分析来检测。每个“器官”的相对加权可以适于利用启发式的、机器学习或其它技术来校准一组协调一致地工作的“虚拟器官”的整体预测能力。
[0184]上述分析的任何子集可以结合在一起以产生单数估算,其中一段音乐(或其部分)位于从放松至兴奋的尺度上。执行该结合的公式可能来源于实验数据,如下:许多收听者听相同选择的音轨。每个收听者之后独立地将所有音轨排列成序,从他们认为最令人放松的到最令人兴奋的。(该排序过程也可以通过测量收听者的生理数据来客观地实施,但是,这到目前为止给了收听者很多不太一致的结果。)统计回归分析在此之后执行,平均的人类排序作为因变量,以及音乐分析的所选子集作为自变量。换句话说,产生使用分析来预测人类排序的单一公式。在该公式中的系数被挑选以用于给出最好的预测,并针对所有音轨。所得到的公式 可之后用于产生针对大量音轨的大规模地自动预测。考虑下面的示例数据:
[0185]
【权利要求】
1.一种用于分析声音的计算机实现的系统,例如用于分析音轨,或任何其它类型的声音,其特征在于,该系统包括处理器,其编程为根据来源于或关联到人类大脑中的下部皮质、边缘和皮质下区域中的一个或多个的神经生理运行和对声音的反应的预测模型的音乐参数自动地分析声音; 并且其中,该系统分析声音,以便可以选择和播放合适的声音给收听者,以便刺激和/或操控该收听者的神经生理唤醒。
2.根据权利要求1所述的系统,其特征在于,该系统适于自动分析声音并将该分析的结果存储在数据库中,以便随后能够从该数据库中选择合适的声音,并将其播放给收听者,以向该收听者提供神经生理唤醒的期望的刺激和/或操控。
3.根据权利要求1或2所述的系统,其特征在于,音乐参数涉及节奏性。
4.根据上述任意一项权利要求所述的系统,其特征在于,音乐参数涉及谐度,其是与谐波列的对应程度。
5.根据上述任意一项权利要求所述的系统,其特征在于,音乐参数涉及扰动,其是音乐体验中的变化率和变化程度的测量。
6.根据权利要求3和上述任意一项根据权利要求3的权利要求所述的系统,其特征在于,通过分析节拍感应,本系统利用具体校准的初始窗口预测性地模拟原始脊髓通路和运动前回路(例如,基底神经节、前庭系统、小脑),其所有都涉及对有节奏的脉动的原始反应。
7.根据权利要求3和上述任意一项根据权利要求3的权利要求所述的系统,其特征在于,通过利用自相似/自相关算法,本系统预测性地模拟节奏模式识别和保持区域(例如,颞叶的次级听觉皮层) 。
8.根据权利要求3和上述任意一项根据权利要求3的权利要求所述的系统,其特征在于,本系统预测性地模拟镜像神经元系统的活动,其通过以下一个或多个检测节奏性活动的功率、轨迹和意向性:节奏功率的索引,包括音量级别的计算、音量峰值密度、“低谷”、或能量的缺乏和、运行能量的动态曲线。
9.根据权利要求3和上述任意一项根据权利要求3的权利要求所述的系统,其特征在于,通过分析起始之前和起始中的能量消耗曲线(陡峭对应高唤醒,平滑对应低唤醒)、重要的镜像神经元信息,以及导致明显发音的能量流的曲线的计算,本系统预测性地模拟镜像神经元的活动。
10.根据权利要求4和上述任意一项根据权利要求4的权利要求所述的系统,其特征在于,通过确定谐度和失谐度的水平,本系统预测性地模拟黑索氏回对声音的运行和反应。
11.根据权利要求4和上述任意一项根据权利要求4的权利要求所述的系统,其特征在于,其通过谐波产物频谱的计算来检测主要的基音,之后建立不同基音频谱内和之间的谐度的等级。
12.根据权利要求11所述的系统,其特征在于,将主要的基音的检测和谐度等级的确定“垂直地”应用于瞬时的时刻,和“水平地”应用于音高和频谱随时间的演进(涉及黑索氏回周围区域的音质映射),并且以线性谐波损失的方式表示,该谐波损失代表基音变化的速率和变化的谐波距离。
13.根据权利要求12所述的系统,其特征在于,通过分析瞬时时刻的垂直谐度的窗口,本系统预测性地模拟黑索氏回、颞上沟、岛环状沟对简单的音色的神经生理感觉。
14.根据权利要求12所述的系统,其特征在于,本系统根据每个短时傅里叶变换(STFT)时间片偏离于谐波列的简单比例的程度来预测性地模拟旋律和谐波的演进:线性谐波损失从基音频率不同于之前的片的短时傅里叶变换(STFT)时间片处上升;在基音上无变化的时间片具有零损失。
15.根据权利要求5和上述任意一项根据权利要求5的权利要求所述的系统,其特征在于,扰动将节奏性和谐度的变化索引与听觉脑干和皮质活动相结合,该听觉脑干和皮质活动神经支配杏仁核、海马和核心情感系统区域,该杏仁核、海马和核心情感系统区域影响神经传递和内分泌系统,包括肾上腺轴、多巴胺回路和例如去甲肾上腺素、褪黑素和催产素的水平。
16.根据上述任意一项权利要求所述的系统,其特征在于,声音的分析在本地存储的音乐数据上实时地运行,并且该系统包括在个人计算装置上运行的软件、固件和/或硬件。
17.根据上述任意一项权利要求所述的系统,其特征在于,声音的分析在存储在服务器中的音乐数据上实时地运行,并且该系统包括在该服务器或相关的服务器上运行的软件、固件和/或硬件。
18.根据上述任意一项权利要求所述的系统,其特征在于,将定义针对特定的声音的节奏性、谐度和扰动的数据以给出代表唤醒的单一输出的方式结合,该声音例如为,音乐音轨或该音轨的部分。
19.根据权利要求3和上述任意一项根据权利要求3的权利要求所述的系统,其特征在于,利用等式确定节奏性,该等式将R与B和S关联,例如等式R = V B*S~2,并且其中R是节奏性,B是每分钟的节拍,S是节拍强度的平均值。
20.根据权利要求3和上述任意一项根据权利要求3的权利要求所述的系统,其特征在于,利用等式确定节奏性,该等式将R与B和S关联,例如等式I = C/10 - H,并且其中I是失谐度,C是线性谐度损失,和H是瞬时的节奏。
21.根据权利要求5和上述任意一项根据权利要求5的权利要求所述的系统,其特征在于,利用等式确定扰动,该等式将T与H和P联系起来,例如T = dH/dt*P,其中,T是扰动,H是节奏性,和P是峰值音量期间的能量。
22.根据上述任意一项权利要求所述的系统,其特征在于,将针对给定的音轨的节奏性、谐度和——如果适用——扰动的值结合在一起,并映射到表征生理状态E的η维点P中。
23.根据权利要求22所述的系统,其特征在于,该系统利用等式确定兴奋度,该等式将E与1、R和T联系起来,例如等式E = (10*I*R) +T,其中,E是兴奋状态,R是节奏性、I是失谐度,和T是扰动。
24.根据权利要求22所述的系统,其特征在于,将针对给定的音轨的节奏性、谐度和——如果适用——扰动的值的变差映射到表征对生理状态的定向影响的η维点P中。
25.根据上述任意一项权利要求所述的系统,其特征在于,分析声音是为了导航、或发现、或检索、或选择、或匹配特定需求、或创建播放列表、或诱导情感或诱导情绪的目的。
26.根据上述任意一项权利要求所述的系统,其特征在于,声音是任意一种:音乐;工作间、影院、商店、车辆、汽车 、火车、飞机的周围或背景音乐;自然的声音(风、海等),动物的声音、超声(行星、恒星、花、树、金融市场、细胞活动等)。
27.根据上述任意一项权利要求所述的系统,其特征在于,该系统用于根据人类受检者预先选择的期望的唤醒状态来选择音轨并将其回放给人类受检者,根据人类对音乐的神经生理反应的模型来选择音轨,根据由神经生理模型预测的对音乐音轨的神经生理反应,神经生理模型用于选择回放的音乐音轨。
28.根据上述任意一项权利要求所述的系统,其特征在于,该系统包含计算机,其可操作为根据预先选择的人类受检者期望的唤醒状态选择用于回放给人类受检者的音乐音轨,音乐音轨的选择是根据人类对音乐的神经生理反应的模型实现的,该模型在计算机上运行,神经生理模型由计算机使用,以根据由神经生理模型预测的对音乐音轨的神经生理反应,选择回放的音乐音轨。
29.根据上述任意一项权利要求所述的系统,其特征在于,计算机可操作为接收人类受检者期望的唤醒状态的选择。
30.根据上述任意一项权利要求所述的系统,其特征在于,人类受检者既选择他们期望的唤醒状态也是由系统产生的音乐音轨输出的接受者。
31.根据上述权利要求27- 30中的任意一项所述的系统,其特征在于,期望的唤醒状态的选择由不是人类受检者的一方执行。
32.根据上述任意一项权利要求所述的系统,其特征在于,向用户呈现用户界面,这样,用户界面可操作为使用户能够从活动菜单中挑选,以便系统建立唤醒和情感的目标水平,这将促进选择活动。
33.根据上述任意一项权利要求所述的系统,其特征在于,主要的音乐库和分析软件存在于人类受检者远程或本地地可操作的计算机上,其具有将音乐的选择传递给个人音乐播放器装置的能力,之后,该个人音乐播放器装置根据可用的音乐产生动态播放列表。
34.根据上述任意一项权利要求所述的系统,其特征在于,通过机器学习完善对声音的人类神经生理反应模型,例如通过线 性回归和/或神经网络方法。
35.根据上述任意一项权利要求所述的系统,其特征在于,通过机器学习程序和统计分析完善对音轨的人类神经生理反应模型。
36.根据上述任意一项权利要求所述的系统,其特征在于,人类受检者的生物指标数据利用传感器测量,以确定人类受检者的神经生理唤醒。
37.根据上述任意一项权利要求所述的系统,其特征在于,该系统包含包括传感器的生物反馈系统。
38.根据权利要求37所述的系统,其特征在于,生物反馈系统包含传感器、处理器和存储音乐分类数据的数据存储库,传感器设置用于测量人类受检者的一个或多个参数,并将所述测量传送给处理器,其中,处理器设置用于根据测量和音乐分类数据选择音乐片段。
39.根据上述任意一项权利要求所述的系统,其特征在于,传感器用于测量人类受检者的唤醒状态,并且通过预测性模拟人类神经生理反应模型来分类的声音被流媒体式提供或以其它方式提供,以便实现人类受检者预先选择的期望的唤醒状态。
40.根据上述任意一项权利要求所述的系统,其特征在于,该系统包含传感器,这样,一旦激活传感器,系统测量人类受检者的初始神经生理唤醒水平,并且该系统将自动地创建播放列表,其将首先反映出该唤醒水平,之后引导人类受检者接近并使他们保持在人类受检者的预先选择的期望唤醒状态。
41.根据权利要求36-40中的任意一项所述的系统,其特征在于,传感器是以腕带,或改造的耳机,或脑电图(EEG) ‘帽子’,或手套的形式。
42.根据权利要求36-41中的任意一项所述的系统,其特征在于,传感器捕获包含生物计量参数的数据,其包括以下至少一个:心率,包括脉搏节律分析的心率、血压、肾上腺素和催产素水平、肌张力、脑电波和皮肤电导性。
43.根据权利要求36-42中的任意一项所述的系统,其特征在于,系统包括传感器和软件包。
44.根据权利要求1一 35中的任意一项所述的系统,其特征在于,该系统包含软件但没有传感器,该系统依赖于平均预期的反应。
45.根据上述任意一项权利要求所述的系统,其特征在于,创建播放列表,以便诱导或保持唤醒,以及引导精神状态和/或情感。
46.根据上述任意一项权利要求所述的系统,其特征在于,个体的神经生理唤醒水平的测量被自动地进行并表示为数值,以便使其能够通过数据库中的理论上无限数量的音乐片段的任意一个的音乐效果所反映。
47.根据上述任意一项权利要求所述的系统,其特征在于,该系统可操作为检测音轨的情绪唤醒参数信息,并且进一步可操作为将该信息嵌入到音轨或指向音轨的电子链接中,或作为与音轨关联的元数据。
48.根据上述任意一项权利要求所述的系统,其特征在于,该系统可操作为能够实现对存储在远程或本地的数据库中的音乐的自动搜索,以查找具有满足定义的标准的标签的音乐。
49.根据上述任意 一项权利要求所述的系统,其特征在于,该系统可操作为在社交网络应用程序中分享唤醒值。
50.根据上述任意一项权利要求所述的系统,其特征在于,该系统可操作为将与例如Google?这样的搜索引擎交互的用户所关联的唤醒值分享给该搜索引擎,以便该搜索引擎能够在之后使用这些值来优化通过搜索引擎进行的搜索和/或广告选择。
51.根据上述任意一项权利要求所述的系统,其特征在于,该系统可操作为将与浏览特定网站或网页的用户关联唤醒值分享给网站优化系统,以便网站优化系统能够使用这些值来优化网站和/或特定网页。
52.一种分析音轨的方法,其特征在于,包含自动分析音轨的步骤,这是根据人类大脑中的下部皮质、边缘和皮质下区域中的一个或多个的神经生理运行和对声音的反应的预测模型。
53.根据权利要求52所述的方法,其特征在于,包括根据需要的进一步的步骤,以使分析音轨的系统能够如上述权利要求1 一 51中任意一项所述的系统一样运行。
54.一种根据人类受检者预先选择的期望唤醒状态来分析用于回放给人类受检者的音轨的方法,其特征在于,包含以下步骤: (i)存储一组可操作用于回放选择的单独的音轨; (?)根据人类大脑中的下部皮质、边缘和皮质下区域中的一个或多个的运行和对声音的反应的神经生理模型,预测对单独的音轨的神经生理反应; (iii)接收人类受检者选择的期望的唤醒状态,和(iv)根据预测的对单独的音轨的神经生理反应和人类受检者选择的期望的唤醒状态,选择音轨。
55.根据权利要求52- 54中任意一项所述的方法,其特征在于,分析音轨是为了导航、或发现、或检索、或选择、或匹配特定需求、或创建播放列表、或诱导情感或诱导情绪的目的。
56.根据权利要求52- 55中任意一项所述的方法,其特征在于,将用户界面呈现给用户,进一步包含以下步骤: (i)该用户从用户界面中的活动菜单挑选 (?)该系统建立唤醒和情感的目标水平,其将促进所挑选的活动。
57.根据权利要求52-56中任意一项所述的方法,其特征在于,进一步包含,根据音乐效果矩阵M中表示的值将音轨分类并将其编入索引的自动分类处理的步骤。
58.根据权利要求52-57中任意一项所述的方法,其特征在于,进一步包含,针对它们的一般音乐的节奏性和失谐度的值来分析音轨的步骤。
59.根据权利要求52-58中任意一项所述的方法,其特征在于,进一步包含,针对它们的一般音乐的扰动值来分析音轨的步骤。
60.根据权利要求52-59中任意一项所述的方法,其特征在于,利用信号处理技术自动确定节奏性、失谐度和——如果适合——扰动的值。
61.根据权利要求52-60中任意一项所述的方法,其特征在于,进一步包含,结合节奏性、失谐度和扰动的值以产生兴奋度或唤醒的测量的步骤。
62.根据权利要求61所述的方法,其特征在于,兴奋度E等于(10*失谐度I*节奏性幻+扰动!1。
63.一种可操纵的计算机程序产品,其特征在于,当其在计算机上运行以分析用于回放给人类受检者的音轨时,该计算机程序产品应用基于人类大脑中的下层皮质、边缘和皮质下区域中的一个或多个的人类神经生理运行和对音轨的反应的预测模型的算法。
64.根据权利要求63所述的计算机程序产品,其特征在于,人类神经生理反应的预测模型是人类神经生理反应的确定性模型。
65.一种计算机程序产品,其特征在于,当其在计算机上运行以根据人类受检者预先选择的期望的唤醒状态来分析用于回放给人类受检者的音轨时,该计算机程序产品可操作为执行以下步骤: (i)识别一组可操作用于回放的选择的单独的音轨; (?)根据神经生理模型,预测对单独的音轨的神经生理反应; (iii)接收人类受检者选择的期望的唤醒状态,和 (iv)根据对单独的音轨的预测的神经生理反应和人类受检者选择的期望的唤醒状态,选择用于回放的音轨。
66.一种将声音(例如不论流派和文化渊源的任何的音乐片段)分类的计算机实现的方法,其特征在于,该方法根据源于人类大脑中的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型的音乐参数,以这样一种方式实现,声音可以被选择(例如基于传感器捕获的生物计量数据自动进行)以诱导神经生理唤醒接近目标水平。
67.根据权利要求1一 51中任意一项所述的系统,其特征在于,其适用于提供在远程数据库中的声音(例如音乐片段)的自动分类(例如,根据源于人类大脑中的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型的音乐参数)。
68.一种个体的下层皮质、边缘和皮质下神经生理唤醒水平的自动诊断,其特征在于,将唤醒水平表示为一个值,以便与数据库中的理论上无限数量的音乐片段的任何一个的音乐效果相对应。
69.一种计算机实现的方法,其特征在于,创建通过自动或手动分析音乐参数产生的音轨的播放列表,以便诱导唤醒和引导精神状态和/或情感,该音乐参数源于人类的下部皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型。
70.根据权利要求69所述的计算机实现的方法,其特征在于,包括以下进一步的步骤: a)通过参考现有的描述性元数据,如果可用,例如,流派或用户创建的播放列表,挑选数据库中的音乐的子集; b)通过将用户的下层皮质、边缘和皮质下神经生理唤醒的初始水平与包含在音乐效果矩阵的相关行中的音乐匹配,从该音乐子集选择一些片段,该片段将对应于用户的下层皮质、边缘和皮质下神经生理唤醒的初始水平; c)选择目标的精神状态和/或情感; d)选择一系列上升或下降的音乐效果值,其符合从初始到要求的神经生理唤醒水平的期望的诱导通路; e)基于这一系列值,从音乐数据库中选择合格的内容; f)随机地从合格 的内容中以其它规则挑选播放列表,该规则例如,流派偏好、防重复规则或美国的数字千年版权法(DMCA)规则; g)基于连续的或规则的或偶然的生物计量反馈,每隔一段时间重复计算播放列表。
71.—种针对情感诱导的音乐(例如个人的)数据库的充足性的测定方法,其特征在于,利用权利要求1 一 51中任意一个所述的系统,并在之后显示关于充足性和不充足的信息给用户。
72.—种推荐音乐内容的补充的方法,其特征在于,该方法针对个人音乐数据库,以便于保证数据库的充足性,该方法通过利用源于人类的下层皮质、边缘和皮质下的神经生理运行和对该音乐的反应的预测模型的音乐参数来实现。
73.一种选择音乐的方法,其特征在于,其选择具有类似的音乐效果的音乐(例如根据源于人类的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型的音乐参数)。
74.一种将音乐分类的方法,其特征在于,该方法根据其音乐效果而不是其描述性属性分类,利用源于人类的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型。
75.—种给播放列表中的一系列音乐片段排序的方法,其特征在于,通过将每段的音乐效果与音乐效果矢量所描述的值的时间序列匹配实现该方法,该音乐效果矢量源于人类的下层皮质、边缘和皮质下的神经生理运行和对音乐片段的反应的预测模型。
76.一种操纵用户唤醒的方法,其特征在于,通过利用上述任何一种方法和系统实现。
77.—种在任何给定的环境中修改周围声音属性的方法,其特征在于,目的对收听者产生期望的神经生理反应,该方法通过利用上述任何一种方法和系统实现。
78.—种适于执行上述任何一种方法的系统。
79.软件、固件、系统芯片或音频堆栈,其特征在于,其编程为或适于执行上述任何一种方法或形成上述任何一种系统定义的系统的一部分。
80.一种计算装置,例如智能手机或平板电脑,其特征在于,适于操纵用户的唤醒,该方法通过利用上述任何一种方法或通过利用或包括上述任何一种系统、软件、固件系统芯片或音频堆栈。
81.适于与权利要求8 0所定义的计算装置一起工作的传感器。
【文档编号】G06F17/30GK103890838SQ201280039163
【公开日】2014年6月25日 申请日期:2012年6月11日 优先权日:2011年6月10日
【发明者】尼格尔·奥斯本, 罗伯特·阿什克罗夫特, 保罗·罗伯森, 彼得·金斯利 申请人:X-系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1