音乐信号中音符位置的提取方法和装置及存储介质与流程

文档序号：17837478发布日期：2019-06-05 23:44阅读：458来源：国知局

本发明实施方式涉及音乐信息检索领域，特别涉及一种音乐信号中音符位置的提取方法和装置及存储介质。

背景技术：

众所周知，声音作为人们第二大感知来源，对于人们的生活是密不可分的，人们对于音乐的审美也在不断地提升。然而人们对于外界的感知是多元的，如果仅仅是感受声音，却总会让人感到少点什么。如今，在拓展人类感知维度的过程中发现，其他感知维度的引入会让人们的感知更加丰富，如触觉、视觉等。其中，视频与音频的结合就是感知维度多元化的成功案例。

本发明的发明人发现，音乐中包含有主旋律和伴奏两个部分，而人们在听音乐的过程中注意力通常集中在主旋律部分，在音乐的播放过程中加入马达，使马达跟随主旋律进行振动形成触觉反馈会让人感受更加真实，更有代入感、节奏感，也更私密。因此，如何确定音乐信号中主旋律的音符位置成了一个亟待解决的问题。

技术实现要素：

本发明实施方式的目的在于提供一种音乐信号中音符位置的提取方法和装置及存储介质，能够有效的提取出音乐信号中的主旋律音符的位置。

为解决上述技术问题，本发明的实施方式提供了一种音乐信号中音符位置的提取方法，包括：获取待提取音符位置的音乐信号；获取所述音乐信号的音乐时频谱；对所述音乐时频谱进行降噪处理，以获取所述音乐信号中主旋律的主旋律时频谱；计算所述主旋律时频谱在时域上每一帧内的能量和以获取时域向量；分别计算所述时域向量的多个低阶特征函数；对所述多个低阶特征函数进行平滑处理；获取处理后的各个所述低阶特征函数中大于第一预设阈值的峰值点；将大于第一预设阈值的各个峰值点的合集作为所述音乐信号中的音符位置。

本发明的实施方式还提供了一种音乐信号中音符位置的提取装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前述的音乐信号中音符位置的提取方法。

本发明实施方式相对于现有技术而言，对音乐时频谱进行降噪处理，可以消除音乐信号中的伴奏音乐时频谱、保留音乐信号中的主旋律时频谱；然后计算主旋律时频谱在时域上每一帧内的能量和以获取时域向量，该时域向量可以表明音乐信号中主旋律的能量分布；再分别计算该时域向量的多个低阶特征函数，对各个低阶特征函数进行平滑处理，从而有效的去除低阶特征函数中产生干扰的小的峰值点；由于低阶特征函数中的峰值点为主旋律的能量的集中分布点，也就是主旋律中的音符的起始点，因此将平滑处理后的各个低阶特征函数中大于第一预设阈值的峰值点的合集作为音乐信号中的音符位置，就可以根据音乐的能量在时域上的分布，有效的获取音乐信号中的音符位置。

另外，所述获取所述音乐信号的音乐时频谱，具体为：根据预设算法计算得到所述音乐信号的音乐时频谱，其中，所述预设算法为短时傅里叶变换、常量变换和小波变换中的一者。

另外，所述预设算法为小波变换；所述根据预设算法计算得到所述音乐信号的音乐时频谱，具体为：设置钢琴分音频率尺度为所述小波变换的小波尺度；根据所述小波尺度对所述音乐信号进行小波变换，计算得到所述音乐信号的音乐时频谱。由于在音乐中，每个八度的频率恰好是2倍频的关系，而每个八度内的分音恰好是12倍频的关系，因此将小波尺度设置为钢琴分音频率尺度可以更精确的获取音乐信号的时频特征。

另外，所述对所述音乐时频谱进行降噪处理，获取所述音乐信号中主旋律的主旋律时频谱，具体包括：将所述音乐时频谱的频域分为多个等长的频段，获取各个所述频段的时序信号；计算各个所述时序信号的p范数，其中p为实数且0<p<1；去除p范数大于第二预设阈值的所述时序信号，以获取所述主旋律时频谱。对于音乐而言，主旋律是有节奏的、其能量随时间的变化较大，而伴奏则是没有旋律感的、其能量是不随时间的变化而变化的。计算时序信号的p范数，由于p范数可以很好的表征各个频段内的能量的稀松程度，从而可以去掉能量一直持续且没有太大变化的伴奏部分，获取音乐信号的主旋律部分，以获取主旋律时频谱。

另外，所述分别计算所述时域向量的多个低阶特征函数，具体包括：分别计算所述时域向量的一阶波动函数、二阶波动函数和相角变化函数中的至少两者；将计算得到的函数作为所述多个低阶特征函数。

另外，所述对所述低阶特征函数进行平滑处理，具体为：预设高斯核函数，计算各个所述低阶特征函数和所述高斯核函数的卷积；将所述卷积作为所述平滑处理后的低阶特征函数。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明第一实施方式所提供的音乐信号中音符位置的提取方法的程序流程图；

图2是本发明第一实施方式所提供的音乐信号中音符位置的提取方法中、对音乐时频谱进行降噪处理的程序流程图；

图3是本发明第一实施方式所提供的音乐信号中音符位置的提取方法中、时域向量的一阶波动函数图像；

图4是对图3中一阶波动函数进行高斯平滑后的图像；

图5是本发明第二实施方式所提供的音乐信号中音符位置的提取装置的结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本发明而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明所要求保护的技术方案。

本发明的第一实施方式涉及一种音乐信号中音符位置的提取方法。具体流程如图1所示，包括：

步骤s101：获取待提取音符位置的音乐信号。

步骤s102：获取音乐信号的音乐时频谱。

具体的，时频谱为一种表征信号频域、时域和幅度三者之间关系的图像，其包括三维时频谱和二维时频谱，其横纵坐标分别表示信号的时域和频域，通过颜色表征信号的幅度，颜色越深，幅度越大，能量也就越大。

在本步骤中，可以根据预设算法计算得到音乐信号的音乐时频谱，其中，预设算法为短时傅里叶变换、常量变换以及小波变换中的任意一种算法。可以理解的是，前述3种算法仅为本实施方式中给出的具体算法举例说明，并不构成限定，在实际使用过程中，所有可以获取信号时频特征的算法都可以作为预设算法，如希尔伯特黄变换等，在此不进行一一列举。

当预设算法为小波变换时，可以首先设置钢琴分音频率尺度为小波变换的小波尺度，然后根据小波尺度对音乐信号进行小波变换，计算得到音乐信号的音乐时频谱。由于在音乐中，每个八度的频率恰好是2倍频的关系，而每个八度内分音恰好是12倍频的关系，因此将小波尺度设置为钢琴分音频率尺度可以更精确的获取音乐信号的时频特征。

步骤s103：对音乐时频谱进行降噪处理，获取音乐信号中主旋律的主旋律时频谱。

具体的，在本步骤中，对音乐时频谱进行降噪处理的具体步骤如图2所示，包括：

步骤s201：将音乐时频谱的频域分为多个等长的频段，获取各个频段的时序信号。

具体的，在本步骤中，首先会设定一个固定的段长，然后根据这一段长将音乐时频谱的频域分为多个等长的频段。例如，每个频段的长度为10hz，则各个频段分别为0～10hz、10～20hz、20～30hz……。

获取各个频段的时序信号，即对于某一频段而言，获取该频段内的频率在音乐时频谱中所对应的时间信号。

步骤s202：计算各个时序信号的p范数，其中p为实数且0<p<1。

具体的，在本步骤中，p为预设的实数，其可以根据实际需要进行灵活的设定。在本实施方式中，p的值与每个频段的熵值有关，熵值越大，p越大。可以理解的是，根据熵值设定p的值仅为本实施方式中提供的一种具体的应用举例，并不构成限定，p的值也可以是根据其他因素设定。

进一步的，在本实施方式中，p范数的求解公式为其中，||x||p为p范数的值，x1…xn为时序信号中的值。

步骤s203：去除p范数大于第二预设阈值的时序信号，以获取主旋律时频谱。

具体的，在本步骤中，预设第二预设阈值q，将求取的所有p范数一一与q进行大小比对，去除p范数大于第二预设阈值q的时序信号，仅保留p范数小于或等于第二预设阈值q的时序信号，根据p范数小于或等于第二预设阈值q的时序信号构建主旋律时频谱。由于p范数可以很好的表征各个频段内的能量的稀松程度，从而可以去掉能量一直持续且没有太大变化的伴奏部分，即p范数大于第二预设阈值q的时序信号，仅保留音乐信号的主旋律部分，以获取主旋律时频谱。

步骤s104：计算主旋律时频谱在时域上每一帧内的能量和以获取时域向量。

具体的，在本步骤中，根据预设窗口在主旋律时频谱的时域上滑动，每一个窗口即为一帧。分别计算每一帧内的能量和，即每一帧内所有频率的信号的能量和。将每一帧内的能量和以向量的形式构建形成时域向量。

步骤s105：分别计算时域向量的多个低阶特征函数。

具体的，在本步骤中，分别计算时域向量的多个低阶特征函数，其中多个低阶特征函数包括时域向量的一阶波动函数、二阶波动函数和相角变化函数中的至少两者。可以理解的是，低阶特征函数为一阶波动函数、二阶波动函数和相角变化函数中的至少两者仅为本实施方式中的具体应用举例，并不构成限定，在本发明的其他实施方式中，低阶特征函数还可以是其他的特征函数，在此不进行一一举例。

步骤s106：对多个低阶特征函数进行平滑处理。

在本实施方式中，采用高斯核函数对各个低阶特征函数进行平滑处理。具体的，预设高斯核函数，分别计算各个低阶特征函数和高斯核函数的卷积，将卷积结果作为各个低阶特征函数的平滑结果。如图3、图4所示，其中，图3为一阶波动函数平滑之前的图像，图4为一阶波动函数进行高斯平滑后的图像。

步骤s107：获取处理后的各个低阶特征函数中大于第一预设阈值的峰值点。

具体的，在本步骤中，设置第一预设阈值，获取平滑处理后的各个低阶特征函数中大于第一预设阈值的峰值点。

步骤s108：将大于第一预设阈值的各个峰值点的合集作为音乐信号中的音符位置。

具体的，在本步骤中，对各个低阶特征函数中大于第一预设阈值的峰值点求并集，获取所有大于第一预设阈值的峰值点的合集作为音乐信号中的音符位置。

与现有技术相比，本发明第一实施方式所提供的音乐信号中音符位置的提取方法通过对音乐信号的时频谱的分析，首先获取了音乐信号中主旋律信号和主旋律时频谱，通过对主旋律时频谱进行降维，获取到主旋律的能量的时域向量，时域向量即包含了主旋律的各个音符的起始点，对时域向量进行多函数检测，获取时域向量的多个低阶特征函数，对低阶特征函数进行平滑处理，消除干扰峰值，最终根据第一预设阈值，选取到大于第一预设阈值的峰值作为音乐信号中的音符位置。时序信号中的每一个峰值即为一个能量的集中点，从而根据音乐的能量在时域上的分布，有效的获取音乐信号中的音符位置。

本发明第二实施方式涉及一种音乐信号中音符位置的提取装置，如图5所示，包括：至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行如上述音乐信号中音符位置的提取方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

本发明第三实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施方式。

即，本领域技术人员可以理解，实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：路翔;邓瀚林;向征
技术所有人：瑞声科技（新加坡）有限公司
我是此专利的发明人

上一篇：一种提高小麦白粉病抗性的叶面肥的制作方法
上一篇：具有防纠错能力的推土机液位监测控制电路的制作方法