一种基于多智能体下强化学习的管乐器配器方法

文档序号：45049915发布日期：2026-03-27 23:07阅读：6来源：国知局

本发明涉及人工智能和强化学习，特别涉及一种基于多智能体下强化学习的管乐器配器方法。

背景技术：

1、在作曲领域，管乐配器是至关重要的一环，其结果对音乐作品的表达效果至关重要。管乐器种类繁多，每种乐器的音色、音域、动态表现力等特性各不相同，这使得配器方案需要同时考虑乐器间的平衡、协作，以及音乐情感的准确传达。

2、随着人工智能和算法技术的发展，自动音乐生成逐渐成为研究热点，其中强化学习作为一种基于试错优化的智能算法，为音乐配器领域提供了新的技术手段。然而，传统的单智能体强化学习方法通常只能处理单一维度或有限范围的优化目标，难以应对多乐器协同配器过程中复杂的约束条件和动态调整需求。

3、多智能体强化学习具有良好的分布式计算和协同优化能力，能够将复杂的管乐配器任务分解为多个子任务，通过多个智能体的协作完成整体优化。每个智能体可视作一个独立的乐器控制单元，其在配器过程中不仅需要考虑自身的表现，还需与其他智能体协调以实现整体和谐。这种基于多智能体的方法为管乐配器提供了一种动态、灵活且高效的解决方案。

4、综上所述，本发明提出一种基于多智能体下强化学习的管乐器配器方法，该方法具有广阔的应用前景和市场需求。通过将人工智能技术应用于音乐创作领域，可以有效提高音乐编配的效率和质量，推动音乐产业的发展和创新、

技术实现思路

1、本发明的目的是为了为作曲家提供更高效、更个性化的配器体验，而提出的一种基于多智能体下强化学习的管乐器配器方法。

2、该发明目的是通过以下技术方案实现：

3、该种基于多智能体下强化学习的管乐器配器方法，包括如下步骤：

4、s1、根据原midi工程文件，提取音乐特征，构建音乐特征模型；

5、s2、根据音乐特征模型构造专家数据集，并根据专家数据集构建预训练模型；

6、s3、根据管乐器乐器法构建乐器属性字典，并构建多智能体强化学习模型训练环境；

7、s4、构建多智能体强化学习模型；

8、s5、通过构建目标网络方式训练多智能体强化学习网络。

9、进一步，所述步骤s1具体包括：

10、s101、解析midi文件，构建音符特征矩阵；

11、s102、使用变分自编码器对特征向量建模。

12、进一步，所述步骤s101具体包括：

13、(1) 从输入的midi文件中解析音乐数据，提取以下基础特征：音符时间序列t={t1,t2…tn}，其中ti表示第i个音符的开始时间；音高序列p={p1,p2…pn}，其中pi表示第i个音符的音高；音符持续时间序列d={d1,d2…dn}，其中di表示第i个音符的持续时间；音量强度序列v={v1,v2…vn}，其中vi表示第i个音符的音量强度；

14、(2) 将上述特征合并为特征矩阵x∈，其中每一列x=[ti,pi,di,vi]表示一个音符的完整特征。

15、进一步，所述步骤s102具体包括：

16、(1) 使用编码器对特征矩阵x进行建模，将输入的特征矩阵x映射到潜在空间表示z；

17、

18、其中，z表示潜在变量，即通过编码器从音乐特征矩阵中映射得到的潜在空间表示，μϕ(x)表示编码器网络的输出，表示编码器输出的方差向量的对角矩阵形式；

19、(2) 构造解码器fθ(z)，从潜在空间表示z中重构原始特征矩阵x：

20、

21、其中，表示通过解码器生成的重构状态-动作矩阵；

22、(3) 变分自编码器的训练目标是最大化输入数据的对数似然的期望值，具体公式如下：

23、

24、其中，表示给定潜在变量z下生成x的条件概率，表示潜在变量z的后验分布，p(z)是潜在空间的先验分布，表示重构误差的期望值，是kl散度项，负责衡量与的差异。

25、进一步，所述步骤s2具体包括：

26、s201、根据重构状态-动作矩阵构造专家数据集eexpert = {τ1,τ2,…,τk},其中τ = [s1,a1,s2,a2,…,sn,an]；

27、s202、初始化生成器，其中生成器根据状态s生成一个动作a，判别器根据给定的状态-动作对是否来自专家，分别为生成器与判别器的初始参数；

28、s203、训练生成器与判别器。

29、进一步，所述步骤s203具体包括：

30、(1)用策略网络π(a|s;θnow)控制智能体与环境交互，其中θnow表示当前策略网络的参数，交互后得到一条轨迹，记作：

31、

32、(2)更新策略网络的参数，更新公式具体如下：

33、

34、其中，表示超参数，表示基于当前参数θnow的对数似然函数，用于衡量模型在参数θnow下对专家数据的拟合度，具体公式如下：

35、

36、(3) 采用梯度下降法更新判别器参数，具体公式如下：

37、

38、其中，η表示算法学习率，表示目标函数，目标函数具体公式如下：

39、

40、进一步，所述步骤s3具体包括：

41、s301、构建乐器属性字典；

42、s302、构造多智能体强化学习环境，提供需要配器的midi文件，通过环境处理midi文件并转化为乐器群体需要实现的音乐素材s={smelody,stexture}，其中，smelody表示当前乐段处，乐器群体需要实现的旋律素材；stexture表示当前乐段处，乐器群体需要实现的织体素材。

43、进一步，所述步骤s301具体包括：

44、依据管乐器乐器法构建乐器属性字典，所述包含常用管乐器以及各乐器不同音域的音量范围；将每件乐器看作一个独立的智能体(agent)，一个agent拥有多个音域，每个音域的音域范围构成其离散状态空间，记作sn,i = [vmin,vmax]，其中vmin,为音域下限，vmax为音域上限，n和i分别表示乐器种类以及音域编号；每个状态空间对应一个独立的音量范围作为其离散动作空间，记作an,i = [lmin,lmax]，其中lmin,为音量下限，lmax为音量上限；g表示智能体集合，乐器属性字典属性具体如下：

45、g = {agentpiccolo，agentflute ，agentoboe ，agentclarinet， agentsax ，agentbassoon，agenthorn， agenttrumpet ，agenttrombone ，agenttuba}

46、其中，各智能体属性具体设定为：

47、agentpiccolo:{音域1：{音域：d5~g5，音量：0~3}，音域2：{音域：g#5~g6，音量：0~5}，音域3：{音域：g#~c8，音量：0~8}}；

48、agentflute:{音域1：{音域：c4~g4，音量：0~3}，音域2：{音域：g#4~g5，音量：0~5}，音域3：{音域：g#5~c7，音量：0~8}}；

49、agentoboe:{音域1：{音域：b3~f4，音量：0~4}，音域2：{音域：f#4~g5，音量：0~7}，音域3：{音域：g#5~g6，音量：0~8}}；

50、agentclarinet:{音域1：{音域：e3~f#4，音量：0~4}，音域2：{音域：g4~c6，音量：0~7}，音域3：{音域：c#6~f6，音量：0~8}}；

51、agentsax:{音域1：{音域：e3~b3，音量：0~4}，音域2：{音域：b#3~e4，音量：0~7}，音域3：{音域：e#4~f5，音量：0~8}}；

52、agentbassoon:{音域1：{音域：bb1~f#2，音量：0~4}，音域2：{音域：g2~d4，音量：0~7}，音域3：{音域：eb4~bb4，音量：0~8}}；

53、agenthorn:{音域1：{音域：c3~f3，音量：0~7}，音域2：{音域：f#3~f4，音量：0~8}，音域3：{音域：f#4~c5，音量：0~9}}；

54、agenttrumpet:{音域1：{音域：a3~e4，音量：0~10}，音域2：{音域：f4~c5，音量：0~10}，音域3：{音域：c#5~b5，音量：0~10}}；

55、agenttrombone:{音域1：{音域：e2~f3，音量：0~9}，音域2：{音域：f3~bb4，音量：0~10}，音域3：{音域：c4~d5，音量：0~9}}；

56、agenttuba:{音域1：{音域：e1~f2，音量：0~10}，音域2：{音域：f#2~f3，音量：0~9}}。

57、进一步，所述步骤s4具体包括：

58、s401、初始化单智能体策略网络μn(sn|θn)和价值网络qn(sn,an|ωn)，其中sn表示单个智能体状态，an表示智能体在状态sn下的动作，θn与ωn分别表示当前策略网络与价值网络的参数；

59、s402、构造单智能体价值网络；

60、s403、构造乐器群体强化学习模型。

61、进一步，所述步骤s402具体包括：

62、每个乐器的价值网络都采用独立的rnn网络，以观测的历史轨迹τt = {s1,s2…st}和上一个动作at-1为输入，qn(τn,an)为输出，网络结构如下：

63、(1) 输入层和输出层：输入进若干个隐藏层后，通过输出层得到输出；具体地，在输出层的状态值z(2)后添加softmax函数进行归一化，得到一个概率分布作为网络的输出h(2)，对应的公式为：

64、z(1) = w(1)x + b(1)

65、h(1) = σ(z(1))

66、z(2) = w(2)h(1) + b(2)

67、h(2) = softmax(z(2))

68、其中σ为sigmoid激活函数；

69、(2) 中间层：中间层网络采用gru网络结构，由若干gru单元组成，每一个gru单元的输入为xt∈和来自上一个gru单元传递下来的隐状态ht-1∈；gru单元由两个门控单元组成：更新门和重置门；所述更新门zt用于决定上一个gru单元的隐藏状态有多少信息要保留到当前gru单元，以及当前gru单元的候选隐藏状态有多少信息要加入到当前隐藏状态；所述重置门rt用于决定上一个gru单元的隐藏状态有多少信息要参与计算当前gru单元的选隐藏状态，具体的公式如下：

70、rt = σ(wrxt + urht-1 + br)

71、zt = σ(wzxt + uzht-1 + br)

72、h' = σ(whxt + uh(rt ⊙ ht-1 + br))

73、ht = (1 - zt) ⊙ ht-1 + zt ⊙ h'

74、其中，rt表示重置门，zt表示更新门，h'表示候选隐藏状态，ht表示当前隐藏状态，wr，wz，wh分别表示输入xt到重置门，更新门和候选隐藏状态的权重矩阵；ur，uz，uh分别为上一时刻的隐状态ht-1到重置门、更新门和候选隐状态的权重矩阵，br，bz，bh分别是对应的偏置项，符号⊙表示逐元素相乘。

75、进一步，所述步骤s403具体包括：

76、构造t乐段处的乐器群体强化学习模型：

77、mt(g,s,{an}n∈g,qtot(τn,an)n∈g)

78、其中，t为大于等于1的整数， {an}n∈g表示乐器群体的联合动作空间，联合动作空间包括构建旋律声部、旋律支声声部、织体声部三种动作，在同一乐段，每件乐器仅执行一种动作；qtot(τn,an)n∈g表示乐器群体的联合动作值函数q，联合动作值函数q需保证qtot上执行的全局argmax与在每一个qn上执行的一组单独的argmax操作产生相同的结果，且存在约束，具体公式如下：

79、

80、进一步，所述步骤s5具体包括：

81、s501、初始化单个智能体目标价值网络，单个智能体目标网络与qn网络结构相同；

82、s502、每个智能体通过目标网络以及ε-贪婪策略得到当前状态τt、动作at、奖励rt以及下一次的状态τt+1，在每一次episode后，该信息将被整理成四元组transition(τt,at,rt,τt+1)，并将结果保存到经验回放缓冲池d中；

83、s503、使用minibatch策略从d中抽样一部分的transition作为训练数据对q网络的参数进行更新，在训练过程中，每个批次从回放缓存中抽取n个样本进行训练，所述n为大于0的整数；

84、s504、在训练过程中，使用目标网络更新得到回报期望作为学习目标，在更新过程中，只通过梯度下降最小化损失函数来更新qn网络的权重ω，而不更新目标网络的权重，损失函数定义为：

85、

86、其中，表示未来状态的最优q值，r表示即时奖励，γ表示折扣因子；

87、s505、通过指数加权平均方式更新目标网络参数，更新公式如下：

88、ω = μωtarget + (1 - μ)ωnow

89、其中，ω表示更新后目标价值网络的权重参数，μ表示指数加权平均的权重系数，ωtarget表示更新前目标价值网络的权重参数，ωnow表示当前训练中 q 评估网络的权重参数；

90、s506、通过求和方式构建联合动作值函数q，具体公式如下：

91、

92、其中，qtot表示管乐器智能体群体的联合动作值函数，n表示参与管乐配器的智能体总数，qi()表示第i个乐器智能体的个体动作值函数，si表示第i个乐器智能体的当前状态，ai表示第i个乐器智能体在状态si下执行的编配动作。

93、本发明的有益效果包括：

94、（1）本发明通过引入多智能体强化学习技术，将复杂的管乐配器过程分解为多个子任务并行处理，与传统依赖人工经验的方式相比，该方法显著提高了配器的效率，多智能体强化学习模型能够快速学习音乐特征与乐器属性之间的匹配关系，从而减少人工试错的时间，尤其是在大型管乐合奏编配中，该方法能够迅速完成音域、音色及动态的综合优化，为作曲家节省大量时间；

95、（2）本发明通过构建基于midi文件提取的音乐特征模型和乐器属性字典，该发明实现了对旋律、织体等音乐元素的精准捕捉与匹配，多智能体之间的协作确保了乐器间的平衡与和谐，有效避免了单一乐器突出的情况，使得编配结果更能贴合作曲家的创作意图，音乐情感的准确传达得以提升，这在电影配乐、现场演出等需要高度情感表现的场景中尤为关键；

96、（3）本发明通过专家数据集与预训练模型的构建，本发明支持针对不同风格、主题或场景的个性化编配需求，系统可根据输入的midi文件内容，自动调整乐器组合与编配策略，生成多种编配方案供用户选择，这种智能化的设计不仅降低了编配门槛，还能激发作曲家的创作灵感；

97、（4）本发明通过构建多智能体框架，允许每个智能体专注于某一乐器的特性，并通过强化学习实现全局最优，联合动作值函数确保了乐器之间在音高、音量、动态变化等方面的协调，使得编配结果既保留各乐器的独特性，又能形成统一的音乐表达；

98、（5）本发明通过变分自编码器(vae)对音乐特征进行建模，并结合多智能体强化学习的目标网络与价值策略网络，形成了一种理论与技术紧密结合的创新性解决方案，乐器属性字典的引入保证了作曲理论的严谨性，而强化学习的动态优化能力则提高了系统的实用性，这种结合不仅推动了自动音乐生成技术的发展，也为其他音乐相关领域的研究提供了新的方向；

99、（6）本发明适用于多种场景，如音乐教育、音乐制作、电影配乐以及虚拟现实(vr)环境中的背景音乐生成等，尤其在音乐教育领域，该方法可以作为学习工具，帮助学生理解不同乐器的特性及其在编配中的作用，在商业音乐制作中，该技术可快速生成高质量的编配方案，满足短周期制作需求，为音乐产业注入新的活力。

100、本发明的其他优点、目标和特征将在后续的说明书中详细阐述，通过对下文的深入研究，本领域的技术人员将能够清楚地认识到这些优点和特征，并从本发明的实践中获得宝贵的教导。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘至洋,乔少杰
技术所有人：成都信息工程大学
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！