一种音频情感可视化的方法及装置与流程

文档序号：14870645发布日期：2018-07-06 23:10阅读：294来源：国知局

技术简介：
本专利发现传统音频播放缺乏情感可视化表达的问题，提出通过建立音频片段与情感、颜色的对应关系，将音频分割后识别情感并映射为颜色，最终实现播放时的实时情感可视化展示。该方法结合机器学习与主题河流模型，使用户能直观感知音乐情感。
关键词：音频情感可视化,颜色映射

本发明涉及人工智能领域，尤其涉及一种音频情感可视化的方法及装置。
背景技术：
：随着可视化技术的发展，对音频进行可视化处理，使音频能够以可视化的形式更广泛的进行传播，已经成为一种趋势。音频可视化在音频检索与分类、音频推荐系统设计、动画设计等方面，特别是在音频教育方面具有广泛的应用前景。然而，现有的音频可视化技术大多仅注重可视化形态上的变化与创新，往往忽略了颜色的作用，对于音频可视化中的颜色处理，通常只是随意涂抹作为背景、或者根本没有。实际上，音频和色彩存在通感，在可视化效果中缺少或是误用颜色，不仅会使得可视化效果变差，而且还可能起到误导用户的反作用。现有使用颜色进行音频可视化的技术可以归纳为两大类：第一类，直接使用颜色进行可视化，但并不考虑颜色与情感的联系。这类可视化方法无法体现音频的情感，甚至会产生误导。例如：对于平静的音频和激烈的音频，若组成音频片段的音频要素大致相同，则体现出的配色方案就会是一致的，然而相同的颜色表达的却不是相同的情绪。第二类，将音频对应的唱名与颜色对应，并基于多种乐谱要素将唱名所对应的颜色进行组合，以体现情感。这类可视化方法对音频有着特定要求，或是直接根据乐谱进行人工编程，或是通过读取能够体现乐谱信息的midi音频进行可视化。这种方法无法处理波形音频，应用范围受到很大局限。技术实现要素：有鉴于此，本发明实施例期望提供一种音频情感可视化的方法及装置，能够在音频播放过程中实时、准确、多样化地可视化音频情感。为达到上述目的，本发明实施例的技术方案是这样实现的：一种音频情感可视化的方法，建立各个基准音频片段与情感和颜色之间的第一对应关系；所述方法还包括：将待播放音频划分为至少一个待播放音频片段；识别各待播放音频片段对应的情感，根据识别出的情感以及所述第一对应关系，确定各待播放音频片段对应的颜色；播放所述待播放音频时，绘制各个播放到的待播放音频片段对应的颜色。上述技术方案中，所述建立各个基准音频片段与情感和颜色之间的第一对应关系，包括：将各个基准音频片段分别映射到预设的情感模型中，确定各个基准音频片段各自对应的情感；将各种颜色映射到预设的情感模型中，确定各种颜色与情感之间的第二对应关系；根据各个基准音频片段各自对应的情感以及所述第二对应关系，建立各个基准音频片段与情感和颜色之间的第一对应关系。上述技术方案中，所述方法还包括：提取各个已确定情感的基准音频片段的声学特征，组成音频素材库；所述识别各待播放音频片段对应的情感包括：提取各待播放音频片段的声学特征，分别与所述音频素材库中的声学特征进行比对，自动识别出各个待播放音频片段对应的情感。上述技术方案中，将各种颜色映射到预设的情感模型中，确定各种颜色与情感之间的第二对应关系包括：在所述预设的情感模型的各个顶点标定颜色，并基于各个顶点标定的颜色对整个模型区域内渐变填充，对于任意情感对应的颜色即为所述情感在所述预设的情感模型中的坐标点所对应的颜色。一种音频情感可视化的装置，所述装置包括：构建模块、划分模块、识别模块、确定模块和播放模块；其中，所述构建模块，用于建立各个基准音频片段与情感和颜色之间的第一对应关系；所述划分模块，用于将待播放音频划分为至少一个待播放音频片段；所述识别模块，用于识别各待播放音频片段对应的情感；所述确定模块，用于根据识别出的情感以及所述第一对应关系，确定各待播放音频片段对应的颜色；所述播放模块，用于播放所述待播放音频时，绘制各个播放到的待播放音频片段对应的颜色。上述技术方案中，所述构建模块，具体用于将各个基准音频片段分别映射到预设的情感模型中，确定各个基准音频片段各自对应的情感；将各种颜色映射到预设的情感模型中，确定各种颜色与情感之间的第二对应关系；根据各个基准音频片段各自对应的情感以及所述第二对应关系，建立各个基准音频片段与情感和颜色之间的第一对应关系。上述技术方案中，所述装置还包括生成模块，用于提取各个已确定情感的基准音频片段的声学特征，组成音频素材库；所述识别模块，具体用于提取各待播放音频片段的声学特征，分别与所述音频素材库中的声学特征进行比对，自动识别出各个待播放音频片段对应的情感。上述技术方案中，所述构建模块，具体用于在所述预设的情感模型的各个顶点标定颜色，并基于各个顶点标定的颜色对整个模型区域内渐变填充，对于任意情感对应的颜色即为所述情感在所述预设的情感模型中的坐标点所对应的颜色。本发明实施例提供的音频情感可视化的方法及装置，建立各个基准音频片段与情感和颜色之间的第一对应关系；将待播放音频划分为至少一个待播放音频片段；识别各待播放音频片段对应的情感，根据识别出的情感以及所述第一对应关系，确定各待播放音频片段对应的颜色；播放所述待播放音频时，绘制各个播放到的待播放音频片段对应的颜色。也就是说，本发明实施例将颜色和音频片段分别映射到情感模型中，分别确定颜色和音频片段与情感的对应关系，即：以情感模型为纽带建立各个音频片段与颜色之间的对应关系；并且，提取已确定情感的基准音频片段的声学特征，建立基础音频素材库；当需要播放音频时，通过比对待播放音频与基准音频片段的声学特征，确定待播放音频中各个音频片段的情感，再根据各个音频片段与颜色的对应关系，即可判断出待播放音频中各个音频片段的情感所对应的颜色。那么，在播放待播放音频的同时，就可以绘制出播放到的各音频片段对应的颜色，能够在音频播放过程中实时、准确、多样化地可视化音频情感，使得音频情感可视化实现简单方便，适用范围更广。附图说明图1为本发明实施例的音频情感可视化的方法实现流程示意图；图2为本发明实施例的音频情感可视化的方法的详细流程示意图；图3为本发明实施例的情感颜色模型示意图；图4为本发明实施例的基于主题河流可视化模型的音频情感可视化效果图；图5为本发明实施例的音频情感可视化的装置组成结构示意图。具体实施方式本发明实施例中，建立各个基准音频片段与情感和颜色之间的第一对应关系；将待播放音频划分为至少一个待播放音频片段；识别各待播放音频片段对应的情感，根据识别出的情感以及所述第一对应关系，确定各待播放音频片段对应的颜色；播放所述待播放音频时，绘制各个播放到的待播放音频片段对应的颜色。如此，就可以达到绘制颜色会随着待播放音频片段的不同而随之变化的效果，给用户更好的体验。这里，所述建立各个基准音频片段与情感和颜色之间的第一对应关系，包括：将各个基准音频片段分别映射到预设的情感模型中，确定各个基准音频片段各自对应的情感；将各种颜色映射到预设的情感模型中，确定各种颜色与情感之间的第二对应关系；根据各个基准音频片段各自对应的情感以及所述第二对应关系，建立各个基准音频片段与情感和颜色之间的第一对应关系。其中，所述方法还包括：提取各个已确定情感的基准音频片段的声学特征，组成音频素材库；相应的，所述识别各待播放音频片段对应的情感包括：提取各待播放音频片段的声学特征，分别与所述音频素材库中的声学特征进行比对，自动识别出各个待播放音频片段对应的情感。进一步的，将各种颜色映射到预设的情感模型中，确定各种颜色与情感之间的第二对应关系包括：在所述预设的情感模型的各个顶点标定颜色，并基于各个顶点标定的颜色对整个模型区域内渐变填充，对于任意情感对应的颜色即为所述情感在所述预设的情感模型中的坐标点所对应的颜色。本发明实施例中，音频情感可视化的方法实现流程如图1所示，包括以下步骤：步骤100：建立各个基准音频片段与情感和颜色之间的第一对应关系；具体的，首先将各个基准音频片段分别映射到预设的情感模型中，确定各个基准音频片段各自对应的情感；这里，现有的典型情感模型包括：以hevner情感环模型为代表的文本关键字模型和以thayer二维情感模型为代表的声学参数模型，大部分研究基于这两种情感模型或这两种情感模型的改进形式。其中，本发明实施例采用thayer的情感模型，易于与音频中的声学特征对应。具体的，所述情感模型可以为一个矩形，矩形四角分别代表一种情感，如表1所示。位置左上角左下角右上角右下角对应情感生机勃勃的令人满足的焦虑狂乱的沮丧消沉的表1进一步的，所述情感模型的形状包括但不限于矩形，满足各顶点分别代表一种情感即可。这里，可以预先通过多位专家对各个基准音频片段进行情感评分并取均值的方式，得到对各个基准音频片段的打分；然后，将各个基准音频片段映射到情感模型中，确定各个基准音频片段各自对应的情感。接下来，将各种颜色映射到预设的情感模型中，确定各种颜色与情感之间的第二对应关系；这里，为所述情感模型中各顶点标定不同的颜色，并基于四个顶点的颜色对整个矩形进行渐变填充；对于任意情感对应的颜色即为所述情感在所述情感模型中的坐标点所对应的颜色；这里，不同的颜色对应不同的情感。其中，考虑到相同的颜色在不同的文化背景下有着不同的意义，因此，在情感模型中的各个顶点的颜色还会结合不同的文化背景进行选取。最后，根据各个基准音频片段各自对应的情感以及所述第二对应关系，建立各个基准音频片段与情感和颜色之间的第一对应关系。这里，在得到各个基准音频片段各自对应的情感以及不同颜色对应的情感之后，建立各个基准音频片段与情感和颜色之间的第一对应关系；其中，所述第一对应关系及第二对应关系可以存储为一个对应关系表，也可以存储为一个数据库。步骤101：将待播放音频划分为至少一个待播放音频片段；这里，在识别待播放音频之前，会将待播放音频划分为一个或一个以上音频片段，便于后续步骤中的与基准音频片段进行对比。步骤102：识别各待播放音频片段对应的情感，根据识别出的情感以及所述第一对应关系，确定各待播放音频片段对应的颜色；这里，提取各个已确定情感的基准音频片段的声学特征，组成音频素材库；其中，所述提取的基准音频片段的声学特征包括但不限于振幅、速度、音高及音度图。进一步的，所述识别各待播放音频片段对应的情感包括：提取各待播放音频片段的声学特征，分别与所述音频素材库中的声学特征进行相似性比对，自动识别出各个待播放音频片段对应的情感。其中，本发明实施例采用机器学习算法实现自动识别。在识别出各个待播放音频片段对应的情感之后，根据识别出的情感以及所述第一对应关系，便可确定各待播放音频片段对应的颜色。步骤103：播放所述待播放音频时，绘制各个播放到的待播放音频片段对应的颜色。在播放所述待播放音频时，实时绘制各个播放到的待播放音频片段对应的颜色，待播放音频片段变化时，颜色随之对应变化。本发明实施例可以采用主题河流可视化模型来实现待播放音频情感的可视化；其中，音频情感可视化模型包括但不限于主题河流可视化模型。下面对本发明实施例提供的音频情感可视化的方法的技术方案做进一步地详细介绍。图2为本发明实施例的音频情感可视化的方法的详细流程示意图，如图2所示。步骤201：建立音频颜色模型；首先，建立情感模型，将各个音频片段映射到情感模型中，确定各个音频片段对应的情感；这里，现有的典型情感模型包括以hevner情感环模型为代表的文本关键字模型和以thayer二维情感模型为代表的声学参数模型，大部分研究基于这两种情感模型或这两种情感模型的改进形式。本发明实施例采用thayer的情感模型，易于与音频中的声学特征对应。进一步的，所述情感模型的形状包括但不限于矩形，满足各顶点分别代表一种情感即可。这里，可以预先通过多位专家对各个基准音频片段进行情感评分并取均值的方式，得到对各个基准音频片段的打分；然后，将各个基准音频片段映射到情感模型中，确定各个基准音频片段各自对应的情感。其中，所得到的各个基准音频片段的打分也可以预先标记在各个对应的基准音频片段中，可以通过手动方式标记，也可以通过应用程序将打分自动放置在基准音频片段的指定位置中作为标记。然后，将各个颜色映射到预设的情感模型中，确定各种颜色与情感之间的第二对应关系。表2这里，本发明实施例中情感模型四个顶点颜色与情感的对应关系表，如表2所示。其中，采用hsb模型确定对应的thayer情感模型四个顶点的颜色。这里，hsb模式是基于人眼的、普及型设计软件中常见的颜色模式，其中h代表色相；s代表饱和度；b代表亮度。下面介绍一下利用hsb模型确定对应thayer情感模型中四个顶点颜色的过程，具体的如表3所示。这里，保持s值和b值恒定，将360度的色相分成四个部分，这四个部分之间互相没有交叉，且能够覆盖全部色相区间。确定好区间后，由于每个区间实际上是有多个相近颜色的，因此，在配色方案上，需进行综合的考虑和选择。具体的，在焦虑狂乱的情感对应的颜色区间中，包含了橙色、红色、粉红色；在生机勃勃的情感对应的颜色区间中，包含橙色、黄色、青色；在令人满足的情感对应的颜色区间中，包含青色、绿色、浅蓝色；在沮丧消沉的情感对应的颜色区间中，包含了蓝色、蓝紫色、紫色。也就是说，需要对每一组进行颜色的选择，以此组成最终的中心颜色组。对于焦虑狂乱的颜色，很明显只能选红色，因为红色是温度最高，能量压力都最高的颜色，相比于另外两种颜色更能够体现焦虑。对于沮丧消沉的颜色，也很明显，紫色是最佳选择，因为紫色的明度最低，情感最为低沉；而对于生机勃勃的和令人满足的，综合已确定的两种情感的颜色，分别选择橙色和绿色更为合理。情感h值(0-360)s值(0-100)b值(0-100)颜色焦虑狂乱的320-20100100红生机勃勃的20-80100100橙令人满足的80-200100100绿沮丧消沉的200-320100100紫表3图3为本发明实施例的基于中国文化的情感颜色模型示意图，四个顶点的颜色和情感依据表1设定，并基于四个顶点的颜色对整个矩形进行渐变填充。每一种情感都能根据相应情感与四个顶点情感的相似度映射到矩形中的一个点上，该点所在的颜色值即为该情感的颜色，据此建立情感颜色模型。对于任意情感对应的颜色即为所述情感在所述情感模型中的坐标点所对应的颜色，不同的颜色对应不同的情感。其中，考虑到相同的颜色在不同的文化背景下有着不同的意义，因此，在情感模型中的各个顶点的颜色还会结合不同的文化背景进行选取。最后，根据各个基准音频片段各自对应的情感以及所述第二对应关系，建立各个基准音频片段与情感和颜色之间的第一对应关系。这里，在得到各个基准音频片段各自对应的情感以及不同颜色对应的情感之后，建立各个基准音频片段与情感和颜色之间的第一对应关系。其中，所述第一对应关系及第二对应关系可以存储为一个对应关系表，也可以存储为一个数据库。步骤202：建立音频素材库；这里，提取各个已确定情感的基准音频片段的声学特征，组成音频素材库；其中，所述提取的基准音频片段的声学特征包括但不限于振幅、速度、音高及音度图。步骤203：通过机器学习算法对待播放音频进行分析，确定待播放音频的情感，并将待播放音频的情感映射为颜色；这里，首先要将待播放音频划分为一个及以上音频片段，以便后续步骤中的与基准音频片段进行对比；然后，提取各待播放音频片段的声学特征，分别与所述音频素材库中的声学特征进行相似性比对，自动识别出各个待播放音频片段对应的情感。其中，本发明实施例采用机器学习算法实现自动识别。在识别出各个待播放音频片段对应的情感之后，根据识别出的情感以及所述第一对应关系，便可确定各待播放音频片段对应的颜色。步骤204：播放待播放音频并同步绘制播放到的各音频片段对应的颜色。这里，在播放所述待播放音频时，实时绘制各个播放到的待播放音频片段对应的颜色，待播放音频片段变化时，颜色随之对应变化。本发明实施例采用主题河流可视化模型来实现待播放音频情感的可视化；其中，音频情感可视化模型包括但不限于主题河流可视化模型。本发明实施例中提供的一种基于主题河流可视化模型的可视化效果如图4所示，主题河流随着音乐情感的变化，将会有所波动，并会根据当前情感进行着色，河流流动速度(即播放速度)也会随着情感而发生变化。在可视化模型中还会显示相应的播放时间、总时长、曲名、当前情感等信息，并具有一定的交互性。通过情感色彩对人的刺激，结合基于声纹特征绘制的主题河流，以及背景播放的音乐，使得听众能够切实感受到当前音乐所要表达的情感。为实现上述音频情感可视化的方法，本发明实施例还提供一种装置，所述装置的组成结构示意图如图5所示，包括：构建模块51、划分模块52、识别模块53、确定模块54和播放模块55；其中，所述构建模块51，用于建立各个基准音频片段与情感和颜色之间的第一对应关系；所述划分模块52，用于将待播放音频划分为至少一个待播放音频片段；所述识别模块53，用于识别各待播放音频片段对应的情感；所述确定模块54，用于根据识别出的情感以及所述第一对应关系，确定各待播放音频片段对应的颜色；所述播放模块55，用于播放所述待播放音频时，绘制各个播放到的待播放音频片段对应的颜色。这里，所述构建模块51，具体用于将各个基准音频片段分别映射到预设的情感模型中，确定各个基准音频片段各自对应的情感；将各种颜色映射到预设的情感模型中，确定各种颜色与情感之间的第二对应关系；根据各个基准音频片段各自对应的情感以及所述第二对应关系，建立各个基准音频片段与情感和颜色之间的第一对应关系。进一步的，所述构建模块51，具体还用于在所述预设的情感模型的各个顶点标定颜色，并基于各个顶点标定的颜色对整个模型区域内渐变填充，对于任意情感对应的颜色即为所述情感在所述预设的情感模型中的坐标点所对应的颜色。这里，所述装置还包括生成模块，用于提取各个已确定情感的基准音频片段的声学特征，组成音频素材库；其中，所述提取的基准音频片段的声学特征包括但不限于振幅、速度、音高及音度图。所述识别模块53，具体用于提取各待播放音频片段的声学特征，分别与所述音频素材库中的声学特征进行比对，自动识别出各个待播放音频片段对应的情感。所述播放模块55，具体用于在播放所述待播放音频时，实时绘制各个播放到的待播放音频片段对应的颜色；这样，待播放音频片段变化时，颜色也会随之对应变化；这里，可以采用主题河流可视化模型来实现待播放音频情感的可视化；其中，音频情感可视化模型包括但不限于主题河流可视化模型。在实际应用中，所述构建模块51、划分模块52、识别模块53、确定模块54、播放模块55和生成模块均可由位于移动终端中的中央处理器(cpu，centralprocessingunit)、微处理器(mpu，microprocessorunit)、数字信号处理器(dsp，digitalsignalprocessor)、或现场可编程门阵列(fpga，fieldprogrammablegatearray)等实现。以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李宏杰
技术所有人：中移(苏州)软件技术有限公司;中国移动通信集团公司
我是此专利的发明人