将文本文字转换成说唱音乐的方法及装置的制作方法

文档序号：2822474阅读：1407来源：国知局

专利名称：将文本文字转换成说唱音乐的方法及装置的制作方法
技术领域：
本发明属于电数字数据处理技术领域，尤其涉及一种将文本文字转换成说唱音乐
的方法及装置。
背景技术：
现有的文字语音转换(TTS)是一种能通过一定的算法，把输入的文字信息转换成
一定格式的语音信息的技术，经过长的时间的发展，目前文字语音转换技术已经比较成熟。现有的文字语音转换方法包括首先，对输入的文本文字进行分词、断句等文字处
理，得到具有一定含义的词汇分段，并根据词典将语音符号赋给文中相应的汉字；然后，将
得到的语音符号序列与语音或短语波形库中的声音片段相匹配，从中找到最匹配的语音片
段；最后，对于选出的语音片段进行拼接并插入适当停顿，得到可输出的语音。然而在实现本发明的过程中，发现现有技术至少存在以下问题现有的文字语音
转换方法仅仅是将文本文字中的字转换为该字对应的语音，然后将该文本文字通过语音的
方式输出，由于通过现有的文字语音转换技术获得的语音比较单一，使得用户在听该语音
时会感觉比较单调，从而难以满足用户的个性化需求。

发明内容
为了解决上述问题，本发明的目的是提供一种将文本文字转换成说唱音乐的方法及装置，通过将文本文字以说唱音乐的形式输出，增加了该文本文字的娱乐性，从而可提高用户体验。为了达到上述目的，本发明提供一种将文本文字转换成说唱音乐的方法，所述方法包括对获取的待转换的文本文字进行文字韵律分析，得到所述待转换的文本文字中的词和所述待转换文本文字中的字；对所述待转换的文本文字中的每个词和所述待转换的文本文字中的每个字都赋以声音属性；通过预设的文字语音数据库和所述声音属性，将所述待转换的文本文字中的每个词和所述待转换的文本文字中的每个字都转换成符合乐器数字接口 MIDI音乐规律的文字音频；获取待播放的乐器数字接口 MIDI音频，并将所述待播放的乐器数字接口 MIDI音频和所述符合乐器数字接口 MIDI音乐规律的文字音频进行合成处理，生成说唱音乐。
优选的，所述对获得的待转换的文本文字进行文字韵律分析的步骤具体包括
对所述待转换的文本文字进行分段和分句处理，获得待转换文本文字中的段和待转换文本文字中的句；通过预设的文字词典数据库，对所述待转换的文本文字中的句进行分词处理，获得所述待转换的文本文字中的词和所述待转换的文本文字中的字；
将所述待转换的文本文字中的段映射成音乐中的乐段，将所述待转换的文本文字
中的句映射成音乐中的乐句；将所述待转换的文本文字中的至少一个词映射成至少一个音
节；将所述待转换的文本文字中的至少一个字映射成至少一个音符。优选的，所述获取待播放的乐器数字接口 MIDI音频的步骤具体包括根据所述待转换文本中的段、所述待转换文本中的句、所述待转换文本中的词和
所述待转换文本中的字，来确定待播放的乐器数字接口 MIDI音乐的音乐属性、乐轨属性、
乐段属性、和小节及音符属性；根据所述音乐属性、乐轨属性、乐段属性、和小节及音符属性，来选取待播放的乐器数字接口MIDI音乐；将所述待播放的乐器数字接口 MIDI音乐转换成所述待播放的乐器数字接口 MIDI 音频。优选的，所述音乐属性为声调、音色、和节奏中的一种或多种；所述乐段属性为和弦规律；所述乐轨属性为鼓点属性、弦乐背景音轨属性、节奏伴奏音轨属性、和独奏 SOLO音轨属性中的一种或多种；所述小节及音符属性为旋律规则。优选的，所述对获取的待转换的文本文字进行文字韵律分析的步骤还包括
对所述文本文字中的词和所述文本文字中的字进行字词感情属性分析，根据字词感情属性分析的结果，来确定待播放的MIDI音乐的音乐感情属性；
所述选取待播放的乐器数字接口 MIDI音乐的步骤为
根据所述音乐感情属性，选取所述待播放的MIDI音乐。
优选的，所述感情属性分析结果为强烈、中性、和抒情中的一种或多种；所述音乐的感情属性为摇滚、流行、和民谣中的一种或多种。
优选的，所述方法还包括对所述文字音频和所述MIDI音频进行合成处理后，再对合成后的音频文件进行音效处理。
本发明还提供一种将文本文字转换成说唱音乐的装置，所述装置包括文字韵律分析模块，用于对获取的待转换的文本文字进行文字韵律分析，得到所
述待转换的文本文字中的词和所述待转换文本文字中的字，并对所述待转换的文本文字中
每个词和所述待转换的文本文字中的每个字都赋以声音属性；文字转音频模块，用于通过预设的文字语音数据库和所述声音属性，将所述待转换的文本文字中的每个词和所述待转换的文本文字中的每个字都转换成符合乐器数字接口 MIDI音乐规律的文字音频；音频合成模块，用于获取待播放的乐器数字接口 MIDI音频，并将所述待播放的乐器数字接口 MIDI音频和所述符合乐器数字接口 MIDI音乐规律的文字音频进行合成处理，生成说唱音乐。优选的，所述装置还包括 MIID音乐生成模块，用于根据所述待转换文本中的段、所述待转换文本中的句、所述待转换文本中的词和所述待转换文本中的字，来确定待播放的乐器数字接口 MIDI音乐的音乐属性、乐轨属性、乐段属性、和小节及音符属性； MIDI转音频模块，用于将所述待播放的乐器数字接口 MIDI音乐转换成所述待播
5放的乐器数字接口 MIDI音频。
优选的，所述装置还包括存储模块，用于存储于所述预设的文字语音数据库。上述技术方案中的至少一个技术方案具有如下有益效果通过将文本文字和 MIDI音乐生成符合文字韵律的说唱音乐，使该文本文字能够以说唱音乐的形式输出，增加了该文本文字的娱乐性，从而提高了用户体验。

图1为本发明的实施例中将文本文字转换成说唱音乐的方法流程图；
图2为本发明的实施例中将文本文字转换成说唱音乐的装置框图。
具体实施例方式
在本实施例中，首先对待转换的文本文字进行文字韵律分析，对该待转换的文本文字中的每一个字都赋以声音属性；然后根据声音属性和预设的文字语音数据库，将该待转换的文本文字中的每个字转换成符合MIDI音乐规律的文字音频，最后将该符合MIDI音乐规律的文字音频与待播放的MIDI音频进行合成处理，生成说唱音乐，通过将文本文字中的字赋以声音属性，并以说唱音乐的形式表达出，从而增加了该文本文字的娱乐性，提高了用户体验。为了使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明实施例做进一步详细地说明。在此，本发明的示意性实施例及说明用于解释本发明，但并不作为对本发明的限定。如图1所示，为本发明的实施例中将文本文字转换成说唱音乐的方法流程图，具体步骤如下步骤101、对获取的待转换的文本文字进行文字韵律分析，得到该待转换的文本文字中的词和该待转换文本文字中的字；在本实施例中，可通过标点符号对待转换的文本文字进行文字对象分析，具体为，首先通过标点符号对待转换文本文字进行分段和分句处理，可获得该待转换文本文字中的段和待转换文本文字中的句；然后通过预设的文字词典数据库，对该待转换的文本文字中的句进行分词处理，可得到该待转换的文本文字中的词和待转换的文本文字中的字。
上述文字分析的对象包括文、段、句、词和字，通常可用标点符号为界进行分析，其中"文"指要分析的文本文字；"段"是文本文字的下一级，一般以标点符号为界，例如换行符；"句"在段中以标点符号为界，例如句号；"词"，可根据预设的文字字典数据库对 "句"进行分析后，获取该"句"中的"词"；最后"字"为上述文字分析的最基本单元。
在完成文字对象分析后，为了使待播放的MIDI音乐能够与文本文字所表达的感情色彩相匹配，在本步骤中还可对该待转换的文本文字中词和待转换的文本文字中的字进行字词感情属性分析，从而可获得待转换的文本文字的字词感情属性；然后根据该字词感情属性可确定出待播放MIDI音频的音乐感情属性，上述字词感情属性包括但不限于强烈、中性和抒情，而音乐感情属性包括但不限于摇滚、流行和民谣。在本实施例中，可将预先设置上述字词感情属性设置成与上述音乐感情属性对应关系，例如当字词感情属性为强烈时，可选用音乐感情属性为摇滚的MIDI音乐；当字词感情属性为中性时，可选用音乐感情属性为流行的MIDI音乐；当字词感情属性为抒情时，可
选用音乐感情属性为民谣的MIDI音乐，当然在本实施例中并不限定字词感情属性与音乐
感情属性的具体对应关系。通常，音乐中的元素包括音乐、乐段、乐句、音节和音符，在本步骤中，还可将上述文字分析的对象与音乐中的元素对应起来，例如可将待转换的文本文字中的段映射成音乐中的乐段；将待转换的文本文字中的句映射成音乐中的乐句；将待转换的文本文字中的至少一个词映射成至少一个音节；将待转换的文本文字中的至少一个字映射成至少一个音符。步骤102、对该待转换的文本文字中的每个词和该待转换的文本文字中的每个字都赋以声音属性；也就是，对该待转换的文本文字中的每个汉字都赋以声音属性，上述声音属性包括但不限于音长、音高和音调。步骤103、通过预设的文字语音数据库和该声音属性，将该待转换的文本文字中的每个词和该待转换的文本文字中的每个字都转换成符合MIDI音乐规律的文字音频；
在本步骤中，可以采用现有的文字语音数据库，在该文字语音数据库中存储有字词对应的语音信息，通过该预设的文字语音数据库和步骤102中赋以的声音属性，将该待转换文本文字中的每个词和每个字都转换成符合MIDI音乐规律的文字音频。
步骤104、获取待播放的MIDI音频，并将该待播放的MIDI音频和该符合MIDI音乐规律的文字音频进行合成处理，生成说唱音乐。上述待播放的MIDI音频可通过MIDI转音频技术将MIDI音乐生成待播放的MIDI 音频，在本实施例中并不限定MIDI音频的来源方式。当采用MIDI转音频技术将MIDI音乐转换为MIDI音频时，首先，根据待转换文本中的段、待转换文本中的句、待转换文本中的词和待转换文本中的字，来确定待播放的MIDI 音乐的音乐属性、乐轨属性、乐段属性、和小节及音符属性，其中音乐属性为声调、音色、和节奏中的一种或多种；乐段属性为和弦规律；乐轨属性为鼓点属性、弦乐背景音轨属性、节奏伴奏音轨属性、和独奏SOLO音轨属性中的一种或多种；小节及音符属性为旋律规则。
然后，再根据音乐属性、乐轨属性、乐段属性、和小节及音符属性，来选取待播放的乐器数字接口MIDI音乐；最后，通过现有的MIDI转音频技术将上述待播放的MIDI音乐转换成待播放的 MIDI音频。在获取了待播放的MIDI音频后，通过现有的音频合成技术将上述符合MIDI音频规律的文字音频与待播放的MIDI音频合成一个音频。为了保证合成后的音频质量，还可对合成后的音频进行激励、压制、混响音频处理。由上述技术方案可知，通过将文本文字和MIDI音乐生成符合文字韵律的说唱音乐，使该文本文字能够以说唱音乐的形式输出，增加了该文本文字的娱乐性，从而提高了用户体验下面以将手机短信转换为说唱音乐为例，来介绍本方法实施例
7
例如在用户完成对手机账户充值后，移动运营商常会发送如下文本短信到用户的手机上"您好！您的资金已注入，账户余额为100元，有效期至2010年2月2日。"
首先，根据标点符号对上述文本短信进行文字韵律分析，该标点符号包括感叹号、句号和逗号，经过文字韵律分析后可知该文本短信有l段和4句、5个词和15个字其中
字词的分割(以"l"为标)如下"您I好！您I的I资金I已I注入，账户I余额I为|100|元，有效期I至|2010|年|2|月|2|日。" 由于文本短信中有友好词"好"和"您"，而且文本短信中无否定性质的词句，因此通过对文本短信的字词感情属性分析，可选用音乐感情属性为流行C大调的待播放的 MIDI音乐。然后，结合文字韵律分析获得的结果，可以进行文字音乐映射，也就是将文本文短信中的段映射成音乐中的乐段，将文本短信中的句映射成音乐中的乐句，将文本短信中的至少一个词映射成至少一个音节(以"〈〉"标记)，将文本短信中的至少一个字映射成至少一个音符，具体表示如下

第一个乐句第二个乐句第三个乐句第四个乐句
您好！ >
您I的I资金>〈|已I注入，> 账户I余额X为100元，> 有效期I至1X20101年|2|>〈月|2|曰。>
然后，确定和弦及旋律，以第一个乐句为例
〈您好！〉配C和弦，且旋律可简单设置为|1-3-〈I您I的I资金〉配G和弦，且旋律可简单设置为|5252 〈I已I注入，〉配C和弦，且旋律可简单设置为|1-31
然后，根据文字音乐映射，确定文字声音映射，即对每个字都赋以声音属性，该声音属性包括音长、音高和音调，上述文字声音映射需要遵守声音和音乐规律对应的原则。
通过文字音乐映射及文字声音映射进行音乐生成和人声生成。其中，根据音乐感情属性和以上各乐句中编配的和弦加入打击轨，伴奏轨以及旋律轨，然后进行MIDI音乐生成，结合人声进行音频转换和处理合成，成为说唱。为了实现上述的方法实施例，本发明的其他实施例还提供了一种将文本文字转换成说唱音乐的装置框图装置。另需首先说明的是，由于下述的实施例是为实现前述的方法实施例，故该装置中的模块都是为了实现前述方法的各步骤而设，但本发明并不限于下述的实施例，任何可实现上述方法的装置和模块都应包含于本发明的保护范围。并且在下面的描述中，与前述方法相同的内容在此省略，以节约篇幅。如图2所示，为本发明的实施例中将文本文字转换成说唱音乐的装置框图，该装置包括文字韵律分析模块21，用于对获取的待转换的文本文字进行文字韵律分析，得到所述待转换的文本文字中的词和所述待转换文本文字中的字，并对所述待转换的文本文字中每个词和所述待转换的文本文字中的每个字都赋以声音属性；文字转音频模块22，用于通过预设的文字语音数据库和所述声音属性，将所述待转换的文本文字中的每个词和所述待转换的文本文字中的每个字都转换成符合MIDI音乐规律的文字音频；音频合成模块25，用于获取待播放的MIDI音频，并将待播放的MIDI音频和符合 MIDI音乐规律的文字音频进行合成处理，生成说唱音乐。
在本发明的另一实施例中，装置还包括 MIDI音乐生成模块23，用于根据所述待转换文本中的段、所述待转换文本中的句、所述待转换文本中的词和所述待转换文本中的字，来确定待播放的乐器数字接口 MIDI 音乐的音乐属性、乐轨属性、乐段属性、和小节及音符属性； MIDI转音频模块24，用于将所述待播放的乐器数字接口 MIDI音乐转换成所述待播放的乐器数字接口 MIDI音频。在本发明的另一实施例中，装置还包括存储模块，用于存储于所述预设的文字语音数据库。由上述技术方案可知，通过将文本文字和MIDI音乐生成符合文字韵律的说唱音乐，使该文本文字能够以说唱音乐的形式输出，增加了该文本文字的娱乐性，从而提高了用户体验。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
权利要求
一种将文本文字转换成说唱音乐的方法，其特征在于，所述方法包括对获取的待转换的文本文字进行文字韵律分析，得到所述待转换的文本文字中的词和所述待转换文本文字中的字；对所述待转换的文本文字中的每个词和所述待转换的文本文字中的每个字都赋以声音属性；通过预设的文字语音数据库和所述声音属性，将所述待转换的文本文字中的每个词和所述待转换的文本文字中的每个字都转换成符合乐器数字接口MIDI音乐规律的文字音频；获取待播放的乐器数字接口MIDI音频，并将所述待播放的乐器数字接口MIDI音频和所述符合乐器数字接口MIDI音乐规律的文字音频进行合成处理，生成说唱音乐。
2. 根据权利要求1所述的方法，其特征在于，所述对获得的待转换的文本文字进行文字韵律分析的步骤具体包括对所述待转换的文本文字进行分段和分句处理，获得待转换文本文字中的段和待转换文本文字中的句；通过预设的文字词典数据库，对所述待转换的文本文字中的句进行分词处理，获得所述待转换的文本文字中的词和所述待转换的文本文字中的字；将所述待转换的文本文字中的段映射成音乐中的乐段，将所述待转换的文本文字中的句映射成音乐中的乐句；将所述待转换的文本文字中的至少一个词映射成至少一个音节；将所述待转换的文本文字中的至少一个字映射成至少一个音符。
3. 根据权利要求2所述的方法，其特征在于，所述获取待播放的乐器数字接口 MIDI音频的步骤具体包括根据所述待转换文本中的段、所述待转换文本中的句、所述待转换文本中的词和所述待转换文本中的字，来确定待播放的乐器数字接口 MIDI音乐的音乐属性、乐轨属性、乐段属性、和小节及音符属性；根据所述音乐属性、乐轨属性、乐段属性、和小节及音符属性，来选取待播放的乐器数字接口MIDI音乐；将所述待播放的乐器数字接口 MIDI音乐转换成所述待播放的乐器数字接口 MIDI音频。
4. 根据权利要求3所述的方法，其特征在于，所述音乐属性为声调、音色、和节奏中的一种或多种；所述乐段属性为和弦规律；所述乐轨属性为鼓点属性、弦乐背景音轨属性、节奏伴奏音轨属性、和独奏SOLO音轨属性中的一种或多种；所述小节及音符属性为旋律规则。
5. 根据权利要求3所述的方法，其特征在于，所述对获取的待转换的文本文字进行文字韵律分析的步骤还包括对所述文本文字中的词和所述文本文字中的字进行字词感情属性分析，根据字词感情属性分析的结果，来确定待播放的MIDI音乐的音乐感情属性；所述选取待播放的乐器数字接口 MIDI音乐的步骤为根据所述音乐感情属性，选取所述待播放的MIDI音乐。
6. 根据权利要求5所述的方法，其特征在于，所述感情属性分析结果为强烈、中性、和抒情中的一种或多种；所述音乐的感情属性为摇滚、流行、和民谣中的一种或多种。
7. 根据权利要求1所述的方法，其特征在于，所述方法还包括对所述文字音频和所述MIDI音频进行合成处理后，再对合成后的音频文件进行音效处理。
8. —种将文本文字转换成说唱音乐的装置，其特征在于，所述装置包括文字韵律分析模块，用于对获取的待转换的文本文字进行文字韵律分析，得到所述待转换的文本文字中的词和所述待转换文本文字中的字，并对所述待转换的文本文字中每个词和所述待转换的文本文字中的每个字都赋以声音属性；文字转音频模块，用于通过预设的文字语音数据库和所述声音属性，将所述待转换的文本文字中的每个词和所述待转换的文本文字中的每个字都转换成符合乐器数字接口MIDI音乐规律的文字音频；音频合成模块，用于获取待播放的乐器数字接口 MIDI音频，并将所述待播放的乐器数字接口 MIDI音频和所述符合乐器数字接口 MIDI音乐规律的文字音频进行合成处理，生成说唱音乐。
9. 根据权利要求8所述的装置，其特征在于，所述装置还包括MIID音乐生成模块，用于根据所述待转换文本中的段、所述待转换文本中的句、所述待转换文本中的词和所述待转换文本中的字，来确定待播放的乐器数字接口 MIDI音乐的音乐属性、乐轨属性、乐段属性、和小节及音符属性；MIDI转音频模块，用于将所述待播放的乐器数字接口 MIDI音乐转换成所述待播放的乐器数字接口MIDI音频。
10. 根据权利要求9所述的装置，其特征在于，所述装置还包括存储模块，用于存储于所述预设的文字语音数据库。
全文摘要
本发明提供一种将文本文字转换成说唱音乐的方法及装置，属于电数字数据处理技术领域，该方法包括对获取的待转换的文本文字进行文字韵律分析，得到待转换的文本文字中的词和字；对待转换的文本文字中的每个词和每个字都赋以声音属性；通过预设的文字语音数据库和声音属性，将待转换的文本文字中的每个词和每个字都转换成符合MIDI音乐规律的文字音频；获取待播放的MIDI音频，并将待播放的MIDI音频和符合MIDI音乐规律的文字音频进行合成处理，生成说唱音乐，通过将文本文字以说唱音乐的形式输出，增加了该文本文字的娱乐性，从而可提高用户体验。
文档编号G10H1/00GK101694772SQ20091023642
公开日2010年4月14日申请日期2009年10月21日优先权日2009年10月21日
发明者吕博学, 艾国申请人:北京中星微电子有限公司;

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕博学;艾国
技术所有人：北京中星微电子有限公司
我是此专利的发明人

上一篇：一种无人机遥控器实时传送高保真语音数据的方法
上一篇：一种基于tda域的自适应窗切换方法