一种背景音可选的朗读系统及其实现方法

文档序号：2823809阅读：187来源：国知局

专利名称：一种背景音可选的朗读系统及其实现方法
技术领域：
本发明涉及一种朗读系统，尤其是一种可以基于文本内容或者用户指定来选择背景音的朗读系统。本发明还涉及该朗读系统的实现方法。
背景技术：
当前的语音合成系统，不管是基于参数的，还是基于单元挑选的合成系统，合成出来的语音都比较枯燥乏味，缺乏足够的表现力，因此，单纯以这样的语音合成系统作为网站朗读新闻或者小说的朗读系统，缺乏对用户的吸引力，听众在长时间听取朗读后会因其单调而失去继续听的兴趣。为了克服上述缺陷，有的朗读系统的作者会为朗读文本添加背景音，即在播放合成语音的同时播放音乐或者其他声音作为背景音，以提高朗读的效果和听众的兴趣。但是，目前，这类带有背景音的朗读系统可以选择的背景音种类很少，通常只有单调的一种或者几种，并且背景音相对固定，不会随着文本内容的不同而改变，因此，有时背景音表现的气氛或者情感可能会与朗读文本所蕴含的情感不符，甚至产生冲突，例如，文本表达的是非常喜悦的情感，而配的背景音却非常悲伤，这样，听众就会感觉到不协调，甚至可能产生抵触情绪。

发明内容
本发明要解决的技术问题是提供一种背景音可选的朗读系统，它富有表现力，可以提升用户的体验和对朗读系统的兴趣。为解决上述技术问题，本发明的朗读系统，包括语音合成装置，用于生成朗读文本的合成语音，该语音合成装置包括文本分析模块和语音合成模块，文本分析模块用于对朗读文本进行分析，并将分析结果传给语音合成模块，语音合成模块用于生成朗读文本的合成语音；背景音库，存储有用作朗读系统背景音的声音片段，该声音片段为音乐或者非音乐的声音；背景音生成模块，用于生成当前朗读文本对应的背景音；朗读音合成模块，分别连接语音合成装置及背景音生成模块，用于将合成语音和背景音合并生成朗读音。本发明要解决的另一技术问题是提供上述朗读系统的实现方法。为解决上述技术问题，本发明的朗读系统的实现方法，包括下列步骤(A)收集音乐或者非音乐的声音，制作背景音库；(B)对朗读系统中需要朗读的文本进行标注，设定各文本需要配置的背景音的种类，并以此作为朗读系统推荐的背景音；当用户进入该朗读系统时，朗读系统按照下列步骤实现朗读功能(1)提示用户输入需要进行朗读的文本；
(2)用户输入了朗读文本后，文本分析模块分析该朗读文本，然后，语音合成模块根据文本分析模块的分析结果，生成该朗读文本的合成语音；(3)提示用户选择朗读系统推荐的背景音或者背景音库中的其他声音片段作为该朗读文本的背景音。(4)朗读音合成模块将合成语音和步骤(3)中用户选择的背景音合并，生成一个朗读音，并进行播放。所述步骤(3)中还包括如下步骤若用户选择的是朗读系统推荐的背景音，则执行步骤(31)；若用户选择的是背景音库中的其他声音片段，则执行步骤(32)；(31)背景音生成模块根据步骤(B)中文本标注的结果，到背景音库中挑选该朗读文本所需要的背景音片断，并根据步骤O)中得到的合成语音各段的长度，调整对应的背景音片段的长度，然后，将各背景音片断拼接起来，生成该朗读文本的背景音；(32)背景音生成模块到背景音库中调出相应的声音片段，并根据步骤O)中得到的合成语音的长度，调整背景音的长度，生成该朗读文本的背景音。本发明的朗读系统及其实现方法，结合使用了用户指定和系统基于文本内容推荐两种方式，来确定朗读系统的背景音，用户不仅可以选择系统推荐的或者默认的背景音，而且可以在朗读系统现有的背景音文件中指定自己喜欢的背景音，甚至还可以上传朗读系统中没有的背景音，从而丰富了背景音的种类和朗读系统的表现力，提高了文本朗读的效果和用户使用朗读系统听取文本朗读的兴趣。

下面结合附图与具体实施方式
对本发明作进一步详细的说明图1是本发明的朗读系统的模块示意图；图2是本发明在用户选择系统推荐背景音情况下的流程图；图3是本发明在用户指定背景音情况下的流程图。
具体实施例方式为对本发明的技术内容、特点与功效有更具体的了解，现结合图示的实施方式，详述如下本发明的背景音可选的朗读系统，可用于自动朗读文本，例如，小说网站朗读小说，或者新闻网站朗读新闻等。该朗读系统包含有一个背景音库，背景音库中存储有可用作朗读文本背景音的声音片段，这些声音片段可以是音乐，例如一首完整的歌曲或者歌曲中的部分片段，也可以是非音乐的声音，例如雨声、风声、马路噪音等环境音。此外，该朗读系统还包括下列模块语音合成装置，用于根据朗读文本的内容生成该文本的合成语音，语音合成装置又进一步包括前端的文本分析模块和后端的语音合成模块，前端的文本分析模块用于对朗读文本进行分析，例如，分析文本中的每个文字怎么读，如何断句等，然后将分析结果传给后端的语音合成模块，由语音合成模块生成该朗读文本的合成语音；背景音生成模块，用于生成当前朗读文本对应的背景音；
朗读音合成模块，分别连接语音合成装置及背景音合成模块，用于将语音合成装置生成的合成语音和背景音生成模块生成的背景音合并起来，生成朗读音。为了使最终生成的朗读音更和谐，音量更合适，还可以在朗读系统中进一步设置一个音量调节接口，供用户分别调节背景音和合成语音的音量，然后由朗读音合成模块根据背景音和合成语音的音量关系，将背景音和合成语音合并成最终的朗读音。下面结合实施例对本发明的朗读系统的实现方法做进一步详细的说明。首先，收集各种表达不同情感(例如，喜悦、悲伤等)的背景音乐或其他可以作为背景音的声音(例如，可以录下雨声、风声、海浪声、马路噪声、集市嘈杂声等各种不同环境下的声音)，制作成背景音库，该背景音库是开放式的数据库，在音库建成后，仍可以对其进行补充完善，即允许用户向背景音库上传声音文件。然后，对朗读系统中的各个文本进行标注。标注以段落为单位进行，标注每段文本需要配置的背景音的种类。由于现在文本自动分析技术还达不到稳定的、可以接收的效果，所以本发明采用人工的方法进行文本标注，可以由文本的作者、编辑或者其他人，根据文本的内容，选择他们认为合适的背景音，标注在文本中，由于标注是以段落为单位进行的，所以标注的工作量很小。例如，以下为一段原始朗读文本此时，站在河提上的李乡长的手机响了，是从抗洪抢险总指挥部打过来的。“李乡长，我们这边是抗洪抢险指挥部，我是总指挥范进，根据指挥部的数据分析结果，洪峰将在两个小时后到达你们乡，以防万一，请你在两个小时内疏散河提两岸附近的居民，确保人民群众的生命财产安全”。“范总指挥请放心，我保证完成任务，另外，请派一队人来支援，我们这里想加固河提，可是人手不够”。“好，李乡长，我马上去联系”。对上述原始朗读文本以段落为单位进行标注后，得到如下标注文本〈B 4>此时，站在河提上的李乡长的手机响了，是从抗洪抢险总指挥部打过来的。
<E 4>〈B 11> “李乡长，我们这边是抗洪抢险指挥部，我是总指挥范进，根据指挥部的数据分析结果，洪峰将在两个小时后到达你们乡，以防万一，请你在两个小时内疏散河提两岸附近的居民，确保人民群众的生命财产安全”。<E:11><B 4> “范总指挥请放心，我保证完成任务，另外，请派一队人来支援，我们这里想加固河提，可是人手不够”。<E:4><B:11> “好，李乡长，我马上去联系”。<E 11>上述标注文本中，各符号的含义分别是符号“B”表示此段文本的背景音开始，符号“E”表示此段文本的背景音结束，编号(即阿拉伯数字)表示背景音的种类，其中，编号 4表示在大河边，而编号11表示在办公室。文本经过标注后，标注的背景音即作为朗读系统推荐的背景音，并且在用户首次使用该朗读系统时，作为该朗读文本默认的背景音。当用户进入该朗读系统后，朗读系统首先提示用户输入需要进行朗读的文本。用户确定朗读文本后，朗读系统的语音合成装置利用前端的文本分析模块对该朗读文本进行分析，确定文本中每个文字的读法，分析如何断句等，然后由后端的语音合成模块根据分析结果，生成该朗读文本的合成语音。接着，朗读系统提示用户选择配合该文本朗读的背景音。此时，用户可以选择朗读系统推荐的背景音，也可以在背景音库中选择其他声音片段作为背景音，如果背景音库中没有用户想要的背景音，用户也可以将自己喜欢的歌曲或者其他声音文件上传到朗读系统中，由朗读系统将该上传的声音文件保存到背景音库中。如果用户选择了朗读系统推荐的背景音，即该朗读文本标注的背景音，则背景音生成模块根据文本标注的结果，到背景音库中挑选朗读文本所需要的背景音片段，并根据该朗读文本的合成语音各段的长度，调整对应的背景音片段的长度，最后拼接起来生成整个朗读文本的背景音。调整背景音片段长度的方法是如果当前的背景音片段长度大于其对应的那段合成语音的长度，按照该段合成语音的长度，保留该背景音片段的前面部分，删除后面部分；如果当前的背景音片段的长度小于对应的那段合成语音的长度，则反复拷贝该背景音片断，直至达到该段合成语音的长度。如果用户不喜欢朗读系统推荐的背景音，而在背景音库中指定了其他声音片段 (包括用户自己上传到背景音库的声音文件)作为背景音，朗读系统的背景音生成模块会根据用户的指定结果，直接到背景音库中调出相应的背景音片断，然后根据朗读文本的合成语音的长度，调整背景音的长度，生成朗读文本的背景音。背景音长度调整的方法是如果用户只指定了一个声音片段，则反复拷贝该声音片段，直至达到该朗读文本的合成语音的长度；如果用户指定了多个声音片段，则按照顺序循环拷贝这些声音片段，直至达到该朗读文本的合成语音的长度。例如，用户准备使用该朗读系统给孩子将故事，并希望使用孩子喜欢的两首儿歌作为朗读故事时的背景音，用户可以将这两首儿歌上传给朗读系统，朗读系统根据故事合成语音的长度，在两首儿歌的总长度小于合成语音长度时，按序循环拷贝这两首儿歌，最后拼接起来生成故事的背景音，而在儿歌总长度大于合成语音长度时，截取前面的儿歌片断作为背景音，后面超过合成语音长度的片断则删掉。不管用户如何选择背景音，朗读系统都会将用户的选择结果记录下来，作为该用户下次登陆朗读系统时默认的背景音提供给该用户选择。最后，朗读系统还可以进一步要求用户分别调整合成语音和背景音的音量，在音量确定后，再由朗读语音合成模块将合成语音和背景音合并生成一个朗读音，进行播放。当然，不调整两音的音量，而直接合成朗读音，也是可以的，但有时会影响合成出来的朗读音的效果。综上所述，本发明的背景音可选的朗读系统及其实现方法，不仅可以由朗读文本的作者、编辑或者其他人基于朗读文本的内容，为文本配上合适的背景音，而且还允许用户根据自己的喜好指定背景音，从而丰富了背景音的种类，提高了朗读系统在朗读文本时的表现力。
权利要求
1.一种背景音可选的朗读系统，包括语音合成装置，用于生成朗读文本的合成语音，该语音合成装置包括文本分析模块和语音合成模块，文本分析模块用于对朗读文本进行分析，并将分析结果传给语音合成模块，语音合成模块用于生成朗读文本的合成语音；其特征在于，该朗读系统还包括背景音库，存储有用作朗读系统背景音的声音片段，该声音片段为音乐或者非音乐的声音；背景音生成模块，用于生成当前朗读文本对应的背景音；朗读音合成模块，分别连接语音合成装置及背景音生成模块，用于将合成语音和背景音合并生成朗读音。
2.如权利要求1所述的朗读系统，其特征在于所述非音乐的声音为环境音。
3.如权利要求1所述的朗读系统，其特征在于该朗读系统还包括一音量调节接口，用于调节背景音和合成语音的音量。
4.一种权利要求1所述的朗读系统的实现方法，其特征在于，包括下列步骤(A)收集音乐或者非音乐的声音，制作背景音库；(B)对朗读系统中需要朗读的文本进行标注，设定各文本需要配置的背景音的种类，并以此作为朗读系统推荐的背景音；当用户进入该朗读系统时，朗读系统按照下列步骤实现朗读功能(1)提示用户输入需要进行朗读的文本；(2)用户输入了朗读文本后，文本分析模块分析该朗读文本，然后，语音合成模块根据文本分析模块的分析结果，生成该朗读文本的合成语音；(3)提示用户选择朗读系统推荐的背景音或者背景音库中的其他声音片段作为该朗读文本的背景音。(4)朗读音合成模块将合成语音和步骤(3)中用户选择的背景音合并，生成一个朗读音，并进行播放。
5.如权利要求4所述的朗读系统的实现方法，其特征在于所述标注采用人工的方法，以段落为单位进行。
6.如权利要求4所述的朗读系统的实现方法，其特征在于，所述步骤(3)中还包括如下步骤若用户选择的是朗读系统推荐的背景音，则执行步骤(31)；若用户选择的是背景音库中的其他声音片段，则执行步骤(32)；(31)背景音生成模块根据步骤(B)中文本标注的结果，到背景音库中挑选该朗读文本所需要的背景音片断，并根据步骤O)中得到的合成语音各段的长度，调整对应的背景音片段的长度，然后，将各背景音片断拼接起来，生成该朗读文本的背景音；(32)背景音生成模块到背景音库中调出相应的声音片段，并根据步骤O)中得到的合成语音的长度，调整背景音的长度，生成该朗读文本的背景音。
7.如权利要求6所述的朗读系统的实现方法，其特征在于所述步骤(31)中，调整背景音片段长度的方法是当背景音片段长度大于对应的合成语音的长度时，按照该段合成语音的长度，保留该背景音片段的前面部分，删除后面部分；当该背景音片段的长度小于对应的合成语音的长度时，反复拷贝该背景音片断，直至达到该段合成语音的长度。
8.如权利要求6所述的朗读系统的实现方法，其特征在于所述步骤(32)中，调整背景音长度的方法是当用户只指定了一个声音片段时，反复拷贝该声音片段，直至达到该朗读文本的合成语音的长度；当用户指定了两个以上的声音片段时，按照顺序循环拷贝这些声音片段，直至达到该朗读文本的合成语音的长度。
9.如权利要求6所述的朗读系统的实现方法，其特征在于所述步骤(31)或(32)完成后，朗读系统提示用户分别调整合成语音和背景音的音量，在用户确定了合成语音和背景音的音量后，再执行步骤(4)。
10.如权利要求4所述的朗读系统的实现方法，其特征在于所述步骤(3)中的其他声音片段包括用户上传给朗读系统的声音文件。
全文摘要
本发明公开了一种背景音可选的朗读系统，包括背景音库、语音合成装置、背景音生成模块以及朗读音合成模块。本发明还公开了该朗读系统的实现方法，包括制作背景音库、文本标注、生成文本的合成语音、生成背景音以及合成朗读音等步骤。该朗读系统极富表现力，可以提升用户的体验和对朗读系统的兴趣。当用户使用该朗读系统听取文本朗读时，可以选择系统推荐的或者默认的背景音，也可以指定自己喜欢的背景音，甚至可以向朗读系统上传背景音，从而扩大了背景音的选择范围，提高了文本朗读的效果和用户使用朗读系统的兴趣。
文档编号G10L13/02GK102402982SQ20101028119
公开日2012年4月4日申请日期2010年9月14日优先权日2010年9月14日
发明者王玉平申请人:盛乐信息技术(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王玉平
技术所有人：盛乐信息技术（上海）有限公司
我是此专利的发明人

上一篇：一种计算机语音识别方法及其计算机的制作方法
上一篇：启动包括第一功能和第二功能的多个功能的系统和方法