一种智能软件的语音播报系统及语音播报方法_2

文档序号：9668707阅读：来源：国知局

的说明。
[0050]参阅图1所示，本发明智能软件的语音播报系统主要由文字信息采集模块11、文本前端处理模块12、模型存储模块13、语音合成模块14及语音播放模块15组成。
[0051]其中，文字信息采集模块11用于采集文字信息。该文字信息采集模块11与智能播报客户端111通信连接，智能播报客户端111 一般会作为插件，安插在基于安卓或1S平台的智能软件的，比如股票软件(如:券商客户端、同花顺、大智慧等)之中进行文字信息的采集，提供智能的手机端/平板端以文本播报的功能。用户在需要进行语音播报的时候，可启动智能播报客户端111，智能播报客户端111负责采集用户需要播报的文字信息，比如与股票相关的文本，针对中老年人看不清楚股票数字的问题，可以为中老年人播报每一笔操作的语音提示和确认，并可以实时播报当前股市概况。同时，智能播报客户端111作为一款插件放入股票软件中，可通过点击开关自由选择播报与否，实用且不会造成骚扰。
[0052]文本前端处理模块12与文字信息采集模块11连接，用于将文字信息采集模块11采集的文字信息转化为具有特定读法的文本信息。比如，针对股票领域的文本进行特殊处理，我们知道，在股票领域，“ + ”需要被念成“涨”，需要被念成“跌”，指数“3542”需要被念成“三千五百四十二点”，等等，这些需要对采集的文字信息进行特殊的处理，使其适合股票领域的特定读法，即股票领域的语义解析。其中，文本前端处理模块12具体包括正规规则设置单元121和文本转化标注单元122，正规规则设置单元121与文字信息采集模块11连接，用于对文字信息采集模块11采集到的文字信息进行基于特定规则的正则化，比如基于”念成“点”、“ % ”念成“百分之”等特定规则，将“ 1.2%”正则化为“百分之一点二”，然后输出经正规化的文字信息，如“百分之一点二”。文本转化标注单元122与正规规则设置单元121连接，用于接收正规规则设置单元121输出的经正则化的文字信息，并对该经正则化的文字信息进行标注，比如，将“百分之一点二”标注为“baifenzhiyidianer”，及更进一步的音素级别词性韵律标注，转化为经标注的具有特定读法的文本信息，并将该具有特定读法的文本信息输送至下一单元。
[0053]模型存储模块13用于建立和存储声音模型，是本发明至关重要的一步。通过模型存储模块13可以建立不同音色的播报人(可以是具有瓦力机器人音色播报人，也可以是类似蜡笔小新、樱桃小丸子等卡通人物的音色，也可以是时下网络当红的名人声音)的声音模型，并进行存储，为后续的语音合成提供事先训练好的发音人的声音模型，以供语音合成模块14随时调用，实现特定音色的文本播报。其中，模型存储模块13具体包括语音标注前端处理单元131、特征参数抽取单元132、训练单元133及模型存储单元134。语音标注前端处理单元131用于通过采集2?3个小时的某个或某些播报人的声音作为声音数据源，并对采集的声音数据源进行语音标注前端处理，得到该声音数据源的文本标注信息。特征参数抽取单元132与标注前端处理单元131连接，用于提取文本标注信息的基频和频谱的声学特征。训练单元133与特征参数抽取单元132连接，用于基于隐马尔可夫模型(HiddenMarkov Model，简称HMM)的参数聚类和训练，形成提取的声学特征的声音模型。模型存储单元134与训练单元133连接，用于离线存储各种音色的播报人的声音模型。完成模型存储模块13对各种不同音色的播报人的声音模型的建立和存储，在合成需求到达时，可以调用相关播报人的声音模型，进行语音合成，从而达到语音播报的目的。
[0054]语音合成模块14是本发明核心技术，也是贯穿整个系统的模块，语音合成模块14同时与文本前端处理模块12和模型存储模块13连接，用于调用模型存储模块13存储的声音模型，根据该声音模型和决策树预测得到文本前端处理模块12传送的文本信息对应的声学参数，将该声学参数进行语音合成，输出经语音合成的语音文件。语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。
[0055]语音合成模块14具体包括标注存储单元141、参数预测单元142及合成器合成语音单元143。标注存储单元141与文本前端处理模块12的文本转化标注单元122连接，用于对文本转化标注单元122传送到的文本信息，如“今日大盘上涨三十五点六点”，进行词性分析和韵律预测；参数预测单元142与标注存储单元141和模型存储模块13的模型存储单元134连接，用于向模型存储单元134发出合成需求，调用模型存储单元134中存储的事先训练好的某个播报人的声音模型，可以是具有瓦力机器人音色的播报人，也可以是类似蜡笔小新、樱桃小丸子等卡通人物的音色，也可以是时下网络当红的名人声音的声音模型，再根据该声音模型和决策树预测得到经词性分析和韵律预测的文本信息对应的声学参数。决策树(Decis1n Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。合成器合成语音单元143与参数预测单元142连接，用于将参数预测单元142预测得到的声学参数送到参数合成器中进行语音合成，输出经语音合成的语音文件，如“今日大盘上涨35.6点”的声音。
[0056]语音播放模块15与语音合成模块14的合成器合成语音单元143连接，用于播放经语音合成的语音文件“今日大盘上涨35.6点”的声音。完成整个特定音色的文本播报过程。
[0057]本发明综合利用文本处理、参数建模、语音合成等技术，为老人提供一种全方位的股票播报解决方案；利用安插在股票软件中的智能播报客户端采集用户需要播报的文字信息；再利用文本前端处理模块针对股票领域文本进行特殊处理，可以得到适合股票领域的特定读法的文本信息；然后，利用模型存储模块建立和存储具有特定音色的声音模型，以供语音合成模块调用；之后，利用语音合成模块调用特定音色的声音模型，对文本信息进行特定音色的语音合成，得到特定音色的文本播报，方便用户以收听播报的方式代替单纯阅览的方式，在收听播报信息后进行操作，避免误操作，做到准确方便，同时，模型存储模块中的声音模型可以随时更换，实现播报文本和发音音色随时调整，在遇到新的报警场景需要更新播报文本时或想换最新的网络红人的发音音色时，可以随时进行调整，十分的方便、节约成本且增添收听乐趣。
[0058]配合图2所示，利用本发明的语音播报系统进行语音播报，主要包括如下步骤:
[0059]S001:采集智能软件中的文字信息；
[0060]S002:将采集的文字信息转化为具有特定读法的文本信息；
[0061]S003:建立和存储声音模型；
[0062]S004:调用存储的声音模型，根据声音模型和决策树预测得到文本信息对应的声学参数，将声学参数进行语音合成，输出经语音合成的语音文件；以及
[0063]S005:播放语音文件。
[0064]其中，步骤S001:采集文字信息，包括:在智能软件中安插用于采集文字信息的智能播报客户端。
[0065]该智能播报客户端一般会作为插件，安插在基于安卓或1S平台的智能软件，比如股票软件(如:券商客户端、同花顺、大智慧等)之中，进行文字信息的采集，提供智能的手机端/平板端以文本播报的功能。用户在需要进行语音播报的时候，可启动智能播报客户端，智能播报客户端负责采集用户需要播报的文字信息，比如与股票相关的文本。针对中老年人看不清楚股票数字的问题，本发明可以为中老年人播报每一笔操作的语音提示和确认，并可以实时播报当前股市概况。同时，智能播报客户端作为一款插件放入股票软件中，可通过点击开关自由选择播报与否，实用且不会造成骚扰。
[0066]步骤S002:将采集的文字信息转化为具有特定读法的文本信息，比如，针对股票领域的文本进行特殊处理，我们知道，在股票领域，“ + ”需要被念成“

完整全部详细技术资料下载

当前第2页1 2 3