一种维、汉双语GSM短信息语音转换播发系统的制作方法

文档序号：12134363阅读：158来源：国知局

本发明涉及信息语音转换播发系统技术领域，具体是一种涉及维、汉双语GSM短信息语音转换播发系统。

背景技术：

通信是二十世纪出现的最有价值的电子信息技术之一。其中手机短信是人们使用手机交流的最早的主要方式。短信息语音转换播发功能在人们的日常生活中具有非常重要的应用价值,它能够给人类提供的廉价、便利的通信服务。

现有的一些手机提供的语音播报短信的技术都不能很好的满足用户的需要：有的需要连接到服务器进行合成再将语音信息发给手机，这样会有使用环境的限制并带来费用的增加；有的通过在本地储存音节的办法进行语音合成，这样合成音质非常差。

尤其是对于维、汉双语短信息语音转换播发，目前还存在一些问题，比如应急短信无法安全转换成语音并广播到指定区域；另外，在语音合成方面，常用的语音合成方法主要有参数合成和波形拼接方法两种技术，参数合成方法在合成技术中比较依赖语音的参数提取技术，但是，目前对语音产生模型的研究还不够完善，因此基于参数合成方法的语音合成清晰度和自然度都还达不到实用程度。于此不同，基于波形拼接技术的语音合成原理是把语音波形进行拼接，输出整体语音数据。波形拼接语音合成用自然语音波形取代参数，语音波形取自词、短语和句子，隐含了原始语音中的自然韵律，合成的语音清晰自然，其质量普遍高于基于参数的语音合成。在波形拼接过程中，如果直接将简单的波形进行拼接，经常发现在拼接点会有以下问题：首先，会有发现声音拼接点存在刺啦声，其次，如果两个声音音高不同，会发现拼接中整个声音的音高不同，忽低忽高。

针对以上问题，我们对维、汉双语短信息语音转换播发系统应用平台进行更加深入和细化的设计开发，将具有很广泛的实际应用价值。

技术实现要素：

本发明解决的技术问题是提供一种低功耗低成本的维、汉双语GSM短信息语音转换播发系统，解决了应急短信无法安全转换成语音并广播到指定区域的问题。

本发明的技术方案是：一种维、汉双语GSM短信息语音转换播发系统，分为软件系统和硬件系统两个组成部分；

所述软件系统功能分为短信接收模块、文本预处理模块、语料库构建模块、波形拼接合成模块四部分；

短信接收模块：负责短信接收，实时获取最新的短信文本；当接收到短信时，进行回拨，通过MT8870芯片对键盘输入进行DTMF解码，获取输入密码，并进行验证，然后通过终端控制来进行推送信息的实时处理工作；实现了基于移动短信推送的信息接收功能。短信接收是一个开发式系统，且没有对短信来源进行指定。由于在项目应用的实际环境中，不可避免的会接收到一些非推送请求的短信。为了在短信接收终端进行推送请求的认证，故加入验证处理。通过回拨电话，然后待用户输入密码，进行密码验证。该验证过程中，主要难点就是回拨电话时，获取客户通过拨号键盘输入的密码。

文本预处理模块：首先进行语种识别，区分汉语与维吾尔语文本，然后基于汉语、维吾尔语的正规化规则，分别对汉语、维吾尔语进行文本正则化，对汉语根据已有词典库进行分词，对维吾尔语根据已有的音节库进行切分，获得文本的发音单元；

语料库构建模块：构建汉语词汇、单字语料库；构建维吾尔语音节语料库；

波形拼接合成模块：针对汉语，选择词汇对应的音频文件进行拼接，针对维吾尔语，选择音节对应的音频文件进行拼接；

所述的硬件系统为：使用cortex M3内核的ARM处理器作为控制单元、使用SIM900A GSM模块作为短信接收及语音传输单元、采用VS1003音频解码芯片对MP3音频文件进行解码、采用SDIO驱动SD卡并建立FAT32文件系统存储配置文件及音频文件、使用400X240TFT3寸彩色液晶显示屏显示系统每个运行状态、使用MX3232作为RS232接口电路的驱动芯片实现系统与PC的通信连接、采用RTC时钟电路为系统提供精确实时时钟、采用AMS1117线性稳压器将电源适配器的电压降至ARM处理器及其他芯片的工作电压、嵌入式短信播报系统能够接收指定手机的短信并能主动向授权手机号码回拨电话，通过双音多频DTMF(Dual Tone Multi Frequency)识别授权手机密码，当验证通过后会将需要播报的短信发送到PC进行语音合成并广播。SIM900A模块是尺寸紧凑的GSM/GPRS无线通信模块，采用SMT封装易于客户进行灵活设计，性能强大。

进一步地，在上述方案中，所述文本预处理模块使用语种字符在Unicode中的具体位置识别语种，区分汉语与维吾尔语信息，通过工程和技术的角度，基于规则对汉语、维吾尔语文件进行正则化处理；对汉语根据已有词典库采用正向最大匹配算法进行分词，对维吾尔语根据已有的音节库同样采用正向最大匹配算法进行切分；语种识别包含语音语种识别，即根据语音文件来区别语种；文本语种识别，即根据文本文件来区别语种。

作为语种识别的基础，编码识别是前提条件，本发明采用统一编码UTF-8，因此就避开了编码识别环节，主要工作在识别少数民族语言，在少数民族语言的识别上我们采用基于语种字符在Unicode中的具体位置的方法来进行正则匹配。

真实的文本中，经常会包含大量的非标准文字字符串，比如“2016年1月”，其中的“2016”和“1”；“10000米”，其中的“10000”；其中的“1000”；其中的“15”。这些非标准文字字符，主要有阿拉伯数字、英文字符、各种符号组成。在语音合成过程中，对这些非标准文字字符组成的日期、电话、数值等需要进行特殊处理，其过程就是文本正则化。

以汉语的正则化为例。为了区分数字的发音规则，首先，设定数字的发音类型，当为电话类型时，即“101”读“幺零幺”时，则认为数字类型为P；当为字符串类型时，即“145”读“一四五”时，则认为数字类型为S；当为数字类型时，即“165”读“一百六十五”时，则认为数字类型为N。用这种形式表示时间“2016年1月1日“时，则记作“S年S月S日“；表示“100万“时，则记作“N万“；表示“2016/1/1”，则记作“S/S/S”；表示“010-25124585”时，则记作“P-P”。通过动态构建形式表达式，从而完成了数字的正则化。考虑到特殊符号的发音，为了将符号发音进行表达，提出一种语音表达式，就是直接将特殊符号的发音进行描述。比如“12.25％”，用以上形式表达式为“N.N％”，其语音表达为“百分之N.N”。通过动态构建语音表达式，从而完成了特殊符号的正则化。

汉语的语音合成是基于大规模语料库的语音合成方法。基于大规模语料库波形拼接语音合成技术的优点是最大限度的保留了原始语音的语言学特征，对于未登录词汇，采用音节为基本拼接单元。通过选取语料库中尽量长词汇、短语进行合成，减少合成语句中的拼接点。这样做，有两个好处：首先，有相当多的韵律词、韵律短语使用了语料库中的原始语音数据，保持了很好的原始自然度，同时尽量减少拼接点，保证了合成语音的整体自然度；其次，就是能够很好的应对未登录词汇的语音合成。

进一步地，在上述方案中，所述得逞构建维吾尔语音节语料库，在语音合成时，可以屏蔽音节内部的发音规则，使音节内部的语音更自然，通过收录长音节，可以在一定程度上避免音节直接的联音现象，增加音节与音节之间的语音自然度；维吾尔语语料库包含约6000维吾尔语音节，除了2000多个常用音节外，其余为收录的长音节；语料库原始语音大小约为0.72G；

进一步地，在上述方案中，所述的构建汉语词汇、单字语料库是通过收集来自互联网词库和关联分析词库，输入法词库，以及网络上流行的综合词汇库，并将所有的词库进行去重汇总，获得不重复的词汇词典；获得5万多词汇，其中主要包含汉语词汇，其次包含适量的长短语，以及7000多单字；语音数据与词典中的词汇一一对应，语音文件采用女生发声，采样率为8000Hz，量化位数为16，以wav语音格式进行存储，共获得1.2G；

进一步地，在上述方案中，所述语料库构建模块针对语料库中的语音文件存在的语音边界问题，进行了语音端点检测，用通用的语音端点检测技术，对语音端点进行标记。

进一步地，在上述方案中，所述语料库构建模块对已构建的语音库进行分析，发现语音中存在相当大量的非语音数据，然后对语音数据进行了融合梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients)和kNN分类算法语音端点检测。

进一步地，在上述方案中，所述的波形拼接合成模块在拼接过程中，采用平滑处理算法，将各个音节、词汇音频波形振幅处理成淡入淡出，防止拼接点有不平衡所产生的喀喇声；然后通过采用韵律模型、时长控制等策略，对合成语音进行优化。

所述韵律模型：主要通过筛选不同的音节组合来进行实现比较自然的语音，尽量保证音节的整体性，在一个词汇中，首先要查找对应的最大的音节组合，如果存在联音两音节的语音，则使用两音节语音，保证最大音节单元优先的原则，以此保证在语音中的自然韵律；

针对汉语语音合成的拼接点主要存在于字与字、字与词、词与字、词与词、词与短语、句子与句子；经分类主要有句子与句子之间的间隙，主要包含由逗号、句号等构成的半句和整句的间隙；词与词之间的间隙，其中包含词与词、词与短语、词与字组成的词之间的间隙；字与字之间的间隙；其中，字之间的间隙小于词之间的间隙，词之间的间隙小于句子之间的间隙。通过拼接过程中，不断调整获得各种拼接之间的间隙。

所述的维、汉双语GSM短信息语音转换播发系统，其工作方法为：当SIM900A接收到一个新的短信后，会通过UART向STM32控制器发送一帧AT指令，提示有新的短信被接收；此时STM32控制器向SIM900A发送短信读取指令，读取未读短信，并提取短信接收时间、短信发出方的手机号码以及短信内容等信息，同时会读取SD卡的配置文件对比短信发送方的手机号码是否是授权号码，否则重新回到等待新短信的状态；之后，控制器通过AT指令操作SIM900A向短信的发送方回拨电话，并提示输入密码；发送短信方接听电话后根据语音提示输入短息推送密码，STM32控制器根据SIM900A的DTMF解析字符判断密码是否正确。如果密码验证通过，STM32控制器会将之前收到的短信通过RS232通信接口，并按照特定的帧格式发送到PC端，并将短信内容转换成语音进行广播。

本发明的有益效果是：本发明通过短信接收、文本预处理、语料库构建、波形拼接功能的实现，实现了维、汉短信语音转换。并保证仅对授权的手机号码的短信内容进行识别，自动回拨机制及DTMF密码验证机制确保了短信内容的发送方的合法性。本发明安全稳定、集成度高，可将应急短信通过安全验证机制配合PC转换成语音并广播到指定区域，在提高灵活度的同时大大降低应急广播的铺设成本。

附图说明

图1是短信数据接收流程图；

图2是推送验证流程图；

图3是正向最大匹配算法流程图；

图4是语音端点检测原理图；

图5是硬件系统功能框图；

图6是本发明转换播发系统的壳体结构示意图。

其中，1-底板，2-PCB保护板，3-无接口短边侧板，4-铜支柱一，5-PCB板，6-长侧板一，7-显示屏，8-铜支柱二，9-屏幕保护板，10-信号发射板，11-RS 232接头，12-面板，13-有接口短边侧板，14-RS232接头锁板，15-长侧板二，16-SD存储卡。

具体实施方式

下面结合附图对本发明进行更进一步详细的说明：

一种维、汉双语GSM短信息语音转换播发系统，分为软件系统和硬件系统两个组成部分；

软件系统功能分为短信接收模块、文本预处理模块、语料库构建模块、波形拼接合成模块四部分。短信接收模块：负责短信接收(接收流程图，如图1所示)，实时获取最新的短信文本；当接收到短信时，进行回拨，通过MT8870芯片对键盘输入进行DTMF解码，获取输入密码，并进行验证(验证过程的流程图，如图2)，然后通过终端控制来进行推送信息的实时处理工作；实现了基于移动短信推送的信息接收功能。短信接收是一个开发式系统，且没有对短信来源进行指定。由于在项目应用的实际环境中，不可避免的会接收到一些非推送请求的短信。为了在短信接收终端进行推送请求的认证，故加入验证处理。通过回拨电话，然后待用户输入密码，进行密码验证。该验证过程中，主要难点就是回拨电话时，获取客户通过拨号键盘输入的密码。文本预处理模块：首先进行语种识别，区分汉语与维吾尔语文本，然后基于汉语、维吾尔语的正规化规则，分别对汉语、维吾尔语进行文本正则化，对汉语根据已有词典库进行分词，对维吾尔语根据已有的音节库进行切分，获得文本的发音单元。语料库构建模块：构建汉语词汇、单字语料库；构建维吾尔语音节语料库。波形拼接合成模块：针对汉语，选择词汇对应的音频文件进行拼接，针对维吾尔语，选择音节对应的音频文件进行拼接。

预处理模块使用语种字符在Unicode中的具体位置识别语种，区分汉语与维吾尔语信息，通过工程和技术的角度，基于规则对汉语、维吾尔语文件进行正则化处理；对汉语根据已有词典库采用正向最大匹配算法(图3)进行分词，对维吾尔语根据已有的音节库同样采用正向最大匹配算法(图3)进行切分；语种识别包含语音语种识别，即根据语音文件来区别语种；文本语种识别，即根据文本文件来区别语种。

构建维吾尔语音节语料库过程中，在语音合成时，可以屏蔽音节内部的发音规则，使音节内部的语音更自然，通过收录长音节，可以在一定程度上避免音节直接的联音现象，增加音节与音节之间的语音自然度；维吾尔语语料库包含约6000维吾尔语音节，除了2000多个常用音节外，其余为收录的长音节；语料库原始语音大小约为0.72G。构建汉语词汇、单字语料库是通过收集来自互联网词库和关联分析词库，输入法词库，以及网络上流行的综合词汇库，并将所有的词库进行去重汇总，获得不重复的词汇词典；获得5万多词汇，其中主要包含汉语词汇，其次包含适量的长短语，以及7000多单字；语音数据与词典中的词汇一一对应，语音文件采用女生发声，采样率为8000Hz，量化位数为16，以wav语音格式进行存储，共获得1.2G；

语料库构建模块针对语料库中的语音文件存在的语音边界问题，进行了语音端点检测，用通用的语音端点检测技术，对语音端点进行标记。对已构建的语音库进行分析，发现语音中存在相当大量的非语音数据，然后对语音数据进行了融合梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients)和kNN分类算法语音端点检测(检测原理如图4所示)。

波形拼接合成模块在拼接过程中，采用平滑处理算法，将各个音节、词汇音频波形振幅处理成淡入淡出，防止拼接点有不平衡所产生的喀喇声；然后通过采用韵律模型、时长控制等策略，对合成语音进行优化。

韵律模型主要是通过筛选不同的音节组合来进行实现比较自然的语音，尽量保证音节的整体性，在一个词汇中，首先要查找对应的最大的音节组合，如果存在联音两音节的语音，则使用两音节语音，保证最大音节单元优先的原则，以此保证在语音中的自然韵律；

表1：间隔设置

硬件系统(系统功能框图，如图5)使用cortex M3内核的ARM处理器作为控制单元、使用SIM900A GSM模块作为短信接收及语音传输单元、采用VS1003音频解码芯片对MP3音频文件进行解码、采用SDIO驱动SD卡并建立FAT32文件系统存储配置文件及音频文件、使用400X240TFT3寸彩色液晶显示屏显示系统每个运行状态、使用MX3232作为RS232接口电路的驱动芯片实现系统与PC的通信连接、采用RTC时钟电路为系统提供精确实时时钟、采用AMS1117线性稳压器将电源适配器的电压降至ARM处理器及其他芯片的工作电压、嵌入式短信播报系统能够接收指定手机的短信并能主动向授权手机号码回拨电话，通过双音多频DTMF(Dual Tone Multi Frequency)识别授权手机密码，当验证通过后会将需要播报的短信发送到PC进行语音合成并广播。SIM900A模块是尺寸紧凑的GSM/GPRS无线通信模块，采用SMT封装易于客户进行灵活设计，性能强大。

该转换播发系统的壳体结构示意图，如图6所示，包括底板1、PCB保护板2、无接口短边侧板3、铜支柱一4、PCB板5、长侧板一6、显示屏7、铜支柱二8、屏幕保护板9、信号发射板10、RS 232接头11、面板12、有接口短边侧板13、RS232接头锁板14、长侧板二15、SD存储卡16。底板1、面板12、无接口短边侧板3、有接口短边侧板13、以及长侧板一6、长侧板二15作为六个面围城一个长方体，PCB保护板2、PCB板5、显示屏7、信号发射板10、RS232接头11、SD存储卡16均设在长方体内；PCB保护板2安装在底板1内侧，所述信号发射板10设在PCB保护板2的表面上，所述PCB板5通过铜支柱一4安装在信号发射板10上，显示屏7安装在PCB板5上，铜支柱二8共有4个，分别位于信号发射板10的四角，一端固定在发射板10，另一端顶在面板12上；接头锁板14设在有接口短边侧板13上，屏幕保护板9开设在面板12上，RS232接头11一端在PCB板5的一侧，另一端在有接口短边侧板13上，SD存储卡16设在信号发射板10上。

维、汉双语GSM短信息语音转换播发系统的工作方法为：当SIM900A接收到一个新的短信后，会通过UART向STM32控制器发送一帧AT指令，提示有新的短信被接收；此时STM32控制器向SIM900A发送短信读取指令，读取未读短信，并提取短信接收时间、短信发出方的手机号码以及短信内容等信息，同时会读取SD卡的配置文件对比短信发送方的手机号码是否是授权号码，否则重新回到等待新短信的状态；之后，控制器通过AT指令操作SIM900A向短信的发送方回拨电话，并提示输入密码；发送短信方接听电话后根据语音提示输入短息推送密码，STM32控制器根据SIM900A的DTMF解析字符判断密码是否正确。如果密码验证通过，STM32控制器会将之前收到的短信通过RS232通信接口，并按照特定的帧格式发送到PC端，并将短信内容转换成语音进行广播。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白涛;王磊;寇晓斌;杨抒;吴乃宁;吴艳;程鲁玉;
技术所有人：新疆农业大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。