一种纸质文本音频化与播放系统的制作方法

文档序号：13210910阅读：579来源：国知局

本发明涉及纸质文本音频化系统，特别是涉及一种纸质文本音频化与播放系统。

背景技术：

随着互联网技术与应用的迅猛发展，人们日常生活节凑加快，人们生活逐渐进入一种“时间碎片化”状态；互联网技术已经深刻影响到了出版行业形态，以电子化代替纸质化的出版形态越来越成熟。在上述两种形态影响下，一方面人们可以充分利用碎片化时间进行电子阅读。

利用现有智能设备和便携式电脑，比如智能phone/pad等，人们可以在机场、码头等空暇时间随时进行阅读；更加便利的是采用tts技术，人们可以以语音方式听取“电子文本”内容。

现有的阅读模式不足之处在于，电子化阅读在特定环境下，比如长距离驾驶下等场景无法进行；长时间进行电子阅读，对人体眼睛也有一定的刺激反应。更重要是现有电子阅读方法无法解决现存纸质文本资料碎片化时间阅读问题。

基于以上所述现有电子阅读模式缺陷，提出解决现存纸质文本资料电子化阅读这一现实问题有效解决方案。

技术实现要素：

本发明目的在于提供一种纸质文本音频化系统，并以语音形式播放纸质文本内容的系统，解决了现有电子阅读设备不能方便的进行纸质文本资料阅读的问题。

为实现上述技术思路，本发明提供了一种纸质文本音频化与播放系统，系统装置能方便将纸质文本转化为图片形式，藉由图片文字识别技术获取文本文字内容，再通过语音合成技术，将获得电子文本内容转化为语音信号；以语音形式直接播放纸质文本文字内容，方便人们随时阅读。

本发明提供的一种纸质文本音频化与播放系统，所述系统包括：客户端软件模块、云端存储与处理软件模块和wifi音频输出设备，所述客户端软件模块分别与所述云端存储与处理软件模块和所述wifi音频输出设备双向数据传输连接。

所述客户端软件模块包括摄像控制模块、数据传输与控制模块、音频管理模块和音频数据处理模块，所述摄像控制模块向所述数据传输与控制模块单向数据传输连接，所述数据传输与控制模块与所述音频数据处理模块双向数据传输连接，所述音频数据处理模块与所述音频管理模块双向数据传输连接。

所述云端存储与处理软件模块包括光学字符识别模块、多媒体数据存储控制模块和语音合成处理模块，所述光学字符识别模块向所述多媒体数据存储控制模块单向数据传输连接，所述多媒体数据存储控制模块与所述语音合成处理模块双向数据传输连接。

所述wifi音频输出设备包括wifi信号模块、音频控制与处理模块，所述wifi信号模块与所述音频控制与处理模块双向数据传输连接。

进一步地，所述摄像控制模块可调用智能设备摄像硬件资源直接拍摄纸质资料文档，以jpg或者bmp图片格式存储在所述客户端软件模块本地；所述数据传输与控制模块用于控制将所述客户端软件模块获取图片数据传输至所述云端存储与处理软件模块。

进一步地，所述光学字符识别模块用于对传输到云端图像数据进行文字模式识别，获取图像文字内容；所述多媒体数据存储控制模块将对应识别文字内容进行存储处理，文本内容保存在内容数据库中；所述语音合成处理模块根据文字内容合成对应的语音信号，经所述多媒体数据存储控制模块进行语音信号的压缩处理，存入内容数据库。

进一步地，所述多媒体数据存储控制模块将处理得到语音信号通过网络信号返回到所述客户端软件模块。

进一步地，所述音频数据处理模块能将获得压缩语音数据进行解压处理；所述wifi信号模块能将解压后的语音数据直接在所述客户端软件模块所在智能硬件设备进行播放，也可控制将解压后的音频数据传输送到所述数据传输与控制模块进行处理。

进一步地，所述wifi信号模块能接收客户端软件所传输的音频数据信号；并且通过所述音频控制与处理模块控制直接以音频信号形式播放。

基于ocr(光学字符识别)技术和tts(语音合成)技术的纸质文本音频化与播放系统包括：客户端软件模块、云端存储与处理软件模块、wifi音频输出设备。

客户端软件模块首先获取纸质文本资料内容，通过摄像控制模块调用客户端软件所在智能硬件设备如phone/pad上硬件摄像头资源进行拍照，以图像形式获得文本内容；图片格式主要采用常见的jpg、bmp格式。所获取图像内容首先存放在客户端软件进行本地存储。

数据传输与控制模块用于控制与预处理客户端软件获取图像数据，一方面用于控制客户端软件存储图像数据容量，一方面及时将图像数据加上序号信息，再传输至云端存储与处理软进行处理。

云端存储与处理软件模块收到客户端上传的序列化图像数据后，通过光学字符识别(ocr)模块进行图像文字内容模式识别，以从图像数据获得文本内容；光学字符识别(ocr)模块同时对获得文本内容加以序号信息，以标识图像数据，保持有效同步。

标识后的文本内容通过多媒体数据存储控制模块，将对应识别文字内容进行存储处理，文本内容保存在内容数据库中。

语音合成(tts)处理模块根据格式化后的电子文字内容合成对应的语音信号(texttospeech)，经多媒体数据存储控制模块，进行语音信号压缩处理，压缩后语音信号存入内容数据库。

云端存储与处理软件模块包含多媒体数据存储控制模块将处理得到语音信号传输到客户端软件模块。

客户端软件模块包含音频数据处理模块，能将获得压缩语音数据进行解压处理；音频管理模块将解压后的语音数据直接在客户端软件所在智能硬件设备进行播放，用户可以直接通过听取到纸质文本内容。

音频管理模块也可控制解压后的音频数据通过wifi信号进行推送，音频数据首先在客户端软件经由数据传输与控制模块进行处理。客户端软件所在智能设备保持和wifi音频输出设备如wifi音箱/耳机等信号链路，音频数据经wifi信号链路传送到wifi音频输出设备。

wifi音频输出设备包含wifi信号模块能接收客户端软件所传输的音频数据；wifi音频输出设备解析标准wifi信号为音频数据流。

音频数据流数据通过音频控制与处理模块控制，直接以声音形式播放。

综上所述，本发明，为解决现有电子阅读工具和系统不能方便阅读纸质文本内容的问题，通过采用客户端软件、云端存储与处理软件、wifi音频输出设备构建起一种纸质文本音频化与播放系统：通过客户端软件以图像形式获取纸质文本，上传至云端存储与处理软件后，通过光学字符识别和文本语音合成技术实现纸质文本内容的音频化，进一步通过客户端软件控制将音频内容以声音形式输出，方便人们以声音的方式获取文本内容，解决了纸质文本无法电子化阅读的问题。

附图说明

图1为本发明功能结构图。

具体实施方式

下面将结合本发明实施例中的附图1，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述实施例仅仅是本发明的一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种纸质文本音频化与播放系统，包括：客户端软件模块s10、云端存储与处理软件模块s20和wifi音频输出设备s30，客户端软件模块s10分别与云端存储与处理软件模块s20和wifi音频输出设备s30双向数据传输连接。

客户端软件模块s10包括摄像控制模块s11、数据传输与控制模块s12、音频管理模块s13和音频数据处理模块s14，摄像控制模块s11向数据传输与控制模块s12单向数据传输连接，数据传输与控制模块s12与音频数据处理模块s14双向数据传输连接，音频数据处理模块s14与音频管理模块s13双向数据传输连接。

云端存储与处理软件模块s20包括光学字符识别模块s21、多媒体数据存储控制模块s22和语音合成处理模块s23，光学字符识别模块s21向多媒体数据存储控制模块s22单向数据传输连接，多媒体数据存储控制模块s22与语音合成处理模块s23双向数据传输连接。

wifi音频输出设备s30包括wifi信号模块s31、音频控制与处理模块s32，wifi信号模块s31与音频控制与处理模块s32双向数据传输连接。

优选地，摄像控制模块s11可调用智能设备摄像硬件资源直接拍摄纸质资料文档，以jpg或者bmp图片格式存储在客户端软件模块s10本地。

数据传输与控制模块s12用于控制将客户端软件模块s10获取图片数据传输至云端存储与处理软件模块s20。

优选地，光学字符识别模块s21用于对传输到云端图像数据进行文字模式识别，获取图像文字内容。

多媒体数据存储控制模块s22将对应识别文字内容进行存储处理，文本内容保存在内容数据库中。

语音合成处理模块s23根据文字内容合成对应的语音信号，经多媒体数据存储控制模块s22进行语音信号的压缩处理，存入内容数据库。

优选地，多媒体数据存储控制模块s22将处理得到语音信号通过网络信号返回到客户端软件模块s10。

优选地，音频数据处理模块s14能将获得压缩语音数据进行解压处理；wifi信号模块s31能将解压后的语音数据直接在客户端软件模块s10所在智能硬件设备进行播放，也可控制将解压后的音频数据传输送到所述数据传输与控制模块s12进行处理。

优选地，wifi信号模块s31能接收客户端软件所传输的音频数据信号；并且通过音频控制与处理模块s32控制直接以音频信号形式播放。

本发明包括客户端软件模块s10、云端存储与处理软件模块s20、wifi音频输出设备s30。其应用流程为：

客户端软件模块s10通过控制智能设备的摄像组件，如智能手机的摄像头获得文本的图像，纸质文本内容转换为图像数据；客户端软件模块s10控制图像数据在智能设备的存储，如存放在智能手机的sd卡之中，并进行图像数据的序列化工作，以时间顺序标识图像数据的序列排列。

客户端软件模块s10将序列化后的图像数据通过wifi/3g/4g网络传送到云端存储与处理软件模块s20；其包含的光学字符识别模块s21首先对图像中包含的文字内容进行模式识别，获得对应的文字形式内容，文字内容也通过时间顺序对应的进行序列化，以便于保持和图像内容的同步一致；语音合成(tts)处理模块s22对序列化后的电子文本内容进行语音合成处理，获得对应的音频内容，并进一步的进行语音数据压缩，存放到云端数据库中。

压缩后的语音数据传回至客户端软件模块s10，音频数据处理模块s14，能将获得压缩语音数据进行解压处理；音频管理模块s13能将解压后的语音数据直接在客户端软件所在智能硬件设备进行播放；也可控制将解压后的音频数据传输到数据传输与控制模块s12进行处理。

数据传输与控制模块s12调用客户端软件的wifi组件，推送音乐媒体流到wifi音频输出设备s30，首先wifi信号模块s31进行wifi协议解析，主要对wifi数据包解析处理；获得的音频数据通过音频控制与处理模块s32对外输出声音信号。

以上所述实施例仅表达了本发明的一种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周丽娟
技术所有人：南京荣膺软件科技有限公司
我是此专利的发明人

上一篇：一种物联网交换机散热装置的制作方法
上一篇：一种带有把手功能的服务器耳朵旋盖的制作方法