便携式文字识别发声阅读器及读取文字的方法

文档序号：2585671阅读：247来源：国知局

专利名称：便携式文字识别发声阅读器及读取文字的方法
技术领域：
本发明涉及一种文字阅读器及读取文字的方法，尤其涉及一种便于视障人士使用的识别平面媒体所载信息的文字阅读器及其读取文字的方法。
背景技术：
阅读报纸、杂志、书刊、发票、电脑小票等平面媒介所载有的文字信息是人们获取信息和学习文化技能的最好的方式，同时随着科技的进步，电脑、电子书等带有屏幕的电子设备成了人们获取信息的另外一个载体。然而对于盲人、严重眼部疾病造成的视力低下及高度近视等视力有障碍人士(简称视障人士)来说，看书、读报好似登天一样难，因此，专门针对视力障碍人士使用的阅读器产品也应运而生，如带有TTS文字语音输出功能的电子书设备或者带有扫描、识别和发音的室内盲人阅读机。这些已有的产品虽然给视障人士读书学习带来了福音，但仍存在一些不足前者仅可将已储存好的TXT格式文字转换为声音朗读，而不可将实时采集到的文字信息转换为声音朗读；后者是依靠信息采集设备与电脑的结合将实时采集到的文字信息扫描并朗读出来，其所用设备复杂，不宜移动。

发明内容
本发明要解决的技术问题是提供一种便携式文字识别发声阅读器及读取文字的方法，便于视障人士随时随地通过声音获知平面媒体所载的文字信息。为了解决上述技术问题，本发明的便携式文字识别发声阅读器，包括适于视障人士随身携带的其上设有一个以上按键的机壳和经视障人士操作并通过语音使其获取平面媒体信息的、设置于所述机壳内的控制电路。所述控制电路由控制模块、文字图像采集模块、OCR文字识别编辑模块、TTS文字转语音模块、存储模块及音频播放模块组成，其中1)控制模块，用于接受按键输入，并根据输入指令调用相应的功能模块进行处理，是各功能模块间的协调和安排中枢，驱动各功能模块按指令运行，同时该模块用于管理相关文件的操作和读写；2)文字图像采集模块，采用摄像或扫描部件对平面媒体的文字、图像信息进行采集，摄像感光芯片型号为0V9653、或其他品牌的CMOS或CXD感光芯片；3) OCR文字识别编辑模块，将得到的文字、图像信息进行识别并存储为TXT格式文件；4)TTS文字转语音模块，将得到的TXT文字转换为可供播放的音频文件；5)存储模块，板载的SDRAM，其型号为ffl~48LC16M16A2或norflash，其型号为 AM29LV160B)以及外接SD卡设备，SD卡选择SPI数据传输模式；6)音频播放模块，将音频文件转换成音频信号输出；7)电源模块，所用芯片为锂电池的充放电管理芯片，由SEMTECH公司生产，其型号为SC806I冲放电管理芯片。
所述的控制电路还包括智能文字拼接排版算法模块，该模块将多次采集的相互重叠的文字、图像信息拼接为正确连贯的文字、图像信息。在所述机壳上还设有阅读平面媒体信息所需的定位机构，该定位机构由纵向定位杆和横向定位绳组成。所述的控制模块为中央处理器，该模块的中央处理器使用亚德诺半导体公司生产的型号为ADI BF533芯片组。所述的OCR文字识别编辑模块，采用北京文通公司研发的OCR动态链接库。所述的TTS文字转语音模块，所采用的是捷通华声公司生产的型号为ejTTS6.0语音合成模块。所述文字图像采集模块，通过HDMI接口外接高清大视野摄像头设备或者扫描设备。本发明的便携式文字识别发声阅读器读取文字的方法，包括对平面媒体所载文字图像信息的采集，该方法是由视障人士独立操作并通过语音获知平面媒体所载文字信息的内容，其操作步骤如下第一步，打开书籍，将所述的便携式文字识别发声阅读器的定位机构的纵向定位杆设定为第一行，以其前端的凸缘紧贴所述书籍的上边沿，左手拉住横向定位绳的拉环紧贴所述书籍的左侧边，按UP或DOWN键选至“读书看报”使用功能后并按QUERY键，启动“读书看报”使用功能，右手握持所述的便携式文字识别发声阅读器，从左至右对打开的页面连续拍照第一列；第二步，当拍照至第一列尽头时，横向定位绳无法向外拉出，此时，将左手稍许放松使横向定位绳少许回抽，再继续向外拉出，右手握持所述的便携式文字识别发声阅读器继续从左至右拍照第二列；第三步，当拍照至所述书籍页面的最右边时，将所述纵向定位杆设定为第二行，继续以前述方法，从左至右对所述书籍的页面进行连续扫描，以此类推，换列换行，直到完成对打开的所述书籍的整个页面的拍照；第四步，按下query键，系统则通过OCR文字识别编辑模块、智能文字拼接排版算法模块、TTS文字转语音模块和音频播放模块，将采集到的所述书籍整个页面上的文字图像信息用声音播放出来。本发明将对平面媒体所载信息的采集、识别和发声的控制电路设置在体积小，便于人们携带的机壳内，又在机壳上设置了独特的定位机构，从而，使视障人士随时随地通过对本发明的操作，就可以获知平面媒体所记载的文字信息，本发明还分开了一种利用本发明为视障人士阅读书籍或报刊杂志的方法，通过该方法，视障人士能够很容易通过语音获知平面媒体所载的文字图像信息。

下面结合附图和具体实施方式
对本发明作进一步详细说明。图1为本发明的外形示意2为本发明采集信息定位示意图。图3为本发明功能流程图。
5
图4为本发明结构框图。图5为本发明控制电路功能模块连接图。
具体实施例方式实施例1如图1所示，本发明的便携式文字识别发声阅读器，包括长方体的机壳1，机壳 1的形状也可以是圆形体或椭圆体，由金属或PVC材料所制，其体积小，长X宽X高为 100mmX 50mmX40mm，方便视障人士随身携带，在机壳1的壳体上设有与内置在机壳1里的控制电路电连接的八个输入指令的按键2、与充电器相接的充电接口 6以及用于耳机插接的耳机插孔7。八个输入指令的按键2分别为UP、DOWN、QUERY、EXIT、PHOTO、VOL+、VOL-和 HELP键，并且在这些按键2上，印有可供盲人识别的盲文或特定触点，在该机壳1内设有控制电路，当视障人士需要知道平面媒体所载的文字信息时，只需手持机壳1操作机壳1上相应的按键2，将机壳1置于该平面媒体上进行定位拍照，即可将该平面媒体上的文字信息内容，通过机壳1外置的耳机或扬声器5，告知该视障人士。如图3、4、5所示，所述控制电路由控制模块、文字图像采集模块、OCR(英文全称 Optical Character Recognition，中文名称光学字符识别技术)文字识别编辑模块、 TTS (英文全称Text To Speech，中文名称；“从文本到语音”或语音合成技术)文字转语音模块、存储模块及音频播放模块组成，其中1)控制模块为中央处理器用以控制输入请求及调用相关功能模块，中央处理器使用亚德诺半导体 (AnalogDevices)公司生产的ADI BF533芯片组，也可以使用该公司同系列的处理器芯片组或者其它公司的生产的芯片，如ARM内核或TI公司的OMAP系列芯片组。2)文字图像采集模块采集平面媒体的文字、图像信息，其采用摄像部件或扫描部件，摄像感光芯片为 0V9653，还可以用其他品牌的CMOS或CCD感光芯片，镜头为1. 8mm广角镜头，扫描部件使用订制的手持式扫描仪，该模块与所述中央处理器的并行外设总线相接。该模块将所采集的待识别的带有文字的图像信息传输至存储模块储存，经中央处理器处理，调用OCR文字识别编辑模块对所述带有文字的图像进行识别，之后，经OCR文字识别编辑模块识别后，获得的TXT (—种文本文档)文字信息，储存至存储模块中。另外该模块还可以通过HDMI (英文全称High Definition Multimedia Interface，HDMI，中文名称高清晰度多媒体接口，是一种数字化视频/音频接口技术)接口外接高清大视野摄像头设备或者扫描设备。3) OCR文字识别编辑模块将得到的文字、图像信息进行识别并存储为TXT格式文件，该模块使用北京文通公司研发的TH_Embeded_0CR.a动态链接库，也可以使用其他公司的同类功能产品或模块，如汉王，文萃等公司的文字识别核心，该模块运行于所述的中央处理器中。4) TTS文字转语音模块将得到的TXT文字转换为可供播放的音频文件，TTS文字转换部分可以选择发音的类型，包括男声、女声发音，及中文、英文、粤语等不同语言发音。该模块采用捷通华声的 ejTTS6. 0语音合成模块，也可使用科大讯飞的MterPhonic系列或ViviVoice系列语音库及语音合成芯片，该模块运行于所述的中央处理器中。5)存储模块存储来自于中央处理器和其它模块传输的数据信息，板载的SDRAM( —种内存)，其型号为MT48LC16M16A2和norflash (—种内存)其型号AiC9LV160B以及外接SD (英文全称Secure Digital Memory Card,中文名称安全数码卡)卡设备，SD卡选择SPI数据传输模式，该模块与所述的中央处理器的外部总线接口相接。6)音频播放模块该模块与所述的中央处理器的同步串行接口相接，该模块将音频文件转换成音频信号通过外置的耳机或扬声器5输出声音。在本发明的机壳1上还设有USB接口 8，用于同外部电脑进行数据交换以及为本发明电源充电。所用芯片为SEMTECH公司的锂电池的充放电管理芯片，其型号为SC806I，也可采用其他公司生产的具有相同功能的充放电管理芯片，所用电池为3. 7V可充放电锂电池。如图1所示，本发明机壳1上所述的八个按键2，每个按键2表面均蚀刻了盲文标注，以方便视障人士操作，每个按键2的作用如下本发明开机后，先播放一段开机音乐及操作提示，然后进入使用功能选择主菜单，播报第一个使用功能的名称，在使用功能选择主菜单中通过点选UP和DOWN键来切换使用功能名称播报，然后点选QUERY确定键进入当前播报的使用功能。本发明主要内置使用功能依次为1)、读书看报；2)、系统功能设置；3)、其他应用程序。其中其他应用程序为可定制的其他使用功能。UP键，系统在主菜单状态时，按下该键将播报当前已播报使用功能的前一个使用功能的名称，例如，当前已播报的使用功能为“系统设置”，按UP键将播报“读书看报“，该功能为“系统设置”使用功能的前一个使用功能。DOWN键，系统在主菜单状态时，按下该键将播报当前已播报使用功能的后一个使用功能的名称，例如，当前已播报的使用功能为“读书看报”，按DOWN键将播报“系统设置”，该功能为“读书看报”使用功能的后一个使用功能。 QUERY键，为确认键，系统在主菜单状态时，通过UP或DOWN键选择播报待进入的使用功能，按下该键即进入当前播报的使用功能，例如，通过UP或DOWN键选定播报的“读书看报，，使用功能后，按下该键将启动“读书看报，，使用功能。在，，读书看报“这个使用功能下，图像采集模块处于激活状态，此时将本发明置于载有文字图像信息的书籍或报刊杂志上，按photo拍照键，进入文字图像信息采集阶段，此时，若按query确认键，系统则通过OCR文字识别编辑模块、TTS文字转语音模块和音频播放模块，将采集到的文字图像信息用声音播放出来。EXIT键，为退出键，从当前状态退回到前一个状态。例如在音频播放状态下，按 EXIT退出音频播放状态，准备下一次的文字图像信息的采集，再按一次EXIT键则返回至使用功能选择主菜单。ΡΗ0Τ0键，拍照键，用于启动对文字图像信息的采集。VOL+键，音量加，按一次该键音量加一。VOL-键，音量减，按一次该键音量减一。Help键，为帮助键，随时按此键，将会播放当前使用功能的说明和必要的操作步骤
7提示。本发明的便携式文字识别发声阅读器读取文字的方法如下如图1、2所示，在本发明的机壳1上设有定位机构，该定位机构由纵向定位杆3、横向定位绳4及置于机壳1内的张紧装置组成，纵向定位杆3设于机壳1前侧面底部，其为一个可拉出或推回的分三段等距离的伸缩杆(也可以为三段以上，其长度以能够覆盖所读平面媒体所载信息的纵向高度为准)，该纵向定位杆3由铝材或PVC塑料所制，其前端向下弯折90度成裙边或者在杆的前端的下表面设有凸缘31，该凸缘31主要用来挂住待阅读书籍或报刊杂志的边缘，并沿该边缘水平移动，纵向定位杆3被拉出至第一段距离简称第一行、至第二段距离简称第二行，依次类推，由前一段距离转至后一段距离，称换行，每次拉出一段距离会发出机械撞击咔嚓声音的提示，同时视障人士还可以用手通过触摸纵向定位杆3 伸出的节数，来判断已经拉出了几段距离；横向定位绳4设于机壳1的左侧面的底部，其为一个可以拉出或收回的细绳，绳子的前端设有方便拉出的拉环41，绳子是由尼龙、棉线或金属线所制，该绳可分三段等距离拉出(也可以为三段以上，其长度以能够覆盖所读平面媒体所载信息的横向距离为准)，当拉出第一段距离时，由于设于机壳1内张紧弹簧的作用，该绳不能再向外拉出，若想继续向外拉出第二段距离时，则要松开该绳使其稍许回抽，在所述弹簧的松动下，紧接着继续向外拉出就可再拉出第二段距离，第三段距离按前述方法拉出，横向定位绳4被拉出第一段距离称为第一列、第二段距离称为第二列，依次类推，由前一段距离转至后一段距离，称换列；使用完毕，则可松开绳环，该绳即可自动回抽至机壳1 内。当视障人士需要读书、看报时，右手握持所述机壳1并使所述纵向定位杆3前端的裙边或凸缘31卡在并紧贴所述书籍或报刊杂志的上边沿的侧面，左手拉住横向定位绳4 的拉环41紧贴所述书籍或报刊杂志左侧边，将设置于机壳1底面的摄像或扫描部件镜头朝下，紧贴将要阅读的书籍或报刊杂志，按下机壳1上文字图像信息采集功能对应的按键2，从左至右对文字图像信息进行采集，当所述横向定位绳4的第一段距离被拉到尽头时，此时，视障人士可以感知到，自己所持的机壳1是在所述书籍或报刊杂志的第几列位置，若想继续看下去，则按前述方法换列进入横向定位绳4的第二段距离，直到进入横向定位绳4的最后一段距离；之后，若要继续下去，则将所述的纵向定位杆3换行伸出至第二段距离，使纵向定位杆3前端的裙边或凸缘31仍旧卡在并紧贴所述书籍或报刊杂志的上边沿的侧面，以前述方法对所述书籍或报刊杂志从左至右对文字图像信息进行采集，依前述方法不断在换列、换行中进行，直到将所述的书籍或报刊杂志读完。在视障人士阅读的整个过程中，其能根据纵向定位杆3和横向定位绳4拉出后所处的行或列的数目，确定自己正在阅读所述书籍或报刊杂志页面上的哪个位置，并且在中断后若想继续阅读时，他能很快找到中断前所阅读到的位置。在前述从左至右的采集、换列、换行过程中，图像采集模块将所采集到的带有文字的图像信息传输至存储模块储存，经中央处理器处理，调用OCR文字识别编辑模块对所述带有文字的图像进行识别，之后，将经OCR文字识别编辑模块识别后，获得的TXT文字信息，储存至存储模块中。被存储的文字信息，既可以是单独扫描采集的文字信息，也可以是连续相重叠采集的文字信息，即所述视障人士在阅读采集所述信息时，既可以拍一次存储一次，也可以连续拍照，实时存储，当所采集的文字图像为小票一类尺寸小于等于摄像头视野的小范围文字时，一次拍照即可获取全部完整的信息，生成的文字信息若有多段，通过机壳1上UP或 DOWN键切换到所要播放的文字段落，经TTS文字语音转换模块生成可播放的音频文件。
实施例2
如图3所示，本发明的控制电路还包括智能文字拼接排版算法模块，该模块运行于所述的中央处理器中。当所采集的图像为大范围文字图像、摄像头不能一次完成对该图像的拍照时，该模块可以实现对所述图像的连续拍照并实时储存，待拍照完所有文字图像信息后，该模块将自动拼接所采集到的文字图像信息。
该模块将视障人士阅读时，连续拍照采集并实时储存的相互重叠的文字、图像信息拼接为正确连贯的文字、图像信息。
使用时，利用机壳1上所设的定位机构，在“读书看报”使用功能下，每定位一次，按一次拍照键，通过多次定位和按拍照键完成对整个页面内的文字信息图像的采集。
在对所述的书籍或报刊杂志所载文字图像信息进行连续采集后，经OCR文字识别编辑模块识别后分别存储，再根据每一行的文字重合部分及语义将多次采集后的文字连贯的拼接起来，从而完成文字信息语义的连贯性。
该智能文字拼接排版算法模块，还能够通过TTS文字转语音模块和音频播放模块实现实时语音朗读功能。
本实施例控制电路中的其它模块、机壳1设置和所具有的功能、使用方法与实施例1相同。
本发明根据所述的书籍或报刊杂志等平面媒体所载文字图像信息的所占面积的大小，分以下三种方式采集、识别、播放相关文字信息
1)读取名片，购物小票等小范围文字信息拍照采集图像后，经OCR文字识别编辑模块对所采集的带有文字的图像，由上到下直接排版，再经TTS文字转语音模块处理后，通过音频播放模块输出。
2)读取书籍或报刊杂志等大范围文字信息使用所述的定位机构，采集文字图像信息，再经OCR文字识别编辑模块、智能文字拼接排版算法模块，将连续采集的相互重叠的文字、图像信息拼接为正确连贯的文字、图像信息，经TTS文字转语音模块处理后，再通过音频播放模块输出。
3)利用控制电路上的HDMI接口，实现与外部高清大视野摄像头设备或者扫描设备的连接该方式可一次性完成对阅读书籍整页所载信息的图像采集。然后将采集到的带有文字的图像，经OCR文字识别编辑模块识别并排版后，再经TTS文字语音转换模块处理，通过音频模块输出音频。
权利要求
1.一种便携式文字识别发声阅读器，其特征在于包括适于视障人士随身携带的其上设有一个以上按键O)的机壳(1)和经视障人士操作并通过语音使其获取平面媒体信息的、设置于所述机壳(1)内的控制电路。
2.根据权利要求1所述的便携式文字识别发声阅读器，其特征在于所述控制电路由控制模块、文字图像采集模块、OCR文字识别编辑模块、TTS文字转语音模块、存储模块及音频播放模块组成，其中1)控制模块，用于接受按键(2)输入，并根据输入指令调用相应的功能模块进行处理，是各功能模块间的协调和安排中枢，驱动各功能模块按指令运行，同时该模块用于管理相关文件的操作和读写；2)文字图像采集模块，采用摄像或扫描部件对平面媒体的文字、图像信息进行采集，摄像感光芯片型号为0V9653、或其他品牌的CMOS或CXD感光芯片；3)OCR文字识别编辑模块，将得到的文字、图像信息进行识别并存储为TXT格式文件；4)TTS文字转语音模块，将得到的TXT文字转换为可供播放的音频文件；5)存储模块，板载的SDRAM，其型号为ffl~48LC16M16A2或norflash，其型号为 AM29LV160B)以及外接SD卡设备，SD卡选择SPI数据传输模式；6)音频播放模块，将音频文件转换成音频信号输出；7)电源模块，所用芯片为锂电池的充放电管理芯片，由SEMTECH公司生产，其型号为 SC806I冲放电管理芯片。
3.根据权利要求2所述的便携式文字识别发声阅读器，其特征在于所述的控制电路还包括智能文字拼接排版算法模块，该模块将多次采集的相互重叠的文字、图像信息拼接为正确连贯的文字、图像信息。
4.根据权利要求3所述的便携式文字识别发声阅读器，其特征在于在所述机壳(1) 上还设有阅读平面媒体信息所需的定位机构，该定位机构由纵向定位杆(3)和横向定位绳组成。
5.根据权利要求2-4所述的便携式文字识别发声阅读器，其特征在于所述的控制模块为中央处理器，该模块的中央处理器使用亚德诺半导体公司生产的型号为ADI BF533芯片组。
6.根据权利要求2-4中任一项所述的便携式文字识别发声阅读器，其特征在于所述的OCR文字识别编辑模块，采用北京文通公司研发的OCR动态链接库。
7.根据权利要求2-4中任一项所述的便携式文字识别发声阅读器，其特征在于所述的TTS文字转语音模块，所采用的是捷通华声公司生产的型号为ejTTS6. 0语音合成模块。
8.根据权利要求2-4中任一项所述的便携式文字识别发声阅读器，其特征在于所述文字图像采集模块，通过HDMI接口外接高清大视野摄像头设备或者扫描设备。
9.一种便携式文字识别发声阅读器读取文字的方法，包括对平面媒体所载文字图像信息的采集，其特征在于该方法是由视障人士独立操作并通过语音获知平面媒体所载文字信息的内容，其操作步骤如下第一步，打开书籍，将所述的便携式文字识别发声阅读器的定位机构的纵向定位杆(3) 设定为第一行，以其前端的凸缘(31)紧贴所述书籍的上边沿，左手拉住横向定位绳的拉环Gl)紧贴所述书籍的左侧边，按UP或DOWN键选至“读书看报”使用功能后并按QUERY键，启动“读书看报”使用功能，右手握持所述的便携式文字识别发声阅读器，从左至右对打开的页面连续拍照第一列；第二步，当拍照至第一列尽头时，横向定位绳(4)无法向外拉出，此时，将左手稍许放松使横向定位绳(4)少许回抽，再继续向外拉出，右手握持所述的便携式文字识别发声阅读器继续从左至右拍照第二列；第三步，当拍照至所述书籍页面的最右边时，将所述纵向定位杆C3)设定为第二行，继续以前述方法，从左至右对所述书籍的页面进行连续扫描，以此类推，换列换行，直到完成对打开的所述书籍的整个页面的拍照；第四步，按下query键，系统则通过OCR文字识别编辑模块、智能文字拼接排版算法模块、TTS文字转语音模块和音频播放模块，将采集到的所述书籍整个页面上的文字图像信息用声音播放出来。
全文摘要
本发明公开了一种便携式文字识别发声阅读器及读取文字的方法，该便携式文字识别发声阅读器，包括适于视障人士随身携带的其上设有一个以上按键的机壳和经视障人士操作并通过语音使其获取平面媒体信息的、设置于所述机壳内的控制电路。所述控制电路由控制模块、文字图像采集模块、OCR文字识别编辑模块、TTS文字转语音模块、存储模块及音频播放模块组成，本发明的便携式文字识别发声阅读器读取文字的方法，包括对平面媒体所载文字图像信息的采集，该方法是由视障人士独立操作并能够很容易通过语音使其获知平面媒体所载文字信息的内容。
文档编号G09B5/04GK102509479SQ20111029641
公开日2012年6月20日申请日期2011年10月8日优先权日2011年10月8日
发明者张书强, 沈沾俊申请人:张书强, 沈沾俊

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈沾俊;张书强
技术所有人：沈沾俊;张书强
我是此专利的发明人

上一篇：一种制造透光可视防伪标签专用的压印设备的制作方法
上一篇：复式小黑板的制作方法