基于汉语模糊发音和语音识别的中文文本校验系统及方法

文档序号:9547177阅读:1401来源:国知局
基于汉语模糊发音和语音识别的中文文本校验系统及方法
【技术领域】
[0001] 本发明涉及一种基于汉语模糊发音和语音识别的中文文本校验系统及方法,属于 智能语音识别技术领域。
【背景技术】
[0002] 语音识别技术作为智能识别领域的重要研究领域,已经有60多年的发展历史。语 音识别是将声音识别成文字的过程,中文语音识别是根据说话人的发音将语音转换成中文 文字。但是由于个人发音差异,不规范的中文拼音发音会造成语音识别的正确率大大降低, 如果能够智能的对语音识别后的中文文本进行分析,查找出错词并进行纠正,必将极大地 提高语音识别精确程度。
[0003] 近今年,国内外不断涌现出对语音识别后文本的解决方法。东北大学李晶皎等人 通过总结语音识别汉字序列错误的种类,写出词法、句法和语义规则,利用"词汇语义驱动" 找出汉字序列中的错误并校正;北京邮电大学的龙丽霞提出了一种基于实例语境的语音识 别后文本纠错方法,综合语法、语义、语境等多种信息对语音识别后的文本进行纠错;中科 院的韦向风等人提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法,在纠正 语义搭配错误方面有比较好的表现。但上述研究都没有针对语音识别后文本的汉语发音规 则给出定量的中文文本校验方法。

【发明内容】

[0004] 发明目的:针对现有中文语音识别后文本校验技术的不足,本发明提出一种基于 汉语模糊发音和语音识别的中文文本校验系统及方法,将汉语语法规则和拼音模糊发音规 则引入文本校验中,显著提高了语音识别后的中文文本校验的正确率。
[0005] 本发明的思路是:采用音频编码技术对录制语音进行压缩以减少网络传输耗时, 并通过语音降噪技术对语音进行降噪以提高语音识别率,利用讯飞语音识别器进行多语言 的语音识别,通过总结汉语语法规则找出错词,并根据汉语模糊发音规则给出纠错候选集, 调用邮件发送和QQ接口实现文本跨平台分享,有效降低经语音识别后的中文文本的错误 率。
[0006] 技术方案:一种基于汉语模糊发音和语音识别的中文文本校验系统,包括如下模 块:
[0007] 语音采集与处理模块,用于获取手机麦克风采集的音频,并对音频进行降噪处理 和压缩上传;
[0008] 语音识别模块,用于解压缩音频并将长时段音频识别成文本;
[0009] 文本校验与分享模块,用于对音频识别结果进行中文错误校验,并支持文本编辑 与文本分享功能;
[0010] 所述语音采集与处理模块,包含音频采集单元、音频编码处理单元和语音降噪单 元;其中音频采集单元利用手机麦克风采集音频;音频编码处理单元将音频在上传到语音 识别服务器前进行编码压缩;语音降噪单元采用speex语音降噪技术对音频进行降噪处 理,以提高语音识别的精确度;
[0011] 所述语音识别模块,包括音频解码单元、内存分片单元和讯飞语音识别单元;其中 音频解码单元,用于对编码压缩后的音频进行解压缩处理;内存分片单元用于将长时段音 频在系统服务器中切分成短时段语音片段;讯飞语音识别单元采用讯飞接口将音频识别成 对应的文本;
[0012] 所述文本校验与分享模块,包括文本校验单元、文本编辑单元和文本分享单元;其 中文本校验单元,用于纠正识别结果中错误的内容,并给出候选纠错集合;文本编辑单元, 用于对语音识别结果进行修改编辑;所述文本分享单元,通过邮件和QQ将编辑与校验后的 文本分享给其他人。
[0013] -种基于汉语模糊发音和语音识别的中文文本校验方法,包含如下步骤:
[0014] S-ι :采用讯飞分词器对语音识别后的中文文本进行分词,并将分词结果按原先在 文本中的顺序加入待校验集;
[0015] S-2:根据中文判错规则判断待校验集中的词语是否为错词,若是,将错词加入错 词集,具体包含如下步骤:
[0016] 步骤S-2-1 :获取当前待校检集合中的词语和词性信息;
[0017] 步骤S-2-2 :对照判错规则表中的判错规则,判断该词的词性与判错规则的第一 部分词性是否想匹配,若匹配,则转向步骤S-2-1,否则,转向步骤S-2-3,本系统总结出得 中文判错规则有如下5种:动词+动词、名词+副词、副词+数词、副词+量词、副词+代词;
[0018] 步骤S-2-3 :根据判错规则判断错词的词性和邻接词的词性组合是否符合判错规 贝1J,若符合,将该词加入错词集合;否则,转向步骤S-2-1 ;
[0019] S-3 :查找汉语字典表,获取错词的发音拼音;
[0020] S-4 :将错词的拼音按字拆分,并拆分每个字拼音的声母和韵母部分,具体包含如 下步骤:
[0021] 步骤S-4-1 :将错词按照每个汉字拆分成对应的单字拼音,并临时存储;
[0022] 步骤S-4-2 :判断拼音是否由声母和韵母组成,若是,转向S-4-3,否则,直接转向 步骤S-4-4 ;
[0023] 步骤S-4-3 :将该拼音按照声母和韵母进行划分;
[0024] 步骤S-4-4 :查询模糊发音表,判断声母或韵母是否符合模糊发音规则,若是,转 向步骤S-4-5,否则,转向步骤S-4-6 ;
[0025] 步骤S-4-5 :获取模糊发音匹配结果并与原声母重新组合成新的单字拼音;
[0026] 步骤S-4-6 :对错词的所有模糊单字拼音按照笛卡尔乘积方式进行重新组合,获 得该错词的所有模糊发音拼音。
[0027] S-5:结合汉语的声母和韵母发音特点,获得易错韵母的模糊发音,构建模糊发音 表,将错词每个字的模糊拼音做笛卡尔积,得到错词对应的所有模糊发音拼音,易混淆的韵 母发音规则如下:
[0028] 表1韵母模糊发音规则 [0029]
[0030] S-6 :根据错词的模糊发音拼音查询汉语词典表,获得所有模糊拼音对应的词语候 选集合;
[0031] S-7:对所有候选集中词语按词频进行排序,根据排序结果选取纠错候选集。
[0032] 本发明采用上述技术方案,具有以下有益效果:采用编解码技术对音频进行压缩, 减少音频在网络的传输耗时;通过语音降噪处理提高语音的识别精确度;采用讯飞语音识 别引擎提供多种语音的语音识别;基于汉语语法规则的判错方法能够迅速定位错词;结合 汉语拼音的模糊发音特性,能够有效提高语音识别后的中文文本校验正确率。
【附图说明】
[0033] 图1为本发明实施例的基于汉语模糊发音和语音识别的中文文本校验系统功能 丰吴块图;
[0034] 图2为本发明实施例的基于汉语模糊发音和语音识别的中文文本校验方法流程 图;
[0035] 图3为本发明实施例的模糊发音错词纠错算法流程图。
【具体实施方式】
[0036] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。
[0037] 如图1所示,基于汉语模糊发音和语音识别的中文文本校验系统由语音采集与处 理模块、语音识别模块和文本校验与分享模块组成。
[0038] 语音采集与处理模块,包括音频采集单元、音频编码处理单元和语音降噪单元。音 频采集单元通过调用手机的麦克风采集用户的录音内容,音频采样频率越大,采样点之间 的间隔就越小,数据量就越大,而对于人的说话8000Hz已经足够,因此,系统采用8000Hz的 频率进行音频采样;音频采集完成后通过音频编码处理单元进行音频编码压缩。经测试,压 缩前录制一分钟语音所产生的文件大小为1M,压缩后音频大小为60KB,通过压缩处理极大 地缩短了语音传输耗时。
[0039] 为了提高语音识别的准确率,在语音识别采用第三方开放平台的前提下,系统经 语音降噪单元采用音频降噪处理,语音降噪单元采用speex语音降噪技术对音频进行降噪 处理。在对speex编解码技术进行调研时发现,speex提供音频降噪接口,因此系统的语音 降噪采用speex的开源方法。对一篇2000多字的文本进行测试发现,采用语音降噪和未采 用语音降噪的识别准确率分别是:96. 3%和98. 6%,也就验证了 speex的语音降噪方法能 够提高语音识别的准确率。
[0040] 语音识别模块,包括音频解码单元、内存分片单元和语音识别单元。语音识别单元 采用讯飞语音提供的识别方法,经测试发现讯飞语音识别提供的语音识别方法仅支持短时 连续语音识别,对于长时段的语音连续识别并不支持,为了解决长时段的语音识别问题引 入内存分片方法。内存分片单元在语音识别之前,首先在系统服务器内存中对音频进行切 片处理,每15秒切成一片,分片将语音上传至讯飞语音识别服务器进行识别。
[0041] 文本校验与分享模块,包括文本校验单元、文本编辑单元和文本分享单元。该模块 的功能是对校验后的文本进行修改并分享给他人。其中文本校验单元,用于纠正识别结果 中错误的内容,并给出候选纠错集合;文本编辑单元,用于对语音识别结果进行修改编辑, 用户能够对文本进行基本的添加、删除、复制、剪切和粘贴等操作,编辑完成后用户选择保 存或者放弃保存。
[0042] 文本分享单元目前支持邮件发送和QQ好友分享两种途径。通过QQ链接进行分享, 链接的地址是利用文本在后台形成的一张网页,该网页在系统服务器中生成并保存好友点 击链接可打开该网页查看文本内容。表2是对两篇30分钟左右的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1