个性化语音采集与语义确定系统及其方法

文档序号：6374493阅读：247来源：国知局

专利名称：个性化语音采集与语义确定系统及其方法
技术领域：
本发明涉及一种语音系统，具体为一种个性化语音采集与语义确定系统及其方法。
背景技术：
随着时代的发展，各地区各民族人与人之间的交流越来越频繁，随着软件系统的发展，人与机器的交流也越来越频繁。在不同民族、不同地区之间的人相互交流时，由于语种或方言的不同，每个人都有他自己的个性化语音、个性化语法、个性化词汇范畴，当他发出一个声音或说出一句话时，可能只有他自己能准确无误地明白所要表达的意义，他的亲人、朋友、熟人因习惯了他的个性化语音，能较好地明白其语意，然而，陌生人就可能不能准确无误地明白他的声音所要表达的意义，非同一地方语系、非同一国家语言者就更不能明白他的声音所表达的意思。近十多年来，国内外出现了多种语音转化为文本文字的软硬件。这些软硬件是针对某种语言、某种语系设计的软件和制造的硬件，通过建立本国家语言、本地方语系标准的语音数据库，对应能准确表达意义的文本文字，建立语音与文本文字的转化系统。但系统接收到的语音全部是个性化语音，当系统接收到个性化的语音时，系统对语音进行分析，提取参数，确定语意，转化成文本文字。这个难度是相当大的，难度之一数据库庞大，但依然不能囊括本国语言、本地语系的所有个性化语音；难度之二复杂的分析程序和过程，但依然不能准确无误地分析出发音者的语音所要表达的意思。为了解决这些问题，这类软硬件需要对使用者进行培训，就是说要说出标准的本国语言、本地语系的语音，或者对软硬件系统进行培训，就是说要让事先按本国本地标准语音设计好的软硬件系统来适应使用者的个性化语音，本末倒置，同样不能达到理想的效果。譬如IBM ViaVoice语音识别系统(语音输入语音控制)发明出来后，向全世界宣布这是一场解放双手的革命，然而十多年过去了，人们普遍还在用双手输入信息和操控硬件。微软的语音输入系统，读音要非常标准，电脑才能识别，即使在这种情况下，错误率还是很高。汉王手写板的语音变文字功能，因发音者的普通话不标准，还是不如用手来书写方便省事。当前日本发明的最新语音输入技术，将声波先转化为电磁波，然后用电磁波和声波原型相对照，并提出最合适的单词，虽然加入了电磁波，准确性有所提高，但还是没有解决根本性问题，他们自称正确率在85%，而且只适合日语。苹果新iPad语音输入文字功能，目前只支持英、法、德、日四个语种，同样需要发音者的发音要标准，Mac系列的产品需要搭配网络才可使用。美国国防部高级研究计划局(DARPA )2012年投入大量资金对“泛用语言翻译计划”进行技术研发，如果本科技项目攻关成功，就可以实现让美国士兵们听懂外国民众的语言，美国士兵的话实时翻译成外语，在一些特殊情况下，国家与国家之间要员无需翻译人员在场实时交流，从而减少知情人数，降低泄密机率，实现完全不了解彼此语言的人与之间的流畅交流。近十年来，与语音相关的软硬件不断地被设计和创造出来，应用范围极其广泛，但存在着对发音者的要求较高，转化后的文本文字反映出语音所表达的语意的准确性不高，而普通大众没有经过特殊训练的人，其发音几乎都不标准，这就是这类软硬件不能在社会上普及的主要原因，或者只能在一定语系范围内才可正常使用。文本文字不能准确无误地表达出发音者的真实意思，成为限制这一行业发展的瓶颈。数据显示，在中国有159件与语音输入相关的发明专利授权，从95年开始有专利授权，以后逐年上升，到2005年达到最高授权量，为25件，但由于语音转化为文本文字的准确率问题无法解决，中国和国外一样这类专利开始逐年下降，到2010年仅有I件。另有数据显示，中国大陆在这方面的技术成果非常薄弱，授权的这类发明专利前8名分别是国际商业机器公司9件，台达电子工业股份有限公司8件,松下电器产业株式会社7件,微软公司7件,株式会社建伍5件,索尼公司5件，日本电气株式会社5件,三星电子株式会社4件,没有一家中国大陆的公司。为什么现有的这类系统不能准确无误地表达发音者的真实意思呢？是因为全世界这类语音软硬件的设计者都走进了一个误区认为人发出的声波(语音)本身具有含义，是信息的载体，于是采取“分析语音提取参数”、“语音识别来确定语义”、“语言解码”、“语音信息拾取”等等方法，来使音频音波转化为文本文字，其实声波(语音)本身没有含义，是人类赋予了它含义。为什么现有的这类系统也可以表达发音者的意思呢？是系统设计者采用了本国语言、本地语系所共认的语音所赋予的含义。所以这类系统总是要求发音者要发出标准的语音、训练使用者来适应系统、训练系统来适应发音者。

发明内容
本发明的目的在于解决语音输入系统中文本文字不能准确无误地表达发音者所要表达的意思的不足，提供一种个性化语音采集与语义确定系统及其方法，通过个性语音(由人的发音器官发出的声音，包括音高、音强、音质、音色、音频、音长、音速、声波、声调)米集器、语言归正复读机、口译机、计算机、手机及各类接受语言指令的等等硬件，采集某个人的语音，由发音者自己确定语音所表达意义的系统和方法。本发明采用以下技术方案
一种个性化语音采集与语义确定方法，采用如下步骤
步骤A，发音者发出语音；
步骤B，语音采集模块采集发音者说话时发音器官发出的语音，语音特征包括音高、音强、音质、音色、音频、音长、音速、声波、声调；
步骤C，对语音采集模块采集到的语音进行分类整理，以单音节、双音节、多音节为单位建立语音单元；
步骤D，以语音单元为基本单位建立语音数据库；
步骤E，由发音者以文本文字定义语音数据库中的各语音单元，建立语义数据库；
步骤F，将语音数据库的语音单元与语义数据库的文本文字一一对应，建立语音对应语义数据库；
步骤G，由语义规范模块对语音对应语义数据库进行分析规范，将语音对应语义数据库中的文本文字转变为标准化大众化；
步骤H，经语义规范模块将发音者的语音与标准语义对应，建立语音对应标准语义数据库。
作为优选，所述步骤D中，语音数据库在接收到新的语音单元时，与语音数据库的语音单元进行对比，如不相同，则存入语音数据库。作为优选,所述步骤E采用如下步骤
1)由声音设备将语音单兀以原发音者的语音复读出来；
2)发音者将语音单元以自己认为的语义，用文本文字的形式输入系统；
3)建立发音者的语义数据库。作为优选，所述步骤G中，语义规范模块包括语汇分析单元、语法分析单元和习惯用语分析单元，对语音对应语义数据库进行词汇分析、语法分析和习惯用语分析。作为优选，所述步骤G中，将语音对应语义数据库的文本文字根据本国语言本地语系标准的字、词、句、语法、习惯转变为标准语义。一种个性化语音采集与语义确定系统，其中，包括如下部分
语音采集模块，采集发音者说话时发音器官发出的语音，语音特征包括音高、音强、音质、音色、音频、音长、音速、声波、声调；
语音单元模块，对语音采集模块采集到的语音进行分类整理，以单音节、双音节、多音节为单位建立语音单元；
语音数据库，以语音单元为基本单位建立语音数据库；
语义数据库，由发音者以文本文字定义语音数据库中的各语音单元；
语音对应语义数据库，将语音数据库的语音单元与语义数据库的文本文字一一对应，建立语音对应语义数据库；
语义规范模块，对语音对应语义数据库进行分析规范，将语音对应语义数据库的文本文字标准化大众化；
语音对应标准语义数据库，经语义规范模块将发音者的语音与标准语义对应，建立语音对应标准语义数据库。作为优选，所述的语义规范模块包括语汇分析单元、语法分析单元和习惯用语分析单元。语音采集与语义确定系统可以做为一个程序模块，此程序模块具有各种类别程序的转换功能，与其它不同类别的程序相配合，安装在语音采集器、语言归正复读机、口译机、计算机、手机等与语言相关的硬件中，完成语音采集语义确定和建立语音对应标准语义库。语音对应标准语义库可以做为一个程序模块，安装到其它与语音相关的软硬件系统中，完成语音与语义的精确对应。本发明的有益效果为
本发明是将物质层面的硬件、波层面的语音、意识层面的语义、软件层面的程序编码有机地组合起来，为任何人都可以建立起他自己的个性化语音转化为文本文字的个性化数据库系统，从而使这个系统应用到其他各种软硬件中，使其他软硬件能准确无误地通过语音来表达、执行、处理发音者的意图和信息。传统的语音系统，是针对某种语言编写的程序，是采取语音纠正的方式或语音分析提取语音参数确定语义，对发音者要求高，而且正确率低。本发明是针对每个人的个性化语音编写的程序，不纠正发音者的语音，而是由发音者直接确定语音与语义文本文字的对应关系，对发音者没有要求，无需对发音者进行训练，也无需对系统进行训练，正确率在99. 9%。传统的语音系统因为是面对一个语种或多个语种，所建数据库非常庞大，对硬件的要求高，传送速度慢，因手持芯片的处理能力太弱，所以一般都采取将系统和数据库存放在远程服务器内。本发明是针对一个人的语音，所建数据库相对很小，系统程序小，对硬件的要求低，传送速度快，数据库可以直接存放在手持硬件中。

图I为本发明的系统流程框图。
具体实施例方式以下用实施例结合附图对本发明作进一步的详细说明
本发明的原理为文字就是符号，本身没有含义，只有被一个人、一群人、整个人类赋予含义后，才成为了含义的载体，被赋予了含义的文字，就变成了信息。语音就是声波，同样，本身也没有含义，只有被一个人、一群人、整个人类赋予含义后，才成为了含义的载体，被赋予了含义的声波，就变成了信息。将没有含义的符号与没有含义的声波赋予相同含义，这时这个符号与这个声波就表达出了相同的信息。从而实现相同信息下的符号(文字)与声波(语音)精准的转化。但是信息概念具有很强的主观特征，所以，这赋予符号与声波相同信息的人，必须是一个人，如果在两个人以上，就会产生误差，甚至毫无相同之处。一个人将他所有的语音(声波)与一组数据(符号)赋予一一对应的相同含义，建立他自己个性化的语音对应语义数据库，那么他的语音，将变为文本文字形式的数据，由处理器进行处理运算，因这些数据都是被他赋予了含义的信息，所以，带有处理器的硬件(譬如计算机、手机)所处理运算的数据就是他的语音要表达的信息。如图I所示，本系统主要包括语音采集模块、个性化语音单元模块、个性化语音数据库、个性化语义数据库、个性化语音对应语义数据库、语义规范模块和个性化语音对应标准语义数据库。语音采集模块采集发音者说话时发音器官发出的语音，语音特征包括音高、音强、音质、音色、音频、音长、音速、声波、声调。个性化语音单元模块对语音采集模块采集到的语音进行分类整理，以单音节、双音节、多音节为单位建立语音单元。个性化语音数据库，以语音单元为基本单位建立个性化语音数据库。个性化语义数据库，由发音者以文本文字定义个性化语音数据库中的各语音单元。个性化语音对应语义数据库，将个性化语音数据库的语音单元与个性化语义数据库的文本文字一一对应，建立个性化语音对应语义数据库。语义规范模块，对个性化语音对应语义数据库进行分析规范，将个性化语音对应语义数据库中的文本文字，规范为本国语言本地语系的标准文本文字。个性化语音对应标准语义数据库，经语义规范模块将发音者的语音与标准语义对应，建立个性化语音对应标准语义数据库。系统的硬件(语音采集器、口译机、语言归正复读机、计算机、手机等)安置在某个人的嘴边或身边，系统将自动采集这个人平时发出的个性化声波、声调、音频、音质、速度等(语音)，经过整理后，以单音节、双音节、多音节为单位，创建这个人的语音单元，用这些语音单元建立这个人的个性化语音数据库，系统再将整理后的语音单元--复读出，由发音者确定各个语音单元所要表达的意义，发音者通过键盘和手写板等文字输入装置将各种语音的语义以文本文字的形式输入系统，建立这个人的个性化语义数据库。语音数据库和语义数据库建立起对应关系，语音数据库有什么信息，语义数据库中就对应过来什么信息，形
成一一对应。系统带有语汇分析功能、语法分析功能、习惯用语分析功能，对这个人的个性化语义(文本文字)数据库进行整体评估分析、特性评估分析，找到与本国语言本地语系标准的语汇、标准的语法、标准的习惯的对应关系，规范文本文字，将这个人的个性化语义升级为这个人的标准语义。从而使文本文字既能准确无误地反应出发音者的语义，又能符合本国语言本地语系文本文字的大众化标准化。当系统的硬件采集到新的声波(语音)时，便增加到个性化声波(语音)数据库，不断丰富数据库内容。由发音者选定时间对新增加的语音单元进行确定语义的操作。经过一段时间的使用，本系统完成了这个人大部分的语音对应标准语义数据库的建设，可以做为他的个性化语音语义程序模块，存蓄起来终生使用，随时随地安装到其他相适应的各种硬件上去，与其它程序相配合，广泛应用。随着时间越来越久，系统几乎可以将这个人的所有语音全部采集进他的个性化语音数据库，更加熟习地掌握他的语汇范畴、语法特点、习惯用语，建立健全他的个性化语音对应标准语义库。如图I所示，本发明的方法为包括如下步骤
步骤A，发音者发出语音；
步骤B，语音采集模块采集发音者说话时发音器官发出的语音，语音特征包括音高、音强、音质、音色、音频、音长、音速、声波、声调；
步骤C，对语音采集模块采集到的语音进行分类整理，以单音节、双音节、多音节为单位建立个性化语音单元集合；
步骤D，以语音单元为基本单位建立个性化语音数据库；语音数据库在接收到新的语音单元时，与语音数据库的语音单元进行对比，如不相同，则存入语音数据库；
步骤E，由发音者以文本文字定义个性化语音数据库中的各个语音单元，建立个性化语义数据库；具体步骤为1)由声音设备将语音单元以原发音者的语音一一复读出来；
2)发音者将语音单元以自己认为的语义，用文本文字的形式输入系统；
3)建立发音者的语义数据库；
步骤F，将个性化语音数据库的语音单元与个性化语义数据库的文本文字一一对应，建立个性化语音对应语义数据库；
步骤G，由语义规范模块对个性化语音对应语义数据库进行分析规范语汇分析、语法分析和习惯用语分析；将个性化语音对应语义数据库的文本文字，根据本国语言本地语系标准的字、词、句、语法、习惯规范为标准化大众化的文本文字；
步骤H，经语义规范模块将发音者的语音与标准语义对应，建立个性化语音对应标准语义数据库。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。
权利要求
1.一种个性化语音采集与语义确定方法，其特征在于采用如下步骤步骤A，发音者发出语音；步骤B，语音采集模块采集发音者说话时发音器官发出的语音，语音特征包括音高、音强、音质、音色、音频、音长、音速、声波、声调；步骤C，对语音采集模块采集到的语音进行分类整理，以单音节、双音节、多音节为单位建立语音单元；步骤D，以语音单元为基本单位建立语音数据库；步骤E，由发音者以文本文字定义语音数据库中的各语音单元，建立语义数据库；步骤F，将语音数据库的语音单元与语义数据库的文本文字一一对应，建立语音对应语义数据库；步骤G，由语义规范模块对语音对应语义数据库进行分析规范，将语音对应语义数据库中的文本文字转变为标准语义；步骤H，经语义规范模块将发音者的语音与标准语义对应，建立语音对应标准语义数据库。
2.根据权利要求I所述的一种个性化语音采集与语义确定方法，其特征在于所述步骤D中，语音数据库在接收到新的语音单元时，与语音数据库的语音单元进行对比，如不相同，则存入语音数据库。
3.根据权利要求I或2所述的一种个性化语音采集与语义确定方法，其特征在于所述步骤E采用如下步骤 1)由声音设备将语音单兀以原发音者的语音复读出来； 2)发音者将语音单元以自己认为的语义，用文本文字的形式输入系统； 3)建立发音者的语义数据库。
4.根据权利要求3所述的一种个性化语音采集与语义确定方法，其特征在于所述步骤G中，语义规范模块包括语汇分析单元、语法分析单元和习惯用语分析单元，对语音对应语义数据库进行语汇分析、语法分析和习惯用语分析。
5.根据权利要求4所述的一种个性化语音采集与语义确定方法，其特征在于所述步骤G中，将语音对应语义数据库的文本文字根据本国语言本地语系标准的字、词、句、语法、习惯转变为标准语义。
6.一种个性化语音采集与语义确定系统，其特征在于包括如下部分语音采集模块，采集发音者说话时发音器官发出的语音，语音特征包括音高、音强、音质、音色、音频、音长、音速、声波、声调；语音单元模块，对语音采集模块采集到的语音进行分类整理，以单音节、双音节、多音节为单位建立语音单元；语音数据库，以语音单元为基本单位建立语音数据库；语义数据库，由发音者以文本文字定义语音数据库中的各个语音单元；语音对应语义数据库，将语音数据库的语音单元与语义数据库的文本文字一一对应，建立语音对应语义数据库；语义规范模块，对语音对应语义数据库进行分析规范，将语音对应语义数据库的文本文字转变成标准语义；语音对应标准语义数据库，经语义规范模块将发音者的语音与标准语义对应，建立语音对应标准语义数据库。
7.根据权利要求6所述的一种个性化语音采集与语义确定系统，其特征在于所述的语义规范模块包括语汇分析单元、语法分析单元和习惯用语分析单元。
全文摘要
本发明公开了一种个性化语音采集与语义确定系统及其方法，语音采集模块，采集发音者说话时发音器官发出的语音；语音单元模块，对语音采集模块采集到的语音进行分类整理，以单音节、双音节、多音节为单位建立语音单元；语音数据库，以语音单元为基本单位建立语音数据库；语义数据库；语音对应语义数据库，将语音数据库的语音单元与语义数据库的文本文字一一对应，建立语音对应语义数据库；语义规范模块和语音对应标准语义数据库。本发明由发音者直接确定语音与语义文本文字的对应关系，对发音者没有要求，无需对发音者进行训练，也无需对系统进行训练，正确率在99.9%。
文档编号G06F17/30GK102831195SQ20121027652
公开日2012年12月19日申请日期2012年8月3日优先权日2012年8月3日
发明者杨京广, 张永忠, 李树成, 陈培基, 刘军申请人:河南省佰腾电子科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨京广;张永忠;李树成;陈培基;刘军
技术所有人：河南省佰腾电子科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。