一种将语音转换为文字的方法及装置制造方法

文档序号：2827460阅读：208来源：国知局

一种将语音转换为文字的方法及装置制造方法
【专利摘要】本发明公开了一种将语音转换为文字的方法及装置，方法包括：接收输入的语音，并识别所述语音中各个元素；根据所述元素与文字映射关系，获取所述元素所映射的文字，并输出所述文字。通过上述方式，本发明能够快速地将语音转换为文字。
【专利说明】一种将语音转换为文字的方法及装置
【技术领域】
[0001]本发明涉及语音识别【技术领域】，特别是涉及一种将语音转换为文字的方法及装置。
【背景技术】
[0002]在很多场合，例如:会议、培训、采访等等，需要对谈话的内容进行记录，通常情况下，谈话的内容是由记录人员或者采访记者进行手写记录。而人谈话的速度通常快于人手写速度，为了避免记录中漏掉部份内容，记录人员还采用录音记录谈话内容，生成录音文件。
[0003]在会议、培训或者采访结束后，记录人员或者专业翻译人员需要播放录音文件，收听录音，然后将听到的语音书写为文字。通过人工收听录音，并将录音转化为文字的方式，工作效率低，浪费时间。若录音文件过多，则不单耗费时间，还会耗费大量的劳动力，人力成本过高。

【发明内容】

[0004]本发明主要解决的技术问题是提供一种将语音转换为文字的方法及装置，能够快速地将语音转换为文字。
[0005]为解决上述技术问题，本发明采用的一个技术方案是:提供一种将语音转换为文字的方法，包括接收输入的语音，并识别所述语音中各个元素；根据所述元素与文字映射关系，获取所述元素所映射的文字，并输出所述文字。
[0006]其中，所述元素为所述语音中的单音节语音；所述元素与文字映射关系包括标准语音与文字的映射关系；所述识别所述语音中各个元素的步骤包括:将所述语音划分为多个单音节语音，其中，所述一个单语节语音对应所述语音中的一个音节；所述根据所述元素与文字映射关系，获取所述元素所映射的文字，并输出所述文字的步骤包括:获取所述语音的声音参数，其中，所述声音参数包括语音的频率、振幅和相位；根据所述声音参数判断所述语音是标准语音还是地方语音；若所述语音为标准语音，则根据标准语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
[0007]其中，所述元素与文字映射关系还包括地方语音与文字的映射关系；所述方法还包括:若所述语音是为地方语音，则根据地方语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
[0008]其中，所述方法还包括:判断所述两个单音节语音之间间隔的时间是否超过预定时间；若所述两个单音节语音之间间隔的时间超过预定时间，则在所述两个单音节语音所对应的两个文字之间标记符号。
[0009]其中，若所述单音节语音所映射的文字的数量为多个，则分别将所述文字以及与所述文字相邻的文字组成词组；在词组库中查找是否存在所述词组；若存在所述词组，则将组成所述词组的所述文字作为所述单音节语音所对应的文字。[0010]为了解决上述技术问题，本发明采用的另一个技术方案是:提供一种将语音转换为文字的装置，包括接入识别模块，用于接收输入的语音，并识别所述语音的各个元素；映射模块，用于根据所述元素与文字映射关系，获取所述元素所映射的文字，并输出所述文字。
[0011]其中，所述元素为所述语音中的单音节语音；所述元素与文字映射关系包括标准语音与文字的映射关系；所述接收识别模块，具体用于接收输入的所述语音，并将所述语音划分为多个单音节语音，其中，所述一个单语节语音对应所述语音中的一个音节；所述映射模块包括:获取单元，用于获取所述语音的声音参数，其中，所述声音参数包括语音的频率、振幅和相位；判断单元，用于根据所述声音参数判断所述语音是标准语音还是地方语音；第一映射单元，用于在所述判断单元判断到所述语音是标准语音时，根据标准语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
[0012]其中，所述元素与文字映射关系还包括地方语音与文字的映射关系；所述映射模块还包括:第二映射单元，用于在所述判断单元判断到所述语音是地方语音时，根据地方语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
[0013]其中，所述装置还包括:判断模块，用于判断所述两个单音节语音之间间隔的时间是否超过预定时间；符号标记模块，用于在所述判断模块判断到所述两个单音节语音之间间隔的时间超过预定时间时，在所述两个单音节语音所对应的两个文字之间标记符号。
[0014]其中，所述装置还包括组成模块，用于在所述单音节语音所映射的文字的数量为多个时，分别将所述单音节语音所映射的文字和与所述文字相邻的文字组成词组；查找模块，用于在词组库中查找是否存在所述词组；设置模块，用于在所述查找模块在词组库中找到所述词组，将组成所述词组的所述文字作为所述单音节语音所对应的文字。
[0015]本发明的有益效果是:区别于现有技术的情况，本发明预先建立语音与文字的映射关系，在接收到语音后，根据语音与文字的映射关系获取语音所映射的文字，从而快速地将语音转换为文字，并不需要人为收听语音，然后将语音转换为文字，节省人力成本，进而节省成本。
【专利附图】

【附图说明】
[0016]图1是本发明将语音转换为文字第一实施方式的结构示意图；
[0017]图2是本发明将语音转换为文字第二实施方式的结构示意图；
[0018]图3是本发明将语音转换为文字的方法实施方式的流程图；
[0019]图4是本发明将语音转换为文字的方法实施方式中根据声音参数选择映射关系后，将语音转换为文字的示意图。
【具体实施方式】
[0020]下面结合附图和实施方式对本发明进行详细说明。
[0021]请参阅图1，如图所示，将语音转换为文字的装置包括接收识别模块202和映射模块 203。
[0022]接收识别模块202接收输入的语音，并识别语音的各个元素，其中，语音可为先前录制好的录音，也可以为即场输入的语音。映射模块203根据元素与文字映射关系，获取元素所映射的文字。根据元素与文字映射关系，方便而简单，能够快速地将语音转换为文字。在本发明实施方式中，该元素可为单语节语音，当然，在其他替代实施方式中，该元素也可以为词组、成语等等；元素与文字映射关系包括标准语音与文字的映射关系、地方语音与文字的映射关系，其中，标准语音与文字的映射关系表中记录所有文字与其标准发音的映射关系，地方语音与文字的映射关系表中记录所有文字与其地方发音的映射关系；则接收识别模块202具体用于接收输入的语音，并将语音划分为多个单音节语音，其中，一个单语节语音对应语音中的一个音节。
[0023]值得说明的是:一个文字仅具有一个音节，例如:汉字，每个汉字仅具有一个音节，由元音和辅音组成，又例如:英文字母，每一个英文字母仅具有一个音节。
[0024]无论是中文、英文，还是其他语言，由于各个地区的生活习惯不同一样，同一种语言会衍生出各种不同的地方语言。地方语言带强烈的地方语音，与标准语言的标准语音相t匕，地方语音的口音问题非常严重，同一个文字，发音可能完全不一样，因此，在做语音与文字转换时，还需要区分标准语语音和地方语音，则映射模块203包括获取单元2031、判断单元2032、第一映射单元2033和第二映射单元2034。
[0025]获取单元2031获取语音的声音参数,其中，声音参数包括语音的频率、振幅和相位。判断单元2032根据声音参数判断语音是标准语音还是地方语音。标准语音和地方语音均有各自独特频率、振幅和相位，根据频率、振幅和相位即可判断语音是地方语音还是标准语音。
[0026]在判断单元2032判断到语音是标准语音时，第一映射单元2033根据标准语音与文字的映射关系，获取单音节语音所映射的文字，生成语音所对应的文字。在判断单元2032判断到语音是地方语音时，第二映射单元2034根据地方语音与文字的映射关系，获取单音节语音所映射的文字，生成语音所对应的所有文字。进一步的，若地方语音的种类为多种，则也可根据声音参数确定该语音所属的地方语音的类型，地方语音与文字的映射关系中记录各种地方语音与文字映射关系，在确定语音所属的地方语音的类型后，获取对应的地方语音与文字映射关系，根据对应的地方语音与文字映射关系获取单音节语音所映射的文字，生成语音所对应的所有文字。
[0027]进一步的，装置还包括判断模块204、符号标记模块205、组成模块206、查找模块207和设置模块208。
[0028]判断模块204判断两个单音节语音之间间隔的时间是否超过预定时间。在通过语音表达时，通常在说完一个完整的语句后会停顿一下，接着才说下一个语句，此处的停顿在文字上是代表一个符号，假若在将语音转换为文字时，不把语音中停顿的位置标记符号，则转换过来的文字是一连串字符，语句的表达就会不清楚；而语句间的停顿的时间，通常比两个单音节语音间的间隔时间要长，则可设定预定时间，在两个单音节语音之间间隔的时间超过预定时间时，认定为语句间的停顿。符号标记模块205在判断模块204判断到两个单音节语音之间间隔的时间超过预定时间时，在两个单音节语音所对应的两个文字之间标记符号。在本发明实施方式中，该村记的符号可为空格，也可为逗号等其他符号。
[0029]在单音节语音所映射的文字的数量为多个，即存在同音字，多个文字对应相同发音，组成模块206分别将单音节语音所映射的文字和与该文字相邻的文字组成词组，其中，与该文字相邻的文字的数量不作具体限定，可根据实际情况设定，例如:相邻一个字，组成两个字词组，或者相邻四个字，组成成语。查找模块207用于在词组库中查找是否存在该词组。词组库中记录所有词组，例如:汉语字典等等。在查找模块207在词组库中找到该词组时，设置模块208将组成该词组的该文字作为单音节语音所对应的文字。进一步的，所组成的多个词组均在词组中找到时，则可根据上下文信息确定该单音节语音所对应的文字；当然，在单音节语音所映射的文字的数量为多个，也可根据文字的使用次数，选择使用次数最高的字的作为单音节语音所映射的文字，又或者，根据上下文信息确定单音节语音所映射的文字。
[0030]本发明实施方式中，预先建立语音与文字的映射关系，在接收到语音后，根据语音与文字的映射关系表获取语音所映射的文字，从而快速地将语音转换为文字，并不需要人为收听语音，然后将语音转换为文字，节省人力成本，进而节省成本。
[0031]请参阅图2，如图所示，装置包括处理器301、存储器302和总线303。处理器301和存储器302均与总线303连接。
[0032]处理器301用于接收输入的语音，并识别所述语音的各个元素；根据所述元素与文字映射关系，获取所述元素所映射的文字，并输出所述文字。
[0033]其中，所述元素为所述语音中的单音节语音，所述元素与文字映射关系包括标准语音与文字的映射关系。所述处理器301识别所述语音中各个元素的步骤包括:将所述语音划分为多个单音节语音，其中，一个单语节语音对应所述语音中的一个音节；所述处理器301根据语音与文字映射关系，获取所述语音所映射的文字的步骤包括:处理器301获取所述语音的声音参数，其中，所述声音参数包括语音的频率、振幅和相位；根据所述声音参数判断所述语音是标准语音还是地方语音；将所述语音划分为多个单音节语音，其中，所述一个单语节语音对应所述语音中的一个音节；若所述语音为标准语音，则根据标准语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
[0034]其中，所述元素与文字映射关系还包括地方语音与文字的映射关系。处理器301还用于若所述语音是为地方语音，则根据地方语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
[0035]其中，处理器301还用于判断所述两个单音节语音之间间隔的时间是否超过预定时间；若所述两个单音节语音之间间隔的时间超过预定时间，则在所述两个单音节语音所对应的两个文字之间标记符号。
[0036]处理器301还用于若所述单音节语音所映射的文字的数量为多个，则分别将所述文字以及与所述文字相邻的文字组成词组；在词组库中查找是否存在所述词组；若存在所述词组，则将组成所述词组的所述文字作为所述单音节语音所对应的文字。
[0037]处理器301所执行的上述操作可以以一段程序存储于存储器302中，当需要执行上述操作时，将该程序调入处理器301，由处理器301执行。
[0038]本发明实施方式中，预先建立语音与文字的映射关系，在接收到语音后，根据语音与文字的映射关系获取语音所映射的文字，从而快速地将语音转换为文字，并不需要人为收听语音，然后将语音转换为文字，节省人力成本，进而节省成本。
[0039]本发明还提供将语音转换为文字的方法实施方式。如图3所示，方法包括:
[0040]步骤S402:接收输入的语音，并识别语音中各个元素；[0041]语音可为先前录制好的录音，也可以为即场输入的语音。在本发明实施方式中，该语音可以包含一个字或者多个字。
[0042]步骤S403:根据元素与文字映射关系，获取元素所映射的文字，并输出该文字。
[0043]在本发明实施方式中，元素为单音节语音，当然，在其他替代实施方式中，元素也可为成语、词组等等。值得说明的是:一个文字仅具有一个音节，例如:汉字，每个汉字仅具有一个音节，由元音和辅音组成，又例如:英文字母，每一个英文字母仅具有一个音节。则元素与文字映射关系包括标准语音与文字的映射关系，步骤S402又可具体为:接收输入的语音，并将所述语音划分为多个单音节语音，其中，所述一个单语节语音对应所述语音中的一个音节。
[0044]无论是中文、英文，还是其他语言，由于各个地区的生活习惯不同一样，同一种语言会衍生出各种不同的地方语言。地方语言带强烈的地方语音，与标准语言的标准语音相t匕，地方语音的口音问题非常严重，同一个文字，发音可能完全不一样，因此，在做语音与文字转换时，还需要区分标准语语音和地方语音，则元素与文字映射关系包括标准语音与文字的映射关系以及地方语音与文字的映射关系，步骤S403包括步骤S4031、步骤S4032、步骤S4033和步骤S4034，
[0045]步骤S4031:获取语音的声音参数，其中，声音参数包括语音的频率、振幅和相位；
[0046]标准语音和地方语音均具有各自声音特点，声音参数也各不相同的，反之，也可以根据声音参数，判断语音是属于标准语音还是地方语音。
[0047]步骤S4032:根据声音参数判断语音是标准语音还是地方语音，若为标准语音，则进入步骤S4033，否则进入步骤S4034。
[0048]步骤S4033:根据标准语音与文字的映射关系，获取单音节语音所映射的文字，生成语音所对应的所有文字；
[0049]步骤S4034:根据地方语音与文字的映射关系，获取单音节语音所映射的文字，生成语音所对应的所有文字；
[0050]若地方语音的种类为多种，则也可根据声音参数获取地方语音的类型，当前，地方语音与文字的映射关系也包括各种地方语音与文字的映射关系，则根据地方语音的种类获取所对应的地方语音与文字映射关系，根据所对应的地方语音与文字映射关系，获取所映射的文字。
[0051]进一步的，方法还包括:
[0052]步骤S404:判断两个单音节语音之间间隔的时间是否超过预定时间，若两个单音节语音之间间隔的时间超过预定时间，则进入步骤S405，否则进入步骤S406 ；
[0053]通常情况下，在通过语音表达时，在说完一个完整的语句后会停顿一下，接着才说下一个语句，同一个语句时是连贯表达，因此，可以预先设定预定时间，在两个单音节语音之间间隔的时间超过预定时间时，认定为语句间的停顿，则在两个单音节语音所映射的文字间标记符号。
[0054]步骤S405:在两个单音节语音所对应的两个文字之间标记符号；
[0055]在两个单音节语音所对应的两个文字之间标记符号后，该语音所对应的文字就不再是连贯，没有停顿的语句，语句间的意思的表达，不再因为没有停顿而造成意思表达不清楚，或者，错误。[0056]步骤S406:不处理；
[0057]若两个单音节语音之间间隔的时间没有超过预定时间，则说两个单音节语音所对应的两个文字在同一语句，可以不用处理。
[0058]若存在同音字，即不同文字具有相同语音时，还可以根据上文信息确定单语节语音所映射的文字，也可以同时提供单语节语音所映射的多个文字，以使用户进行选择正确的文字，又或者，根据文字的使用次数，从单语节语音所映射的多个文字中选择使用次数最多的文字，再或者，根据文字与其相邻的文字组成的词组，来判断哪个文字为正确的文字，则方法还包括:
[0059]步骤S407:若单音节语音所映射的文字的数量为多个，则分别将文字以及与文字相邻的文字组成词组；
[0060]文字与其相邻的文字组成词组，可为文字与其左边相邻的文字，也可以为文字与其右边相邻的文字，相邻的文字的数量可为一个、两个或者四个等等，此处，对相邻的文字的数量不作具体限定，可根据实际情况设定。
[0061]步骤S408:在词组库中查找是否存在该词组；
[0062]词组库记录有所有词组，该词组包括两个字词组、三个字词组、四个字的成语，或者其他习惯用语，在本发明实施方式中，词组库为字典库。
[0063]步骤S409:若存在词组，则将组成词组的文字作为单音节语音所对应的文字；
[0064]需要说明的是:若在词组库中找到多个词组，则向用户提供所找到的词组所对应的文字，以供用户进行选择正确的文字。若没有任何一个词组，则向用户提供单音节语音所映射的所有文字，以供用户选择正确的文字。
[0065]本发明实施方式中，预先建立语音与文字的映射关系，在接收到语音后，根据语音与文字的映射关系获取语音所映射的文字，从而快速地将语音转换为文字，并不需要人为收听语音，然后将语音转换为文字，节省人力成本，进而节省成本。
[0066]以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的【技术领域】，均同理包括在本发明的专利保护范围内。
【权利要求】
1.一种将语音转换为文字的方法，其特征在于，所述方法包括: 接收输入的语音，并识别所述语音中各个元素；根据所述元素与文字映射关系，获取所述元素所映射的文字，并输出所述文字。
2.根据权利要求1所述的方法，其特征在于，所述元素为所述语音中的单音节语音；所述元素与文字映射关系包括标准语音与文字的映射关系；所述识别所述语音中各个元素的步骤包括: 将所述语音划分为多个单音节语音，其中，所述一个单语节语音对应所述语音中的一个音节；所述根据所述元素与文字映射关系，获取所述元素所映射的文字的步骤包括: 获取所述语音的声音参数，其中，所述声音参数包括语音的频率、振幅和相位；根据所述声音参数判断所述语音是标准语音还是地方语音；若所述语音为标准语音，则根据标准语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
3.根据权利要求2所述的方法，其特征在于，所述元素与文字映射关系还包括地方语音与文字的映射关系；所述方法还包括: 若所述语音是为地方语音，则根据地方语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括: 判断所述两个单音节语音之间间隔的时间是否超过预定时间；若所述两个单音节语音之间间隔的时间超过预定时间，则在所述两个单音节语音所对应的两个文字之间标记符号。
5.根据权利要求2或3所述的方法，其特征在于，若所述单音节语音所映射的文字的数量为多个，则分别将所述文字以及与所述文字相邻的文字组成词组；在词组库中查找是否存在所述词组；若存在所述词组，则将组成所述词组的所述文字作为所述单音节语音所对应的文字。
6.一种将语音转换为文字的装置，其特征在于，包括: 接入识别模块，用于接收输入的语音，并识别所述语音的各个元素；映射模块，用于根据所述元素与文字映射关系，获取所述元素所映射的文字，并输出所述文字。
7.根据权利要求6所述的装置，其特征在于，所述元素为所述语音中的单音节语音；所述元素与文字映射关系包括标准语音与文字的映射关系；所述接收识别模块，具体用于接收输入的所述语音，并将所述语音划分为多个单音节语音，其中，所述一个单语节语音对应所述语音中的一个音节；所述映射模块包括:获取单元，用于获取所述语音的声音参数，其中，所述声音参数包括语音的频率、振幅和相位；判断单元，用于根据所述声音参数判断所述语音是标准语音还是地方语音；第一映射单元，用于在所述判断单元判断到所述语音是标准语音时，根据标准语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
8.根据权利要求7所述的装置，其特征在于，所述元素与文字映射关系还包括地方语音与文字的映射关系；所述映射模块还包括: 第二映射单元，用于在所述判断单元判断到所述语音是地方语音时，根据地方语音与文字的映射关系，获取所述单音节语音所映射的文字，生成所述语音所对应的所有文字。
9.根据权利要求7或者8所述的装置，其特征在于，所述装置还包括: 判断模块，用于判断所述两个单音节语音之间间隔的时间是否超过预定时间；符号标记模块，用于在所述判断模块判断到所述两个单音节语音之间间隔的时间超过预定时间时，在所述两个单音节语音所对应的两个文字之间标记符号。
10.根据权利要求7或者8所述的装置，其特征在于，所述装置还包括组成模块，用于在所述单音节语音所映射的文字的数量为多个时，分别将所述单音节语音所映射的文字和与所述文字相邻的文字组成词组；查找模块，用于在词组库中查找是否存在所述词组；设置模块，用于在所述查找模块在词组库中找到所述词组，将组成所述词组的所述文字作为所述单音节语音所对应的文字。
【文档编号】G10L15/26GK103943109SQ201410175549
【公开日】2014年7月23日申请日期:2014年4月28日优先权日:2014年4月28日
【发明者】朴宁申请人:深圳如果技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朴宁
技术所有人：深圳如果技术有限公司
我是此专利的发明人

上一篇：一种电声二胡的制作方法
上一篇：采用感知语谱结构边界参数的语音端点检测算法