语音输入方法及系统与流程

文档序号：15051066发布日期：2018-07-31 17:03阅读：2502来源：国知局

本发明属于语音识别领域，特别涉及一种语音输入方法及系统。

背景技术：

随着语音识别技术的进步以及云计算的兴起，在移动终端上采用语音输入并通过云端服务器进行语音到文本的转写并将文本返回到移动终端的方案已成为一种趋势。由于移动终端的尺寸限制，直接通过物理或虚拟键盘进行文本输入的便捷性总是不尽如人意，可以预见语音输入将在越来越多的地方替代按键输入。

但是，语音识别准确率难以达到100％的现状阻碍了语音输入彻底替代按键输入的进程。事实上，由于生活中各种条件下真实发音的复杂性，语音识别的准确率永远不可能达到100％，尤其是在噪音环境下，识别结果中必然可能存在各种错误，也就是说，对于语音识别的结果必然存在一个二次确认的过程。现有的语音输入方案是如下：当按下录音键之后，移动终端上会弹出如图1所示的表示正在录音的界面，然后用户开始说话，说完之后，会在如图2所示的界面上将识别到的文本展示在一文本输入框21内，若该文本输入框21内的文本存在识别错误，再由用户调出键盘22进行修改并确认保存。然而这种语音输入方案中，在录音过程中用户不能对识别结果作任何编辑，必须在一次性将要输入的语音全部说完后，用户才能对返回文本中的错误进行一一修改并确认保存，然后再将确认过的文本用于后续诸如发短信，发邮件，记事之类的应用。所以，这种确认过程通常对于用户来说比较繁琐、不够友好。

技术实现要素：

本发明的目的在于提供一种语音输入方法及系统，能够对输入语音自动进行分段识别，用户可边录音边对分段识别到的文本进行修正。

为解决上述问题，本发明提供一种语音输入方法，包括：

在录音的同时不断将输入的语音切分语音片段并生成每个语音片段的文本；以及

依次显示每个语音片段的文本，根据用户的选择依次对每个语音片段的文本进行修正。

进一步的，在上述方法中，由云端服务器不断将输入的语音切分语音片段并生成每个语音片段的文本。

进一步的，在上述方法中，通过语音端点检测算法不断将输入的语音切分语音片段。

进一步的，在上述方法中，所述根据用户的选择依次对每个语音片段的文本进行修正的步骤包括：

用户选择每个语音片段的文本中需要修正的内容；

生成对应于所述内容中每个字的候选字、所述内容中每个字的音节和对应于所述内容中每个字的候选音节；

根据用户选择的所述候选字、所述音节和所述候选音节对读音片段中的文本进行修正。

进一步的，在上述方法中，所述根据用户选择的所述候选字、所述音节和所述候选音节对读音片段中的文本进行修正的步骤包括：

当用户选择所述候选字时，将选出的所述候选字替换所述内容中的相应字；

当用户选择所述音节时，生成对应于所述音节的候选字，从所述音节的候选字中选出正确的候选字替换所述内容中的相应字；

当用户选择所述候选音节时，生成对应于候选音节的候选字，从所述候选音节的候选字中选出正确的候选字替换所述内容中的相应字；

当生成的所述候选字、候选音节中没有正确的结果，则可以调用输入法对文本进行修改。

进一步的，在上述方法中，所述在录音的同时不断将输入的语音切分语音片段并生成每个语音片段的文本的步骤之前，还包括：在录音时对录音环境进行噪声监测获取信噪比。

进一步的，在上述方法中，所述生成对应于所述内容中每个字的候选字、所述内容中每个字的音节和对应于所述内容中每个字的候选音节的步骤包括：

当所述信噪比大于预设阈值时，减少所述候选字、所述候选音节；

当所述信噪比小于预设阈值时，增加所述候选字、所述候选音节。

根据本发明的另一面，提供一种语音输入系统，包括：

切分模块，用于在录音的同时不断将输入的语音切分语音片段并生成每个语音片段的文本；以及

修正模块，用于依次显示每个语音片段的文本，根据用户的选择依次对每个语音片段的文本进行修正。

进一步的，在上述系统中，所述切分模块位于云端服务器上。

进一步的，在上述系统中，所述切分模块通过语音端点检测算法不断将输入的语音切分语音片段。

进一步的，在上述系统中，所述修正模块包括：

选择单元，用于获取用户选择每个语音片段的文本中需要修正的内容；

候选单元，用于生成对应于所述内容中每个字的候选字、所述内容中每个字的音节和对应于所述内容中每个字的候选音节；

修正单元，用于根据用户选择的所述候选字、所述音节和所述候选音节对读音片段中的文本进行修正。

进一步的，在上述系统中，所述修正单元，用于当用户选择所述候选字时，将选出的所述候选字替换所述内容中的相应字；当用户选择所述音节时，生成对应于所述音节的候选字，从所述音节的候选字中选出正确的候选字替换所述内容中的相应字；当用户选择所述候选音节时，生成对应于候选音节的候选字，从所述候选音节的候选字中选出正确的候选字替换所述内容中的相应字；当生成的所述候选字、候选音节中没有正确的结果，则可以调用输入法对文本进行修改。

进一步的，在上述系统中，还包括噪声监测单元，用于在录音时对录音环境进行噪声监测获取信噪比。

进一步的，在上述系统中，所述候选单元，用于当所述信噪比大于预设阈值时，减少所述候选字、所述候选音节；当所述信噪比小于预设阈值时，增加所述候选字。

与现有技术相比，本发明通过在录音的同时不断将输入的语音切分语音片段并生成每个语音片段的文本，依次显示每个语音片段的文本，根据用户的选择依次对每个语音片段的文本进行修正，可以自动切分语音识别结果并进行分段返回供用户二次确认，用户可以一边录音一边对返回文本进行修改和确认。

另外，通过用户选择每个语音片段的文本中需要修正的内容，然后生成对应于所述内容中每个字的候选字、所述内容中每个字的音节和对应于所述内容中每个字的候选音节，再根据用户选择的所述候选字、所述音节和所述候选音节对读音片段中的文本进行修正，可以方便用户快速选择正确文字对文本中的内容进行修正。

此外，通过在录音时对录音环境进行噪声监测获取信噪比，当所述信噪比大于预设阈值时，减少所述候选字、所述候选音节；当所述信噪比小于预设阈值时，增加所述候选字、所述候选音节，可根据不同的信噪比调整候选结果的个数。

附图说明

图1是现有语音输入方案的录音界面示意图；

图2是现有语音输入方案的识别文本展示和修改界面示意图；

图3是本发明实施例一的语音输入方法的流程图；

图4是本发明实施例一的录音、识别文本展示及修改界面示意图

图5是本发明实施例一的依次对识别文本进行展示及修改界面示意图；

图6是本发明实施例二的语音输入方法的流程图；

图7是本发明实施例二的噪声监测界面示意图；

图8是本发明实施例三的语音输入系统的功能模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图3～5所示，本发明提供一种语音输入方法，包括：

步骤S11，在录音的同时不断将输入的语音切分语音片段并生成每个语音片段的文本，具体的，本发明可自动切分语音识别结果并进行分段返回供用户二次确认，可由云端服务器不断将输入的语音切分语音片段并生成每个语音片段的文本，通过语音端点检测算法不断将输入的语音切分语音片段，语音端点检测是从包含语音的一段信号中准确地确定语音的起始点和终止点，区分语音和非语音信号，语音端点检测是语音处理技术中的一个重要方面，例如，当用户连续输入语音时，可由云端服务器采用端点检测的算法，将有效语音按照用户说话停顿的节奏切成一句一句，并依次转化为文本，返回到如图4所示移动终端的展示界面上，该界面将录音界面和识别结果展示界面集成于同一个界面上；

步骤S12，依次显示每个语音片段的文本；

步骤S13，根据用户的选择依次对每个语音片段的文本进行修正，具体的，本发明中用户可以一边录音一边对返回文本进行修改和确认，需要说明的是，本发明的交互方案中，并不将所有的文本识别结果都展示出来，而是只将当前分段的文本识别结果展示在如图5的界面上，在用户对语音片段1的识别结果1进行修正和确认后，再展示下一段识别结果2，这种展示方案的好处在于在有限的屏幕上依次展示有限的结果，让用户可以将注意力集中于当前的识别结果，提高修改文本的效率，所示本步骤可具体包括：

步骤S131，用户选择每个语音片段的文本中需要修正的内容，具体的，当用户需要修改文本识别结果中的部分词语时，可以点击文本识别结果中的具体文字；

步骤S132，生成对应于所述内容中每个字的候选字、所述内容中每个字的音节和对应于所述内容中每个字的候选音节，具体的，当用户点击识别结果中需要修改的具体文字时，可以设置弹出与该文字对应的若干候选字，包括该文字的对应音节以及若干候选音节，这样可以有效地将语音识别结果与输入法结合起来，提供多个候选供用户选择，并将识别结果从文字退化为音节，扩大命中的范围，使用户不必输入一串字母，而是通过候选找到自己所需要的字；

步骤S133，根据用户选择的所述候选字、所述音节和所述候选音节对读音片段中的文本进行修正，具体的，在用户对返回的识别结果进行修正和确认时，可提供如图5所示的“取消”和“确认”两个命令，分别用于快速地删除和保存本次文本识别结果，本步骤可进一步包括：

步骤S1331，当用户选择所述候选字时，将选出的所述候选字替换所述内容中的相应字，具体的，若正确文字存在于候选字中，则用户直接点击候选字就能替代原来识别错误的文字；

步骤S1332，当用户选择所述音节时，生成对应于所述音节的候选字，从所述音节的候选字中选出正确的候选字替换所述内容中的相应字，具体的，若候选字中不存在正确文字，则用户可以点击正确的音节，再从提供的该音节对应的候选字中选择想输入的那一个字；

步骤S1333，当用户选择所述候选音节时，生成对应于候选音节的候选字，从所述候选音节的候选字中选出正确的候选字替换所述内容中的相应字，具体的，若正确的音节对应的候选字中不存在正确文字，则用户可以点击候选音节，再从提供的该候选音节对应的候选字中选择想输入的那一个字；

步骤S1334，当生成的所述候选字、候选音节中没有正确的结果，则可以调用输入法对文本进行修改。

本发明可将录音界面和返回结果界面同时显示在移动终端的界面上，让用户可以一边录音一边看到返回的文本结果，并能实时对返回的文本结果进行修正，即用户可以连续说一段语音，在不关闭录音的情况下对返回的文本结果进行修正和确认，然后继续录音，也可以一边用录音记录他人的语音，并同时修正确认识别返回结果。

实施例二

如图6和图7所示，本发明提供另一种语音输入方法，本实施例与实施例的区别在于，增加了在录音时对录音环境进行噪声监测获取信噪比的步骤，可以根据不同的信噪比调整候选结果的个数，并在不适合采用语音输入的强噪声情况下提示用户，本实例可具体包括：

步骤S21，在录音时对录音环境进行噪声监测获取信噪比，具体的，本步骤可自动检测输入语音的信噪比并反馈在交互界面上，可在不适合采用语音输入的强噪声情况下提示用户，也可在后续步骤S242中根据不同的信噪比调整候选结果的个数，由于噪声对于语音识别的影响很大，当录音环境噪声较强时，语音识别的准确率会急速下降，用户需要修改的文字也大大增加，因此，可在本实施例中加入噪声监测的功能，可以根据端点检测的结果，对每段识别结果分别计算该结果对应的语音段能量和静音段能量(静音段能量相当于噪声的能量)，从而估算出该段语音的信噪比，并将录音时环境噪声的污染程度以如图7所示的带录音音量指示条71和噪声音量指示条72的界面进行显示，当环境噪声超过一定阈值之后，可提示用户“当前噪声过大，建议使用键盘输入”；

步骤S22，在录音的同时不断将输入的语音切分语音片段并生成每个语音片段的文本，具体的，由云端服务器不断将输入的语音切分语音片段并生成每个语音片段的文本，通过语音端点检测算法不断将输入的语音切分语音片段；

步骤S23，依次显示每个语音片段的文本；

步骤S24，根据用户的选择依次对每个语音片段的文本进行修正，本步骤可具体包括：

步骤S241，用户选择每个语音片段的文本中需要修正的内容；

步骤S242，生成对应于所述内容中每个字的候选字、所述内容中每个字的音节和对应于所述内容中每个字的候选音节，可以方便用户快速选择正确文字对文本中的内容进行修正，本步骤可进一步包括：

步骤S2421，当所述信噪比大于预设阈值时，减少所述候选字、所述候选音节，具体的，信噪比大，表示语音受噪声的污染小，识别结果的准确性高，则可以适当减少候选结果的个数；

步骤S2422，当所述信噪比小于预设阈值时，增加所述候选字、所述候选音节，具体的，信噪比小，表示语音受噪声污染大，则识别结果出现错误的可能性也大大增加，则需要增加候选结果的个数，便于用户能从中选出正确的文字；

步骤S243，根据用户选择的所述候选字、所述音节和所述候选音节对读音片段中的文本进行修正，本步骤可进一步包括：

步骤S2431，当用户选择所述候选字时，将选出的所述候选字替换所述内容中的相应字；

步骤S2432，当用户选择所述音节时，生成对应于所述音节的候选字，从所述音节的候选字中选出正确的候选字替换所述内容中的相应字；

步骤S2433，当用户选择所述候选音节时，生成对应于候选音节的候选字，从所述候选音节的候选字中选出正确的候选字替换所述内容中的相应字；

步骤S2434，当生成的所述候选字、候选音节中没有正确的结果，则可以调用输入法对文本进行修改。

本实施例中将噪声监测、端点检测、连续语音识别等多种语音技术或框架集成在一个交互过程中，让用户能充分体验到语音输入的便捷性，改善用户在语音输入与按键输入混杂操作时的用户体验。

实施例三

如图8所示，本发明还提供另一种语音输入系统，包括切分模块41、修正模块42及噪声监测单元43。

切分模块41用于在录音的同时不断将输入的语音切分语音片段并生成每个语音片段的文本，具体的，所述切分模块41位于云端服务器上，所述切分模块41通过语音端点检测算法不断将输入的语音切分语音片段，本模块可自动切分语音识别结果并进行分段返回供用户二次确认。

修正模块42用于依次显示每个语音片段的文本，根据用户的选择依次对每个语音片段的文本进行修正，具体的，本模块可实现用户一边录音一边对返回文本进行修改和确认，需要说明的是，本发明的交互方案中，并不将所有的文本识别结果都展示出来，而是只将当前分段的文本识别结果展示界面上，在用户对该语音片段的文本识别结果进行修正和确认后，再展示下一段识别结果，这种展示方案的好处在于在有限的屏幕上依次展示有限的结果，让用户可以将注意力集中于当前的识别结果，提高修改文本的效率，所述修正模块42可进一步包括选择单元421、候选单元422及修正单元423。

选择单元421用于获取用户选择每个语音片段的文本中需要修正的内容。

候选单元422用于生成对应于所述内容中每个字的候选字、所述内容中每个字的音节和对应于所述内容中每个字的候选音节，具体的，当用户点击识别结果中需要修改的具体文字时，可以设置弹出与该文字对应的若干候选字，包括该文字的对应音节以及若干候选音节，这样可以有效地将语音识别结果与输入法结合起来，提供多个候选供用户选择，并将识别结果从文字退化为音节，扩大命中的范围，使用户不必输入一串字母，而是通过候选找到自己所需要的字，另外，所述候选单元412还可用于当所述信噪比大于预设阈值时，减少所述候选字、所述候选音节，信噪比大，表示语音受噪声的污染小，识别结果的准确性高，则可以适当减少候选结果的个数；当所述信噪比小于预设阈值时，增加所述候选字、所述候选音节，信噪比小，表示语音受噪声污染大，则识别结果出现错误的可能性也大大增加，则需要增加候选结果的个数，便于用户能从中选出正确的文字。

修正单元423用于根据用户选择的所述候选字、所述音节和所述候选音节对读音片段中的文本进行修正，具体的，所述修正单元413用于当用户选择所述候选字时，将选出的所述候选字替换所述内容中的相应字；当用户选择所述音节时，生成对应于所述音节的候选字，从所述音节的候选字中选出正确的候选字替换所述内容中的相应字；当用户选择所述候选音节时，生成对应于候选音节的候选字，从所述候选音节的候选字中选出正确的候选字替换所述内容中的相应字；当生成的所述候选字、候选音节中没有正确的结果，则可以调用输入法对文本进行修改。

噪声监测单元43用于在录音时对录音环境进行噪声监测获取信噪比，可以根据不同的信噪比调整候选结果的个数，并在不适合采用语音输入的强噪声情况下提示用户。

本发明通过在录音的同时不断将输入的语音切分语音片段并生成每个语音片段的文本，依次显示每个语音片段的文本，根据用户的选择依次对每个语音片段的文本进行修正，可以自动切分语音识别结果并进行分段返回供用户二次确认，用户可以一边录音一边对返回文本进行修改和确认。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李曜;许东星
技术所有人：盛乐信息技术（上海）有限公司
我是此专利的发明人