语音转换纠错方法和装置与流程

文档序号：13661321阅读：218来源：国知局

本发明涉及语音处理
技术领域：
，尤其涉及一种语音转换纠错方法和装置。
背景技术：
：随着互联网技术的进步，语音识别逐渐走向的舞台，通过语音识别技术，可以实现用户与机器进行语音交流，让机器通过识别和理解过程把语音信号转变为相应的文本或命令。相关技术中，由于用户发音不标准或者环境噪音等的影响，在很多场景下，将语音转换到文本具有歧义，为了纠正这种歧义，需要用户对转换的文本手动删除更改，这样在长句中用户修改的成本较高，一般需要多次修改才能获得正确结果，甚至用户需要重新输入，操作繁琐。技术实现要素：本发明提供一种语音转换纠错方法和装置，以解决现有技术中，纠错步骤繁琐，耗时的技术问题。本发明实施例提供一种语音转换纠错方法，包括以下步骤：对用户输入的连续语音信息进行语音识别转换处理，显示对应的原始文本语句；获取对所述原始文本语句的纠错触发操作，根据预设的信息候选库检测所述原始文本语句，将所述原始文本语句中一处或者多处的原始信息片段转换为至少一个与所述原始信息片段对应的候选信息片段；显示至少一个包含所述候选信息片段的候选文本语句，根据所述用户从所述候选文本语句中选择的目标文本语句替换所述原始文本语句，并将所述目标文本语句发送给目标用户。本发明另一实施例提供一种语音转换纠错装置，包括：第一转换模块，用于对用户输入的连续语音信息进行语音识别转换处理；显示模块，用于显示对应的原始文本语句；获取模块，用于获取对所述原始文本语句的纠错触发操作；第二转换模块，用于根据预设的信息候选库检测所述原始文本语句，将所述原始文本语句中一处或者多处的原始信息片段转换为至少一个与所述原始信息片段对应的候选信息片段；所述显示模块，还用于显示至少一个包含所述候选信息片段的候选文本语句；替换模块，用于根据所述用户从所述候选文本语句中选择的目标文本语句替换所述原始文本语句；发送模块，用于将所述目标文本语句发送给目标用户。本发明又一实施例提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的语音转换纠错方法。本发明还一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的语音转换纠错方法。本发明实施例提供的技术方案可以包括以下有益效果：通过对用户输入的连续语音信息进行语音识别转换处理，显示对应的原始文本语句，获取对原始文本语句的纠错触发操作，根据预设的信息候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段，显示至少一个包含候选信息片段的候选文本语句，根据用户从候选文本语句中选择的目标文本语句替换原始文本语句，并将目标文本语句发送给目标用户。由此，在语音转换为文本出现歧义时，为用户提供多个候选文本语句以供用户选择，从而实现快速完成对语音转换的文本的修改。本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：图1是根据本发明一个实施例的语音转换纠错方法的流程图；图2(a)是根据本发明一个具体实施例的语音转换纠错方法的应用前台界面效果示意图；图2(b)是根据本发明另一个具体实施例的语音转换纠错方法的应用前台界面效果示意图；图3是根据本发明另一个实施例的语音转换纠错的流程图；图4是根据本发明一个实施例的语音转换纠错装置的结构示意图；以及图5是根据本发明另一个实施例的语音转换纠错装置的结构示意图。具体实施方式下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。下面参考附图描述本发明实施例的语音转换纠错方法和装置。图1是根据本发明一个实施例的语音转换纠错方法的流程图，如图1所示，该语音转换纠错方法包括：步骤101，对用户输入的连续语音信息进行语音识别转换处理，显示对应的原始文本语句。可以理解，在可以通过语音输入信息的很多应用场景下，比如在聊天应用中语音输入聊天信息，比如，在浏览器应用中语音输入检索信息等，可通过终端设备的麦克风等装置接收用户输入的连续语音信息，为了将识别该连续的语音对应的相关信息，对其进行识别转换处理为原始文本语句，并在相关应用界面中显示对应的原始文本语句。其中，在本发明的一个实施例中，为了提高语音转换为原始文本语句的准确性，对接收的连续语音信息进行去噪处理，并将去燥处理后的连续语音信息进行转换处理。步骤102，获取对原始文本语句的纠错触发操作，根据预设的信息候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段。具体地，显示对应的原始文本语句代表当前的语音识别结果，但是该语音识别结果可能和用户的输入意图有偏差，比如，用户有语音输入时，会加入一些习惯性的语气词语，比如“今天天气、额，不对，明天天气怎么样”，此时转换的原始文本语句，显然不能满足用户的输入需求，在有些应用场景下，甚至会转换出与用户的输入的语音信息完全相反意思的原始文本语句。因此，获取用户对原始文本语句的纠错触发操作，根据预设的信息候选库检测原始文本语句，根据检测结果，以将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段，其中，与上述至少一个与原始信息片段对应的候选信息片段对应的原始信息片段，是根据检测结构确定的可能具有歧义的片段。其中，根据具体应用需求的不同，可采用不同的方式获取对原始文本的纠错触发操作，举例如下：第一种示例：检测到用户对原始文本语句进行全选操作。在本示例中，如果检测到用户对原始文本语句进行全选操作，则表明用户可能对转换结果不满意，可能想全部删除重新输入，此时确定获取对原始文本语句的纠错触发操作。第二种示例：检测到用户对整句纠错功能控件的触发操作。在本示例中，在相关应用的界面上提供整句纠错功能控件，当用户对转换结果不满意时，可能会触发该控件，比如单击、双击等操作，此时确定获取对原始文本语句的纠错触发操作。第三种示例：检测到用户对原始文本语句中的信息片段进行删除操作。在本示例中，如果检测到用户对原始文本语句中的信息片段进行删除操作，则表明用户可能对该信息片段转换结果不满意，可能想删除重新输入，此时确定获取对原始文本语句的纠错触发操作。当然，在实际应用中，有可能与原始信息片段对应匹配的候选信息片段可能为多个，为了确定出最有可能符合用户的输入意图的候选信息片段，在本发明的实施例中，根据待转换的原始信息片段在原始文本语句中的位置信息以及上下文信息，根据预设的统计模型获取与原始信息片段对应匹配的多个候选信息片段的匹配度。进而，根据预设的匹配策略对多个候选信息片段的匹配度进行分析，获取至少一个与原始信息片段对应的候选信息片段，其中，上述预设的匹配策略是为了避免候选信息片段较多导致用户选择受到干扰，可以是将匹配度高于一定值的信息片段作为候选信息片段的策略，也可以是将用户评价较高的信息片段作为候选信息片段的策略，也可以是将当前热度最高的信息片段作为候选信息片段的策略等。其中，上述统计模型是根据大量实验数据统计设计的，该统计模型可以根据待转换的原始信息片段在原始文本语句中的位置信息以及上下文信息，确定出与原始信息片段对应匹配的多个候选信息片段的匹配度，该预设的统计模型可以是根据大众需求对应的实验数据设计的，从而确定的候选信息片段相对符合大众需求。在本发明的一个实施例中，上述统计模型还可以是针对不同的用户特征单独设计的，从而针对不同的用户输入的原始文本语句即使一样，也有可能确定的候选信息片段不同。具体而言，上述统计模型可以是根据与用户相同说话表达特征的一些用户的实验数据设计的，从而，该统计模型匹配出的候选信息片段能够更加符合用户的个性化需求，能够更加贴近用户的表达情感，当然，在实际执行过程中，为了满足用户的个性化需求，也可以是根据用户输入的喜好特征，或者根据用户的身份信息等数据统计设计的等。步骤103，显示至少一个包含候选信息片段的候选文本语句，根据用户从候选文本语句中选择的目标文本语句替换原始文本语句，并将目标文本语句发送给目标用户。具体地，在确定出与原始信息片段对应的候选信息片段后，显示至少一个包含候选信息片段的候选文本语句，根据用户从候选文本语句中选择的目标文本语句替换原始文本语句，并将目标文本语句发送给目标用户，由此，用户仅仅需要从多个候选文本语句中进行简单的选择操作，比如单击操作等，即可实现对原始文本语句的快速修改，这种方式，在原始文本语句为长句时，优势更加明显。应当理解的是，在本发明的一个实施例中，当原始文本语句为长句时，为了能显示更多的候选文本语句，如果用户对原始文本语句的纠错触发动作对应的原始文本语句为原始信息片段，则也可以仅仅显示与原始信息片段对应的候选文本片段，从而，根据用户的选择，将原始文本片段替换为候选文本片段。为了使得本领域的人员，能够清楚的了解本发明实施例的语音转换纠错方法，下面结合其在具体应用场景中的实施过程进行说明，说明如下：在聊天应用界面中，用户通过点击相关控件触发终端设备的麦克风采集用户的语音信息，进而对用户输入的连续语音信息进行语音识别，在如图2(a)所示的界面中，显示识别对应的原始文本语句“他什么时候出发的？下午5点一刻的，那个，火车来得及吗？”，很显然，整个原始文本语句中需要修改的至少包括“5点一刻”、“那个”两处错误，现有技术中的修改方式，需要用户分别修改这两处错误，整个修改流程是语音输入—识别结果—修改错误1—修改错误2—确认修改完成—确定发送，十分繁琐。如图2(b)所示，如果检测到用户选中整个原始文本语句，则获取对整个原始文本语句的纠错触发操作，此时，根据预设的信息候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为与原始信息片段对应的候选信息片段，继续参照图2(b)，该候选文本语句为“她什么时候出发的？下午5:30的火车来得及吗”和“她什么时候出发的下午5:30的火车来得及吗”。由此，用户仅仅需要触发其候选文本语句对应区域，即可实现对原始文本语句的修改，用户修改不需要多处错误进行分别修改、删除等操作，简化了用户修改的步骤，优化了用户输入流程，节省了用户输入成本。综上所述，本发明实施例的语音转换纠错方法，对用户输入的连续语音信息进行语音识别转换处理，显示对应的原始文本语句，获取对原始文本语句的纠错触发操作，根据预设的信息候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段，显示至少一个包含候选信息片段的候选文本语句，根据用户从候选文本语句中选择的目标文本语句替换原始文本语句，并将目标文本语句发送给目标用户。由此，在语音转换为文本出现歧义时，为用户提供多个候选文本语句以供用户选择，从而实现快速完成对语音转换的文本的修改。基于以上实施例，应当理解的是，在根据预设的信息候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段的过程中，预设的信息候选库可以根据应用场景的不同，包含不同的内容。作为一种可能的实现方式，该预设的信息候选库包括标准用语候选库，在本示例中，根据预设的标准用语候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与所述原始信息片段对应的候选信息片段。在本示例中，标准用语候选库具体包括下述一种或者几种组合：第一种：根据语气词候选库对原始信息片段进行过滤或者改写。其中，过滤操作对应语气词可包括：“嗯”、“然后”、“就是”、“那个”等，改写操作对应的语气词可包括：“不对”、“错了”、“哦不”等。举例而言，原始信息片段的候选结果与原始信息的片段的对比可以如下表1所示：表1第二种：根据同音词候选库将原始信息片段转换成至少一个同音候选词。在本示例中，可以基于原始信息片段的前后文结构和词性将原始信息片段转换成至少一个同音候选词，比如基于主语和人名进行同音的候选词的确定，比如，可以基于动词、形容词进行同音或者近义词的候选词的确定。举例而言，原始信息片段的候选结果与原始信息的片段的对比可以如下表2所示：表2识别结果候选结果他她/它晶晶菁菁张三章三理解李姐开心高兴/愉快工作上班厉害强大第三种，根据口语词候选库将原始信息片段转换成对应的书面候选词。在本示例中，考虑到用户会在日常讲话过程中，将常用词语会在口语化的使用中插入一些量词等，比如插入“一下/一个/一”等，此时根据这种讲话习惯，将原始信息片段转换成对应的书面候选词。举例而言，原始信息片段的候选结果与原始信息的片段的对比可以如下表3所示：表3第四种，根据数字或者英文转换候选库将原始信息片段转换成对应的候选信息片段。在本示例中，为了表述的清楚，可以对超过百位的数字处理，大小写转写，时间数字转写等。举例而言，对包含数字和英文的原始信息片段的候选结果与原始信息的片段的对比，分别如下表4和5所示：表4识别结果候选结果三百，50，万350万/三百五十万181点六181.6/一百八十一点六五分之一1/520％百分之二十100％点一100.1％五点一刻5:15六点二十分6:20表5识别结果候选结果ii我喜欢cherry我喜欢cherry长方形abcd长方形abcd第五种，根据标点候选库将原始信息片段的间隔符号转换成对应的候选间隔符号。在本示例中，为了使得转换的候选文本片段能够更加符合用户的说话语气，根据标点候选库将原始信息片段的间隔符号转换成对应的候选间隔符号。举例而言，原始信息片段的候选结果与原始信息的片段的对比，如下表6所示：表6第六种，根据中英文对照候选库将原始信息片段的中文或英文转换为对应英文或中文。举例而言，原始信息片段的候选结果与原始信息的片段的对比，如下表7所示：表7识别结果候选结果安娜annababy北鼻亨利henryandy安迪丽萨lisa杰克jack贾斯汀justin需要理解的是，在本发明的实施例中，为了使得转换的候选信息片段更加符合用户的输入意图，还可基于用户的偏好特征进行转换。图3是根据本发明另一个实施例的语音转换纠错的流程图，如图3所示，上述步骤102包括：步骤201，获取用户的偏好特征。其中，用户的偏好特征包括用户的需要说明的是，根据具体应用需求的不同，可采用不同的方式获取用户额偏好特征，比如，可以通过接收用户输入的偏好特征，比如，可以通过采集并学习用户的历史输入数据获取用户的偏好特征等。步骤202，根据与偏好特征对应的个性化用语候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段。可以理解，预先根据与偏好特征对应的个性化用语候选库，从而根据与偏好特征对应的个性化用语候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段，从而实现了在不同的应用场景下，不同用户即使说同一个query，输出的结果不是一致的，满足了用户的个性化需求。举例而言，如下表8所示，可以基于用户a的偏好特征对应的个性化用语候选库检测原始文本语句，将原始文本语句中的原始信息片段转化为符合用户的偏好特征的候选信息片段。表8综上所述，本发明实施例的语音转换纠错方法，在根据预设的信息候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段时，预设的信息候选库可以根据应用场景的不同，包含不同的内容，灵活性较高，实用性较强，进一步方便了用户对语音转换的文本的修改。为了实现上述实施例，本发明还提出了一种语音转换纠错装置，图4是根据本发明一个实施例的语音转换纠错装置的结构示意图，如图4所示，该语音转换纠错装置包括：第一转换模块100、显示模块200、获取模块300、第二转换模块400、替换模块500和发送模块600。其中，第一转换模块100，用于对用户输入的连续语音信息进行语音识别转换处理。显示模块200，用于显示对应的原始文本语句。获取模块300，用于获取对原始文本语句的纠错触发操作。在本发明的一个实施例中，获取模块300检测到用户对原始文本语句进行全选操作；或者，检测到用户对整句纠错功能控件的触发操作；或者，检测到用户对原始文本语句中的信息片段进行删除操作。第二转换模块400，用于根据预设的信息候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段。在本发明的一个实施例中，如图5所示，在如图4所述的基础上，该第二转换模块400包括第一获取单元410和第二获取单元420。其中，第一获取单元410，用于根据待转换的原始信息片段在原始文本语句中的位置信息以及上下文信息，根据预设的统计模型获取与原始信息片段对应匹配的多个候选信息片段的匹配度。第二获取单元420，用于根据预设的匹配策略对多个候选信息片段的匹配度进行分析，获取至少一个与原始信息片段对应的候选信息片段。在本实施例中，显示模块200，还用于显示至少一个包含候选信息片段的候选文本语句；替换模块500，用于根据用户从候选文本语句中选择的目标文本语句替换原始文本语句；发送模块600，用于将目标文本语句发送给目标用户。需要说明的是，前述对语音转换纠错方法的解释说明，也适用于本发明实施例的语音转换纠错装置，本发明实施例中未公布的细节，在此不再赘述。上述语音转换纠错装置中各个模块的划分仅用于举例说明，在其他实施例中，可将语音转换纠错装置按照需要划分为不同的模块，以完成上述语音转换纠错装置的全部或部分功能。综上所述，本发明实施例的语音转换纠错装置，对用户输入的连续语音信息进行语音识别转换处理，显示对应的原始文本语句，获取对原始文本语句的纠错触发操作，根据预设的信息候选库检测原始文本语句，将原始文本语句中一处或者多处的原始信息片段转换为至少一个与原始信息片段对应的候选信息片段，显示至少一个包含候选信息片段的候选文本语句，根据用户从候选文本语句中选择的目标文本语句替换原始文本语句，并将目标文本语句发送给目标用户。由此，在语音转换为文本出现歧义时，为用户提供多个候选文本语句以供用户选择，从而实现快速完成对语音转换的文本的修改。为了实现上述实施例，本发明还提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的语音转换纠错方法。为了实现上述实施例，本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时实现如上述实施例所述的语音转换纠错方法。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属
技术领域：
的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。本
技术领域：
的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周承礼;谢波
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：钢纸原纸生产用调节式筛浆机的制作方法
上一篇：造纸纸浆除砂机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。