一种语音答题方法及装置与流程

文档序号：19724567发布日期：2020-01-18 03:15阅读：431来源：国知局

导航： X技术> 最新专利>办公文教;装订;广告设备的制造及其产品制作工艺

本申请涉及计算机技术领域，特别涉及一种语音答题方法及装置、计算设备及计算机可读存储介质。

背景技术：

随着计算机技术的快速发展和其在教育信息化领域地不断深入，各种工具类教育产品越来越被家长和学生所接受及使用。工具类教育产品主要是为学生、家长、老师提供教育辅导上的技术支持和帮助。

目前的工具类教育产品有很多能够提供语音读题功能，但是却没有实现语音答题功能，需要用户手动输入来进行答题，对于学龄前的用户不友好，一是学龄前儿童需要认识并会手写数字和符号才能进行练习，二是长时间观看手机不利于幼儿的眼睛视力发育。

技术实现要素：

有鉴于此，本申请实施例提供了一种语音答题方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种语音答题方法，包括：

s10、接收答题指令，并基于所述答题指令在目标语音题目库中抽取待回答题目，生成题目集；

s20、依次播放所述题目集中的待回答题目；

s30、持续采集用户语音数据；

s40、依次识别并显示所述用户语音数据中的当前答案信息，并在未获取到答案信息的情况下，执行所述步骤s30，在获取到答案信息的情况下，执行步骤s50；

s50、判断所述当前答案信息是否是所述待回答题目的正确答案，若是，则执行步骤s51，若否，则执行步骤s52；

s51、生成回答正确提示，并继续执行所述步骤s20；

s52、生成回答错误提示，并继续执行所述步骤s40。

进一步地，在所述步骤s10之前，还包括：

s01、获取原始语音数据和至少一个携带有类别信息的文本题目库；

s02、基于所述原始语音数据和所述文本题目库，合成相对应的携带有类别信息的语音题目库。

进一步地，所述步骤s10，包括：

s11、接收携带有类别信息和题目数量信息的答题指令；

s12、基于所述答题指令携带的类别信息，匹配与所述答题指令的类别信息相同的语音题目库作为目标语音题目库；

s13、基于所述答题指令携带的题目数量信息，在所述目标语音题目库中抽取目标数量的待回答题目，生成题目集。

进一步地，所述步骤s40，包括：

s41、对所述用户语音数据进行处理，得到至少一个词单元；

s42、判断当前词单元是否为答案信息；

在所述当前词单元是答案信息的情况下，显示当前答案信息，并继续执行所述步骤s50；

在所述词单元不是答案信息的情况下，继续执行步骤s43；

s43、判断所述词单元是否为最后一个词单元；

若是，则继续执行所述步骤s30；

若否，则继续执行所述步骤s42。

进一步地，在所述步骤s20之后，还包括：

s22、判断答题时间是否超过第二预设阈值；

若是，则继续执行所述步骤s20；

若否，则继续执行所述步骤s41。

进一步地，在所述步骤s22之前，还包括：

s21、判断答题时间是否超过第一预设阈值；

若是，则生成倒计时提示，并继续执行所述步骤s22；

若否，则继续执行所述步骤s22。

进一步地，所述步骤s52，包括：

生成回答错误提示，并继续执行所述步骤s43。

本申请还公开了一种语音答题装置，包括：

接收模块，被配置为接收答题指令，并基于所述答题指令在目标语音题目库中抽取待回答题目，生成题目集；

播放模块，被配置为依次播放所述题目集中的待回答题目；

采集模块，被配置为持续采集用户语音数据；

识别模块，被配置为依次识别并显示所述用户语音数据中的当前答案信息，并在未获取到答案信息的情况下，执行所述采集模块，在获取到答案信息的情况下，执行判断模块；

判断模块，被配置为判断所述当前答案信息是否是所述待回答题目的正确答案，若是，则执行正确模块，若否，则执行错误模块；

正确模块，被配置为生成回答正确提示，并继续执行所述播放模块；

错误模块，被配置为生成回答错误提示，并继续执行所述识别模块。

本申请还公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述语音答题方法的步骤。

一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述语音答题方法的步骤。

本申请提供的语音答题方法及装置，通过语音播放题目、采集用户语音数据、识别用户语音数据中的答案信息以及判断答案信息是否正确，达到语音读题、语音答题的目的，可以有效减少用户长时间观看手机带来的视力损伤，解决了如学龄前儿童等部分特殊人群不方便手动输入答案的问题，操作简单，使用方便，适用范围广。

附图说明

图1是本申请一实施例的计算设备的结构示意图；

图2是本申请一实施例的语音答题方法的步骤流程示意图；

图3是本申请一实施例的语音答题方法的步骤流程示意图；

图4是本申请一实施例的语音答题装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

语音合成(texttospeech，tts)：简称tts技术，涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术，是中文信息处理领域的一项前沿技术。语音合成就是一个将文本转化为语音输出的过程,这个过程的工作主要是将输入的文本按字或词分解为音素，并且对文本中的数字、货币单位、单词变形以及标点等要特殊处理的符号进行分析，以及将音素生成数字音频然后用扬声器播放出来或者存为声音文件以后用多媒体软件播放。

语音降噪：即语音增强技术，是当语音信号被噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。

语音识别技术：也被称为自动语音识别(automaticspeechrecognition，asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

在本申请中，提供了一种语音答题方法及装置、计算设备及计算机刻度存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的语音答题方法的示意性流程图，包括步骤s201至步骤s207。

s201、接收答题指令，并基于所述答题指令在目标语音题目库中抽取待回答题目，生成题目集。

具体地，所述答题指令是一种计算机指令，可以是“开始答题”、“readygo”等各种形式的指令，本申请对此不做限制。语音题目库是一种存储有大量语音题目的数据库，目标语音题目库是存储有用户所需的类型的语音题目的数据库。

答题指令中携带有题目类别信息以及题目数量信息，题目类别信息可以是如“数学”、“英语”等的科目类别信息，也可以是如“十以内加减法”、“百以内加减法”等的难度类别信息，还可以是如“小学一年级”、“小学二年级”等的年级类别信息，或是以上的任意组合，可视具体情况而定，本申请对此不作限制。题目数量信息可供用户自行选择，如“5道题”、“10道题”等，可以根据答题指令中携带的题目类别匹配选择相对应的语音题目库作为目标语音题目库，并根据题目数量信息在目标语音题目库中随机抽取相应数量的题目，组成题目集。

基于答题指令在目标语音题目库中抽取待回答题目，可以达到根据用户的答题指令灵活的选择不同类型的题目库、灵活的选择一次性答题的数量的目的，答题自由度高，以满足不同用户的需求。

s202、依次播放所述题目集中的待回答题目。

具体地，按照题目集中待回答题目的顺序依次播放每一个待回答题目，每两道相邻待回答题目之间预留有一定的答题时间，答题时间的长度可以根据题目的类型或题目的难度有所差异，比如小学一年级数学题的答题时间可以为10秒，小学二年级数学题的答题时间可以为20秒等，可视具体情况而定，本申请对此不做限制。

语音播放待回答题目，可以有效避免用户长时间观看手机，解放双眼，保护视力。

s203、持续采集用户语音数据。

具体地，在播放完一道待回答题目的语音后，即开始采集用户语音数据。需要说明的是，本步骤中采集用户语音数据是在播放完待回答题目后实时、连续采集的。

在此过程中，计算设备100的语音采集组件会保持工作状态，以实现对用户语音数据的连续采集。其中，语音采集组件可以设置于计算设备100上，例如，设置于计算设备100的话筒，也可以与计算设备100分体设置并与计算设备通过有线或无线的形式连接，例如麦克风等。

通过实时采集用户语音数据，达到语音答题的目的，可以解放用户的双手，尤其是对于学龄前用户，通过语音答题解决了如学龄前用户等特殊人群用户无法手动输入答案的问题。

s204、依次识别并显示所述用户语音数据中的当前答案信息。

s205、判断是否获取到答案信息。

若否，则执行所述步骤s203。

若是，则执行步骤s206。

其中，答案信息是与待回答题目相对应类型的语言信息，比如在待回答题目为计算题的情况下，答案信息即为数字，在待回答题目为英文题的情况下，答案信息即为英文，其他情况可以此类推，不再赘述。

具体地，在识别过程中还可以利用语音降噪技术对采集到的用户语音数据进行处理，以剔除噪音且更加准确的识别用户声音中的答案信息。

在采集到用户语音数据后，对用户语音数据中的内容依次进行识别，检测是否获取到答案信息，在答题时间内未获取到答案信息的情况下，继续采集用户语音数据，在获取到答案信息的情况下，依次显示并判断用户语音数据中每一个答案信息的正确与否，直至答案信息为正确答案或答题时间用尽为止。

例如，假设在计算题的回答过程中，采集到的用户语音数据的内容包括：“答案为3，不，是4”，对上述用户语音数据的内容逐字进行识别，“答”不是答案信息，舍弃，“案”不是答案信息，舍弃，以此类推，“3”是答案信息，则显示“3”并判断“3”是否为正确答案，在“3”是正确答案的情况下，停止识别，在“3”不是正确答案的情况下，继续识别。

通过识别用户语音数据中的答案信息，可以过滤剔除用户语音数据中与待回答题目不相关的内容，提高答案识别、判断的准确性，不管答案信息的正确与否，均将答案信息进行显示，可以给予用户更好的反馈，提高用户体验。

s206、判断所述当前答案信息是否是所述待回答题目的正确答案，若是，则执行步骤s207，若否，则执行步骤s208。

s207、生成回答正确提示，并继续执行所述步骤s202。

s208、生成回答错误提示，并继续执行所述步骤s204。

具体地，在检测到用户语音数据中的答案信息的情况下，判断答案信息是否是正确答案，若是，则生成回答正确提示，并跳转至下一题，继续播放待回答题目，若否，则生成回答错误提示，并继续识别用户语音数据中的答案信息。

其中，回答正确提示和回答错误提示既可以是语音提示、文字提示、震动提示等单一提示方式，也可以是上述提示方式的任意组合，本申请对此不做限制。

下面结合具体的例子对本实施例进一步说明。

例如，假设接收到的答题指令中携带有题目类别信息“十以内加减法”、题目数量信息为“2道题”，则在“十以内加减法”语音题目库中随机抽取两道待回答题目组成题目集。

播放第1道待回答题目“一加一等于几？”，采集用户语音数据并计时。

假设采集到的用户语音数据的内容包括“3、2”，依次识别并显示用户语音数据中的答案信息，其中“3”为答案信息，作答页面中显示用户答案为“3”，判断答案“3”为错误答案，生成回答错误提示，继续识别用户语音数据中的答案信息，得到“2”为答案信息，作答页面中显示用户答案为“2”，判断答案“2”为正确答案，生成回答正确提示，并跳转至第2题。

播放第2道待回答题目“二减一等于几？”，采集用户语音数据并计时。

假设采集到的用户语音数据的内容包括“1”，依次识别并显示用户语音数据中的答案信息，其中“1”为答案信息，作答页面中显示用户当前答案信息为“1”，判断答案“1”为正确答案，生成回答正确提示。题目集中的全部题目已播放完毕，完成整个作答过程，统计并显示作答结果。

本实施例提供的语音答题方法，通过语音播放题目、采集用户语音数据、识别用户语音数据中的答案信息以及判断答案信息是否正确，达到语音读题、语音答题的目的，可以有效减少用户长时间观看手机带来的视力损伤，解决了如学龄前儿童等部分特殊人群不方便手动输入答案的问题，操作简单，使用方便，适用范围广。

如图3所示，图3示出了本申请一实施例的语音答题方法的示意性流程图，包括步骤s301至步骤s315。

s301、获取原始语音数据和至少一个携带有类别信息的文本题目库。

其中，原始语音数据为预先录制的语料，可以为女声、男声或童声语料，也可以为卡通型声音等各种风格类型的声音语料，以提高对不同年龄阶段用户的吸引力、增大受众范围，本申请对此不做限制。

文本题目库是一种存储有大量文本题目的数据库，文本题目库的类别信息可以是如“数学”、“英语”等的科目类别信息，也可以是如“十以内加减法”、“百以内加减法”等的难度类别信息，还可以是如“小学一年级”、“小学二年级”等的年级类别信息，或是以上的任意组合，可视具体情况而定，本申请对此不作限制。可以定期对文本题目库进行更新，以丰富题目的类型、保证题目的新颖性。

s302、基于所述原始语音数据和所述文本题目库，合成相对应的携带有类别信息的语音题目库。

具体地，可以通过tts语音合成技术将原始语音数据和文本题目合成语音题目。利用语音合成技术合成语音题目，可以针对不同难度、不同类型的题目以及不同年龄阶段的受众人群灵活的选择不同风格的语音，以提高语音答题的趣味性和对目标受众人群的吸引力。

需要说明的是，上述步骤s301和步骤s302均为开始语音答题前的准备工作，文本题目库、语音题目库可以定期更新，无需每次答题前均重复上述两步。

s303、接收携带有类别信息和题目数量信息的答题指令。

答题指令中携带有题目类别信息以及题目数量信息，题目类别信息与上述文本题目库及语音题目库的类别信息相同，可以是科目类别信息，也可以是难度类别信息，还可以是年级类别信息，或是以上的任意组合，可视具体情况而定，本申请对此不作限制。题目数量信息可供用户自行选择，如“5道题”、“10道题”等，答题指令中携带的题目类别信息用于匹配选择相对应的语音题目库作为目标语音题目库，题目数量信息用于在目标语音题目库中随机抽取相应数量的题目，组成题目集。

s304、基于所述答题指令携带的类别信息，匹配与所述答题指令的类别信息相同的语音题目库作为目标语音题目库。

具体地，以类别信息为年级类别信息与科目类别信息的组合为例，假设答题指令中携带的类别信息为“小学一年级数学”，则在全部的语音题目库中匹配类别信息同样为“小学一年级数学”语音题目库作为目标语音题目库。

s305、基于所述答题指令携带的题目数量信息，在所述目标语音题目库中抽取目标数量的待回答题目，生成题目集。

具体地，以题目数量信息为“20道题”为例，假设目标语音题目库中共有一千道题，则在上述目标语音题目库的一千道题中随机抽取20道题，生成题目集。

s306、依次播放所述题目集中的待回答题目。

具体地，按照题目集中待回答题目的顺序依次播放每一个待回答题目，每两道相邻待回答题目之间预留有一定的答题时间，答题时间的长度可以根据题目的类型或题目的难度有所差异。语音播放待回答题目，可以有效避免用户长时间观看手机，解放双眼，保护视力。

s307、持续采集用户语音数据。

通过实时采集用户语音数据，达到语音答题的目的，可以解放用户的双手，尤其是对于学龄前用户，通过语音答题解决了学龄前用户无法手动输入答案的问题。

s308、判断答题时间是否超过第一预设阈值。

若是，则执行步骤s3081，再继续执行步骤s309。

若否，则继续执行步骤s309。

s3081、生成倒计时提示。

其中，答题时间的第一预设阈值略小于预设的最长答题时间，答题时间的第一预设阈值与最长答题时间之间的差值可以为5秒、10秒、15秒等，可视具体情况而定。以预设的最长答题时间为30秒为例，答题时间的第一预设阈值为25秒，则在答题时间超过25秒的情况下，生成倒计时提示。倒计时提示的设置，可以起到良好的时间提醒作用，提醒用户答题时间即将结束。

需要说明的是，上述步骤s307和步骤s308的执行过程可以有重叠。具体地，在开始采集语音数据的同时即开始计时，且在采集语音数据的过程中可以实时判断答题时间是否超过第一预设阈值，以及时发出提醒。

s309、判断答题时间是否超过第二预设阈值。

若是，则继续执行所述步骤s306。

若否，则继续执行所述步骤s310。

其中，答题时间的第二预设阈值为预先设置的每道题最长答题时间，第二预设阈值的具体数值可以根据题目集中待回答题目的类型及难度灵活设置，比如，若待回答题目为小学一年级数学题，则第二预设阈值可以为10秒，若待回答题目为小学二年级数学题，则第二预设阈值可以为20秒，具体可视情况而定，本申请对此不做限制。

具体地，自待回答题目的语音播放完毕开始计时，统计用户的答题时间，若答题时间超过第二预设阈值后用户仍未作答或作答错误，则该题跳过，继续播放下一题语音。

第二预设阈值即最长答题时间的设置，可以有效避免用户一直不作答，在一道题目上耽误过长时间的情况，辅助推进答题的进度。

s310、对所述用户语音数据进行处理，得到至少一个词单元。

具体地，对用户语音数据进行处理具体包括将用户语音数据转换为文本，对文本进行分句、分词处理，得到至少一个词单元。以用户语音数据包括“答案是1”为例，对用户语音数据进行处理后，即得到“答”、“案”、“是”、“1”四个词单元。

s311、判断当前词单元是否为答案信息。

若是，则继续执行步骤s313。

若否，则继续执行步骤s312。

以待回答题目为计算题为例，假设词单元包括“答”、“案”、“是”、“1”，依次识别并判断每一个词单元是否为答案信息，即得到词单元“答”、“案”、“是”均不是答案信息，词单元“1”是答案信息。

s312、判断所述词单元是否为最后一个词单元。

若是，则继续执行所述步骤s307。

若否，则继续执行所述步骤s311。

具体地，判断当前词单元是否为最后一个词单元即判断在最长答题时间内采集到的用户语音数据是否已完全识别完毕，在识别完毕的情况下，继续采集用户语音数据，在未识别完毕的情况下，继续识别分析。

判断词单元是否为最后一个词单元的步骤，可以保证对用户语音数据识别分析的全面性、完整性，避免识别过程中关键信息的遗漏。

s313、判断所述当前答案信息是否是所述待回答题目的正确答案，若是，则执行步骤s314，若否，则执行步骤s315。

s314、生成回答正确提示，并继续执行所述步骤s306。

s315、生成回答错误提示，并继续执行所述步骤s312。

具体地，若当前答案信息为正确答案，则生成回答正确提示，并跳转至下一题，继续播放待回答题目，若当前答案信息为错误答案，则生成回答错误提示，并继续判断当前答案信息即词单元是否为用户语音数据中的最后一个词单元，若是，则跳转至下一题，若否，则继续识别分析下一个答案信息是否为正确答案。

实际应用中，在题目集中的所有题目回答完毕后，还可以统计题目回答情况并生成答题反馈表，将题目回答情况反馈给用户。

下面结合具体的例子对本实施例进一步说明。

例如，假设接收到的答题指令携带有类别信息“十以内加减法”，题目数量信息“5道题”。基于上述类别信息在预先生成的若干语音题目库中匹配“十以内加减法”语音题目库，并随机抽取其中三道题组成题目集，预先设置每道题的最长答题时间为20秒，并在开始计时15秒后发出倒计时提示，即答题时间的第一预设阈值为15秒，第二预设阈值为20秒。

开始播放第1题“五加五等于几？”播放完毕，开始采集用户语音数据并计时，计时开始后15秒，未采集到用户语音数据，发出倒计时提示，倒计时完毕，已达最长答题时间20秒，仍未采集到用户语音数据，第一题跳过。

开始播放第2题“九减三等于几？”播放完毕，开始采集用户语音数据并计时，在答题时间内采集到的用户语音数据包括“5，6，8”，对上述用户语音数据进行处理得到“5”“6”“8”三个词单元，依次对上述三个词单元进行识别。词单元“5”是答案信息，但不是正确答案，显示词单元“5”并生成回答错误提示，词单元“5”不是最后一个词单元，继续识别下一个词单元，词单元“6”是答案信息，且是正确答案，答案正确，显示词单元“6”并生成回答正确提示，停止识别，跳转至下一题。

开始播放第3题“二加三等于几？”播放完毕，开始采集用户语音数据并计时，在答题时间内采集到用户的语音数据包括“应该是5吧”，对上述用户语音数据进行处理得到“应”“该”“是”“5”“吧”五个词单元，依次对上述五个词单元进行识别，词单元“应”不是答案信息，且不是最后一个词单元，继续识别下一个词单元，词单元“该”不是答案信息，且不是最后一个词单元，继续识别下一个词单元，词单元“是”不是答案信息，且不是最后一个词单元，继续识别下一个词单元，词单元“5”是答案信息，且是正确的，停止识别，显示词单元“5”并生成回答正确提示，跳转至下一题。

开始播放第4题“七加一等于几？”播放完毕，开始采集用户语音数据并计时，在答题时间内采集到用户的语音数据包括“不知道”，对上述用户语音数据进行处理得到“不”“知”“道”三个词单元，依次对上述三个词单元进行识别，词单元“不”不是答案信息，且不是最后一个词单元，继续识别下一个词单元，词单元“知”不是答案信息，且不是最后一个词单元，继续识别下一个词单元，词单元“道”不是答案信息，且是最后一个词单元，在答题时间内未在用户语音数据中识别到答案信息，判断回答错误，并跳转至下一题。

开始播放第5题“八减三等于几？”播放完毕，开始采集用户语音数据并计时，在答题时间内采集到用户的语音数据包括“5”，对上述用户语音数据进行处理得到词单元“5”，对上述词单元进行识别，该词单元为答案信息且为正确答案，显示该词单元并生成回答正确提示。该题目已是题目集中的最后一题，语音答题完成，生成答题情况反馈表，“跳过一题、正确三题、错误一题”。

本实施例提供的语音答题方法，通过语音播放题目、采集用户语音数据、识别用户语音数据中的答案信息以及判断答案信息是否正确，达到语音读题、语音答题的目的，且通过对用户语音数据中每一个词单元依次进行识别和判断，可以有效保证识别和判断结果的准确性，且在已识别到正确答案的情况下，后续词单元不再进行识别判断步骤，可以减少计算量。

本实施例提供的语音答题方法，可以有效减少用户长时间观看手机带来的视力损伤，解决了如学龄前儿童等部分特殊人群不方便手动输入答案的问题，操作简单，使用方便，适用范围广。

一种语音答题装置，包括：

接收模块401，被配置为接收答题指令，并基于所述答题指令在目标语音题目库中抽取待回答题目，生成题目集；

播放模块402，被配置为依次播放所述题目集中的待回答题目；

采集模块403，被配置为持续采集用户语音数据；

识别模块404，被配置为依次识别并显示所述用户语音数据中的当前答案信息，并在未获取到答案信息的情况下，执行所述采集模块403，在获取到答案信息的情况下，执行判断模块405；

判断模块405，被配置为判断所述当前答案信息是否是所述待回答题目的正确答案，若是，则执行正确模块406，若否，则执行错误模块407；

正确模块406，被配置为生成回答正确提示，并继续执行所述播放模块402；

错误模块407，被配置为生成回答错误提示，并继续执行所述识别模块404。

可选地，所述语音答题装置，还包括：

获取模块，被配置为获取原始语音数据和至少一个携带有类别信息的文本题目库；

合成模块，被配置为基于所述原始语音数据和所述文本题目库，合成相对应的携带有类别信息的语音题目库。

可选地，所述接收模块401，进一步地被配置为：

接收携带有类别信息和题目数量信息的答题指令；

基于所述答题指令携带的类别信息，匹配与所述答题指令的类别信息相同的语音题目库作为目标语音题目库；

基于所述答题指令携带的题目数量信息，在所述目标语音题目库中抽取目标数量的待回答题目，生成题目集。

可选地，所述识别模块404，进一步地被配置为：

处理模块，被配置为对所述用户语音数据进行处理，得到至少一个词单元；

答案信息判断模块，被配置为判断当前词单元是否为答案信息；

在所述当前词单元是答案信息的情况下，显示当前答案信息，并继续判断所述当前答案信息是否是所述待回答题目的正确答案。

在所述词单元不是答案信息的情况下，继续判断所述词单元是否为最后一个词单元；

若是，则继续执行采集模块403；

若否，则继续执行答案信息判断模块。

可选地，所述语音答题装置，还包括：

第二时间判断模块，被配置为判断答题时间是否超过第二预设阈值；

若是，则继续执行播放模块402；

若否，则继续执行处理模块。

可选地，所述语音答题装置，还包括：

第一时间判断模块，被配置为判断答题时间是否超过第一预设阈值；

若是，则生成倒计时提示，并继续执行第二时间判断模块；

若否，则继续执行第二时间判断模块。

本申请提供的语音答题装置，通过语音播放题目、采集用户语音数据、识别用户语音数据中的答案信息以及判断答案信息是否正确，达到语音读题、语音答题的目的，可以有效减少用户长时间观看手机带来的视力损伤，解决了如学龄前儿童等部分特殊人群不方便手动输入答案的问题，操作简单，使用方便，适用范围广。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

s10、接收答题指令，并基于所述答题指令在目标语音题目库中抽取待回答题目，生成题目集。

s20、依次播放所述题目集中的待回答题目。

s30、持续采集用户语音数据。

s40、依次识别并显示所述用户语音数据中的当前答案信息，并在未获取到答案信息的情况下，执行所述步骤s30，在获取到答案信息的情况下，执行步骤s50。

s50、判断所述当前答案信息是否是所述待回答题目的正确答案，若是，则执行步骤s51，若否，则执行步骤s52。

s51、生成回答正确提示，并继续执行所述步骤s20。

s52、生成回答错误提示，并继续执行所述步骤s40。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述语音答题方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语音答题方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语音答题方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李响;夏龙;马楠;高强;孙梦蕊;王宏伟;吴凡;李鑫
技术所有人：北京猿力未来科技有限公司
我是此专利的发明人

上一篇：一种含有噁唑酰草胺和二氯喹啉酸的可分散油悬浮剂的制作方法
上一篇：非晶带材及其制备方法与流程