一种语音即时通讯方法及装置的制造方法_3

文档序号：8413614阅读：来源：国知局

进一步包括:在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时，在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信肩、O
[0101]进一步优选地，还包括:将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块，以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
[0102]如果是在气泡文本框中显示语音信息的文字结果，在用户长按显示文字内容的气泡文本框后，气泡文本框可编辑。用户修改气泡文本框中的文字信息，点击文本框外的任意位置，完成修改；完成修改后，将用户修改后的文字信息和对应的音频信息，打包发送给语音识别模块保存，作为后续的语音识别训练样本，这样以后的语音识别结果会更加准确，出错的几率越来越小。
[0103]如果是在播放按钮内显示音频信息的文字结果，在用户长按播放按钮后，播放按钮内的内容可编辑。用户修改播放按钮中的文字信息，点击播放按钮的任意位置，完成修改；完成修改后，将用户修改后的文字信息和对应的音频信息，打包发送给语音识别模块保存，作为后续的语音识别训练样本，这样以后的语音识别结果会更加准确，出错的几率越来越小。
[0104]在接收方，接收音频信息及对应的文字信息；在即时通信应用的界面上显示与该段音频信息对应的语音播放图标及文字信息。
[0105]语音识别模块可以为发送方本地的语音识别软件或者为远程后台服务器上的语音识别模块。
[0106]可选地，语音播放图标为与音频信息的时长成正比的播放按钮，还可以在播放按钮的上方显示音频信息的时长及接收时刻等信息。
[0107]可选地，文字信息以气泡文本框的形式与播放按钮衔接显示，或者文字形式的语音识别结果在播放按钮上面显示。具体可以是以弹出气泡文本框的方式，在对应播放按钮的上端显示出来，当然，还可以是其它位置。
[0108]为了正确地显示音频信息的文字结果，用户可以修改错误的文字结果，可选地，本发明实施例还进一步包括:在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时，在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信肩、O
[0109]进一步优选地，还包括:将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块，以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
[0110]如果是在气泡文本框中显示语音信息的文字结果，在用户长按显示文字内容的气泡文本框后，气泡文本框可编辑。用户修改气泡文本框中的文字信息，点击文本框外的任意位置，完成修改；完成修改后，将用户修改后的文字信息和对应的音频信息，打包发送给语音识别模块保存，作为后续的语音识别训练样本，这样以后的语音识别结果会更加准确，出错的几率越来越小。
[0111]如果是在播放按钮内显示音频信息的文字结果，在用户长按播放按钮后，播放按钮内的内容可编辑。用户修改播放按钮中的文字信息，点击播放按钮的任意位置，完成修改；完成修改后，将用户修改后的文字信息和对应的音频信息，打包发送给语音识别模块保存，作为后续的语音识别训练样本，这样以后的语音识别结果会更加准确，出错的几率越来越小。
[0112]本发明实施例在发送方和接收方都可以获取到音频信息和文字结果，可选地，对于接收方，收到音频信息时自动将收到的音频信息对应的文字结果显示或者，通过即时通信应用界面提示用户是否需要语音识别，根据用户的指示确定需要显示文字信息时，将收到的音频信息对应的文字结果。
[0113]本发明实施例让用户能够修正错误的语音信息识别结果，用户更正语音识别错误后，更正的内容和对应语音保存为了语音识别素材，为提升语音识别引擎的识别水平提供了基础。
[0114]基于同一发明构思，本发明实施例中还提供了一种语音即时通讯装置，由于该装置解决问题的原理与一种语音即时通讯方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。
[0115]本发明实施例提供的一种语音即时通讯装置，如图6所示，包括:
[0116]播放显示单元601，用于收到音频信息时，在即时通信应用的界面上显示与所述音频信息对应的语音播放图标；
[0117]文字显示单元602，用于利用语音识别模块对所述音频信息进行语音识别，得到所述音频信息对应的文字信息，并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
[0118]可选地，所述文字显示单元还用于:
[0119]在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时，在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
[0120]可选地，还包括:样本发送单元，用于将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块，以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
[0121]可选地，文字显示单元还用于，在利用语音识别模块对所述音频信息进行语音识别之前，通过所述即时通信应用界面提示用户是否需要语音识别，在确定需要语音识别时，执行利用语音识别模块对所述音频信息进行语音识别的步骤。
[0122]可选地，播放显示单元显示的语音播放图标为与音频信息的时长成正比的播放按钮，所述音频信息对应的文字信息以气泡文本框的形式与所述播放按钮衔接显示，或者所述音频信息对应的文字信息在所述语音播放图标上面显示。
[0123]图7示出了根据本发明另一实施例中作为接收方的语音即时通讯装置700的示意性框图，该语音即时通讯装置700包括:包括处理器710、存储器720和总线系统730。其中，处理器710和存储器720通过总线系统730相连，该存储器720用于存储指令，该处理器710通过该总线系统730，调用该存储器720中存储的该指令，用于:收到音频信息时，在即时通信应用的界面上显示与所述音频信息对应的语音播放图标，利用语音识别模块对所述音频信息进行语音识别，得到所述音频信息对应的文字信息，并在所述即时通信应用的界面上显示所述音频信息对应的文字信息。
[0124]应理解，在本发明实施例中，该处理器710可以是中央处理单元(CentralProcessing Unit,简称为“CPU”)，该处理器700还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0125]该存储器720可以包括只读存储器和随机存取存储器，并向处理器710提供指令和数据。存储器720的一部分还可以包括非易失性随机存取存储器。例如，存储器720还可以存储设备类型的信息。
[0126]该总线系统730除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统730。
[0127]在实现过程中，上述方法的各步骤可以通过处理器710中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器720，处理器710读取存储器720中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
[0128]本发明实施例还提供另一种语音即时通讯装置，如图8所示，包括:
[0129]音频获取单元801，用于通过语音采集装置获取用户录入的音频信息；
[0130]文字获取单元802，用于利用语音识别模块对获取的音频信息进行语音识别，得到所述音频信息对应的文字信息；
[0131]发送显示单元803，用于将获取的音频信息及对应的文字信息发送到即时通信的对端，并在即时通信应用的界面上显示与所述音频信息对应的语音播放图标及文字信息。
[0132]可选地，发送显示单元还用于:
[0133]在显示在所述即时通信应用的界面上的所述音频信息对应的文字信息被修改时，在所述即时通信应用的界面上显示修改后的所述音频信息对应的文字信息。
[0134]可选地，还包括:样本发送单元，用于将所述音频信息以及修改后的所述音频信息对应的文字信息反馈给所述语音识别模块，以使得所述音频信息以及修改后的所述音频信息对应的文字信息作为所述语音识别模块的语音识别训练样本使用。
[0135]图9示出了根据本发明另一实施例中作为发送方的语音即时通讯装置900的示意性框图，该语音即时通讯装置900包括:包括处理器910、存储器920和总线系统930。其中，处理器910和存储器920通过总线系统930相连，该存储器920用于存储指令，该处理器910通过该总线系统930，调用该存储器920中存储的该指令，用于:通过语音采集装置获取用户录入的音频信息；利用语音识别模块对获取的音频信息进行语音识别，得到所述音频信息对应的文字信息；将获取的音

完整全部详细技术资料下载

当前第3页1 2 3 4