一种修复输入语音的方法及其装置的制造方法

文档序号:9709482阅读:623来源:国知局
一种修复输入语音的方法及其装置的制造方法
【技术领域】
[0001]本申请涉及语音输入技术领域,尤其涉及一种修复输入语音的方法及其装置。
【背景技术】
[0002]随着互联网技术的发展,语音技术作为一种方便、直接的通讯方式得到了广泛的应用。例如,用户可以通过语音进行即时通讯或者发布语音信息(例如语音微博)。语音即时通讯是用户通过终端设备输入语音,该语音数据通过互联网络进行传输,以实现即时通τΗ ο
[0003]因此,对于语音即时通讯来说,用户通过终端设备所输入语音的完整性严重影响着语音即时通讯的效果。通常的语音即时通讯技术,如微信,来往,易信等,在用户通过终端设备进行语音输入时,该语音结尾阶段的一个或多个字段会容易出现缺失。并且,由于其他环境噪音的影响,用户通过终端设备输入的语音也容易存在其他字段的缺失。这种字段的缺失将会导致输出语音的信息完整性受损,造成整个句子的意思表达不清,影响语音即时通讯的效果。用户通常需为此重新进行语音的输入,这种重复操作会影响用户的体验,以及占用更多地时间成本。
[0004]因此,如何对输入语音进行修复,保证输入语音的完整性成为亟待解决的技术问题。

【发明内容】

[0005]有鉴于此,本申请提供一种修复输入语音的方法及其装置,其对输入语音进行修复,保证了输入语音的完整性。
[0006]本申请提供一种修复输入语音的方法,包括:
[0007]根据预设的语音识别库对接收的输入语音中的语音字段进行识别,确定所述输入语音中是否存在待修复的语音字段;
[0008]如所述输入语音中存在待修复的语音字段,则从所述预设的语音识别库中获取与所述待修复的语音字段相匹配的纠正语音字段;以及
[0009]将所述纠正语音字段替换所述输入语音中的待修复语音字段,得到修复后的输入语音。
[0010]本申请还提供一种修复输入语音的装置,包括:
[0011]检索模块,用于根据预设的语音识别库对接收的输入语音中的语音字段进行识另IJ,确定所述输入语音中是否存在待修复的语音字段;
[0012]修复模块,用于当所述输入语音中存在待修复的语音字段,则从所述预设的语音识别库中获取与所述待修复的语音字段相匹配的纠正语音字段;以及
[0013]替换模块,用于将所述纠正语音字段替换所述输入语音中的待修复语音字段,得到修复后的输入语音。
[0014]由以上技术方案可见,本申请对接收的输入语音中的语音字段进行识别,以确定输入语音中是否存在待修复的语音字段。本申请根据语音识别库,获取与待修复的语音字段相匹配的纠正语音字段。将纠正语音字段替换所述输入语音中的待修复语音字段,得到修复后的输入语音。因此,本申请对输入语音进行了识别与修复,保证了输入语音的完整性,提升了用户体验。
【附图说明】
[0015]图1是应用本申请的服务器与终端设备的通讯示意图;
[0016]图2是本申请修复输入语音的方法流程图;
[0017]图3是本申请修复输入语音的装置结构图;
[0018]图4是本申请一实施例的结构图;
[0019]图5是本申请修复输入语音的装置中替换模块的结构图;
[0020]图6是本申请终端设备的用户界面示意图。
【具体实施方式】
[0021]本申请对接收的输入语音中的语音字段进行识别,以确定输入语音中是否存在待修复的语音字段。本申请根据语音识别库,获取与待修复的语音字段相匹配的纠正语音字段。将纠正语音字段替换所述输入语音中的待修复语音字段,得到修复后的输入语音。因此,本申请对输入语音进行了识别与修复,保证了输入语音的完整性,提升了用户体验。
[0022]下面结合本申请附图进一步说明本申请具体实现。
[0023]参看图1,本申请提供一种修复输入语音的方法,其应用于进行音频解析处理的服务器11。用户通过终端设备12进行语音输入,所述终端设备12通过网络(可以为有线,无线或者二者的组合)与所述服务器11连接。所述终端设备12通常为手机、平板电脑、智能穿戴设备或者PC等。所述终端设备12将用户的输入语音通过网络发送给所述服务器11,所述服务器11执行本申请提供的修复输入语音的方法,对所述用户的输入语音进行修复处理。所述服务器11将修复后的输入语音发送给终端设备12,用户通过终端设备12选择发送原始输入语音或者经过修复后的输入语音进行通讯。在其他实施方式中,所述服务器11也可以将修复后的输入语音直接发送给其他终端设备。
[0024]具体地,所述终端设备12端可采用APP (Applicat1n,应用)软件的方式实现将用户的输入语音发送给所述服务器12,并接收服务器12发送的修复后的输入语音。用户通过所述APP软件提供的界面选择发送原始输入语音或者经过修复后的输入语音进行通讯。
[0025]参见图2,本申请所述方法2包括:
[0026]S1、根据预设的语音识别库对接收的输入语音中的语音字段进行识别,确定所述输入语音中是否存在待修复的语音字段。
[0027]在本申请一具体实现中,所述服务器11接收用户通过终端设备12发送的输入语音。在对接收的输入语音中的语音字段进行识别前,所述服务器11先对原始输入语音进行前端处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行。语音增强就是消除环境噪声对语音的影响。
[0028]所述输入语音进行前端处理后,根据预设的语音识别库对前端处理后的输入语音中的每个语音字段进行识别,确定所述输入语音中是否存在待修复的语音字段。由于输入语音的结尾阶段容易存在一个或多个字段的缺失,本申请亦可仅对输入语音中结尾部分的语音字段进行识别,以确定所述输入语音中是否存在待修复的语音字段。
[0029]在本申请另一具体实现中,所述输入语音进行前端处理后,根据预设拆分规则将其拆分成至少一句话。具体地,所述拆分规则包括语速、间隔、关键语音字段中至少一种。例如,当一段输入语音中出现然后、并且、但是等关键语音字段时,对其进行拆分。或者,当一段输入语音中出现间隔大于间隔阈值,则对其进行拆分。或者当一段输入语音中出现明显不同语速时,则对其进行拆分。当然,亦可同时根据上述任意两种或者全部三种拆分规则进行输入语音的拆分。
[0030]例如,用户输入语音为“我今天先去买东西II然后去公园II最后去吃了饭II很累了 //不和你*#”,其中//表示间隔2ms,间隔阈值为1ms。预设的拆分规则为间隔以及关键语音字段,对其进行拆分后得到5句话,分别为“我今天先去买东西”、“然后去公园”、“最后去吃了饭”、“很累了”、“不和你*#”,其中*、#为模糊发音。
[0031]输入语音进行拆分后,分别对拆分后的每句话进行字段切分,将每句话切分成多个语音字段,具体地,所述语音字段为字、词或者语素。例如,“不和你*#”切分成为“不”、“和”、“你”、“*”、“#”。
[0032]本申请对输入语音进行拆分,分别对拆分后的输入语音进行语音识别处理,大大降低了语音识别算法的计算量,令服务器11占用了更少的内存和CPU资源。
[0033]另外,具体地,所述服务器11中预先存储的语音识别库可以根据待修复的语音字段通过识别算法的修复模型获得纠正语音字段。所述语音识别库将保存的待修复的语音字段作为查询索引,如果查询的语音字段命中该查询索引中保存的语音字段,则表明该查询的语音
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1