一种语音信息的处理方法及终端的制作方法

文档序号:9709470阅读:331来源:国知局
一种语音信息的处理方法及终端的制作方法
【技术领域】
[0001] 本发明涉及语音信息处理领域,尤其涉及一种语音信息的处理方法及终端。
【背景技术】
[0002] 随着科技的发展,将语音信号转换成对应的文本信息这一技术越来越受到人们的 青睐,该技术使得人们能够摆脱键盘的束缚,可以通过对输入的语音进行识别,获得对应的 文本信息,以实现输入,方便用户使用。
[0003] 目前,以智能手机为例,当用户使用智能手机上安装的个人语音助手时,输入语音 为"你在干吗呢?最近忙不忙啊?",个人语音助手对该语音信息进行识别,可能由于用户 周围的环境噪音较大、用户自己的语言习惯等因素,使得该语音助手不能准确地识别出用 户输入的语音,所以识别出的文本信息就可能为"拟再干嘛呐?嘴紧忙吧忙啊?",然后将 该文本信息输出给用户,这样,用户看到的文本信息与其实际输入的内容差距较大,也就是 说,终端不能够准确地识别出用户输入的语音内容。
[0004] 所以,现有技术中存在终端语音识别的准确率低的技术问题。

【发明内容】

[0005] 有鉴于此,本发明实施例期望提供一种语音信息的处理方法及终端,以提高终端 语音识别的准确率,提高用户体验。
[0006] 为达到上述目的,本发明的技术方案是这样实现的:
[0007] 第一方面,本发明实施例提供一种语音信息的处理方法,所述方法包括:获得语音 信号;识别所述语音信号,获得对应的文本信息;基于预置在所述终端中的会话历史数据 库,对所述文本信息进行纠错,获得纠错后的文本信息,其中,所述会话历史数据库中存储 有用户的会话历史记录。
[0008] 进一步地,所述基于预置在所述终端中的会话历史数据库,对所述文本信息进行 纠错,获得纠错后的文本信息,包括:基于预置在所述终端中的字词库,获得与所述文本信 息关联的至少一个备选语句;将所述至少一个备选语句与所述会话历史数据库中的会话内 容进行匹配,筛选出匹配程度最高的语句;将所述匹配程度最高的语句确定为所述纠错后 的文本信息。
[0009] 进一步地,在所述获得纠错后的文本信息之后,所述方法还包括:将所述纠错后的 文本信息存入所述会话历史数据库,更新所述会话历史数据库。
[0010] 进一步地,在所述获得纠错后的文本信息之后,所述方法还包括:输出所述纠错后 的文本信息。
[0011] 第二方面,本发明实施例提供一种终端,所述终端包括:获得单元、识别单元及纠 错单元;其中,所述获得单元,用于获得语音信号;所述识别单元,用于识别所述终端中的 语音信号,获得对应的文本信息;所述纠错单元,用于基于预置在所述终端中的会话历史数 据库,对所述文本信息进行纠错,获得纠错后的文本信息;其中,所述会话历史数据库中存 储有用户的会话历史记录。
[0012] 进一步地,所述纠错单元,具体用于基于预置在所述终端中的字词库,获得与所述 文本信息关联的至少一个备选语句;将所述至少一个备选语句与所述会话历史数据库中的 会话内容进行匹配,筛选出匹配程度最高的语句;将所述匹配程度最高的语句确定为所述 纠错后的文本信息。
[0013] 进一步地,所述终端还包括更新单元,用于在获得纠错后的文本信息之后,将所述 纠错后的文本信息存入所述会话历史数据库,更新所述会话历史数据库。
[0014] 进一步地,所述终端还包括输出单元,用于在获得纠错后的文本信息之后,输出所 述纠错后的文本信息。
[0015] 本发明实施例所提供的语音信息的处理方法及终端,当终端获得语音信号后,对 该语音信号进行识别,获得对应的文本信息,然后,基于预置在终端中的存储有用户的会话 历史记录的会话历史数据库,终端对文本信息进行纠错,获得纠错后的文本信息,此时,纠 错后的文本信息是与用户的会话历史记录匹配程度最高的,也就是最符合上下文的语境 的,那么,纠错后的文本信息也是最为贴近用户实际输入的语音内容的,如此,有效地解决 了现有技术存在的终端语音识别的准确率低的技术问题,提高了终端语音识别的准确率, 提1?用户体验。
【附图说明】
[0016] 图1为本发明实施例中的语音信息的处理方法的流程示意图;
[0017] 图2为本发明实施例中的文本信息纠错方法的流程示意图;
[0018] 图3为本发明实施例中的终端的结构示意图。
【具体实施方式】
[0019] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述。
[0020] 本发明实施例提供一种语音信息的处理方法,该方法应用于终端上,该终端可以 为智能手机、平板电脑等设备。
[0021] 图1为本发明实施例中语音信息的处理方法的流程示意图,参考图1所示,该方法 包括:
[0022] S101 :获得语首f目号;
[0023] 具体来说,当用户使用个人语音助手,或者与其他用户进行即时聊天时,用户可以 通过语音唤醒、点击物理按键等方式开启终端的语音识别功能,此时,用户对着终端的麦克 风输入语音,终端获得该语音的语音信号。
[0024] 例如,用户A和用户B正在进行即时聊天,用户A输入的会话内容为"你在干吗 呢?",用户B输入的会话内容为"没干嘛啊,你呢?",用户A接着输入会话内容为"一样,你 在哪?",此时,用户B唤醒终端,并语音输入"我在家,你呢?",那么,终端获得用户B输入的 语音所对应的语音信号。
[0025] S102 :识别语音信号,获得对应的文本信息;
[0026] 具体来说,在终端获得上述语音信号之后,通过预定的采样率得到语音信号对应 的音频流,并将该音频流作为语音识别引擎的输入,以此来对语音信号进行识别,获得语音 信号对应的文本信息。但是由于用户进行语音输入时,可能周围的噪音较大或用户自己的 语言习惯等因素,导致获得的文本信息与用户实际想要表达的意思不一致。比如,终端对获 得的用户B的语音信号进行语音识别,语音识别出现偏差,得到的用户B的语音对应的文本 信息就为"偶在假,你那? "。
[0027] 在实际应用中,上述预定的采样率可以为16KHz,也可以为22KHz,当然,采样率还 可以为其他取值,本申请不做具体限定。
[0028] S103:基于预置在终端中的会话历史数据库,对文本信息进行纠错,获得纠错后的 文本信息;
[0029] 首先,需要说明的是,在实际应用中,终端中预置有字词库和会话历史数据库,其 中,字词库中可以存储有所有的字词句,类似于存储在终端中的字典或者词典;另外,字词 库还可以在初始时仅存储一些常用的字词句,并在之后用户的使用过程中,根据用户语音 输入或者文本输入的内容进行学习,将用户常用的字词添加到该字词库中,来扩充字词库。
[0030] 进一步地,在本实施例中,字词库中所有的字、词可以根据用户使用每个字或者词 的频率,由大到小排列,如下表1所示,C1列为使用频率最高的字,C2列为使用频率次高的 字,依次类推;R1行为读音为"W0"的所有字,R2为发音为"ZAI"的所有字,依次类推。
[0031]
[0032] 表 1
[0033] 较优地,针对不用的用户,可以将字词库分为基础字词库以及个人字词库,在基础 字词库中存储一些常用的字词,在个人字词库中,针对不同的用户,存储每个用户的习惯性 用语,形成与用户一一对应的个人字词库。
[0034] 进一步地,上述会话历史数据库中可以存储有用户的会话历史记录,包括以语音、 文本等方式输入的会话记录。比如,用户A和用户B正在进行会话,会话历史数据库中可以 存储两个用户之前的会话记录,如表2所示。
[0035]
[0036] 表 2
[0037] 那么,S103可以为:基于预置在终端中的字词库,获得与文本信息关联的至少一 个备选语句,将至少一个备选语句与会话历史数据库中的会话内容进行匹配,筛选出匹配 程度最高的语句,将匹配程度最高的语句确定为纠错后的文本信息。
[0038] 具体来说,终端将通过S102获得的文本信息进行词法及句法的分析,进行拆分, 比如,通过S102获得的文本信息为"偶在假,你那?",终端经过词法及句法的分析,对该信 息进行拆分,将该语句拆分成多个句子组件,如"偶"、"在"、"假"、"你"、"那",然后,针对每 一个句子组件,在表1中,取出与该句子组件同行的所有字、词,即根据表1,得到:与"偶" 同行的所有字"我""窝""喔";与"在"同行的所有字"再""载""仔";与"假"同行的所 有字"家""加""佳";与"你"同行的所有字"拟""呢""泥";以及与"那"同行的所有字 "呢""呐""讷",然后对这些字词进行排列组合,得到与文本信息相关联的多个备选语句,即 S1 :"偶在假,你呢? ",S2 :"我在家,你呢? ",S3 :我在家,拟那?",然后将这3个备选语句和 上述会话历史数据库中最新一条会话记录,即"一样,你在哪? "进行匹配,计算每一个备选 语句与该条会话记录的匹配程度,得到S1的相关匹配程度为50%,S2的相关匹配程度为 100%,S3的匹配程度为85%,由此可以看出,S2为与会话记录匹配度最高的语句,此时,将 可以将S2确认为纠错后的文本信息。
[0039] 需要说明的是,上述一个或者多个实施例中所说的会话历史数据库和字词库可以 为存储在终端本地的数据库,也可以为存储在云端服务器的数据库,本发明不做具体限定。
[0040] 进一步地,上述基于会话历史数据库对文本信息进行纠错的步骤除了上述一个或 者多个实施例中所述的方法之外,还可以采用其他的方法,只要能够基于会话历史数据库 进行纠错即可,本发明不做具体限定。
[0041] 在另一实施例中,为了保证终端能够正常地进行下一次语音纠错,那么,在S103 之后,该方法还可以包括:在获得纠错后的文本信息之后,将纠错后的文本信息存入会话历 史数据库,更新会话历史数据库。也就是说,将S103得到的纠错后的文本信息作为会话记 录存储在会话历史数据库中,以更新该数据库。
[0042] 在实际应用中,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1