一种智能语音识别处理方法及系统与流程

文档序号:27315299发布日期:2021-11-09 23:45阅读:413来源:国知局
一种智能语音识别处理方法及系统与流程

1.本发明涉及信息监测相关领域,具体是一种智能语音识别处理方法及系统。


背景技术:

2.随着技术的不断发展与快速进步,人工智能等技术逐渐成熟,人工智能的发展也带来了众多全新的区别于传统技术的控制方式,例如还在进一步研发中的脑波控制、眼动控制等,以及已经较为成熟的语音控制,这些全新的技术都为我们的生活生产方式带来了全新的改变。
3.现有技术中的语音识别多采用录音并对音轨进行分析,从而识别出其中的语音内容,然后将语音转化为文字信息,从而提取其中的控制关键词并进行响应,从而实现控制。
4.但现有技术中的这种处理方式,存在识别效率低下的问题,当录音环境中较为嘈杂且存在较多人同时发出声音时,对于语音的识别转化效率较低,因此容易发生嘈杂环境中无法进行语音控制的情况。


技术实现要素:

5.本发明的目的在于提供一种智能语音识别处理方法及系统,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种智能语音识别处理方法,包含:采集并生成多组录音信息,所述录音信息包括声音强度信息,多组所述录音信息由多个间隔设置的录音设备生成;采集并生成多组传感信息,所述传感信息包括生物热源位置信息,多组所述传感信息与多个间隔设置的所述录音设备一一对应;根据所述声音强度信息以及所述生物热源位置信息对所述录音信息进行聚焦处理,生成多组对象语音内容,所述聚焦处理用于加强所述录音中某一对象的声音强度;对多组所述对象语音内容进行识别转化处理,并根据预设的执行语音指令集对所述对象语音内容进行响应,生成并输出响应内容。
7.作为本发明的进一步方案:所述录音设备的数量大于等于三组,多组所述录音设备间隔设置,且多组所述录音设备形成大于等于一个有限平面。
8.作为本发明的再进一步方案:所述根据所述声音强度信息以及所述生物热源位置信息对所述录音信息进行聚焦处理,生成多组对象语音内容的步骤包括:根据所述声音强度信息以及所述生物热源信息对声音发出点进行确定;根据所述声音发出点对所述录音信息进行聚焦处理,并生成多组对象语音内容。
9.作为本发明的再进一步方案:所述根据所述声音强度信息以及所述生物热源信息对声音发出点进行确定的步骤包括:读取每组所述传感信息中的多个生物热源信息;
通过将数组所述传感信息中的多个生物热源信息进行交叠,以获取生物位置信息;读取所述录音信息中的所述声音强度信息,根据多组所述声音强度信息交叠生成声源范围信息,所述声音强度信息可用于生成声音方位信息;将所述声源范围信息与所述生物位置信息做交集,生成多个声音发出点。
10.作为本发明的再进一步方案:所述根据所述声音发出点对所述录音信息进行聚焦处理,并生成多组对象语音内容的步骤包括:获取数个所述声音发出点的位置信息;依次根据所述声音发出点的位置信息对多组所述录音信息进行聚焦处理,生成多组对象语音内容。
11.作为本发明的再进一步方案:所述聚焦处理包括对声音发出点的声音信息进行重叠增强,以及对所述声音发出点以外的声音信息进行抵消减弱。
12.作为本发明的再进一步方案:还包括对所述对象语音内容的声音信息进行识别的步骤,用于识别所述对象语音内容的发出者,在执行根据预设的执行语音指令集对所述对象语音内容进行响应,生成并输出响应内容的步骤时,若同时包括多个需要响应的所述对象语音内容,则根据预设的发出者权限等级依次执行响应所述对象语音内容。
13.一种智能语音识别处理系统,包含:录音采集模块,用于采集并生成录音信息,所述录音信息包括声音强度信息,所述录音采集模块的数量为多个,多个录音采集模块间隔设置,每个所述录音采集模块均对应一组所述录音信息;生物采集模块,用于采集并生成传感信息,所述传感信息包括生物热源位置信息,所述生物采集模块与所述录音采集模块一一对应设置,每个所述生物采集模块均对应一组所述传感信息;对象确认模块,用于根据所述声音强度信息以及所述生物热源位置信息对所述录音信息进行聚焦处理,生成多组对象语音内容,所述聚焦处理用于加强所述录音中某一对象的声音强度;语音处理模块,用于对多组所述对象语音内容进行识别转化处理,并根据预设的执行语音指令集对所述对象语音内容进行响应,生成并输出响应内容。
14.作为本发明的进一步方案:所述录音采集模块的数量大于等于三组,且多组所述录音采集模块形成大于等于一个有限平面。
15.作为本发明的再进一步方案:所述对象确认模块包括:声源定位单元,用于根据所述声音强度信息以及所述生物热源信息对所述声音发出点进行确定;录音聚焦单元,用于根据所述声音发出点对所述录音信息进行聚焦处理,并生成多组对象语音内容。
16.与现有技术相比,本发明的有益效果是:通过相关步骤的设置,使得能够通过多组录音信息和传感信息对周边的生物进行定位,并获得声音发出生物的位置信息,从而根据该位置信息对录音信息进行聚焦处理,使其能够更为清晰和突出,提高语音识别转化的成功率和准确率,大大的提高了语音识别的成功率,解决了现有技术在嘈杂环境中无法有效
识别的问题。
附图说明
17.图1为一种智能语音识别处理方法的整体流程框图。
18.图2为一种智能语音识别处理方法中生成对象语音内容步骤的流程框图。
19.图3为一种智能语音识别处理方法中生成声音发出点步骤的流程框图。
20.图4为一种智能语音识别处理方法中根据位置信息得到语音对象语音内容的流程框图。
21.图5为一种智能语音识别处理系统的结构组成框图。
具体实施方式
22.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
23.以下结合具体实施例对本发明的具体实现方式进行详细描述。
24.如图1所述,为本发明一个实施例提供的一种智能语音识别处理方法,包括以下步骤:本实施例中,本发明旨在提供一种智能语音识别处理办法,相较于传统的语音识别,该方法能够通过声音能量方向以及对发生声音的人员进行定位,进而辅助完成对目标声音的处理和突出,使得能够更加准确方便的对嘈杂环境中的声音进行解析处理和响应,提高对嘈杂环境中声音的识别成功率。
25.s200,采集并生成多组录音信息,所述录音信息包括声音强度信息,多组所述录音信息由多个间隔设置的录音设备生成。
26.本实施例中,获取了多组的录音信息,其是通过多个间隔设置的录音设备所完成的,通过这样的多组包括了声音强度信息的录音信息,能够对环境中突然发出的声音进行响应并对其发出的范围进行大致的定位。
27.s400,采集并生成多组传感信息,所述传感信息包括生物热源位置信息,多组所述传感信息与多个间隔设置的所述录音设备一一对应。
28.本实施例中,获取了多组传感信息,其是通过多个与录音设备一一对应的传感设备所采集获取的,这里的传感信息其作用是对设备周边的生物信息进行准确的辅助定位,从而确定其具体位置,确定周边生物的位置后,便可以将步骤s200中采集的录音信息中的不同的声音与生物对应,从而对录音信息进行进一步的处理。
29.s600,根据所述声音强度信息以及所述生物热源位置信息对所述录音信息进行聚焦处理,生成多组对象语音内容,所述聚焦处理用于加强所述录音中某一对象的声音强度。
30.本实施例中,在这一步骤中,根据步骤s200和步骤s400中采集的数据进行了处理,步骤s400中采集的数据能够获得采集设备周边的生物分布信息(相对于采集设备的位置,包括方向距离),然后根据这些生物的分布信息可以对录音信息进行聚焦处理,也就是根据多组录音信息对某一点发出的声音进行叠加和加强,从而使其更加突出,方便识别处理。
31.s800,对多组所述对象语音内容进行识别转化处理,并根据预设的执行语音指令
集对所述对象语音内容进行响应,生成并输出响应内容。
32.本实施例中,在这一步骤中,对在步骤s600中对声音叠加加强处理后生成的对象语音内容进行处理,其处理的过程也就是根据识别库对语音内容进行识别的过程,并同时根据预设的指令集以及响应规则等对识别转化处理后的语音内容进行响应。
33.作为本发明另一个优选的实施例,所述录音设备的数量大于等于三组,多组所述录音设备间隔设置,且多组所述录音设备形成大于等于一个有限平面。
34.本实施例中,这里对步骤s200中录音设备也就是录音信息的数量进行了限定,录音信息必须是由以一定距离间隔设置的多个录音设备所采集获取的,这些录音设备必须在非过同一条直线的位置上设置,从而能够实现对空间中点的定位,进而实现对录音信息的处理。
35.如图2所示,作为本发明另一个优选的实施例,所述根据所述声音强度信息以及所述生物热源位置信息对所述录音信息进行聚焦处理,生成多组对象语音内容的步骤包括:s601,根据所述声音强度信息以及所述生物热源信息对声音发出点进行确定。
36.s602,根据所述声音发出点对所述录音信息进行聚焦处理,并生成多组对象语音内容。
37.本实施例中,对步骤s600进行了简单划分,包括对声源的定位以及根据定位对声源进行聚焦处理两个部分,其中对声源进行定位是在声音收集的基础上产生大致的范围定位,然后配合生物传感器进行准确的声源定位的,这样也可以在一定程度上的过滤去除非生物发出的声音信息(例如通过录音设备等进行播放预先录制的语音内容,但当录音设备与生物重叠时,本发明的方法依然无法处理),这里的聚焦处理是基于多个录音设备的,也就是当获得发生点的位置时,可以通过多组在空间内分布的录音设备对某一点的语音进行处理,使其收音更加清晰突出。
38.如图3所示,作为本发明另一个优选的实施例,所述根据所述声音强度信息以及所述生物热源信息对声音发出点进行确定的步骤包括:s6011,读取每组所述传感信息中的多个生物热源信息。
39.s6012,通过将数组所述传感信息中的多个生物热源信息进行交叠,以获取生物位置信息。
40.s6013,读取所述录音信息中的所述声音强度信息,根据多组所述声音强度信息交叠生成声源范围信息,所述声音强度信息可用于生成声音方位信息。
41.s6014,将所述声源范围信息与所述生物位置信息做交集,生成多个声音发出点。
42.本实施例中,这里对步骤s601确定声音发出点的步骤进行了进一步的细分,通过多个在空间内分布的生物传感器可以对周边的生物分布情况进行感知,此时我们可以获得数个点位信息,这些点位信息均是与某一生物对应的;通过多组录音信息中的声音强度信息(突然接收到某一方向上的声音强度产生变化,则表明该方向上可能存在人员发出声音的可能)可以确定一个声音发出的粗略范围,然后我们将这个范围与生物的点位信息进行取交集,便能够获得声音发出点的位置信息(指由生物(特指人)发出的声音)。
43.如图4所示,作为本发明另一个优选的实施例,所述根据所述声音发出点对所述录音信息进行聚焦处理,并生成多组对象语音内容的步骤包括:s6021,获取数个所述声音发出点的位置信息。
44.s6022,依次根据所述声音发出点的位置信息对多组所述录音信息进行聚焦处理,生成多组对象语音内容。
45.作为本发明另一个优选的实施例,所述聚焦处理包括对声音发出点的声音信息进行重叠增强,以及对所述声音发出点以外的声音信息进行抵消减弱。
46.本实施例中,这里对步骤s602进行了简单的分步说明,也就是根据确定的声音发出点的位置信息对语音内容进行聚焦处理(可以理解为与摄影机相似的聚焦方式,通过对拍摄对象平面的测距进行聚焦)。
47.作为本发明另一个优选的实施例,还包括对所述对象语音内容的声音信息进行识别的步骤,用于识别所述对象语音内容的发出者,在执行根据预设的执行语音指令集对所述对象语音内容进行响应,生成并输出响应内容的步骤时,若同时包括多个需要响应的所述对象语音内容,则根据预设的发出者权限等级依次执行响应所述对象语音内容。
48.本实施例中,这里补充的步骤是对步骤s800生效的步骤,说明的是方法可以对声音进行分析确定声音发出的对象(在库中预设该对象的信息前提下),进而可以在同时接收多条指令时,拥有一个指令的执行先后顺序,即指令执行优先级。
49.如图5所示,本发明旨在提供一种智能语音识别处理系统,所述系统包括:录音采集模块100,用于采集并生成录音信息,所述录音信息包括声音强度信息,所述录音采集模块100的数量为多个,多个录音采集模块100间隔设置,每个所述录音采集模块100均对应一组所述录音信息。
50.生物采集模块300,用于采集并生成传感信息,所述传感信息包括生物热源位置信息,所述生物采集模块300与所述录音采集模块100一一对应设置,每个所述生物采集模块均对应一组所述传感信息。
51.对象确认模块500,用于根据所述声音强度信息以及所述生物热源位置信息对所述录音信息进行聚焦处理,生成多组对象语音内容,所述聚焦处理用于加强所述录音中某一对象的声音强度。
52.语音处理模块700,用于对多组所述对象语音内容进行识别转化处理,并根据预设的执行语音指令集对所述对象语音内容进行响应,生成并输出响应内容。
53.作为本发明另一个优选的实施例,所述录音采集模块100的数量大于等于三组,且多组所述录音采集模块100形成大于等于一个有限平面,所述生物采集模块300与所述录音采集模块100一一对应设置。
54.作为本发明另一个优选的实施例,所述对象确认模块500包括:声源定位单元,用于根据所述声音强度信息以及所述生物热源信息对所述声音发出点进行确定。
55.录音聚焦单元,用于根据所述声音发出点对所述录音信息进行聚焦处理,并生成多组对象语音内容。
56.应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不
必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
57.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
58.本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
59.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1