婴儿哭声解读方法与装置的制作方法

文档序号:2821562阅读:357来源:国知局
专利名称:婴儿哭声解读方法与装置的制作方法
技术领域
本发明属语音识别技术领域,具体涉及一种能够对婴儿哭声进行解读的方法及装置。
背景技术
婴儿一出生,就会发出哇哇的哭声。啼哭是婴儿表达的惟一方式,是一种特殊的“语言”,不同的哭声能表达婴儿不同的意向要求。可成人一般不能准确地解释婴儿啼哭的原因,不能了解婴儿啼哭所反应的需求,这样难免造成对婴儿护理、照料的不周,有时还可能造成误解,不利于婴儿的健康成长。因此人们希望能对婴儿哭声进行解读,以便能帮助成人尤其是年轻妈妈对婴儿哭声进行判断。

发明内容
本发明的目的在于提出一种能够对婴儿哭声进行解读的方法与装置,以便帮助成人判断婴儿的情绪和需求,更好地护理、照料婴儿。
本发明提出的婴儿哭声解读方法,其步骤是,先建立婴儿哭声样本库,具体是运用统计分析方法,总结归纳出哭声所反应的婴儿不同情绪状态的波形特征,形成婴儿哭声特征值库文件,存储于存储器中;然后,对当前婴儿哭声进行识别,具体是把婴儿哭声输入麦克风,由中央处理器将模拟哭声信号转换成数字信号,并提取特征值,将该特征值与哭声样本库的特征值进行比较,找出相近样本,从而获得当前婴儿哭声所反应的情绪状态。
本发明中,婴儿哭声所反应的情绪状态可分成6种,即饥饿、不舒服、疲劳、惊吓、烦躁不安、生病疼痛等,其对应的波形如图7中(a)、(b)、(c)、(d)、(e)、(f)所示。
本发明所述的婴儿哭声特征值,采用的是哭声波形的包络。
根据上述婴儿哭声解读方法,本发明设计了相应的解读装置,该装置由麦克风、语音输入电路、中央处理器、控制键盘、样本库、液晶显示器、语言输出电路、扬声器经电路连接组成,结构框图见图1所示。其中,中央处理器1为核心部分,麦克风2、语音输入电路3依次与中央处理器1连接,哭声从麦克风输入进入语音输入电路,经过滤波和放大处理,哭声信号进入中央处理器;键盘6和样本库7与中央处理器连接,键盘6设有6个功能键确认键(enter)、取消键(cancel)和上(up)、下(down)、左(right)、右(left)4个导航键。用于控制中央处理器的状态,样本库存储婴儿哭声特征值文件;中央处理器1与语音输出电路4和液晶显示器8连接,语音输出电路4再与扬声器5连接。中央处理器1将接收到的哭声信号进行AD转换,获得声音的数字信号,并提取哭声的特征值,将该特征值与样本库中的特征值进行比较,得到识别结果。该结果可以文字方式在液晶显示器8上显示出来,或者通过语音输出电路4,经滤波和放大后,以语音方式由扬声器5播出。
本发明可以帮助父母对婴儿哭声进行判断,增加父母与婴儿的互动交流,以便能及时、准确了解婴儿的情绪状态,更科学、合理地对婴儿进行照料和护理。


图1本婴儿哭声解读装置原理框图。
图2键盘电路原理图。
图3语音输入电路原理图。
图4中央处理器电路原理图。
图5语音输出电路原理图。
图6特征值提取过程图。
图7为哭声的波形图。其中(a)为饥饿,(b)为不舒服,(c)为疲劳,(d)为惊吓,(e)为烦躁,(f)为生病疼痛。
图8是婴儿哭声解读器的外形结构图。
图中标号1为中央处理器,2为麦克风,3为语音输入电路,4为语音输出电路,5为扬声器,6为键盘,7为样本库,8为液晶显示器,9电池盒。
具体实施例方式
本发明对婴儿哭声样本库的建立过程如下对300多个1个月到12个月的婴儿,进行24小时跟踪录音,历时一年半的时间,录制了1500个有效婴儿哭声文件,并对这1500个有效哭声文件进行波形分析,总结归类出为饥饿、不舒服、疲劳、惊吓、烦躁不安、生病疼痛等6种情绪,其波形见图7所示。然后按类别分别处理,生成哭声特征值库文件。样本库是由共6大类,1500个婴儿哭声的特征值组成的,每一个婴儿哭声文件生成一个特征值文件,1500个特征值文件的集合,就是一个婴儿哭声的样本库。如图6所示,每个有效的婴儿哭声文件提取出特征值文件,需要3个步骤,1)录音,2)16bit数据的处理,3)特征值的提取。录音是对300多个1个月到12个月的婴儿,进行24小时跟踪录音,形成现在的1500个有效婴儿哭声文本。在录制好1500个有效婴儿哭声以后,对哭声文件进行处理,对哭声的波形进行修整,最后,对修整过的录音进行特征值的提取。在对共6大类1500个婴儿哭声处理以后,本发明的样本库就建立起来了,并存储在外边存储器中,供识别时调用比较。
婴儿哭声文件特征值提取的过程就是样本库建立的过程。
本发明的语音识别过程,是在麦克风输入哭声以后,中央处理器把模拟的哭声信号,转换成数字量,并提取出特征值,该特征值与样本库特征值进行比对,找出最相近的样本,得出当前婴儿的情绪为饥饿、不舒服、疲劳、惊吓、烦躁不安、生病疼痛中的一种结果。至此,识别过程结束。
本发明的哭声特征值的数据格式如下

Header4bytesDatalength×20bytesFile IDFile ID(0x2033)Lengthnumber of frames(n+1)如图2所示,为本发明装置的键盘,共有6个键,具体为enter、cancel、up、down、right、left键。enter为确认键,cancel为取消键,其它几个键分别为上、下、左、右键,即导航键。
如图3所示,为发明装置的声音输入电路,采用麦克风输入。图3中的JP1为麦克风,R26、C32、R25、C33、R27、R28组成交流耦合电路。其中R26、C33组成一级低通滤波器,对电源电压产生的噪音滤除。R25的阻值(5.6K)跟麦克风自己的内阻(1.5K)之比,有了3.7倍的增益,一是减小电流功耗,再者是减轻下一级放大电路的负担。C33、R27、R28则组成了高通滤波器,截至频率为70Hz。其中C34、C35、R29、R30、U6A组成麦克风信号放大单元。R30/R29+1倍的增益。R30的阻值可调,最多可达到500K,即500倍的增益。其中,C34、R29组成一级高通滤波,截至频率为150Hz。R31、R32、C37、R33、R34、C38、C39、U6B、R35、C40组成了4级低通滤波器,切除3.5KHz以上的频率。C41、R36、R37、C42、R38、C43、R39、U7B组成交流信号放大单元。R39/R38+1倍的增益,R39最多可达到100K,即10倍增益。C44、R40、R41组成高通滤波器,截至频率为500Hz。C44可调,3300pF截至频率为300Hz,4800pF截至频率为250Hz。至此,声音信号输入到图4中的AD0端。
如图4所示,为本发明的中央处理器,是整个解读装置的心脏。有高低2个晶振电路、4个输入输出口、2个输入口、24根地址线、16根数据线。中央处理器U1为32位CPU,采用S1C33209芯片,它接收到声音信号,AD转换后,把声音模拟信号转换为声音数字信号,并提取特征值,把该特征值跟样本库中的特征值进行比较,得出识别结果,通过图4中U1的PWM Main和PWM Sub管脚输出声音信号。
如图5所示,为本发明的声音输出电路,图中的R14、R15、R16、C23、R17、R18、C24、R19、R20、C25、C26、U4A、R21、C27组成16KHz采样频率的低通滤波器。C28、C29、R22、R23、R24、C30、C31、U5组成了功率放大电路,并最终由LS1扬声器播放提示语音。R24/R22为功率放大倍数。
本发明中的液晶显示器可采用常规的产品。
本发明装置的外形结构可以设计如图8所示形状。其正面的上侧为电池盒9,中间为液晶显示器8,下侧自左至右依次为扬声器5、键盘6、麦克风2。
权利要求
1.一种婴儿哭声解读方法,其特征在于步骤如下先建立婴儿哭声样本库,具体是运用统计分析方法,总结归纳出哭声所反应的婴儿不同情绪状态的波形特征,形成婴儿哭声特征值库文件,存储于存储器中;然后,对当前婴儿哭声进行识别,具体是把婴儿哭声输入麦克风,由中央处理器将模拟哭声信号转换成数字信号,并提取特征值,将该特征值与哭声样本库的特征值进行比较,找出相近样本,从而获得当前婴儿哭声所反应的情绪状态。
2.根据权利要求1所述的婴儿哭声解读方法,其特征在于所说的婴儿哭声反应的情绪状态分为6种饥饿、不舒服、疲劳、惊吓、烦躁不安、生病疼痛。
3.根据权利要求1所述的婴儿哭声解读方法,其特征在于所说的哭声特征值采用的是哭声波形的包络。
4.一种如权利要求1所述婴儿哭声解读方法的实施装置,其特征在于由麦克风、语音输入电路、中央处理器、控制键盘、样本库、液晶显示器、语言输出电路、扬声器经电路连接组成,麦克风(2)、语音输入电路(3)依次与中央处理器(1)连接,哭声从麦克风输入进入语音输入电路,经过滤波和放大处理,哭声信号进入中央处理器;键盘(6)和样本库(7)与中央处理器连接,键盘6设有6个功能键确认键、取消键和上、下、左、右4个导航键,用于控制中央处理器的状态,样本库存储婴儿哭声特征值文件;中央处理器(1)分别与语音输出电路(4)和液晶显示器(8)连接,语音输出电路(4)再与扬声器连接,中央处理器(1)将接收到的哭声信号进行AD转换,获得声音的数字信号,并提取哭声的特征值,将该特征值与样本库中的特征值进行比较,得到识别结果,该结果可以文字方式在液晶显示器(8)上显示出来,或者通过语音输出电路(4),经滤波和放大后,以语音方式由扬声器(5)播出。
5.根据权利要求4所述的婴儿哭声解读装置,其特征在于语音输入电路(3)由交流耦合电路、麦克风信号放大单元、低通滤波器、交流信号放大单元组成;其中电阻R26、R27、R28和电容C32、C33组成交流耦合电路;电阻R29、R30和电容C34、C35以及运放U6A组成麦克风信号放大单元;电阻R31、R32、R33、R34、R35和电容C37、C38、C39、C40以及U6B组成4级低通滤波器;电阻R36、R37、R38、R39和电容C41、C42、C43以及U713组成交流信号放大单元。
6.根据权利要求4所述的婴儿哭声解读装置,其特征在于所说中央处理器(1)有高低2个晶振电路、4个输入输出口、2个输入口、24根地址线、16根数据线;中央处理器U1为32位CPU,采用S1C33209芯片。
7.根据权利要求4所述的婴儿哭声解读装置,其特征在于语音输出电路(4)由低通滤波器和功率放大电路组成,其中由电阻R14、R15、R16、R17、R18、R19、R20、R21和电容C23、C24、C25、C26、C27组成低通滤波器,由电阻R22、R23、R24和电容C28、C29、C30、C31以及U5组成功率放大电路,R24/R22为功率放大倍数。
全文摘要
本发明为一种儿哭声解读方法与装置。先运用统计分析方法,将婴儿哭声反应的情绪状态分为饥饿、不适、疲劳、惊吓、烦躁、生病疼痛等6种,并建立相应的哭声特征值文件库;然后对当前婴儿哭声与特征值文件库进行比较,判别哭声所反应的情绪状态。解读装置由麦克风、语音输入电路、中央处理器、语音输出电路、键盘、样本库、扬声器和液晶显示器组成。哭声由麦克风输入后,由中央处理器把模拟信号转换成数字信号,并提取特征值,再将该特征值与样本库进行比对,判别婴儿哭声的情绪状态。本发明可以帮助父母进一步掌握婴儿的情绪状态,更加科学、合理地照料和护理好婴儿。
文档编号G10L15/06GK1564245SQ200410017760
公开日2005年1月12日 申请日期2004年4月20日 优先权日2004年4月20日
发明者孙萍 申请人:上海上悦通讯技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1