婴儿哭声解读方法与装置的制作方法

文档序号：2821562阅读：357来源：国知局

专利名称：婴儿哭声解读方法与装置的制作方法
技术领域：
本发明属语音识别技术领域，具体涉及一种能够对婴儿哭声进行解读的方法及装置。
背景技术：
婴儿一出生，就会发出哇哇的哭声。啼哭是婴儿表达的惟一方式，是一种特殊的“语言”，不同的哭声能表达婴儿不同的意向要求。可成人一般不能准确地解释婴儿啼哭的原因，不能了解婴儿啼哭所反应的需求，这样难免造成对婴儿护理、照料的不周，有时还可能造成误解，不利于婴儿的健康成长。因此人们希望能对婴儿哭声进行解读，以便能帮助成人尤其是年轻妈妈对婴儿哭声进行判断。

发明内容
本发明的目的在于提出一种能够对婴儿哭声进行解读的方法与装置，以便帮助成人判断婴儿的情绪和需求，更好地护理、照料婴儿。
本发明提出的婴儿哭声解读方法，其步骤是，先建立婴儿哭声样本库，具体是运用统计分析方法，总结归纳出哭声所反应的婴儿不同情绪状态的波形特征，形成婴儿哭声特征值库文件，存储于存储器中；然后，对当前婴儿哭声进行识别，具体是把婴儿哭声输入麦克风，由中央处理器将模拟哭声信号转换成数字信号，并提取特征值，将该特征值与哭声样本库的特征值进行比较，找出相近样本，从而获得当前婴儿哭声所反应的情绪状态。
本发明中，婴儿哭声所反应的情绪状态可分成6种，即饥饿、不舒服、疲劳、惊吓、烦躁不安、生病疼痛等，其对应的波形如图7中(a)、(b)、(c)、(d)、(e)、(f)所示。
本发明所述的婴儿哭声特征值，采用的是哭声波形的包络。
根据上述婴儿哭声解读方法，本发明设计了相应的解读装置，该装置由麦克风、语音输入电路、中央处理器、控制键盘、样本库、液晶显示器、语言输出电路、扬声器经电路连接组成，结构框图见图1所示。其中，中央处理器1为核心部分，麦克风2、语音输入电路3依次与中央处理器1连接，哭声从麦克风输入进入语音输入电路，经过滤波和放大处理，哭声信号进入中央处理器；键盘6和样本库7与中央处理器连接，键盘6设有6个功能键确认键(enter)、取消键(cancel)和上(up)、下(down)、左(right)、右(left)4个导航键。用于控制中央处理器的状态，样本库存储婴儿哭声特征值文件；中央处理器1与语音输出电路4和液晶显示器8连接，语音输出电路4再与扬声器5连接。中央处理器1将接收到的哭声信号进行AD转换，获得声音的数字信号，并提取哭声的特征值，将该特征值与样本库中的特征值进行比较，得到识别结果。该结果可以文字方式在液晶显示器8上显示出来，或者通过语音输出电路4，经滤波和放大后，以语音方式由扬声器5播出。
本发明可以帮助父母对婴儿哭声进行判断，增加父母与婴儿的互动交流，以便能及时、准确了解婴儿的情绪状态，更科学、合理地对婴儿进行照料和护理。

图1本婴儿哭声解读装置原理框图。
图2键盘电路原理图。
图3语音输入电路原理图。
图4中央处理器电路原理图。
图5语音输出电路原理图。
图6特征值提取过程图。
图7为哭声的波形图。其中(a)为饥饿，(b)为不舒服，(c)为疲劳，(d)为惊吓，(e)为烦躁，(f)为生病疼痛。
图8是婴儿哭声解读器的外形结构图。
图中标号1为中央处理器，2为麦克风，3为语音输入电路，4为语音输出电路，5为扬声器，6为键盘，7为样本库，8为液晶显示器，9电池盒。
具体实施例方式
本发明对婴儿哭声样本库的建立过程如下对300多个1个月到12个月的婴儿，进行24小时跟踪录音，历时一年半的时间，录制了1500个有效婴儿哭声文件，并对这1500个有效哭声文件进行波形分析，总结归类出为饥饿、不舒服、疲劳、惊吓、烦躁不安、生病疼痛等6种情绪，其波形见图7所示。然后按类别分别处理，生成哭声特征值库文件。样本库是由共6大类，1500个婴儿哭声的特征值组成的，每一个婴儿哭声文件生成一个特征值文件，1500个特征值文件的集合，就是一个婴儿哭声的样本库。如图6所示，每个有效的婴儿哭声文件提取出特征值文件，需要3个步骤，1)录音，2)16bit数据的处理，3)特征值的提取。录音是对300多个1个月到12个月的婴儿，进行24小时跟踪录音，形成现在的1500个有效婴儿哭声文本。在录制好1500个有效婴儿哭声以后，对哭声文件进行处理，对哭声的波形进行修整，最后，对修整过的录音进行特征值的提取。在对共6大类1500个婴儿哭声处理以后，本发明的样本库就建立起来了，并存储在外边存储器中，供识别时调用比较。
婴儿哭声文件特征值提取的过程就是样本库建立的过程。
本发明的语音识别过程，是在麦克风输入哭声以后，中央处理器把模拟的哭声信号，转换成数字量，并提取出特征值，该特征值与样本库特征值进行比对，找出最相近的样本，得出当前婴儿的情绪为饥饿、不舒服、疲劳、惊吓、烦躁不安、生病疼痛中的一种结果。至此，识别过程结束。
本发明的哭声特征值的数据格式如下

Header4bytesDatalength×20bytesFile IDFile ID(0x2033)Lengthnumber of frames(n+1)如图2所示，为本发明装置的键盘，共有6个键，具体为enter、cancel、up、down、right、left键。enter为确认键，cancel为取消键，其它几个键分别为上、下、左、右键，即导航键。
如图3所示，为发明装置的声音输入电路，采用麦克风输入。图3中的JP1为麦克风，R26、C32、R25、C33、R27、R28组成交流耦合电路。其中R26、C33组成一级低通滤波器，对电源电压产生的噪音滤除。R25的阻值(5.6K)跟麦克风自己的内阻(1.5K)之比，有了3.7倍的增益，一是减小电流功耗，再者是减轻下一级放大电路的负担。C33、R27、R28则组成了高通滤波器，截至频率为70Hz。其中C34、C35、R29、R30、U6A组成麦克风信号放大单元。R30/R29+1倍的增益。R30的阻值可调，最多可达到500K，即500倍的增益。其中，C34、R29组成一级高通滤波，截至频率为150Hz。R31、R32、C37、R33、R34、C38、C39、U6B、R35、C40组成了4级低通滤波器，切除3.5KHz以上的频率。C41、R36、R37、C42、R38、C43、R39、U7B组成交流信号放大单元。R39/R38+1倍的增益，R39最多可达到100K，即10倍增益。C44、R40、R41组成高通滤波器，截至频率为500Hz。C44可调，3300pF截至频率为300Hz，4800pF截至频率为250Hz。至此，声音信号输入到图4中的AD0端。
如图4所示，为本发明的中央处理器，是整个解读装置的心脏。有高低2个晶振电路、4个输入输出口、2个输入口、24根地址线、16根数据线。中央处理器U1为32位CPU，采用S1C33209芯片，它接收到声音信号，AD转换后，把声音模拟信号转换为声音数字信号，并提取特征值，把该特征值跟样本库中的特征值进行比较，得出识别结果，通过图4中U1的PWM Main和PWM Sub管脚输出声音信号。
如图5所示，为本发明的声音输出电路，图中的R14、R15、R16、C23、R17、R18、C24、R19、R20、C25、C26、U4A、R21、C27组成16KHz采样频率的低通滤波器。C28、C29、R22、R23、R24、C30、C31、U5组成了功率放大电路，并最终由LS1扬声器播放提示语音。R24/R22为功率放大倍数。
本发明中的液晶显示器可采用常规的产品。
本发明装置的外形结构可以设计如图8所示形状。其正面的上侧为电池盒9，中间为液晶显示器8，下侧自左至右依次为扬声器5、键盘6、麦克风2。
权利要求
1.一种婴儿哭声解读方法，其特征在于步骤如下先建立婴儿哭声样本库，具体是运用统计分析方法，总结归纳出哭声所反应的婴儿不同情绪状态的波形特征，形成婴儿哭声特征值库文件，存储于存储器中；然后，对当前婴儿哭声进行识别，具体是把婴儿哭声输入麦克风，由中央处理器将模拟哭声信号转换成数字信号，并提取特征值，将该特征值与哭声样本库的特征值进行比较，找出相近样本，从而获得当前婴儿哭声所反应的情绪状态。
2.根据权利要求1所述的婴儿哭声解读方法，其特征在于所说的婴儿哭声反应的情绪状态分为6种饥饿、不舒服、疲劳、惊吓、烦躁不安、生病疼痛。
3.根据权利要求1所述的婴儿哭声解读方法，其特征在于所说的哭声特征值采用的是哭声波形的包络。
4.一种如权利要求1所述婴儿哭声解读方法的实施装置，其特征在于由麦克风、语音输入电路、中央处理器、控制键盘、样本库、液晶显示器、语言输出电路、扬声器经电路连接组成，麦克风(2)、语音输入电路(3)依次与中央处理器(1)连接，哭声从麦克风输入进入语音输入电路，经过滤波和放大处理，哭声信号进入中央处理器；键盘(6)和样本库(7)与中央处理器连接，键盘6设有6个功能键确认键、取消键和上、下、左、右4个导航键，用于控制中央处理器的状态，样本库存储婴儿哭声特征值文件；中央处理器(1)分别与语音输出电路(4)和液晶显示器(8)连接，语音输出电路(4)再与扬声器连接，中央处理器(1)将接收到的哭声信号进行AD转换，获得声音的数字信号，并提取哭声的特征值，将该特征值与样本库中的特征值进行比较，得到识别结果，该结果可以文字方式在液晶显示器(8)上显示出来，或者通过语音输出电路(4)，经滤波和放大后，以语音方式由扬声器(5)播出。
5.根据权利要求4所述的婴儿哭声解读装置，其特征在于语音输入电路(3)由交流耦合电路、麦克风信号放大单元、低通滤波器、交流信号放大单元组成；其中电阻R26、R27、R28和电容C32、C33组成交流耦合电路；电阻R29、R30和电容C34、C35以及运放U6A组成麦克风信号放大单元；电阻R31、R32、R33、R34、R35和电容C37、C38、C39、C40以及U6B组成4级低通滤波器；电阻R36、R37、R38、R39和电容C41、C42、C43以及U713组成交流信号放大单元。
6.根据权利要求4所述的婴儿哭声解读装置，其特征在于所说中央处理器(1)有高低2个晶振电路、4个输入输出口、2个输入口、24根地址线、16根数据线；中央处理器U1为32位CPU，采用S1C33209芯片。
7.根据权利要求4所述的婴儿哭声解读装置，其特征在于语音输出电路(4)由低通滤波器和功率放大电路组成，其中由电阻R14、R15、R16、R17、R18、R19、R20、R21和电容C23、C24、C25、C26、C27组成低通滤波器，由电阻R22、R23、R24和电容C28、C29、C30、C31以及U5组成功率放大电路，R24/R22为功率放大倍数。
全文摘要
本发明为一种儿哭声解读方法与装置。先运用统计分析方法，将婴儿哭声反应的情绪状态分为饥饿、不适、疲劳、惊吓、烦躁、生病疼痛等6种，并建立相应的哭声特征值文件库；然后对当前婴儿哭声与特征值文件库进行比较，判别哭声所反应的情绪状态。解读装置由麦克风、语音输入电路、中央处理器、语音输出电路、键盘、样本库、扬声器和液晶显示器组成。哭声由麦克风输入后，由中央处理器把模拟信号转换成数字信号，并提取特征值，再将该特征值与样本库进行比对，判别婴儿哭声的情绪状态。本发明可以帮助父母进一步掌握婴儿的情绪状态，更加科学、合理地照料和护理好婴儿。
文档编号G10L15/06GK1564245SQ200410017760
公开日2005年1月12日申请日期2004年4月20日优先权日2004年4月20日
发明者孙萍申请人:上海上悦通讯技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙萍
技术所有人：上海上悦通讯技术有限公司
我是此专利的发明人