采用语音识别系统进行设置的摄像机的制作方法

文档序号：7919277阅读：310来源：国知局

专利名称：采用语音识别系统进行设置的摄像机的制作方法
技术领域：
本发明涉及一种摄像机，特别涉及一种采用语音识别系统进行设置的摄像机。
背景技术：
目前的人机交流主要是手动操作方式实现人机对话，限制了人与计算机系统和机电系统交流的灵活性。为了提高数字化家电系统人机对话灵活性，方便老人、残疾人等特殊人群需要，在人机对话方面需要寻求更好的信息交换手段。因为语言是人类最主要和最基本的交流方式，而且随着数字信号处理软件和硬件的发展，到目前为止语音处理技术日趋成熟，己接近实用化阶段。

发明内容
鉴于现有技术存在的不足，本发明提供了一种通过语音输入可以进行控制摄像机操作的采用语音识别系统进行设置的摄像机。本发明为现实上述目的所采取的技术方案是一种采用语音识别系统进行设置的摄像机，包括与摄像机电子线路连接的CPU电路及编码解码电路，其特征在于，还包括语音模块，所述的语音模块分别与CPU电路及编码解码电路连接，所述的CPU电路存储控制程序，其控制步骤是 1、当接通电源开机后，系统进入第一个选择即是否进入语音控制模式，系统将该选择设置为开机自动选择项目，如果选择NO则系统进入手动模式，这时摄像机的功能和普通的摄像机一样； 2、如果选择YES，则该信息会通过CPU传达到语音控制模块，激活语音控制模块的动作，这时摄像机将进入语音控制启动状态； 3、然后进行关键字的识别，这里能够通过语音操作的关键字有录像、停止、放像、
关机，用户说出"录像"后系统会判断该信息，然后将判断得到的信息发送给CPU后进行执
行，用户每说一个关键字程序就进行一次判断，直到"关机"这个程序被执行为止。本发明的有益效果是可使用语音系统技术，进行对摄像机的操作，使操作更佳便
捷，并且能通过智能语音系统的使用提高抓拍的效果和速度，改善了因调节菜单造成的最
佳画面流失的缺陷，随着语音声控系统的完善，新产品也将在大量涌现。

图1为本发明的电路连接框图。
图2为本发明的控制流程图。
具体实施例方式
如图1、2所示采用语音识别系统进行设置的摄像机，包括与摄像机电子线路连接的CPU电路及编码解码电路，还包括语音模块，语音模块分别与CPU电路及编码解码电路连接，CPU电路存储控制程序，其控制步骤是 1、当接通电源开机后，系统进入第一个选择即是否进入语音控制模式，该选项在菜单中也有，系统将该选择设置为开机自动选择项目，如果选择NO则系统进入手动模式，这时摄像机的功能和普通的摄像机一样； 2、如果选择YES，则该信息会通过CPU传达到语音控制模块，激活语音控制模块的动作，这时摄像机将进入语音控制启动状态； 3、然后进行关键字的识别，这里能够通过语音操作的关键字有录像、停止、放像、关机，用户说出"录像"后系统会判断该信息，然后将判断得到的信息发送给CPU后进行执行，用户每说一个关键字程序就进行一次判断，直到"关机"这个程序被执行为止。
本发明包括硬件设计和软件设计两部分，硬件部分在摄像机电子线路中增加了语音处理芯片(RSC-364)，软件上增加了控制语音处理的代码。语音模块(RSC-364)是一片以8位MCU为核心的CMOS器件，且还集成了 ROM、 RAM、 A/D、 D/A、前端放大器及功率放大器等组件。RSC-364具有准确，快速的反应时间、低成本，且多功能，只要加上很少的外部组件，就可以组成一个语音识别系统。其运算能力为4MIPS (Million Instructions Per Second)为了提高运算能力，芯片上还多了一个 24bitX24bit的乘法器。 RSC-364使用预先学习好的人工神经网络进行非特定语者之语音识别，即不需要经过训练就可以识别〃 Yse〃、〃 No" 、〃 0k〃等简单语句，其Data Book上称其识别率为97%以上。 RSC-364还具有5 15kb/s的语音合成功能，其语音合成是由Sensory专门设计，其音质较一般的好。它还具有改进的ADPCM(自适应差分脉冲调制)语音编译码功能。
RSC-364的设计，包括麦克风信号扩大，数据转换，识别和综合功能性，还有在ROM 储存器(仅RSC-364芯片具有)中，有一单芯片CPU的核心，因此，RSC-364能在14. 32MHz 提供整数性能的4MIPS。这能使消费者以最小的费用取得最大的效能。RSC-364指令表非常类似于微处理器的8051族群。其处理器避免限制专用内存，透过有完全对称来源和目的，适合全部指令。声控系统在多数DVC都自带麦克风部分，因此可以直接连接到DVC中的麦克风。由 DVC主板提供电源。多识别引擎识别器工作流程为 (1)对输入语音进行预处理，包括语音信号的切分以及噪声去除等。语音信号的切分采用的是基于能量窗计算的切分算法，使得语音信号的端点更准确。 (2)根据输入语音的物理长度以及其它物理特征预判输入语音为孤立词输入还是连续语音输入。如果语音信号较短，则采用识别引擎1、2进行识别；如果信号较长，则采用识别引擎2、3进行识别；如果不能确定是孤立语音还是连续语音，则同时采用三个识别引擎进行识别。 (3)对于不同的识别引擎，将得到的识别结果作为候选关键词(如果识别结果不同则为多候选)送入确认模块进行确认。由于基于多识别引擎的识别器至少同时启动了两个或者三个识别引擎，因此系统的响应时间不可避免地要受到影响。所以在语音建模时，采用参数共享的方法，从而降低了计算法复杂度，提高了系统响应速度。同时注意到，对于孤立语音来说，由于识别引擎1、2 的识别速度很快，因此完全可以满足实时响应的要求；对于连续语音来说，其识别时间主要耗费在识别引擎3上，这是不可避免的，系统引入的附加耗时很小，因此基本上不会因此而降低系统的响应速度。而多识别引擎的识别器的建立，使得无论连续语音输入还是孤立语音输入，都能采用合适的识别引擎进行识别，从而在允许用户自由交流的基础上，保证了系统的识别率得到大幅度的提高。尤其是用户在采用连续语音输入系统不能正确识别时，可以降低要求，视其为孤立语音输入，这样一方面可以正确控制家电正常运行，另一方面通过自适应，不同识别引擎的模型都得到了更为精确的刻画，逐渐提高了系统识别率，从而使得连续语音识别率也得到了提高。另外，在各种情况下都采用了连接识别引擎，主要是考虑到残疾用户的语音中经常附带一些常见的突发噪声以及语气词，因此通过对此进行独立建模，能够去除语音信号首尾的噪声和语气词的影响。
权利要求
一种采用语音识别系统进行设置的摄像机，包括与摄像机电子线路连接的CPU电路及编码解码电路，其特征在于，还包括语音模块，所述的语音模块分别与CPU电路及编码解码电路连接，所述的CPU电路存储控制程序步骤是(1)当接通电源开机后，系统进入第一个选择即是否进入语音控制模式，系统将该选择设置为开机自动选择项目，如果选择NO则系统进入手动模式，这时摄像机的功能和普通的摄像机一样；(2)如果选择YES，则该信息会通过CPU传达到语音控制模块，激活语音控制模块动作，这时摄像机将进入语音控制启动状态；(3)语音控制模块进行关键字的识别，这里能够通过语音操作的关键字有录像、停止、放像、关机；用户说出“录像”后系统会判断该信息，然后将判断得到的信息发送给CPU后进行执行，用户每说一个关键字程序就进行一次判断，直到“关机”这个程序被执行为止。
全文摘要
本发明涉及一种采用语音识别系统进行设置的摄像机，它包括与摄像机电子线路连接的CPU电路及编码解码电路，还包括语音模块，语音模块分别与CPU电路及编码解码电路连接，CPU电路存储控制程序步骤是当接通电源开机后，系统进入第一个选择即是进入语音控制模式，激活语音控制模块的动作，这时摄像机将进入语音控制启动状态；然后进行关键字的识别，能够通过语音操作的关键字有录像、停止、放像、关机，用户说出“录像”后系统会判断该信息，然后将判断得到的信息发送给CPU后进行执行，该机可使使操作更佳便捷，并且能通过智能语音系统的使用提高抓拍的效果和速度，改善了因调节菜单造成的最佳画面流失的缺陷。
文档编号H04N5/232GK101742110SQ20081015290
公开日2010年6月16日申请日期2008年11月10日优先权日2008年11月10日
发明者李妮, 郑龙周申请人:天津三星电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李妮;郑龙周
技术所有人：天津三星电子有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。