一种视听播放装置及其播放方法

文档序号：2821579阅读：278来源：国知局

专利名称：一种视听播放装置及其播放方法
技术领域：
本发明涉及一种视听播放装置，更具体地涉及一种能够识别语音指令的视听播放装置和方法。
背景技术：
现行的电子娱乐产品发展趋势是小型化、便利化，因而其操作的按键受产品的体积限制，按键数量越来越少，增加了对产品操作的不便，特别是在MP3播放器中不能任意直接选择相关的曲目，需要顺次翻动，操作多有不便。
语音识别技术是一项由来已久的公知技术，按用户范围可分为非特定人识别和特定人识别。非特定人识别采用隐藏马尔可夫模型HMM(HiddenMarkov Model)来建模，基本原理是系统首先对大量的真实世界中的人的语音进行分析，并建立模型。在识别时，系统同样先对输入的语音进行分析，提取特征，然后通过一定的算法并使用已建立的模型，从而识别出用户所说的话。特定人系统仅仅为同一个人服务，使用之前用户必须对词汇表进行语音训练。这种系统通常基于动态时间偏差DTW(Dynamic Time Wrap)技术，能够达到较高识别率，但应用范围较窄。

发明内容
本发明要解决的技术问题是利用语音指令替代现有的按键指令，提出一种能够识别语音指令的视听播放装置。
本发明要解决的另一个技术问题是提供一种通过语音指令的播放视听装置的方法。
本发明的技术方案是提供一种能够识别语音指令的视听播放装置，包括视听数据处理单元、视听数据存储单元、操作输入单元、数模变换器及视听数据输出单元，所述的视听播放装置还包括语音输入单元，将话音指令变换为模拟信号，并传送到模数变换器；
模数变换器，该模数变换器连接语音输入单元，转换语音输入单元的模拟信号为数字信号；语音识别处理单元，该语音识别微处理单元连接模数变换器，根据从模数变换器接收到的数字信号与预存储的语音模型数据对比产生操作指令，并传送所述视听数据处理单元；存储器单元，该存储器单元与语音识别处理单元连接，用于存储设定的程序和语音数据。
本发明提供的一种能够识别语音指令的视听播放方法包括步骤产生控制视听播放装置工作状态的第一指令；输入语音指令，并转换语音指令为语音模拟信号；转换语音模拟信号为语音数字信号，并传送语音识别处理单元；对比语音数字信号与预存储的语音模型数据，产生相应操作指令，传送视听数据处理单元；及执行语音操作指令，进行数据处理。
相比现有的视听播放装置，本发明的视听播放装置利用语音操作替代按键操作，节省了操作面板的空间，有利于电子娱乐产品向小型化发展，同时，通过语音输入操作指令相比按键的方式输入操作更加便利。

图1是本发明的视听播放装置的第一实施例的结构示意图；图2是本发明的视听播放装置的第一实施例的语音识别判断流程图；图3是本发明的视听播放装置的第二实施例的结构示意图；图4是本发明的视听播放装置的第二实施例的语音识别判断流程图。
具体实施例方式
图1是本发明的视听播放装置的第一实施例的结构示意图。如图1所示，本发明的一种能够识别语音指令的视听播放装置件100是通过如下的技术方案实现的，所述的装置100包括操作输入单元10，该操作输入单元件10与视听数据处理单元20连接，用于产生控制视听播放装置100工作的第一指令，该第一指令包括打开视听播放装置的电源，及开启语音输入状态；语音输入单元30，该语音输入单元30通常为麦克风，用于将话音指令变换为模拟的电信号，该语音输入单元30连接模数变换器(ADC)40，并传送所产生的模拟的电信号到模数变换器40进行处理；模数变换器40，该模数变换器40的输出接口连接语音识别处理单元50，用于将来自语音输入单元30的模拟电信号变换为数字信号，并传送到语音识别微处理单元(MCU)50，所述模数变换器可单独存在或与语音输入单元集成为一体；存储器单元70，该单元与语音识别处理单元50，用于存储预先设定的程序和语音数据；语音识别微处理单元50，该语音识别微处理单元与视听数据处理单元20、模数变换器40、数模变换器80以及存储器单元70连接，用于根据从模数变换器40接收到的数字信息与存储器单元70存储的信息对比产生第二操作指令，控制视听数据处理单元20；视听数据处理单元20，该部分连接操作输入单元10按键、语音识别微处理单元50、数模变换器80以及语音数据存储单元60，用于根据操作输入单元10产生的所述的第一指令和语音识别微处理单元50所产生的第二指令，从语音数据存储单元60读取相关的视听数据，送到数模变换器80经视听数据输出单元90播放；视听数据存储单元60，该视听数据存储单元60存储视听播放数据，如音频数据MP3，视频数据等。
数模变换器(DAC)80，该数模变换器80连接视听数据处理单元20以及语音识别微处理单元50，用于将视听数据处理单元20以及语音识别微处理单元50输入的数字信号变换为模拟信号；视听数据输出单元90，该视听数据输出单元90与数模变换器80连接，用于将来自数模变换器80的模拟信号变换为声音信号输出，视听数据输出单元90通常为扬声器或显示器。
该第一实施例是基于非特定人的语音识别视听播放装置，一般采用隐马尔可夫模型HMM(Hidden Markov Model)来建模。根据对大量的真实世界中的人的语音进行分析，并建立模型。同时，将这些模型存储在存储器单元70内。在识别时，装置同样先对输入的语音进行分析，提取特征，然后通过一定的算法并使用已建立的模型，从而识别出用户所说的话。
所述的存储器单元70是第一只读存储器ROM1，用于存储控制程序和提示音数据；第二只读存储器ROM2，用于存储语音模型和声学模型数据；随机存取存储器RAM，用于在语音识别微处理单元运行时，在随机存取存储器RAM中加载常用的数据和程序，以便提高语音识别微处理单元的运行速度。
图2是本发明的视听播放装置100的第一实施例的语音识别判断流程图。如图2所示，首先从步骤S201开始，对输入的语音进行判断，判断是否有效的语音信号，如果判断结果是否定的，是噪音信号，执行步骤S202，在一设定的周期内继续等待语音信号，如果设定的周期内没有接收到有效的信号，进入步骤S206，操作结束，在步骤S201，如果判断是肯定的，即语音识别微处理单元50接收到有效的语音信号，则进行语音识别，进入步骤S203判断是否可以产生操作指令，如果在步骤S203判断的结果是否定的，结果无法产生操作指令，则进入步骤S204进行语音提示，继续进行语音输入；如果在步骤S203判断的结果是肯定的，即是正确识别，并产生操作指令，则步骤进入S205执行操作指令，视听数据处理单元20执行相应的语音指令，步骤进入S206结束。
图3是本发明的视听播放装置的第二实施例的构成示意图。如图3所示，该视听播放装置与图1的构成基本相同。该视听播放装置是基于动态规划(DP)原理，和非特定人的语音识别视听播放装置的根本不同之处在于特定人语音识别在于使用前先进行语音训练，建立模式库。语音信号从语音输入单元30中输入，在ADC40(模数变换器)中转换成为数字信号，输入语音识别处理单元50。语音识别处理单元50从原始语音样本中去除冗余信息，保留关键数据，再对数据加以聚类，形成模式库，存储在闪存存储器FLASH中。对于特定的训练须要进行多次语音重复以获得最具特征的信息。对特定人的语音建立模式库后，使用和非特定人视听播放装置相似，不同之处在于输入的语音特征序列将和FLASH模式库中的数据进行比较，得到最佳的识别结果。因此，所述存储器单元70及其存储的信息与第一实施例不同，所述的存储器装置包括一种只读存储器ROM，用于存储控制程序和提示音数据；一种闪存存储器FLASH，用于存储模式库数据；随机存取存储器RAM，用于在语音识别微处理单元运行时，在随机存取存储器RAM中加载常用的数据和程序，以便提高语音识别微处理单元的运行速度。
图4是本发明的视听播放装置的第二实施例的语音识别判断流程图。如图4所示，首先从步骤S401开始，在步骤S402判断是否选择学习键，如果选中学习键，则进入步骤S403训练语言命令，建立训练系统，存储模式库；如果在步骤S402判断是否定的，则进入步骤S404判断是否是语音识别键，如果判断是否定的，则进入步骤S405其它按键，直接进入步骤S410执行相关操作指令。在步骤S404，如果判断是肯定的，则进入步骤S406，对输入的语音进行判断，判断是否是有效的语音信号，如果判断结果是否定的，是噪音信号，执行步骤S407，并在设定的周期内继续等待语音信号，如果设定的周期内没有接收到有效的语音信号，进入步骤S411，操作结束，在步骤S406，如果判断是肯定的，即语音识别微处理单元50接收到有效的语音信号，则进行语音识别，进入步骤S408判断是否可以产生操作指令，如果在步骤S408判断的结果是否定的，输入的语音如果无法识别，或者识别的结果不是语音操作指令，无法产生相应操作，则进入步骤S409进行语音提示，继续进行语音输入；如果在步骤S408判断的结果是肯定的，即能正确识别，并且产生操作指令，则步骤进入S410，执行操作指令，步骤进入S411结束。
根据以上的描述可知，本发明的一种能够识别语音指令的视听播放方法是通过如下的技术方案实现的，所述的方法包括步骤产生控制视听播放装置工作状态的第一指令；将语音指令变换为语音指令模拟信号，并将语音指令模拟信号变换为语音指令数字信号，然后传送到语音识别处理单元；根据从模数变换器接收到的话音指令数字信号和存储器装置存储的信息，进行判断识别和产生控制播放内容的第二指令，并传送到视听播放部分和数模变换器；根据操作输入单元产生的所述的第一指令和语音识别处理单元的产生的第二指令，产生所要求播放内容的信号，并传送到数模变换器；用于将数字信号变换为模拟信号，将来自数模变换器的模拟信号变换为声音信号；根据本发明的第一实施例，所述的存储器装置存储的信息包括用于存储控制程序和提示音数据；用于存储语言模型和声学模型数据；用于在语音识别微处理单元运行时，在随机存取存储器RAM中加载常用的数据和程序，以便提高语音识别微处理单元的运行速度。
所述的进行判断识别的步骤进一步包括1)、开始，首先对输入的语音进行判断，如果是无效的噪音信号，继续等待，如果设定的周期内没有接收到有效的信号，操作结束；2)、如果输入了有效的语音信号，则进行语音识别；如果无法识别，不能产生操作指令，则进行语音提示，继续进行语音输入；如是正确识别，并产生操作指令，则执行操作指令。
根据本发明的第二实施例，所述的存储器装置存储的信息包括用于存储控制程序和提示音数据；用于存储模式库数据；用于在语音识别微处理单元运行时，在随机存取存储器RAM中加载常用的数据和程序，以便提高语音识别微处理单元的运行速度。
所述的进行判断识别的步骤进一步包括1)、首先，对按键选择进行判断，如果选中学习键，则建立训练系统，存储语音模型库；2)、如果是识别键，首先对输入的语音进行判断，如果是无效的噪音信号，继续等待，如果在设定的周期内没有接收到有效的语音信号，操作结束；如果输入了有效的语音信号，则进行语音识别；如果无法识别，不能产生操作指令，则进行语音提示，继续进行语音输入；如是正确识别，并产生操作指令，则执行操作指令。
3)、如果是其它按键，则直接执行相应命令操作。
综上所述，本发明是在现有技术中的视听播放器的基础上进行的改进，有关现有技术中的视听播放器构成的部分这里不再重复赘述，本发明中的存储器单元的具体构成可以根据视听播放装置功能的需要进行不同的安排，也可以改变存储器单元的数量，将视听播放器中的存储器单元与视听数据存储单元结合在一起使用。
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，对本发明所作的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
权利要求
1.一种视听播放装置，包括视听数据处理单元、视听数据存储单元、操作输入单元、数模变换器及视听数据输出单元，其特征在于，所述的装置还包括语音输入单元，将话音指令变换为模拟信号，并传送到模数变换器；模数变换器，该模数变换器连接语音输入单元，转换语音输入单元的模拟信号为数字信号；语音识别处理单元，该语音识别微处理单元连接模数变换器，根据从模数变换器接收到的数字信号与预存储的语音模型数据对比产生操作指令，并传送所述视听数据处理单元；存储器单元，该存储器单元与语音识别处理单元连接，用于存储设定的程序和语音数据。
2.根据权利要求1所述的装置，其特征在于，所述的存储器单元包括第一只读存储器ROM1，存储控制程序和提示音数据；第二只读存储器ROM2，存储语言模型和声学模型数据；随机存取存储器RAM，在语音识别微处理单元运行时，加载常用的数据和程序。
3.根据权利要求1所述的装置，其特征在于，所述的存储器单元包括只读存储器ROM，存储控制程序和提示音数据；闪存存储器FLASH，存储模式库数据；随机存取存储器RAM，在语音识别微处理单元运行时，加载常用的数据和程序。
4.一种视听播放方法，其特征在于，所述的方法包括步骤产生控制视听播放装置工作状态的第一指令；输入语音指令，并转换语音指令为语音模拟信号；转换语音模拟信号为语音数字信号，并传送语音识别处理单元；对比语音数字信号与预存储的语音模型数据，产生相应操作指令，传送视听数据处理单元；及执行语音操作指令，进行数据处理。
5.根据权利要求4所述的方法，其特征在于，所述的识别语音指令的步骤进一步包括1)、判断输入的语音信号的有效性，并设定等待有效信号的周期；2)、对输入的有效语音信号，如果不能产生操作指令，则给出语音提示。
6.根据权利要求4所述的方法，其特征在于，所述的视听播放装置的包括存储单元，所述存储器单元存储的信息包括控制程序和提示音数据；语言模型和声学模型数据；语音识别处理单元运行时常用加载数据和程序。
7.根据权利要求4所述的方法，其特征在于，所述的识别语音指令的视听播放方法包括针对特定人的语音训练，通过训练语言命令，建立特定人的语音模型库。
8.根据权利要求4或7所述的方法，其特征在于，所述的视听播放装置进一步包括存储特定人语音模型库的闪存存储器FLASH。
全文摘要
本发明公开了一种视听播放装置及其播放方法，所述的装置包括操作输入单元、语音输入单元、模数变换器、存储器单元、语音识别处理单元、视听数据处理单元、视听数据存储单元、数模变换器以及视听数据输出单元，通过转换输入的语音指令成相应的操作指令，控制视听播放装置。本发明的识别语音指令的视听播放装置能够通过语音识别处理单元使用语音实现对视听播放装置的操作。通过语音指令替代原来的按键指令。用户只须对此装置发出语音指令，设备即能听明白用户的意思，并执行相应的操作，这样能够使视听播放装置更加小型化，便于携带。
文档编号G10L15/08GK1707612SQ20041002759
公开日2005年12月14日申请日期2004年6月8日优先权日2004年6月8日
发明者黄光明, 向锋, 成晓华申请人:深圳市朗科科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄光明;向锋;成晓华
技术所有人：深圳市朗科科技有限公司
我是此专利的发明人

上一篇：基于零陷对准插值的波束合成方法及装置的制作方法
上一篇：一种带共振片式共鸣器的弦乐器的制作方法