智能电视语音应答系统及方法

文档序号：7869292阅读：214来源：国知局

专利名称：智能电视语音应答系统及方法
技术领域：
本发明涉及智能电视领域，尤其是ー种智能电视语音应答方法及系统。
背景技术：
随着电视的智能化以及智能电视的普及，宽带有线电视网集互联网、多媒体、通讯等技术于一体，向家庭用户提供包括数字电视在内的多种交互式服务。智能电视能够很好地适应当今网络飞速发展的趋势，充分有效地利用网络资源。电视机的智能化伴随着的是电视按键操作的难度和繁琐度也将越来越大。因此将语音识别技术融入智能电视的操作系统中，实现控制命令的语音操作将使用户将双手解放出来，仅靠说话就能轻松的完成操作，这将是智能电视领域发展的方向。
语音识别技术是自2000年至今信息技术领域十大重要的科技发展技术之一。它是ー门交叉学科，正逐步成为信息技术中人机接ロ的关键技术。语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%。这些技术已经能够满足通常应用的要求。由于大規模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别ロ语对话系统查询有关的机票、旅游、银行信息，并且取得很好的結果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测在近五到十年内，语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。再如专利号为201010255337. 9的发明专利公开了ー种基于语音命令的视音频播放方法及系统。涉及媒体播放技术领域，只需按动一启动键，用户对所述终端设备的操作均可通过语音命令来完成。用户按下设置在车辆的固定部件上的一键式控制装置的启动键，所述终端设备与VSP服务器建立语音会话连接，系统进入自动应答状态。所述VSP服务器采用非特定人语音识别技术对用户的语音命令进行解析，并将解析结果发送至所述终端设备，由所述终端设备根据所述解析结果启动视音频播放模块，井根据视音频播放地址获取视音频流。该专利技术方案主要应用于娱乐设备，尤其应用于车载娱乐设备。语音识别技术应用于智能电视领域，现有的语音应答系统和方法中，一种是采用服务器模式进行语音识别，语音识别模块在服务器端，也就是说用户发出的每条语音控制命令都需要经机顶盒发送给服务器端进行语音识别，再由服务器将识别出的操作命令交由机顶盒进行执行，这样势必会占用信号传输带宽，増加操作时间，降低语音操作的灵敏度；另ー种是采用嵌入式语音识别模式，将语言识别软件及模型写在智能电视的存储器里，识别过程在終端完成，该模式中智能电视的操作命令较固定，需要识别的词汇量不是很大，不会占用存储器大大的空间，所以嵌入式模式与服务器模式相比识别所需的时间更短，可以使用户更快速的完成操作。随着社会的不断发展，信息量也越来越多。这必然引起人们每天生活在众多信息中，不可能对什么都了解的比较清楚，所以信息查询越来越必要。比如在家里不希望定点通过电视来收看天气，希望随时都能够查询，如果使用PC或者手机进行搜索，有些人会认为比较麻烦，还需要输入。因此希望查询的过程越简单越好，那么智能应答系统是最好的选择。只需要说出你所想要获得的信息，智能应答系统就会回复给你所想要的答案。然而语言所能表述的意思具有开放性的特点，同一个命令在不同语境下表达的意思也不同，并且每个用户的年龄、性别都存在差异，这些因素对同一个命令所想要表达的意思也有较大影响，例如当用户使用“选择电影”的命令时，系统出现电影列表以供用户进ー步选择，而系统不能准确地预测用户可能想要观赏的影片类型，使得电影列表不能优先出现用户该类型的影片，用户不得不在繁杂的列表中继续查找。

发明内容
本发明的目的是克服现有技术中的缺陷，提供一种可以针对用户语音命令，的智能电视语音应答方法及系统。为解决上述问题，本发明的ー种智能电视语音应答系统，包括用户身份特征识别模块，与语音命令识别模块相连，用于获取用户身份特征，并将获取的身份特征信息发送至语音命令识别模块；语音命令识别模块，与智能应答模块相连，用于接收用户语音，并对语音进行识另IJ，以及根据用户身份特征识别模块发送的用户身份信息进行语义识别，得出符合用户身份特征的命令，并将该命令发送至智能应答模块；智能应答模块，用于接收语音命令识别模块发送的符合用户身份特征的命令，根据该命令进行知识库的匹配，得出给用户的应答信息，并将应答信息进行反馈。所述用户身份特征识别模块，包括图像采集単元，与图像分析単元相连，用于采集用户图像，并将采集到的用户图像发送至图像分析単元；图像分析単元，与语音命令识别模块相连，用于接收图像采集单元发送的用户图像，并对用户图像进行识别分析，得出用户身份特征信息并发送至语音命令识别模块。所述图像分析单元,包括基于人脸识别的年龄判断単元，用于对用户的人脸图像进行识别分析，得出用户的年龄信息。所述图像分析単元，包括基于人脸识别的性别判断単元，用于对用户的人脸图像进行识别分析，得出用户的性别信息。所述语音命令识别模块，包括语音采集単元，与语音分析単元相连，用于采集用户语音信息，并将采集到的语音信息发送至语音分析単元；语音分析単元，与语义分析単元相连，用于接收语音采集单元发送的语音信息，并对语音信息进行分析得出对应该语音对应的文字信息，以及将该文字信息发送至语义分析单元；语义分析単元，分别与用户身份特征识别模块和智能应答模块相连，用于接收语音分析单元发送的文字信息以及用户身份特征识别模块发送的用户身份特征信息，并调取所述文字信息对应的命令库中与用户身份特征信息相匹配的命令发送至智能应答模块。所述智能电视语音应答系统还包括TTS模块，与智能应答模块相连，用于将智能应答模块得出给用户的应答信息由文本格式转化成为音频格式进行输出。ー种智能电视语音应答方法，包括以下步骤I)用户身份特征识别获取用户身份特征，并将获取的身份特征信息发送至语音命令识别模块；2)语音命令识别模块，接收用户语音，对语音进行识别，井根据用户身份特征识别模块发送的用户身份信息进行语义识别，得出符合用户身份特征的命令，并将该命令发送至智能应答模块；3)智能应答模块接收语音命令识别模块发送的符合用户身份特征的命令，根据该命令进行知识库的匹配，得出给用户的应答信息，并将应答信息进行反馈。所述步骤I包括11)图像采集单元采集用户图像，并将采集到的用户图像发送至图像分析単元；12)图像分析単元接收图像采集单元发送的用户图像，并对用户图像进行识别分析，得出用户身份特征信息并发送至语音命令识别模块。所述步骤12)包括以下步骤121)图片预处理，使用户图像中的人脸位置、大小和图像归一化；122)图片区域划分与训练，将用户图像中人脸进行区域划分，划分为多个识别区域，每个识别区域输出不同的灰度值和ニ值化图像；123)区域脸部特征值模板匹配，每个所述识别区域分离出不同的模板匹配単元，计算每个模板匹配単元与匹配模板的特征值，将所述特征值作为神经网络算法的输入层中的输入神经单元，经过神经网络处理算法，得出最佳匹配度的图片結果；124)将所述图片结果进行脸部加权计算；125)图片识别结果知识库反馈。所述步骤2包括21)语音采集单元采集用户语音信息，并将采集到的语音信息发送至语音分析单元;22)语音分析単元接收语音采集单元发送的语音信息，并对语音信息进行分析得出对应该语音对应的文字信息，以及将该文字信息发送至语义分析単元；23)语义分析単元接收语音分析单元发送的文字信息以及用户身份特征识别模块发送的用户身份特征信息，并调取所述文字信息对应的命令库中与用户身份特征信息相匹配的命令发送至智能应答模块。所述用户身份特征包括用户的年龄和/或性別。采用本发明的智能电视语音应答系统及方法，用户身份特征识别模块可以识别出用户的基本信息，例如年龄、性别等。这些信息为语音命令识别模块提供了决策依据，如用户语言命令“选择电影”，根据用户身份特征识别的结果不同，反馈出的电影也不同如果用户为儿童，系统反馈的结果将会是迪斯尼电影，如果用户为青年人，则反馈的结果是爱情片，如果用户为中年人，则反馈的结果是剧情片，这就使得用户的选择程序得到了大大简化。本发明能够识别出用户的身份特征，同时能够根据上下文来理解用户的意思，准确的对用户的语音输入给出反馈应答，増加了智能电视语音应答的准确度，为用户省去了多次选择的繁琐步骤，节省了时间，提高了智能电视的使用满意度，使智能电视的操作更加人性化。

图1为本发明智能电视语音应答系统结构框图。图2为本发明智能电视语音应答系统中人脸识别流程框图。图3为人脸主要识别区域划分示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明技术方案，下面结合附图和实施方式对本发明作进ー步的详细说明。如图1所示，本发明的ー种智能电视语音应答系统，包括用户身份特征识别模块、语音命令识别模块以及智能应答模块。其中，用户身份特征识别模块，与语音命令识别模块相连，用于获取用户身份特征，并将获取的身份特征信息发送至语音命令识别模块。该用户身份特征识别模块，包括图像采集単元和图像分析単元。所述图像采集单元，与图像分析単元相连，用于采集用户图像，并将采集到的用户图像发送至图像分析単元；图像采集単元包括在电视上边缘的三个摄像头，三个摄像头分别位于电视的左上角，右上角和上边正中间三个位置，通过三个摄像头可以扑捉使用者头像的正侧位图像。相对于ー个摄像头，三个摄像头能捕捉到更全面的图像。图像分析単元，与语音命令识别模块相连，用于接收图像采集单元发送的用户图像，并对用户图像进行识别分析，得出用户身份特征信息并发送至语音命令识别模块。该图像分析単元包括基于人脸识别的年龄判断単元、性别判断単元或表情判断单元，对用户的人脸图像进行识别分析，通过图像处理算法和模糊匹配算法实现从用户人脸图像中得出用户的基本信息，诸如用户年龄、性别或表情等信息。如图2所示，图像分析单元对用户人脸图像进行识别分析主要经过以下几个阶段I)图片预处理阶段；在实际应用中，图像采集単元因受到外界环境的限制和干扰，采集到的图像可能会带有很多噪声和干扰信号，这对于图像质量要求较高的人脸模式识别问题会产生很大的影响，造成分类能力的下降。因此在对数字图像提取特征之前，图像预处理是非常必要的，使人脸图像中的人脸位置、大小和图像归一化，并克服遮挡、姿态、光照、饰物等因素的影响。2)图片区域划分与训练阶段；图3为人脸主要识别区域划分示意图。如图3所示，在进行面部模板匹配之前，需要对面部进行区域划分，分区域的记性图片的模板匹配。面部的区域划分包括头发发型区，额头区，眉毛眼睛区，鼻子区，颧骨脸颊区，嘴部区和下巴区。每ー个区域输出不同的灰度图和ニ值化的图像。3)区域脸部特征值模板匹配阶段；脸部特征的匹配算法是神经网络方法和模板匹配的结合。在每个识别区域中再次细化，分离出不同的模板匹配単元。同吋，还应该包含出整个面部识别中通用的考核项目，不同的考核项目再分配给不同的权值。目前整个面部识别的考核项目细化如表一所示。对于人脸的区域划分与模板匹配单元随着研究的深入与识别技术的发展会有调
整。针对每一个模板匹配项目，采用计算与匹配模版的特征值的方法。假设有训练集{I}，其中I为mXn大小的人脸图像(i=l，2，...N)，首先将每个图像I的每列相连构成一个大小为d=mXn维的列向量。这样得到{ (1=1，2，...吣3表示第1幅人脸图像形成的人脸向量，则匹配模版的特征值的计算方法为
权利要求
1.一种智能电视语音应答系统，其特征在于，包括用户身份特征识别模块，与语音命令识别模块相连，用于获取用户身份特征，并将获取的身份特征信息发送至语音命令识别模块；语音命令识别模块，与智能应答模块相连，用于接收用户语音，并对语音进行识别，以及根据用户身份特征识别模块发送的身份特征信息进行语义识别，得出符合用户身份特征的命令，并将该命令发送至智能应答模块；智能应答模块，用于接收语音命令识别模块发送的符合用户身份特征的命令，根据该命令进行知识库的匹配，得出给用户的应答信息，并将应答信息进行反馈。
2.如权利要求1所述智能电视语音应答系统，其特征在于，所述用户身份特征识别模块，包括图像采集单元，与图像分析单元相连，用于采集用户图像，并将采集到的用户图像发送至图像分析单元；图像分析单元，与语音命令识别模块相连，用于接收图像采集单元发送的用户图像，并对用户图像进行识别分析，得出用户身份特征信息并发送至语音命令识别模块。
3.如权利要求2所述智能电视语音应答系统，其特征在于，所述图像分析单元，包括基于人脸识别的年龄判断单元，用于对用户的人脸图像进行识别分析，得出用户的年龄信息。
4.如权利要求2所述智能电视语音应答系统，其特征在于，所述图像分析单元，包括基于人脸识别的性别判断单元，用于对用户的人脸图像进行识别分析，得出用户的性别信息。
5.如权利要求1所述智能电视语音应答系统，其特征在于，所述语音命令识别模块，包括语音采集单元，与语音分析单元相连，用于采集用户语音信息，并将采集到的语音信息发送至语音分析单元；语音分析单元，与语义分析单元相连，用于接收语音采集单元发送的语音信息，并对语音信息进行分析得出对应该语音对应的文字信息，以及将该文字信息发送至语义分析单元;语义分析单元，分别与用户身份特征识别模块和智能应答模块相连，用于接收语音分析单元发送的文字信息以及用户身份特征识别模块发送的身份特征信息，并调取所述文字信息对应的命令库中与身份特征信息相匹配的命令发送至智能应答模块。
6.如权利要求1至5任一项所述智能电视语音应答系统，其特征在于，所述智能电视语音应答系统还包括TTS模块，与智能应答模块相连，用于将智能应答模块得出给用户的应答信息由文本格式转化成为音频格式进行输出。
7.一种智能电视语音应答方法，包括以下步骤1)用户身份特征识别获取用户身份特征，并将获取的身份特征信息发送至语音命令识别丰旲块;2)语音命令识别模块，接收用户语音，对语音进行识别，并根据用户身份特征识别模块发送的身份特征信息进行语义识别，得出符合用户身份特征的命令，并将该命令发送至智能应答模块；3)智能应答模块接收语音命令识别模块发送的符合用户身份特征的命令，根据该命令进行知识库的匹配，得出给用户的应答信息，并将应答信息进行反馈。
8.如权利要求7所述智能电视语音应答方法，其特征在于，所述步骤I包括11)图像采集单元采集用户图像，并将采集到的用户图像发送至图像分析单元；12)图像分析单元接收图像采集单元发送的用户图像，并对用户图像进行识别分析，得出用户身份特征信息并发送至语音命令识别模块。
9.如权利要求8所述智能电视语音应答方法，其特征在于，所述步骤12)包括以下步骤121)图片预处理，使用户图像中的人脸位置、大小和图像归一化；122)图片区域划分与训练，将用户图像中人脸进行区域划分，划分为多个识别区域，每个识别区域输出不同的灰度值和二值化图像；123)区域脸部特征值模板匹配，每个所述识别区域分离出不同的模板匹配单元，计算每个模板匹配单元与匹配模板的特征值，将所述特征值作为神经网络算法的输入层中的输入神经单元，经过神经网络处理算法，得出最佳匹配度的图片结果；124)将所述图片结果进行脸部加权计算，得出图片识别结果；125)图片识别结果知识库反馈。
10.如权利要求7所述智能电视语音应答方法，其特征在于，所述步骤2包括21)语音采集单元采集用户语音信息，并将采集到的语音信息发送至语音分析单元；22)语音分析单元接收语音采集单元发送的语音信息，并对语音信息进行分析得出对应该语音对应的文字信息，以及将该文字信息发送至语义分析单元；23)语义分析单元接收语音分析单元发送的文字信息以及用户身份特征识别模块发送的身份特征信息，并调取所述文字信息对应的命令库中与身份特征信息相匹配的命令发送至智能应答模块。
全文摘要
本发明公开了一种智能电视语音应答系统，包括用户身份特征识别模块，语音命令识别模块，以及智能应答模块；还公开了一种智能电视语音应答方法，包括1)获取用户身份特征；2)语音识别，并根据用户身份特征得出符合用户身份特征的命令；3)根据该命令进行知识库的匹配，得出给用户的应答信息，并将应答信息进行反馈。本发明的智能电视语音应答系统及方法，能够识别出用户的身份特征，同时能够根据上下文来理解用户的意思，准确的对用户的语音输入给出反馈应答，增加了智能电视语音应答的准确度，为用户省去了多次选择的繁琐步骤，节省了时间，提高了智能电视的使用满意度，使智能电视的操作更加人性化。
文档编号H04N21/4415GK103024530SQ20121055321
公开日2013年4月3日申请日期2012年12月18日优先权日2012年12月18日
发明者常连城申请人:天津三星电子有限公司, 三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：常连城
技术所有人：天津三星电子有限公司;三星电子株式会社
我是此专利的发明人

上一篇：访问控制列表的校验方法和共享存储系统的制作方法
上一篇：工业控制网络安全防护方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。