基于Kinect的点歌方法

文档序号:6636296阅读:192来源:国知局
基于Kinect的点歌方法
【专利摘要】本发明提供一种基于Kinect的点歌方法,基于Kinect的点歌方法凭借Kinect实现无接触式点歌,方法采用Kinect的语音控制功能和骨骼跟踪功能实现智能的点歌操作,用户可以与设备保持一定的距离进行点歌操作。同时还可以通过可拆卸式笔记本电脑进行点歌,再或者把可拆卸式笔记本当做平板进行点歌。使点歌操作变得更智能便利。
【专利说明】基于Kinect的点歌方法
[0001]

【技术领域】:本发明提供一种基于Kinect的点歌方法,属于智能化控制点歌软件的 方法,具体是以结合无接触式操作的方法实现控制点歌。
[0002]

【背景技术】:为了满足人们日益增长的娱乐需求,娱乐项目智能化程度一直在不断 的提高。点歌系统原本是KTV娱乐项目中必备的一项,目前点歌系统已然不再被娱乐场所 独享,在家庭生活中,植入了越来越多原本只在公共场所才有的娱乐设施。点歌系统经历了 一次又一次的更新换代,由最初的应用LD机点歌到后来的应用电脑点歌,到如今的VOD智 能技术点歌。但是点歌时大多是采用电脑前点选或者遥控器点选,过程繁琐,不够智能,不 够便利,效果不是很理想。


【发明内容】

[0003] 发明目的:本发明提供一种基于Kinect的点歌方法,其目的是解决以往的点歌所 存在的效果不理想的问题。
[0004] 技术方案:本发明是通过以下技术方案来实现的:
[0005] -种基于Kinect的点歌方法,其特征在于:该方法通过显示屏、Kinect设备和电 脑实现,电脑为可拆卸式笔记本电脑或者普通电脑;所述Kinect设备用于捕捉语音信息和 手势指令完成无接触式点歌,凭借Kinect摄像头获取用户的图像,通过Kinect的语音识别 功能获取用户的语音信息,将用户的图像和语音信息通过USB数据线传送给具有信息处理 功能的计算机即电脑,最后对接收的图像及语音信息进行处理得到相应的手势控制指令和 语音控制指令实现点歌操作。这里的电脑还能以传统的方式进行手动点歌,当电脑选用可 拆卸式笔记本电脑时,它的显示屏能拆卸下来,进而能够充当平板使用,可以在座位上人 与人之间相互传递着使用进行点歌。
[0006] 该方法包括以下步骤:
[0007] 1)将上述的硬件设备连接良好,将Kinect设备接入电脑系统,启动设备之后,完 成对用户手势的识别跟踪和语音识别;
[0008] 2)本发明的无接触式点歌方法部分主要以手势识别和语音识别的方法实现的,手 势识别部分,根据Kinect摄像头获取的用户图像,通过信息处理装置即主机电脑,处理用 户的手势指令,将处理后的信息反映在显示屏上,语音识别部分,首先捕获指定的单个用户 发出的语音信息,然后将得到的语音信息在电脑信息处理装置中进行处理,最后把用户发 送的语音指令结果反应在显示屏上;
[0009] 3)本发明还包括传统的手动点歌方式,通过电脑键盘直接输入进行点歌,或者可 以直接把可拆卸式笔记本电脑的触摸屏部分卸下来进行点歌。
[0010] 所述步骤2)中所述的手势识别部分通过Kinect摄像头采集用户手掌的深度信息 图像,进而提取出手掌部分,除去其它无用的深度信息,有效地定位掌心并跟踪手掌,把掌 心作为圆的圆心,以一定的半径展开得到一个最大的内切圆作为手掌区域,由于手掌中深 度坐标均相同,所以手掌的点坐标可以通过平面坐标表示出两点之间 的距离计算公式为:^lQpQ1J = -Jix2-X1)^+Cyz-V1)' ;
[0011] 所述步骤2)中,通过滤波方式,对。获取的图像进行识别和目标轨迹的判定,从而 快速的确定出掌心位置;式(;=(R tpPq)中(;表示包含手掌区域的圆,Rq表示圆心即掌心, Pq是圆的半径;通过跟踪手掌完成相应的手势识别操作。
[0012] 伸出手掌在胸前平面内同一水平高度处左右反复快速的摇手表示启动Kinect设 备准备进入点歌系统;伸出手掌在胸前平面内同一水平高度处手掌变换为拳头表示关机; 伸出手掌在胸前平面内同一水平高度处从左到右平移一段距离表示翻到上一页;同理从 右到左表示翻到下一页。亦或从下到上平移表示下一页,从上到下表示上一页,有关的一 系列手势设定均可结合日常习惯去设定,另外,用户需处于Kinect设备可视范围内进行操 作,Kinect的可视范围为水平视角范围小于57度、垂直视角范围小于43度、传感深度范围 在1. 2米到3. 5米之间,所以用户操作时务必要在规定的这个范围内才能捕获到完整的信 肩、。
[0013] 所述步骤2)中,语音识别部分通过Kinect麦克风阵列获取音频数据流,首先,通 过对用户的语音指令进行特征提取,为了能够完成预想的那些音频指令,还需为这些音频 建立一个音频数据库,对语音信息进行采样,从而生成相应的特征矢量,然后,将提取的语 音指令与已有的语音模式进行匹配,把匹配度最高的结果作为最后的结果,最后,将匹配出 的结果转化为指定的指令反馈在显示屏上,Kinect麦克风阵列可通过音频增强效果算法的 处理来屏蔽环境中的噪声,即使在一个面积很大的空间环境中,用户距离麦克风有较远的 距离,还是能够很好地对语音进行识别,Kinect设备采用的阵列技术包含有效的噪声消除 和回波抑制算法,与此同时采用波束成形技术,通过每个独立设备的响应时间确定音源位 置,并尽可能避免环境噪声的影响。
[0014] 所述步骤3)中,选用可拆卸式笔记本电脑类的电脑凭借个人的意愿随时卸下触 摸屏部分,卸载下的触摸屏相当于普通的平板一样的存在,或在KTV点歌的环境中充当手 动触摸屏点歌设备,或更自由的点歌;用户不必每一次点歌都要去手动点歌屏排队等待点 歌,在家里坐在沙发上或者床上就实现该过程,亦或在与设备有一定距离的地方进行点歌。
[0015] 为了每次无接触式情境下进行点歌时都去跟踪指定的一个用户发出的命令,本方 法在Kinect可视范围内有多个用户存在时,在人群中区分出执行点歌操作的用户,Kinect SDK具有分析深度数据和探测人体或者用户轮廓的功能,它一次最多可以识别6个用户, SDK为每一个追踪到的用户编号作为索引,用户索引存储在深度数据的前三位,用户索引位 取值范围为〇到6,所以系统可以设定最先发出语音指令或者手势指令的用户为本次操作 者,并在结束点歌流程前只去追踪这个用户的语音指令和手势指令,直到这个用户确认发 出完成操作指令。
[0016] 本方法通过Kinect SDK系统开发工具包中相应API应用程序接口获得人体的深 度图像与骨骼信息,并且它在获取深度图像过程中不受光照以及环境变化等外部的影响, 即使在光照很低的情况下也能够捕获到人体的深度图像和相应的骨骼信息。
[0017] 优点及效果:本发明提供一种基于Kinect的点歌方法,基于Kinect的点歌方法凭 借Kinect实现无接触式点歌,方法采用Kinect的语音控制功能和骨骼跟踪功能实现智能 的点歌操作,用户可以与设备保持一定的距离进行点歌操作。同时还可以通过可拆卸式笔 记本电脑进行点歌,再或者把可拆卸式笔记本当做平板进行点歌。使点歌操作变得更智能 便利,随心所欲。
[0018] 本发明提供一种基于Kinect硬件设备的基础上,实现一种更智能、更便民的点歌 方法完成点歌操作。这一方法可以有效的减少点歌操作所需的时间,节省了用户的宝贵时 间。无接触式操作还可以给用户带来全新的体验,使用户甚至不需要与设备近距离接触就 可以完成所想的操作,而且使操作更加智能化、人性化、具体化。新兴设备Kinect具有广阔 的应用空间。让用户认识到与机器的交流甚至可以通过对话和形象化的手势去实现,拉近 了人机之间的距离。采用可拆卸式笔记本电脑方法更方便了用户的点歌,采用传统与现代 化技术的融合方法,在科技日新月异发展的今天,这项技术的诞生更加引人瞩目。

【专利附图】

【附图说明】:
[0019] 图1为本发明的Kinect示意图;
[0020] 图2为一种基于Kinect的点歌方法的设备结构示意图;
[0021] 图3为基于Kinect的点歌方法的语音识别部分流程示意图。

【具体实施方式】 [0022] :下面结合附图对本发明做进一步的说明:
[0023] 如图2所示,本发明提供一种基于Kinect的点歌方法,该方法通过显示屏1、 Kinect设备2和电脑3实现,电脑为可拆卸式笔记本电脑或者普通电脑;所述Kinect设备 用于捕捉语音信息和手势指令完成无接触式点歌,凭借Kinect摄像头获取用户的图像,通 过Kinect的语音识别功能获取用户的语音信息,将用户的图像和语音信息通过USB数据线 传送给具有信息处理功能的计算机即电脑,最后对接收的图像和语音信息进行处理得到相 应的指令实现点歌操作,这里的电脑还能以传统的方式进行手动点歌,当电脑选用可拆卸 式笔记本电脑时,它的显示屏能拆卸下来,进而能够充当平板使用,可以在座位上人与人之 间相互传递着使用进行点歌。如果应用在KTV点歌环境中可以有效地节省成本。
[0024] 该方法包括以下步骤:
[0025] 1)将上述的硬件设备连接良好,将Kinect设备接入电脑系统,启动设备之后,完 成对用户手势的识别跟踪和语音识别;
[0026] 2)本发明的无接触式点歌方法部分主要以手势识别和语音识别的方法实现的,手 势识别部分,根据Kinect摄像头获取的用户图像,通过信息处理装置即主机电脑,处理用 户的手势指令,将处理后的信息反映在显示屏上,语音识别部分,首先捕获指定的单个用户 发出的语音信息,然后将得到的语音信息在电脑信息处理装置中进行处理,最后把用户发 送的语音指令结果反应在显示屏上;
[0027] 3)本发明还包括传统的手动点歌方式,通过电脑键盘直接输入进行点歌,或者可 以直接把可拆卸式笔记本电脑的触摸屏部分卸下来进行点歌。
[0028] 所述步骤2)中所述的手势识别部分通过Kinect摄像头采集用户手掌的深度信息 图像,进而提取出手掌部分,除去其它无用的深度信息,有效地定位掌心并跟踪手掌,这样 不但可以有效地减少外界事物对手势识别所带来的干扰,还可以提高计算效率,把掌心作 为圆的圆心,以一定的半径展开得到一个最大的内切圆作为手掌区域,由于手掌中深度坐 标均相同,所以手掌的点坐标可以通过平面坐标表示出AOq, yi),Q2U2, y2)两点之间的 距离计算公式为:,/砵,cy = ^^77^7^歹;
[0029] 所述步骤2)中,可以通过一些滤波方式,如卡尔曼滤波方式对获取的图像进行识 别和目标轨迹的判定,从而快速的确定出掌心位置;如(;=(R tpPq)中(;表示包含手掌区 域的圆,Rq表示圆心即掌心,P q是圆的半径;通过跟踪手掌完成相应的手势识别操作,比如: 伸出手掌在胸前平面内同一水平高度处左右反复快速的摇手表示启动Kinect设备准备进 入点歌系统;伸出手掌在胸前平面内同一水平高度处手掌变换为拳头表示关机;伸出手掌 在胸前平面内同一水平高度处从左到右平移一段距离表示翻到上一页;同理从右到左表示 翻到下一页。亦或从下到上平移表示下一页,从上到下表示上一页。有关的一系列手势设 定均可结合日常习惯去设定。另外,还需加以说明的是:用户需处于Kinect设备可视范围 内进行操作。Kinect设备是一种具有红外定位功能的体感系统,并且拥有3D体感摄像头。 Kinect的可视范围为水平视角范围小于57度、垂直视角范围小于43度、传感深度范围在 1. 2米到3. 5米之间。所以用户操作时务必要在规定的这个范围内才能捕获到完整的信息。
[0030] 所述步骤2)中,语音识别部分通过Kinect麦克风阵列获取音频数据流,首先,通 过对用户的语音指令进行特征提取,为了能够完成预想的那些音频指令,还需为这些音频 建立一个音频数据库,对语音信息进行采样,从而生成相应的特征矢量,然后,将提取的语 音指令与已有的语音模式进行匹配,把匹配度最高的结果作为最后的结果,最后,将匹配出 的结果转化为指定的指令反馈在显示屏上Kinect麦克风阵列可通过音频增强效果算法 的处理来屏蔽环境中的噪声,即使在一个面积很大的空间环境中,用户距离麦克风有较远 的距离,还是能够很好地对语音进行识别,Kinect设备采用的阵列技术包含有效的噪声消 除和回波抑制算法,与此同时采用波束成形技术,通过每个独立设备的响应时间确定音源 位置,并尽可能避免环境噪声的影响。
[0031] 所述步骤3)中,选用可拆卸式笔记本电脑类的电脑可以凭借个人的意愿随时卸 下触摸屏部分,卸载下的触摸屏相当于普通的平板一样的存在,也可以在KTV点歌的环境 中充当手动触摸屏点歌设备,可以更自由的点歌;用户可以不必每一次点歌都要去手动点 歌屏排队等待点歌,也可以在家里坐在沙发上或者床上,亦或在与设备有一定距离的地方 进行点歌。
[0032] 为了每次无接触式情境下进行点歌时都去跟踪指定的一个用户发出的命令,本方 法在Kinect可视范围内有多个用户存在时,它可以在人群中区分出执行点歌操作的用户, Kinect SDK具有分析深度数据和探测人体或者用户轮廓的功能,它一次最多可以识别6个 用户,SDK为每一个追踪到的用户编号作为索引,用户索引存储在深度数据的前三位,用户 索引位取值范围为〇到6,所以系统可以设定最先发出语音指令或者手势指令的用户为本 次操作者,并在结束点歌流程前只去追踪这个用户的语音指令和手势指令,直到这个用户 确认发出完成操作指令。
[0033] 由于考虑到点歌时候周围环境的问题,比如灯光效果不好的环境中,比如KTV的 包房中,光线不是很好的情境下。本发明能够通过Kinect SDK系统开发工具包中相应API 应用程序接口获得人体的深度图像与骨骼信息,并且它在获取深度图像过程中不受光照以 及环境变化等外部的影响,即使在光照很低的情况下也能够捕获到人体的深度图像和相应 的骨骼信息。如此就可以不必担心在灯光昏暗的环境中,难以捕捉到用户手部所处位置这 样的问题。
[0034] 下面结合附图做进一步说明,本发明所使用的关键设备Kinect示意图为如图1所 示,将Kinect与相应的硬件设备点歌机触摸屏连接,这个硬件设备是实现语音/手势点歌 操作的决定性设备。外观上看他有三只"眼睛",它们自左向右分别是红外投影机、彩色摄像 头、红外深度投影头。Kinect比较容易拆卸,但它的内部结构复杂,其中包含很多的感应器 元件和处理芯片,除了语音指令和体感操作指令外,Kinect没有其他形式的用户输入,输入 系统的关键是由麦克风和摄像头组成的感应系统。
[0035] 图2所示为一种基于Kinect的点歌方法结构示意图,图中为用户与硬件设备的示 意图,Kinect硬件设备用来获取语音指令和手势识别任务。用户只需处于Kinect可视范 围内,面对向点歌机并通过发出相应指令就可以完成点歌操作。
[0036] 图3为一种基于Kinect的点歌方法的语音识别部分流程示意图,首先对用户所发 送的语音信息进行采样处理,然后生成相应的特征值进行模式匹配操作,与系统本身的语 音指令数据库进行匹配,完成语音指令后把所得的结果再次反馈给用户。
[0037] 本发明在硬件、软件的结合中得以实现,本发明可以包括在具有计算机可用介质 的物品中。该介质在其中具有例如计算机可读程序代码装置或者逻辑来提供和使用本发明 的能力。该制造物品可作为计算机系统的一部分或者单独出售。所有上述变化被认为是要 求保护的本发明的一部分。
[0038] 本发明可以解决点歌方法所存在的问题,这种点歌方法可以在家里使用,也可以 应用到未来的KTV点歌环境中。用户既可以在座位前手动输入进行点歌或者在座位上相互 传递可拆卸式笔记本的触摸屏当作平板一样进行点歌,还可以在与设备有一段距离的地方 通过手势动作和语音指令开启点歌模式进行点歌,使现代化生活变得更加智能化。
[0039] 综上所述,本发明目的是让点歌操作变得更智能、更便利、为人们生活娱乐带来全 新体验并能够简化操作。
【权利要求】
1. 一种基于Kinect的点歌方法,其特征在于:该方法通过显示屏、Kinect设备和电脑 实现,电脑为可拆卸式笔记本电脑或者普通电脑;所述Kinect设备用于捕捉语音信息和手 势指令完成无接触式点歌,凭借Kinect摄像头获取用户的图像,通过Kinect的语音识别功 能获取用户的语音信息,将用户的图像和语音信息通过USB数据线传送给具有信息处理功 能的计算机即电脑,最后对接收的图像及语音信息进行处理得到相应的手势控制指令和语 音控制指令实现点歌操作。这里的电脑还能以传统的方式进行手动点歌,当电脑选用可拆 卸式笔记本电脑时,它的显示屏能拆卸下来,进而能够充当平板使用,可以在座位上人与人 之间相互传递着使用进行点歌。
2.根据权利要求1所述的基于Kinect的点歌方法,其特征在于:该方法包括以下步 骤: 1)将上述的硬件设备连接良好,将Kinect设备接入电脑系统,启动设备之后,完成对 用户手势的识别跟踪和语音识别; 2) 本发明的无接触式点歌方法部分主要以手势识别和语音识别的方法实现的,手势识 别部分,根据Kinect摄像头获取的用户图像,通过信息处理装置即主机电脑,处理用户的 手势指令,将处理后的信息反映在显示屏上,语音识别部分,首先捕获指定的单个用户发出 的语音信息,然后将得到的语音信息在电脑信息处理装置中进行处理,最后把用户发送的 语音指令结果反应在显示屏上; 3)本发明还包括传统的手动点歌方式,通过电脑键盘直接输入进行点歌,或者可以直 接把可拆卸式笔记本电脑的触摸屏部分卸下来进行点歌。
3.根据权利要求2所述的基于Kinect的点歌方法,其特征在于: 所述步骤2)中所述的手势识别部分通过Kinect摄像头采集用户手掌的深度信息图 像,进而提取出手掌部分,除去其它无用的深度信息,有效地定位掌心并跟踪手掌,把掌心 作为圆的圆心,以一定的半径展开得到一个最大的内切圆作为手掌区域,由于手掌中深度 坐标均相同,所以手掌的点坐标可以通过平面坐标表示出A(Xpy1)A2O^y2)两点之间的 距离计算公式为:
4.根据权利要求2所述的基于Kinect的点歌方法,其特征在于:所述步骤2)中,通过 滤波方式,对获取的图像进行识别和目标轨迹的判定,从而快速的确定出掌心位置;式(;= (RtpPq)中(;表示包含手掌区域的圆,Rq表示圆心即掌心,Pq是圆的半径;通过跟踪手掌完 成相应的手势识别操作。
5.根据权利要求4所述的基于Kinect的点歌方法,其特征在于:伸出手掌在胸前平面 内同一水平高度处左右反复快速的摇手表示启动Kinect设备准备进入点歌系统;伸出手 掌在胸前平面内同一水平高度处手掌变换为拳头表示关机;伸出手掌在胸前平面内同一水 平高度处从左到右平移一段距离表示翻到上一页;同理从右到左表示翻到下一页。亦或从 下到上平移表示下一页,从上到下表示上一页,有关的一系列手势设定均可结合日常习惯 去设定,另外,用户需处于Kinect设备可视范围内进行操作,Kinect的可视范围为水平视 角范围小于57度、垂直视角范围小于43度、传感深度范围在1. 2米到3. 5米之间,所以用 户操作时务必要在规定的这个范围内才能捕获到完整的信息。
6. 根据权利要求2所述的基于Kinect的点歌方法,其特征在于:所述步骤2)中,语音 识别部分通过Kinect麦克风阵列获取音频数据流,首先,通过对用户的语音指令进行特征 提取,为了能够完成预想的那些音频指令,还需为这些音频建立一个音频数据库,对语音信 息进行采样,从而生成相应的特征矢量,然后,将提取的语音指令与已有的语音模式进行匹 配,把匹配度最高的结果作为最后的结果,最后,将匹配出的结果转化为指定的指令反馈在 显示屏上,Kinect麦克风阵列可通过音频增强效果算法的处理来屏蔽环境中的噪声,即使 在一个面积很大的空间环境中,用户距离麦克风有较远的距离,还是能够很好地对语音进 行识别,Kinect设备采用的阵列技术包含有效的噪声消除和回波抑制算法,与此同时采用 波束成形技术,通过每个独立设备的响应时间确定音源位置,并尽可能避免环境噪声的影 响。
7. 根据权利要求2所述的基于Kinect的点歌方法,其特征在于:所述步骤3)中,选用 可拆卸式笔记本电脑类的电脑凭借个人的意愿随时卸下触摸屏部分,卸载下的触摸屏相当 于普通的平板一样的存在,或在KTV点歌的环境中充当手动触摸屏点歌设备,或更自由的 点歌;用户不必每一次点歌都要去手动点歌屏排队等待点歌,在家里坐在沙发上或者床上 就实现该过程,亦或在与设备有一定距离的地方进行点歌。
8. 根据权利要求2所述的基于Kinect的点歌方法,其特征在于:为了每次无接触式情 境下进行点歌时都去跟踪指定的一个用户发出的命令,本方法在Kinect可视范围内有多 个用户存在时,在人群中区分出执行点歌操作的用户,KinectSDK具有分析深度数据和探 测人体或者用户轮廓的功能,它一次最多可以识别6个用户,SDK为每一个追踪到的用户编 号作为索引,用户索引存储在深度数据的前三位,用户索引位取值范围为〇到6,所以系统 可以设定最先发出语音指令或者手势指令的用户为本次操作者,并在结束点歌流程前只去 追踪这个用户的语音指令和手势指令,直到这个用户确认发出完成操作指令。
9. 根据权利要求2所述的基于Kinect的点歌方法,其特征在于: 本方法通过KinectSDK系统开发工具包中相应API应用程序接口获得人体的深度图 像与骨骼信息,并且它在获取深度图像过程中不受光照以及环境变化等外部的影响,即使 在光照很低的情况下也能够捕获到人体的深度图像和相应的骨骼信息。
【文档编号】G06F3/01GK104461524SQ201410705518
【公开日】2015年3月25日 申请日期:2014年11月27日 优先权日:2014年11月27日
【发明者】关沫, 梁梦雪 申请人:沈阳工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1