一种智能虚拟交互方法

文档序号：6560144阅读：319来源：国知局

专利名称：一种智能虚拟交互方法
技术领域：
本发明属于计算机操作技术领域，尤其是涉及一种人与计算机交互的方法。
背景技术：
人机交互(Human-Computer Interaction)是计算机学科中一个新的分支学科。它是计算机科学和认知心理学两大科学相结合的产物，它涉及当前许多热门的计算机技术，如可用性工程、人工智能、自然语言处理、多媒体系统等，同时也是吸收了语言学、人机工程学和社会学的研究成果，是一门交叉性、边缘性、综合性的学科。而随着计算机应用领域的不断扩大，广大的软件研制人员和计算机用户迫切地需要符合“简单、自然、友好、一致”原则的人机界面。事实上，几乎所有优秀的系统设计和成功的软件产品都必定涉及到友好的人机界面。没有好的交互界面，系统的性能再好也不能算是一个好的系统。
当今的计算机开发已经从单一的实现功能转向以用户为中心的设计方法。微软、IBM，、ORACLE这些大企业的产品用户在二维界面方面做得很完善。其实这正是他们为适应时代发展不惜代价利用统计学的方法跟踪、调查、实验、分析用户的操作习惯和审美取向。简单地说就是他们肯花大价钱搞清楚用户到底喜欢什么样的操作界面。这些做法当然都是最有效的，最符合科学规律的，也最能解决我们在界面设计中碰到的各种问题。
尽管目前计算机二维界面已经被开发得较完善，但是仍有不足之处。现在计算机输出的内容已经可以快速、连续地显示彩色图像，其信息显示量非常大。而人们的输入却还是使用键盘一个又一个地敲击，因而，计算机的输入带宽是很低的。另外非精确交互技术性差，精确交互技术是指能用一种技术来完全说明用户交互目的的交互方式，键盘和鼠标器均需用户精确输入。而人们的动作或思想往往并不很精确，计算机应该理解人的要求，甚至于纠正人的错误，应具有智能化的界面。没有充分发挥多通道界面的功能，多通道界面指在充分利用一个以上的感觉和运动通道的互补特性来捕捉用户的意向，从而增进人机交互中的自然性。人的感觉通道有视觉、听觉、触觉、嗅觉和平衡等；人的运动通道有手、嘴、眼、头、足及身体等。现在，计算机操作时，人的眼和手十分累，效率也不高。若将听、说和手、眼等协同动作，采用多通道、以自然方式交互，可以实现高效人机通信，也可以由人或机器选择最佳反应通道，从而不会使某一通道负担过重。即加快了操作速度又减少了等待的时间。
人们对未来操作界面设计方案仍然希望以人为中心。以用户对界面的需求变化为出发点，使用户界面的外在形式和内部机制能符合不同用户的需要，这就是以人为中心的设计思想。特定人的语音识别技术将使计算机能理解人们的要求，是一种重要的输入界面和手段。鱼眼(Fisheye)技术使屏幕观察(或光标)位置附近的内容被放大，便于用户观察。在传统的人机系统中，人被认为是操作者，人去适应机器；在一般的人机系统中，人被称为用户，能与机器对话，但无主动控制能力；而在虚拟现实系统中，人能够成为主动的参与者，机器将对人的各种动作做出反应。各种系统才能方便人们的学习和使用。新一代的用户界面应该支持高的输入带宽，快速大批量地输入信息。语音、图像及姿势等的输入和理解是今后的发展方向。

发明内容
针对目前计算机操作存在的不足，为了实现以人为中心、除键盘和鼠标操作工具以外的其他方式操作计算机的目的，基于人与人的交互理念，发明了一种智能虚拟交互方法。
本发明采取的技术方案是一种智能虚拟交互方法，其技术特点是首先在三维桌面系统中创建一个较为逼真的三维立体虚拟人或动物，此人或动物不仅可以发音说话，而且还能够具有一些行为动作。然后将此虚拟人或动物与语音识别相连接，同时还与操作系统中的文档管理、运行软件的启动、关闭等相连接，使该虚拟人或动物可以进行计算机中的各种操作。
当打开计算机时，所创建的虚拟人或动物自动走到前台，主动说话询问用户想要做什么？用户可以用语言与其对话，告知其想要计算机所做的事，例如打开某文档或启动某程序或打开浏览器上网等，然后计算机中的虚拟人或动物根据语言指令将进行相关的服务操作。无需用户利用键盘或鼠标进行一步一步地操作，即靠人与虚拟人或动物的交互来操作计算机。
由于在计算机中创建了虚拟人或动物，使语音识别技术的应用更加人性化。目前语音识别技术对于特定人的几百个语言指令的识别已达到实用化程度，但是由于人们不习惯与机器进行语言交流，因此语音识别技术难以在计算机的操作中被推广使用。利用在计算机中创建虚拟人或动物的方法，使人感到是与计算机中的虚拟人或动物在进行交互，而不是与枯燥的机器在进行交互，很容易被人们所接受。由于在计算机中有了虚拟人或动物，使人与计算机的交互更加自然、更加容易。
在计算机中所创建的虚拟人或动物不仅要具有真实感，而且具有说话和做各种动作的功能。当操作者与该虚拟人或动物对话时，如果对操作者所发出的语言指令未能“听懂”(识别)时，就按虚拟人自身的理解反问一次。例如操作者说“请将WEB打开！”，虚拟人或动物按自己的理解反问“是让我将外部文档打开吗？”，操作者若说不是，就请再重复一遍指令，直到操作者说是或对时，虚拟人或动物即按指令进行操作，同时将操作者第一次所发出的语言指令存储下来，使下一次再发出同样的指令能够立即识别出来。当操作者经常使用自己的计算机时，此计算机中的虚拟人或动物对操作者的语言指令就会理解的越来越正确，操作的速度也就越来越快。
当操作者操作其他计算机时可以将自己计算机中的虚拟人或动物对自己语言的理解特征拷入到其他计算机中，使其他计算机也具有同样能够很快听懂自己语言指令的虚拟人或动物。这中方法使人利用语言指令操作计算机很快就能摆脱鼠标和键盘，使语音操作计算机得到普及应用。由于计算机中所创建的虚拟人或动物与计算机中的文档、应用程序及配置管理等在内部事先已连接好，无需操作者再按照计算机中操作系统所规定的步骤进行一步一步操作，因此对不熟悉计算机操作系统的人也将会使用计算机。本发明可以不必学习操作系统的操作方法就可以利用自然语言使计算机为使用者服务，而且对计算机的操作既快捷、又方便。
本发明实际有益效果是1、人与计算机的交互更加人性化，使操作者感到是人与人的交互，而不是人与机器的交互；2、在计算机中创建的较为逼真的虚拟人或动物，使语音识别技术在计算机操作中的应用更加容易被操作者所接受，有利于语音识别技术的推广应用和发展；3、人们不必学习操作系统的操作步骤同样可以快捷、方便地操作计算机；4、为计算机的操作提供了一种有效、实用的新途径。

图1智能虚拟交互方法的主流程图。
图2在三维桌面系统中导入的虚拟人图。
图3虚拟人动作图(a为转身；b为行走)。
图4虚拟人在桌面系统中语音交互流程图。
图5虚拟人启动游戏的场景图。
具体实施例方式
下面结合附图和具体实施实例对本发明作进一步说明。
根据流程图1首先利用3DSMax工具制作出三维立体人(创建动物可用同样的技术)，并创建出转身、行走等一些规范性动作，然后导入到三维桌面系统中，如图2所示。虚拟人模型是Model类，其中最为重要的是CalCoreModel*m_calCoreModel成员变量。通过调用Model类的onInit方法来进行虚拟人信息的加载。从而分别载入配置文件中对应意义的数据文件。最后所有的信息都被放入m_calCoreModel中。同样可以完成对m_vectorCoreAnimation、m_vectorCoreMesh和m_vectorCoreMaterial的载入。在载入材质文件的过程中，有带纹理图的情况，这时需要用纹理图ponytail.tga生成对应的纹理对象，将纹理对象号也存入CalCoreMaterial对象中。
每个生成的CalCoreMaterial对象对应着一个MeterialID，而每个CalCoreMesh对象在载入时会得到本mesh对应的MeterialID，这样在几何顶点与材质纹理之间就可以进行正确关联。最终，生成核心对象m_calCoreModel，完成虚拟人的导入。
将虚拟人导入到三维桌面系统后，当开机进入三维桌面系统时或当光标触碰到该虚拟人时，虚拟人即说出“需要我做什么？”等简单对话，如图2所示，该虚拟人具有语音识别和发音功能。此项功能的基本设计是当计算机启动后，虚拟人挂接的语音识别和发音软件同时启动，当操作者发出的语言指令被虚拟人听懂(识别出来)后，即回答“遵命！”，同时按指令执行相应的操作。当被执行的操作文档或软件在本地空间时，虚拟人可以站立不动或只有转身动作，如图3a所示；当被执行的文档或软件不在本地空间时，虚拟人将转身走出此空间去打开文档或应用软件，然后再走回来，如图3b所示。
当虚拟人没有听懂(未识别出来)或不能确定操作者所发的指令时，就按虚拟人自己识别出的意思(或理解的内容“你是要让我做…吗？”)回答一遍。操作者若认为不对，可以再重复一次此指令，直到虚拟人回答正确，操作者再说“是的”，然后虚拟人回答“遵命！”即执行操作。如流程图4所示，此时将操作者第一次发出的指令与虚拟人回答正确的最后一次相匹配，当下一次操作者再发此指令时，虚拟人可以很快识别出来，将直接回答“遵命！”。即这种特定语音的特征将被记录下来，经过一段时间的交互，虚拟人将能够很快“听懂”特定操作者的语音指令，实际上是一个学习的过程。将这种特定语音特征与虚拟人捆绑在一起，可以拷贝到优盘中随身携带(实际上只要将特定语音的识别特征拷贝到优盘中即可)。当使用其他装有虚拟人的计算机时，操作者将此虚拟人语音识别特征拷入到这台计算机中，使虚拟人不必再重新学习特定操作者的语音特征，即可与使用自己原有的计算机一样，最终实现每个操作者都有自己的服务秘书——虚拟人。
如主流程图1所示，虚拟人可以直接进行文件管理、上网查询、收发邮件、各种配置等操作。虚拟人不仅具有各种查询功能，例如“帮我查找某文档”、“某邮件是否收到”、“今天是什么日子”等；而且虚拟人还具有记忆功能，对于操作者安排给虚拟人的计划能够按时提醒和操作，例如操作者可以告知虚拟人“当接收到某邮件时，请立即转发给另外某人”；“请提醒我在明天下午去做某事”；“请将某文档于后天发给某人”等。虚拟人的智能化是根据操作者的语意写出文档，甚至可以根据操作者说出的题目或大概意识自动在本地机或网上搜寻相关内容，然后形成文档，再由操作者进行修改。所创建的虚拟人与现实中的秘书具有相似的基本功能和作用，使所用的计算机成为一个得力的、并具有活力和生机的秘书。
该项发明利用虚拟人的方法，基于人与人交互的形式，利用语音交互来实现对计算机的操作。利用3DSMax首先实现了三维人体模型的制作，并在此基础上实现了人体的各种动作，然后将三维人体模型和各种基本动作导入到三维桌面系统中。并将导入的三维人体的各种动作与应用软件相挂接，最终实现自然语言命令虚拟人来操作计算机的目的。利用该技术同样可以实现对各种文档的操作，以及对计算机操作系统内部操作和相互间的管理等需要用户所做的事。这一技术的实现标志着在计算机中的虚拟人可以代替人进行计算机操作，该项发明方法在计算机操作方面开创了人与人的交互模式。
在目前已有的技术基础上，只要装上语音识别和发音软件，开机时自动开启语音识别发音程序，当光标碰到虚拟人时，虚拟人将会自动“说话”询问并请求用户需要她做什么，用户可以对虚拟人用语言发出指令，虚拟人将会为用户进行烦琐的计算机操作。这种人与人交互理念的实现，使计算机的操作增加了智能化功能，这是目前所使用的操作系统所不具有的。在操作系统中实现智能化的人与人的交互模式，这一创新将对计算机的操作更加简单、快捷。同时为计算机的操作开创了一个新的发展方向。
该项发明使人机界面更加友好，对计算机操作如同现实生活中人与人的交互一样，不必学习如何操作计算机的各种步骤，因为虚拟人与这些操作在内部都连接，只要给虚拟人下指令就可以了。如图5所示，是用户命令虚拟人打开一个游戏的场景，不需要用户利用鼠标在繁多的文档中点来点去地寻找，虚拟人为用户操作计算机给予了很好的服务。
随着计算机行业的不断发展，三维桌面系统将会被广泛推广应用，计算机将会更加接近现实生活。将现实生活中的场景和操作方式在计算机中实现，不仅拉近了计算机与用户的距离，而且将会积极促进计算机的发展。基于现实生活人与人交互的理念，发明这种智能虚拟交互方法，使计算机的操作更加人性化和智能化，并具有更好的实用性和推广应用前景。
权利要求
1.一种智能虚拟交互方法，在计算机操作系统中创建虚拟人或动物，其特征是显示在计算机桌面系统上，可以嘴部开合、眨眼、站立、转身、行走等基本动作的虚拟人或动物；虚拟人或动物与语音识别和发音软件相连接，与计算机操作系统中的文档、应用软件、计算机配置管理相连接。
2.根据权利要求1所述的一种智能虚拟交互方法，其特征是虚拟人或动物可以记录特定人的语音特征，此语音特征可以拷贝到其他计算机中的虚拟人或动物上。
3.根据权利要求1所述的一种智能虚拟交互方法，其特征是虚拟人或动物在执行操作指令的同时做出一定的动作。
全文摘要
本发明属于计算机操作技术领域，尤其是涉及一种人与计算机交互的方法。这种智能虚拟交互方法是在计算机操作系统中创建虚拟人或动物，并与语音识别和发音软件相连接，能够发音和识别语音指令。所创建的虚拟人或动物显示在计算机桌面系统中，与操作系统中的文档、应用软件及配置管理等相连接。虚拟人或动物在执行指令时，能够做出一定的动作，如同现实生活中的人与人交互，而不是与枯燥的机器在进行交互，很容易被人们所接受。本发明方法使人与计算机的交互更加自然、更加容易。操作者可以不必学习操作系统的操作方法就可以利用自然语言进行计算机操作，而且对计算机的操作既快捷、又方便。
文档编号G06F3/048GK1889029SQ200610103470
公开日2007年1月3日申请日期2006年7月24日优先权日2006年7月24日
发明者刘金刚申请人:刘金刚

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘金刚
技术所有人：刘金刚
我是此专利的发明人

上一篇：数字键盘数码为中心的模糊逻辑多语种输入系统和方法
上一篇：提供顺序性职涯信息的方法及其系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。