用于智能机器人的多模态交互方法及装置与流程

文档序号：12718498阅读：282来源：国知局

本发明涉及智能机器人领域，尤其涉及一种用于智能机器人的多模态交互方法及装置。

背景技术：

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。因此，提升智能机器人的交互能力，改善机器人的类人性和智能性，是现在亟需解决的重要问题。

技术实现要素：

本发明所要解决的技术问题之一是需要提供一种提升智能机器人的交互能力，改善机器人的类人性和智能性的解决方案。

为了解决上述技术问题，本申请的实施例首先提供了一种用于智能机器人的多模态交互方法，所述智能机器人安装有机器人操作系统，该方法包括：获取用户输入的简笔画图像；通过使用特定的神经网络识别所述简笔画图像所表征的物体信息，所述特定的神经网络是预先通过对边缘化的图像进行训练得到的；基于所述物体信息生成多模态数据并向用户输出。

优选地，通过使所述特定的神经网络的第一层网络使用相对于输入的简笔画图像大小的大比例的卷积核大小，以捕捉简笔画图像的细节识别出所述简笔画图像所表征的物体。

优选地，该方法还包括：在向用户输出多模态数据后，接收用户的反馈信息，当接收到用户的反馈信息为识别正确的信息时，结束识别，否则重新获取用户输入的包含更多信息的简笔画图像继续识别简笔画图像所表征的物体信息。

优选地，该方法还包括：向用户输出简笔画显示数据；在简笔画显示数据输出的过程中，接收并解析用户针对已输出内容所反馈的信息以获取用户反馈信息中的物体信息；判断所述物体信息与所述简笔画显示数据是否对应，若不对应，则输出完整的简笔画显示数据及其对应的物体信息。

优选地，所述简笔画显示数据是基于设定物体来生成的或者从数据库中获取得到。

优选地，该方法还包括：识别用户身份，根据用户之前画过的简笔画历史记录，输出用户未画过的简笔画显示数据。

优选地，该方法还包括：若用户识别简笔画的准确度大于设定阈值，则将该用户的简笔画保存到数据库中。

根据本发明的另一方面，还提供了一种用于智能机器人的多模态交互装置，所述智能机器人安装有机器人操作系统，该装置包括：简笔画图像输入模块，其获取用户输入的简笔画图像；物体识别模块，其通过使用特定的神经网络识别所述简笔画图像所表征的物体信息，所述特定的神经网络是预先通过对边缘化的图像进行训练得到的；多模态数据输出模块，其基于所述物体信息生成多模态数据并向用户输出。

优选地，所述物体识别模块，其进一步通过使所述特定的神经网络的第一层网络使用相对于输入的简笔画图像大小的大比例的卷积核大小，以捕捉简笔画图像的细节识别出所述简笔画图像所表征的物体。

优选地，该装置还包括：反馈信息接收模块，其在向用户输出多模态数据后，接收用户的反馈信息，当接收到用户的反馈信息为识别正确的信息时，结束识别，否则重新获取用户输入的包含更多信息的简笔画图像继续识别简笔画图像所表征的物体信息。

优选地，该装置还包括：简笔画显示数据输出模块，其向用户输出简笔画显示数据；反馈信息解析模块，其在简笔画显示数据输出的过程中，接收并解析用户针对已输出内容所反馈的信息以获取用户反馈信息中的物体信息；物体信息判断模块，其判断所述物体信息与所述简笔画显示数据是否对应，若不对应，则输出完整的简笔画显示数据及其对应的物体信息。

优选地，所述简笔画显示数据输出模块，其进一步基于设定物体来生成或者从数据库中获取得到所述简笔画显示数据。

优选地，该装置还包括用户身份识别模块，其识别用户身份；所述简笔画显示数据输出模块，其进一步根据用户之前画过的简笔画历史记录，输出用户未画过的简笔画显示数据。

优选地，该装置还包括：数据存储模块，其在用户识别简笔画的准确度大于设定阈值时，将该用户的简笔画保存到数据库中。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

根据本发明实施例，提供了一种新型的人机交互方法，该方法获取用户输入的简笔画图像，通过使用特定的神经网络识别所述简笔画图像所表征的物体信息，基于所述物体信息生成多模态数据并向用户输出，从而完成“你画我猜”的新型交互模式。本发明实施例能增强智能机器人的多模态交互能力，提高了智能机器人的功能的多样性，改善了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为根据本发明第一实施例的用于智能机器人的多模态交互方法的流程示意图。

图2为根据本发明第二实施例的用于智能机器人的多模态交互方法的流程示意图。

图3为根据本发明第三实施例的用于智能机器人的多模态交互方法的流程示意图。

图4为根据本发明第四实施例的用于智能机器人的多模态交互装置300的结构框图。

图5为根据本发明第五实施例的用于智能机器人的多模态交互装置400的结构框图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在现有的智能机器人领域中，大多数机器人能够与用户进行单独的语音交互，完成用户赋予的任务或者与用户进行简单的问答行为。但是，现有的这种人机交互模式较为单调，机器人的智能性较差，只能进行语音交互，大大降低了用户使用智能机器人的兴趣。本发明实施例提出了一种新型的人机交互模式，即“你(用户)画我(机器人)猜”和“我(机器人)画你(用户)猜”的交互方式。在机器人与用户进行“你画我猜”的多模态交互时，机器人可以通过使用特定的神经网络对用户(一般为儿童)绘制的简笔画图像进行物体识别，并将识别结果告知用户。如此，不仅提高了机器人的智能性，使机器人具备多种交互模式的功能，还可以增强用户与机器人的粘度。

在本发明实施例中，用户绘制的简笔画图像从简笔画的表达方式来讲，最为明显的特点是它的造型手段，采用概括的线条画出形象的形态结构。在实际应用过程中，由于儿童绘制的图画与真实的物体具有很大的区别，比如，图画往往是单色的，并且具有高度的抽象和失真等情况，因此，预先通过对边缘化的图像进行训练得到特定的神经网络。在进行“你画我猜”的交互时，利用该神经网络来识别简笔画图像所代表的物体。具体地，为了识别简笔画，在该特定的神经网络的第一层使用相对于输入图像大小来说比较大的比例的卷积核大小来充分捕捉简笔画的细节，在前端使用更多的层，使网络重点集中在图像的细节部分，提高简笔画识别的准确度。

在向用户输出识别结果后，接收用户反馈的有关机器人识别结果正确与否的信息。通过用户的判断可以完成对用户输入的简笔画进行分类，在用户指示机器人猜对的时候，即识别结果就是该简笔画图像的类别。那么就可以将该简笔画图像加入到训练集中，提升该特定的神经网络的性能，机器人的识别能力也就能随之提高。在识别结果为错误时，则机器人重新获取包括更多细节的简笔画图像继续来识别该图像代表的物体。

另一方面，在进行“我画你猜”的交互模式时，重点在于机器人来引导用户去猜测他们不经常绘制的简笔画图像，开拓用户的知识范围。向用户输出的简笔画显示数据可以基于设定物体来生成也可以从数据库中得到。当然，为了实现拓宽用户的知识范围的目的，在输出简笔画之前，可以先识别用户的身份，根据用户的简笔画历史记录来输出简笔画。

对于那些比较快且准确猜出机器人输出的简笔画的用户，可以认为他们具备较强的抽象能力，那么他们的简笔画可能会具有较强的稳定性，基于此，可以将该用户之前绘制的简笔画保存到数据库中，进一步训练特定的神经网络，提高针对简笔画的物体识别准确度。

第一实施例

图1为涉及本发明的用于智能机器人的多模态交互方法的示例一的流程示意图，该智能机器人优选为安装有机器人操作系统的机器人，然而，其他具有语音、表情、动作等表达能力的、不使用所述机器人操作系统的智能机器人(或设备)也可以实现本实施例。下面参考图1来说明该方法，即“你画我猜”人机交互模式所涉及的各个步骤。

在步骤S110中，获取用户输入的简笔画图像。

在一个例子中，机器人可以通过使用图像传感器，例如扫描仪、摄像机、照相机等扫描或拍摄绘制在纸上的简笔画图像的方式来获取用户绘制的简笔画图像。在其他例子中，也可以在机器人处配置一个具备画图板功能的触控屏，通过该触控屏来接收用户使用触控笔或手指绘制的简笔画图像。在获取简笔画图像之后，将获取的图像转换成适合处理的形式，即将物理量编程一组测量值。

容易理解，在通过图像输入设备来获取简笔画时，由于采集到的图像除了简笔画内容以外，还包括其他不需要的信息，因此需要对采集到的图像进行预处理。由于在后面图像识别时，输入的图像一般需要进行归一化，可以采用不同的激活函数对预处理后的图像进行处理。需要说明的是，本步骤中获取的简笔画图像可以是未绘制完整的图像，例如，可以是仅绘制完图画一半内容的简笔画图像。

在步骤S120中，通过使用特定的神经网络识别简笔画图像所表征的物体信息，特定的神经网络是预先通过对边缘化的图像进行训练得到的。

相对于现有的图像识别来说，在选取训练样本时，一方面考虑到本例的输入信息为简笔画图像，简笔画图像具备更加抽象、信息量更少，并且可能有强烈的变形的特点，而且，目前可以进行训练的简笔画样本数量较少。另一方面，图像的边缘是图像最基本的特征之一，边缘中包含图像物体有价值的边界信息，这些信息给出了图像的轮廓，而简笔画也是以轮廓线的方式来描述物体的，因此使用边缘化后的图像作为训练神经网络的训练样本集合更为合适。并且，通过边缘化可以降低后续图像处理和分析的数据量。

在确定特定的神经网络时，通过对一定数量的原始图像进行边缘化处理，用处理后的图像作为训练样本来预先训练网络，并固定前几层网络，否则仅仅使用简笔画训练容易过拟合导致效果变差。

为了识别简笔画，本实施例在进行神经网络结构设计过程中，在第一层网络使用相对于输入的简笔画图像大小的大比例的卷积核大小，以捕捉简笔画图像的细节识别出简笔画图像所表征的物体。在前端使用更多的层，使网络重点集中在图像的细节部分，且该神经网络优选使用全卷积的结构，并控制参数。在将归一化后的图像数据输入至该特定神经网络模型后，该模型会输出一个多维向量来表示输入图像属于每一类的概率。

在步骤S130中，基于物体信息生成多模态数据并向用户输出。

在得到有关输入的简笔画图像的种类概率信息后，基于概率值最高的物体信息生成多模态数据，例如将物体信息转换成对应的语音数据、图像数据等，向用户输出。为此，完成了“你画我猜”的交互模式。

第二实施例

图2为涉及本发明的用于智能机器人的多模态交互方法的示例二的流程示意图，该实施例的方法主要包括以下步骤，其中，将与第一实施例相似的步骤以相同的标号标注，且不再赘述其具体内容，仅对区别步骤进行具体描述。

在步骤S110中，获取用户输入的简笔画图像。

在步骤S120中，通过使用特定的神经网络识别所述简笔画图像所表征的物体信息，特定的神经网络是预先通过对边缘化的图像进行训练得到的。

在步骤S130中，基于物体信息生成多模态数据并向用户输出。

在步骤S140中，在向用户输出多模态数据后，判断是否接收到用户的反馈信息，在接收到用户的反馈信息时，则进一步执行步骤S150，否则结束识别。

在向用户输出物体识别结果信息后，监控来自用户的多模态输入信息，对监控到的多模态输入信息进行解析，判断解析的内容是否为用户响应物体识别结果而发出的，主要是判断多模态输入信息中是否包括判断性的语句或姿态，例如“是xx”或“不是”等用语，“点头”或“摇头”等姿态。在解析结果中包含类似上述判断性用用语或姿态的情况下，则执行步骤S150。

在步骤S150中，判断反馈信息是否为识别正确的信息，若是识别正确的信息，则结束识别，否则返回步骤S110重新获取用户输入的包含更多信息的简笔画图像继续识别简笔画图像所表征的物体信息。

在反馈信息为表示机器人识别正确的信息时，则结束识别；若反馈信息为表示机器人识别错误的信息时，则返回步骤S110，获取包含更多简笔画信息的图像，然后重复步骤S120～S150，直到机器人识别正确。

当然，若机器人对完整的简笔画图像进行识别后，输出给用户的识别结果仍为错误时，则结束识别。接收用户关于该简笔画图像的物体信息，也可以将该简笔画图像进行存储作为训练该特定神经网络的训练数据。

第三实施例

图3为涉及本发明的用于智能机器人的多模态交互方法的示例三的流程示意图，该实施例的方法除了执行第一实施例或第二实施例的各个步骤以外，还要执行如下步骤。请注意，为了方便版图绘制，图3省略了第一实施例和第二实施例的相关流程，仅绘制了与第一实施例和第二实施例不同的流程。

在本实施例中，还包括如下进行“我画你猜”交互模式的各个步骤。

在步骤S210中，向用户输出简笔画显示数据，该简笔画显示数据可以是基于设定物体来生成的或者从数据库中获取得到的。

在基于设定物体来生成简笔画显示数据时，可以先根据设定物体通过网络链接方式获取对应的原始图像数据，将该原始图像转化成灰度图像，然后将灰度图像进行平滑、锐化图像增强处理，在后对经处理后的图像进行边缘检测、边缘细化、边界跟踪等图像特征提取，从而完成图像的简笔画风格。

另外，在确定要输出的简笔画显示数据时，在一个优选实施例中，可以先识别用户身份，然后根据用户之前画过的简笔画历史记录，逐渐输出用户未画过的简笔画显示数据。在识别用户身份的过程中，可以通过捕获用户面部特征图像来进行用户身份的识别，并获取预先存储的该用户的简笔画历史记录。然后将向用户输出未画过的简笔画图像。通过根据不同的用户选择输出不同的简笔画显示数据，能够提高用户与机器人交互的趣味性，拓展用户的知识范围。

需要说明的是，在向用户输出简笔画的过程中，并不是将简笔画的完整状态瞬间输出给用户，而是让图像从无到有逐步显示完整。具体可以采用现有的图像逐步显示技术，此处不再赘述。

在步骤S220中，在简笔画显示数据输出的过程中，接收并解析用户针对已输出内容所反馈的信息以获取用户反馈信息中的物体信息。

在简笔画显示数据输出的过程中，同步监控用户发出的多模态信息，主要是语音信息和文本信息。在获取为语音信息时，则通过语音识别技术获取用户多模态信息中的物体信息。

在步骤S230中，判断物体信息与简笔画显示数据是否对应，若不对应，则执行步骤S240，否则执行步骤S250。

由于每个简笔画显示数据都预先对应不同的物体信息，将获取的用户多模态信息中的物体信息与之进行比对，若对应，则判定用户识别正确，否则判定用户识别错误。

在步骤S240中，输出完整的简笔画显示数据及其对应的物体信息。

在步骤S250中，结束输出，或者，输出完整的简笔画显示数据。

需要说明的是，如果在“我画你猜”的交互过程中，用户猜对图像中的物体的准确度达到一定值，则认为用户具有比较强的抽象能力，他们的简笔画可能具有更好的稳定性，因此可以考虑将用户绘制的简笔画添加到系统的数据库中，即若用户识别简笔画的准确度大于设定阈值，则将该用户的简笔画保存到数据库中。其中，该设定阈值可以根据实际需要进行设定，此处不做限定。

第四实施例

图4为本发明实施例的用于智能机器人的多模态交互装置300的结构框图。如图4所示，本申请实施例的装置300主要包括：简笔画图像输入模块310、物体识别模块320、多模态数据输出模块330以及反馈信息接收模块340。

简笔画图像输入模块310，其获取用户输入的简笔画图像。

物体识别模块320，其通过使用特定的神经网络识别所述简笔画图像所表的物体信息，所述特定的神经网络是预先通过对边缘化的图像进行训练得到的。物体识别模块320，其进一步通过使所述特定的神经网络的第一层网络使用相对于输入的简笔画图像大小的大比例的卷积核大小，以捕捉简笔画图像的细节识别出所述简笔画图像所表征的物体。

多模态数据输出模块330，其基于所述物体信息生成多模态数据并向用户输出。

反馈信息接收模块340，其在向用户输出多模态数据后，接收用户的反馈信息，当接收到用户的反馈信息为识别正确的信息时，结束识别，否则重新获取用户输入的包含更多信息的简笔画图像继续识别简笔画图像所表征的物体信息。

通过合理设置，本实施例的装置300可以执行第一实施例和第二实施例的各个步骤，此处不再赘述。

第五实施例

图5为本发明实施例的用于智能机器人的多模态交互装置400的结构框图。如图5所示，本申请实施例的装置400除了包括图4所示的各个模块以外，还包括：简笔画显示数据输出模块410、反馈信息解析模块420、物体信息判断模块430、用户身份识别模块440以及数据存储模块450。

简笔画显示数据输出模块410，其向用户输出简笔画显示数据。简笔画显示数据输出模块410，其进一步基于设定物体来生成或者从数据库中获取得到所述简笔画显示数据。简笔画显示数据输出模块410，其进一步根据用户之前画过的简笔画历史记录，输出用户未画过的简笔画显示数据。

反馈信息解析模块420，其在简笔画显示数据输出的过程中，接收并解析用户针对已输出内容所反馈的信息以获取用户反馈信息中的物体信息。

物体信息判断模块430，其判断所述物体信息与所述简笔画显示数据是否对应，若不对应，则输出完整的简笔画显示数据及其对应的物体信息。

用户身份识别模块440，其识别用户身份。

数据存储模块450，其在用户识别简笔画的准确度大于设定阈值时，将该用户的简笔画保存到数据库中。

通过合理设置，本实施例的装置400可以执行第三实施例的各个步骤，此处不再赘述。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁洋;陆羽皓
技术所有人：北京光年无限科技有限公司
我是此专利的发明人

上一篇：一种应用于电路板安装的固定夹具的制作方法与工艺
上一篇：一种印刷电路板焊接治具的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。