本发明属于增强现实及自然语言交互,特别涉及一种融合ai通用助手的ar空间标注及展示方法。
背景技术:
1、随着增强现实(ar)技术不断发展,对特定场景进行ar空间建模、再现已经得到长足的发展。ar技术的优势在于可以将虚拟元素叠加在真实世界中,使用户能够更加直观地了解和交互物品或场景。在ar空间内,用户可以更加直观立体地感受目标物体,基于标注信息,可以得到真实世界中无法即时得到的产品信息等。
2、ai通用助手,如gpt模型等产品,作为最先进的语言模型,通过其强大的语言处理能力及文本生成能力,可以为用户提供更精准、生动、个性化的内容推荐。
3、将ar空间标注技术与ai通用助手结合,既可以在内容展示形式上更加生动形象,又可以借助ai通用助手强大的语言文字处理能力为用户推荐个性化内容。
技术实现思路
1、发明目的:针对上述背景技术中提出的思路,本发明提供了一种融合ai通用助手的ar空间标注及展示方法,将ar空间标注技术与ai通用助手结合,既能满足直观、丰富、生动的用户交互体验,又能通过ai通用助手为用户提供更加个性化的推荐内容,从形式到内容均进行了革新。
2、技术方案:一种融合ai通用助手的ar空间标注及展示方法,包括以下步骤:
3、步骤s1、用户启动智能终端,基于ar引擎进行场景目标识别定位,加载目标物体对应的三维模型,进行空间建模;
4、步骤s2、检测当前场景中的目标物体,并基于目标检测算法提取对应特征信息,作为ai通用助手的输入;
5、步骤s3、ai通用助手接收特征信息并进行处理,给出目标物体对应反馈信息;将反馈信息与预设的用户需求进行逻辑比较,判断出当前场景中与用户需求存在逻辑关系的目标物体,作为待标记物体;
6、步骤s4、根据步骤s3判断结果,将待标记物体对应的反馈信息进行特征词句提取,并将其反馈至智能终端,展示于ar空间内;所述ar空间内建立基准平面,将特征词句通过ar定位的方式显示与ar空间内物体上方的特定位置,并且空间标注不会随智能终端位置的变化发生改变。
7、进一步地,所述步骤s2中基于yolov5模型对当前场景进行检测,捕捉场景中各目标物体的特征信息;所述特征信息作为后续ai通用助手的输入。
8、进一步地,所述步骤s3中通过基于预训练bert模型的文本匹配方法,对ai通用助手的反馈信息和预设的用户需求进行匹配,判断对应目标物体是否与用户需求存在逻辑关系;具体地,
9、步骤s31、将代表用户需求的自然语句a与代表通用ai助手反馈结果的自然语句b进行拼接;获得拼接语句的input_ids和attention_mask;其中input_ids代表语句经过tokenizer分词后的子词subword对应的下标列表,attention_mask代表subword所在句子中与其他填充padding的区别,其中subword部分标记为1,填充padding部分标记为0;将input_ids和attention_mask输入至预训练的bert模型中,取bert层结果数据cls token的embedding作为后续匹配模型的输入;
10、步骤s32、基于tcn网络结构搭建匹配模型,用于判断a和b间是否存在逻辑关系;主干部分包括4级依次级联的tcn网络块,记为tcnblock1-tcnblock4;将步骤s31中bert层结果数据cls token的embedding输入tcnblock1,依次获得tcnblock1的输出x1、tcnblock2的输出x2、tcnblock2的输出x3;将x2输入至通道注意力模块se,获取x2的对应权重a2;将x2与a2相乘,并与x3进行concat拼接,作为tcnblock4的输入,将输出记为x4;将x1输入至se模块,获取x1的对应权重a1,并将x1与a1相乘,并与x4进行concat拼接,获得输出结果x;将输出结果输入至全连接模块,最终输出判断结果;
11、训练上述模型,训练好的模型用于判断当前目标物体对应的ai通用助手反馈结果是否与用户的预设需求存在逻辑关系,进而区分复杂场景中的目标物体是否与用户相关;
12、步骤s33、根据步骤s32的匹配结果,在ar空间内将当前场景中与用户需求存在逻辑关系的目标物体筛选出来,用于后续内容标注。
13、进一步地,所述tcn网络块具体结构包括依次连接的一维膨胀卷积网络层、bn层、激活函数层、一维膨胀卷积网络层、bn层、激活函数层;其中输入和输出之间通过1*1的卷积网络层跳跃连接。
14、进一步地,所述通道注意力模块se包括依次连接的第一一维卷积神经网络层、激活函数层、第二一维卷积神经网络层和激活函数层;其中第一一维卷积神经网络层和第二一维卷积神经网络层输出维度不同。
15、进一步地,所述全连接模块包括依次连接的flatten层、第一全连接层和第二全连接层;其中第二全连接层包括n个神经元,n代表输出类别。本实施例中设定n=2,即a和b之间存在逻辑关系为1,无逻辑关系为0。
16、本发明采用的技术方案与现有技术方案相比,具有以下有益效果:
17、(1)本发明提供的基于ai通用助手的ar空间标注及展示方法,基于目标场景识别,获取各目标物体的特征信息,并输入至ai通用助手,由ai通用助手进行处理搜索并给出反馈,再基于本发明提供匹配方法,判断场景中各物体的反馈信息与用户需求间的关系,挑选出与用户需求强相关的目标物体,对其进行ar空间标注。针对ai通用助手反馈的自然语言较为冗长的问题,本发明还进一步提取了特征词句,压缩了标注内容。
18、(2)本发明采用ai通用助手对检测到的目标进行处理搜索,可以实现更加准确、自然、智能、实时的自然语言交互功能,当用户设置好需求语句时,系统可以自动匹配比较,并挑选出与用户需求有关的目标物体及对应反馈自然语言,进而实现个性化的内容推荐功能。
19、(3)本发明基于预训练bert模型,设计了文本匹配模型,用于判断预设的用户需求自然语句与ai通用助手反馈的自然语句间是否存在关系,以此作为选择待标注目标物体的依据,可以有效解决同一场景内目标物体过多,大量标记无意义文本造成展示效果较差的问题。
1.一种融合ai通用助手的ar空间标注及展示方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种融合ai通用助手的ar空间标注及展示方法,其特征在于,所述步骤s2中基于yolov5模型对当前场景进行检测,捕捉场景中各目标物体的特征信息;所述特征信息作为后续ai通用助手的输入。
3.根据权利要求1所述的一种融合ai通用助手的ar空间标注及展示方法,其特征在于,所述步骤s3中通过基于预训练bert模型的文本匹配方法,对ai通用助手的反馈信息和预设的用户需求进行匹配,判断对应目标物体是否与用户需求存在逻辑关系;具体地,
4.根据权利要求3所述的一种融合ai通用助手的ar空间标注及展示方法,其特征在于,所述tcn网络块具体结构包括依次连接的一维膨胀卷积网络层、bn层、激活函数层、一维膨胀卷积网络层、bn层、激活函数层;其中输入和输出之间通过1*1的卷积网络层跳跃连接。
5.根据权利要求3所述的一种融合ai通用助手的ar空间标注及展示方法,其特征在于,所述通道注意力模块se包括依次连接的第一一维卷积神经网络层、激活函数层、第二一维卷积神经网络层和激活函数层;其中第一一维卷积神经网络层和第二一维卷积神经网络层输出维度不同。
6.根据权利要求3所述的一种融合ai通用助手的ar空间标注及展示方法,其特征在于,所述全连接模块包括依次连接的flatten层、第一全连接层和第二全连接层;其中第二全连接层包括n个神经元,n代表输出类别。