用于机器人的大型语言模型和答案集编程的理解架构模型的制作方法

文档序号:35468020发布日期:2023-09-16 10:18阅读:34来源:国知局
用于机器人的大型语言模型和答案集编程的理解架构模型的制作方法

[]本发明涉及自然语言理解领域,特别是涉及用于机器人的大型语言模型和答案集编程的理解架构模型。


背景技术:

0、[背景技术]

1、自然语言理解(nlu)研究的长期目标是建立与人类一样好的语言理解系统。大型语言模型(llms)已经在从互联网上提取的大量文本上得到了训练。它们已经显示出语言的熟练程度,能够进行阅读理解、翻译语言和生成文本,以完成故事、诗歌甚至代码的需求。然而,在应用于需要复杂推理的问题时,他们可能会出现不足。当测试常识推理或数学单词问题时,gpt-3等大型语言模型(llms)已被证明会出现简单的推理错误。虽然这种错误可以通过思维链提示等策略得到缓解,但他们仍然会犯源于计算错误或解决方案中缺少推理步骤的错误,这使得人们很难完全依赖这种系统。虽然有可能让大型语言模型(llms)为他们的答案产生解释,但他们有时会在产生正确解释的同时产生错误的答案,反之亦然。这让人对这种解释的可靠性产生怀疑。推理过程缺乏明确的分离,也使得评估模型的知识状态和识别必要时需要整合的常识性知识变得困难。


技术实现思路

0、[
技术实现要素:
]

1、本发明克服了现有技术的不足,提供了一种用于机器人的大型语言模型和答案集编程的理解架构模型,为弥补自然语言理解(nlu)任务推理不足、增强可接受性的star(semantic-parsing transformer and asp reasone r)语义解析转换器和asp推理器框架,通过使用大型语言模型(llms)来有效地从语言中提取知识—以谓词的形式表示,再以目标导向的asp被用来对这些知识进行合理的推理,从而进合理推理解释的方法。

2、为实现上述目的,本发明采用了下列技术方案:

3、用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于,包括有:

4、s1、通过语义解析转换器和专门的大型语言模型提取文本中的一组谓词;

5、s2、通过答案集编程和s(casp)系统对照提取的谓词,和与该谓词相关的通过答案集编程系统预先编码的常识性知识,推理并得到一个结论反应。

6、如上所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s1中大型语言模型通过微调或使用少量的文本和文本被提取的谓词对进行语境学习,形成一个专门的大型语言模型。

7、如上所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s2中答案集编程和s(casp)系统是一个答案集编程系统,支持谓词、对非地面变量的约束、非预设函数,以及是一个自上而下、查询驱动的执行策略;常识性知识可以用答案集编程表示,s(casp)系统查询驱动的谓词,答案集编程系统可以用来查询常识性知识,同时可使用默认规则、完整性约束和多可能世界来模拟常识性知识。

8、如上所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s1中通过定性推理提取文本中的谓词组,quarel数据集由多个问题组成,这些问题是围绕多种不同的属性设计的,使用gpt-3模型将quarel数据集的自然语言问题转换成适当的谓词,由于有一个可用的训练数据集,对两个gpt-3模型变体即davinci模型和curie模型进行了微调,用于quarel数据集,输入提示包括问题,然后是世界描述。

9、如上所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s2中答案集编程和s(casp)系统进行常识性推理,回答问题所需的常识性知识在答案集编程中被编码为事实和规则,首先用事实作为多个个属性的基础,定义这些属性之间正负相关性以及对称性的关系,设定下述四种情况,如果属性p和pr是正相关的,那么如果p在世界w中较高,pr在w中也一定较高,以及如果p在世界w中较高,pr在另一个世界wr中一定较低;同样,如果p和pr是负相关的,那么如果p在世界w中较高,pr在w中一定较低,以及如果p在世界w中较高,pr在另一个世界wr中一定较高,上述情况中高/低关系可以互换,形成一个知识库,把一个事实断言为一个观察,则可以检查出所包含的正确结论。

10、如上所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s1中通过数学推理提取文本中的谓词组,使用种特定类型的加减法问题,定义了如下的谓词has/4、transfer/5和total/4来编码问题中的知识:

11、has(entity,quantity,time stamp,k/q).

12、transfer(entity1,entity2,quantity,time stamp,k/q).

13、total(entity,quantity,time stamp,k/q).

14、谓词has/4定义了一个实体在特定的时间戳上有一定数量的一些对象,要么构成知识事实,表示为k,要么构成问题,表示为q;transfer/5谓词定义了一个实体1已经转移了一定数量对于对象,在特定的时间戳将该信息传递给实体2,并且该信息是知识事实k或是查询q;total/4谓词定义了一个实体具有与特定时间戳的数量相等的某些对象的总量,并且这些信息是知识事实k的一部分或是查询q。

15、如上所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s2中答案集编程和s(casp)系统进行代数中文字问题推理,答案的计算是由答案集编程和s(casp)系统规则完成的,这些规则为是解决al-gebra文字问题所需的常识性知识,给定的是has/4、trans fer/5和total/4谓语,使用大型语言模型将所选代数问题中的知识转换为上文数学推理定义的谓词,得到的谓词与规则一起构成逻辑程序,然后针对程序执行查询谓词以解决单词问题。

16、本发明的有益效果是:

17、本发明star语义解析转换器框架进可应用于需要推理的不同的nlu自然语言理解任务,定性推理和数学推理;面向定向推理,基于star框架的努力推动了quarei数据集的最先进水平。对比直接将llm应用于问题回答的情况,star框架也带来了显著的性能提升;面向数学推理,star方法可以同llm一样解决需要简单推理的代数单词问题且达到同样的准确率,但它也可以产生理由,使其可以解释。同时外部推理可以避免llm任何可能的潜在计算错误,更加可靠。star能够弥补自然语言理解(nlu)任务中推理的不足,导致性能的显著提高,特别是对于较小的大型语言模型(llms),即参数数量较少的大型语言模型(llms)。使用star框架开发的自然语言理解(nlu)应用也是可以解释的:与生成的谓词一起,可以为一个给定的输出产生一个证明树形式的理由。



技术特征:

1.用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于,包括有:

2.根据权利要求1所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s1中大型语言模型通过微调或使用少量的文本和文本被提取的谓词对进行语境学习,形成一个专门的大型语言模型。

3.根据权利要求1所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s2中答案集编程和s(casp)系统是一个答案集编程系统,支持谓词、对非地面变量的约束、非预设函数,以及是一个自上而下、查询驱动的执行策略;常识性知识可以用答案集编程表示,s(casp)系统查询驱动的谓词,答案集编程系统可以用来查询常识性知识,同时可使用默认规则、完整性约束和多可能世界来模拟常识性知识。

4.根据权利要求1所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s1中通过定性推理提取文本中的谓词组,quarel数据集由多个问题组成,这些问题是围绕多种不同的属性设计的,使用gpt-3模型将quarel数据集的自然语言问题转换成适当的谓词,由于有一个可用的训练数据集,对两个gpt-3模型变体即davinci模型和curie模型进行了微调,用于quarel数据集,输入提示包括问题,然后是世界描述。

5.根据权利要求4所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s2中答案集编程和s(casp)系统进行常识性推理,回答问题所需的常识性知识在答案集编程中被编码为事实和规则,首先用事实作为多个个属性的基础,定义这些属性之间正负相关性以及对称性的关系,设定下述四种情况,如果属性p和pr是正相关的,那么如果p在世界w中较高,pr在w中也一定较高,以及如果p在世界w中较高,pr在另一个世界wr中一定较低;同样,如果p和pr是负相关的,那么如果p在世界w中较高,pr在w中一定较低,以及如果p在世界w中较高,pr在另一个世界wr中一定较高,上述情况中高/低关系可以互换,形成一个知识库,把一个事实断言为一个观察,则可以检查出所包含的正确结论。

6.根据权利要求1所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s1中通过数学推理提取文本中的谓词组,使用种特定类型的加减法问题,定义了如下的谓词has/4、transfer/5和total/4来编码问题中的知识:

7.根据权利要求6所述的用于机器人的大型语言模型和答案集编程的理解架构模型,其特征在于:s2中答案集编程和s(casp)系统进行代数中文字问题推理,答案的计算是由答案集编程和s(casp)系统规则完成的,这些规则为是解决al-gebra文字问题所需的常识性知识,给定的是has/4、trans fer/5和total/4谓语,使用大型语言模型将所选代数问题中的知识转换为上文数学推理定义的谓词,得到的谓词与规则一起构成逻辑程序,然后针对程序执行查询谓词以解决单词问题。


技术总结
本发明公开了用于机器人的大型语言模型和答案集编程的理解架构模型,包括有:S1通过语义解析转换器和专门的大型语言模型提取文本中的一组谓词;S2通过答案集编程和s(CASP)系统对照提取的谓词,和与该谓词相关的通过答案集编程系统预先编码的常识性知识,推理并得到一个结论反应,通过使用大型语言模型来有效地从语言中提取以谓词的形式表示的知识,再以目标导向的ASP被用来对这些知识进行合理的推理,从而进合理推理解释的方法。

技术研发人员:王茂林,张鹏
受保护的技术使用者:深圳市金大智能创新科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1