一种小样本食品标题的检索方法及装置与流程

文档序号:37020652发布日期:2024-02-09 13:14阅读:20来源:国知局
一种小样本食品标题的检索方法及装置与流程

本发明涉及人工智能信息检索,特别涉及一种小样本食品标题的检索方法及装置。


背景技术:

1、在数据库检索场景中,往往需要在检索系统中检索预包装食品库中相关食品名称。例如用户输入食品名称(例如:猪肉)时,搜索出预包装食品库(存储有“××××品牌荠菜猪肉水饺720g”等类似食品名称标题)中与猪肉相似度较高的预包装食品名称,并且计算出用户输入的食品名称与预包装食品库中食品名称的相似度。

2、现有技术基本通过以下三种方案实现:

3、方案一:利用tf-idf模型计算检索词和召回候选集的文本相似度;

4、方案二:利用word2vec模型计算检索词和召回候选集的文本相似度;方案三:利用bert-flow模型计算检索词和召回候选集的文本相似度;

5、然而,食品标题检索场景中的任务可以归结为小样本、短文本相似度任务,存在数据样本少、食物标题知识关联严重不足和食物标题成分冗余等问题。方案一完全基于字符表面含义,无法解决同一食物不同名称(“番茄”和“西红柿”)的相似性关联问题;方案二不能完全覆盖单词,不能解决一词多义场景,语义范围受到窗口限制;方案三的识别速度慢,语义向量之间存在各向异性,即相似度值过高、不好界定相似或不相似的阈值。

6、因此,现有技术无法很好的解决食品标题检索场景中的小样本、短文本相似度任务。


技术实现思路

1、鉴于现有技术中的上述缺陷或不足,本发明提供了一种小样本食品标题的检索方法及装置,采用了实体抽取模型和大模型相融合的策略方案,其中实体抽取模型主要解决小样本和成分冗余的问题,大模型主要解决食物背景知识关联的问题,本发明很好的解决了食品标题检索场景中的小样本、短文本相似度任务。

2、本发明的一个方面,提供了一种小样本食品标题的检索方法,包括:

3、通过训练好的实体抽取模型对加载的食品名称语料库中的食品语料抽取相应的食品名称;获取用户输入的检索词,根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料;将召回的食品语料对应的食品名称和检索词输入至训练好的大模型中进行文本向量化处理,得到处理后的文本向量;通过训练好的大模型对所述文本向量进行余弦相似度计算,并根据相似度大小进行排序。

4、进一步的,该方法还包括:对加载的食品名称语料库中的食品语料进行预处理;对预处理后的食品语料按照预设的多个槽位进行标注;对预处理后的食品语料进行文本切分和切块向量化处理;训练实体抽取模型对食品语料进行槽位抽取,得到训练好的实体抽取模型。

5、进一步的,所述根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料,还包括:对检索词进行预处理和分词处理。

6、进一步的,所述槽位包括品牌、食物素材、食品名称、容量和口味。

7、进一步的,所述实体抽取模型为bilstm+crf模型,所示大模型为m3e模型。

8、本发明的另一方面,还提供了一种小样本食品标题的检索装置,包括:

9、实体抽取模块,被配置为通过训练好的实体抽取模型对加载的食品名称语料库中的食品语料抽取相应的食品名称;

10、检索模块,被配置为获取用户输入的检索词,根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料;

11、文本向量化模块,被配置为将召回的食品语料对应的食品名称和检索词输入至训练好的大模型中进行文本向量化处理,得到处理后的文本向量;

12、相似度计算模块,被配置为通过训练好的大模型对所述文本向量进行余弦相似度计算,并根据相似度大小进行排序。

13、进一步的,还包括实体抽取模块预训练模块,被配置为:对加载的食品名称语料库中的食品语料进行预处理;对预处理后的食品语料按照预设的多个槽位进行标注;对预处理后的食品语料进行文本切分和切块向量化处理;训练实体抽取模型对食品语料进行槽位抽取,得到训练好的实体抽取模型。

14、进一步的,所述检索模块被进一步配置为:对检索词进行预处理和分词处理。

15、进一步的,所述槽位包括品牌、食物素材、食品名称、容量和口味。

16、进一步的,所述实体抽取模型为bilstm+crf模型,所示大模型为m3e模型。

17、本发明提供的一种小样本食品标题的检索方法及装置,能够解决检索任务中的小样本、知识背景缺乏、标题信息冗余的技术问题,相对于目前业界端到端的相似度算法,消除了小样本带来的模型训练不足,借助大模型基于亿级数据训练的丰富的知识关联,提高了信息纯度,消除了噪音数据的干扰。



技术特征:

1.一种小样本食品标题的检索方法,其特征在于,包括:

2.根据权利要求1所述的一种小样本食品标题的检索方法,其特征在于,还包括:

3.根据权利要求1所述的一种小样本食品标题的检索方法,其特征在于,所述根据所述检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料,还包括:对检索词进行预处理和分词处理。

4.根据权利要求2所述的一种小样本食品标题的检索方法,其特征在于,所述槽位包括品牌、食物素材、食品名称、容量和口味。

5.根据权利要求1所述的一种小样本食品标题的检索方法,其特征在于,所述实体抽取模型为bilstm+crf模型,所示大模型为m3e模型。

6.一种小样本食品标题的检索装置,其特征在于,包括:

7.根据权利要求6所述的一种小样本食品标题的检索装置,其特征在于,还包括实体抽取模块预训练模块,被配置为:

8.根据权利要求6所述的一种小样本食品标题的检索装置,其特征在于,所述检索模块被进一步配置为:对检索词进行预处理和分词处理。

9.根据权利要求7所述的一种小样本食品标题的检索装置,其特征在于,所述槽位包括品牌、食物素材、食品名称、容量和口味。

10.根据权利要求1所述的一种小样本食品标题的检索装置,其特征在于,所述实体抽取模型为bilstm+crf模型,所示大模型为m3e模型。


技术总结
本发明公开了一种小样本食品标题的检索方法及装置,涉及信息检索领域,方法包括:通过训练好的实体抽取模型对加载的食品名称语料库中的食品语料抽取相应的食品名称;获取输入的检索词,根据检索词从加载的倒排索引表中召回食品名称语料库中相关的食品语料;将召回的食品名称和检索词输入至训练好的大模型中进行文本向量化,得到处理后的文本向量;通过训练好的大模型对文本向量进行相似度计算,并根据相似度大小进行排序。本发明采用了实体抽取模型和大模型相融合的方案,实体抽取模型解决小样本和成分冗余的问题,大模型解决食物背景知识关联的问题,从而解决了食品标题检索场景中的小样本、短文本相似度任务。

技术研发人员:李宇欣,段兴涛
受保护的技术使用者:北京健康有益科技有限公司
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1