词语识别方法、装置、电子设备和存储介质与流程

文档序号:36256206发布日期:2023-12-03 18:10阅读:36来源:国知局
词语识别方法与流程

本申请属于语言识别,具体涉及一种词语识别方法、装置、电子设备和存储介质。


背景技术:

1、在相关技术中,随着时代发展,不断有新的词语涌现,这些新的词语可能是新的作品名、新的技术名词、新的物种名称等,且对于一些现有名词,在语言使用过程中,也存在对名词进行变化、简写的情况,从而诞生一些全新的词汇。

2、对于搜索场景,主要依赖现有词库集合,当一个新的词语没有被包含在现有词库中时,就会出现分词不准、实体识别错误或产生歧义等问题,因此需要对新的词语进行准确识别和记录,而现有的词语识别方法的识别准确率不高。


技术实现思路

1、本申请实施例的目的是提供一种词语识别方法、装置、电子设备和存储介质,能够解决词语识别准确率差的问题。

2、第一方面,本申请实施例提供了一种词语识别方法,包括:

3、对文本数据进行第一处理,得到文本数据中的待识别文本片段;

4、确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;

5、以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和相邻文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;

6、根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习方法训练得到的。

7、第二方面,本申请实施例提供了一种词语识别装置,包括:

8、处理模块,用于对文本数据进行第一处理,得到文本数据中的待识别文本片段;

9、确定模块,用于确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;

10、构建模块,用于以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和待识别文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;

11、识别模块,用于根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习装置训练得到的。

12、第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。

13、第四方面,本申请实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面的方法的步骤。

14、第五方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面的方法的步骤。

15、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面的方法。

16、在本申请实施例中,通过构建待识别文本片段的图网络,该图网络包括了待识别文本片段的空间相邻信息,还包括了待识别文本片段和待识别文本片段的相邻文本片段的语义信息,通过包含了空间相邻信息和语义向量的网络图作为分类识别模型的输入,通过分类识别模型来推理网络图中心节点,也即父节点上的文本片段是否满足是一个词语的条件,使得推理过程充分利用了文本片段之间的空间相邻信息和语义信息,能够有效提高词语识别的准确率。



技术特征:

1.一种词语识别方法,其特征在于,包括:

2.根据权利要求1所述的词语识别方法,其特征在于,所述对文本数据进行第一处理,得到所述文本数据中的待识别文本片段,包括:

3.根据权利要求2所述的词语识别方法,其特征在于,所述根据每一个所述文本片段的左右熵以及每一个所述文本片段和与其相邻的文本片段之间的互信息,在所述文本片段集合中确定所述待识别文本片段,包括:

4.根据权利要求2所述的词语识别方法,其特征在于,在所述根据所述图网络和分类识别模型确定所述待识别文本片段为词语的置信度之前,所述方法还包括:

5.根据权利要求4所述的词语识别方法,其特征在于,所述基于所述训练图网络的特征向量,确定第二损失,包括:

6.一种词语识别装置,其特征在于,包括:

7.根据权利要求6所述的词语识别装置,其特征在于,

8.根据权利要求7所述的词语识别装置,其特征在于,所述确定模块,还用于:

9.根据权利要求7所述的词语识别装置,其特征在于,还包括:

10.根据权利要求9所述的词语识别装置,其特征在于,

11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述方法的步骤。

12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。


技术总结
本申请公开了一种词语识别方法、装置、电子设备和存储介质,属于语言识别技术领域。其中,词语识别方法包括:对文本数据进行第一处理,得到文本数据中的待识别文本片段;确定待识别文本片段在文本数据中的相邻文本片段,以及待识别文本片段的语义向量和相邻文本片段的语义向量;以待识别文本片段和待识别文本片段的语义向量为父节点,以相邻文本片段和相邻文本片段的语义向量为子节点,以待识别文本片段和相邻文本片段的相邻关系为边,构建图网络;根据图网络和分类识别模型确定待识别文本片段为词语的置信度;其中,分类识别模型是通过图对比学习方法训练得到的。

技术研发人员:谭官鑫
受保护的技术使用者:维沃软件技术有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1