本公开涉及语言处理,特别涉及一种语义单元的预测方法、装置、电子设备及存储介质。
背景技术:
1、语义单元是指语言中用于表示一定含义的字词、词组等语言单位。在一种语言中,包含大量的语义单元,多个语义单元之间相互组合,从而能够灵活表达各类语义信息。例如,通过字词、词组之间的组合,能够形成语句、段落等文本内容。
2、随着人类活动的发展以及科学技术的进步,可能会产生一些之前未出现过的新的语义单元。例如,随着互联网的广泛应用,大量与互联网相关的新兴词汇得以流行。
3、在相关技术中,通常是根据互联网传输的信息,挖掘其中包含的新的语义单元。例如,针对互联网中的新闻、贴吧等内容进行分析,根据分析结果提取出新的语义单元。然而,目前尚没有一种方式能够提前预测可能出现的新的语义单元。
技术实现思路
1、本公开提供了一种语义单元的预测方法、装置、电子设备及存储介质,用于提前预测可能出现的新的语义单元。
2、第一方面,本公开提供了一种语义单元的预测方法,包括以下步骤:
3、获取原始语料数据中包含的多个现存语义单元;
4、对每个现存语义单元执行义素拆解处理,得到每个现存语义单元中包含的多个义素;
5、按照义素组合策略,对多个现存语义单元中包含的多个义素进行组合,得到多个初始义素组;
6、将所述多个初始义素组与所述多个现存语义单元进行匹配,将匹配失败的初始义素组筛选为候选义素组;
7、根据所述候选义素组预测得到未知语义单元。
8、第二方面,本公开提供了一种语义单元的预测装置,包括:
9、获取模块,适于获取原始语料数据中包含的多个现存语义单元;
10、拆解模块,适于对每个现存语义单元执行义素拆解处理,得到每个现存语义单元中包含的多个义素;
11、组合模块,适于按照义素组合策略,对多个现存语义单元中包含的多个义素进行组合,得到多个初始义素组;
12、匹配模块,适于将所述多个初始义素组与所述多个现存语义单元进行匹配,将匹配失败的初始义素组筛选为候选义素组;
13、预测模块,适于根据所述候选义素组预测得到未知语义单元。
14、第三方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
15、第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述方法。
16、本公开所提供的实施例,能够通过义素拆解得到每个现存语义单元中的多个义素,进而按照义素组合策略将多个义素组合为多个初始义素组,从而根据多个初始义素组与多个现存语义单元之间的匹配结果筛选候选义素组,以便根据候选义素组预测得到未知语义单元。由此可见,该方式能够通过义素组合策略将多个义素灵活组合为各种形式的初始义素组,进而根据初始义素组与现存语义单元之间的匹配结果预测未知语义单元,从而能够提前预测可能出现的新的语义单元。
17、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种语义单元的预测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述现存语义单元包括:分词、和/或构式;
3.根据权利要求1或2所述的方法,其特征在于,所述候选义素组包括:第一候选义素组以及第二候选义素组;则所述根据所述候选义素组预测得到未知语义单元包括:
4.根据权利要求3所述的方法,其特征在于,所述语义预测模型通过以下方式训练得到:
5.根据权利要求4所述的方法,其特征在于,若所述语义预测模型预测得到的未知语义单元的数量为多个,则所述根据所述语义预测模型的输出结果预测得到未知语义单元包括:
6.根据权利要求5所述的方法,其特征在于,所述针对每个现存语义单元中包含的每个义素,计算所述义素的义素空间密度包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,所述按照义素组合策略,对多个现存语义单元中包含的多个义素进行组合包括:
8.一种语义单元的预测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的方法。