本申请属于人工智能领域,具体涉及一种模型训练方法、装置、电子设备及可读存储介质。
背景技术:
1、目前,由于分割技术的局限性,在手语视频分割阶段,电子设备不可避免的经常会多切出一些视频片段,当电子设备将这些手语视频片段输入至手语识别模块中进行识别后,则可能会得到冗余的手语词汇,使得该手语视频对应的手语词汇组成的手语语法错误。为了缓解这种现象,电子设备通常使用模型中配置好的规则对冗余的手语词汇进行处理。
2、然而,由于模型中规则过于单一,因此在电子设备遇到新的冗余手语词汇,且当前模型中配置好的规则无法及时识别该手语词汇所在的手语视频中的手语语法错误,并进行更正处理。
3、如此,导致现有模型在检测手语词汇冗余语法问题,会产生泛化性差,检测正确率低的问题。
技术实现思路
1、本申请实施例的目的是提供一种模型训练方法、装置、电子设备及可读存储介质,能够使得电子设备可以及时识别手语视频中的手语语法错误,提高模型的检测正确率和泛化性。
2、第一方面,本申请实施例提供了一种模型训练方法,该模型训练方法包括:获取第一文本序列,第一文本序列包括n个第一手语词汇,n个第一手语词汇包括第二文本序列中的至少一个语法正确的手语词汇以及至少一个任意手语词汇,n为大于1的整数;将第一文本序列和手语词汇组信息表输入手语语法错误检测模型,输出n个处理标签,一个处理标签对应一个第一手语词汇,处理标签包括指示保留手语词汇的保留标签或指示删除手语词汇的删除标签;手语词汇组信息表包括多组手语词汇和每组手语词汇对应的历史共现次数;基于n个处理标签,对第一文本序列处理,得到第三文本序列;在第三文本序列与第二文本序列不同的情况下,基于目标手语词汇,训练手语语法错误检测模型,目标手语词汇为第三文本序列与第二文本序列中的不同手语词汇。
3、第二方面,本申请实施例提供了一种模型训练装置,该模型训练装置包括:获取模块、处理模块以及训练模块;该获取模块,用于获取第一文本序列,第一文本序列包括n个第一手语词汇,n个第一手语词汇包括第二文本序列中的至少一个语法正确的手语词汇以及至少一个任意手语词汇,n为大于1的整数;该处理模块,用于将上述获取模块获取的第一文本序列和手语词汇组信息表输入手语语法错误检测模型,输出n个处理标签,一个处理标签对应一个第一手语词汇,处理标签包括指示保留手语词汇的保留标签或指示删除手语词汇的删除标签;手语词汇组信息表包括多组手语词汇和每组手语词汇对应的历史共现次数;该处理模块,还用于基于n个处理标签,对第一文本序列处理,得到第三文本序列;该训练模块,用于在第三文本序列与第二文本序列不同的情况下,基于目标手语词汇,训练手语语法错误检测模型,目标手语词汇为第三文本序列与第二文本序列中的不同手语词汇。
4、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
5、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
6、第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
7、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
8、在本申请实施例中,获取第一文本序列,第一文本序列包括n个第一手语词汇,n个第一手语词汇包括第二文本序列中的至少一个语法正确的手语词汇以及至少一个任意手语词汇,第二文本序列包括至少一个语法正确的手语词汇,n为大于1的整数;将第一文本序列和手语词汇组信息表输入手语语法错误检测模型,输出n个处理标签,一个处理标签对应一个第一手语词汇,处理标签包括指示保留手语词汇的保留标签或指示删除手语词汇的删除标签;手语词汇组信息表包括多组手语词汇和每组手语词汇对应的历史共现次数;基于n个处理标签,对第一文本序列处理,得到第三文本序列;在第三文本序列与第二文本序列不同的情况下,基于目标手语词汇,训练手语语法错误检测模型,目标手语词汇为第三文本序列与第二文本序列中的不同手语词汇。如此,由于第一文本序列是由第二文本序列中的至少一个语法正确的手语词汇和任意一个手语词汇组成的,因此,可以扩充训练手语语法错误检测模型的仅包含语法正确的第二文本序列所在的文本序列训练数据库,从而使得电子设备可以通过扩充训练数据库来训练手语语法错误检测模型,来提高手语语法错误检测模型的泛化性。同时,电子设备通过引入一个手语词汇组信息表,使得手语语法错误检测模型可以根据手语词汇组信息表获取到每个手语词汇所对应的历史共现次数,并依据得到每个手语词汇所对应的历史共现次数,来准确的为每个手语词汇添加处理标签,以使得电子设备可以根据处理标签对将第一文本序列的手语词汇进行删除或保留,以得到第三文本序列。最终基于第三文本序列与第二文本序列中不同的手语词汇,即手语语法错误检测模型为检测出的冗余手语词汇训练更新手语语法错误检测模型,进而提高手语语法错误检测模型的检测正确率。
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述第一文本序列和手语词汇组信息表输入手语语法错误检测模型,输出n个处理标签,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于目标手语词汇,训练所述手语语法错误检测模型,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述第一文本序列和手语词汇组信息表输入手语语法错误检测模型,输出n个处理标签之前,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一标签,对所述第二训练样本执行处理,得到目标训练样本之前,所述方法还包括:
6.一种模型训练装置,其特征在于,所述模型训练装置包括:获取模块、处理模块和训练模块;
7.根据权利要求6所述的装置,其特征在于,所述处理模块,具体用于:
8.根据权利要求6所述的装置,其特征在于,所述训练模块,具体用于:
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:分割模块和添加模块;
10.根据权利要求6所述的装置,其特征在于,所述获取模块,还用于所述处理模块基于所述第一标签,对所述第二训练样本执行处理,得到目标训练样本之前,获取所述第一文本序列对应的第一手语视频,确定每个所述第一手语词汇对应的实际手语动作时长;
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的模型训练方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的模型训练方法的步骤。