生成文本纠错模型训练语料的方法、装置、设备及介质与流程

文档序号:26506749发布日期:2021-09-04 08:53阅读:138来源:国知局
生成文本纠错模型训练语料的方法、装置、设备及介质与流程

1.本发明涉及文本纠错技术领域,尤其涉及一种生成文本纠错模型训练语料的方法、装置、设备及介质。


背景技术:

2.文本纠错是计算机自然语言处理中的一个重要研究方向,通过文本纠错可以对文本中由于人为等因素产生的错误(如错别字、错误语序等)进行纠正。现有在进行文本纠错时可以基于词典、专家规则或语言模型等来完成。其中,语言模型因为其含有语义特征,用语言模型进行文本纠错(为方便描述,将用于文本纠错的语言模型称为文本纠错模型)时,文本纠错的准确度及召回率相对较高。
3.然而,文本纠错模型的质量和稳定性是文本纠错的天花板。文本纠错的准确性和召回率依赖于文本纠错模型的训练方式,其中,用于训练文本纠错模型的训练语料的质量,将影响文本纠错模型进行文本纠错的准确性和召回率。
4.现有在生成文本纠错模型的训练语料时,通常从初始语料中随机选取一定比例的字词,对初始语料中该随机选取的字词进行掩码(为方便描述,称为随机掩码),以生成训练语料。然而,在实际应用过程中,基于随机掩码生成的训练语料训练完成的文本纠错模型进行文本纠错时,文本纠错的准确性和召回率存在较大欠缺。因此,亟需一种可以提高文本纠错模型的训练语料的质量,以进一步提高文本纠错的准确性和召回率的技术方案。


技术实现要素:

5.本发明实施例提供了一种生成文本纠错模型训练语料的方法、装置、设备及介质,用以提高文本纠错模型的训练语料的质量。
6.第一方面,本发明提供了一种生成文本纠错模型训练语料的方法,所述方法包括:
7.针对每个初始语料,确定该初始语料中包含的每个字词的属性信息,其中,所述属性信息包括词性、实体字词、易错字词、位置信息中的至少一种;
8.针对预设的每个被掩码字词的属性信息,根据该初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从该初始语料中,选取该属性信息及所述掩码比例的被掩码字词;
9.对选取的每个属性信息的被掩码字词进行掩码,生成训练语料。
10.在一种可能的实施方式中,所述对选取的每个属性信息的被掩码字词进行掩码包括:
11.针对选取的每个属性信息的被掩码字词,确定该被掩码字词的类型,所述类型包括:简体字、繁体字、数字、字母、特殊符号中的至少一种;采用与该被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码。
12.在一种可能的实施方式中,所述对选取的每个属性信息的被掩码字词进行掩码包括:
13.针对属性信息为易错字词的第一被掩码字词,根据保存的被掩码字词与掩码字词的对应关系,确定所述第一被掩码字词对应的目标掩码字词;
14.采用所述目标掩码字词,对所述第一被掩码字词进行掩码。
15.在一种可能的实施方式中,所述易错字词包括:拼音易错字词、字形易错字词中的至少一种。
16.在一种可能的实施方式中,确定被掩码字词与掩码字词的对应关系的过程包括:
17.若所述被掩码字词为拼音易错字词,确定所述被掩码字词与掩码字词的拼音相似度,若所述拼音相似度大于设定的第一阈值,保存所述被掩码字词与所述掩码字词的对应关系。
18.在一种可能的实施方式中,确定被掩码字词与掩码字词的对应关系的过程包括:
19.若所述被掩码字词为字形易错字词,确定所述被掩码字词与掩码字词的字形相似度,若所述字形相似度大于设定的第二阈值,保存所述被掩码字词与所述掩码字词的对应关系。
20.在一种可能的实施方式中,所述词性包括:连接词、副词、形容词、动词中的至少一种。
21.在一种可能的实施方式中,所述实体字词包括:时间、地点、名称、专业术语中的至少一种。
22.在一种可能的实施方式中,该初始语料中包含的字词的每个类型之间的第一比例与被掩码字词的每个类型之间的第二比例相同。
23.第二方面,本发明还提供了一种生成文本纠错模型训练语料的装置,所述装置包括:
24.确定模块,用于针对每个初始语料,确定该初始语料中包含的每个字词的属性信息,其中,所述属性信息包括词性、实体字词、易错字词、位置信息中的至少一种;
25.选取模块,用于针对预设的每个被掩码字词的属性信息,根据该初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从该初始语料中,选取该属性信息及所述掩码比例的被掩码字词;
26.掩码模块,用于对选取的每个属性信息的被掩码字词进行掩码,生成训练语料。
27.在一种可能的实施方式中,所述掩码模块,具体用于针对选取的每个属性信息的被掩码字词,确定该被掩码字词的类型,所述类型包括:简体字、繁体字、数字、字母、特殊符号中的至少一种;采用与该被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码。
28.在一种可能的实施方式中,所述掩码模块,具体用于针对属性信息为易错字词的第一被掩码字词,根据保存的被掩码字词与掩码字词的对应关系,确定所述第一被掩码字词对应的目标掩码字词;采用所述目标掩码字词,对所述第一被掩码字词进行掩码。
29.在一种可能的实施方式中,所述易错字词包括:拼音易错字词、字形易错字词中的至少一种。
30.在一种可能的实施方式中,所述掩码模块,具体用于若所述被掩码字词为拼音易错字词,确定所述被掩码字词与掩码字词的拼音相似度,若所述拼音相似度大于设定的第一阈值,保存所述被掩码字词与所述掩码字词的对应关系。
31.在一种可能的实施方式中,所述掩码模块,具体用于若所述被掩码字词为字形易
错字词,确定所述被掩码字词与掩码字词的字形相似度,若所述字形相似度大于设定的第二阈值,保存所述被掩码字词与所述掩码字词的对应关系。
32.在一种可能的实施方式中,所述词性包括:连接词、副词、形容词、动词中的至少一种。
33.在一种可能的实施方式中,所述实体字词包括:时间、地点、名称、专业术语中的至少一种。
34.在一种可能的实施方式中,该初始语料中包含的字词的每个类型之间的第一比例与被掩码字词的每个类型之间的第二比例相同。
35.第三方面,本发明还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述生成文本纠错模型训练语料的方法的步骤。
36.第四方面,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述生成文本纠错模型训练语料的方法的步骤。
37.由于本发明实施例可以预设被掩码字词的属性信息及对应该被掩码字词的属性信息的掩码比例,针对预设的每个被掩码字词的属性信息,可以根据初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从初始语料中,选取该属性信息及该掩码比例的被掩码字词,并对选取的被掩码字词进行掩码,以生成训练语料。相比现有技术,从初始语料中随机选取被掩码字词的方式而言,本发明实施例中选取的被掩码字词为初始语料中相对比较容易出错或比较重要的字词等,所以本发明实施例的训练语料的质量较高,基于本发明实施例的训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。
附图说明
38.为了更清楚地说明本发明实施例或相关技术中的实施方式,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
39.图1为本发明实施例提供的一种生成文本纠错模型训练语料的过程示意图;
40.图2为本发明实施例提供的一种生成文本纠错模型训练语料的装置示意图;
41.图3为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
42.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
43.本发明中说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
44.为了提高文本纠错模型的训练语料的质量,本发明实施例提供了一种生成文本纠错模型训练语料的方法、装置、设备及介质。
45.实施例1:
46.图1为本发明实施例提供的一种生成文本纠错模型训练语料的过程示意图,该过程包括以下步骤:
47.s101:针对每个初始语料,确定该初始语料中包含的每个字词的属性信息,其中,所述属性信息包括词性、实体字词、易错字词、位置信息中的至少一种。
48.本发明实施例提供的生成文本纠错模型训练语料的方法应用于电子设备,该电子设备例如可以是pc、移动终端等设备,也可以是服务器等。
49.在一种可能的实施方式中,为了提高生成的训练语料的质量,针对每个初始语料,可以确定该初始语料中包含的每个字词的属性信息,示例性的,属性信息可以包括词性、实体字词、易错字词、位置信息中的至少一种。在一种可能的实施方式中,可以先对初始语料进行编码格式转换、分段、分句、降噪等预处理后,再进行确定初始语料中包含的每个字词的属性信息的步骤,其中,对初始语料进行预处理的过程可以采用现有技术,在此不再赘述。
50.具体的,鉴于如果文本中的连接词、副词、形容词或动词等词性的字词出错时,可能会使文本出现语法错误,因此,可以对初始语料中包含的连接词、副词、形容词或动词等词性的字词进行掩码,以提高生成的训练语料的质量,进而可以使基于该训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。
51.在一种可能的实施方式中,鉴于如果文本中的时间实体字词、地点实体字词、名称实体字词、专业术语实体字词等实体字词出错时,可能会使文本出现较严重的错误,因此,可以对初始语料中包含的时间实体字词、地点实体字词、名称实体字词、专业术语实体字词等字词进行掩码,以提高生成的训练语料的质量,进而可以使基于该训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。
52.其中,可以将法律、金融、农业、医药等垂直领域的专业术语作为专业术语实体字词,对初始语料中的专业术语实体字词进行掩码生成的训练语料的质量较高,基于该训练语料训练完成的文本纠错模型进行垂直领域的文本纠错时,可以满足垂直领域的文本纠错的准确性和召回率要求。
53.在一种可能的实施方式中,鉴于文本中的拼音易错字词、字形易错字词等字词属于比较容易出错的字词,因此,可以对初始语料中包含的拼音易错字词、字形易错字词等易错字词进行掩码,以提高生成的训练语料的质量,进而可以使基于该训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。
54.在一种可能的实施方式中,鉴于例如将语音转化为文本时,通常容易在每个句子的首部、尾部等位置处出现文本错误,因此,确定的初始语料中包含的字词的属性信息中还可以包含字词位于句子的首部或尾部等位置信息,从而可以对初始语料中位于句子的首部、尾部等任一位置的字词进行掩码,以提高生成的训练语料的质量,进而可以使基于该训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。
55.s102:针对预设的每个被掩码字词的属性信息,根据该初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从该初始语料中,选取该属性信息及所述掩
码比例的被掩码字词。
56.在一种可能的实施方式中,为了提高生成的训练语料的质量,用户可以预先设置每个被掩码字词的属性信息,例如,被掩码字词的属性信息可以包括词性、实体字词、易错字词、位置信息等中的至少一种;另外,针对预先设置的每个被掩码字词的属性信息,用户还可以预先设置该被掩码字词的属性信息对应的掩码比例。其中,每个被掩码字词的属性信息、每个被掩码字词的属性信息对应的掩码比例均可以根据需求灵活设置,本发明实施例对此不做具体限定。
57.电子设备在生成训练语料时,针对每个初始语料及用户预设的每个被掩码字词的属性信息,可以根据该初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从该初始语料中,选取该属性信息及该掩码比例的被掩码字词。示例性的,用户预设的被掩码字词的属性信息为专业术语和连接词,其中,专业术语对应的掩码比例为1%,连接词对应的掩码比例为2%;初始语料中共包含200个字词,则可以分别从初始语料包含的200个字词中,选取2个属性信息为专业术语的字词及4个属性信息为连接词的字词,并将这2个属性信息为专业术语的字词及这4个属性信息为连接词的字词,均确定为被掩码字词。
58.s103:对选取的每个属性信息的被掩码字词进行掩码,生成训练语料。
59.从初始语料中选取了被掩码字词后,可以对选取的每个被掩码字词进行掩码,从而生成训练语料。在一种可能的实施方式中,可以采用现有技术对被掩码字词进行掩码,在此不再赘述。在一种可能的实施方式中,可以将生成的训练语料保存在样本集(训练集)中,以供后续训练文本纠错模型时使用。
60.由于本发明实施例可以预设被掩码字词的属性信息及对应该被掩码字词的属性信息的掩码比例,针对预设的每个被掩码字词的属性信息,可以根据初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从初始语料中,选取该属性信息及该掩码比例的被掩码字词,并对选取的被掩码字词进行掩码,以生成训练语料。相比现有技术,从初始语料中随机选取被掩码字词的方式而言,本发明实施例中选取的被掩码字词为初始语料中相对比较容易出错或比较重要的字词等,所以本发明实施例的训练语料的质量较高,基于本发明实施例的训练语料训练完成的文本纠错模型进行文本纠错时,可以提高文本纠错的准确性和召回率。
61.实施例2:
62.为了进一步提高训练语料的质量,在上述实施例的基础上,在本发明实施例中,所述对选取的每个属性信息的被掩码字词进行掩码包括:
63.针对选取的每个属性信息的被掩码字词,确定该被掩码字词的类型,所述类型包括:简体字、繁体字、数字、字母、特殊符号中的至少一种;采用与该被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码。
64.相关技术中在用掩码字词对被掩码字词进行掩码时,未考虑掩码字词与被掩码字词的类型之间的关系,例如可能用简体字对繁体字进行掩码,也可能用繁体字对简体字进行掩码等,基于相关技术这种掩码方式生成的训练语料的质量欠佳,基于相关技术的训练语料训练完成的文本纠错模型进行文本纠错时,文本纠错的准确性和召回率存在较大欠缺。
65.为了进一步提高训练语料的质量,本发明实施例在对选取的被掩码字词进行掩码
之前,针对选取的每个被掩码字词,可以先确定被掩码字词的类型,示例性的,被掩码字词的类型可以是简体字、繁体字、数字、字母、特殊符号中的至少一种。其中,确定被掩码字词的类型可以采用现有技术,在此不再赘述。
66.针对选取的每个被掩码字词,确定了该被掩码字词的类型后,可以采用与该被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码。示例性的,如果被掩码字词是简体字,则用简体字对该被掩码字词进行掩码;如果被掩码字词是繁体字,则用繁体字对该被掩码字词进行掩码等。
67.由于本发明实施例可以采用与被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码,相比相关技术中不考虑掩码字词与被掩码字词的类型之间的关系而言,可以进一步提高训练语料的质量,基于本发明实施例的训练语料训练完成的文本纠错模型进行文本纠错时,文本纠错的准确性和召回率较高。
68.实施例3:
69.为了提高训练语料的质量,在上述各实施例的基础上,在本发明实施例中,所述对选取的每个属性信息的被掩码字词进行掩码包括:
70.针对属性信息为易错字词的第一被掩码字词,根据保存的被掩码字词与掩码字词的对应关系,确定所述第一被掩码字词对应的目标掩码字词;
71.采用所述目标掩码字词,对所述第一被掩码字词进行掩码。
72.在一种可能的实施方式中,为了提高训练语料的质量,可以对初始语料中的易错字词进行掩码。具体的,易错字词可以包括:拼音易错字词、字形易错字词中的至少一种。具体的,可以采用与初始语料中的被掩码字词拼音较相似或字形较相似的掩码字词,对该被掩码字词进行掩码,以进一步提高训练语料的质量。例如,当被掩码字词为“因”时,可以采用掩码字词“英”对该被掩码字词进行掩码;当被掩码字词为“万”时,可以采用掩码字词“方”对该被掩码字词进行掩码等。
73.具体的,在对初始语料中的易错字词进行掩码之前,可以先确定与被掩码字词拼音较相似或字形较相似的掩码字词,并保存被掩码字词与掩码字词的对应关系。示例性的,可以将被掩码字词与掩码字词的对应关系保存在电子设备的掩码库中。
74.在一种可能的实施方式中,确定被掩码字词与掩码字词的对应关系的过程可以为:若被掩码字词为拼音易错字词,在确定被掩码字词与掩码字词的对应关系时,可以先确定被掩码字词与掩码字词拼音相似度,如果被掩码字词与掩码字词的拼音相似度大于设定的第一阈值,则可以认为该被掩码字词与该掩码字词的拼音较相似,可以保存该被掩码字词与该掩码字词的对应关系。其中,确定被掩码字词与掩码字词拼音相似度可以采用现有技术,在此不再赘述。第一阈值可以根据需求灵活设置,本发明实施例对此不做具体限定,示例性的,第一阈值可以是不小于0.7(70%)且不大于1(100%)的任一数值。
75.在一种可能的实施方式中,确定被掩码字词与掩码字词的对应关系的过程还可以为:若被掩码字词为字形易错字词,在确定被掩码字词与掩码字词的对应关系时,可以先确定被掩码字词与掩码字词字形相似度,如果被掩码字词与掩码字词的字形相似度大于设定的第二阈值,则可以认为该被掩码字词与该掩码字词的字形较相似,可以保存该被掩码字词与该掩码字词的对应关系。其中,确定被掩码字词与掩码字词字形相似度可以采用现有技术,在此不再赘述。第二阈值可以根据需求灵活设置,且第二阈值与第一阈值可以相同,
也可以不同,本发明实施例对此不做具体限定,示例性的,第二阈值可以是不小于0.7(70%)且不大于1(100%)的任一数值。
76.实施例4:
77.为了进一步提高训练语料的质量,在上述各实施例的基础上,在本发明实施例中,针对每个初始语料,该初始语料中包含的字词的每个类型之间的第一比例与被掩码字词的每个类型之间的第二比例相同。
78.在一种可能的实施方式中,鉴于初始语料中可能同时包含简体字、繁体字等不同类型的字词,在对初始语料中的字词进行掩码生成训练语料时,针对每个初始语料,可以先确定该初始语料中包含的字词的每个类型之间的第一比例。在确定初始语料中的被掩码字词时,可以根据该第一比例,确定被掩码字词的每个类型之间的第二比例,其中,第二比例与第一比例可以相同。示例性的,如果初始语料中简体字和繁体字的第一比例为4:1,则选取的被掩码字词的简体字和繁体字的第二比例也可以是4:1。
79.相比相关技术未考虑第一比例与第二比例之间的关系,导致被掩码字词可能全是某一类型的字词,例如全是简体字或者全是繁体字等而言,本发明实施例可以根据初始语料中包含的字词的每个类型之间的第一比例,确定被掩码字词的每个类型之间的第二比例,从而可以进一步提高训练语料的质量,基于本发明实施例的训练语料训练完成的文本纠错模型进行文本纠错时,文本纠错的准确性和召回率较高。
80.为方便理解,下面通过一个具体实施例对本发明提供的生成文本纠错模型训练语料的方法进行说明。在一种可能的实施方式中,可以对文本纠错模型进行多个轮次的训练。针对每个训练轮次,用户可以预先设置该训练轮次的每个被掩码字词的属性信息,同时,针对预设的每个被掩码字词的属性信息,可以预设对应该被掩码字词的属性信息的掩码比例。其中,每个训练轮次之间,每个被掩码字词的属性信息及对应被掩码字词的属性信息的掩码比例可以相同也可以不同,可以根据需求灵活设置。
81.示例性的,针对某一训练轮次,用户预先设置的被掩码字词的属性信息分别为拼音易错字词、字形易错字词、连接词、副词、动词、专业术语实体字词。其中,拼音易错字词的掩码比例用sp表示,字形易错字词的掩码比例用sg表示,连接词的掩码比例用wc表示,副词的掩码比例用wa表示,动词的掩码比例用wv表示,专业术语的掩码比例用wn表示。该训练轮次的某一初始语料中类型为简体字的字词比例用g表示,类型为繁体字的字词比例用b表示,类型为特殊符号的字词比例用s表示,则该初始语料中包含的类型为简体字、繁体字、特殊符号字词之间的第一比例为g:b:s。
82.则针对该初始语料,可以从该初始语料中,分别选取sp掩码比例的拼音易错字词、sg掩码比例的字形易错字词、wc掩码比例的连接词、wa掩码比例的副词、wv掩码比例的动词、wn掩码比例的专业术语作为被掩码字词。其中,被掩码字词中包含的类型为简体字、繁体字、特殊符号字词之间的第二比例可以为g:b:s。
83.实施例5:
84.在上述各实施例的基础上,本发明实施例提供的一种生成文本纠错模型训练语料的装置。图2为本发明实施例提供的一种生成文本纠错模型训练语料的装置示意图,如图2所示,所述装置包括:
85.确定模块21,用于针对每个初始语料,确定该初始语料中包含的每个字词的属性
信息,其中,所述属性信息包括词性、实体字词、易错字词、位置信息中的至少一种;
86.选取模块22,用于针对预设的每个被掩码字词的属性信息,根据该初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从该初始语料中,选取该属性信息及所述掩码比例的被掩码字词;
87.掩码模块23,用于对选取的每个属性信息的被掩码字词进行掩码,生成训练语料。
88.在一种可能的实施方式中,所述掩码模块23,具体用于针对选取的每个属性信息的被掩码字词,确定该被掩码字词的类型,所述类型包括:简体字、繁体字、数字、字母、特殊符号中的至少一种;采用与该被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码。
89.在一种可能的实施方式中,所述掩码模块23,具体用于针对属性信息为易错字词的第一被掩码字词,根据保存的被掩码字词与掩码字词的对应关系,确定所述第一被掩码字词对应的目标掩码字词;采用所述目标掩码字词,对所述第一被掩码字词进行掩码。
90.在一种可能的实施方式中,所述易错字词包括:拼音易错字词、字形易错字词中的至少一种。
91.在一种可能的实施方式中,所述掩码模块23,具体用于若所述被掩码字词为拼音易错字词,确定所述被掩码字词与掩码字词的拼音相似度,若所述拼音相似度大于设定的第一阈值,保存所述被掩码字词与所述掩码字词的对应关系。
92.在一种可能的实施方式中,所述掩码模块23,具体用于若所述被掩码字词为字形易错字词,确定所述被掩码字词与掩码字词的字形相似度,若所述字形相似度大于设定的第二阈值,保存所述被掩码字词与所述掩码字词的对应关系。
93.在一种可能的实施方式中,所述词性包括:连接词、副词、形容词、动词中的至少一种。
94.在一种可能的实施方式中,所述实体字词包括:时间、地点、名称、专业术语中的至少一种。
95.在一种可能的实施方式中,该初始语料中包含的字词的每个类型之间的第一比例与被掩码字词的每个类型之间的第二比例相同。
96.实施例6:
97.在上述各实施例的基础上,本发明实施例还提供了一种电子设备,图3为本发明实施例提供的一种电子设备结构示意图,如图3所示,该电子设备包括:处理器31、通信接口32、存储器33和通信总线34,其中,处理器31,通信接口32,存储器33通过通信总线34完成相互间的通信;
98.所述存储器33中存储有计算机程序,当所述程序被所述处理器31执行时,使得所述处理器31执行如下步骤:
99.针对每个初始语料,确定该初始语料中包含的每个字词的属性信息,其中,所述属性信息包括词性、实体字词、易错字词、位置信息中的至少一种;
100.针对预设的每个被掩码字词的属性信息,根据该初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从该初始语料中,选取该属性信息及所述掩码比例的被掩码字词;
101.对选取的每个属性信息的被掩码字词进行掩码,生成训练语料。
102.在一种可能的实施方式中,所述处理器31,具体用于针对选取的每个属性信息的被掩码字词,确定该被掩码字词的类型,所述类型包括:简体字、繁体字、数字、字母、特殊符号中的至少一种;采用与该被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码。
103.在一种可能的实施方式中,所述处理器31,具体用于针对属性信息为易错字词的第一被掩码字词,根据保存的被掩码字词与掩码字词的对应关系,确定所述第一被掩码字词对应的目标掩码字词;采用所述目标掩码字词,对所述第一被掩码字词进行掩码。
104.在一种可能的实施方式中,所述易错字词包括:拼音易错字词、字形易错字词中的至少一种。
105.在一种可能的实施方式中,所述处理器31,具体用于若所述被掩码字词为拼音易错字词,确定所述被掩码字词与掩码字词的拼音相似度,若所述拼音相似度大于设定的第一阈值,保存所述被掩码字词与所述掩码字词的对应关系。
106.在一种可能的实施方式中,所述处理器31,具体用于若所述被掩码字词为字形易错字词,确定所述被掩码字词与掩码字词的字形相似度,若所述字形相似度大于设定的第二阈值,保存所述被掩码字词与所述掩码字词的对应关系。
107.在一种可能的实施方式中,所述词性包括:连接词、副词、形容词、动词中的至少一种。
108.在一种可能的实施方式中,所述实体字词包括:时间、地点、名称、专业术语中的至少一种。
109.在一种可能的实施方式中,该初始语料中包含的字词的每个类型之间的第一比例与被掩码字词的每个类型之间的第二比例相同。
110.由于上述电子设备解决问题的原理与生成文本纠错模型训练语料的方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
111.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
112.通信接口32用于上述电子设备与其他设备之间的通信。
113.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non

volatile memory,nvm),例如至少一个磁盘存储器。
114.上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
115.实施例7:
116.在上述各实施例的基础上,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
117.针对每个初始语料,确定该初始语料中包含的每个字词的属性信息,其中,所述属性信息包括词性、实体字词、易错字词、位置信息中的至少一种;
118.针对预设的每个被掩码字词的属性信息,根据该初始语料中包含的每个字词的属性信息及对应该属性信息的掩码比例,从该初始语料中,选取该属性信息及所述掩码比例的被掩码字词;
119.对选取的每个属性信息的被掩码字词进行掩码,生成训练语料。
120.在一种可能的实施方式中,所述对选取的每个属性信息的被掩码字词进行掩码包括:
121.针对选取的每个属性信息的被掩码字词,确定该被掩码字词的类型,所述类型包括:简体字、繁体字、数字、字母、特殊符号中的至少一种;采用与该被掩码字词的类型一致的掩码字词,对该被掩码字词进行掩码。
122.在一种可能的实施方式中,所述对选取的每个属性信息的被掩码字词进行掩码包括:
123.针对属性信息为易错字词的第一被掩码字词,根据保存的被掩码字词与掩码字词的对应关系,确定所述第一被掩码字词对应的目标掩码字词;
124.采用所述目标掩码字词,对所述第一被掩码字词进行掩码。
125.在一种可能的实施方式中,所述易错字词包括:拼音易错字词、字形易错字词中的至少一种。
126.在一种可能的实施方式中,确定被掩码字词与掩码字词的对应关系的过程包括:
127.若所述被掩码字词为拼音易错字词,确定所述被掩码字词与掩码字词的拼音相似度,若所述拼音相似度大于设定的第一阈值,保存所述被掩码字词与所述掩码字词的对应关系。
128.在一种可能的实施方式中,确定被掩码字词与掩码字词的对应关系的过程包括:
129.若所述被掩码字词为字形易错字词,确定所述被掩码字词与掩码字词的字形相似度,若所述字形相似度大于设定的第二阈值,保存所述被掩码字词与所述掩码字词的对应关系。
130.在一种可能的实施方式中,所述词性包括:连接词、副词、形容词、动词中的至少一种。
131.在一种可能的实施方式中,所述实体字词包括:时间、地点、名称、专业术语中的至少一种。
132.在一种可能的实施方式中,该初始语料中包含的字词的每个类型之间的第一比例与被掩码字词的每个类型之间的第二比例相同。
133.上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁光盘(mo)等、光学存储器如cd、dvd、bd、hvd等、以及半导体存储器如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd)等。
134.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
135.本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
136.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
137.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
138.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1