语法错误识别模型的训练及识别方法、装置、介质及程序与流程

文档序号:30311734发布日期:2022-06-05 14:00阅读:188来源:国知局
语法错误识别模型的训练及识别方法、装置、介质及程序与流程

1.本发明涉及自然语言处理技术,尤其涉及一种语法错误识别模型的训练及识别方法、装置、介质及程序。


背景技术:

2.人们在写作过程中,很难达到不出现任何语法错误。语法错误可能会导致语句产生歧义,以及,读者难以理解写作内容等问题。当写作内容较多时,通过人工来查找写作内容中的语法错误的效率较低,且准确度较差。因此,人们提出了自动化语法错误检测的方法。
3.目前,现有的自动化语法错误识别的方法主要为模板识别法。在使用模板识别法识别语句中的语法错误时,需要针对不同种类的语法错误,设置不同的识别模板。即,一种识别模板只能识别出一种类型的语法错误。例如,用于识别语句中宾语缺失的模板,只能识别出一句话中的宾语是否缺失。若该句话中的宾语缺失,通过模板识别,可以确定该句话存在语法错误。然而,若该句话不缺失宾语,但是存在其他类型的语法错误(例如语句成分顺序不当等),通过上述模板,则不能识别出该句话存在语句成分顺序不当的问语法错误。若要识别语句中成分顺序不当的语法错误,需要另外设置新的模板。
4.因此,通过模板识别法识别语句中的语法错误的效率较低。


技术实现要素:

5.本发明提供一种语法错误识别模型的训练及识别方法、装置、介质及程序,以达到提高语法错误识别效率的技术效果。
6.第一方面,本发明提供一种语法错误识别模型的训练方法,所述方法包括:
7.获取第一样本数据集和第二样本数据集;其中,所述第一样本数据集包括:至少一组第一样本数据,每组所述第一样本数据包括:第一样本语句、所述第一样本语句包括的词语的词性、所述第一样本语句的依存句法分析结果和语法错误;所述第二样本数据集包括:至少一组第二样本数据,所述第二样本数据包括:第二样本语句,以及,所述第二样本语句基于文字序列标注的语法错误;
8.使用所述第一样本数据集对初始语法错误识别模型进行训练,得到训练好的初始语法错误识别模型;其中,所述初始语法错误识别模型用于基于输入的待识别语句,输出待识别语句包括的词语的词性、待识别语句的依存句法分析结果、待识别语句的语法错误;
9.使用所述第二样本数据集对目标语法错误识别模型进行训练,得到训练好的目标语法错误识别模型;其中,所述目标语法错误识别模型包括训练好的初始语法错误识别模型;所述目标语法错误识别模型用于基于输入的待识别语句,识别待识别语句基于文字序列标注的语法错误。
10.可选的,所述获取所述第一样本数据集,包括:
11.从数据源中获取初始样本语句集,所述初始样本语句集包括多个初始样本语句;
12.对所述初始样本语句集进行数据清洗,得到清洗后的初始样本语句集;
13.获取各所述初始样本语句包括的词语的词性、各所述初始样本语句的依存句法分析结果;
14.将各所述初始样本语句修改为存在语法错误的所述第一样本语句,并获取各所述第一样本语句的语法错误;
15.基于所述各所述初始样本语句包括的词语的词性、各所述初始样本语句的依存句法分析结果、各所述第一样本语句,以及,各所述第一样本语句的语法错误,构建所述第一样本数据集。
16.可选的,所述方法还包括:
17.获取各所述初始样本语句的命名实体;
18.所述将各所述初始样本语句修改为存在语法错误的所述第一样本语句,并获取各所述第一样本语句的语法错误,包括:
19.基于预设的约束条件,将各所述初始样本语句修改为含有至少一种语法错误的所述第一样本语句;
20.所述预设的约束条件包括下述至少一项:
21.不修改所述初始样本语句中的命名实体;所述第一样本语句中的语法错误数量小于或等于第一预设阈值;不修改所述初始样本语句中的依存关系的距离大于或等于第二预设阈值的词语;每种所述语法错误在所述第一样本数据集中的数量小于或等于第三预设阈值。
22.可选的,所述对所述初始样本语句集进行数据清洗,包括:
23.删除所述初始样本语句集中语句长度大于第四预设阈值,或者,小于第五预设阈值的初始样本语句;和/或,
24.删除所述初始样本语句集中特殊字符的数目大于或等于第六预设阈值的初始样本语句;和/或,
25.将所述初始样本语句集中初始样本语句中的特殊字符删除;和/或,
26.将所述初始样本语句集中初始样本语句中除第一类型的字体之外的字体修改为第一类型的字体;和/或,
27.将所述初始样本语句集中初始样本语句中除第二类型的符号之外的符号修改为第二类型的符号。
28.第二方面,本发明提供一种语法错误识别方法,所述方法包括:
29.接收待识别的语句;
30.将所述语句输入至训练好的目标语法错误识别模型,得到所述语句基于文字序列标注的语法错误;其中,所述目标语法错误识别模型为采用如第一方面任一项所述的方法训练得到的语法错误识别模型;
31.输出所述语句基于文字序列标注的语法错误。
32.第三方面,本发明提供一种语法错误识别模型的训练装置,所述装置包括:
33.获取模块,用于获取第一样本数据集和第二样本数据集;其中,所述第一样本数据集包括:至少一组第一样本数据,每组所述第一样本数据包括:第一样本语句、所述第一样本语句包括的词语的词性、所述第一样本语句的依存句法分析结果和语法错误;所述第二
样本数据集包括:至少一组第二样本数据,所述第二样本数据包括:第二样本语句,以及,所述第二样本语句基于文字序列标注的语法错误;
34.第一训练模块,用于使用所述第一样本数据集对初始语法错误识别模型进行训练,得到训练好的初始语法错误识别模型;其中,所述初始语法错误识别模型用于基于输入的待识别语句,输出待识别语句包括的词语的词性、待识别语句的依存句法分析结果、待识别语句的语法错误;
35.第二训练模块,用于使用所述第二样本数据集对目标语法错误识别模型进行训练,得到训练好的目标语法错误识别模型;其中,所述目标语法错误识别模型包括训练好的初始语法错误识别模型;所述目标语法错误识别模型用于基于输入的待识别语句,识别待识别语句基于文字序列标注的语法错误。
36.第四方面,本发明提供一种语法错误识别装置,所述装置包括:
37.接收模块,用于接收待识别的语句;
38.获取模块,用于将所述语句输入至训练好的目标语法错误识别模型,得到所述语句基于文字序列标注的语法错误;其中,所述目标语法错误识别模型为采用如第一方面任一项所述的方法训练得到的语法错误识别模型;
39.输出模块,用于输出所述语句基于文字序列标注的语法错误。
40.第五方面,本发明提供一种电子设备,包括:至少一个处理器、存储器;
41.所述存储器存储计算机执行指令;
42.所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备执行第一方面或第二方面任一项所述的方法。
43.第六方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机执行指令,当所述计算机执行指令被处理器执行时,实现第一方面或第二方面任一项所述的方法。
44.第七方面,本发明提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面或第二方面任一项所述的方法。
45.本发明提供的语法错误识别模型的训练及识别方法、装置、介质及程序,通过使用第一样本语句包括的词语的词性、第一样本语句的依存句法分析结果,以及,语法错误这三项作为初始语法错误识别模型的训练目标,然后获取训练好的初始语法错误识别模型。而上述语法错误可以是多种类型的语法错误,即使用上述初始语法错误识别模型进行语法错误识别时,能够识别出多种类型的语法错误,因此提高了语法错误识别的效率。进一步的,使用上述训练好的初始语法错误识别模型进行语法错误识别之前,不需要对待识别语句进行词性标注、依存句法分析,因此进一步提高了语法错误识别的效率。此外,基于上述训练好的初始语法错误识别模型构建能够识别待识别语句中语法错误位置的目标语法错误识别模型,即通过本发明提供的方法,不仅实现了语法错误识别,还能够获取待识别语句中的语法错误位置。
附图说明
46.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一
些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1为本发明提供的一种语法错误识别模型的训练方法的流程示意图;
48.图2为本发明提供的一种获取第一样本数据集方法的流程示意图;
49.图3为本发明提供的一种语句的依存句法分析结果示意图;
50.图4为本发明提供的一种语法错误识别方法的流程示意图;
51.图5为本发明提供的另一种语法错误识别方法的流程示意图;
52.图6为本发明提供的一种语法错误识别模型的训练装置的结构示意图;
53.图7为本发明提供的一种语法错误识别装置的结构示意图;
54.图8为本发明提供的一种电子设备结构示意图。
具体实施方式
55.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
56.以汉语写作为例,语句的成分可以包括主语、谓语、宾语、定语、状语、补语、中位语等。语句的各个成分在语句中以正确的顺序排列时,语句才可能正确的表达的完整的意思。语句的每个成分均由词语构成。其中,语句中的词语按照词性可以分为实词和虚词。实词指的是有实际意义的词语,具体包括名词、动词、形容词等(例如笔、思考、漂亮等词语)。虚词指的是没有实际意义的词语,具体包括副词、介词、连词等(例如甚至、在、和等词语)。用词不当、语句成分缺失、或者成分顺序颠倒等情况都有可能导致语句出现语法错误。
57.记者、编辑、作家等岗位的工作人员常常需要撰写大量的文本,因此很难保障撰写的文本中不出现任何的语法错误,进而可能导致读者无法准确的获取语句想要表达的含义。若通过人工校验的方法对大量的文本进行检查,以查找文本中的语法错误,将会耗费大量的人力资源,且查找效率较低,以及,准确度较差。因此,一些方案提出了自动化语法错误识别的方法。
58.现有的自动化语法错误识别的方法主要为模板识别法。在使用模板识别法识别文本中的语法错误时,模板中的依存句法分析(dependency syntactic parsing)是固定不变的。其中,依存句法分析用于识别语句中词语与词语之间的相互依存关系。因此,一种识别模板只能识别出语句中的一种类型的语法错误。例如存在语法错误的语句a“模板识别法识别语法错误语句中的”,以及,存在语法错误的语句b“模板识别法识别语句中的”,这两个语句中的成分对应关系如表1所示:
59.表1
60.序号语句中的词语对应语句成分1模板识别法主语2识别谓语3语句中的定语4语法错误宾语
61.显然,上述语句a的语法错误为语句成分顺序颠倒(该语句中的定语与宾语顺序颠倒,正确形式本应该是“模板识别法识别语句中的语法错误”)。语句b的语法错误为宾语缺失。若模板识别法中的模板用于识别语句中宾语缺失,那么使用该模板只能识别出语句b存在语法错误,无法确定语句a存在语法错误。若需要识别出语句a对应的该种类型的语法错误,需要另外设置新的模板。因此,使用模板识别法识别语句中的语法错误的效率较低。
62.考虑到现有技术存在语法错误识别效率较低的缺陷,本发明提出一种语法错误识别模型的训练方法,以及,一种语法错误识别方法。在训练语法错误识别模型时,将样本语句包括的词语的词性、依存句法分析的结果和语法错误三种任务作为语法错误识别模型的训练目标,得到训练好的初始语法错误识别模型。其中上述语法错误可以是多种类型的语法错误,即使用上述初始语法错误识别模型进行语法错误识别时,能够识别出多种类型的语法错误,因此提高了语法错误识别的效率。进一步的,使用上述训练好的初始语法错误识别模型进行语法错误识别之前,不需要对待识别语句进行词性标注、依存句法分析,即进一步提高了语法错误识别的效率。
63.在具体实现时,本发明提供的方法可由电子设备执行,该电子设备可以是服务器、终端等具有处理功能的设备。
64.下面以汉语为例,结合具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。为了便于描述,下述实施例是以汉语为例,对本发明的技术方案的介绍。应当理解的是,本发明提出的方法也可以基于其所应用的语言,选择对应的语言的样本数据集,从而使所训练好的模型能够识别该语言的语句的语法错误,例如英语等,对此不再赘述。
65.图1为本发明提供的一种语法错误识别模型的训练方法的流程示意图。如图1所示,该方法包括以下步骤:
66.s101、获取第一样本数据集和第二样本数据集。
67.上述第一样本数据集包括至少一组第一样本数据。其中,每组第一样本数据包括第一样本语句、第一样本语句包括的词语的词性、第一样本语句的依存句法分析结果,以及,语法错误。其中,每个第一样本语句存在至少一种类型的语法错误。此处所说的语法错误类型例如可以是语句成分冗余、语句成分缺失等。
68.可选的,电子设备可以与至少一个数据平台连接,然后从数据平台上获取第一样本数据集(该第一样本数据集例如可以预先存储在数据平台上)。示例性的,上述数据平台例如可以是弹性搜索(elastic search,es)系统、分布式文件系统(hadoop distributed file system,hdfs)等。或者,上述第一样本数据集还可以是用户输入的,或者是预先存储在电子设备中的,即电子设备可以获取自身存储的数据。
69.上述第二样本数据集包括:至少一组第二样本数据,第二样本数据包括:第二样本语句,以及,第二样本语句基于文字序列标注的语法错误。其中,该基于文字序列标注的语法错误用于指示第二样本语句中的语法错误所在的位置。
70.可选的,该第二样本语句可以是第一样本数据集中的部分或全部第一样本语句,即,第二样本数据集中的样本语句是第一样本数据集中的样本语句的子集或全集。或者,第二样本数据集可以包括至少一条第一样本语句,以及,不属于第一样本数据集中的存在语法错误语句。或者,该第二样本数据集中的所有的第二样本语句均是不属于第一样本数据
集中的存在语法错误语句。
71.示例性的,电子设备可以直接获取第二样本数据集。具体的,电子设备如何获取第二样本数据集,可以参照上述电子设备获取第一样本数据集的方法,在此不再赘述。
72.或者,电子设备还可以在获取第二样本语句之后,通过对第二样本语句进行序列标注,获取第二样本语句基于文字序列标注的语法错误。示例性的,电子设备例如可以通过“bio”的编码方式,获取第二样本语句的基于文字序列标注的语法错误标签。其中,o表示该文字没有语法错误,b表示第二样本语句中语法错误开始的位置,i表示第二样本语句中语法错误除了开始的位置以外的位置。以第二样本语句d为“他花拿着”为例,表2是第二样本语句d中各个词语,与,词语的基于文字序列标注的语法错误标签的映射关系:
73.表2
74.文字他花拿着语法错误标签ob-xb-xi-x
75.其中,x表示x类型的语法错误,在此示例中,x类型的语法错误为语句成分顺序不当的语法错误。在第二样本语句d中,第二个字、第三个字、第三个字的语法错误标签分别为“b-x”、“b-x”、“i-x”,即表明第二样本语句d中的第二个字、第三个字、以及第四个字存在语法错误。
76.s102、使用第一样本数据集对初始语法错误识别模型进行训练,得到训练好的初始语法错误识别模型。
77.其中,该初始语法错误识别模型用于基于输入的待识别语句,输出待识别语句包括的词语的词性、待识别语句的依存句法分析结果、待识别语句的语法错误。
78.示例性的,该初始语法错误识别模型例如可以是任何一种深度学习语言模型,例如双向转换编码表示模型(bidirectional encoder representations from transformers,bert)、语言模型嵌入模型(embeddings from language models,elmo)、或者生成式预训练(generative pre-training,gpt)模型等。
79.示例性的,在使用第一样本数据集对初始语法错误识别模型进行训练时,电子设备可以将第一样本语句,以及,第一样本语句包括的词语的词性(即第一样本语句包括的词语的真实词性)、依存句法分析结果(即第一样本语句真实的依存句法分析结果)和语法错误(即第一样本语句真实的语法错误),输入初始语法错误识别模型。然后,通过初始语法错误识别模型,电子设备可以输出对第一样本语句包括的词语的词性的预测结果。然后将第一样本语句包括的词语的词性的预测结果,与,第一样本语句包括的词语的真实词性输入到词性损失函数中。通过初始语法错误识别模型,电子设备还可以输出对第一样本语句的依存句法分析的预测结果。然后将第一样本语句的依存句法分析的预测结果,与,第一样本语句真实的依存句法分析结果输入到依存句法分析损失函数中。通过初始语法错误识别模型,电子设备还可以输出对第一样本语句的语法错误的预测结果。然后将第一样本语句的语法错误的预测结果,与,第一样本语句真实的语法错误输入到语法错误损失函数中。
80.可选的,上述词性损失函数、依存句法分析损失函数、语法错误损失函数可以是现有的任何一种损失函数。例如,交叉熵损失函数(cross-entropy loss function)、对数损失函数、指数损失函数、均方误差损失函数、感知损失函数(perceptron loss function)等。应当理解的是,上述词性损失函数、依存句法分析损失函数、语法错误损失函数可以是
同一种损失函数,也可以是不同种类的损失函数。
81.可选的,若词性损失函数的值小于第一预设值且依存句法分析损失函数的值小于第二预设值,以及,语法错误损失函数的值小于第三预设值,说明初始语法错误识别模型输出的第一样本语句包括的词语的词性的预测结果与第一样本语句包括的词语的真实词性的误差、第一样本语句的依存句法分析的预测结果与第一样本语句真实的依存句法分析结果的误差、第一样本语句的语法错误的预测结果与第一样本语句真实的语法错误的误差均在误差允许范围内,即电子设备可以确定初始语法错误识别模型训练完成,得到训练好的初始语法错误识别模型。
82.应理解,上述第一预设值、第二预设值,以及第三预设值可以是大小相同的三个值。或者,该三个预设值也可以是不同的大小的值。具体的,上述三个预设值的取值,可以是用户输入的,或者是预先存储在电子设备中的。
83.可选的,若词性损失函数、依存句法分析损失函数,以及,语法错误损失函数的值有任何一项大于或等于上述各损失函数对应的预设值,电子设备可以确定初始语法错误识别模型训练未完成,则电子设备继续对初始语法错误识别模型进行训练。或者,在电子设备确定初始语法错误识别模型训练未完成之后,电子设备还可以判断是否达到最大训练次数,若对初始语法错误识别模型训练达到最大次数,则停止训练,即将此时的初始语法错误识别模型作为训练好的初始语法错误识别模型。若未达到最大训练次数,可电子设备可以继续对初始语法错误识别模型进行训练。
84.应当理解的是,本发明对电子设备如何使用第一样本数据集对初始语法错误识别模型进行训练不进行限定。上述对初始语法错误识别模型进行训练的方法仅是本发明提出的可能的实现方式。具体实现时,电子设备还可以使用第一样本数据集,采用其他的方式,对初始语法错误识别模型进行训练。
85.进一步的,以bert模型为例,还可以在bert模型之后加上全连接层构成初始语法错误识别模型,以对待识别语句的语法错误进行分类,以使初始语法错误识别模型不仅可以识别待识别语句中是否存在语法错误,还可以获取待识别语句中存在的语法错误的错误类型。
86.s103、使用第二样本数据集对目标语法错误识别模型进行训练,得到训练好的目标语法错误识别模型。
87.其中,该目标语法错误识别模型包括步骤s102中训练好的初始语法错误识别模型。该目标语法错误识别模型用于基于输入的待识别语句,识别待识别语句基于文字序列标注的语法错误,即可以识别语句语法错误的位置。
88.示例性的,该目标语法错误识别模型例如可以是双向转换编码表示-条件随机场模型(bidirectional encoder representations from transformers-conditional random field,bert-crf)、语言模型嵌入-条件随机场模型-elmo-crf模型、或者长短时记忆-条件随机场模型lstm-crf模型、或者隐式马尔科夫模型(hidden markov model,hmm)等。
89.示例性的,在使用第二样本数据集对目标语法错误识别模型进行训练时,电子设备可以将第二样本语句,以及,第二样本语句基于文字序列标注的语法错误(即第二样本语句真实的基于文字序列标注的语法错误)。然后,通过目标语法错误识别模型,电子设备可
以输出对第二样本语句基于文字序列标注的语法错误的预测结果。然后将第二样本语句基于文字序列标注的语法错误的预测结果,与,第二样本语句真实的基于文字序列标注的语法错误输入到基于文字序列标注的语法错误的损失函数中。
90.应理解,本发明对基于文字序列标注的语法错误的损失函数的类型不进行限定。示例性的,该损失函数例如可以是前述步骤s102中所说的任意一种损失函数。本发明对电子设备如何确定目标语法错误识别模型是否训练完成不进行限定。示例性的,可以参照步骤s102中所说的任意一种方法来确定目标语法错误识别模型是否训练完成,在此不再赘述。
91.在本实施例中,通过使用第一样本语句包括的词语的词性、第一样本语句的依存句法分析结果,以及,语法错误这三项作为初始语法错误识别模型的训练目标,然后获取训练好的初始语法错误识别模型。而上述语法错误可以是多种类型的语法错误,即使用上述初始语法错误识别模型进行语法错误识别时,能够识别出多种类型的语法错误,因此提高了语法错误识别的效率。进一步的,使用上述训练好的初始语法错误识别模型进行语法错误识别之前,不需要对待识别语句进行词性标注、依存句法分析,因此进一步提高了语法错误识别的效率。此外,基于上述训练好的初始语法错误识别模型构建能够识别待识别语句中语法错误位置的目标语法错误识别模型,即通过本发明提供的方法,不仅实现了语法错误识别,还能够获取待识别语句中的语法错误位置。
92.作为一种可能的实现方式,针对上述步骤s101中所说的获取第一样本数据集。图2为本发明提供的一种获取第一样本数据集方法的流程示意图。如图2所示,该方法包括以下步骤:
93.s1011、从数据源中获取初始样本语句集,初始样本语句集包括多个初始样本语句。
94.示例性的,该数据源例如可以是百科网站、新闻网站、报社网站等语句中存在语法错误概率较小的网站上的数据。可选的,该数据源可以包括文本、图片、语音、视频等至少一种形式。示例性的,电子设备可以直接将数据源中的文本数据作为初始样本语句。若该数据源包括图片或语音或视频,那么电子设备在获取数据源之后,可以通过文本识别算法获取图片或语音或视频中的文本数据,然后将获取到的文本数据作为初始样本语句。
95.s1012、对初始样本语句集进行数据清洗,得到清洗后的初始样本语句集。
96.电子设备在获取初始样本语句集之后,可以对初始样本语句集进行数据清洗,以使初始样本语句集中的初始样本语句更加规范,进而有利于之后对初始语法错误识别模型的训练。
97.可选的,上述数据清洗例如可以是删除初始样本语句集中不规则的语句。该不规则的语句例如可以是包含特殊字符较多的初始样本语句,和/或,字数较多(和/或较少)的初始样本语句等。应当理解的是,本发明对如何对初始样本语句集进行数据清洗不进行限定。
98.s1013、获取各初始样本语句包括的词语的词性、各初始样本语句的依存句法分析结果。
99.可选的,电子设备在获取清洗后的初始样本语句集之后,可以通过对清洗后的初始样本语句集中的初始样本语句包括的词语进行词性标注,获取初始样本语句包括的词语
的词性。示例性的,电子设备例如可以通过序列标注的方法对初始样本语句包括的词语的进行词性标注。
100.具体的,在使用序列标注的方法对初始样本语句包括的词语的进行词性标注时,首先可以采用按文字进行嵌入的方式,标注初始样本语句的各个词语。对于单个文字的词语,该文字使用“b”表示。对于多文字的词语,例如可以采用“bi”的标注方式,对多文字词语进行标注。其中,“bi”中的b表示一个词语的第一个文字。一个词语中除第一个文字用b表示以外,其他所有的文字用i表示。然后,电子设备可以使用任何一种现有的标签生成工具(例如pyltp标签生成工具)生成初始样本语句包括的词语的词性。
101.示例性的,以初始样本语句c“我爱天津世纪钟”为例,表3为通过上述方法,对初始样本语句c中的词语进行词性标注的结果。应理解,在本示例中,初始样本语句c为不存在语法错误的语句。具体实现时,本发明对初始样本语句是否存在语法错误不进行限定。
102.表3
[0103][0104][0105]
其中,“我”对应的词性标签“b-r”,表示“我”为代词。“爱”对应的词性标签“b-v”,表示“爱”为动词。“天”、“津”分别对应词性标签“b-n”和“i-n”,“b-n”和“i-n”可以表示“天津”为名词。“世”、“纪”、“钟”分别对应词性标签“b-n”、“i-n”和“i-n”,“b-n”、“i-n”和“i-n”可以表示“世纪钟”为名词。
[0106]
应当理解的是,上述英文字母b、i、r、v、n等仅是为了方便描述本发明提供的可能的实现方式。具体实现时,本发明对初始样本语句包括的词语的词性标签的形式不进行限定。
[0107]
可选的,电子设备还可以在获取多个初始样本语句,以及,初始样本语句包括的词语的词性之后,通过对初始样本语句进行依存句法分析,获取初始样本语句的依存句法分析结果。
[0108]
示例性的,电子设备例如可以通过基于图的依存句法分析方法、基于转移的依存句法分析方法、或者pyltp工具等对初始样本语句中的词语之间的依存关系进行分析,从而获取初始样本语句的依存句法分析结果。
[0109]
电子设备在获取初始样本语句的依存句法分析结果之后,示例性的,电子设备例如可以将初始样本语句包括的词语以句法树的形式表示,然后用有向弧表示词语之间的修饰关系,以及,指向关系(即依存关系),即以句法树的形式表示初始样本语句的依存句法分析结果。
[0110]
或者,电子设备还可以以矩阵的形式来表示初始样本语句的依存句法分析结果,以使依存句法分析结果能够直接输入初始语法错误识别模型,进而能够使得依存句法分析作为初始语法错误识别模型的训练目标之一。具体的,假设初始样本语句中包括n个文字,则电子设备可以通过一个n
×
n的依存句法分析矩阵表示初始样本语句的依存句法分析结果。该依存句法分析矩阵的行和列均表示初始样本语句中的文字。
[0111]
示例性的,假设初始样本语句的第i个词语(假设第i个词语有1个文字,该文字在初始样本语句中是第i

个文字)与第j个词语(假设第j个词语有3个文字,上述三个文字在
初始样本语句中分别为第j
′1、j
′2、j
′3个文字)的依存关系为动宾关系(verb-object,vob),那么上述依存句法分析矩阵中第i

行的第j
′1、j
′2、j
′3列,以及,第i

列的第j
′1、j
′2、j
′3行的取值均为表示vob的值。
[0112]
示例性的,仍然以上述初始样本语句c“我爱天津世纪钟”为例,图3为本发明提供的一种语句的依存句法分析结果示意图。如图3所示,电子设备可以将初始样本语句c的依存句法分析结果用一个7
×
7依存句法分析矩阵表示。在初始样本语句c中,“我”和“爱”是主谓关系(subject-verb,sbv),“爱”和“世纪钟”是动宾关系(vob),“天津”和“世纪钟”是定中关系(attribute,att),“爱”是初始样本语句c的主干词(he,head)。根据上述词语之间的依存关系,可以得到如图3所示的初始样本语句c的依存句法分析矩阵。其中,sbv、vob、att、he均为依存句法分析矩阵中词语的标签。
[0113]
示例性的,对于没有依存关系的两个词语,上述依存句法分析矩阵中该两个词语对应的位置可以使用预设值进行填充。该预设值例如可以是如图3中所示的0等数值。其中,依存句法分析矩阵中主对角线上的取值除初始样本语句中的主干词之外的位置,也可以使用预设值进行填充。依存句法分析矩阵中主干词对应的主对角线上的位置可以用不同于上述预设值的数值填充。
[0114]
通过使用上述方法构建的依存句法分析矩阵来表示依存句法分析结果,相比于以句法树的形式表示依存句法分析结果,取消了修饰词(例如初始样本语句c中的“天津”)和被修饰词(例如初始样本语句c中的“世纪钟”)之间的指向关系,因此简化了语句中的依存关系。且上述依存句法分析矩阵为对称矩阵,相对于非对称矩阵(修饰词和被修饰词之间存在指向关系)而言,减少了依存句法分析矩阵的标签的维度,因此降低了训练难度,进而增强了初始语法错误识别模型训练过程的准确性。
[0115]
s1014、将各初始样本语句修改为存在语法错误的第一样本语句,并获取各第一样本语句的语法错误。
[0116]
可选的,电子设备可以在获取多个初始样本语句、初始样本语句包括的词语的词性,以及,初始样本语句的依存句法分析结果之后,根据初始样本语句包括的词语的词性和初始样本语句的依存句法分析结果,将各初始样本语句修改为存在语法错误的第一样本语句。
[0117]
下述通过四种语法错误类型举例来说明电子设备如何将各初始样本语句修改为存在语法错误的第一样本语句:
[0118]
1、语句成分冗余。示例性的,电子设备将初始样本语句修改为存在语句成分冗余该类型语法错误的第一样本语句时,可以在初始样本语句的词语之间随机的插入新的词语。该新的词语例如可以是电子设备从至少一种数据平台上随机抽取的,或者,该新的词语例如还可以从预先存储在电子设备中的停用词表中获取。仍然以上述初始样本语句c为例,若将初始样本语句c修改为存在语句成分冗余该类型语法错误的第一样本语句,得到的例如可以是“我你爱天津世纪钟”、或者“我爱上海天津世纪钟”等存在语句成分冗余语法错误的第一样本语句。
[0119]
2、语句成分缺失。示例性的,电子设备将初始样本语句修改为存在语句成分缺失该类型的语法错误的第一样本语句时,可以删除初始样本语句中的至少一个成分。例如,可以将存在主谓关系的两个词语中的其中一个词语删除(例如删除“我爱”中的“我”或者“爱”)、或者将存在动宾关系的两个词语中的其中一个词语删除(例如删除“看电视”中的“看”或者“电视”)、或者将存在状中关系的两个词语中的中位语删除(例如删除“热烈欢迎”中的“欢迎”)、或者将存在定中关系的两个词语中的中位语删除(例如删除“鲜艳的花朵”中的“花朵”)等。
[0120]
3、语句成分顺序不当。示例性的,电子设备将初始样本语句修改为存在语句成分语序不当该类型的语法错误的第一样本语句时,可以修改初始样本语句成分的顺序。例如,以上述初始样本语句c为例,若修改初始样本语句c中的动宾关系、或者定中关系等中的词语顺序,得到的例如可以是“我天津世纪钟爱”、“我爱世纪钟天津”等存在语法错误的第一样本语句。
[0121]
4、语句用词不当。示例性的,电子设备将初始样本语句修改为存在语句用词不当该类型的语法错误的第一样本语句时,可以替换掉初始样本语句中的词语。例如,电子设备可以从初始样本语句中随机抽取一个字(或者一个词语),然后从该选取到的字的音近字(或者形近字)集合中随机抽取一个新的字对初始样本语句中原有的字进行替换。以上述初始样本语句c为例,电子设备可以从该初始样本语句c中随机抽取一个字,假设抽取到的字是“钟”。“钟”的音近字集合中可以包括“中”、“终”、“种”、“众”等,假设抽取到“中”来替换初始样本语句c中的“钟”,得到的可以是“我爱天津世纪中”存在语法错误的第一样本语句。
[0122]
应当理解的是,本发明对电子设备根据初始样本语句包括的词语的词性和初始样本语句的依存句法分析结果,构建哪些类型,以及,多少种类型的存在语法错误的第一样本语句不进行限定。上述四种类型的语法错误仅是示例性的说明本发明提出的可能的实现方式。具体实现时,电子设备可以获取其他任何一种或多种的语法错误类型。
[0123]
然后,电子设备可以使用任何一种现有的语法错误标注方式对第一样本语句的语法错误进行标注。例如电子设备可以通过自然语言处理-教育应用技术(natural language processing-techniques for educational applications,nlp-tea)等对第一样本语句的语法错误进行标注。
[0124]
s1015、基于各初始样本语句包括的词语的词性、各初始样本语句的依存句法分析结果、各第一样本语句,以及,各第一样本语句的语法错误,构建第一样本数据集。
[0125]
电子设备在获取初始样本语句包括的词语的词性、各初始样本语句的依存句法分析结果之后,可以根据初始样本语句包括的词语的词性和初始样本语句的依存句法分析结果,将各初始样本语句修改为存在语法错误的第一样本语句。电子设备在获取第一样本语句,以及,各第一样本语句的语法错误之后,使用第一样本语句、第一样本语句包括的词语的词性、第一样本语句的依存句法分析结果,以及,语法错误构建成第一样本数据集,以使之后在训练初始语法错误识别模型时,使得初始语法错误识别模型以词语的词性、依存句法分析结果、语法错误三项作为训练目标。
[0126]
在本实施例中,通过对初始样本语句集进行数据清洗,使得初始样本语句集更加规范,减少第一样本数据集因为自身语句不规范对后续初始语法错误识别模型训练的干扰,提高了模型训练的准确度,进而能够提高训练好的模型在的识别语法错误时的准确度。通过将初始样本语句修改为存在语法错误的第一样本语句,增加了用于训练初始语法错误识别模型的数据量,进一步提高了模型训练的准确度,进而能够进一步提高训练好的模型在的识别语法错误时的准确度。
[0127]
进一步的,在电子设备将初始样本语句修改为存在语法错误的第一样本语句时,还可以基于预设的约束条件,将各初始样本语句修改为含有至少一种语法错误的第一样本语句。具体的,该预设的约束条件可以包括下述至少一项:
[0128]
1、不修改初始样本语句中的命名实体。可选的,电子设备在获取初始样本语句之后,还可以获取各初始样本语句的命名实体。该命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还可以包括数字、日期、货币、地址等实体。电子设备在修改初始样本语句时,不对初始样本语句中的命名实体进行修改,以避免修改后的第一样本语句完全失去原有的意义。示例性的,对于初始样本语句e“我在上海工作”,在修改该初始样本语句e时,不修改其中的命名实体“上海”。
[0129]
2、第一样本语句中的语法错误数量小于或等于第一预设阈值。可选的,电子设备在将初始样本语句修改为存在语法错误的第一样本语句时,可以对单个第一样本语句中存在的语法错误的数量进行控制,以使第一样本语句中的语法错误数量小于或等于第一预设阈值,以避免一个语句中语法错误过多而导致初始样本语句的歧义较大。具体的,该第一预设阈值的取值可以是预先存储在电子设备中的,或者,该第一预设阈值的取值可以根据第一样本语句的长度确定。示例性的,对于初始样本语句e“我在上海工作”,在修改该初始样本语句e时,其中的语法错误不能超过两个。
[0130]
3、不修改初始样本语句中的依存关系的距离大于或等于第二预设阈值的词语,以避免破坏语句的整体架构。可选的,该第二预设阈值的取值可以是预先存储在电子设备中的,或者,该第二预设阈值的取值可以根据第一样本语句的长度确定。可选的,上述第二预设阈值的大小例如可以是1、2等数值。示例性的,对于初始样本语句e“我在上海工作”,若上述第二预设阈值的取值为1,电子设备不对“我”和“工作”的依存关系进行修改。
[0131]
4、每种语法错误在第一样本数据集中的数量小于或等于第三预设阈值,以使第一样本语句的语法错误的分布更贴近实际语句中的语法错误分布,进而能够提高之后的语法错误识别模型的实用性。示例性的,具体实现时,电子设备例如可以从初始样本语句中随机抽取一定数量的语句,然后将抽取到的语句修改成存在至少一种类型的语法错误的第一样本语句。然后再将剩下的初始样本语句修改成存在其他类型的语法错误的第一样本语句。
[0132]
在本实施例中,通过上述预设的约束条件对初始样本语句进行修改,使得第一样本语句中的语法错误的分布更贴近实际语句中的语法错误分布,进而能够提高之后的语法错误识别模型的实用性。且,通过上述预设的约束条件,能够减少第一样本语句与初始样本语句之间的差异,提高第一样本语句中的语法错误的真实性。
[0133]
作为一种可能的实现方式,对初始样本语句集进行数据清洗的方法还可以包括下述方法中的至少一项:
[0134]
1、删除初始样本语句集中语句长度大于第四预设阈值,或者,小于第五预设阈值的初始样本语句。其中,语句长度指的是一句话的总字数。导致语句过长的原因可能是语句之间的句号被遗漏,或者,语句结构本身较为复杂等。导致语句过短的原因可能是本应是一句话的语句之中,误加入了句号,或者语句结构本身较为简单等。因此,删除语句长度大于第四预设阈值的语句,或者,语句长度小于第五预设阈值的语句,能够减少数据源本身出现的错误,以及,使得数据源中的语句结构复杂程度更加统一,有利于后续对初始语法错误识别模型的训练。
[0135]
示例性的,电子设备在获取初始样本语句集之后,可以对初始样本语句集中所有的语句的长度进行统计。然后将最大长度乘以第一预设系数,作为第四预设阈值的取值;将最大长度乘以第二预设系数,作为第五预设阈值的取值。或者,电子设备可以将最大长度乘以第一预设系数,作为第四预设阈值的取值;将最小长度乘以第二预设系数,作为第五预设阈值的取值。再或者,该第四预设阈值和第五预设阈值还可以是根据人工经验确定的。
[0136]
应当理解的是,本发明对电子设备如何确定第四预设阈值和第五预设阈值的取值不进行限定。上述确定第四预设阈值和第五预设阈值的方法仅是本发明提出的可能的实现方式。具体实现时,还可以通过其他方式确定第四预设阈值和第五预设阈值的取值。
[0137]
2、删除初始样本语句集中特殊字符的数目大于或等于第六预设阈值的初始样本语句。示例性的,以汉语为例,语句中的特殊字符可以是指相对于常用的标点符号而言,使用频率较少的字符。其中,常用的标点符号有如表4中所示的16种标点符号:
[0138]
表4
[0139][0140][0141]
或者,特殊字符还可以是指注音符号、数学符号、拼音符号、图文符号、特殊文字等类型的字符。具体的,特殊字符的类型还可以根据用户的需求决定。
[0142]
可选的,上述第六预设阈值的取值可以参考前述第四预设阈值和第五预设阈值取
值的获取方法,在此不做赘述。
[0143]
3、将初始样本语句集中初始样本语句中的特殊字符删除。可选的,对于初始样本语句集中特殊字符的数目小于第六预设阈值的初始样本语句,可以将初始样本语句集中初始样本语句中的特殊字符删除,以使初始样本语句更加规范。
[0144]
4、将初始样本语句集中初始样本语句中除第一类型的字体之外的字体修改为第一类型的字体。可选的,以初始样本语句包括简体中文和繁体中文为例,假设简体中文为第一类型的字体,繁体中文为除第一类型的字体之外的字体,则电子设备可以将上述繁体中文修改为简体中文,以增加初始样本语句的一致性。
[0145]
5、将初始样本语句集中初始样本语句中除第二类型的符号之外的符号修改为第二类型的符号。可选的,以初始样本语句包括半角字符和全角字符为例,假设半角字符为第二类型的符号,全角字符除第二类型的符号之外的符号,则电子设备可以将上述全角字符修改为半角字符,以增加初始样本语句的一致性。
[0146]
在本实施中,通过上述方法对初始样本语句集进行数据清洗,可以使得初始样本语句更加规范,以及,增加初始样本语句的一致性。进而能够提高第一样本语句的规范程度和一致性,进而达到提高训练初始语法错误识别模型准确度的效果。
[0147]
图4为本发明提供的一种语法错误识别方法的流程示意图。如图4所示,该方法包括以下步骤:
[0148]
s201、接收待识别的语句。
[0149]
示例性的,电子设备可以通过应用程序接口(application program interface,api)或者图形用户界面(graphical user interface,gui)接收待识别的语句。
[0150]
s202、将语句输入至训练好的目标语法错误识别模型,得到语句基于文字序列标注的语法错误。
[0151]
可选的,电子设备在接收待识别的语句之后,可以将待识别的语句输入到采用前述任一项的方法训练得到的目标语法错误识别模型中。然后该训练好的目标语法错误识别模型可以对待识别的语句进行词性标注、依存句法分析,以及,语法错误识别。上述语法错误识别不仅包括待识别语句是否存在语法错误,还可以包括待识别的语句中的语法错误类型,以及,语法错误发生的位置。
[0152]
s203、输出语句基于文字序列标注的语法错误。
[0153]
若电子设备确定待识别的语句中存在语法错误,则电子设备可以输出例如“语句存在语法错误”的提示。或者,电子设备还可以输出待识别语句的语法错误类型,以及,错误发生的位置,例如“语句中存在语法错误,错误类型为z,错位位置为第m个字至第k个字”。其中,z代表任何一种类型的语法错误,m和k为正整数。可选的,电子设备可以通过api或者gui输出上述基于文字序列标注的语法错误。
[0154]
示例性的,假设待识别的语句f为“他拿着书一本”,将该待识别语句f输入到训练好的目标语法错误识别模型,电子设备可以输出“语句f存在语法错误,错误类型为语句成分顺序不当,错误位置为第四个字到第六个字”。
[0155]
可选的,若待识别的语句没有语法错误,则电子设备可以输出待识别的语句不存在语法错误的提示。
[0156]
在本实施例中,通过使用以语句的词性、依存句法分析结果、语法错误,以及语法
错误位置为训练目标的目标语法错误识别模型,可以识别不同种类的语法错误,提高了语法错误识别的效率。进一步的,使用上述目标语法错误识别模型对待识别的语句进行识别之前,不需要对待识别的语句进行词性标注、依存句法分析,因此进一步提高了语法错误识别的效率。
[0157]
应理解,该方法的执行主体与前述语法错误识别模型的训练方法的执行主体可以是同一个电子设备。或者,该方法的执行主体与前述语法错误识别模型的训练方法的执行主体也可以是不同的电子设备。示例性的,前述语法错误识别模型的训练方法例如可以由服务器执行,在获取训练好的目标语法错误识别模型之后,该语法错误识别方法可以由用户侧的终端设备(终端设备可以获取训练好的目标语法错误识别模型)执行。
[0158]
示例性的,以上述初始语法错误识别模型为bert模型、上述目标语法错误识别模型为bert-crf模型为例,图5为本发明提供的另一种语法错误识别方法的流程示意图。
[0159]
如图5所示,电子设备可以通过前述实施例提供的方法,构建用于训练初始语法错误识别模型的第一样本数据集,以及,用于训练目标语法错误识别模型的第二样本数据集。
[0160]
然后使用构建好的第一样本数据集,以第一样本数据集中第一样本语句包括的词语的词性、第一样本语句的依存句法分析结果,以及,语法错误为训练目标,训练bert模型。电子设备获取训练好的bert模型,该训练好的bert模型可以根据输入的语句,输出语句对应的词语的词性、依存句法分析结果,以及,语法错误。
[0161]
然后电子设备可以使用构建好的第二样本数据集,以第二样本数据集中第二样本语句基于文字序列标注的语法错误为训练目标,训练bert-crf模型。其中,该bert-crf模型是基于上述训练好的bert模型建立的。电子设备获取训练好的bert-crf模型。
[0162]
获取训练好的bert-crf模型之后,电子设备可以将接收到的待识别的语句,输入到训练好的bert-crf模型中,以获取待识别语句的语法错误类型,以及,语法错误发生的位置。
[0163]
图6为本发明提供的一种语法错误识别模型的训练装置的结构示意图。如图6所示,该装置包括:
[0164]
获取模块301,用于获取第一样本数据集和第二样本数据集;其中,所述第一样本数据集包括:至少一组第一样本数据,每组所述第一样本数据包括:第一样本语句、所述第一样本语句包括的词语的词性、所述第一样本语句的依存句法分析结果和语法错误;所述第二样本数据集包括:至少一组第二样本数据,所述第二样本数据包括:第二样本语句,以及,所述第二样本语句基于文字序列标注的语法错误。
[0165]
第一训练模块302,用于使用所述第一样本数据集对初始语法错误识别模型进行训练,得到训练好的初始语法错误识别模型;其中,所述初始语法错误识别模型用于基于输入的待识别语句,输出待识别语句包括的词语的词性、待识别语句的依存句法分析结果、待识别语句的语法错误。
[0166]
第二训练模块303,用于使用所述第二样本数据集对目标语法错误识别模型进行训练,得到训练好的目标语法错误识别模型;其中,所述目标语法错误识别模型包括训练好的初始语法错误识别模型;所述目标语法错误识别模型用于基于输入的待识别语句,识别待识别语句基于文字序列标注的语法错误。
[0167]
可选的,获取模块301具体用于从数据源中获取初始样本语句集;对所述初始样本
语句集进行数据清洗,得到清洗后的初始样本语句集;获取各所述初始样本语句包括的词语的词性、各所述初始样本语句的依存句法分析结果;将各所述初始样本语句修改为存在语法错误的所述第一样本语句,并获取各所述第一样本语句的语法错误;基于所述各所述初始样本语句包括的词语的词性、各所述初始样本语句的依存句法分析结果、各所述第一样本语句,以及,各所述第一样本语句的语法错误,构建所述第一样本数据集;其中,所述初始样本语句集包括多个初始样本语句。
[0168]
可选的,获取模块301还用于获取各所述初始样本语句的命名实体;则在该实现方式下,获取模块301可以基于预设的约束条件,将各所述初始样本语句修改为含有至少一种语法错误的所述第一样本语句;所述预设的约束条件包括下述至少一项:不修改所述初始样本语句中的命名实体;所述第一样本语句中的语法错误数量小于或等于第一预设阈值;不修改所述初始样本语句中的依存关系的距离大于或等于的第二预设阈值的词语;每种所述语法错误在所述第一样本数据集中的数量小于或等于第三预设阈值。
[0169]
可选的,获取模块301具体用于删除所述初始样本语句集中语句长度大于第四预设阈值,或者,小于第五预设阈值的初始样本语句;和/或,删除所述初始样本语句集中特殊字符的数目大于或等于第六预设阈值的初始样本语句;和/或,将所述初始样本语句集中初始样本语句中的特殊字符删除;和/或,将所述初始样本语句集中初始样本语句中除第一类型的字体之外的字体修改为第一类型的字体;和/或,将所述初始样本语句集中初始样本语句中除第二类型的符号之外的符号修改为第二类型的符号。
[0170]
本发明提供的语法错误识别模型的训练装置,用于执行前述语法错误识别模型的训练方法实施例,其实现原理与技术效果类似,对此不再赘述。
[0171]
图7为本发明提供的一种语法错误识别装置的结构示意图。如图7所示,该装置包括:
[0172]
接收模块401,用于接收待识别的语句;
[0173]
获取模块402,用于将所述语句输入至训练好的目标语法错误识别模型,得到所述语句基于文字序列标注的语法错误;其中,所述目标语法错误识别模型为采用如前述任一项所述的方法训练得到的语法错误识别模型;
[0174]
输出模块403,用于输出所述语句基于文字序列标注的语法错误。
[0175]
本发明提供的语法错误识别装置,用于执行前述语法错误识别方法实施例,其实现原理与技术效果类似,对此不再赘述。
[0176]
图8为本发明提供的一种电子设备结构示意图。如图8所示,该电子设备500可以包括:至少一个处理器501和存储器502。
[0177]
存储器502,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
[0178]
存储器502可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0179]
处理器501用于执行存储器502存储的计算机执行指令,以实现前述方法实施例所描述的语法错误识别模型的训练方法或语法错误识别方法。其中,处理器501可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本发明实施例的一个
或多个集成电路。
[0180]
可选的,该电子设备500还可以包括通信接口503。在具体实现上,如果通信接口503、存储器502和处理器501独立实现,则通信接口503、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
[0181]
可选的,在具体实现上,如果通信接口503、存储器502和处理器501集成在一块芯片上实现,则通信接口503、存储器502和处理器501可以通过内部接口完成通信。
[0182]
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述实施例中的方法。
[0183]
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的语法错误识别模型的训练方法或语法错误识别方法。
[0184]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1