本发明是关于汽车故障智能诊断,特别是关于一种基于双模型故障诊断信息智能提取方法及装置。
背景技术:
1、诊断数据作为记录车辆实际行驶过程中发生过的故障诊断、维修、保养信息载体,其中包含了大量不同故障现象情形以及所对应的故障原因信息。通过对大量诊断数据进行信息提取、故障原理分析是实现故障诊断智能化推荐的一种有效途径,然而,现有诊断信息提取方法不精准、效率低,且无法保证信息提取过程中的质量一致性。
2、公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
1、本发明的目的在于提供一种基于双模型故障诊断信息智能提取方法及装置,其不仅能够在庞杂的诊断数据中,精准、高效的提取有效诊断信息,还能保证信息提取过程中质量一致性。
2、为实现上述目的,第一方面,本发明提供了一种基于双模型故障诊断信息智能提取方法,包括:
3、基于历史诊断数据库,对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗,生成诊断数据;
4、对所述诊断数据进行标记,筛选出非dtc类诊断数据;
5、基于所述非dtc类诊断数据,对所述非dtc类诊断数据进行抽样,生成样本诊断数据;
6、对所述样本诊断数据进行提取,生成基准诊断数据;
7、基于所述基准诊断数据,生成训练模型学习语料;
8、基于所述训练模型学习语料,训练生成第一训练模型;
9、基于所述训练模型学习预料,训练生成第二训练模型;
10、基于所述样本诊断数据,分别通过所述第一训练模型和所述第二训练模型提取所述样本诊断数据中的有效诊断信息。
11、在本发明的一实施方式中,所述基于历史诊断数据库,对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗,生成诊断数据包括:
12、基于所述历史诊断数据库,提取所述历史诊断数据库中的诊断数据;
13、对所述诊断数据中的故障原因件名称进行标准化处理;
14、对所述诊断数据中的故障现象描述内容进行识别,并清洗预设标签类型数据,生成所述诊断数据。
15、在本发明的一实施方式中,所述对所述诊断数据进行标记,筛选出非dtc类诊断数据包括:
16、根据预设dtc类诊断数据识别规则,对所述诊断数据进行标记,生成dtc类诊断数据;
17、去除所述诊断数据中的所述dtc类诊断数据,筛选出所述非dtc类诊断数据。
18、在本发明的一实施方式中,所述基于所述非dtc类诊断数据,对所述非dtc类诊断数据进行抽样,生成样本诊断数据包括:
19、基于所述非dtc类诊断数据,通过预设抽样规则对所述非dtc类诊断数据进行抽样,生成所述样本诊断数据。
20、在本发明的一实施方式中,所述对所述样本诊断数据进行提取,生成基准诊断数据包括:
21、对所述样本诊断数据中的用于描述故障现象、故障原因的关键词信息进行提取,得到故障现象关键词和故障原因关键词;
22、根据所述故障现象关键词和所述故障原因关键词,分别创建对应跨车型通用的通用现象词和通用原因词;
23、基于所述样本诊断数据、所述故障现象关键词、所述故障原因关键词、所述通用现象词和所述通用原因词,生成所述基准诊断数据。
24、在本发明的一实施方式中,所述基于所述训练模型学习语料,训练生成第一训练模型包括:
25、安装调用信息抽取模型,将所述训练模型学习预料转换为所述信息抽取模型所需要的数据格式的第一数据集,并将所述第一数据集按照预设比例拆分为第一训练数据集和第一验证数据集;
26、载入第一预训练模块,并加载所述第一训练数据集进行模型训练,生成第一微调后的模型;
27、加载所述第一微调后的模型进行结果预测,生成第一训练模型。
28、在本发明的一实施方式中,所述基于所述训练模型学习预料,训练生成第二训练模型包括:
29、安装调用知识增强模型,将所述训练模型学习预料转换为所述知识增强模型所需要的数据格式的第二数据集,并将所述第二数据集按照预设比例拆分为第二训练数据集和第二验证数据集;
30、载入第二预训练模块,并加载所述第二训练数据集进行模型训练,生成第二微调后的模型;
31、加载所述第二微调后的模型进行结果预测,生成第二训练模型。
32、第二方面,本发明提供了一种基于双模型故障诊断信息智能提取装置,包括:第一生成模块、第二生成模块、第三生成模块、第四生成模块、第五生成模块、第一训练模块、第二训练模块、第六生成模块以及第七生成模块。第一生成模块用于基于历史诊断数据库,对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗,生成诊断数据;第二生成模块用于对所述诊断数据进行标记,筛选出非dtc类诊断数据;第三生成模块用于基于所述非dtc类诊断数据,对所述非dtc类诊断数据进行抽样,生成样本诊断数据;第四生成模块用于对所述样本诊断数据进行提取,生成基准诊断数据;第五生成模块用于基于所述基准诊断数据,生成训练模型学习语料;第一训练模块用于基于所述训练模型学习语料,训练生成第一训练模型;第二训练模块用于基于所述训练模型学习预料,训练生成第二训练模型;第六生成模块用于将所述样本诊断数据输入至所述第一训练模型,生成第一有效诊断信息;以及第七生成模块用于将所述第一有效诊断信息输入至所述第二训练模型,生成第二有效诊断信息。
33、在本发明的一实施方式中,所述第一生成模块包括:第一提取单元、处理单元以及第一生成单元。第一提取单元用于基于所述历史诊断数据库,提取所述历史诊断数据库中的诊断数据;处理单元用于对所述诊断数据中的故障原因件名称进行标准化处理;以及第一生成单元用于对所述诊断数据中的故障现象描述内容进行识别,并清洗预设标签类型数据,生成所述诊断数据。
34、在本发明的一实施方式中,所述第二生成模块包括:第二生成单元以及第三生成单元。第二生成单元用于根据预设dtc类诊断数据识别规则,对所述诊断数据进行标记,生成dtc类诊断数据;以及第三生成单元用于去除所述诊断数据中的所述dtc类诊断数据,筛选出所述非dtc类诊断数据。
35、与现有技术相比,根据本发明的基于双模型故障诊断信息智能提取方法及装置,其不仅能够在庞杂的诊断数据中,精准、高效的提取有效诊断信息,还能保证信息提取过程中质量一致性。
1.一种基于双模型故障诊断信息智能提取方法,其特征在于,包括:
2.如权利要求1所述的基于双模型故障诊断信息智能提取方法,其特征在于,所述基于历史诊断数据库,对所述历史诊断数据库中的历史故障诊断数据进行提取、标准化、清洗,生成诊断数据包括:
3.如权利要求1所述的基于双模型故障诊断信息智能提取方法,其特征在于,所述对诊断数据进行标记,筛选出非dtc类诊断数据包括:
4.如权利要求1所述的基于双模型故障诊断信息智能提取方法,其特征在于,所述基于非dtc类诊断数据,对所述非dtc类诊断数据进行抽样,生成样本诊断数据包括:
5.如权利要求1所述的基于双模型故障诊断信息智能提取方法,其特征在于,所述对样本诊断数据进行提取,生成基准诊断数据包括:
6.如权利要求1所述的基于双模型故障诊断信息智能提取方法,其特征在于,所述基于训练模型学习语料,训练生成第一训练模型包括:
7.如权利要求1所述的基于双模型故障诊断信息智能提取方法,其特征在于,所述基于训练模型学习预料,训练生成第二训练模型包括:
8.一种基于双模型故障诊断信息智能提取装置,其特征在于,包括:
9.如权利要求8所述的基于双模型故障诊断信息智能提取装置,其特征在于,所述第一生成模块包括:
10.如权利要求8所述的基于双模型故障诊断信息智能提取装置,其特征在于,所述第二生成模块包括: