基于混合模型的事故车辆识别方法和装置与流程

文档序号:20776263发布日期:2020-05-19 20:47阅读:186来源:国知局
基于混合模型的事故车辆识别方法和装置与流程

本发明涉及车辆评估技术领域,尤其是涉及一种基于混合模型的事故车辆识别方法和装置。



背景技术:

当前财产车辆评估领域中,通过汽车的维保记录和保险记录可评估一辆车是否为事故车,涉及的方法主要有人工识别和机器识别,其中,事故车是指车辆是存在结构性损伤。

现今由于人工识别较为繁琐,成本昂贵。通过机器识别如建立专家规则或专家系统分类等传统方式,存在耗时耗力,精度高召回低的问题,通过机器学习做文本分类则存在精度与召回均无法达到理想要求且事故原因不可获取的问题。



技术实现要素:

本发明的目的在于提供基于混合模型的事故车辆识别方法和装置,通过专家规则与深度学习模型的结合,保证文本分类准确度的同时,提高文本分类识别的全面性,并且能够对事故车辆的事故原因进行分类识别。

第一方面,实施例提供一种基于混合模型的事故车辆识别方法,包括:

将当前车辆的维保记录进行预处理,根据概率上下文无关文法将预处理后的维保记录生成动名词组;

判断所述动名词组与预先设置的故障汽车零部件词组是否匹配;

若匹配成功,则识别出所述当前车辆为事故车,并根据匹配词组得到事故原因;

若匹配失败,将所述预处理后的维保记录输入混合模型中,得到所述当前车辆的事故车概率,并根据所述事故车概率识别所述当前车辆。

在可选的实施方式中,所述预处理后的维保记录包括名词,根据所述事故车概率识别所述当前车辆的步骤,包括:

判断所述事故车概率是否达到预设概率值;

若达到,则所述当前车辆为事故车,并将所述名词与预先设置的故障汽车零部件词组进行匹配,根据匹配词组得到事故原因;

若没有达到,则所述当前车辆为非事故车。

在可选的实施方式中,将当前车辆的维保记录进行预处理的步骤,包括:

将当前车辆的维保记录通过正则表达式进行过滤处理;

将过滤处理后的维保记录通过分词工具进行分词处理并去除停用词。

在可选的实施方式中,将当前车辆的维保记录进行预处理的步骤,还包括:

将去除停用词后的维保记录进行模糊匹配处理,将不重要汽车零件词组去除。

在可选的实施方式中,所述混合模型包括三种文本分类模型textcnn、rnn、transformer,通过训练数据及预训练的词向量使用五折交叉验证方式,对所述文本分类模型textcnn、rnn、transformer进行训练。

在可选的实施方式中,所述训练数据包括按照记录时间随机提取的经预先标注事故情况的维保记录。

在可选的实施方式中,所述预训练的词向量通过word2vec模型将所述预处理后的维保记录进行训练生成。

第二方面,实施例提供一种基于混合模型的事故车辆识别装置,包括:

预处理模块,用于将当前车辆的维保记录进行预处理;

生成模块,用于根据概率上下文无关文法将预处理后的维保记录生成动名词组;

匹配模块,用于判断所述动名词组与预先设置的故障汽车零部件词组是否匹配;若匹配成功,则识别出所述当前车辆为事故车,并根据匹配词组得到事故原因;若匹配失败,将所述预处理后的维保记录输入混合模型中,得到所述当前车辆的事故车概率,并根据所述事故车概率识别所述当前车辆。

第三方面,实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序,所述处理器执行所述程序时实现如前述实施方式中任一项所述的基于混合模型的事故车辆识别方法。

第四方面,实施例提供一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式中任意一项所述的基于混合模型的事故车辆识别方法。

本发明实施例提供的一种基于混合模型的事故车辆识别方法和装置,将预处理后的维保记录通过概率上下文无关文法生成动名词组,根据专家规则将动名词组与预设的故障汽车零部件进行匹配,实现当前汽车的初步识别。若匹配成功,可根据具体匹配到的故障汽车零部件得到事故原因;若匹配失败,根据混合模型训练预处理后的维保记录,识别当前车辆是否属于事故车辆。本发明融合专家规则与混合深度学习模型,若当前车辆属于事故车辆,而专家规则没有判断出来,再利用训练好的混合模型(深度学习模型)进行预测识别,保证文本分类准确度的同时,提高文本分类识别的全面性,进而实现对事故车辆和事故原因的准确识别。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为文本分类发展过程示意图;

图2为本发明实施例提供的一种基于混合模型的事故车辆识别方法流程图;

图3为本发明实施例提供的一种基于混合模型的事故车辆识别装置的功能模块示意图;

图4为本发明实施例提供的电子设备的硬件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

文本分类指对大量的非结构化文本按照给定的分类要求做类别预测的过程。如图1所示,为文本分类的发展过程。

a、相关研究最早可追溯到上世纪50年代,当时主要使用专家规则做分类。

b、到80年代则发展到利用知识工程建立专家系统,这些方法的精确率虽高但查全率却非常有限。

c、90年代后伴随着统计学习方法发展和互联网在线文本量指数增长,逐渐形成了特征工程和浅层分类器两步走的分类方法。这个阶段的文本表示是高纬度高稀疏的,特征表达能力有限,此外人工的特征工程费时费力。

d、近些年随着计算机算力的提升和深度学习的兴起,解决了大规模文本语料的文本表示问题,再利用深层的神经网络如cnn、rnn自动获取特征表达能力,去掉了繁杂的人工特征工程,实现了端对端解决问题。

不同的单模型在分类上具有不同的优势,模型融合能够利用不同模型的优势,进一步提高文本分类的精准率和召回率。深度学习的优势明显,但也存在不可解释性的问题。

其中,专家规则对于文本分类来说,精准度高且能提供事故原因,但召回率低且天花板有限(有上限)。深度学习对精准度和召回率均比较高,但只能提供事故概率而无法得到事故原因。

基于此,本发明实施例提供的一种基于混合模型的事故车辆识别方法和装置,通过专家规则与深度学习模型的结合,保证文本分类准确度的同时,提高文本分类识别的全面性,并且能够对事故车辆的事故原因进行分类识别。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于混合模型的事故车辆识别方法进行详细介绍。

图2为本发明实施例提供的一种基于混合模型的事故车辆识别方法流程图。

参照图2,基于混合模型的事故车辆识别方法,包括以下步骤:

步骤s102,将当前车辆的维保记录进行预处理,根据概率上下文无关文法将预处理后的维保记录生成动名词组。

其中,生成动名词组的文法为概率上下文无关文法(probabilisticcontextfreegrammar,pcfg)。

这里,预处理后的维保记录包括动词和名词,经概率上下文无关文法生成动词加名词的动名词组。

步骤s104,判断动名词组与预先设置的故障汽车零部件词组是否匹配。

步骤s106,若匹配成功,则识别出当前车辆为事故车,并根据匹配词组得到事故原因。

这里,根据事故车评估师的经验设计模式,预先设置故障汽车零部件,将前述实施例得到的动名词组与预设的故障汽车零部件进行精确匹配。如动名词组与匹配到故障汽车零部件,则当前车辆为事故车辆,且事故原因与当前匹配到的故障汽车零部件相关,通过当前匹配到的故障汽车零部件能够获知当前车辆的事故原因。

步骤s108,若匹配失败,将预处理后的维保记录输入混合模型中,得到当前车辆的事故车概率,并根据事故车概率识别当前车辆。

在实际应用的优选实施例中,将预处理后的维保记录通过概率上下文无关文法生成动名词组,根据专家规则将动名词组与预设的故障汽车零部件进行匹配,实现当前汽车的初步识别。若匹配成功,可根据具体匹配到的故障汽车零部件得到事故原因;若匹配失败,根据混合模型训练预处理后的维保记录,识别当前车辆是否属于事故车辆。本发明融合专家规则与混合深度学习模型,当专家规则无法判断当前车辆是否属于事故车辆时,再利用训练好的混合模型(深度学习模型)进行预测识别,保证文本分类准确度的同时,提高文本分类识别的全面性,进而实现对事故车辆和事故原因的准确识别。

在可选的实施方式中,步骤s108中根据所述事故车概率识别所述当前车辆的步骤,包括以下步骤:

步骤1.1),判断所述事故车概率是否达到预设概率值;

其中,预设概率值可根据实际情况进行设定,作为一种可选的实施例,可设置为0.5;

步骤1.2),若达到,则所述当前车辆为事故车,并将名词与预先设置的故障汽车零部件词组进行匹配,根据匹配词组得到事故原因;

步骤1.3),若没有达到,则所述当前车辆为非事故车。

通过本发明实施例提供的专家规则与混合模型(深度学习模型)相融合的文本分类方法,能够根据维修保养记录判断当前车辆是否为事故车,并提供事故原因。使用概率上下文无关文法抽取的动名词组与专家规则做模式匹配,初步识别当前车辆。对初步识别为非事故的车辆,为确保识别的全面性,将此车辆的维保记录通过混合的深度神经网络模型再次识别。并将通过专家规则没有识别出来,且混合模型识别出来的事故车辆,再通过经过前述专家规则匹配处理,根据名词匹配到的预设故障汽车零部件获知事故原因。

作为一种可选的实施方式,可通过将重要零部件对应的名词与预先设置的故障汽车零部件词组进行匹配,可通过枚举匹配的重要部件进而得到事故原因;

在可选的实施方式中,步骤s102中将当前车辆的维保记录进行预处理的步骤,包括以下步骤:

步骤2.1),将当前车辆的维保记录通过正则表达式进行过滤处理。

这里,正则表达式可用于过滤特殊符号,以便后续文本分类识别操作更加顺畅;作为一个可能的实施例,还可利用正则表达式提取需要的维保记录字段,以节省后续分类识别的时间以及运行资源。

步骤2.2),将过滤处理后的维保记录通过分词工具进行分词处理并去除停用词。

需要说明的是,在步骤s102之前,建立车辆的汽车零部件词库,该词库中包括车辆的所有零部件,且根据事故评估师的标注,划分为重要汽车零部件词库与不重要汽车零部件词库,基于上述两个词库,完成步骤s104的匹配操作。

其中,将过滤处理后的维保记录利用经过汽车零部件词库生成的分词工具进行分词,并去除停用词,能够更加准确地完成分词操作。

在可选的实施方式中,步骤s102中将当前车辆的维保记录进行预处理的步骤,还包括:

步骤2.3),将去除停用词后的维保记录进行模糊匹配处理,将不重要汽车零件词组去除。

这里,对前述通过正则表达式获取的汽车零件字段,通过模糊匹配方式,识别出重要零件与不重要零件,并将不重要汽车零件词组进行去除,以便为后续操作节省识别分类的时间和运行资源。

需要说明的是,本发明实施例中的不重要汽车零件为低概率会引发故障的零件,同理,重要汽车零件高概率会引发故障,属于需要重点关注的零件。

在可选的实施方式中,该混合模型是通过训练数据及预训练的词向量使用五折交叉验证方式,分别训练三种文本分类模型textcnn、rnn、transformer得到的。

这里,将预先事故评估师标注好的维保记录数据按照比例为4比1的数量,划分训练数据和测试集。再利用训练数据及预训练的词向量使用5折交叉验证分别训练textcnn、rnn、transformer模型。

其中,训练数据包括按照记录时间随机提取的经故障车辆评估师预先标注事故情况的维保记录。即训练数据包括经评估师预先标注过是否会出现故障的维保记录,该维保记录是按照随机记录时间或维修时间进行抽取,并提供给评估师标注的。

其中,预训练的词向量通过将预处理后的维保记录word2vec方式训练生成。

这里,使用堆积stacking方法将textcnn、rnn、transformer模型进行融合,得到混合模型。

进一步的,本发明实施例还提供一种基于混合模型的事故文本分类方法,包括以下步骤:

步骤3.1),根据正则表达式对维保记录进行过滤,提取需要的维保记录数据。

步骤3.2),按照记录时间通过事故评估师对维保记录标注出当前车辆属于事故车辆或当前车辆属于非事故车辆。

步骤3.3),根据模糊匹配将维保记录中的重要零部件与不重要零部件进行区分。

步骤3.4),对维保记录数据进行预处理操作,预处理操作包括分词,去除停用词操作、去除不重要汽车零部件操作。

步骤3.5),使用概率上下文无关文法pcfg对维保记录生成为动名词组。

步骤3.6),将动名词组与预先设置的故障汽车零部件词组进行匹配,若匹配成功,则识别出当前车辆为事故车,并根据匹配词组得到事故原因;

步骤3.7),通过word2vec方式将预处理后的维保记录训练成训练数据。

步骤3.8),将训练数据和预先标注的维保记录加入预训练模型,分别训练textcnn文本分类、rnn循环网络、transformer模型。

步骤3.9),通过堆积stacking方法,将textcnn文本分类、rnn循环网络、transformer模型进行融合,以使得出混合模型包括上述模型最优的权重配置。将预训练模型的输出作为逻辑回归模型的输入,逻辑回归模型输出事故车辆的概率a与非事故车辆的概率a。将测试集的测试结果取均值组合成新的测试集输入训练好的混合模型做训练,得到事故车辆的概率b与非事故车辆的概率b。可通过将事故车辆的概率b与非事故车辆的概率b与预先标注的维保记录进行比对,来验证混合模型的可靠性。

步骤3.10),将事故车辆的概率与预设概率值进行比对,若事故车辆达到预设概率值,则当前车辆为事故车,根据前述步骤,将预处理后的维保记录中的重要汽车零部件与预先设置的故障汽车零部件词组进行匹配,若匹配成功,则识别出当前车辆为事故车,并根据匹配词组得到事故原因。

本发明实施例面向维保记录判断一辆车是否为事故车并提供事故原因的文本分类方法结合了专家规则和深度神经网络(混合模型)融合两者的优势,利用pcfg提取动名词组合专家规则做匹配、深度神经网络模型融合的集成学习方法,有效地提高了文本分类的精准率和召回率,并给出了分类原因。

如图3所示,本发明实施例提供一种基于混合模型的事故车辆识别装置,包括:

预处理模块,用于将当前车辆的维保记录进行预处理;

生成模块,用于根据概率上下文无关文法将预处理后的维保记录生成动名词组;

匹配模块,用于判断所述动名词组与预先设置的故障汽车零部件词组是否匹配;若匹配成功,则识别出所述当前车辆为事故车,并根据匹配词组得到事故原因;若匹配失败,将所述预处理后的维保记录输入混合模型中,得到所述当前车辆的事故车概率,并根据所述事故车概率识别所述当前车辆。

在可选的实施方式中,匹配模块具体还用于,判断所述事故车概率是否达到预设概率值;若达到,则所述当前车辆为事故车,并将所述名词与预先设置的故障汽车零部件词组进行匹配,根据匹配词组得到事故原因;若没有达到,则所述当前车辆为非事故车。

在可选的实施方式中,预处理模块具体还用于,将当前车辆的维保记录通过正则表达式进行过滤处理;将过滤处理后的维保记录通过分词工具进行分词处理并去除停用词。

在可选的实施方式中,预处理模块具体还用于,将去除停用词后的维保记录进行模糊匹配处理,将不重要汽车零件词组去除。

在可选的实施方式中,所述混合模型是通过训练数据及预训练的词向量使用五折交叉验证方式,分别训练文本分类模型textcnn、rnn、transformer得到的。

在可选的实施方式中,所述训练数据包括按照记录时间随机提取的经预先标注事故情况的维保记录。

在可选的实施方式中,所述预训练的词向量通过将所述预处理后的维保记录word2vec方式训练生成。

进一步地,如图4所示,是本发明实施例提供的用于实现所述基于混合模型的事故文本分类方法的电子设备300的示意图。本实施例中,所述电子设备300可以是,但不限于,个人电脑(personalcomputer,pc)、笔记本电脑、监控设备、服务器等具备分析及处理能力的计算机设备。作为一种可选的实施例,电子设备300可为基于混合模型的事故文本分类方法。

图4为本发明实施例提供的电子设备300的硬件架构示意图。参见图4所示,该计算机设备包括:机器可读存储介质301和处理器302,还可以包括非易失性存储介质303、通信接口304和总线305;其中,机器可读存储介质301、处理器302、非易失性存储介质303和通信接口304通过总线305完成相互间的通信。处理器302通过读取并执行机器可读存储介质301中基于混合模型的事故文本分类方法的机器可执行指令,可执行上文实施例描述基于混合模型的事故文本分类方法。

本文中提到的机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:ram(radomaccessmemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。

非易失性介质可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等),或者类似的非易失性存储介质,或者它们的组合。

可以理解的是,本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述,在此不再重复赘述。

本发明实施例所提供计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序代码被执行时可实现上述任一实施例所述的基于混合模型的事故文本分类方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1