用于车辆故障问答系统的数据处理方法及装置与流程

文档序号:12863910阅读:296来源:国知局
用于车辆故障问答系统的数据处理方法及装置与流程

本发明涉及车辆领域,具体地,涉及一种用于车辆故障问答系统的数据处理方法及装置。



背景技术:

随着自然语言处理技术、机器学习、信息抽取、机器翻译等人工智能技术的不断发展,使得以智能硬件及个人助理为代表的一系列问答系统逐渐走入日常生活。比如:百度的度秘机器人、智能家居的语音控制系统、智能手机的语音交互、车载设备的语音控制等。所有这些系统中必不可少的一个基础模块是特定场景或领域的知识库,用户的指令或问题,经过模型计算,从知识库中获取答案,返回给用户。因此,构建一个良好的知识库是建立人与智能系统之间良好交互的前提。知识库的构建依赖于结构化、半结构化和非结构化数据的获取,以及对这些数据的清洗和重构。

数据预处理作为构建知识库的重要一环将直接影响知识库的知识的准确性和完备性。原始数据经过精心设计的预处理,得到符合不同业务要求的数量,质量以及组织形式,保存到知识库。

对不同领域、格式及业务要求的数据,数据处理方式都不尽相同,例如针对数值型数据的常规处理过程主要包括:清理、集成、变换及归约等。



技术实现要素:

本发明实施例的目的是针对车辆故障问答系统中知识库的建立提供一种用于车辆故障问答系统的数据处理方法及装置。

为了实现上述目的,本发明实施例提供一种用于车辆故障问答系统的数据处理方法,该方法包括:从多个与车辆有关的问题中提取出与车辆故障有关的问题;根据车辆类型对所提取的与车辆故障有关的问题进行分类;以及针对所分类的车辆类型,对每一与车辆故障有关的问题进行摘要抽取以获得故障问题摘要。

可选地,所述方法还包括:将每一所述故障问题摘要根据所分类的车辆类型存储在知识库中。

可选地,所述从多个与车辆有关的问题中提取出与车辆故障有关的问题包括:使用分类模型依次判断所述多个与车辆有关的问题中的每一个问题是否为与车辆故障有关的问题,以提取出与所述车辆故障有关的问题。

可选地,所述分类模型的建立包括以下步骤:将多个与车辆故障有关的问题作为训练数据进行模型训练以形成所述分类模型。

可选地,所述根据车辆类型对所提取的与车辆故障有关的问题进行分类包括:使用正则匹配表达式对所提取的与车辆故障有关的问题进行分类。

相应地,本发明实施例还提供一种用于车辆故障问答系统的数据处理装置,所述装置包括:提取模块,用于从多个与车辆有关的问题中提取出与车辆故障有关的问题;分类模块,用于根据车辆类型对所提取的与车辆故障有关的问题进行分类;以及摘要抽取模块,用于针对所分类的车辆类型,对每一与车辆故障有关的问题进行摘要抽取以获得故障问题摘要。

可选地,所述装置还包括:存储模块,用于将每一所述故障问题摘要根据所分类的车辆类型存储在知识库中。

可选地,所述提取模块使用分类模型依次判断所述多个与车辆有关的问题中的每一个问题是否为与车辆故障有关的问题,以提取出所述与车辆故障有关的问题。

可选地,所述装置还包括:模型训练模块,用于将多个与车辆故障有关的问题作为训练数据进行模型训练以形成所述分类模型。

可选地,所述分类模块用于使用正则匹配表达式对所提取的与车辆故障有关的问题进行分类。

相应地,本发明实施例还提供一种极其可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的用于车辆故障问答系统的数据处理方法。

通过上述技术方案,在实践过程中,针对车辆故障问答系统的知识库的构建,可以节约大量人工数据抽取、编写的工作,并且降低了数据的噪声,提供数据的一致性。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:

图1示出了根据本发明一实施例的用于车辆故障问答系统的数据处理方法的流程图;以及

图2示出了根据本发明一实施例的用于车辆故障问答系统的数据处理装置的结构框图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。

车辆故障问答系统中所涉及的问答数据,由于其受多场景多条件约束,处理方法跟开放领域及其他垂直领域问答系统的数据处理方式区别较大,因此,为了更精准地构建用于车辆故障问答系统的知识库,本发明实施例提供一种用于车辆故障问答系统的数据处理方法及装置。

图1示出了根据本发明一实施例的用于车辆故障问答系统的数据处理方法的流程图。如图1所示,本发明实施例提供一种用于车辆故障问答系统数据处理方法,该方法包括以下步骤:

步骤s11,从多个与车辆有关的问题中提取出与车辆故障有关的问题。

在车辆领域中,尤其是在汽车领域中,用户提问的问题所涉及的主题可能是多种多样的,例如,可能涉及天气、交通、用户手册、保养及故障维修等各类问题,因此,首先需要从所有这些与车辆有关的问题中提取出与车辆故障有关的问题。

步骤s12,根据车辆类型对所提取的与车辆故障有关的问题进行分类。

不同的车辆类型,即使故障现象一样,由于其结构不同,故障原因也会不一样,因此,车辆类型分类就是将故障问题按照车辆类型进行组织分类。

可选地,可以采用正则匹配表达式来将所提取的与车辆故障有关的问题分类至相应地车辆类型。

步骤s13,针对所分类的车辆类型,对每一与车辆故障有关的问题进行摘要抽取以获得故障问题摘要。

所提取的与车辆故障有关的问题一般情况下是一些段落文字,其描述的内容相对冗余,该步骤就是通过摘要抽取技术,从段落中抽取核心问题描述,简化车辆故障问答系统的工作量。

可选地,可以采用机器学习textrank算法对每一与车辆故障有关的问题进行摘要抽取。

经过上述步骤s11至s13的数据处理过程之后,针对每一类车辆类型,均可以获得一系列故障问题的摘要描述。如此,可以根据经过处理后的故障问题来更精准地构建用于车辆故障问答系统的知识库。

进一步地,本发明实施例提供的用于车辆故障问答系统的数据处理方法还可以包括:将每一所述故障问题摘要根据所分类的车辆类型存储在知识库中。在经过步骤s11至s13处理之后的针对每一类车辆类型的故障问题的摘要描述,可以将其按照对应的车辆类型一一存储在知识库中,以方便车辆故障问答系统的使用。

以下将通过举例的方式对本发明实施例提供的用于车辆故障问答系统的数据处理方法进行进一步详细描述。

从多个与车辆有关的问题中提取出与车辆故障有关的问题可以包括使用分类模型来依次判断所述多个与车辆有关的问题中的每一个问题是否为与车辆故障有关的问题。这里的分类模型是指针对与车辆故障有关的问题的分类模型,其是用于判断与车辆有关的问题是否是与车辆故障有关的问题。

具体地,对于上述分类模型的建立可以包括:将人工标注的多条与车辆故障有关的问题作为训练数据,这里,所使用的人工标注的与车辆故障有关的问题可以根据情况而设置,其范围可以是大于或等于900条,例如可以将人工标注的1000条与车辆故障有关的问题作为训练数据。然后使用机器类学习算法或者深度学习技术对上述的1000条与车辆故障有关的问题进行模型训练,这里,所使用的机器类学习算法可以是贝叶斯分类算法、svm(supportvectormachine,支持向量机)算法、神经网络算法、决策树等机器学习算法。进一步地,使用训练出分类模型一一判断与车辆有关的问题是否是与车辆故障有关的问题,从而实现从多个与车辆有关的问题中提取出与车辆故障有关的问题。

可选地,可以将根据分类模型判断为与车辆故障有关的问题加入训练数据中,得到新的训练数据,对该新的训练数据进行模型训练以得到新的分类模型。然后使用该新的分类模型一一判断与车辆有关的问题是否是与车辆故障有关的问题,将根据该新的分类模型判断为与车辆故障有关的问题加入训练数据中,得到又一新的训练数据。重复上述的模型训练过程及判断过程,直到对与车辆故障有关的问题的判断精度达到要求。

然后对上述提取的与车辆故障有关的问题按照车辆类型进行分类。经过知识工程师对车辆类型进行统计、梳理、排序,得到前40个热门车辆类型,可以针对这40个车辆类型进行故障数据分类。可以理解,本发明实施例并不限制于这40个车辆类型,也可以根据需要设置车辆类型的数量。

可选地,可以使用正则匹配表达式对所提取的与车辆故障有关的问题进行分类。具体地,可以编写针对所述40个车辆类型编写正则匹配表达式,然后使用所述正则匹配表达式对所提取的与车辆故障有关的问题进行分类,以确定所述每一与车辆故障有关的问题所属的车辆类型。

确定出每一与车辆故障有关的问题所属的车辆类型之后,可以针对所确定的车辆类型,对每一与车辆故障有关的问题进行摘要抽取,可选地,可以使用textrank算法来执行摘要抽取以获得故障问题摘要。但是,可以理解本分买那个实施例并不限制于此,可以根据需要使用任意一种能够进行摘要抽取的方法。

可选地,得到故障问题摘要后可以对每一故障问题摘要进行校验,该步骤以知识工程师人工校验为主,判断故障描述是否合理、是否符合车型,并适当的对语言表述进行优化等。此外,也可以对对每一故障问题摘要进行纠错和规范化等,例如,判断是否有常用字拼写错误,如果有,则进行修改。并且可以对单位、专有名词书写进行统一地规范化等。

进一步地,可以将所抽取的每一故障问题摘要根据其所属的车辆类型对应的存储在知识库中,以供车辆故障问答系统使用。

本发明实施例提供的用于车辆故障问答系统的数据处理方法,可以在实践过程中节约大量人工数据抽取、编写的工作,并且降低了数据的噪声,提供数据的一致性。此外,在将所获得的知识库用于车辆故障问答系统时,可以提高车辆故障问答系统对故障问题回答的精确性。

图2示出了根据本发明一实施例的用于车辆故障问答系统的数据处理装置的结构框图。如图2所示,本发明实施例还提供一种用于车辆故障问答系统的数据处理装置,该装置可以包括:提取模块21,用于从多个与车辆有关的问题中提取出与车辆故障有关的问题;分类模块22,用于根据车辆类型对所提取的与车辆故障有关的问题进行分类,可选地,可以使用正则匹配表达式对所提取的与车辆故障有关的问题进行分类;以及摘要抽取模块23,用于针对所分类的车辆类型,对每一与车辆故障有关的问题进行摘要抽取以获得故障问题摘要,可选地,可以使用textrank算法来执行摘要抽取以获得故障问题摘要。本发明实施例提供的用于车辆故障问答系统的数据处理装置,可以在实践过程中节约大量人工数据抽取、编写的工作,并且降低了数据的噪声,提供数据的一致性。

可选地,所述用于车辆故障问答系统的数据处理装置还可以包括模型训练模块,用于将多个与车辆故障有关的问题作为训练数据进行模型训练以形成所述分类模型。模型训练模块可以使用机器类学习算法来形成所述分类模型,可选地,所使用的机器类学习算法可以是贝叶斯分类算法、svm算法、神经网络算法、决策树等。所述提取模块21可以使用分类模型依次判断所述多个与车辆有关的问题中的每一个问题是否为与车辆故障有关的问题。

进一步地,本发明实施例提供的用于车辆故障问答系统的数据处理装置还可以包括存储模块,用于将每一所述故障问题摘要根据所分类的车辆类型存储在知识库中。将所获得的知识库用于车辆故障问答系统时,可以提高车辆故障问答系统对故障问题回答的精确性。

本发明实施例提供的用于车辆故障问答系统的数据处理装置的具体工作原理及益处与上述本发明实施例提供的用于车辆故障问答系统的数据处理方法的具体工作原理及益处相似,这里将不再赘述。

相应地,本发明实施例还提供一种极其可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的用于车辆故障问答系统的数据处理方法。

以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1