故障码识别和分类的方法

文档序号:10687625阅读:843来源:国知局
故障码识别和分类的方法
【专利摘要】故障码识别和分类的方法,包括:首先利用训练数据集构建朴素贝叶斯分类器:对训练集中的故障码进行人工分类;将每个类别中的故障码进行分词并计算每个词的TF?IDF权重值;根据TF?IDF权重值筛选出特征词并建立特征词库;分别计算每个类别中特征词在该类别条件下的条件概率;构建朴素贝叶斯分类器。本发明准确地自动分类不同车型的故障码,将数以亿级的故障码进行收敛,实现不同车厂车型间故障问题、解决方案的探索。
【专利说明】
故障码识别和分类的方法
技术领域
[0001] 本发明属于车辆故障码领域,具体说是一种基于朴素贝叶斯和余弦相似度的故障 码分类方法。
【背景技术】
[0002] 关于故障码的编码方式主要有两类:(1)共有协议故障码,其中OBD码的显著特征 是由一个大写字母和4位数字组成;(2)私有协议故障码,一般由生产厂商定义的故障码和 故障描述组成;对于OBD故障码,即使不同车厂车型的故障描述的表达方式不同,但也可以 通过OBD码来判断某个故障码分属哪一类。
[0003] 然而,当遇到私有协议故障码时,最大的困难是:不同车型间的故障码描述出现差 异时,该如何判断它们的一致性,即故障描述的是相同内容,以及判断私有协议与共有协议 故障码之间的一致性问题。目前,解决此类问题的主要手段是人工地逐条判断。它的优点是 判断准确。缺点是造成大量的人力和财力的浪费,并且耗时长。因此,亟需一种基于文本挖 掘和语义理解的故障识别与分类模型,用于故障的一致性判断。

【发明内容】

[0004] 针对现有技术存在的上述问题,本发明提出了一种故障码识别和分类的方法,采 用朴素贝叶斯分类器和文本余弦相似度等技术,能自动地判断某故障码是否可识别并进行 准确的分类。
[0005] -方面,本发明提供了故障码识别和分类的方法,包括:
[0006] 首先利用训练数据集构建朴素贝叶斯分类器;
[0007] 然后对新故障码进行具体分类。
[0008] 具体的,构建朴素贝叶斯分类器的步骤为:
[0009] SI:对训练集中的故障码进行人工分类;
[0010] S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值;
[0011] S3:根据TF-IDF权重值筛选出特征词并建立特征词库;
[0012] S4:分别计算每个类别中特征词在该类别条件下的条件概率;
[0013] S5:构建朴素贝叶斯分类器。
[0014] 具体的,步骤S2中A为特征词i的词频;^为特征词i在所有故障
J 码中出现的次数,表示故障码中所有特征词的出现次数总和。
[0015] 具体的,步骤S2中隹
IDFi为特征词i的逆向文件 频率;E为语料库中故障码的总数,{k:Wleek}表示包含特征词i的故障码数。
[0016] 具体的,步骤S2中的TF-IDF权重值为:
[0017] TF-IDF = TFX IDF
[0018] TF-IDF权重值是词频与逆向文件频率的乘积。
[0019] 具体的,步骤Sl故障码进行人工分类后的类别集为c:
[0020] c={ci,C2,.",Ci,.",cn}〇
[0021 ]具体的,将故障码e定义成若干个特征词的集合:
[0022] e = {wi,W2,.",wn}。
[0023] 具体的,依据贝叶斯定理计算出某个故障码e属于Cl类故障的概率,具体公式如 下:
[0024] P(ci I e) °cP(e I Ci)P(Ci)
[0025] 其中,P(C1)为一个故障码类别Cl在故障码空间所占比率;P(e I Cl)为对于给定的故 障码类别(^中故障码e的出现概率;计算某个故障码在每个分类中概率,取拥有最大概率值 的类别为该故障码的分类结果,具体为:
[0026] G(e) =argmax{P(e | Ci)P(ci)} 〇
[0027] 更具体的,对新故障码进行具体分类,设在类别i中的故障码为ei,同时还有个待 匹配的故障码enew:
[0028] 步骤1:由这两组的特征词集合构成一个向量空间:
[0029] 步骤2:结合向量空间,分别得到两个故障码的词向量值:
[0030] 步骤3:利用余弦相似度计算两个故障码近似情况;
[0031] 步骤4:如果所计算的相似度值大于阈值,则可以判断这两个故障码是相同的;如 果所计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似 度计算。
[0032] 更具体的,步骤S3中判断两个故障码近似情况,具体公式如下:
[0033]
[0034] 本发明由于采用以上技术方法,能够取得如下的技术效果:准确地自动分类不同 车型的故障码,将数以亿级的故障码进行收敛,实现不同车厂车型间故障问题、解决方案的 探索。能节省大量的劳动力,缩短工作周期,降低成本。
【附图说明】
[0035]为了更清楚的说明本发明的实施例或现有技术的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可 以根据这些附图获得其他的附图。
[0036] 图1为构建朴素贝叶斯分类器方法流程图;
[0037] 图2为对新故障码进行具体分类流程图。
【具体实施方式】
[0038]为使本发明的实施例的目的、技术方案和优点更加清楚,下面结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
[0039] 实施例1
[0040] 故障码识别和分类的方法,包括:
[0041] 首先利用训练数据集构建朴素贝叶斯分类器,具体步骤为:
[0042] SI:对训练集中的故障码进行人工分类,人工分类后的类别集为c:
[0043] C= {ci,C2,…,Ci,…,cn};
[0044] S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值;
[0045]
[0046] TF1S特征词i的词频;^为特征词i在所有故障码中出现的次数,表示故障码 中所有特征词的出现次数总和;
[0047]
[0048] IDFi为特征词i的逆向文件频率;E为语料库中故障码的总数,{k:Wi e 表示包含 特征词i的故障码数;
[0049] TF-IDF权重值为:TF-IDF = TF X IDF,也就是是词频与逆向文件频率的乘积;
[0050] S3:根据TF-IDF权重值筛选出特征词并建立特征词库,将故障码e定义成若干个特 征词的集合:
[0051] e = {wi,W2,…,wn}
[0052] S4:分别计算每个类别中特征词在该类别条件下的条件概率,依据贝叶斯定理计 算出某个故障码e属于C1类故障的概率,具体公式如下:
[0053] P(Ci|e) = [P(e|ci)P(ci)]/P(e)
[0054] 其中,P(e)为从故障码空间中随机抽取一个故障码e的概率;P(C1)为一个故障码 类别C1在故障码空间所占比率;P(e Ic1)为对于给定的故障码类别(^中故障码e的出现概率;
[0055] 对于每个故障码类别而言,从故障码空间中随机抽取一个故障码的概率都是一样 的,因此P(e)可以忽略不予计算,这样公式(1)就可以写成如下形式:
[0056] P(ci I e) °cP(e I Ci)P(Ci)
[0057] 计算某个故障码在每个分类中概率,取拥有最大概率值的类别为该故障码的分类 结果,具体为:
[0058] G(e) =argmax{P(e | Ci)P(ci)} 〇
[0059] S5:构建朴素贝叶斯分类器。
[0060]然后对新故障码进行具体分类,具体为:
[0061]更具体的,对新故障码进行具体分类,设在类别i中的故障码为ei,同时还有个待 匹配的故障码enew,它们的分词情况如下:
[0062] ei= {W1,W2,W3,W4}
[0063] enew= {w2,W3,W5}
[0064] 步骤I:由这两组的特征词集合构成一个向量空间:
[0065]

[0066] 步骤2:结合向量空间,分别得到两个故障码的词向量值:
[0067]
[0068]
[0069] 步骤3:利用余弦相似度计算两个故障码近似情况,具体公式如下:
[0070]
[0071] 步骤4:如果所计算的相似度值大于80%,则可以判断这两个故障码是相同的;如 果所计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似 度计算。
[0072] 本发明能准确地自动分类不同车型的故障码,给出恰当的相应解决方案。因此,可 以节省大量的劳动力,缩短工作周期,降低成本。
[0073] 以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其 发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【主权项】
1. 故障码识别和分类的方法,其特征在于,包括: 首先利用训练数据集构建朴素贝叶斯分类器; 然后对新故障码进行具体分类。2. 根据权利要求1所述的故障码识别和分类的方法,其特征在于,构建朴素贝叶斯分类 器的步骤为: S1:对训练集中的故障码进行人工分类; S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值; S3:根据TF-IDF权重值筛选出特征词并建立特征词库; S4:分别计算每个类别中特征词在该类别条件下的条件概率; S5:构建朴素贝叶斯分类器。3. 根据权利要求2所述的故障码识别和分类的方法,其特征在于,步骤S2中的TFA特征词i的词频;^为特征词i在所有故障码中出现的次数,Σ^表示故 > 障码中所有特征词的出现次数总和。4. 根据权利要求2所述的故障码识别和分类的方法,其特征在于,步骤S2中的IDFi为特征词i的逆向文件频率;Ε为语料库中故障码的总 数,{k:Wleek}表示包含特征词i的故障码数。5. 根据权利要求3或4所述的故障码识别和分类的方法,其特征在于,步骤S2中的TF-IDF权重值为: TF-IDF = TFXIDF TF-IDF权重值是词频与逆向文件频率的乘积。6. 根据权利要求1所述的故障码识别和分类的方法,其特征在于,步骤S1故障码进行人 工分类后的类别集为c: C= {ci,C2,…,Ci,…,Cn} 〇7. 根据权利要求1所述的故障码识别和分类的方法,其特征在于,将故障码e定义成若 干个特征词的集合: e={ffi,ff2,---,ffn}〇8. 根据权利要求1所述的故障码识别和分类的方法,其特征在于,依据贝叶斯定理计算 出某个故障码e属于Cl类故障的概率,具体公式如下: P(ci | e) 〇〇P(e I Ci)P(ci) 其中,P(Cl)为一个故障码类别Cl在故障码空间所占比率;P(e|Cl)为对于给定的故障码 类别ci中故障码e的出现概率;计算某个故障码在每个分类中概率,取拥有最大概率值的类 别为该故障码的分类结果,具体为: G(e) = argmax{P(e | Ci)P(ci)} 〇9. 根据权利要求1所述的故障码识别和分类的方法,其特征在于,对新故障码进行具体 分类,设在类别i中的故障码为ei,同时还有个待匹配的故障码e new: 步骤1:由这两组的特征词集合构成一个向量空间: 步骤2:结合向量空间,分别得到两个故障码的词向量值: 步骤3:利用余弦相似度计算两个故障码近似情况; 步骤4:如果所计算的相似度值大于阈值,则可以判断这两个故障码是相同的;如果所 计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似度计 算。10.根据权利要求1所述的故障码识别和分类的方法,其特征在于,步骤S3中判断两个 故障码近似情况,具体公式如下:
【文档编号】G06K9/62GK106056154SQ201610365727
【公开日】2016年10月26日
【申请日】2016年5月27日
【发明人】田雨农, 张辉
【申请人】大连楼兰科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1