故障码识别和分类的方法

文档序号：10687625阅读：843来源：国知局

故障码识别和分类的方法
【专利摘要】故障码识别和分类的方法，包括：首先利用训练数据集构建朴素贝叶斯分类器：对训练集中的故障码进行人工分类；将每个类别中的故障码进行分词并计算每个词的TF?IDF权重值；根据TF?IDF权重值筛选出特征词并建立特征词库；分别计算每个类别中特征词在该类别条件下的条件概率；构建朴素贝叶斯分类器。本发明准确地自动分类不同车型的故障码，将数以亿级的故障码进行收敛，实现不同车厂车型间故障问题、解决方案的探索。
【专利说明】
故障码识别和分类的方法
技术领域
[0001] 本发明属于车辆故障码领域，具体说是一种基于朴素贝叶斯和余弦相似度的故障码分类方法。
【背景技术】
[0002] 关于故障码的编码方式主要有两类：（1)共有协议故障码，其中OBD码的显著特征是由一个大写字母和4位数字组成；（2)私有协议故障码，一般由生产厂商定义的故障码和故障描述组成;对于OBD故障码，即使不同车厂车型的故障描述的表达方式不同，但也可以通过OBD码来判断某个故障码分属哪一类。
[0003] 然而，当遇到私有协议故障码时，最大的困难是:不同车型间的故障码描述出现差异时，该如何判断它们的一致性，即故障描述的是相同内容，以及判断私有协议与共有协议故障码之间的一致性问题。目前，解决此类问题的主要手段是人工地逐条判断。它的优点是判断准确。缺点是造成大量的人力和财力的浪费，并且耗时长。因此，亟需一种基于文本挖掘和语义理解的故障识别与分类模型，用于故障的一致性判断。

【发明内容】

[0004] 针对现有技术存在的上述问题，本发明提出了一种故障码识别和分类的方法，采用朴素贝叶斯分类器和文本余弦相似度等技术，能自动地判断某故障码是否可识别并进行准确的分类。
[0005] -方面，本发明提供了故障码识别和分类的方法，包括：
[0006] 首先利用训练数据集构建朴素贝叶斯分类器；
[0007] 然后对新故障码进行具体分类。
[0008] 具体的，构建朴素贝叶斯分类器的步骤为：
[0009] SI:对训练集中的故障码进行人工分类；
[0010] S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值；
[0011] S3:根据TF-IDF权重值筛选出特征词并建立特征词库；
[0012] S4:分别计算每个类别中特征词在该类别条件下的条件概率；
[0013] S5:构建朴素贝叶斯分类器。
[0014] 具体的，步骤S2中A为特征词i的词频;^为特征词i在所有故障
J 码中出现的次数，表示故障码中所有特征词的出现次数总和。
[0015] 具体的，步骤S2中隹
IDFi为特征词i的逆向文件频率;E为语料库中故障码的总数，{k:Wleek}表示包含特征词i的故障码数。
[0016] 具体的，步骤S2中的TF-IDF权重值为：
[0017] TF-IDF = TFX IDF
[0018] TF-IDF权重值是词频与逆向文件频率的乘积。
[0019] 具体的，步骤Sl故障码进行人工分类后的类别集为c:
[0020] c={ci，C2，."，Ci，."，cn}〇
[0021 ]具体的，将故障码e定义成若干个特征词的集合：
[0022] e = {wi，W2，."，wn}。
[0023] 具体的，依据贝叶斯定理计算出某个故障码e属于Cl类故障的概率，具体公式如下：
[0024] P(ci I e) °cP(e I Ci)P(Ci)
[0025] 其中，P(C1)为一个故障码类别Cl在故障码空间所占比率;P(e I Cl)为对于给定的故障码类别(^中故障码e的出现概率;计算某个故障码在每个分类中概率，取拥有最大概率值的类别为该故障码的分类结果，具体为：
[0026] G(e) =argmax{P(e | Ci)P(ci)} 〇
[0027] 更具体的，对新故障码进行具体分类，设在类别i中的故障码为ei，同时还有个待匹配的故障码enew:
[0028] 步骤1:由这两组的特征词集合构成一个向量空间：
[0029] 步骤2:结合向量空间，分别得到两个故障码的词向量值：
[0030] 步骤3:利用余弦相似度计算两个故障码近似情况；
[0031] 步骤4:如果所计算的相似度值大于阈值，则可以判断这两个故障码是相同的；如果所计算的相似度值小于阈值，则继续与已知故障码库中的其他类别故障码进行余弦相似度计算。
[0032] 更具体的，步骤S3中判断两个故障码近似情况，具体公式如下：
[0033]
[0034] 本发明由于采用以上技术方法，能够取得如下的技术效果:准确地自动分类不同车型的故障码，将数以亿级的故障码进行收敛，实现不同车厂车型间故障问题、解决方案的探索。能节省大量的劳动力，缩短工作周期，降低成本。
【附图说明】
[0035]为了更清楚的说明本发明的实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0036] 图1为构建朴素贝叶斯分类器方法流程图；
[0037] 图2为对新故障码进行具体分类流程图。
【具体实施方式】
[0038]为使本发明的实施例的目的、技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：
[0039] 实施例1
[0040] 故障码识别和分类的方法，包括：
[0041] 首先利用训练数据集构建朴素贝叶斯分类器，具体步骤为：
[0042] SI:对训练集中的故障码进行人工分类，人工分类后的类别集为c:
[0043] C= {ci，C2,…，Ci，…，cn};
[0044] S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值；
[0045]
[0046] TF1S特征词i的词频;^为特征词i在所有故障码中出现的次数，表示故障码中所有特征词的出现次数总和；
[0047]
[0048] IDFi为特征词i的逆向文件频率;E为语料库中故障码的总数，{k:Wi e 表示包含特征词i的故障码数；
[0049] TF-IDF权重值为:TF-IDF = TF X IDF，也就是是词频与逆向文件频率的乘积；
[0050] S3:根据TF-IDF权重值筛选出特征词并建立特征词库，将故障码e定义成若干个特征词的集合：
[0051] e = {wi，W2，…，wn}
[0052] S4:分别计算每个类别中特征词在该类别条件下的条件概率，依据贝叶斯定理计算出某个故障码e属于C1类故障的概率，具体公式如下：
[0053] P(Ci|e) = [P(e|ci)P(ci)]/P(e)
[0054] 其中，P(e)为从故障码空间中随机抽取一个故障码e的概率;P(C1)为一个故障码类别C1在故障码空间所占比率;P(e Ic1)为对于给定的故障码类别(^中故障码e的出现概率；
[0055] 对于每个故障码类别而言，从故障码空间中随机抽取一个故障码的概率都是一样的，因此P(e)可以忽略不予计算，这样公式（1)就可以写成如下形式：
[0056] P(ci I e) °cP(e I Ci)P(Ci)
[0057] 计算某个故障码在每个分类中概率，取拥有最大概率值的类别为该故障码的分类结果，具体为：
[0058] G(e) =argmax{P(e | Ci)P(ci)} 〇
[0059] S5:构建朴素贝叶斯分类器。
[0060]然后对新故障码进行具体分类，具体为：
[0061]更具体的，对新故障码进行具体分类，设在类别i中的故障码为ei，同时还有个待匹配的故障码enew，它们的分词情况如下：
[0062] ei= {W1，W2，W3，W4}
[0063] enew= {w2，W3，W5}
[0064] 步骤I:由这两组的特征词集合构成一个向量空间：
[0065]

[0066] 步骤2:结合向量空间，分别得到两个故障码的词向量值：
[0067]
[0068]
[0069] 步骤3:利用余弦相似度计算两个故障码近似情况，具体公式如下：
[0070]
[0071] 步骤4:如果所计算的相似度值大于80%，则可以判断这两个故障码是相同的；如果所计算的相似度值小于阈值，则继续与已知故障码库中的其他类别故障码进行余弦相似度计算。
[0072] 本发明能准确地自动分类不同车型的故障码，给出恰当的相应解决方案。因此，可以节省大量的劳动力，缩短工作周期，降低成本。
[0073] 以上所述，仅为本发明较佳的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。
【主权项】
1. 故障码识别和分类的方法，其特征在于，包括：首先利用训练数据集构建朴素贝叶斯分类器；然后对新故障码进行具体分类。2. 根据权利要求1所述的故障码识别和分类的方法，其特征在于，构建朴素贝叶斯分类器的步骤为： S1:对训练集中的故障码进行人工分类； S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值； S3:根据TF-IDF权重值筛选出特征词并建立特征词库； S4:分别计算每个类别中特征词在该类别条件下的条件概率； S5:构建朴素贝叶斯分类器。3. 根据权利要求2所述的故障码识别和分类的方法，其特征在于，步骤S2中的TFA特征词i的词频;^为特征词i在所有故障码中出现的次数，Σ^表示故 > 障码中所有特征词的出现次数总和。4. 根据权利要求2所述的故障码识别和分类的方法，其特征在于，步骤S2中的IDFi为特征词i的逆向文件频率;Ε为语料库中故障码的总数，{k:Wleek}表示包含特征词i的故障码数。5. 根据权利要求3或4所述的故障码识别和分类的方法，其特征在于，步骤S2中的TF-IDF权重值为： TF-IDF = TFXIDF TF-IDF权重值是词频与逆向文件频率的乘积。6. 根据权利要求1所述的故障码识别和分类的方法，其特征在于，步骤S1故障码进行人工分类后的类别集为c: C= {ci，C2,…，Ci，…，Cn} 〇7. 根据权利要求1所述的故障码识别和分类的方法，其特征在于，将故障码e定义成若干个特征词的集合： e={ffi,ff2,---,ffn}〇8. 根据权利要求1所述的故障码识别和分类的方法，其特征在于，依据贝叶斯定理计算出某个故障码e属于Cl类故障的概率，具体公式如下： P(ci | e) 〇〇P(e I Ci)P(ci) 其中，P(Cl)为一个故障码类别Cl在故障码空间所占比率;P(e|Cl)为对于给定的故障码类别ci中故障码e的出现概率;计算某个故障码在每个分类中概率，取拥有最大概率值的类别为该故障码的分类结果，具体为： G(e) = argmax{P(e | Ci)P(ci)} 〇9. 根据权利要求1所述的故障码识别和分类的方法，其特征在于，对新故障码进行具体分类，设在类别i中的故障码为ei，同时还有个待匹配的故障码e new: 步骤1:由这两组的特征词集合构成一个向量空间：步骤2:结合向量空间，分别得到两个故障码的词向量值：步骤3:利用余弦相似度计算两个故障码近似情况；步骤4:如果所计算的相似度值大于阈值，则可以判断这两个故障码是相同的；如果所计算的相似度值小于阈值，则继续与已知故障码库中的其他类别故障码进行余弦相似度计算。10.根据权利要求1所述的故障码识别和分类的方法，其特征在于，步骤S3中判断两个故障码近似情况，具体公式如下：
【文档编号】G06K9/62GK106056154SQ201610365727
【公开日】2016年10月26日
【申请日】2016年5月27日
【发明人】田雨农, 张辉
【申请人】大连楼兰科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田雨农;张辉;
技术所有人：大连楼兰科技股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。