故障码识别和分类平台的制作方法

文档序号:10697779阅读:218来源:国知局
故障码识别和分类平台的制作方法
【专利摘要】故障码识别和分类平台,包括:构建分类器单元利用训练数据集构建朴素贝叶斯分类器:分类单元对训练集中的故障码进行人工分类;将每个类别中的故障码进行分词并计算每个词的TF?IDF权重值;根据TF?IDF权重值筛选出特征词并建立特征词库;分别计算每个类别中特征词在该类别条件下的条件概率;构建朴素贝叶斯分类器。本发明准确地自动分类不同车型的故障码,将数以亿级的故障码进行收敛,实现不同车厂车型间故障问题、解决方案的探索。
【专利说明】
故障码识别和分类平台
技术领域
[0001] 本发明属于车辆故障码领域,具体说是一种基于朴素贝叶斯和余弦相似度的故障 码识别和分类平台。
【背景技术】
[0002] 关于故障码的编码方式主要有两类:(1)共有协议故障码,其中0抓码的显著特征 是由一个大写字母和4位数字组成;(2)私有协议故障码,一般由生产厂商定义的故障码和 故障描述组成;对于om)故障码,即使不同车厂车型的故障描述的表达方式不同,但也可W 通过0BD码来判断某个故障码分属哪一类。
[0003] 然而,当遇到私有协议故障码时,最大的困难是:不同车型间的故障码描述出现差 异时,该如何判断它们的一致性,即故障描述的是相同内容,W及判断私有协议与共有协议 故障码之间的一致性问题。目前,解决此类问题的主要手段是人工地逐条判断。它的优点是 判断准确。缺点是造成大量的人力和财力的浪费,并且耗时长。因此,亟需一种基于文本挖 掘和语义理解的故障识别与分类模型,用于故障的一致性判断。

【发明内容】

[0004] 针对现有技术存在的上述问题,本发明提出了一种故障码识别和分类平台,采用 朴素贝叶斯分类器和文本余弦相似度等技术,能自动地判断某故障码是否可识别并进行准 确的分类。
[0005] -方面,本发明提供了故障码识别和分类平台,包括:
[0006] 构建分类器单元,利用训练数据集构建朴素贝叶斯分类器;
[0007] 分类单元,对新故障码进行具体分类。
[000引具体的,构建分类器单元中的朴素贝叶斯分类器的步骤为:
[0009] S1:对训练集中的故障码进行人工分类;
[0010] S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值;
[0011] S3:根据TF-IDF权重值筛选出特征词并建立特征词库;
[0012] S4:分别计算每个类别中特征词在该类别条件下的条件概率;
[0013] S5:构建朴素贝叶斯分类器。
[0014] 具体的,步骤S2中的
TFi为特征词i的词频;wi为特征词i在所有故障 码中出现的次数,Ejwj表示故障码中所有特征词的出现次数总和。
[001引具体的,步骤S2中於
IDFi为特征词i的逆向文件 频率;E为语料库中故障码的总数,化:wieek}表示包含特征词i的故障码数。
[0016] 具体的,步骤S2中的TF-IDF权重值为:
[0017] TF-IDF = TFXIDF
[0018] TF-IDF权重值是词频与逆向文件频率的乘积。
[0019] 具体的,步骤S1故障码进行人工分类后的类别集为C:
[0020] c={ci,C2,...,Ci,...,Cn}。
[0021] 具体的,将故障码e定义成若干个特征词的集合:
[0022] e = {wi,W2,...,Wn}。
[0023] 具体的,依据贝叶斯定理计算出某个故障码e属于Cl类故障的概率,具体公式如 下:
[0024] P(ci|e)Kp(e|ci)Pki)
[0025] 其中,Pki)为一个故障码类别Cl在故障码空间所占比率;P(e| Cl)为对于给定的故 障码类别Cl中故障码e的出现概率;计算某个故障码在每个分类中概率,取拥有最大概率值 的类别为该故障码的分类结果,具体为:
[0026] G(e)三argmax{P(e I Ci)P(;Ci)}。
[0027] 更具体的,分类单元中的对新故障码进行具体分类,设在类别i中的故障码为ei, 同时还有个待匹配的故障码enew:
[00%]步骤1:由运两组的特征词集合构成一个向量空间:
[0029] 步骤2:结合向量空间,分别得到两个故障码的词向量值:
[0030] 步骤3:利用余弦相似度计算两个故障码近似情况;
[0031] 步骤4:如果所计算的相似度值大于阔值,则可W判断运两个故障码是相同的;如 果所计算的相似度值小于阔值,则继续与已知故障码库中的其他类别故障码进行余弦相似 度计算。
[0032] 更具体的,步骤S3中判断两个故障码近似情况,具体公式如下:
[0033]
[0034] 本发明由于采用W上技术方法,能够取得如下的技术效果:准确地自动分类不同 车型的故障码,将数W亿级的故障码进行收敛,实现不同车厂车型间故障问题、解决方案的 探索。能节省大量的劳动力,缩短工作周期,降低成本。
【附图说明】
[0035] 为了更清楚的说明本发明的实施例或现有技术的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可 W根据运些附图获得其他的附图。
[0036] 图1为构建分类器中的构建朴素贝叶斯分类器方法流程图;
[0037] 图2为分类单元对新故障码进行具体分类流程图。
【具体实施方式】
[0038] 为使本发明的实施例的目的、技术方案和优点更加清楚,下面结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
[0039] 实施例1
[0040] 故障码识别和分类的方法,包括:
[0041 ]构建分类器单元,训练数据集构建朴素贝叶斯分类器,具体步骤为:
[0042] S1:对训练集中的故障码进行人工分类,人工分类后的类别集为C:
[0043] c={ci,C2,...,Ci,...,Cn};
[0044] S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值;
[0045]
[0046] TFi为特征词i的词频;wi为特征词i在所有故障码中出现的次数,Ejwj表示故障码 中所有特征词的出现次数总和;
[0047]
[004引IDF功特征词i的逆向文件频率;E为语料库中故障码的总数,化:Wieek}表示包含 特征词i的故障码数;
[0049] TF-IDF权重值为:TF-IDF = TF X IDF,也就是是词频与逆向文件频率的乘积;
[0050] S3:根据TF-IDF权重值筛选出特征词并建立特征词库,将故障码e定义成若干个特 征词的集合:
[0051] e = {wi,W2,...,Wn}
[0052] S4:分别计算每个类别中特征词在该类别条件下的条件概率,依据贝叶斯定理计 算出某个故障码e属于Cl类故障的概率,具体公式如下:
[0053] P(ci|e) = [P(e|ci| )Pki)]/P(e)
[0054] 其中,P(e)为从故障码空间中随机抽取一个故障码e的概率;P(ci)为一个故障码 类别Cl在故障码空间所占比率;P(e|ci)为对于给定的故障码类别Cl中故障码e的出现概率;
[0055] 对于每个故障码类别而言,从故障码空间中随机抽取一个故障码的概率都是一样 的,因此P(e)可W忽略不予计算,运样公式(1)就可W写成如下形式:
[0056] P(ci|e)Kp(e|ci)Pki)
[0057] 计算某个故障码在每个分类中概率,取拥有最大概率值的类别为该故障码的分类 结果,具体为:
[0化引 G(e)三argmax{P(e I cOPki)}。
[0化9] S5:构建朴素贝叶斯分类器。
[0060] 分类单元对新故障码进行具体分类,具体为:
[0061] 设在类别i中的故障码为ei,同时还有个待匹配的故障码enew,它们的分词情况如 下:
[0064]步骤1:由运两组的特征词集合构成一个向量空间:
[00 化]
[0066]步骤2:结合向量空间,分别得到两个故障码的词向量值:
[0069] 步骤3:利用余弦相似度计算两个故障码近似情况,具体公式如下:
[0070]
[0071] 步骤4:如果所计算的相似度值大于80%,则可W判断运两个故障码是相同的;如 果所计算的相似度值小于阔值,则继续与已知故障码库中的其他类别故障码进行余弦相似 度计算。
[0072] 本发明能准确地自动分类不同车型的故障码,给出恰当的相应解决方案。因此,可 W节省大量的劳动力,缩短工作周期,降低成本。
[0073] W上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其 发明构思加 W等同替换或改变,都应涵盖在本发明的保护范围之内。
【主权项】
1. 故障码识别和分类平台,其特征在于,包括: 构建分类器单元,利用训练数据集构建朴素贝叶斯分类器; 分类单元,对新故障码进行具体分类。2. 根据权利要求1所述的故障码识别和分类平台,其特征在于,构建分类器单元中的朴 素贝叶斯分类器的步骤为: S1:对训练集中的故障码进行人工分类; S2:将每个类别中的故障码进行分词并计算每个词的TF-IDF权重值; S3:根据TF-IDF权重值筛选出特征词并建立特征词库; S4:分别计算每个类别中特征词在该类别条件下的条件概率; S5:构建朴素贝叶斯分类器。3. 根据权利要求2所述的故障码识别和分类平台,其特征在于,步骤S2中的'TFA特征词i的词频;^为特征词i在所有故障码中出现的次数,Σ W表示故 障码中所有特征词的出现次数总和。4. 根据权利要求2所述的故障码识别和分类平台,其特征在于,步骤S2中的IDFi为特征词i的逆向文件频率;E为语料库中故障码的总 数,{k:Wleek}表示包含特征词i的故障码数。5. 根据权利要求3或4所述的故障码识别和分类平台,其特征在于,步骤S2中的TF-IDF 权重值为: TF-IDF = TFXIDF TF-IDF权重值是词频与逆向文件频率的乘积。6. 根据权利要求1所述的故障码识别和分类平台,其特征在于,步骤S1故障码进行人工 分类后的类别集为c: C= {ci,C2,…,Ci,…,Cn} 〇7. 根据权利要求1所述的故障码识别和分类平台,其特征在于,将故障码e定义成若干 个特征词的集合: e= {wi,W2,…,Wn} 〇8. 根据权利要求1所述的故障码识别和分类平台,其特征在于,依据贝叶斯定理计算出 某个故障码e属于Cl类故障的概率,具体公式如下: P(ci | e) 〇〇P(e I Ci)P(ci) 其中,P(Cl)为一个故障码类别Cl在故障码空间所占比率;P(eUi)为对于给定的故障码 类别ci中故障码e的出现概率;计算某个故障码在每个分类中概率,取拥有最大概率值的类 别为该故障码的分类结果,具体为: G(e) = argmax{P(e | Ci)P(ci)} 〇9. 根据权利要求1所述的故障码识别和分类平台,其特征在于,分类单元对新故障码进 行具体分类,设在类别i中的故障码为ei,同时还有个待匹配的故障码e new: 步骤1:由这两组的特征词集合构成一个向量空间: 步骤2:结合向量空间,分别得到两个故障码的词向量值: 步骤3:利用余弦相似度计算两个故障码近似情况; 步骤4:如果所计算的相似度值大于阈值,则可以判断这两个故障码是相同的;如果所 计算的相似度值小于阈值,则继续与已知故障码库中的其他类别故障码进行余弦相似度计 算。10.根据权利要求1所述的故障码识别和分类平台,其特征在于,步骤S3中判断两个故 障码近似情况,具体公式如下:
【文档编号】G06K9/62GK106067037SQ201610365705
【公开日】2016年11月2日
【申请日】2016年5月27日 公开号201610365705.2, CN 106067037 A, CN 106067037A, CN 201610365705, CN-A-106067037, CN106067037 A, CN106067037A, CN201610365705, CN201610365705.2
【发明人】田雨农, 张辉
【申请人】大连楼兰科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1