一种具备人工行为学习能力的行业特征分析器的制造方法

文档序号：9750870阅读：196来源：国知局

一种具备人工行为学习能力的行业特征分析器的制造方法
【技术领域】
[0001 ]本发明涉及智能信息处理技术领域和大数据分析技术领域。
【背景技术】
[0002] -个行业(领域）的知识是繁杂多态的，从行业数据中提取知识并让计算机作为分析依据，其中需要涉及相关方面的技术:数据挖掘，特征辨识，学习完善。数据挖掘：目前数据挖掘采用的技术和手段是多样的，但是每种技术都有不足之处，对于不同特性的样本需要采用不同的手段。特征辨识:计算机根据给定特征分类体系对输入信息进行特征标注(或分类），辨识水平依托样本质量和数量（训练效果）。学习完善:利用新的数据不断重组和完善自己的辨识(分类)体系，达到能力提升的目的。
[0003] 对于一个行业/领域知识/特征的提取，目前的工作量和技术点主要在数据挖掘方面，对于未知特征样本分析采用数据挖掘方式有：1、聚类。使同类别数据对象差距较小，不同类别间差距较大。聚类结果是未知的，是对数据的自然划分，会因样本噪声的影响产生偏差。2、挖掘频繁项集。挖掘数据间的关联关系和规则，用以分析特征。3、在完善效果方面，目前多数是通过标注和定期更新样本集重新训练，周期长，不具备递进性。
[0004]由于这些方式单独并不具备完整性，存在差异和缺点，导致实际分析结果往往差强人意。故需要一种新的技术方案以解决上述问题。

【发明内容】

[0005] 本发明的目的在于更加精确的获得道路交通车辆排队长度信息，在不同应用场景，实时跟踪检测区域内运动车辆，准确计算车辆排队长度，判断道路交通状况，来有效分析和管理道路交通。
[0006] 为达到上述目的，本发明可采用如下技术方案：
[0007] -种具备人工行为学习能力的行业特征分析器，包括分析任务调度器、分析引擎、规则库、样本处理引擎、行业特征样本库；
[0008] 行业特征样本库:包含多个行业特征样本，按行业分别存储，每个行业的样本又分为不分类样本集和分类样本集;分类样本指依业务需要，根据定义好的业务分类进行分组的样本;不分类样本指未经业务认定或分辨界限模糊，但是仍然具有价值的样本；
[0009] 样本处理引擎包含所需的数据挖掘算法;其中，对于分类样本:对每一类样本分别使用TF-IDF获取特征词，计算权重，创建词条VSM;权重和VSM按给定分类存储入行业规则库，特征词按给定分类存储入行业特征词库;使用Apriori按样本集分类进行挖掘获取频繁特征短语和关联对象并建立向量，然后入行业规则库;对于不分类样本:使用K-means对整个样本集进行聚类，根据聚合度提取特征词，然后入行业特征词库，给予分组标示；同时获得词关联关系，然后入行业规则库，给予分组标示;使用Apriori挖掘样本集获取频繁特征短语和关联对象并建立向量，然后入行业规则库
[0010] 行业分析规则库:包含行业特征词库、行业规则库；
[0011] 分析引擎:包含相似度匹配算法、特征标注算法，根据分析策略加载对应的行业分析规则信息分析输入信息；
[0012] 分析任务调度器:根据需求编排分析任务，和针对指定行业进行分析。
[0013] 并且本发明中给出使用上述分析器的分析方法，包括规则抽取、特征分析、行为学习。
[0014] 与现有技术相比，本发明的关键点是实现了一种具备人工行为学习能力的行业特征分析器，达到了自动提取行业知识，应用行业知识辨识对象，学习人工行为提升分析能力的目标。其主要特征点在于：1、基于行业样本提取行业知识。2、基于行业知识，分析识别指定对象的行业特征。3、记录和学习人工行为，模拟人的观点倾向，不断提高分析识别水平。 4、可同时进行多个行业的分析和学习。
[0015] 本发明体现了如下优点：
[0016] 1、挖掘行业知识：可以从大量繁杂、非结构化的行业文本数据中，挖掘出行业知识，能够用于快速分析一个行业的特征，提取业务重点。行业样本数据的数量和质量能够影响知识挖掘的水平和利用知识分析的水平。
[0017] 2、利用知识分析:可通过挖掘得的行业知识，对输入对象进行行业特征分析，从而可以实现对大量数据的筛选、过滤、汇总，取得人无法比拟的效率优势。
[0018] 3、多行业同步分析:可以同时利用多个行业的知识进行分析。
[0019] 4、学习并自完善:可以利用人对分析结果的干涉进行学习，积累这些人工行为，在下次分析时作为参考，不断提升分析水准(准确率）。
【附图说明】
[0020]图1是本发明行业特征分析器的结构示意图；
[0021 ]图2为本发明行业特征分析器的使用方法示意图；
[0022]图3为本发明中规则抽取的流程图；
[0023]图4为本发明中特征分析的流程图；
[0024]图5为本发明中行为学习的流程图。
【具体实施方式】
[0025] 以下首先介绍本发明中应用到的术语的相关解释，以使本发明更易于理解。
[0026]
[0027]
[0028] 本发明公开了一种具备人工行为学习能力的行业特征分析器，主要阐述其运作机制和实现原理。
[0029] 结构上，如图1所示，分析器包括分析任务调度器、分析引擎、规则库(包括通用规则库和行业分析规则库）、样本处理引擎、行业特征样本库。
[0030] 行业特征样本库:包含多个行业特征样本，按行业分别存储，每个行业的样本又分为不分类样本集和分类样本集。可以动态扩容和调整。分类样本指依业务需要，根据定义好的业务分类进行分组的样本。不分类样本指未经业务认定或分辨界限模糊，但是仍然具有价值的样本。
[0031] 样本处理引擎：包含所需的数据挖掘算法一一清洗（去重、去停用词、奇异词转换）、分词、Apriori关联规则挖掘、K-means聚类、TF-IDF。用于从指定行业样本库中挖掘抽取该行业的特征词和基于特征词的特征规则一一规则是一系列词频向量和权重系数的组合。对于分类样本:①对每一类样本分别使用TF-IDF获取特征词，计算权重，创建词条VSM (向量空间模型）。权重和VSM按给定分类存储入行业规则库，特征词按给定分类存储入行业特征词库②使用Apriori按样本集分类进行挖掘获取频繁特征短语和关联对象，建立向量 (二维），入行业规则库。对于不分类样本:①使用K-means对整个样本集进行聚类(K暂指定，后由人工行为动态调整K)，根据聚合度提取特征词，入行业特征词库，给予分组标示。同时获得词关联关系（二维），入行业规则库，给予分组标示②使用Apriori挖掘样本集获取频繁特征短语和关联对象，建立向量(二维），入行业规则库。
[0032] 行业分析规则库:包含行业特征词库、行业规则库。其中行业特征词库和行业规则库来自机器自动挖掘。也可以选择增加人工规则库内记录的分析规则来自人工操作，并作为行业经验赋予高权重，影响后续分析结果。
[0033] 分析引擎:包含相似度匹配算法、特征标注算法，根据分析策略加载对应的行业分析规则信息分析输入信息。
[0034] 分析任务调度器:根据需求编排分析任务，和针对指定行业进行分析。
[0035] 在实现原理上，一种具备人工行为学习能力的行业特征分析器由规则抽取、特征分析、行为学习三部分构成。如图2所示，分析器依托行业特征样本提取行业规则，运用到分析上。人工对分析结果进行标注后，能够被分析器记录形成人工规则，为后续分析提供参考并调整分析结果。在运作一段时间后可形成无人值守式自分析环境。下面分别描述规则提取、特征分析、行为学习的运作机制。
[0036] 其中，如图3,规则抽取是分析器的常态运作方式，周期性从所加载的"行业特征样本库"中加载样本集进行规则抽取和挖掘。工作步骤如下：
[0037] 步骤201:分析器选择加载指定行业的样本(可同时加载多个行业）。
[0038]步骤202、203:读取指定的"行业特征样本库"中的分类样本和不分类样本。
[0039]步骤204:从这步开始样本处理引擎开始工作。将样本集进行去重、分词、去除停用词和奇异词转换，得到较为清洁的分词文档集。
[0040] 步骤205:通过TF-IDF计算得特征（降维）和权重系数，。根据TF-IDF的原理可知单独使用具有一定的片面性，这里配合"步骤206:Apri 〇ri关联挖掘"挖掘文档集内频繁集和关联关系，补充特征词的关联词，并根据词频计算权重系数。需要注意的是，步骤205只用于抽取分类样本集，且是分别处理每个分类。
[0041] 步骤206:Apri〇ri关联挖掘用于挖掘文档内关联规则，并和步骤205、207配合使用。
[0042] 步骤207:K-meanS聚类。本步骤用于处理不分类样本集。设定聚类数K(可人工指定），从各聚合点的提取特征词。需要注意的是从不分类样本集中聚类出的分类不具备业务上的意义。这里配合"步骤206:Apri 〇ri关联挖掘"挖掘文档集内频繁集和关联关系，补充特征词的关联词。
[0043] 步骤208:用步骤205和206的结果建立词条空间向量模型(VSM)并存储入行业规则库。需要注意的是分类样本是分类进行VSM建立和存储的。
[0044] 步骤209:用步骤205和步骤207的结果存储入行业特征词库。
[0045] 至此，基于行业样本的特征和规则的抽取一一也就是所谓的知识提取完成，这一过程可以根据实际情况调整样本处理引擎的算法。随着日后样本数量的不断增多和样本质量的不断提高，行业特征规则也愈发全面。
[0046] 如图4,特征分析是分析器的分析态工作方式。工作步骤如下：
[0047]步骤301:向分析器声明一个分析请求，递交待分析对象，并指定分析行业。
[0048]步骤302:分析器启动，加载行业规则库和人工规则库。
[0049] 步骤303:将输入文本对象清理、分词后，生成VSM，并分别和人工规则库和行业规则库中的每一分类对应的VSM进行余弦相似度计算和内积计算。并根据相似度排序(不分类样本中得出的VSM的命中阀值的设定应低于分类样本）。
[0050] 步骤304:输入对象和人工规则库相似度计算的结果。若达到相似度认可阀值则通过记录的正逆向规则进行观点倾向加

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张秋涵;吴小铭;金定勇;饶慧;
技术所有人：南京莱斯信息技术股份有限公司;
我是此专利的发明人

上一篇：一种智能站检修作业指导书自动生成的方法及装置的制造方法
上一篇：界面跳转方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。