一种具备人工行为学习能力的行业特征分析器的制造方法

文档序号:9750870阅读:196来源:国知局
一种具备人工行为学习能力的行业特征分析器的制造方法
【技术领域】
[0001 ]本发明涉及智能信息处理技术领域和大数据分析技术领域。
【背景技术】
[0002] -个行业(领域)的知识是繁杂多态的,从行业数据中提取知识并让计算机作为分 析依据,其中需要涉及相关方面的技术:数据挖掘,特征辨识,学习完善。数据挖掘:目前数 据挖掘采用的技术和手段是多样的,但是每种技术都有不足之处,对于不同特性的样本需 要采用不同的手段。特征辨识:计算机根据给定特征分类体系对输入信息进行特征标注(或 分类),辨识水平依托样本质量和数量(训练效果)。学习完善:利用新的数据不断重组和完 善自己的辨识(分类)体系,达到能力提升的目的。
[0003] 对于一个行业/领域知识/特征的提取,目前的工作量和技术点主要在数据挖掘方 面,对于未知特征样本分析采用数据挖掘方式有:1、聚类。使同类别数据对象差距较小,不 同类别间差距较大。聚类结果是未知的,是对数据的自然划分,会因样本噪声的影响产生偏 差。2、挖掘频繁项集。挖掘数据间的关联关系和规则,用以分析特征。3、在完善效果方面,目 前多数是通过标注和定期更新样本集重新训练,周期长,不具备递进性。
[0004]由于这些方式单独并不具备完整性,存在差异和缺点,导致实际分析结果往往差 强人意。故需要一种新的技术方案以解决上述问题。

【发明内容】

[0005] 本发明的目的在于更加精确的获得道路交通车辆排队长度信息,在不同应用场 景,实时跟踪检测区域内运动车辆,准确计算车辆排队长度,判断道路交通状况,来有效分 析和管理道路交通。
[0006] 为达到上述目的,本发明可采用如下技术方案:
[0007] -种具备人工行为学习能力的行业特征分析器,包括分析任务调度器、分析引擎、 规则库、样本处理引擎、行业特征样本库;
[0008] 行业特征样本库:包含多个行业特征样本,按行业分别存储,每个行业的样本又分 为不分类样本集和分类样本集;分类样本指依业务需要,根据定义好的业务分类进行分组 的样本;不分类样本指未经业务认定或分辨界限模糊,但是仍然具有价值的样本;
[0009] 样本处理引擎包含所需的数据挖掘算法;其中,对于分类样本:对每一类样本分别 使用TF-IDF获取特征词,计算权重,创建词条VSM;权重和VSM按给定分类存储入行业规则 库,特征词按给定分类存储入行业特征词库;使用Apriori按样本集分类进行挖掘获取频繁 特征短语和关联对象并建立向量,然后入行业规则库;对于不分类样本:使用K-means对整 个样本集进行聚类,根据聚合度提取特征词,然后入行业特征词库,给予分组标示;同时获 得词关联关系,然后入行业规则库,给予分组标示;使用Apriori挖掘样本集获取频繁特征 短语和关联对象并建立向量,然后入行业规则库
[0010] 行业分析规则库:包含行业特征词库、行业规则库;
[0011] 分析引擎:包含相似度匹配算法、特征标注算法,根据分析策略加载对应的行业分 析规则信息分析输入信息;
[0012] 分析任务调度器:根据需求编排分析任务,和针对指定行业进行分析。
[0013] 并且本发明中给出使用上述分析器的分析方法,包括规则抽取、特征分析、行为学 习。
[0014] 与现有技术相比,本发明的关键点是实现了一种具备人工行为学习能力的行业特 征分析器,达到了自动提取行业知识,应用行业知识辨识对象,学习人工行为提升分析能力 的目标。其主要特征点在于:1、基于行业样本提取行业知识。2、基于行业知识,分析识别指 定对象的行业特征。3、记录和学习人工行为,模拟人的观点倾向,不断提高分析识别水平。 4、可同时进行多个行业的分析和学习。
[0015] 本发明体现了如下优点:
[0016] 1、挖掘行业知识:可以从大量繁杂、非结构化的行业文本数据中,挖掘出行业知 识,能够用于快速分析一个行业的特征,提取业务重点。行业样本数据的数量和质量能够影 响知识挖掘的水平和利用知识分析的水平。
[0017] 2、利用知识分析:可通过挖掘得的行业知识,对输入对象进行行业特征分析,从而 可以实现对大量数据的筛选、过滤、汇总,取得人无法比拟的效率优势。
[0018] 3、多行业同步分析:可以同时利用多个行业的知识进行分析。
[0019] 4、学习并自完善:可以利用人对分析结果的干涉进行学习,积累这些人工行为,在 下次分析时作为参考,不断提升分析水准(准确率)。
【附图说明】
[0020]图1是本发明行业特征分析器的结构示意图;
[0021 ]图2为本发明行业特征分析器的使用方法示意图;
[0022]图3为本发明中规则抽取的流程图;
[0023]图4为本发明中特征分析的流程图;
[0024]图5为本发明中行为学习的流程图。
【具体实施方式】
[0025] 以下首先介绍本发明中应用到的术语的相关解释,以使本发明更易于理解。
[0026]
[0027]
[0028] 本发明公开了一种具备人工行为学习能力的行业特征分析器,主要阐述其运作机 制和实现原理。
[0029] 结构上,如图1所示,分析器包括分析任务调度器、分析引擎、规则库(包括通用规 则库和行业分析规则库)、样本处理引擎、行业特征样本库。
[0030] 行业特征样本库:包含多个行业特征样本,按行业分别存储,每个行业的样本又分 为不分类样本集和分类样本集。可以动态扩容和调整。分类样本指依业务需要,根据定义好 的业务分类进行分组的样本。不分类样本指未经业务认定或分辨界限模糊,但是仍然具有 价值的样本。
[0031] 样本处理引擎:包含所需的数据挖掘算法一一清洗(去重、去停用词、奇异词转 换)、分词、Apriori关联规则挖掘、K-means聚类、TF-IDF。用于从指定行业样本库中挖掘抽 取该行业的特征词和基于特征词的特征规则一一规则是一系列词频向量和权重系数的组 合。对于分类样本:①对每一类样本分别使用TF-IDF获取特征词,计算权重,创建词条VSM (向量空间模型)。权重和VSM按给定分类存储入行业规则库,特征词按给定分类存储入行业 特征词库②使用Apriori按样本集分类进行挖掘获取频繁特征短语和关联对象,建立向量 (二维),入行业规则库。对于不分类样本:①使用K-means对整个样本集进行聚类(K暂指定, 后由人工行为动态调整K),根据聚合度提取特征词,入行业特征词库,给予分组标示。同时 获得词关联关系(二维),入行业规则库,给予分组标示②使用Apriori挖掘样本集获取频 繁特征短语和关联对象,建立向量(二维),入行业规则库。
[0032] 行业分析规则库:包含行业特征词库、行业规则库。其中行业特征词库和行业规则 库来自机器自动挖掘。也可以选择增加人工规则库内记录的分析规则来自人工操作,并作 为行业经验赋予高权重,影响后续分析结果。
[0033] 分析引擎:包含相似度匹配算法、特征标注算法,根据分析策略加载对应的行业分 析规则信息分析输入信息。
[0034] 分析任务调度器:根据需求编排分析任务,和针对指定行业进行分析。
[0035] 在实现原理上,一种具备人工行为学习能力的行业特征分析器由规则抽取、特征 分析、行为学习三部分构成。如图2所示,分析器依托行业特征样本提取行业规则,运用到分 析上。人工对分析结果进行标注后,能够被分析器记录形成人工规则,为后续分析提供参考 并调整分析结果。在运作一段时间后可形成无人值守式自分析环境。下面分别描述规则提 取、特征分析、行为学习的运作机制。
[0036] 其中,如图3,规则抽取是分析器的常态运作方式,周期性从所加载的"行业特征样 本库"中加载样本集进行规则抽取和挖掘。工作步骤如下:
[0037] 步骤201:分析器选择加载指定行业的样本(可同时加载多个行业)。
[0038]步骤202、203:读取指定的"行业特征样本库"中的分类样本和不分类样本。
[0039]步骤204:从这步开始样本处理引擎开始工作。将样本集进行去重、分词、去除停用 词和奇异词转换,得到较为清洁的分词文档集。
[0040] 步骤205:通过TF-IDF计算得特征(降维)和权重系数,。根据TF-IDF的原理可知单 独使用具有一定的片面性,这里配合"步骤206:Apri 〇ri关联挖掘"挖掘文档集内频繁集和 关联关系,补充特征词的关联词,并根据词频计算权重系数。需要注意的是,步骤205只用于 抽取分类样本集,且是分别处理每个分类。
[0041] 步骤206:Apri〇ri关联挖掘用于挖掘文档内关联规则,并和步骤205、207配合使 用。
[0042] 步骤207:K-meanS聚类。本步骤用于处理不分类样本集。设定聚类数K(可人工指 定),从各聚合点的提取特征词。需要注意的是从不分类样本集中聚类出的分类不具备业务 上的意义。这里配合"步骤206:Apri 〇ri关联挖掘"挖掘文档集内频繁集和关联关系,补充特 征词的关联词。
[0043] 步骤208:用步骤205和206的结果建立词条空间向量模型(VSM)并存储入行业规 则库。需要注意的是分类样本是分类进行VSM建立和存储的。
[0044] 步骤209:用步骤205和步骤207的结果存储入行业特征词库。
[0045] 至此,基于行业样本的特征和规则的抽取一一也就是所谓的知识提取完成,这一 过程可以根据实际情况调整样本处理引擎的算法。随着日后样本数量的不断增多和样本质 量的不断提高,行业特征规则也愈发全面。
[0046] 如图4,特征分析是分析器的分析态工作方式。工作步骤如下:
[0047]步骤301:向分析器声明一个分析请求,递交待分析对象,并指定分析行业。
[0048]步骤302:分析器启动,加载行业规则库和人工规则库。
[0049] 步骤303:将输入文本对象清理、分词后,生成VSM,并分别和人工规则库和行业规 则库中的每一分类对应的VSM进行余弦相似度计算和内积计算。并根据相似度排序(不分类 样本中得出的VSM的命中阀值的设定应低于分类样本)。
[0050] 步骤304:输入对象和人工规则库相似度计算的结果。若达到相似度认可阀值则通 过记录的正逆向规则进行观点倾向加
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1