一种具备人工行为学习能力的行业特征分析器的制造方法_2

文档序号:9750870阅读:来源:国知局
权。
[0051] 步骤305:输入对象和行业规则库相似度计算的结果。
[0052]步骤306:分析结果:结合步骤304和305的结果,按相似度倒排取超过阀值部分计 算命中的特征分类。若同时命中正逆向规则,则计算正逆相似度方差和是否小于〇来确定是 否抛弃此分类标识。
[0053]至此。分析器完成了对一个输入对象的分析过程。并根据人工规则库和所选行业 规则库进行了特征标注,并根据人工规则的匹配情况进行倾向性选择。
[0054]对于分析结果的人工操作,分析器进行记录和学习。
[0055] 如图5所示"行为学习"是分析器对人工操作进行记录和学习的工作方式。工作步 骤如下:
[0056] 步骤101:结果评价。人工可以对分析结果进行标注操作,并被分析器记录。人工评 价可以认为存在肯定和否定两种观点,因而给定一个从-1~+1的观点量化值,负数越小表 示否定程度越强(逆向规则),正数越大表肯定程度越强(正向规则)。这里通过累计人工行 为的次数来确定观点程度。由~ / Σ 《°看出表示极性词W在文档d中 liiesoewvD) 出现的次数占整个文档集中所有极性词出现的比例。通过"人工观点-> 获取观点对应的规 则-> 获取规则对应特征词"计算得出观点相关的特征词并赋予其观点权重系数( = + (1 - & (0这里取a = 〇.4)。对通过人工观点加权后的权重 ks 进行平滑处理。在同时命中正向规则和逆向规则的场景下,通过命中权重和人工观点权重 加值是否大于〇确定结果(步骤306)。
[0057] 步骤102:不认可分析结果。若人工标注为不认可分析结果,不认可分析结果表示 分析结果命中的规则被否定,分析器进行步骤105或步骤106的操作,记录本逆向规则。 [0058]步骤103:认可分析结果。认可时,将认为分析命中的规则被肯定,分析器将进行步 骤107或步骤108的操作,记录本正向规则。
[0059] 步骤104:在人工不认可分析结果后,可对结果进行调整,调整可能会是增加新的 标注或消除已有分析标注,消除认为是逆向规则,增加认为是正向规则。分析器将根据实际 操作情况进行步骤105、或步骤106、或步骤107、或步骤108的操作。
[0060] 步骤105: -条新的逆向规则包括:输入记录的VSM、命中规则的VSM、相似度值、和 否定权重(这里取0.1)。通过输入的对象的VSM检索发现人工规则库中无此逆向记录时,记 录一条新的逆向规则。
[0061 ]步骤106:当检索有此逆向规则时,提升其否定权重。
[0062]步骤107 : -条新的正向规则包括:输入记录的VSM、命中规则的VSM、相似度值、和 肯定权重(这里取0.1)。通过输入的对象的VSM检索发现人工规则库中无此正向记录时,记 录一条新的正向规则。
[0063]步骤108:当检索有此正向规则时,提升其肯定权重。
[0064] 步骤109:更新VSM,记录规则。将人工行为涉及的数据:人工标注的特征、特征相关 的VSM、正逆向规则(权重策略)进行更新,存储入人工规则库。
[0065] 人工规则随着标注的增多而逐渐具备人的业务观点倾向,同时在分析(步骤306) 时提供指导作用,实现机制闭环。
[0066]综上,所述一种具备人工行为学习能力的行业特征分析器可通过行业样本完成行 业知识的提取,进行对输入对象的业务特征识别,同时学习人的行为来进行观点修正,实 现不断完善,不断强化分析辨识能力,最终实现辅助或替代人完成业务分析工作的目的。
[0067]另外,本发明的具体实现方法和途径很多,以上所述仅是本发明的优选实施方式。 应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做 出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各 组成部分均可用现有技术加以实现。
【主权项】
1. 一种具备人工行为学习能力的行业特征分析器,其特征在于,包括分析任务调度器、 分析引擎、规则库、样本处理引擎、行业特征样本库; 行业特征样本库:包含多个行业特征样本,按行业分别存储,每个行业的样本又分为不 分类样本集和分类样本集;分类样本指依业务需要,根据定义好的业务分类进行分组的样 本;不分类样本指未经业务认定或分辨界限模糊,但是仍然具有价值的样本; 样本处理引擎包含所需的数据挖掘算法;其中,对于分类样本:对每一类样本分别使用 TF-IDF获取特征词,计算权重,创建词条VSM;权重和VSM按给定分类存储入行业规则库,特 征词按给定分类存储入行业特征词库;使用Apr iori按样本集分类进行挖掘获取频繁特征 短语和关联对象并建立向量,然后入行业规则库;对于不分类样本:使用K-means对整个样 本集进行聚类,根据聚合度提取特征词,然后入行业特征词库,给予分组标示;同时获得词 关联关系,然后入行业规则库,给予分组标示;使用Apriori挖掘样本集获取频繁特征短语 和关联对象并建立向量,然后入行业规则库 行业分析规则库:包含行业特征词库、行业规则库; 分析引擎:包含相似度匹配算法、特征标注算法,根据分析策略加载对应的行业分析规 则信息分析输入信息; 分析任务调度器:根据需求编排分析任务,和针对指定行业进行分析。2. 使用如权利要求1所述的具备人工行为学习能力的行业特征分析器的分析方法,其 特征在于:包括规则抽取、特征分析、行为学习。3. 如权利要求2所述的分析方法,其特征在于:规则抽取是分析器的常态运作方式,周 期性从所加载的行业特征样本库中加载样本集进行规则抽取和挖掘;工作步骤如下: 步骤201、分析器选择加载指定行业的样本。 步骤202及203、读取指定的行业特征样本库中的分类样本和不分类样本; 步骤204、从这步开始样本处理引擎开始工作;将样本集进行去重、分词、去除停用词和 奇异词转换,得到较为清洁的分词文档集; 步骤205、通过TF-IDF计算得特征和权重系数,并配合步骤206: Apr iori关联挖掘挖掘 文档集内频繁集和关联关系,补充特征词的关联词,并根据词频计算权重系数; 步骤206、Apri〇ri关联挖掘用于挖掘文档内关联规则,并和步骤205、207配合使用; 步骤207、K-means聚类;本步骤用于处理不分类样本集;设定聚类数K,从各聚合点的提 取特征词;并配合步骤206:Apri〇ri关联挖掘挖掘文档集内频繁集和关联关系,补充特征词 的关联词; 步骤208、用步骤205和206的结果建立词条VSM并存储入行业规则库。需要注意的是分 类样本是分类进行VSM建立和存储的; 步骤209、用步骤205和步骤207的结果存储入行业特征词库。4. 如权利要求3所述的分析方法,其特征在于:特征分析是分析器的分析态工作方式; 工作步骤如下: 步骤301、向分析器声明一个分析请求,递交待分析对象,并指定分析行业; 步骤302、分析器启动,加载行业规则库和人工规则库。 步骤303、将输入文本对象清理、分词后,生成VSM,并分别和人工规则库和行业规则库 中的每一分类对应的VSM进行余弦相似度计算和内积计算;并根据相似度排序; 步骤304、输入对象和人工规则库相似度计算的结果;若达到相似度认可阀值则通过记 录的正逆向规则进行观点倾向加权; 步骤305、输入对象和行业规则库相似度计算的结果; 步骤306、分析结果:结合步骤304和305的结果,按相似度倒排取超过阀值部分计算命 中的特征分类;若同时命中正逆向规则,则计算正逆相似度方差和是否小于〇来确定是否抛 弃此分类标识。5.如权利要求4所述的分析方法,其特征在于:行为学习是分析器对人工操作进行记录 和学习的工作方式;工作步骤如下: 步骤101、结果评价:人工可以对分析结果进行标注操作,并被分析器记录;人工评价存 在肯定和否定两种观点,因而给定一个从-1~+1的观点量化值,负数越小表示否定程度越 强,正数越大表肯定程度越强;通过累计人工行为的次数来确定观点程度;通过人工观点转 入获取观点对应的规则再转入获取规则对应特征词计算得出观点相关的特征词并赋予其 观点权重系数;对通过人工观点加权后的权重进行平滑处理;在同时命中正向规则和逆向 规则的场景下,通过命中权重和人工观点权重加值是否大于〇确定结果; 步骤102、不认可分析结果;若人工标注为不认可分析结果,不认可分析结果表示分析 结果命中的规则被否定,分析器进行步骤105或步骤106的操作,记录本逆向规则; 步骤103、认可分析结果、认可时,将认为分析命中的规则被肯定,分析器将进行步骤 107或步骤108的操作,记录本正向规则; 步骤104、在人工不认可分析结果后,可对结果进行调整,调整可能会是增加新的标注 或消除已有分析标注,消除认为是逆向规则,增加认为是正向规则。分析器进入进行步骤 105、或步骤106、或步骤107、或步骤108的操作; 步骤105、一条新的逆向规则包括:输入记录的VSM、命中规则的VSM、相似度值、和否定 权重;通过输入的对象的VSM检索发现人工规则库中无此逆向记录时,记录一条新的逆向规 则; 步骤106、当检索有此逆向规则时,提升其否定权重; 步骤107、一条新的正向规则包括:输入记录的VSM、命中规则的VSM、相似度值、和肯定 权重;通过输入的对象的VSM检索发现人工规则库中无此正向记录时,记录一条新的正向规 则; 步骤108:当检索有此正向规则时,提升其肯定权重; 步骤109:更新VSM,记录规则。将人工行为涉及的数据:人工标注的特征、特征相关的 VSM、正逆向规则进行更新,存储入人工规则库、 人工规则随着标注的增多而逐渐具备人的业务观点倾向,同时在分析时提供指导作 用,实现机制闭环。
【专利摘要】本发明公开了一种具备人工行为学习能力的行业特征分析器,涉及智能信息处理技术领域和大数据分析技术领域,包括可动态补充的行业特征样本库;分析器按一定策略从行业特征样本库中的两个样本集中抽取行业规则,形成行业分析规则库;在接受分析任务时,分析引擎根据行业分析规则库分析所输入未知特征文本,调整分析结果,辨识特征,实现学习能力。
【IPC分类】G06F17/30
【公开号】CN105512191
【申请号】CN201510836144
【发明人】张秋涵, 吴小铭, 金定勇, 饶慧
【申请人】南京莱斯信息技术股份有限公司
【公开日】2016年4月20日
【申请日】2015年11月25日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1