事件预测方法_2

文档序号:9810876阅读:来源:国知局
的事件预测实例的话单分析场景图。
【具体实施方式】
[0021]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0022]实施例一
[0023]请参阅图1,为本发明实施例提供的一种事件预测方法的流程图。本发明实施例的方法可以由配置以硬件和/或软件实现的事件预测装置来执行,该实现装置典型的是配置于能够提供情报分析服务的设备中。
[0024]该方法包括:步骤110?步骤170。
[0025]步骤110、采集待预测事件的业务数据和环境数据。
[0026]业务数据是指对待预测事件的预测结果有直接影响的数据,而环境数据是指对待预测事件的预测结果可能有影响的数据。
[0027]通过大数据规律分布和业务积累,发现很多偶然事件背后关联也来自其他环境因素,有很多其他边缘数据或者是和业务非相关的数据(即环境数据)引起了该事件的发生,因此,本步骤中采集待预测事件的业务数据和环境数据,保证了数据完整性,有利于提高预测结果的准确性。
[0028]业务数据的采集可以从业务缓冲库进行自动提取。对于环境数据,可采用标准检测和转换,并进行转换后的质量检测,判断是否合格,合格进入比对性统计分析资源库(anayDB),将anayDB中的数据作为环境数据。
[0029]其中,不同的待预测事件对应的业务数据和环境数据各不相同。环境数据可以包括:交通流量类数据、人口流量类数据、或者环境天气类数据。
[0030]步骤120、基于预先建立的数据整合模型,对所述业务数据和所述环境数据进行数据整合,得到所述待预测事件的打标数据。
[0031]本步骤中预先建立的数据整合模型为包含有各类事件的业务数据、环境数据和各类事件的打标数据之间的映射关系的分类统计结果,因此本操作具体是根据所述分类统计结果,确定所述待预测事件的业务数据和环境数据所映射到的打标数据。
[0032]具体的,所述数据整合模型的建立可以包括:
[0033]按照事件类别,对各类事件的业务数据和环境数据进行分类统计,得到各类事件所对应的业务数据和环境数据;
[0034]确定各类事件的打标数据;
[0035]按照事件类别,对各类事件所对应的业务数据和环境数据与打标数据进行分类统计,得到各类事件所对应的业务数据和环境数据与打标数据之间的映射关系,作为数据整合模型。
[0036]本步骤中,所述打标数据可包括下述至少一项:标记类型、事件分类、事件字典、因子参数值、因子级别、因子影响度、以及分析类型。
[0037]其中,标记类型可包括:一般因子、业务因子、环境因子、或关联因子。
[0038]因子级别可以包括:一级、二级和三级等。因子级别与因子对待预测事件的预测结果之间的影响关系为负相关,也即,一级因子对待预测事件的预测结果影响大于二级因子和三级因子。
[0039]步骤130、根据所述待预测事件的业务应用目标,以及所述待预测事件的打标数据,调整由所述待预测事件所属领域的多维关键因子组成的环境模板的参数,得到所述待预测事件的预测业务环境参数。
[0040]本步骤具体是对预测业务环境进行设置。
[0041]其中,所述待预测事件所属领域的多维关键因子是通过对该领域所有的字典项进行统计性分析、大量的实践和训练得到的。示例性地,假设某领域的多维关键因子包括:203个三级关键因子,89个二级关键因子,34个一级关键因子,每级因子对该领域的待预测事件的预测结果的影响是不同的,可根据因子级别来进行权重的分配。
[0042]由待预测事件所属领域的多维关键因子组成的环境模板可以涵盖该领域的各种业务应用目标,也即,所属环境模板是一个多维多层次的可以调整的分析环境,每个待预测事件的业务应用目标不同,所涉及的关键因子不同和所涉及的因子的权重也有所不同,但这些不同就是环境模板参数的调整。
[0043]步骤140、对所述待预测事件所属领域的多维关键因子进行逐层递归扫描,得到各层候选频繁项集和对应的频繁频率;根据所述待预测事件与各层候选频繁项集的包含关系,确定所述待预测事件对应的各层候选频繁项集;根据所述待预测事件的各层候选频繁项集的频繁频率,建立各因子阀值池,并统计各因子阀值池的计数;在因子阀值池的计数小于支持度阀值时,删除该因子阀值池;将剩余的因子阀值池所包含的多维关键因子确定为所述待预测事件的随机样本空间,采用最小支持度搜寻所述随机样本空间中的频繁项集,并计算随机样本空间中的频繁项集所包含的多维关键因子的重复度;
[0044]根据所述随机样本空间中的频繁项集,以及所包含的多维关键因子的重复度,并根据所述待预测事件的打标数据和预测业务环境参数,确定所述待预测事件的因子结构。
[0045]本步骤具体是,将待预测事件所属领域的多维关键因子作为待预测事件的待关键因子,进行待关键因子数据分析,得到所述待预测事件的因子结构。待关键因子数据分析包括了对待关键因子进行逐层递归扫描、分析待关键因子与待预测事件的包含关系、删除不相关的待关键因子、从待预测事件所属领域的多维关键因子中初步筛选出与待预测事件相关联的因子,作为待预测事件的随机样本空间,优化了待预测事件的随机样本空间,提高了随机样本空间的有效性,还包括了计算随机样本空间中待关键因子的重复度,基于此,在有效的随机样本空间中进一步筛选出对待预测事件的预测结果影响比较大的多维关键因子,进而确定所述待预测事件的因子结构。
[0046]本步骤中,首先是,对所述待预测事件所属领域的多维关键因子进行逐层递归扫描,得到各层候选频繁项集和对应的频繁频率。具体的,从基本元素开始,按照递归的原则,进行层层扫描,每一次扫描发现一个层级的因子;在扫描得到一个层级的因子之后,减少元素数据,再次递归扫描。通过不断减少元素数据,压缩了搜索空间,从而提高了逐层产生各层候选频繁项集的效率。
[0047]其次,根据所述待预测事件与各层候选频繁项集的包含关系,确定所述待预测事件对应的各层候选频繁项集。其具体的思路就是在一个事件上没包括候选频繁项集A时,当然也不会包括所有(A+A)的候选频繁项集,当扫描出(A+A)时,由于其对待预测事件的相关度降低,因此可以不用在扫描该项集的其他要素。
[0048]再其次,根据所述待预测事件的各层候选频繁项集的频繁频率,建立各因子阀值池,并统计各因子阀值池的计数;在因子阀值池的计数小于支持度阀值时,删除该因子阀值池。具体是通过建立因子阀值池,并利用支持度阀值,将计数小于支持度阀值的因子阀值池删除,从而从待预测事件所属领域的多维关键因子中初步筛选出与待预测事件相关
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1