一种事件统计方法及装置与流程

文档序号:21646079发布日期:2020-07-29 02:59阅读:132来源:国知局
一种事件统计方法及装置与流程

本申请涉及计算机应用领域,尤其涉及一种事件统计方法及装置。



背景技术:

在金融监管领域,为了对企业乃至整个行业进行规范与监管,人们常常需要对与金融活动相关且包含金融活动参与主体的事件进行统计与分析;例如,某段时间以来多家媒体撰文爆料某企业的现金流紧张、亏损严重,则监管者就可以通过对此类事件的统计与分析,获知该企业的运营风险,并采取必要措施。



技术实现要素:

有鉴于此,本说明书公开了一种事件统计方法及装置。

根据本申请实施例的第一方面,公开了一种事件统计方法,所述方法包括:

从数据流中提取事件;

确定提取出的各事件的执行主体;

计算提取出的各事件的热度指标;

在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。

根据本申请实施例的第二方面,公开了一种事件统计装置,所述装置包括:

事件提取模块,从数据流中提取事件;

执行主体确定模块,确定提取出的事件的执行主体;

热度指标计算模块,计算提取出的各事件的热度指标;

汇总统计模块,在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。

以上技术方案中,一方面,由于采用了动态时间区间统计、实时计算输出的方式,事件热度的变化会即时地体现在统计结果中;因此,一段时间内输出的事件统计结果能够更好地反映事件的演变过程,方便用户把握当前热点以及变化规律。

另一方面,由于采用了流计算的设计,首先从数据流中提取事件,再针对事件统计热度,并按执行主体进行汇总统计的方式,相对于传统的按批次异步处理设计,无需反复取出、回溯整批数据,因此能够更充分地利用计算资源,提高程序执行性能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书文本一同用于解释原理。

图1是本说明书所述事件统计方法的一流程示例图;

图2是本说明书所述从数据流中提取事件的一示意图;

图3是本说明书所述事件流去重的一示例图;

图4是本说明书所述滑动时间区间统计的一示例图;

图5是本说明书所述多个输出结果综合展示的一示例图;

图6是本说明书所述事件统计装置的一结构示例图;

图7是本说明书所述用于事件统计的电子设备的一结构示例图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的系统和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在金融监管领域,为了对企业乃至整个行业进行规范与监管,人们常常需要对与金融活动相关且包含金融活动的参与主体的事件进行统计与分析;例如,某段时间以来多家媒体撰文爆料某企业的现金流紧张、亏损严重,则监管者就可以通过对此类事件的统计与分析,获知该企业的运营风险,并采取必要措施。

在相关技术中,通常采用固定窗口统计、异步更新的方式完成事件统计;具体而言,可以通过在线采集的方式将原始数据沉淀于数仓(数据仓库)环境,再以批量计算的方式按照数据中的时间信息进行聚合,最后异步更新、产出统计数据。

固定窗口统计,指统计的时间区间之间没有重叠的统计方式,例如统计每天的商品销售额,特点是逻辑清晰、性能压力低;与之对应的是滑动窗口统计,又称动态时间区间统计,在动态时间区间统计中,用于统计的时间区间之间存在重叠,很多数据会被划到大于一个区间中统计,例如统计最近一个小时的浏览量等,特点是即时性好、性能压力大。

采用上述统计方式,由于采用了批量计算、异步更新的设计,相对滑动窗口统计可以减少对计算资源的耗用,提升性能;但是,该方案由于采用数仓批量计算,异步更新的频率不高,会导致统计数据的产出严重滞后,无法满足对热点统计的使用需求。

基于此,本说明书提出一种基于流式计算的、从数据流中提取事件流,进一步生成事件的执行主体的热度统计流,并实时输出的技术方案。

其中,数据流一般是指,在时间分布和数量上无限的一系列动态数据集合体,通常,此类数据的价值随着时间的流逝而降低,因此对其处理具有较高的时效性要求;相对应的,流式计算是指对数据流进行的、持续性的计算;相对于传统的批量计算,前者强调实时性和持续性,可以用于互联网、金融等领域的事件监控、趋势分析等。

在实现时,从持续的数据流中提取需要进行统计分析的事件,并确定事件的执行主体,以便在计算得到上述事件的热度指标后,可以根据事件的执行主体,对上述热度指标进行汇总统计;如此,原始的数据流便完成了向事件流、执行主体热度流的转化。

在以上技术方案中,一方面,由于采用了动态时间区间统计、实时计算输出的方式,事件热度的变化会即时地体现在统计结果中;因此,一段时间内输出的事件统计结果能够更好地反映事件的演变过程,方便用户把握当前热点以及变化规律。

另一方面,由于采用了流计算的设计,首先从数据流中提取事件,再针对事件统计热度,并按执行主体进行汇总统计的方式,相对于传统的按批次异步处理设计,无需反复调取、回溯整个批次的数据,能够更充分地利用计算资源,提高程序执行性能。

下面通过具体实施例并结合具体的应用场景对本申请进行描述。

请参考图1,图1是本申请一实施例提供的一种事件统计方法的一流程示意图,该方法执行以下步骤:

s101,从数据流中提取事件;

s102,确定提取出的各事件的执行主体;

s103,计算提取出的各事件的热度指标;

s104,在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。

上述事件,指与金融活动相关的、可以从数据流中提取到的事件;事件的执行主体,即为对应的金融活动的参与主体;而上述数据流,则可以包括新闻报道、论坛发帖、官方公告、政府公文等等各种形式在内的、包含着具有上述事件的信息渠道;

请参见图2,图2是从数据流中提取事件的一示例图;在本例中,某新闻报道文章中提及,“a集团在2月3日拿到一笔两千万美元的投资”,则该新闻报道文章即相当于上述数据流,“a集团在2月3日拿到一笔两千万美元的投资”则为一起事件,该事件的执行主体为a集团;可以理解的是,新闻报道不一定是针对某一个事件的,因此,从同一篇报道中也可能提取到内容不同的多个事件。

在本说明书中,上述事件统计方法具体采用何种数据流,开发人员可以根据具体的应用场景自行配置;相对应的,从数据流中提取事件,以及确定事件的执行主体的方式,也可参考相关技术文档完成对应设计,本说明书不作具体限定。

例如,在专注新闻领域分析的场景下,上述数据流即可以为众多不断更新的新闻稿的集合,其中可能包含了各企业诸如成立、融资、收购等事件,上述企业即为此类事件的执行主体;相对应的,对于新闻稿等非结构化的数据的处理,可以采用语义分析、正则表达式过滤等方式,从中提取出需要进行后续处理的事件,并确定事件的执行主体;

又例如,在专注金融分析的场景下,上述数据流即可以为众多不断更新的股市统计指标的集合,其中可能包含了各企业诸如上市、股价下跌等事件,上述企业即为此类事件的执行主体;相对应的,对于股市统计指标等结构化的数据,则可以根据其数据结构,直接提取出需要进行后续处理的事件。

在示出的一种实施方式中,上述数据流可以包括舆情文章;舆情文章在此泛指能够反映一定的事件,并在公众中存在影响力的文章,例如新闻报道、政府公文、论坛贴文、社交媒体短文等等;其中,舆情文章的影响力指标可以作为计算对应事件的热度指标的计算依据,通常,一篇舆情文章的影响力越大,公众对其中的事件的讨论热度就会越高,对应到上述指标中,舆情文章的影响力指标越高,则从中提取的事件的热度指标也就会越高;

例如,社交平台上粉丝数量众多、并具有平台认证的“大v”发布的文章,即可能具有较大的影响力,相较于社交圈子较小的普通人发布的文章,“大v”发布的文章提及的事件,一般会具有较高的讨论热度;对应到上述指标上,“大v”发布的文章影响力指标更高,即会导致从中提取的事件的热度指标的升高。

在本说明书中,上述影响力指标可以作为舆情文章的属性标签,与舆情文章本身一同存在于数据流中以待被直接读取,也可以作为一种被预先独立于数据流之外存储、但可凭借舆情文章进行查询的指标;例如,该舆情文章的阅读量、转发量、评论量等等均可作为属性标签直接读取,而“预设某大v发布的文章的影响力指标为某值”这类的预设值可以独立存储以备查询;等等。

在示出的一种实施方式中,上述影响力指标可以包括舆情文章来源的可信度评分,而该评分用以表征舆情文章的来源的可信度;例如,作为舆情文章的来源,政府用于发布公告的账号,一般具有高于普通媒体的可信度,因此可以给予其高于普通媒体的可信度评分。

可以理解的是,具体采用何种数学模型描述舆情文章在公众舆论中的影响力,以确定其影响力指标,以及进一步采用何种数学模型根据影响力指标计算热度指标,本领域技术人员可以根据具体需求自行选择,本申请无需进行具体限定;

例如,影响力指标与热度指标可以通过以下公式计算得到:

影响力指标=(文章阅读量+文章转发量*20+文章评论量*10)*可信度权重;

热度指标=sqrt(影响力指标/50000)。

以上公式中的常数、组合关系以及计算符号均可以根据具体需求进行调整。

通过对上述影响力指标的设计,可以从多个维度完成对于舆情文章影响力的评估,使得具有更大的影响力的舆情文章能够获得更高的影响力指标;进而可以保证计算出的事件的热度指标,能够符合舆情热度的实际情况。

在本说明书中,上述从数据流中提取的若干事件可以视为事件流,可以对其进行去重处理;具体而言,可以设定基于事件提取自的舆情文章、事件的执行主体,或者基于出现次数相关的门限,并对超过该门限的事件进行去重处理;例如,对于来自同一篇新闻稿的、内容均为“c公司破产”的多个事件,很有可能是在事件提取过程中,由于文章内容中反复提及相关字段,导致被重复提取的事件,因此,可以对超出门限的事件采取去重处理。

在示出的一种实施方式中,可以限定源自同一舆情文章,且执行主体相同的多个事件中,仅保留最新的(发生时间最晚的)一个事件;请参见图3,图3是上述去重处理的一示意图,在此例中,可见c1、c2事件同样来自于c文章,且两者执行主体均为a集团,符合上述判断标准,因此可以归入同一个待去重事件组;又由于事件c1更早进入事件流,可以认为其发生时间更早,因此可以仅保留其中发生时间最晚的c2事件,舍弃c1事件。

可以理解的是,上述去重过程用到了事件的发生时间,该时间可以来自于事件被提取时系统赋予的时间戳(timestrap),也可以为上述流式处理过程中赋予的水位线(watermark);其中,水位线是一个随着流式处理过程不断增加的数值,一般通过事件的发生时间与系统对于乱序导致的时间差的容忍长度计算得来,水位线即表示,所有时间戳小于该水位线的数据均已到达该处理阶段,其可以用来在流式计算中处理乱序数据;具体采用何种计时以及排序标准,本领域技术人员可以综合实际情况选择,本申请不作具体限定。

在本说明书中,在计算出上述事件的热度指标后,即可在滑动的时间区间内,对上述执行主体所执行的事件的热度指标进行汇总统计,以获得与各执行主体对应的热度指标;具体实现中,上述时间区间的长度、滑动步长、滑动频率均可由本领域技术人员依据实际需求自行设定;

例如,请参见图4,图4为利用滑动的时间区间进行统计的一示例图;在本例中,可以设定时间区间为1小时,滑动步长为5分钟,滑动频率为5分钟一次,即可以每5分钟完成一次针对最近1小时的数据的统计。

在示出的一种实施方式中,上述对各执行主体所执行的事件的热度指标进行汇总统计,可以通过求和来实现;具体而言,对任一执行主体所执行的所有事件的热度指标进行求和,求和的结果即可作为该执行主体对应的热度指标。

在示出的一种实施方式中,得到上述各执行主体对应的热度指标后,可以按热度指标的大小,对各执行主体进行排序,并输出该排序结果中的前若干个以供用户使用;例如,按热度指标的大小,对各执行主体进行排序后,依次输出排序结果中的前20个执行主体以及对应的热度指标,即可为用户提供当前时间区间内,排名前20的舆论热点主体。

可以理解的是,在流式计算中,对于上述排序过程,每当有新的执行主体数据,或者热度指标数据的更新,都可以在增量更新数据后,对当前时间区间内的执行主体按其热度指标进行重排序,并将重排序的结果作为更新后的输出内容。

在本说明书中,随着时间的推进,以及时间窗口的滑动,上述过程会输出若干份排行榜单,如图5所示,图5是多个输出结果综合展示的一示例图;在该例中,可以直观地看到,随着时间的推移,a集团的热度指标在逐渐下降,而b集团的热度指标在逐渐上升,并在时间点3时取代a集团成为当前热度指标最高的执行主体;可见相对于固定时间窗口获取数据的方式,可以明显发现,通过滑动的时间窗口来获取数据,能够更加细致地反映执行主体的热度指标随着时间的变化过程。

上述内容即为本说明书针对所述事件统计方法的全部实施例。本说明书还提出一种事件统计装置,请参见图6,图6为该装置的以结构示例图,该装置包括:

事件提取模块601,从数据流中提取事件;

执行主体确定模块602,确定提取出的事件的执行主体;

热度指标计算模块603,计算提取出的各事件的热度指标;

汇总统计模块604,在滑动的时间区间内,对各执行主体执行的事件的热度指标进行汇总统计,得到与各执行主体对应的热度指标,并输出与各执行主体对应的汇总统计结果。

上述事件,指与金融活动相关的、可以从数据流中提取到的事件;事件的执行主体,即为对应的金融活动的参与主体;而上述数据流,则可以包括新闻报道、论坛发帖、官方公告、政府公文等等各种形式在内的、包含着具有上述事件的信息渠道。

在本说明书中,上述事件统计方法具体采用何种数据流,开发人员可以根据具体的应用场景自行配置;相对应的,从数据流中提取事件,以及确定事件的执行主体的方式,也可参考相关技术文档完成对应设计,本说明书不作具体限定。

在示出的一种实施方式中,上述数据流可以包括舆情文章;舆情文章在此泛指能够反映一定的事件,并在公众中存在影响力的文章,例如新闻报道、政府公文、论坛贴文、社交媒体短文等等;其中,舆情文章的影响力指标可以作为计算对应事件的热度指标的计算依据,通常,舆情文章的影响力指标越高,则从中提取的事件的热度指标也就会越高。

在本说明书中,上述影响力指标可以作为舆情文章的属性标签,与舆情文章本身一同存在于数据流中以待被直接读取,也可以作为一种被预先独立于数据流之外存储、但可凭借舆情文章进行查询的指标。

在示出的一种实施方式中,上述影响力指标可以包括舆情文章来源的可信度评分,而该评分用以表征舆情文章的来源的可信度;例如,作为舆情文章的来源,政府用于发布公告的账号,一般具有高于普通媒体的可信度,因此可以给予其高于普通媒体的可信度评分。

可以理解的是,具体采用何种数学模型描述舆情文章在公众舆论中的影响力,以确定其影响力指标,以及进一步采用何种数学模型根据影响力指标计算热度指标,本领域技术人员可以根据具体需求自行选择,本申请无需进行具体限定。

在本说明书中,上述从数据流中提取的若干事件可以视为事件流,可以对其进行去重处理;具体而言,可以设定基于事件提取自的舆情文章、事件的执行主体,或者基于出现次数相关的门限,并对超过该门限的事件进行去重处理;例如,对于来自同一篇新闻稿的、内容均为“c公司破产”的多个事件,很有可能是在事件提取过程中,由于文章内容中反复提及相关字段,导致被重复提取的事件,因此,可以对超出门限的事件采取去重处理。

在示出的一种实施方式中,可以限定源自同一舆情文章,且执行主体相同的多个事件中,仅保留最新的(发生时间最晚的)一个事件;可以理解的是,上述去重过程用到了事件的发生时间,该时间可以来自于事件被提取时系统赋予的时间戳(timestrap),也可以为上述流式处理过程中赋予的水位线(watermark);具体采用何种计时以及排序标准,本领域技术人员可以综合实际情况选择,本申请不作具体限定。

在本说明书中,在计算出上述事件的热度指标后,即可在滑动的时间区间内,对上述执行主体所执行的事件的热度指标进行汇总统计,以获得与各执行主体对应的热度指标;具体实现中,上述时间区间的长度、滑动步长、滑动频率均可由本领域技术人员依据实际需求自行设定。

在示出的一种实施方式中,上述对各执行主体所执行的事件的热度指标进行汇总统计,可以通过求和来实现;具体而言,对任一执行主体所执行的所有事件的热度指标进行求和,求和的结果即可作为该执行主体对应的热度指标。

在示出的一种实施方式中,得到上述各执行主体对应的热度指标后,可以按热度指标的大小,对各执行主体进行排序,并输出该排序结果中的前若干个以供用户使用;例如,按热度指标的大小,对各执行主体进行排序后,依次输出排序结果中的前20个执行主体以及对应的热度指标,即可为用户提供当前时间区间内,排名前20的舆论热点主体。

本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的事件统计方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用rom(readonlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的事件统计方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1