1.一种突发事件报警方法,其特征在于,包括:
获取待处理的文本数据,所述待处理的文本数据包括当前时间窗口内产生的文本数据和所述当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据;
对所述待处理的文本数据进行分词处理,得到若干个候选词;
针对每个候选词,根据所述当前时间窗口内产生的文本数据,确定所述候选词的第一占比值,所述第一占比值为所述当前时间窗口内包含所述候选词的文本的数量与所述当前时间窗口内的文本总数之比;
针对每个候选词,根据预设数量个历史时间窗口内产生的文本数据,确定所述候选词的预测占比值和波动性特征值;
针对每个候选词,根据所述候选词的第一占比值、预测占比值和波动性特征值,确定所述候选词的波动性得分,所述波动性得分用于表征所述候选词的第一占比值相对于预测占比值的增长率;
根据波动性得分从高到低的排序,选择k个候选词确定出至少一个突发事件;
对确定出的至少一个突发事件进行报警处理。
2.根据权利要求1所述的方法,其特征在于,所述根据预设数量个历史时间窗口内产生的文本数据,确定所述候选词的预测占比值,具体包括:
针对每个历史时间窗口,确定所述候选词在所述历史时间窗口内的第二占比值,所述第二占比值为所述历史时间窗口内包含所述候选词的文本的数量与所述历史时间窗口内的文本总数之比;
对所述候选词对应的预设数量个第二占比值进行加权平均,得到所述候选词在所述当前时间窗口内的预测占比值,其中,每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定。
3.根据权利要求2所述的方法,其特征在于,所述根据预设数量个历史时间窗口内产生的文本数据,确定所述候选词的波动性特征值,具体包括:
计算所述候选词对应的预测占比值和预设数量个第二占比值之间的加权方差值,确定为所述候选词的波动性特征值,其中,每个第二占比值对应的权重根据其对应的历史时间窗口与所述当前时间窗口之间的时序关系确定。
4.根据权利要求2所述的方法,其特征在于,对所述待处理的文本数据进行分词处理,得到若干个候选词,具体包括:
对所述待处理的文本数据进行分词处理,得到若干个分词片段;
根据同义词表,将互为同义词的多个分词片段中的任一分词片段确定为一个候选词,将不存在同义词的分词片段确定为一个候选词。
5.根据权利要求1至4中任一所述的方法,其特征在于,通过以下方式根据k个候选词确定出至少一个突发事件:
沿着分词序列移动第一滑动窗口,并统计k个异常词中任意两个异常词在所述第一滑动窗口内共现的次数,得到共现矩阵,所述分词序列为对所述待处理的文本数据进行分词处理后得到的分词片段组成的序列;
对所述共现矩阵的每一行数据进行归一化处理,得到共现概率矩阵,所述共现概率矩阵中大于概率阈值的共现概率对应的两个异常词相互关联;
根据所述共现概率矩阵,将相互关联的异常词聚类成一个突发事件。
6.根据权利要求5所述的方法,其特征在于,还包括:
针对每个异常词,沿着所述分词序列移动第二滑动窗口,若所述第二滑动窗口中出现所述异常词,则提取所述第二滑动窗口中的分词片段,组成一个候选词组;
针对每个异常词,确定所述异常词对应的各候选词组的熵值,所述熵值等于所述候选词组的左熵值和右熵值中最小的一个值;
针对每个异常词,根据熵值从高到低的排序,选择m个候选词组,确定为所述异常词的摘要。
7.一种突发事件报警装置,其特征在于,包括:
获取模块,用于获取待处理的文本数据,所述待处理的文本数据包括当前时间窗口内产生的文本数据和所述当前时间窗口之前的预设数量个历史时间窗口内产生的文本数据;
分词模块,用于对所述待处理的文本数据进行分词处理,得到若干个候选词;
处理模块,用于针对每个候选词,根据所述当前时间窗口内产生的文本数据,确定所述候选词的第一占比值,所述第一占比值为所述当前时间窗口内包含所述候选词的文本的数量与所述当前时间窗口内的文本总数之比,根据预设数量个历史时间窗口内产生的文本数据,确定所述候选词的预测占比值和波动性特征值,根据所述候选词的第一占比值、预测占比值和波动性特征值,确定所述候选词的波动性得分,所述波动性得分用于表征所述候选词的第一占比值相对于预测占比值的增长率;
确定模块,用于根据波动性得分从高到低的排序,选择k个候选词确定出至少一个突发事件;
报警模块,用于对确定出的至少一个突发事件进行报警处理。
8.一种突发事件报警系统,其特征在于,包括:存储子系统、处理子系统和报警子系统;
所述存储子系统,用于存储文本数据;
所述处理子系统,用于从存储子系统中获取待处理的文本数据,并根据权利要求1~6任一项所述的方法确定出至少一个突发事件;
所述报警子系统,用于对所述处理子系统确定出的至少一个突发事件进行报警处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1~6任一项所述方法的步骤。