基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法与流程

文档序号:15462444发布日期:2018-09-18 18:29阅读:来源:国知局

技术特征:

1.一种基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征在于包括如下步骤:

—对当前待处理的客服工单数据进行至少包括分词、去停用词和训练词向量的预处理,得到所述客服工单数据每个词对应的词向量,进而得到所述客服工单数据每个句子对应的句子向量;

—对所述的多个句子向量进行语义相似度计算,根据计算的句子间语义相似度结果进行聚类,得到移动客服领域突发事件话题;

—通过分析构建所述突发事件话题下每个词在所有时刻的时间序列,即在监控时间段内出现该词的所有时间组成的时间序列,根据每个时刻该词的词频信息,得到所述每个词的突发强度,选择突发强度大于设定阈值的词作为突发事件的突发词;

—分析计算多个突发词两两之间的相关度,选择相关度最高的两个突发词,作为共现突发词;基于共现突发词计算每个话题的突发热度,找到突发热度最高的话题,抽取并输出/返回包含共现突发词的客服突发事件工单数据,完成突发事件的预测。

2.根据权利要求1所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于采用SinglePass算法,根据客服突发事件工单数据在语义上的相似性,计算客服突发事件工单句子间的语义相似度,基于工单句子间语义相似度,对所述的句子向量进行聚类。

3.根据权利要求2所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于所述SinglePass算法具体构成如下:

—接受移动客服领域一条工单记录R,初始化话题工单类Cluster={};

—计算工单记录R与当前已有话题工单类中的各个话题所包含的每一条突发事件工单的语义相似度,取语义相似度最大值作为当前工单记录R与该话题工单类的相似度;

—在所有话题工单类中选出与R相似度最大的一个类,并记录此时的相似度值S;相似度计算采用欧式距离;

设两条工单记录R1和R2的句子向量分别为svec1={x1,x2,...xn}和svec2={y1,y2,...yn},其中n表示工单句子向量的维度,xi,yi分别表示R1、R2的工单句子向量第i维度上的值,欧式距离的计算公式如下式所示:

—如果S大于聚类阈值Tc,工单R被分配给当前话题工单类,聚类结束,等待新工单数到来;

—如果S小于聚类阈值Tc,工单R不属于当前已有的话题工单类,创建新话题工单类,并将工单R加入该话题工单类,完成当前聚类,继续等待新工单数据到来。

4.根据权利要求1所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于采用时间序列算法Kleinberg得到所述移动客服领域的突发词信息。

5.根据权利要求4所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于:所述时间序列算法Kleinberg算法通过提出状态模型来模拟突发行为;

该模型设定低状态和高状态两个状态,突发事件行为可以被模拟成一段周期内高低状态的转换,一个事件中下一个消息到达时间间隔服从指数分布,如下式所示:

f(x)=ae-ax

其中时间间隔期望E(x)=a-1,其中a是数据到达速率;低状态下、高状态下消息到达的时间间隔均服从指数分布,速度率分别为a和s*a,其中s>1;两个状态之间的转移概率为p,其中p∈(0,1);

设指定事件时间间隔序列gaps为x=(x1,x2,...xn),存在状态序列在该状态序列下,事件时间间隔序列概率密度函数定义为:

利用贝叶斯原理,得到后验概率:

其中b是状态转移次数;最大化上述后验概率,等价于最小化下式:

其中第三项和第四项为常数项,设计代价函数cost-function如下所示:

设构造的无限状态序列q0,q1,q2,...qi,...,一段时间周期T,指定事件时间间隔序列gaps为x=(x1,x2,...xn),则平均速率a=n/T;设定q0的速率为a,qi(i>0)速率为(si)*a;对每一个i和j,定义从状态qi转换到qj的转移代价函数为τ(i,j),当j>i且r>0时,从低状态转换到高状态时,转移代价函数为:

(j-i)γ*ln(n)

当j<i时,转移代价为0;其中γ是给定的一个参数,默认被设定为1;当存在最高的状态k:设定其中δ(x)>0,因为所有的时间间隔均为正向,定义代价函数为:

其中τ(it,it+1)为状态转移代价,采用动态规划去寻找最优状态集合;最终通过无限状态模型可以检测和追踪突发事件。

6.根据权利要求5所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于Kleinberg算法模型采用正态分布

模拟消息单位时间频次分布,通过模拟消息单位时间频次分布,得到词语在每个时刻的词频信息,基于词频信息计算突发强度寻找突发词。

7.根据权利要求4、5或6所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于将突发强度大于2.0的词作为突发词。

8.根据权利要求1所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于采用互信息MI(Mutual Information,MI)衡量移动客服领域两个突发词之间的相关度:

—设定两个突发词的关联度大于1时,MI大于0;当两个突发词关联度弱时,MI等于0;当两个突发词不相关时,MI小于0;

—设移动客服领域突发事件数据集合为{C},总的工单数目为N,其中含有突发词wx的工单数目为Nx,含有突发词wy的工单总数是Ny,含有{wx,wy}的工单总数是Nxy,x,y下标表示突发词的索引,其中0<x≤N,0<y≤N,xy表示共同出现突发词wx,wy的下标,突发词相关度Corr(wx,wy)的计算公式如下式所示:

Corr(wx,wy)=log10(N/Nx)*log10(N/Ny)*Nxy/(Nx+Ny-Nxy)。

9.根据权利要求8所述的基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法,其特征还在于话题的突发热度的计算过程如下:

—设基于SinglePass算法聚类出的话题集合T={t1,t2,...tm},每个话题ti同时包含突发词{wx,wy}的工单数目为Mi,则该话题的突发热度Hi的计算过程如下式所示:

Hi=Mi/N

—对话题的突发热度进行从大到小的排序,得到突发热度最高的话题。最后,从突发热度最高的话题中抽取出包含突发词相关度最高两个突发词的相应工单,即为移动客服领域的突发事件。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1