目标事件的标记方法和装置、存储介质及电子装置与流程

文档序号:19157365发布日期:2019-11-16 00:59阅读:273来源:国知局
目标事件的标记方法和装置、存储介质及电子装置与流程

本发明涉及游戏数据处理技术领域,具体而言,涉及一种目标事件的标记方法和装置、存储介质及电子装置。



背景技术:

目前在相关技术中,针对网络热点事件的检测主要是使用词嵌入(wordembedding)相关算法训练词向量模型来实现。具体的,使用词向量模型获得词级别的向量表达,然后通过词向量拼接或获取语句主干的方式来提取主干词,再利用训练模型等方式来获得语句向量表达,然后通过聚类方法对语句向量进行聚类,获得事件簇。但是,目前相关技术提供的方式并不能实现对事件簇的类别进行智能识别,即,无法准确地确定出待检测的事件是真的热点事件,或是阶段性的频率高的正常事件,常常需要通过人工来辨别该事件是否为热点事件。

也就是说,相关技术提供的这种检测方式,需要投入大量的人力成本,使得对事件检测的复杂度增加,从而导致检测效率较低的问题。

针对上述问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种目标事件的标记方法和装置、存储介质及电子装置,以至少解决相关技术中对目标事件进行检测的效率较低问题。

根据本发明实施例的一个方面,提供了一种目标事件的标记方法,包括:获取待处理信息中携带的内容语句,其中,所述内容语句被切分为多个词组;在所述多个词组中确定出目标词组,其中,所述目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,其中,包括所述目标类别的不同类别在所述分类模型中对应不同的权重,所述目标类别的权重用于指示所述目标词组成为目标事件的可能性;在所述目标类别对应的权重超过预设权重阈值的情况下,将所述目标待处理信息中包含的所述目标词组标记为所述目标事件。

根据本发明实施例的另一方面,还提供了一种目标事件的标记装置,包括:获取模块,用于获取待处理信息中携带的内容语句,其中,所述内容语句被切分为一个或多个词组;第一确定模块,用于在所述多个词组中确定出目标词组,其中,所述目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;第二确定模块,用于使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,其中,包括所述目标类别的不同类别在所述分类模型中对应不同的权重,所述目标类别的权重用于指示所述目标词组成为目标事件的可能性;标记模块,用于在所述目标类别对应的权重超过预设权重阈值的情况下,将所述目标待处理信息中包含的所述目标词组标记为所述目标事件。

可选地,所述第二确定模块包括:输入单元,用于将所述目标待处理信息输入所述分类模型,其中,所述目标待处理信息中包含一个或多个所述目标词组,所述分类模型是使用所述待处理信息中包含的所述词组作为训练样本对初始分类模型进行训练得到的;输出单元,用于输出所述目标词组对应的所述目标类别。

可选地,所述装置还包括:训练模块,用于使用已经确定类别的第一目标待处理信息作为训练样本对所述初始分类模型进行训练,其中,所述第一目标待处理信息中包含标记为目标事件的词组和没有标记为目标事件的词组。

可选地,所述训练模块包括:划分单元,用于将已经确定类别的第一目标待处理信息划分为训练数据集、验证数据集和测试数据集,其中,所述训练数据集和所述验证数据集用于对所述分类模型进行训练,所述测试数据集用于对训练后的所述分类模型进行测试;第一切分单元,用于将所述训练数据集和所述验证数据集中包含的所述内容语句切分为初始训练词组,将出现频率超过预设阈值的所述初始训练词组作为初始训练样本,其中,所述初始训练样本的向量维数为所述初始训练样本的数量;计算单元,用于通过向量表征算法计算所述初始训练样本的语义向量表征;第一训练单元,用于将所述初始训练样本的向量维数和所述初始训练样本的语义向量表征输入所述初始分类模型进行训练,得到所述分类模型;测试单元,用于通过所述测试数据集对所述分类模型的训练结果进行测试,并调整所述分类模型的模型参数。

可选地,所述训练模块还包括:第二切分单元,用于将所述目标待处理信息中的目标内容语句切分为多个目标训练词组,其中,所述目标训练词组中只包含汉字、且不包含停用词,所述停用词至少包括感叹词和/或代词和/或语气词;确定单元,用于将出现频率超过预设阈值的所述目标训练词组确定为词袋;第一合并单元,用于将所述词袋与所述分类模型当前的训练样本合并,组成目标训练样本;第二训练单元,用于使用所述目标训练样本训练所述分类模型,并调整所述分类模型的模型参数。

可选地,所述训练模块还包括:第一获取单元,用于获取上一次模型训练结束时刻至当前时刻的时间段内,确定的第二目标待处理信息,其中,所述第二目标待处理信息中包含预定时间段内出现次数超过预设次数阈值的词组;第二合并单元,用于将所述第二目标待处理信息中包含的词组并入所述分类模型当前的训练样本中。

可选地,所述第一确定模块包括:第一确定单元,用于将出现在同一所述内容语句中、且在多个所述待处理信息的所述内容语句中出现次数超过预设阈值的词组确定为第一词组,其中,所述第一词组中仅包含汉字;第一丢弃单元,用于将今日占比小于第一预设占比阈值和/或今日词频小于第一预设词频阈值和/或今日词频增长率小于第一预设增长率阈值的所述第一词组丢弃,得到第二词组,其中,所述今日词频增长率是相对于前一天的词频获得的增长率;聚类单元,用于对所述第二词组进行聚类,得到第一词组簇;第二丢弃单元,用于将今日占比小于第二预设占比阈值和/或今日词频小于第二预设词频阈值和/或今日词频增长率小于第二预设增长率阈值的所述第一词组簇丢弃,得到第二词组簇;第二确定单元,用于确定所述第二词组簇中的词组为所述目标词组。

可选地,所述第一丢弃单元包括:获取子单元,用于使用以下公式获取当前所述第一词组的今日占比:p1=exp{(logp/m)/logn)}其中,p表示当前所述第一词组前一天的占比,m和n分别为常数;确定子单元,用于通过比较每一个所述第一词组的今日占比,确定今日最小占比的所述第一词组;丢弃子单元,用于丢弃今日最小占比的所述第一词组。

可选地,所述第一确定模块还包括:

第二获取单元,用于通过以下公式获取所述第一词组在当前时间段中的波动系数:

其中,x’表示波动系数,x表示所述第一词组在当前时间段内的词频,μ表示所述第一词组在前一天同一时间段内的词频均值,σ表示所述第一词组在前一天同一时间段内词频的标准差;

第三丢弃单元,用于当所述波动系数小于预设波动值时,将所述第一词组丢弃。

根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述目标事件的确定方法。

根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的目标事件的确定方法。

在本发明实施例中,采用分类模型自动识别待处理信息类别的方式,通过获取待处理信息中携带的内容语句,其中,内容语句被切分为多个词组;在多个词组中确定出目标词组,其中,目标词组为预定时间段内出现次数超过预设次数阈值的词组;使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别,其中,包括目标类别的不同类别在分类模型中对应不同的权重,目标类别的权重用于指示目标词组成为目标事件的可能性;在目标类别对应的权重超过预设权重阈值的情况下,将目标待处理信息中包含的目标词组标记为目标事件。通过确定目标词组,可以将预定时间段内出现次数超过预设次数阈值的词组筛选出来,然后通过使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别,实现了对待处理信息的自动分类,并在分类模型中针对不同的目标类别设置不同的权重,只有达到预设权重阈值的类别对应的目标词组才被标记为目标事件,进一步筛选出符合目标事件规则的词组,避免人工进行分类筛选是否为目标事件导致效率低下的问题,达到了自动识别出目标待处理信息所属类别的目的,从而实现了自动检测目标待处理信息中的目标词组是否为目标事件的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本申请实施例一种可选的目标事件的标记方法的硬件环境示意图;

图2是本申请实施例的一种可选的目标事件的标记方法的流程图;

图3是根据本发明实施例的目标事件告警界面一种可选的示意图;

图4是根据本发明实施例的目标事件告警界面又一种可选的示意图;

图5是根据本发明实施例的目标事件告警界面又一种可选的示意图;

图6是根据本申请实施例的工单类型识别方法的一种可选的流程图;

图7是根据本发明实施例的svm分类模型训练方法的一种可选的流程图;

图8是根据本发明实施例的目标事件的标记装置的一种可选的结构框图;

图9是根据本发明实施例的一种波动系数显示界面示意图;

图10是根据本发明实施例的一种可选的某月预警情况示意图;

图11是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决上述技术问题,本申请实施例提供了一种目标事件的标记方法。图1是根据本申请实施例一种可选的目标事件的标记方法的硬件环境示意图,如图1所示,该硬件环境可以包括但不限于第一用户设备102、网络110、服务器112、第二用户设备202,其中,第一用户设备102中可以包括但不限于存储器104、处理器106、显示器108,服务器112张可以包括但不限于数据库114、处理引擎116,第二用户设备202中可以包括但不限于存储器204、处理器206、显示器208。此处的用户设备可以但不限于是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices,mid)、pad等终端设备。目标事件的标记方法主要包括以下步骤:

步骤s102,第一用户设备102将待处理信息发送到网络端110;

步骤s104,网络端110将待处理信息转发给服务器112;

步骤s106,服务器112将符合要求的待处理信息标记为目标事件并推送给第二用户设备202;

步骤s108,服务器112将针对待处理信息的处理结果返回给网络端110;

步骤s110,网络端110将处理结果反馈给用户设备102。

需要说明的是,服务器112也可以不将处理结果反馈给第一用户设备102。当第一用户设备102发送的待处理信息不是为了请求某一数据结果,或仅仅是恶作剧时,服务器112可以对此待处理信息进行忽视,不反馈处理结果。

可选地,步骤s106中,服务器112将符合要求的待处理信息标记为目标事件可以通过以下步骤实现:获取待处理信息中携带的内容语句,其中,内容语句被切分为多个词组;在多个词组中确定出目标词组,其中,目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别,其中,包括目标类别的不同类别在分类模型中对应不同的权重,目标类别的权重用于指示目标词组成为目标事件的可能性;在目标类别对应的权重超过预设权重阈值的情况下,将目标待处理信息中包含的目标词组标记为目标事件。

图2是本申请实施例的一种可选的目标事件的标记方法的流程图。如图2所示,该方法包括:

步骤s202,获取待处理信息中携带的内容语句,其中,内容语句被切分为多个词组;

步骤s204,在多个词组中确定出目标词组,其中,目标词组为出现在同一条待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;

步骤s206,使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别,其中,包括目标类别的不同类别在分类模型中对应不同的权重,目标类别的权重用于指示目标词组成为目标事件的可能性;

步骤s208,在目标类别对应的权重超过预设权重阈值的情况下,将目标待处理信息中包含的目标词组标记为目标事件。

可选地,上述数据处理的方法不限于应用于热点工单的获取场景中,可以但不限于应用于其他任何需要对文本消息进行识别标注的应用场景,例如购物类、游戏类、即时通信类、金融应用类场景等。

可选地,待处理信息可以但不限于是短文本信息,待处理信息中包含的内容语句可以包括但不限于标点符号、表情符号、语气词、名词、动词、形容词等内容。对内容语句切分后,还可以去除汉字以外的其他字体或符号,每一个待处理信息中携带的内容语句,可以被切分为一个词组,或多个词组。

可选地,目标类别可以包括但不限于咨询(例如,游戏排名错误、安装包无法更新)、支付业务(例如信用卡丢失、钱包打开不了、红包打开不了),诈骗投诉、恶作剧(例如恶意刷屏、刷关键词)、阶段性间歇性的热词(节气通知、节假日提醒)等。不同的目标类别在分类模型对应的权重不同,而目标类别的权重用于指示目标词组成为目标事件的可能性。

例如,当前确定了两件目标待处理信息a和b,a对应的目标类别为“游戏版本如何更新”的咨询,即,多个消息都在咨询同一款游戏版本如何更新,此时,确定这一咨询类别的权重高于预设的权重阈值,就将a对应的目标词组确定为目标事件,并将目标事件推送给处理咨询信息的专业人员,需要对这一突发热点事件进行紧急处理。b对应的目标类别为“夏至节气”,在节气当天有大量用户针对这一节气发表感慨,并不属于突发性热点事件,这一信息的类别的权重低于预设的权重阈值,则不会将b对应的目标词组标记为目标事件,也不会推送给专业人员进行处理。

一个可选的实施方式中,使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别可以通过以下步骤实现:

s1,将目标待处理信息输入分类模型,其中,目标待处理信息中包含多个目标词组,分类模型是使用待处理信息中包含的词组作为训练样本对初始分类模型进行训练得到的;

s2,输出目标词组对应的目标类别。

可选地,本发明实施例中涉及的分类模型可以但不限于是支持向量机(supportvectormachine,简称为svm)分类模型。将初始收集到的待处理信息中的词组输入到初始分类模型中,对初始分类模型进行训练,得到可以自动对待处理信息进行类别检测的分类模型。

可选的一个实施方式中,使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别之前,可以通过以下步骤对初始分类模型进行训练:

使用已经确定类别的第一目标待处理信息作为训练样本对初始分类模型进行训练,其中,第一目标待处理信息中包含标记为目标事件的词组和没有标记为目标事件的词组。

可选的一个实施方式中,使用已经确定类别的第一目标待处理信息作为训练样本对初始分类模型进行训练可以通过以下步骤实现:

s1,将已经确定类别的第一目标待处理信息划分为训练数据集、验证数据集和测试数据集,其中,训练数据集合验证数据集用于对初始分类模型进行训练,测试数据集用于对训练后的分类模型进行测试;

s2,将训练数据集和验证数据集中包含的内容语句切分为初始训练词组,将出现频率超过预设阈值的初始训练词组作为初始训练样本,其中,初始训练样本的向量维数为初始训练样本的数量;

s3,通过向量表征算法计算初始训练样本的语义向量表征;

s4,将初始训练样本的向量维数和初始训练样本的语义向量表征输入初始分类模型进行训练,得到分类模型;

s5,通过测试数据集对分类模型的训练结果进行测试,并调整分类模型的模型参数。

可选地,已经确定类别的第一目标待处理信息可以是人工进行过分类的短文本信息,可以包括但不限于部分突发性热点事件的短文本信息、部分持续性热点事件的短文本信息、部分非热点事件的短文本信息,以及部分恶作剧信息。训练数据集、验证数据集和测试数据集中均可以包括前述几种短文本信息,本发明实施例对此不做限定。

可以通过分词算法算法对内容语句切分得到初始训练词组,当然,也可以使用其他的切词算法或工具。切分后的词组,可以使用正则表达式等方法过滤词组中的非汉字部分(标点符号、特殊符号、数字、英文等),然后对分词后的结果做去停用词的处理,此处的停用此可以包括但不限于感叹词、语气词、代词。例如,待处理信息中包含的内容语句为“啊啊!新版游戏安装包!为什么不能更新!!!why?”,这一内容语句最后可以切分为以下词组:“新版、游戏安装包、更新”,或是“新版、游戏、安装包、不能、更新”。词组的切分规则可以根据模型的实际应用场景进行设置,本发明实施例对此不做限定。

可选地,将出现频率超过预设阈值的初始训练词组作为初始训练样本,此处的预设阈值可以是0,也可以是大于0的任意整数,当预设阈值为0时,就是将切分后获得的全部初始训练词组作为初始训练样本。

可选地,可以通过词频-逆文本频率指数(termfrequency-inversedocumentfrequency,简称为tf-idf)作为向量表征算法来计算促使样本的语义向量表征,也可以使用其他向量表征算法来计算,本发明实施例对此不做限定。

可选地,将初始训练样本的向量维数和初始训练阿样本的语义向量表征输入初始分类模型进行训练,例如,当初始训练样本的数量为100时,将初始训练样本的向量维数100和初始训练阿样本的语义向量表征输入svm分类模型中进行训练。

可选地,可通过k折交叉验证训练(k-foldcrossvalidation)算法,利用测试数据集对分类模型的训练结果进行测试。例如将100条第一目标待处理信息划分为k组数据集,其中2组为测试数据集,k-2组为训练数据集和/或验证数据集,使用k-2组数据集训练分类模型后,可使用2组测试数据集对训练结果进行测试。通过测试结果对分类模型的模型参数进行调整优化,测试结果越接近真实结果,说明模型参数越稳定,可靠性越强。

可选的一个实施方式中,使用已经确定类别的第一目标待处理信息作为训练样本对初始分类模型进行训练之后,上述方法还包括:

s1,将目标待处理信息中的目标内容语句切分为多个目标训练词组,其中,目标训练词组中只包含汉字、且不包含停用词,停用词至少包括感叹词和/或代词和/或语气词;

s2,将出现频率超过预设阈值的目标训练词组确定为词袋;

s3,将词袋与分类模型当前的训练样本合并,组成目标训练样本;

s4,使用目标训练样本训练分类模型,并调整分类模型的模型参数。

可选地,目标待处理信息在输入分类模型进行类别检测之前,还可以将目标待处理信息输入分类模型进行训练。目标待处理信息中的高频词组作为训练的词袋,可以实时将目标待处理信息中包含的词组更新进分类模型的训练模型,避免目标待处理信息输入分类模型进行类别检测时无法被识别。

可选地,切分目标训练词组,与前述切分初始训练词组可以使用相同的方法,例如,待目标处理信息中包含的内容语句为“啊啊!新版阅读软件安装包!为什么不能更新!!!why?”,这一内容语句最后可以切分为以下词组:“新版、阅读软件安装包、更新”,或是“新版、阅读软件、安装包、不能、更新”,词组的切分规则可以根据模型的实际应用场景进行设置,本发明实施例对此不做限定。

可选地,将出现频率超过预设阈值的目标训练词组作为训练词袋,然后将训练词袋与当前的训练样本合并,相当于是组成了新的训练样本,对包含目标训练词组的样本也执行了训练操作。训练后再通过测试数据集对对分类模型的模型参数进行调整优化,测试结果越接近真实结果,说明模型参数越稳定,可靠性越强。

可选的一个实施方式,使用已经确定类别的第一目标待处理信息作为训练样本对初始分类模型进行训练之后,还可以定期对分类模型的训练样本进行更新,主要包括以下步骤:

s1,获取上一次模型训练结束时刻至当前时刻的时间段内,确定的第二目标待处理信息,其中,所第二目标待处理信息中包含预定时间段内出现次数超过预设次数阈值的词组;

s2,将第二目标待处理信息中包含的词组并入分类模型当前的训练样本中。

可选地,以客服工单的分类模型训练为例,工单分类模型的更新可以包括自动更新和人工更新。

自动更新可以包括以下步骤:

s1、检索补录工单库工单量是否超过预设阈值、最近一次模型训练时间距离当前间隔是否超过预设时间阈值等几个指标,符合其一则模型自动启动更新;

s2、从补录工单库调取样本合并原有训练样本;

s3、采用分词算法(例如jieba算法)对处理后的语句进行分词;用正则表达式等方法过滤分词后词语中的非汉字部分(标点符号、特殊符号、数字、英文等);分词后的结果做去停用词(感叹词、语气词、代词等)处理,并将词袋转成索引列表;

步骤4、重新训练工单分类模型。

人工更新步骤:

s1、检索模型稳定性指标(populationstabilityindex,简称为psi),若超过阈值,则发出告警;

s2、人工重新对语料进行特征工程、重新审视语料,并训练新模型,人工对模型进行参数调优,直至模型稳定为止。

可选的一个实施方式,步骤s204在多个词组中确定出目标词组,可以通过以下步骤实现:

s1,将内容语句中出现次数超过预设阈值的词组确定为第一词组,其中,第一词组中仅包含汉字;

s2,将今日占比小于第一预设占比阈值和/或今日词频小于第一预设词频阈值和/或今日词频增长率小于第一预设增长率阈值的第一词组丢弃,得到第二词组,其中,今日词频增长率是相对于前一天的词频获得的增长率;

s3,对第二词组进行聚类,得到第一词组簇;

s4,将今日占比小于第二预设占比阈值和/或今日词频小于第二预设词频阈值和/或今日词频增长率小于第二预设增长率阈值的第一词组簇丢弃,得到第二词组簇;

s5,确定第二词组簇中的词组为目标词组。

可选地,首先对切分后的词组进行频繁挖掘,可以使用fp-growth频繁挖掘算法,得到频繁词组,也就是第一词组,fp-growth频繁项集挖掘是关联规则挖掘算法的一种,通过限定关联项目之间的置信度、支持度、提升度来获得频繁项集。然后要对第一词组进行两次过滤、一次聚类处理。

第一次过滤包括:使用规则引擎设置的对数曲线模型及参数过滤,针对频繁词组进行第一层动态过滤,过滤一部分不符合条件的频繁词组,最终得到第二词组。可以通过将今日占比小于第一预设占比阈值和/或今日词频小于第一预设词频阈值和/或今日词频增长率小于第一预设增长率阈值的第一词组丢弃,得到第二词组,可选地,今日词频增长率是相对于前一天的词频获得的增长率。

可选地,在确定频繁词组时,可以通过检测词组当天的词频来获取。若词组的词频满足预设词频阈值,也有可能是常用性词组,不属于突发热点词组,此时可以考虑词频增长率,即当前词组今日词频相对于前一天的增长率。当词频增长率也满足预设规则时,可以进一步确定为频繁词组。若只看词组的词频增长率,有可能前一天词频为特别小的基数,甚至为0,那么今日词频只要出现少数几次就可能会有很高的词频增长率,会导致数据不精确,此时同时考虑今日词频和/或今日占比是否满足预设条件,综合考虑之后确定最终的频繁词组,也就是第二词组。

可选地,可以使用以下公式获取当前第一词组的今日占比:

p1=exp{(logp/m)/logn)}其中,p表示当前所述第一词组前一天的占比,m和n分别为常数;

通过比较每一个第一词组的今日占比,确定今日最小占比的第一词组并丢弃。

可选地,还可以通过n-sigma规则针对词组词频进行判断,通过以下公式获取第一词组在当前时间段中的波动系数:

其中,x’表示波动系数,x表示第一词组在当前时间段内的词频,μ表示第一词组在前一天同一时间段内的词频均值,σ表示第一词组在前一天同一时间段内词频的标准差;

当波动系数x’小于预设波动值时,将第一词组丢弃。

通过上述第一次过滤后,得到符合要求的频繁词组,也就是第二词组。

可选地,对过滤后的频繁词组可以使用dbscan聚类算法进行聚类,取出所有包含频繁词组的工单,使用词袋向量作为工单内容的向量表达,通过dbscan算法对内容向量进行聚类,获得频繁词组簇,也就是第一词组簇。

可选地,可以使用规则引擎针对聚类后的频繁词组簇进行规则过滤,获得最终符合条件的频繁词组簇,即,对第一词组簇进行第二次过滤,得到第二词组簇。最终得到的第二词组簇中的词组就是目标词组,包含目标词组的待处理信息就是目标待处理信息。

本发明实施例提供的方案可用于任意基于短文本的突发事件挖掘场景,通过对短文本消息进行监控,在发现热点/突发事件之后会通过邮件、小程序、即时通信群的方式进行突发热点的提醒,提示热点工单类型,以同现词组簇的形式显示标题,结合文字、图表、数据的形式对突发/热点事件进行提醒。

图3是根据本发明实施例的目标事件告警界面一种可选的示意图。如图3所示,通过pc端告警页面,显示出聚类工单的单量变化情况,并通过数据同比显示工单的同比状况,工作人员即可根据告警判断所属聚类工单的紧急程度,及时进行相应的处理。告警详情页面展示了算法挖掘出的热点结果的详细页面,热点词组的时间序列变化情况。如图3所示的一种可选的推送界面,可以直观地看到热词筛选的时间段、产品名称、热词内容“更新,版本下载,更新”,还可以看到2019-6-2当天的词频随时间的变化趋势,如图中实线所示,最高词频出现在12点左右,为41,还可以看到前一天2019-6-1的词频变化,如图中虚线所示,最高词频出现在12点左右,为6。界面上自动统计出2019-6-2当天的平均词频。通过这些线形变化,可以直观地确认当前热词是否为热点/突发事件。同时,界面下方还可以显示工单具体信息,如用户xxx1,在2019-6-2的8:58针对产品代码为a1的产品发布了内容为“更新版本,怎么弄”的工单文本,方便工作人员及时掌握具体的工单请求。

图4是根据本发明实施例的目标事件告警界面又一种可选的示意图,如图4所示,可以通过计算机pc端或移动终端的小程序的实时推送功能,在一种可选的推送界面上,推送内容可以包括热词“更新,版本下载,更新”,工单类别为“咨询类”,同时将产品名称、推送时间、统计包含热词工单的时间段(例如8:00-12:00)、当前时间段内针对该热词的工单反馈数(24)、与昨日同一时间段相比的同比增长率(2300%)、当前的热词在全部工单中的占比(3.08%),以及工单内容等,工单内容如图4所示,包括“更新版本,怎么弄”“怎么更新到最新版本”等。

图5是根据本发明实施例的目标事件告警界面又一种可选的示意图。如图5所示,可以通过计算机pc端或移动终端的即时通信群的实时推送功能,在一种可选的推送界面上,例如群名为“【产品名称】用户反馈预警”的即时通信群内,接收到用户反馈预警的推送,推送内容包括但不限于热词“更新,版本下载,更新”、产品名称、推送时间、统计包含热词工单的时间段(例如8:00-12:00)、当前时间段内针对该热词的工单反馈数(24)、与昨日同一时间段相比的同比增长率(2300%)、当前的热词在全部工单中的占比(3.08%),以及工单内容等,工单内容如图5所示,可以包括“为什么下载更新后,登录时还要我更新”。

本发明实施例图3至图5提供的告警推送的显示界面,可以实现主动及时对热点/突发事件实时跟踪推送,反馈数、同比增长率和热词占比可以直观地呈现当前的热词在当前时间段的词频、相对于前一日的增长率以及在今日词组中的占比,方便确认为是否为热点/突发事件,还可以从工单内容中识别出发送者当时的情绪,方便工作人员随时随地了解热点/突发事件,从而作出积极应对。

可选地,根据工单内容使用fp-growth模型挖掘热点词汇,并对热点词汇进行聚类,聚类出来的工单再通过机器学习模型进行工单类别判别,可以通过如图6所示的流程图完成。图6是根据本申请实施例的工单类型识别方法的一种可选的流程图,如图6所示,包括如下步骤:

s601,获取异步工单,提取工单内容;

s602,提取当日某时间段工单中的问题描述,对问题描述进行预处理;预处理包括对粗处理(包括使用正则表达式过滤表情等特殊字符)之后的问题描述使用分词工具分词,再使用正则表达式等方法针对词语过滤非汉字部分(标点符号、数字等);

s603,使用fp-growth频繁挖掘算法挖掘频繁词组,fp-growth频繁项集挖掘是关联规则挖掘算法的一种,通过限定关联项目之间的置信度、支持度、提升度来获得频繁项集;

s604,使用规则引擎设置的对数曲线模型及参数过滤,针对频繁词组进行第一层动态过滤,过滤一部分不符合条件的频繁词组;

s605,对过滤后的频繁词组使用dbscan聚类算法进行聚类,取出所有包含频繁词组的工单,使用词袋向量作为工单内容的向量表达,通过dbscan算法对内容向量进行聚类,获得频繁词组簇;

s606,使用规则引擎针对聚类后的频繁词组簇进行规则过滤,获得最终符合条件的频繁词组簇;

s607,使用svm工单类型分类模型,针对各频繁词组簇中的工单进行分类预测;

s608,针对阈值达到条件的频繁词组簇打上类别标志。

可选地,svm分类模型训练过程可以通过以下步骤实现。图7是根据本发明实施例的svm分类模型训练方法的一种可选的流程图,如图7所示,包括以下步骤:

s701、对工单进行标注,确定工单类别;

s702,采用jieba对经过过滤和聚类处理后的工单进行分词,用正则表达式等方法过滤分词后词语中的非汉字部分(标点符号、特殊符号、数字、英文等);

s703,对分词后的结果做去停用词(感叹词、语气词、代词等)处理,通过词频条件筛选候选词并构建词袋并将词袋转成索引列表。s704,通过历史已标注工单把数据划分为训练数据集、验证数据集、测试数据集;

s705,通过k折交叉验证训练svm工单分类模型,优选模型参数;

s7051,对所有工单进行分词,过滤,剔除停用词和单字词,通过词频限制选择部分词作为向量的维数来表示文本;

s7052,通过tf-idf计算每个工单的tf-idf向量作为工单的向量表达;

s7053,通过k折交叉验证训练svm工单分类模型并调参。

s706,通过测试数据集进行模型测试,通过f1、ks值等模型评估参数评估模型预测能力,f1、ks的数值越大,模型的精确度越高。不断对模型参数调优,强化模型预测能力及泛化能力;

s707,输出训练后的分类模型。

实现了对工单热点事件的自动发现、统计记录;使用n-sigma参数实现了热点的精准辅助判别;实现了热点发现、热点事件类型判别一体化,无需人为干预,即可发现当前热点工单事件,且自动报告事件类型,极大提升客服工作效率;用psi等模型稳定性参数时刻检测模型预测工单类别分布状况,监测模型预测性能是否稳定。

通过本发明实施例提供的方案,实现了以下技术效果:

本发明实施例使用词袋模型,词袋使用当前语料实时计算,不存在新词汇无法使用的情况。

本发明实施例通过fp-growth模型挖掘同现词组,过滤了低频词组,以同现词组作为展现形式,通过使用词袋向量表征的工单对高频同现词组的进行聚类挖掘相似工单形成事件簇。通过规则引擎针对挖掘出来的事件簇进行评价,使用同现词组可以对事件簇进行横向、纵向两个维度的对比,不仅可以考察事件簇的量级,也考虑增长率等维度指标,挖掘出热点、且挖掘出突发事件。

本发明实施例通过机器学习模型对工单类别实现了智能判别,解决了现有技术中热点展现需通过人工甄选的痛点。

本发明实施例在技术侧实现了热点工单发现预警的闭环,对频繁词组的挖掘和对工单类别的分类标注都可以通过程序自动完成。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

根据本申请实施例的另一个方面,还提供了一种用于实施上述目标事件的标记方法的目标事件的标记装置。图8是根据本发明实施例的目标事件的标记装置的一种可选的结构框图,如图8所示,该装置包括:

获取模块802,用于获取待处理信息中携带的内容语句,其中,内容语句被切分为一个或多个词组;

第一确定模块804,用于在多个词组中确定出目标词组,其中,目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;

第二确定模块806,用于使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别,其中,包括目标类别的不同类别在分类模型中对应不同的权重,目标类别的权重用于指示目标词组成为目标事件的可能性;

标记模块808,用于在目标类别对应的权重超过预设权重阈值的情况下,将目标待处理信息中包含的目标词组标记为目标事件。

可选地,第二确定模块包括:输入单元,用于将目标待处理信息输入分类模型,其中,目标待处理信息中包含一个或多个目标词组,分类模型是使用待处理信息中包含的词组作为训练样本对初始分类模型进行训练得到的;输出单元,用于输出目标词组对应的目标类别。

可选地,装置还包括:训练模块,用于使用已经确定类别的第一目标待处理信息作为训练样本对初始分类模型进行训练,其中,第一目标待处理信息中包含标记为目标事件的词组和没有标记为目标事件的词组。

可选地,训练模块包括:划分单元,用于将已经确定类别的第一目标待处理信息划分为训练数据集、验证数据集和测试数据集,其中,训练数据集合所述验证数据集用于对分类模型进行训练,测试数据集用于对训练后的分类模型进行测试;第一切分单元,用于将训练数据集和验证数据集中包含的内容语句切分为初始训练词组,将出现频率超过预设阈值的初始训练词组作为初始训练样本,其中,初始训练样本的向量维数为初始训练样本的数量;计算单元,用于通过向量表征算法计算初始训练样本的语义向量表征;第一训练单元,用于将初始训练样本的向量维数和初始训练样本的语义向量表征输入初始分类模型进行训练,得到分类模型;测试单元,用于通过测试数据集对分类模型的训练结果进行测试,并调整分类模型的模型参数。

可选地,训练模块还包括:第二切分单元,用于将目标待处理信息中的目标内容语句切分为多个目标训练词组,其中,目标训练词组中只包含汉字、且不包含停用词,停用词至少包括感叹词和/或代词和/或语气词;确定单元,用于将出现频率超过预设阈值的目标训练词组确定为词袋;第一合并单元,用于将词袋与分类模型当前的训练样本合并,组成目标训练样本;第二训练单元,用于使用目标训练样本训练分类模型,并调整分类模型的模型参数。

可选地,训练模块还包括:第一获取单元,用于获取上一次模型训练结束时刻至当前时刻的时间段内,确定的第二目标待处理信息,其中,第二目标待处理信息中包含预定时间段内出现次数超过预设次数阈值的词组;第二合并单元,用于将第二目标待处理信息中包含的词组并入分类模型当前的训练样本中。

可选地,第一确定模块包括:第一确定单元,用于将将出现在同一所述内容语句中、且在多个所述待处理信息的所述内容语句中出现次数超过预设阈值的词组确定为第一词组,其中,第一词组中仅包含汉字;第一丢弃单元,用于将今日占比小于第一预设占比阈值和/或今日词频小于第一预设词频阈值和/或今日词频增长率小于第一预设增长率阈值的第一词组丢弃,得到第二词组,其中,今日词频增长率是相对于前一天的词频获得的增长率;聚类单元,用于对第二词组进行聚类,得到第一词组簇;第二丢弃单元,用于将今日占比小于第二预设占比阈值和/或今日词频小于第二预设词频阈值和/或今日词频增长率小于第二预设增长率阈值的所述第一词组簇丢弃,得到第二词组簇;第二确定单元,用于确定第二词组簇中的词组为目标词组。

可选地,第一丢弃单元包括:获取子单元,用于使用以下公式获取当前所述第一词组的今日占比:p1=exp{(logp/m)/logn)}其中,p表示当前所述第一词组前一天的占比,m和n分别为常数;确定子单元,用于通过比较每一个第一词组的今日占比,确定今日最小占比的第一词组;丢弃子单元,用于丢弃今日最小占比的第一词组。

可选地,第一确定模块还包括:

第二获取单元,用于通过以下公式获取第一词组在当前时间段中的波动系数:

其中,x’表示波动系数,x表示第一词组在当前时间段内的词频,μ表示第一词组在前一天同一时间段内的词频均值,σ表示第一词组在前一天同一时间段内词频的标准差;

第三丢弃单元,用于当波动系数小于预设波动值时,将第一词组丢弃。

图9是根据本发明实施例的一种波动系数显示界面示意图,如图9所示,横轴表示时间段,纵轴表示目标词组的词频,虚线表示昨日(2019-6-1)词频,实线表示今日(2019-6-2)词频,由图9可见,今日最高词频为69,通过上述波动系数的计算公式可以算出在10:00—14:00时间段的波动系数为51,如果预设的波动值5,那么目标词组的今日波动系数超过了预设波动值,可以保留。

图10是根据本发明实施例的一种可选的某月预警情况示意图,如图10所示,本发明实施例提供的目标事件的标记方法,将应用于电子支付、pc端游戏、移动终端游戏、视频播放等产品的客服工单(短文本)热点突发告警,测算总体预警准确率达到81%。相比原来人工接单,实现了预警从无到有的跨越。在一些服务人手不足的产品中作用尤为显著,极大地解放了一线人员的发现、统计压力。

根据本发明实施例的又一个方面,还提供了一种用于实施上述目标文件的标记方法的电子装置,上述电子装置可以但不限于应用于上述图1所示的服务器112中。如图11所示,该电子装置包括存储器902和处理器904,该存储器902中存储有计算机程序,该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

步骤s1,获取待处理信息中携带的内容语句,其中,内容语句被切分为多个词组;

步骤s2,在多个词组中确定出目标词组,其中,目标词组为预定时间段内出现次数超过预设次数阈值的词组;

步骤s3,使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别,其中,包括目标类别的不同类别在分类模型中对应不同的权重,目标类别的权重用于指示目标词组成为目标事件的可能性;

步骤s4,在目标类别对应的权重超过预设权重阈值的情况下,将目标待处理信息中包含的目标词组标记为目标事件。

可选地,本领域普通技术人员可以理解,图11所示的结构仅为示意,电子装置也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobileinternetdevices,mid)、pad等终端设备。图11其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图11中所示更多或者更少的组件(如网络接口等),或者具有与图11所示不同的配置。

其中,存储器902可用于存储软件程序以及模块,如本发明实施例中的数据请求的处理方法和装置对应的程序指令/模块,处理器904通过运行存储在存储器902内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据请求的处理方法。存储器902可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器904远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器902具体可以但不限于用于储存目标事件的标记方法的程序步骤。作为一种示例,如图9所示,上述存储器902中可以但不限于包括上述目标事件的标记装置中的获取模块802、第一确定模块804、第二确定模块806及标记模块808。此外,还可以包括但不限于上述目标事件的标记装置中的其他模块单元,本示例中不再赘述。

可选地,上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置906包括一个网络适配器(networkinterfacecontroller,nic),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置906为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。

此外,上述电子装置还包括:显示器908,用于显示目标事件的告警推送;和连接总线910,用于连接上述电子装置中的各个模块部件。

本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

步骤s1,获取待处理信息中携带的内容语句,其中,内容语句被切分为多个词组;

步骤s2,在多个词组中确定出目标词组,其中,目标词组为预定时间段内出现次数超过预设次数阈值的词组;

步骤s3,使用分类模型确定待处理信息中包含目标词组的目标待处理信息所对应的目标类别,其中,包括目标类别的不同类别在分类模型中对应不同的权重,目标类别的权重用于指示目标词组成为目标事件的可能性;

步骤s4,在目标类别对应的权重超过预设权重阈值的情况下,将目标待处理信息中包含的目标词组标记为目标事件。

可选地,存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序,本实施例中对此不再赘述。

可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-onlymemory,rom)、随机存取器(randomaccessmemory,ram)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1