融合情感识别的多方会话可视化方法和系统与流程

文档序号:17074728发布日期:2019-03-08 23:37阅读:314来源:国知局
融合情感识别的多方会话可视化方法和系统与流程

本发明涉及一种融合情感识别的多方会话可视化方法和系统。



背景技术:

在企业的呼叫中心,通话过程全程录音后形成录音文件,但这种录音文件转换成的文本无法记录说话人的情感信息。



技术实现要素:

本发明的目的在于提供一种融合情感识别的多方会话可视化方法和系统。

为解决上述问题,本发明提供一种融合情感识别的多方会话可视化方法,包括:

基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;

将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;

以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;

定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;

通过语音识别技术把所述语音处理单位转换成文字;

根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话。

进一步的,在上述方法中,基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段,包括:

基于bic技术,把多方会话的录音分割为说话人交替的录音片段。

进一步的,在上述方法中,以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位,包括:

根据沉默相对于人声的分贝差;

找出语音片段中讲话的停顿位置;

删除语音片段中长时间沉默的片段;进而,把剩余的语音片段分割为不超过6秒的语音处理单位。

进一步的,在上述方法中,所述情感类别包括:高兴、平静、生气、害怕和恐惧。

进一步的,在上述方法中,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音,包括:

基于微软的说话人识别技术,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音。

根据本发明的另一面,提供一种融合情感识别的多方会话可视化系统,包括:

第一装置,用于基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;

第二装置,用于将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;

第三装置,用于以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;

第四装置,用于定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;

第五装置,用于通过语音识别技术把所述语音处理单位转换成文字;

第六装置,用于根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话。

进一步的,在上述系统中,所述第一装置,用于基于bic技术,把多方会话的录音分割为说话人交替的录音片段。

进一步的,在上述系统中,所述第三装置,用于根据沉默相对于人声的分贝差;找出语音片段中讲话的停顿位置;删除语音片段中长时间沉默的片段;进而,把剩余的语音片段分割为不超过6秒的语音处理单位。

进一步的,在上述系统中,所述情感类别包括:高兴、平静、生气、害怕和恐惧。

进一步的,在上述系统中,所述第二装置,用于基于微软的说话人识别技术,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音。

与现有技术相比,本发明通过基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;通过语音识别技术把所述语音处理单位转换成文字;根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话,可实现高效、准确地将说话录音文件转换成文本的同时,记录相应的情感信息。

附图说明

图1是本发明一实施例的融合情感识别的多方会话可视化方法和系统的可视化结果图;

图2是本发明一实施例的跳变点的示意图;

图3是本发明一实施例的识别出所述录音片段中的不同说话人的语音的示意图;

图4是本发明一实施例的得到各个语音处理单位的示意图;

图5是本发明一实施例的识别出各个语音处理单位中的情感类别的示意图;

图6是本发明一实施例的把所述语音处理单位转换成文字的示意图;

图7是本发明一实施例的通把所述语音处理单位转换成文字的可视化结果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种融合情感识别的多方会话可视化方法,包括:

步骤s1,基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;

在此,所述说话人的语音识别技术可以是bic技术,见https://blog.csdn.net/wblgers1234/article/details/77103444,以图1的对话为例,录音文件经过分割后,得到如图2所示跳变点t1、t2、t3、t4、t5、t6;

步骤s2,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;

在此,通过说话人识别技术(比如微软的https://azure.microsoft.com/zh-cn/services/cognitive-services/speaker-recognition/?cdn=disable),将所述录音片段与预存的说话人的声纹进行比对,识别录音片段的客服(cs)/客户(cu)身份;对图1的录音识别出各片段的客服(cs)/客户(cu)身份,如图3所示;

步骤s3,以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;

在此,首先,根据沉默相对于人声的分贝差(比如,-30db),找出语音片段中讲话的停顿位置;然后,删除语音片段中长时间沉默的片段;进而,把剩余的语音片段分割为不超过6秒的语音处理单位,其中,如图4所示,每个语音处理单位的开始和结束位置为所述讲话的停顿位置;

步骤s4,定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;

在此,可以定义5个情感类别:高兴(h)、平静(n)、生气(a)、害怕(s)、恐惧(f),通过语音情感识别技术(比如gmm算法,https://blog.csdn.net/joyjun_1/article/details/81346352)处理语音处理单位,识别出如图5所示当前情感类别;

在企业的呼叫中心,通话过程全程录音后形成录音文件,企业的质检人员除了听取录音外,也希望把语音转写为带有情感信息的富文本(richtext),例如,某客户打电话查询一个号码,通话过程可以转写为下面的富文本,不同颜色代表不同的情感:红色代表生气,灰色代表失落,黑色代表正常情绪;

步骤s5,如图6和7所示,通过语音识别技术把所述语音处理单位转换成文字;

在此,步骤s5和步骤s4可并行执行;

步骤s6,根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,例如,红色代表生气,灰色代表失落,黑色代表正常情绪,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话。

在此,每个语音处理单位经过步骤s4和步骤s5后合并为富文本,然后同一说话人的连续语音处理单位合并为同一段话,可视化结果如图1所示。

本发明可实现高效、准确地将说话录音文件转换成文本的同时,记录相应的情感信息。

本发明还提供另一种融合情感识别的多方会话可视化系统,包括:

第一装置,用于基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;

第二装置,用于将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;

第三装置,用于以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;

第四装置,用于定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;

第五装置,用于通过语音识别技术把所述语音处理单位转换成文字;

第六装置,用于根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话。

进一步的,在上述系统中,所述第一装置,用于基于bic技术,把多方会话的录音分割为说话人交替的录音片段。

进一步的,在上述系统中,所述第三装置,用于根据沉默相对于人声的分贝差;找出语音片段中讲话的停顿位置;删除语音片段中长时间沉默的片段;进而,把剩余的语音片段分割为不超过6秒的语音处理单位。

进一步的,在上述系统中,所述情感类别包括:高兴、平静、生气、害怕和恐惧。

进一步的,在上述系统中,所述第二装置,用于基于微软的说话人识别技术,将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音。

与现有技术相比,本发明通过基于说话人的语音识别技术,把多方会话的录音分割为说话人交替的录音片段;将所述录音片段与预存的说话人的声纹进行比对,识别出所述录音片段中的不同说话人的语音;以6秒作为处理单位,把所述语音片段继续进行切分,得到各个语音处理单位;定义各个情感类别和对应的颜色,通过语音情感识别技术识别出各个语音处理单位中的情感类别;通过语音识别技术把所述语音处理单位转换成文字;根据语音处理单位所述对应的情感类别对所转换成的文字标注对应的颜色,并根据识别出所述录音片段中的不同说话人的语音,将同一说话人的标注颜色后的文字合并为同一段话,可实现高效、准确地将说话录音文件转换成文本的同时,记录相应的情感信息。

本发明的各系统实施例的详细内容,具体可参见各方法实施例的对应部分,在此,不再赘述。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1