一种通话语音角色分离方法及装置与流程

文档序号:12916613阅读:368来源:国知局
一种通话语音角色分离方法及装置与流程

本公开涉及语音识别技术领域,具体地,涉及一种通话语音角色分离方法及装置、电话信号回路、存储设备、电子设备。



背景技术:

随着信息技术的不断发展,人们对于高精度信息化分析的需求越来越高。基于电子设备实现的通话是人们生活中不可或缺的一部分,对应于此,通话内容的记录、分析已成为相关技术领域人员研究的热点,例如,在公众报警电话、各类热线等领域,可以对通话内容进行记录、分析,用以实现后期信息总结、检索等工作。

角色分离作为通话内容分析的一个重要步骤,其分离的准确性直接影响后续语音内容分析结果的准确性。目前,大多基于声纹特征实现角色分离,具体地,接收到语音信号后,可以先基于bic(英文:bayesianinformationcriterion,中文:贝叶斯信息准则)对语音信号进行说话人转折点检测,将语音信号分割成多个语音片段;然后分别提取每个声音片段的声纹特征,例如,声纹特征可以为i-vector特征;最后基于声纹特征,对多个语音片段进行聚类,实现角色分离,即从语音信号中分离出通话人。

上述基于声纹特征实现角色分离的方案,在理想情况下的分离效果较好,其中,理想情况可以为语音信号质量好、两个通话人的声纹特征区别性大等。但在实际应用中,可能受当前通话环境、通话信道质量等影响,导致语音信号的质量变差;或者,可能受通话人的身体状态、心理状态等因素的影响,导致声纹特征发生变化。如此,采用现有方案进行角色分离,很难确保分离结果的准确性和稳定性。



技术实现要素:

本公开的主要目的是提供一种通话语音角色分离方法及装置、电话信号回路、存储设备、电子设备,有助于提高通话语音角色分离结果的准确性和稳定性。

为了实现上述目的,本公开提供一种通话语音角色分离方法,包括:

获取电话信号回路中信号源的电压信号,所述电话信号回路包括串接在本地话机的入户电话线上的检流电阻rf,所述本地话机为固定电话终端;

基于所述信号源的电压信号,获取所述检流电阻rf的电压信号vf和所述电话信号回路的电话线电压信号vr;

分析vf和vr的相位关系,确定出通话语音角色。

可选地,所述基于所述信号源的电压信号,获取vf和vr,包括:

如果所述信号源的电压信号为本地话机的发话信号源vs1的电压信号v1,则,

vr=(v1/rz)*(rl1+rl2+rs2+rf)

vf=(v1/rz)*rf

如果所述信号源的电压信号为远地话机的发话信号源vs2的电压信号v2,则,

vr=(v2/rz)*(rl1+rl2+rs1+rf)

vf=-(v2/rz)*rf

其中,rz=rs1+rs2+rl1+rl2+rf

rs1为本地话机的源阻抗,rs2为远地话机的源阻抗,rl1、rl2为两根电话线的线路阻抗。

可选地,所述分析vf和vr的相位关系,确定出通话语音角色,包括:

计算vf和vr的相关度c;如果c表示vf和vr的相位关系为正相关,则确定通话语音角色为本地通话人;如果c表示vf和vr的相位关系为负相关,则确定通话语音角色为远地通话人;

或者,

通过相位比较器分析vf和vr的相位关系;如果所述相位比较器输出的结果表示vf和vr的相位关系为正相关,则确定通话语音角色为本地通话人;如果所述相位比较器输出的结果表示vf和vr的相位关系为负相关,则确定通话语音角色为远地通话人。

可选地,如果通过相关度分析所述vf和vr的相位关系,则vf和vr的相关度的计算公式为:

其中,n表示分析窗口的宽度,i表示分析窗口中第i个采样点。

本公开还提供一种通话语音角色分离装置,包括:

第一电压信号获取模块,用于获取电话信号回路中信号源的电压信号,所述电话信号回路包括串接在本地话机的入户电话线上的检流电阻rf,所述本地话机为固定电话终端;

第二电压信号获取模块,用于基于所述信号源的电压信号,获取所述检流电阻rf的电压信号vf和所述电话信号回路的电话线电压信号vr;

通话语音角色确定模块,用于分析vf和vr的相位关系,确定出通话语音角色。

可选地,所述第二电压信号获取模块,用于在所述信号源的电压信号为本地话机的发话信号源vs1的电压信号v1时,按照以下公式获得vf和vr:

vr=(v1/rz)*(rl1+rl2+rs2+rf)

vf=(v1/rz)*rf

所述第二电压信号获取模块,还用于在所述信号源的电压信号为远地话机的发话信号源vs2的电压信号v2时,按照以下公式获得vf和vr:

vr=(v2/rz)*(rl1+rl2+rs1+rf)

vf=-(v2/rz)*rf

其中,rz=rs1+rs2+rl1+rl2+rf

rs1为本地话机的源阻抗,rs2为远地话机的源阻抗,rl1、rl2为两根电话线的线路阻抗。

可选地,所述通话语音角色确定模块,用于计算vf和vr的相关度c;如果c表示vf和vr的相位关系为正相关,则确定通话语音角色为本地通话人;如果c表示vf和vr的相位关系为负相关,则确定通话语音角色为远地通话人;

或者,

所述通话语音角色确定模块,用于通过相位比较器分析vf和vr的相位关系;如果所述相位比较器输出的结果表示vf和vr的相位关系为正相关,则确定通话语音角色为本地通话人;如果所述相位比较器输出的结果表示vf和vr的相位关系为负相关,则确定通话语音角色为远地通话人。

可选地,如果通过相关度分析所述vf和vr的相位关系,则所述通话语音角色确定模块计算vf和vr的相关度的公式为:

其中,n表示分析窗口的宽度,i表示分析窗口中第i个采样点。

本公开还提供一种电话信号回路,包括相互串接的本地话机的发话信号源vs1、远地话机的发话信号源vs2、本地话机的源阻抗rs1、远地话机的源阻抗rs2、检流电阻rf、两根电话线的线路阻抗rl1和rl2,

所述本地话机为固定电话终端,且所述检流电阻rf串接在所述本地话机的入户电话线上。

本公开还提供一种存储设备,其中存储有多条指令,所述指令由处理器加载,执行上述通话语音角色分离方法的步骤。

本公开还提供一种电子设备,所述电子设备包括;

上述的存储设备;以及

处理器,用于执行所述存储设备中的指令。

本公开方案中,可以在电话信号回路中串接检流电阻rf,通过采集检流电阻rf的电压信号vf、电话信号回路的电话线电压信号vr,并分析二者相位关系的方式,实现通话语音角色分离的目的。如此方案,不依赖于语音信号质量、通话人的声纹特征差异等信息,与现有技术相比,可以显著提高通话语音角色分离结果的准确性和稳定性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1为现有电话信号回路的简化电路图;

图2为本公开方案中电话信号回路的简化电路图;

图3为本公开方案中通话语音角色分离方法的流程示意图;

图4为本公开方案中通话语音角色分离装置的构成示意图;

图5为本公开方案中用于通话语音角色分离的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

在介绍本公开方案前,先对本公开方案中的电话信号回路做以下解释说明。

通常,依据两线制有线电话机的原理,在不影响对目标分析的前提下,可以将电话信号回路简化为图1所示电路,该简化电路不考虑供电、振铃和消侧音、线路分布电容和受话等环节。其中,vs1为本地话机的发话信号源、vs2为远地话机的发话信号源、rs1为本地话机的源阻抗、rs2为远地话机的源阻抗、rl1和rl2为两根电话线的线路阻抗。由图1可知,本地话机的发话信号源、远地话机的发话信号源利用两线电话线,形成信号回路,实现全双工语音通话。

本公开方案进行通话语音角色分离时,可以在图1所示的电话信号回路中串接检流电阻rf。具体地,检流电阻rf可以串接在固定电话终端的入户电话线上,例如,本地话机为固定电话终端,则可形成图2所示电路图。

需要说明的是,本公开方案中的远地话机可以为固定电话终端,或者也可以为移动电话终端,本公开对此可不做具体限定。以报警电话为例,通常,报警端可能是固定电话终端,也可能是移动电话终端,但是接警端一般为固定电话终端,故可将检流电阻rf布置在接警电话的入户电话线上。

获得图2所示电路图后,便可基于此进行电压信号的采集、分析,最终实现本公开通话语音角色分离的目的,具体可参见下文图3处所做介绍。

参见图3,示出了本公开通话语音角色分离方法的流程示意图。可以包括以下步骤:

s101,获取电话信号回路中信号源的电压信号。

s102,基于所述信号源的电压信号,获取所述检流电阻rf的电压信号vf和所述电话信号回路的电话线电压信号vr。

s103,分析vf和vr的相位关系,确定出通话语音角色。

发明人在研发过程中发现,在电话信号回路中增设检流电阻rf后,可以结合检流电阻rf的电压信号vf、电话信号回路的电话线电压信号vr二者之间的相位关系,实现通话语音角色分离。具体地,可以先获得以下电压信号:

1.信号源的电压信号

本公开方案中,信号源的电压信号可以是本地话机的发话信号源的电压信号v1、远地话机的发话信号源的电压信号v2。多数情况下,在同一时刻,只可获取v1或者v2。也就是说,在本地通话人讲话时,可以获取到本地话机的发话信号源的电压信号v1,在远地通话人讲话时,可以获取到远地话机的发话信号源的电压信号v2。

2.vf和vr

获得信号源的电压信号后,可以结合整个回路的阻抗rz,计算得到vf和vr。其中,rz=rs1+rs2+rl1+rl2+rf。

(1)获取到本地话机的发话信号源的电压信号v1时,

vr=(v1/rz)*(rl1+rl2+rs2+rf);

vf=(v1/rz)*rf。

(2)获取到远地话机的发话信号源的电压信号v2时,

vr=(v2/rz)*(rl1+rl2+rs1+rf);

vf=-(v2/rz)*rf。

按照上述过程,获得vf和vr后,便可分析二者的相位关系,进行通话语音角色分离。

可以理解地,本公开方案可在电话信号回路的任意位置设置参考地,作为一种示例,可以在图2所示位置设置接地点。

分析上文电压信号可知,当获取到本地话机的发话信号源的电压信号v1时,即本地通话人讲话时,vf和vr为同相位但幅度不同的信号,二者属于正相关;当获取到远地话机的发话信号源的电压信号v2时,即远地通话人讲话时,vf和vr为反相位但幅度不同的信号,二者属于负相关。因此,可以通过分析vf和vr的相位关系,确定出通话语音角色。

本公开方案中,至少可通过以下方式分析vf和vr的相位关系。

1.通过相位比较器分析vf和vr的相位关系

当相位比较器输出的结果为vf和vr的相位相同,即vf和vr的相位关系为正相关时,可以确定通话语音角色为本地通话人;当相位比较器输出的结果为vf和vr的相位相反,即vf和vr的相位关系为负相关时,可以确定通话语音角色为远地通话人。

2.通过计算信号相关度的方式分析vf和vr的相位关系

作为一种示例,可以按照以下公式计算vf和vr的相关度c:

其中,n表示分析窗口的宽度,i表示分析窗口中第i个采样点。

作为一种示例,分析窗口的宽度可以为经验值,例如,8k的采样率,对应32毫秒的窗口长度,n=256;或者,还可结合实际应用需求调整分析窗口的宽度,例如,结合通话人的语言特点调整分析窗口的宽度,当通话人的语速较快时,可以视情况调小窗口宽度,反之可以视情况调大窗口宽度。本公开方案对窗口宽度的取值、窗口宽度的调整方式等可不做具体限定。

作为一种示例,如果vf和vr的相关度为正数,即vf和vr的相位关系为正相关时,可以确定通话语音角色为本地通话人;如果vf和vr的相关度为负数,即vf和vr的相位关系为负相关时,可以确定通话语音角色为远地通话人。

作为一种示例,考虑到本地通话人讲话时,vf和vr的相关度接近1,即vf与vr属于高度正相关;远地通话人讲话时,vf和vr的相关度接近-1,即vf与vr属于高度负相关。本公开方案还可以结合实际应用需求,设置相关度阈值,并结合相关度阈值分离通话语音角色。

具体地,当vf和vr的相关度为正数且不小于第一阈值,即vf和vr的相位关系为高度正相关时,可以确定通话语音角色为本地通话人;当vf和vr的相关度为负数且不大于第二阈值,即vf和vr的相位关系为高度负相关时,可以确定通话语音角色为远地通话人。

本公开方案对第一阈值、第二阈值的取值不做具体限定,可结合实际应用需求设定。

综上所述,本公开方案可以采集电话信号回路中的电压信号vf和vr,并通过分析二者相位关系的方式,确定出通话语音角色,实现本公开通话语音角色分离的目的。本公开方案不依赖于语音信号质量、通话人的声纹特征差异等信息,与现有技术相比,可以显著提高通话语音角色分离结果的准确性和稳定性。

获得通话语音角色分离结果后,可以将该结果输出,以备后续语音信号分析处理时使用。作为一种示例,还可以从电话线上获取包含主叫号码的编码信息,并通过对编码信息进行解码处理的方式,从编码信息中提取出主叫号码以及呼叫时间,同样可供后续语音信号分析处理时使用。

参见图4,示出了本公开通话语音角色分离装置的构成示意图。所述装置可以包括:

第一电压信号获取模块201,用于获取电话信号回路中信号源的电压信号,所述电话信号回路包括串接在本地话机的入户电话线上的检流电阻rf,所述本地话机为固定电话终端;

第二电压信号获取模块202,用于基于所述信号源的电压信号,获取所述检流电阻rf的电压信号vf和所述电话信号回路的电话线电压信号vr;

通话语音角色确定模块203,用于分析vf和vr的相位关系,确定出通话语音角色。

可以理解地,本公开方案中的通话语音角色确定模块203可以与第一电压信号获取模块201、第二电压信号获取模块202部署在同一实体设备上;或者,通话语音角色确定模块203可以与第一电压信号获取模块201、第二电压信号获取模块202部署在不同实体设备上,本公开方案对此可不做具体限定。

可选地,所述第二电压信号获取模块,用于在所述信号源的电压信号为本地话机的发话信号源vs1的电压信号时,按照以下公式获得vf和vr:

vf=(vs1/rz)*(rl1+rl2+rs2+rf)

vr=(vs1/rz)*rf

所述第二电压信号获取模块,还用于在所述信号源的电压信号为远地话机的发话信号源vs2的电压信号时,按照以下公式获得vf和vr:

vf=(vs2/rz)*(rl1+rl2+rs1+rf)

vr=-(vs2/rz)*rf

其中,rz=rs1+rs2+rl1+rl2+rf

rs1为本地话机的源阻抗,rs2为远地话机的源阻抗,rl1、rl2为两根电话线的线路阻抗。

可选地,所述通话语音角色确定模块,用于计算vf和vr的相关度c;如果c表示vf和vr的相位关系为正相关,则确定通话语音角色为本地通话人;如果c表示vf和vr的相位关系为负相关,则确定通话语音角色为远地通话人;

或者,

所述通话语音角色确定模块,用于通过相位比较器分析vf和vr的相位关系;如果所述相位比较器输出的结果表示vf和vr的相位关系为正相关,则确定通话语音角色为本地通话人;如果所述相位比较器输出的结果表示vf和vr的相位关系为负相关,则确定通话语音角色为远地通话人。

可选地,如果通过相关度分析所述vf和vr的相位关系,则vf和vr的相关度的计算公式为:

其中,n表示分析窗口的宽度,i表示分析窗口中第i个采样点。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

参见图5,示出了本公开用于通话语音角色分离的电子设备300的结构示意图。参照图5,电子设备300包括处理组件301,其进一步包括一个或多个处理器,以及由存储设备302所代表的存储设备资源,用于存储可由处理组件301的执行的指令,例如应用程序。存储设备302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件301被配置为执行指令,以执行上述通话语音角色分离方法。

电子设备300还可以包括一个电源组件303,被配置为执行电子设备300的电源管理;一个有线或无线网络接口304,被配置为将电子设备300连接到网络;和一个输入输出(i/o)接口305。电子设备300可以操作基于存储在存储设备302的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1