说话人识别方法、设备和系统的制作方法

文档序号:7700927阅读:173来源:国知局
专利名称:说话人识别方法、设备和系统的制作方法
技术领域
本发明实施例涉及通信技术领域,特别涉及一种说话人识别方法、设备和系统。
背景技术
声纹是用电声学仪器显示的携带言语信息的声波频谱,是一种人的个性特 征。和指纹类似,世界上任何两个人的声纹图谱都会有差异。声纹识别(Voiceprint Recognition ;简称VPR)是根据人的发音特征识别出某段语音是谁说的。声纹识别也称 为说话人识别(Speaker Recognition)。声纹识别包括两个方面说话人辨认(Speaker Identification)和说话人确认(Speaker Verification),其中说话人辨认是判断某段语 音是若干人中的哪一个所说的;说话人确认是确认某段语音是否是指定的某个人所说的。 在一定意义上,说话人辨认可以理解为多次的说话人确认。与语音识别不同的是,声纹识 别并不考虑语音中的字词意思,而是利用语音信号中的说话人特征信息识别出说话人的身 份。每个说话人的生物特征与其他人都不同,具有唯一性,不易伪造和假冒,利用说话人识 别技术进行身份认证具有安全、准确、可靠的特点。因而说话人识别的应用范围广泛,例如 说话人辨认可以应用的领域包括刑侦破案、罪犯跟踪、国防监听、个性化应用等;说话人 确认领域包括证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用 卡的认证等。发明人在实现本发明的过程中至少发现现有技术至少存在如下问题现有的说话人识别技术,是应用于传统的客户端-服务器模式的网络架构中,提 供说话人识别功能的媒体资源服务器是单一的网络设备,而这种模式无法应用于通信网络 中承载与控制分离的架构中。

发明内容
本发明实施例提供一种说话人识别方法、设备和系统,用以解决现有说话人识别 无法应用于通信网络中承载与控制分离的架构的问题,实现在分离架构下通过媒体网关控 制协议的控制进行说话人识别。本发明实施例提供一种说话人识别方法,包括接收媒体网关控制器发送的说话人确认指示;根据所述说话人确认指示执行说话人确认操作,并获取说话人确认操作的结果;将所述说话人确认操作的结果上报至所述媒体网关控制器。本发明实施例又提供一种说话人识别方法,包括向媒体网关发送说话人确认指示;接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结^ ο本发明实施例再提供一种媒体网关,包括第一接收模块,用于接收媒体网关控制器发送的说话人确认指示;
确认模块,用于根据所述说话人确认指示执行说话人确认操作,并获取说话人确 认操作的结果;上报模块,用于将所述说话人确认操作的结果上报至所述媒体网关控制器。本发明实施例还提供一种媒体网关控制器,包括第一发送模块,用于向媒体网关发送说话人确认指示;第二接收模块,用于接收所述媒体网关上报的根据所述说话人确认指示获取的说 话人确认操作的结果。本发明实施例还提供一种说话人识别系统,包括媒体网关,用于接收媒体网关控制器发送的说话人确认指示;根据所述说话人确 认指示执行说话人确认操作,并获取说话人确认操作的结果;将所述说话人确认操作的结 果上报至所述媒体网关控制器;媒体网关控制器,用于向媒体网关发送说话人确认指示;接收所述媒体网关上报 的根据所述说话人确认指示获取的说话人确认操作的结果。本发明实施例提供的说话人识别方法、设备和系统,媒体网关根据媒体网关控制 器发送的说话人确认指示进行说话人确认操作,然后将说话人确认操作的结果上报至媒体 网关控制器,实现了在分离架构下通过媒体网关控制协议进行说话人识别。


图1为本发明实施例中NGN网络中MG和MGC组网示意图;图2为本发明说话人识别方法第一实施例的流程图;图3为本发明说话人识别方法第二实施例的流程图;图4为本发明说话人识别方法第三实施例的信令流程图;图5为本发明说话人识别方法第四实施例的信令流程图;图6为本发明说话人识别方法第五实施例的信令流程图;图7为本发明媒体网关实施例的结构示意图;图8为本发明媒体网关控制器实施例的结构示意图;图9为本发明说话人识别系统实施例的结构示意图。
具体实施例方式下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。媒体网关控制器(Media Gateway Controller ;简称MGC)和媒体网关(Media Gateway ;简称MG)是分组网络中的两个关键网元。其中MGC负责呼叫控制功能,MG负责 业务承载功能,可以实现呼叫控制平面和业务承载平面的分离,从而充分共享网络资源,简 化设备升级和业务扩展,降低开发和维护成本。图1为本发明实施例中下一代网络(Next Generation Network ;简称NGN)网络中MG和MGC组网示意图,如图1所示,媒体网关控制 协议(MediaGateway Control Protocol ;简称MGCP)是MG和MGC之间通信的主要协议,例 如H. 248/MeGaCo和MGCP协议。其中,MGCP协议版本1由互联网工程任务组(The Internet Engineering Task Force ;简称:IETF)于 1999 年 10 月制订并于 2003 年 1 月修订;H. 248/ MeGaCo协议版本 1 由 IETF和国际电报联盟(International Telegraph Union ;简称ITU)于2000年11月共同制订并于2003年6月修订;H. 248协议版本2由ITU于2002年5月 制订并于2004年3月修订;H. 248协议版本3由ITU于2005年9月制订。以H. 248协议 为例,MG上的各种资源被抽象表示为终端(Termination)。终端又分为物理(Physical)终 端和临时(Ephemeral)终端,物理终端代表一些具有半永久存在性的物理实体,例如时分 复用(Time Division Multiplex ;简称TDM)通道等;临时终端代表一些临时申请、用后释 放的公共资源,例如实时传输协议(Real-timeTransport Protocol ;简称RTP)流等。另 外,根(Root)终端代表MG整体,终端之间的组合被抽象表示为上下文(Context)。上下文 可以包含多个终端,因而以拓扑(Topology)来描述终端间的相互关系,对于还未与其它终 端发生关联的终端,由一个称为空(Null)上下文的特殊上下文来表示。基于媒体网关控制 协议的抽象模型中,呼叫的接续实际上是对终端和上下文的操作。具体为通过MGC和MG 之间的指示即命令(Command)、请求(Request)和响应(Iteply)来完成。命令类型包括添 加(Add)、修改(Modify)、删减(Subtract)、移动(Move)、审计值(AuditValue)、审计能力 (AuditCapabilities)、通报(Notify)、服务改变(ServiceChange)。命令参数也称为描述 符(Descriptor),分为属性(Property)、信号(Signal)、事件(Event)、统计(Statistic) 参数。具有业务相关性的参数逻辑上聚合为包(Package)。H. 248作为媒体网关控制协议,支持媒体网关控制器和媒体网关配合实现媒体资 源控制的各种功能。例如,H. 248. 9定义了一系列扩展机制,支持媒体网关执行自动语音识 别(Automatic Speech Recognition ;简称ASR)、文本语音转换(Text to Speech ;简称 TTS)、媒体播放(PLAY)、录制(RECORD)等功能。但是,目前的H. 248协议还没有配套的机 制来支持实现说话人识别的功能,即根据接收到的语音的音频信息进行说话人的辨认或确 认。本发明实施例的主要思想是在媒体网关控制协议例如H. 248中定义一套信号、 事件以及对应参数的机制,以支持MGC和MG的说话人识别功能,例如实现说话人确认操作, 此外,说话人辨认操作可以理解为多个说话人确认操作的结果,说话人确认和说话人辨认 都属于说话人识别。图2为本发明说话人识别方法第一实施例的流程图,如图2所示,该说话人识别方 法包括步骤101、接收媒体网关控制器发送的说话人确认指示。采用媒体网关控制协议例如H. 248进行说话人识别时,媒体网关可以接收媒体 网关控制器发送的说话人确认指示,该说话人确认指示可以通过扩展的H. 248信号实现, 该说话人确认指示中可以携带一些参数,用以指示媒体网关对语音信息进行说话人确认操作。步骤102、根据所述说话人确认指示执行说话人确认操作,并获取说话人确认操作 的结果。如果媒体网关控制器下发的说话人确认指示中可以通过参数指定一段语音信息 的存储地址,媒体网关可以从该存储地址获取需要识别的语音信息;如果说话人确认指示 中通过参数指示媒体网关需要接收说话人实时语音信息,媒体网关可以实时的接收说话人 的语音信息。媒体网关可以根据自身存储的声纹文件对需要识别的语音信息进行声纹的匹 配,执行说话人确认操作,例如需要识别的语音信息为是否是“张三”的,则媒体网关调出存储的“张三”的声纹文件与该语音信息进行匹配。步骤103、将所述说话人确认操作的结果上报至所述媒体网关控制器。媒体网关可以通过通报(Notify)请求消息向媒体网关控制器上报说话人确认操 作的结果,说话人确认操作的结果中可以包括匹配是否成功、匹配的相似程度以及说话人 相关资料等信息。该上报的过程可以通过事件来实现,在H. 248中,事件的检测和上报需要 对媒体网关进行设置,设置的方式包括下发或预选配置。事件可以设置在媒体网关的根终 端、某特定终端或某特定流上,用以表示不同事件检测的不同使用范围。在步骤101之前,该说话人识别方法还可以包括建立说话人识别会话的过程,具 体为媒体网关接收所述媒体网关控制器发送的建立说话人确认会话指示,所述建立说话 人确认会话指示携带用于说话人确认操作的声纹标识;媒体网关根据所述建立说话人确认 会话指示建立说话人识别会话,并获取所述声纹标识对应的声纹文件。在步骤103之后,该说话人识别方法还可以包括终止说话人识别会话的过程,具 体为媒体网关接收所述媒体网关控制器发送的终止说话人确认会话指示;媒体网关根据 所述终止说话人确认会话指示,终止说话人确认会话,并向所述媒体网关控制器返回终止 响应消息。另外,该说话人识别方法中,媒体网关除了可以根据媒体网关控制器的说话人确 认指示实现说话人确认的操作之外,还可以进行获取说话人确认操作的中间结果、停止说 话人确认操作、声纹文件的查询、删除、确认回滚、媒体网关缓存清理等操作,可以包括以下 任一示例示例一、对媒体网关的缓存中的语音信息进行说话人确认操作的方法具体为媒 体网关接收所述媒体网关控制器发送的缓存确认指示,根据所述缓存确认指示对媒体网关 的缓存中存放的语音信息进行说话人确认操作。示例二、获取说话人确认操作的中间结果具体为媒体网关接收所述媒体网关控 制器发送的获取中间结果指示,根据所述获取中间结果指示获取并上报当前所执行的说话 人确认操作的中间结果。示例三、停止说话人确认操作具体为媒体网关接收所述媒体网关控制器发送的 停止确认指示,根据所述停止确认指示停止当前所执行的说话人确认操作。示例四、声纹查询的方法具体为媒体网关接收所述媒体网关控制器发送的声纹 查询指示,所述声纹查询指示携带需要查询的声纹标识,并向所述媒体网关控制器返回根 据所述声纹标识获取的查询结果。示例五、声纹删除的方法具体为媒体网关接收所述媒体网关控制器发送的声纹 删除指示,所述声纹删除指示携带需要删除的声纹标识,并向所述媒体网关控制器返回删 除结果。示例六、确认回滚的方法具体为媒体网关接收所述媒体网关控制器发送的确认 回滚指示,根据所述确认回滚指示丢弃媒体网关最新收集的语音信息。示例七、缓存清理的方法具体为媒体网关接收所述媒体网关控制器发送的缓存 清理指示,根据所述缓存清理指示丢弃缓存的媒体数据。由于媒体网关控制器和媒体网关之间是指示与被指示的关系,媒体网关控制器向 媒体网关发送的说话人确认指示、获取中间结果指示、停止确认指示、声纹查询指示、声纹删除指示、确认回滚指示、缓存清理指示、建立说话人识别会话指示和终止说话人识别会话 指示等都可以为H. 248信号的格式,只需要修改H. 248信号内携带的参数就可以实现。而 媒体网关发送的各种指示执行相应的操作,并向媒体网关控制器返回响应消息。本实施例媒体网关根据媒体网关控制器发送的说话人确认指示,并根据存储的声 纹文件执行说话人确认操作,然后将执行说话人确认操作的结果上报至媒体网关控制器, 实现了在分离架构下通过媒体网关控制协议进行说话人识别,采用分离架构进行说话人识 别可以方便各种声纹文件资源的共享、维护与更新。图3为本发明说话人识别方法第二实施例的流程图,如图3所示,该说话人识别方 法包括步骤201、向媒体网关发送说话人确认指示。采用媒体网关控制协议例如H. 248进行说话人识别时,媒体网关控制器向媒体网 关发送说话人确认指示。说话人确认指示通过扩展的H. 248信号实现,该说话人确认指示 中可以携带一些参数,用以指示媒体网关对语音信息进行说话人确认操作。步骤202、接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认 操作的结果。如果媒体网关控制器下发的说话人确认指示中通过可以参数指定一段语音信息 的存储地址,媒体网关可以从该存储地址获取需要识别的语音信息;如果说话人确认指示 中通过参数指定需要接收说话人实时语音信息,媒体网关可以实时的接收说话人的语音信 息。然后媒体网关可以根据自身存储的声纹文件对需要识别的语音信息进行声纹的匹配。 媒体网关控制器接收媒体网关上报通报(Notify)请求消息,该通报请求消息中包括需要 识别的语音信息与存储的声纹文件的进行说话人确认操作的结果,例如匹配是否成功、匹 配的相似程度以及说话人相关资料等信息。该上报的过程可以通过事件来实现。在步骤201之前,该说话人识别方法还可以包括建立说话人识别会话的过程,具 体为媒体网关控制器向所述媒体网关发送建立说话人确认会话指示,所述建立说话人 确认会话指示携带用于说话人确认操作的声纹标识。媒体网关根据建立说话人确认会话指 示建立说话人识别会话。在步骤202之后,该说话人识别方法还可以包括终止说话人识别会话的过程,具 体为媒体网关控制器向所述媒体网关发送终止说话人确认会话指示,并接收所述媒体 网关返回的终止响应消息。媒体网关根据终止说话人确认会话指示终止说话人识别会话。另外,该说话人识别方法除了可以实现说话人识别之外,还可以进行获取说话人 确认操作的中间结果、停止说话人确认操作、声纹文件的查询、删除、确认回滚、媒体网关缓 存清理等操作,可以包括以下任一示例示例一、对媒体网关的缓存中的语音信息进行说话人确认操作的方法具体为媒 体网关控制器向媒体网关发送缓存确认指示,指示所述媒体网关根据所述缓存确认指示对 媒体网关的缓存中存放的语音信息进行说话人确认操作。示例二、获取说话人确认操作的中间结果具体为媒体网关控制器向媒体网关发 送获取中间结果指示,指示所述媒体网关根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果。示例三、停止说话人确认操作具体为媒体网关控制器向媒体网关发送停止确认 指示,指示所述媒体网关根据所述停止确认指示停止当前所执行的说话人确认操作。示例四、声纹查询的方法具体为媒体网关控制器向媒体网关发送声纹查询指示, 所述声纹查询指示携带需要查询的声纹标识,并接收所述媒体网关返回的根据所述声纹标 识获取的查询结果。示例五、声纹删除的方法具体为媒体网关控制器向所述媒体网关发送声纹删除 指示,所述声纹删除指示携带需要删除的声纹标识,并接收所述媒体网关返回的根据所述 声纹标识获取的删除结果。示例六、确认回滚的方法具体为媒体网关控制器向媒体网关发送确认回滚指示, 指示所述媒体网关根据所述确认回滚指示丢弃媒体网关最新收集的语音信息。示例七、缓存清理的方法具体为媒体网关控制器向媒体网关发送缓存清理指示, 指示所述媒体网关根据所述缓存清理指示丢弃缓存的媒体数据。由于媒体网关控制器和媒体网关之间是指示与被指示的关系,媒体网关控制器向 媒体网关发送的说话人确认指示、获取中间结果指示、停止确认指示、声纹查询指示、声纹 删除指示、确认回滚指示、缓存清理指示、建立说话人识别会话指示和终止说话人识别会话 指示等都可以为H. 248信号的格式,只需要修改H. 248信号内携带的参数就可以实现。而 媒体网关发送的各种指示执行相应的操作,并向媒体网关控制器返回响应消息。本实施例媒体网关控制器向媒体网关发送携带的需要识别的语音信息的状态的 说话人确认指示,指示媒体网关根据存储的声纹文件执行说话人确认操作,接收媒体网关 上报的执行说话人确认操作的结果,实现了在分离架构下通过媒体网关控制协议进行说话 人识别,方便了各种声纹文件资源的共享、维护与更新。图4为本发明说话人识别方法第三实施例的信令流程图,如图4所示,在本发明说 话人识别方法第一实施例的基础上,该说话人识别方法包括步骤301、媒体网关控制器MGC向媒体网关MG发送建立说话人识别会话指示,该说 话人识别会话指示可以通过扩展的H. 248信号实现,以指示媒体网关创建说话人识别会话 例如说话人确认会话。该建立说话人识别会话指示可以携带在H. 248的ADD、MODIFY或 MOVE等指示消息中。可以扩展一个H. 248信号指示MG创建说话人确认会话。例如将该H. 248信号命 名为“确认会话开始(Start Verification Session ;简称SVS) ”信号。该SVS信号的类 型可以设置为简洁(Brief ;简称BR),即该SVS信号可以自动停止或被新的信号描述符替 代停止,BR类型的信号没有期满时间的限制。该SVS信号可以定义在现有的包中,或者定义 在一个新的包中,例如定义一个新包,命名为“说话人确认和辨认(Speaker Verification andldentification),,包。在该SVS信号中可以定义一些参数,MGC向MC发送SVS信号时可以将SVS信号中 定义的参数同时下发给MG,通过这些参数指示MG进行建立说话人识别会话的操作。下面举 例介绍SVS信号中可以携带的各种参数的定义方法。参数一储存库统一资源标识(UniformResource Identifier ;简称URI)储存库URI (Repository URI ;简称REURI)参数,用以指示建立说话人确认会话所使用或参考的声纹文件所在的储存库标识。REURI参数的类型是字符串型,取值可以是 URI格式,也可以其它用以标识资源信息的格式。参数二声纹标识声纹标识(Voic^print Identifier ;简称V0ID)参数,用以表示进行说话人确认 操作的声纹文件标识。所述声纹文件用于在说话人识别会话中对说话人语音信息进行匹 配。VOID参数所指定的声纹文件可以是已经存在的声纹文件,也可以是新创建的声纹文件。 VOID参数的类型可以为字符串型。参数三确认模式确认模式(Verification Mode ;简称VEM0)参数,用以表示确认操作的模式,包 括训练模式“Train”和确认模式“Verify”。其中,训练模式是指确认会话将会对某个声纹 进行训练;确认模式是使用已经存在的声纹文件对说话人进行确认识别。VEMO参数的类型 可以是布尔型,取值“True”时表示训练模式,取值“False”表示确认模式。VEMO参数的类 型也可以是枚举型,取值包括“Train”和“Verify”。参数四适配控制适配控制(Adapt Control ;简称ADC0)参数,用以指定在确认操作成功之后是否 进行声纹文件资源的更新。其中,ADCO参数取值为“True”,表示MG需要使用在确认会话中 收集到的语音信息更新对应说话人的声纹文件;取值为“False”,表示MG不允许更改声纹 文件。ADCO参数的类型可以为布尔型。参数五最低确认评价最低确认评价(Minimum Verification Score ;简称MINVS)参数,用以指定说话 人确认操作所能接受的最低成功条件。接受条件可以用数值表示,取值可以是从“-100”到 “100”之间。MINVS参数缺省的取值可以根据具体的实现决定。MINVS参数的类型可以为整 数型。参数六最小确认词语数目最小确认词语数目(MinimumNumber of Verification Phrases ;简称MINNVP) 参数,用以指定说话人确认操作正确执行所需要有效表达(词汇)的最少数目。MINNVP参 数可以用数值表示,取值可以是任何整数。MINNVP参数缺省的取值为“1”。MINNVP参数的 类型可以为整数型。一个成功的说话人确认操作,MG接收和处理的有效表达数目需要满足 该MINNVP参数的取值。参数七最大确认词语数目最大确认词语数目(MaximumNumber of Verification Phrases ;简称MAXNVP) 参数,用以指定说话人确认操作必须执行的有效表达(词汇)的最大数目。当MG接收和处 理的有效表达数目满足该MAXNVP参数的取值时,MG需要向MGC反馈操作结果,并且不能是 “Undecided(未决)”。MAXNVP参数可以用数值表示,取值可以是任何整数,最小值为“1”。 MAXNVP参数缺省的取值依赖于具体的实现。MAXNVP参数的类型可以为整数型。步骤302、媒体网关接收到该说话人识别会话指示例如SVS信号后根据该说话 人识别会话指示中携带的参数建立说话人识别会话,并向媒体网关控制器返回建立响应消 息。同时媒体网关可以根据储存库URI (REURI)参数和声纹标识(VOID)参数查找、获取用 于进行说话人确认操作的声纹文件。
步骤303、媒体网关控制器向媒体网关发送说话人确认指示,该说话人确认指示可 以通过扩展的H. 248信号实现,指示媒体网关执行说话人识别操作例如说话人确认的操作。MGC可以指示MG对指定的语音信息例如语音片段进行说话人确认,或者是指示 MG接收说话人实时语音信息并进行说话人确认操作。在步骤303或者步骤301中,MGC可 以通过设置事件要求MG上报确认结果(VerificationResult)。本实施例中的信号指示及 事件指示可以携带在H. 248的MODIFY或MOVE等指示消息中。可以扩展一个H. 248信号指示MG执行说话人确认操作。通过该H. 248信号的执 行,可以实现对声纹文件的训练或适配,或者是确认或辨认某个声明的身份。例如,将该 H. 248信号命名为“说话人确认(Speaker Verify ;简称SPVE) ”信号。该SPVE信号的类型 可以设置为BR。该SPVE信号可以定义在现有的包中,或者在定义一个新的包中,例如前 面定义的“说话人确认和辨认(Speaker Verification and Identification) ”包中。在该 SPVE信号中,可以定义一些参数,MGC向MC发送SPVE信号可以将SPVE信号中定义的参数 同时下发给MG,通过这些参数指示MG进行说话人识别的操作。下面举例介绍SPVE信号中 可以携带的各种参数的定义方法。参数一无输入定时器无输入定时器(No Input Timeout ;简称ΝΙΤ0)参数,用以指定说话人确认操作 中无输入数据的时长阈值条件,即定时器。输入数据可以是用户的语音信息。NITO参数可 以用数值表示,NITO参数的类型可以为整数型,取值单位可以为毫秒(milliseconds)。参数二 声波保存声波保存(Waveform Save ;简称WASA)参数,用以指定MG是否对用于确认操作的 语音数据进行保存。其中,WASA参数的类型可以布尔型,WASA参数取值为“True”,表示MG 需要对语音数据进行保存;取值为“False”,表示MG不需要保存语音数据。如果MG对语音 数据进行保存,则数据可以用URI格式进行保存,并通过确认结果事件携带给MGC。参数三媒体类型媒体类型(Media Type ;简称METY)参数,用以指定确认操作的音频或视频数据 的媒体类型。METY参数的类型可以是字符串型,该METY参数为可选参数,媒体类型信息也 可以通过媒体保存文件的后缀名显示。参数四表达缓存控制表达缓存控制(Buffer Utterance Control ;简称BUC0)参数,用以指示当前处 理的表达信息是否可以用于后续的确认操作,如果是,则需要将所述表达信息进行缓存。其 中,BUCO参数的类型可以为布尔型,BUCO参数取值为“True”,表示MG需要对表达信息相关 的语音数据进行缓存,以便用于后续的说话人确认操作;取值为“False”,表示MG不需要缓存。参数五输入声波URI输入声波URI (Input Waveform URI ;简称IWURI)参数,用以指示MG确认操作需 要预取和处理的已保存音频内容的URI信息。MG根据该IWURI参数携带的URI对指定存储 地址的数据进行预取和处理。如果确认会话的确认模式是“Train”,表示使用该IWURI参 数指定URI文件对声纹文件进行训练;如果确认会话的确认模式是“Verify”,则表示使用IWURI参数指定URI文件进行声纹确认。IWURI参数的类型可以为字符串型,取值可以是 URI格式,也可以其它用以标识资源信息的格式。IWURI参数为可选,如果MGC在信号中不 指定IWURI参数,则表示对实时语音信息进行确认操作。参数六语音完成定时器语音完成定时器(Speech Complete Timeout ;简称SCT0)参数,用以指定说话人 确认操作中说话人输入语音所需要的静音时长定时器。SCTO参数用数值表示,取值单位可 以是毫秒(milliseconds)。SCTO参数的类型可以为整数型,通常的取值为0. 3秒到1. 0秒 之间,以实际应用为准。步骤304、MG接收到该说话人确认指示例如SPVE信号后,向媒体网关控制器返回 确认响应消息。通过确认响应消息告知MGC,MG已经收到SPVE信号,可以开始进行说话人 确认操作。步骤305、MG接收或获取需要识别的说话人语音信息,例如接收说话人通过终端 发送的实时语音信息,或查找指定存储地址对应的语音文件,并根据步骤301和步骤303获 得的关于说话人确认的各种参数,根据获取的用于确认操作的声纹文件和需要识别的语音 信息进行声纹信息的匹配。步骤306、MG通过通报(Notify)请求消息向MGC上报说话人确认操作的执行结 果。如果说话人确认操作失败,则上报说话人确认操作失败的结果;如果说话人确认操作成 功,则上报说话人确认操作成功的结果。在H. 248中,事件的检测和上报需要对MG进行设置,设置的方法包括下发或预先 配置。为了使能MG上报说话人确认操作的结果,需要在MG上设置该事件,例如在前面步 骤301或303中进行事件的设置。事件可以设置到MG的根(ROOT)终端、某个特定的终端 或某个特定的流上,以表示事件检测的不同适用范围。可以扩展一个H. 248事件,表示说话人确认操作执行失败。例如,将该H. 248事件 命名为“说话人确认失败(Speaker Verification Failure ;简称SPFA) ”事件。该SPFA 事件可以定义在现有的包中,或者定义在一个新的包中,例如定义在前面所述的“说话人 确认和辨认(Speaker Verificationand Identification) ”包中。由 MGC 下发到 MG 时,该 SPFA事件可以不携带参数;由MG上报到MGC时,该SPFA事件可以携带参数,指示不同的错 误返回码,表示不同的错误类型。可以再扩展一个H. 248事件,用以表示说话人确认操作成功,并通过定义参数的 方式携带操作的执行结果。该H. 248事件所携带的确认结果,取决于事件上报的不同时机, 可以是说话人确认操作的中间结果,也可以是执行操作完成的最终结果。例如,将该H. 248 事件命名为“说话人确认结果(Speaker Verification Results ;简称SPRE) ”事件。该 SPRE事件可以定义在现有的包中,或者定义在一个新的包中,例如前面定义的“说话人确 认和辨认(Speaker Verification and Identification),,包中。SPRE事件由MGC到MG下发 时可以不带参数;SPRE事件由MG到MGC上报时,可以携带参数来表示确认结果数据。其中, 说话人确认成功的结果有两种可能的上报方式,一种方式是将确认识别结果作为一个整体 字符串上报,例如采用可扩展多通道注释标记语言(Extensible MultiModal Annotation markup language ; Ml^ :EMMA)JrMfeiSip-Ig (Extensible Markup Language ; Ml^ XML)等的语法格式上报确认结果,这种方式中只需要定义一个事件参数。另一种方式是通过定义多个事件参数将训练结果的信息一一携带上报,下面举例介绍SPRE事件中可以携 带的各种参数的定义方法。参数一声纹标识声纹标识(Voic^print Identifier ;简称V0ID)参数,用以指定进行确认操作的 声纹文件标识。VOID参数的类型可以为字符串。参数二结果类型结果类型(Score Type ;简称SCTY)参数,用以表示确认匹配结果的不同类型,包 括新增(Incremental)和累计(Cumulative)两种。SCTY参数类型可以为布尔型或枚举型。参数三决策结果决策结果(Decision ;简称DE)参数,用以表示确认匹配的结论,包括接受 (Acc印ted)、拒绝(Rejected)和未决(Undecided)三种。DE参数类型可以为枚举型。参数四表达长度表达长度(Utterance Length ;简称UTLE)参数,用以表示新增表达数据或累计 表达数据的长度值,UTLE参数的类型可以为整数型,单位为毫秒。参数五设备类型设备类型(Device Type ;简称DETY)参数,用以表示说话人的设备类型信息,例 如蜂窝电话(Cellular Phone)、电介体电话(Electret Phone)、碳精按钮电话(Carbon Button Phone)和未知(Unknown)等。DETY参数类型可以为枚举型。参数六性别性别(Gender ;简称=GE)参数,用以表示说话人的性别,包括男性(Male)、女性 (Female)和未知(Unknown)三种。GE参数类型可以为枚举型。参数七适配类型适配类型(Adapt Type ;简称ADTY)参数,用以表示声纹文件是否根据表达数据 进行适配更新。ADTY参数类型可以为布尔型。参数八确认评价确认评价(Verification Score ;简称VS)参数,用以指定说话人确认操作的匹 配评价值。VS参数的类型可以为整数型,取值可以是从“-100”到“100”之间。参数九设备商特定信息设备商特定信息(Vendor Specific Results ;简称VSRE)参数,用以携带其它实 现相关的数据信息。VSRE参数的类型可以为字符串型。此外,在上报成功识别结果的同时,SPRE事件还可以携带如下参数参数十声波保存声波保存(Waveform Save ;简称WASA)参数,用以携带所保存声波文件的URI信 息。WASA参数的类型可以为字符串型。如果需要在事件中同时携带多个说话人确认结果,则可以将上述参数的类型设置 成列表的格式。例如,将参数一声纹标识设置为字符串列表(Sub-list of String)格式, 其中可以携带一个或多个声纹标识。这样,事件中可能会同时包含多个声纹标识,其它的参 数则同时携带对应每个声纹标识的识别结果。因此,声纹标识参数是该事件中的关键参数, 其它参数取值需要包含与该参数相同数目的条目。如果某个参数中特定的条目不适于对应
14的声纹标识,则需要将该条目赋值为空(NULL)。步骤307、媒体网关控制器接收媒体网关上报的说话人确认操作的结果的相关数 据后,向媒体网关发送结果响应消息。该结果响应消息用于表示媒体网关收到了媒体网关 控制器发送的说话人确认操作的结果。步骤308、媒体网关控制器向媒体网关发送终止说话人识别会话指示,该终止识别 会话指示可以通过扩展的H. 248信号实现,以指示媒体网关终止说话人识别会话。可以扩展一个H. 248信号,用以指示MG终止说话人确认会话。例如,将该H. 248信 号命名为“确认会话终止(End Verification Session ;简称EVS) ”信号。该EVS信号的 类型可以设置为BR。该EVS信号可以定义在现有的包中,或者定义在一个新的包中,例如 前面定义的“说话人确认和辨认(Speaker Verification and Identification) ”包中。在 该EVS信号中,可以定义一些参数,MGC向MC发送EVS信号可以将EVS信号中定义的参数 同时下发给MG,通过这些参数指示MG进行终止说话人确认会话。EVS信号中可以携带的参 数例如中止控制(Abort Control ;简称ABC0)参数,用以指定在确认会话终止时声纹信 息的操作行为。其中,ABCO参数的类型是布尔型,ABCO参数取值为“True”,表示MG需要丢 失在确认会话中收集到的或正在处理的语音信息;ABCO参数取值为“False”,则表示MG保 存当前确认会话中收集到的语音信息以及对声纹文件的修改操作。步骤309、媒体网关接收到该终止说话人识别会话指示例如EVS信号后,根据终 止说话人识别会话指示携带的参数终止说话人识别会话,并向媒体网关控制器返回终止响 应消息。在本实施例中说话人识别方法的基本流程的基础上,可以对各个信号和事件进行 进一步的扩展定义,以支持MGC和MG需要具体实现的说话人确认和辨认的功能。本实施例定义扩展的H. 248信号中的各种参数,媒体网关控制器向媒体网关发送 由H. 248信号表示的说话人确认指示;媒体网关根据说话人确认指示中的参数获取需要识 别的语音信息,并根据存储的声纹文件对所述语音信息进行声纹的匹配;然后媒体网关采 用定义的H. 248事件上报匹配结果,可以实现在分离架构下通过媒体网关控制协议进行说 话人识别,采用分离架构进行说话人识别时,各种声纹文件资源的共享、维护与更新方便。图5为本发明说话人识别方法第四实施例的信令流程图,如图5所示,在本发明说 话人识别方法第一、二实施例的基础上,该说话人识别方法还可以包括步骤401、媒体网关控制器MGC向媒体网关MG下发声纹查询指示,该声纹查询指 示可以通过扩展的H. 248信号实现。该声纹查询指示可以携带在H. 248的ADD、MODIFY或 MOVE等指示消息中。可以扩展一个H. 248信号,用以指示媒体网关MG进行声纹查询操作。例如,将该 H. 248信号命名为“声纹查询(Voic^print Query ;简称V0QU) ”信号。该VOQU信号的类型 可以设置为BR。该VOQU信号可以定义在现有的包中,或者定义在一个新的包中,例如“说 话人石角认禾口辨认(SpeakerVerification and Identificationn在VOQU信号中,可以定义一些参数,MGC向MC发送VOQU信号时可以将VOQU信号 中定义的参数,通过这些参数指示MG进行声纹查询操作,下面举例介绍VOQU信号中可以携 带的各种参数的定义方法
参数一储存库URI储存库URI (Repository URI ;简称REURI)参数,用以指示需要查询的声纹文件 所在的储存库标识。REURI参数的类型可以为字符串型,取值可以是URI格式,也可以其它 用以标识资源信息的格式。参数二声纹标识声纹标识(Voic^print Identifier ;简称V0ID)参数,用以指定所查询声纹文件 标识。VOID参数的类型可以为字符串型。参数三声纹存在声纹存在(Voic^print Exists ;简称V0EX)参数,用以指示需要查询的声纹文件 是否存在。VOEX参数的类型可以是布尔型,取值“True”表示存在,取值“False”表示不存 在。当MGC向MG发送声纹查询指示时,该VOEX参数的取值可以是通配符“$”;MG在响应消 息中可以通过对该VOEX参数的赋值来向MGC通知查询结果。步骤402、媒体网关接收到该声纹查询指示后,例如V0QU信号后,向媒体网关控 制器返回查询响应消息,在查询响应消息可以通过对声纹存在参数例如=VOEX参数的赋值 携带查询结果。其中,媒体网关根据储存库URI可以查找到声纹文件所在的储存库标识,根 据声纹标识可以查找到需要的声纹文件。如果需要的声纹文件存在,则VOEX参数取值为 “True”,如果需要的声纹文件不存在,VOEX参数取值为“False”。本实施例定义扩展的H. 248信号中的各种参数,媒体网关控制器向媒体网关发送 由H. 248信号表示的声纹查询指示;媒体网关根据声纹查询指示中的参数查询需要的声纹 文件,实现了在分离架构下通过媒体网关控制协议进行声纹查询,采用分离架构进行说话 人识别可以方便各种声纹文件资源的共享、维护与更新。图6为本发明说话人识别方法第五实施例的信令流程图,如图6所示,在本发明说 话人识别方法第一、二实施例的基础上,该说话人识别方法还可以包括步骤501、媒体网关控制器MGC向媒体网关MG发送声纹删除指示,该声纹删除指 示可以通过扩展的H. 248信号实现。该声纹删除指示可以携带在H. 248的ADD、MODIFY或 MOVE等指示消息中。可以扩展一个H. 248信号,用以指示媒体网关MG进行声纹删除操作。例如,将该 H. 248信号命名为“声纹删除(Voic^print Delete ;简称V0DE) ”信号。该VODE信号的类 型可以设置为BR。该VODE信号可以定义在现有的包中,或者定义在一个新的包中,例如 前面定义的“说话人确认和辨认(SpeakerVerification and Identif ication) ”包。在VODE信号中,可以定义一些参数,MGC向MC发送VODE信号时可以将VODE信号 中定义的参数,通过这些参数指示MG进行声纹删除操作,下面举例介绍VODE信号中可以携 带的各种参数的定义方法。参数一储存库URI储存库URI (Itepository URI ;简称REURI)参数,用以指示需要删除声纹文件的 储存库标识。REURI参数的类型可以为字符串型,取值可以是URI格式,也可以其它用以标 识资源信息的格式。参数二声纹标识声纹标识(Voic^print Identifier ;简称V0ID)参数,用以指定所删除声纹文件标识。VOID参数的类型可以为字符串型。参数三声纹存在声纹存在(Voic^print Exists ;简称V0EX)参数,用以指示需要删除的声纹文件 在删除操作开始前是否存在。VOEX参数的类型可以是布尔型,取值“True”表示存在,取值 “False”表示不存在。当MGC向MG发送声纹删除指示时,该VOEX参数的取值可以是通配符 “$” ;MG在响应消息可以中通过对该VOEX参数的赋值来向MGC通知删除结果。步骤502、媒体网关接收到该声纹删除指示,例如V0DE信号后,向媒体网关控制 器返回删除响应消息,在删除响应消息中通过对声纹存在参数例如VOEX参数的赋值携带 删除结果。其中,媒体网关根据储存库URI可以查找到声纹文件所在的储存库标识,根据声 纹标识可以查找到需要的声纹文件。如果需要的声纹文件在删除操作开始前存在,则VOEX 参数取值为“True”,在删除操作开始前不存在,VOEX参数取值为“False”。本实施例中定义扩展的H. 248信号中的各种参数,媒体网关控制器向媒体网关发 送由H. 248信号表示的声纹删除指示;媒体网关根据声纹删除指示中的参数删除指定的声 纹文件,实现了在分离架构下通过媒体网关控制协议的控制进行声纹文件的删除,采用分 离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。除了本发明说话人识别方法第四、第五实施例中介绍的声纹查询、声纹删除的方 法之外,该说话人识别方法中还可以包括缓存确认的方法,具体地MGC向MG发送的缓存 确认指示可以通过定义一种扩展的H. 248信号实现,例如将H. 248信号命名为缓存确认 (Verify from Buffer ;简称VEBU)信号。媒体网关控制器采用VEBU信号可以指示媒体网 关对媒体网关的缓存中存放的语音信息进行说话人识别例如说话人确认的操作。该VEBU 信号的类型可以设置为BR。该VEBU信号可以定义在现有的包中,或者定义在一个新的包 中,例如前面定义的“说话人确认和辨认(Speaker Verificationand Identification)” 包。媒体网关控制器向媒体网关下发的VEBU信号不需要携带参数。此外,该说话人识别方法中还可以包括确认回滚的方法,具体地MGC向MG发送的 确认回滚指示可以通过定义一种扩展的H. 248信号实现,例如将H. 248信号命名为确认回 滚(Verification Rollback ;简称VER0)信号。媒体网关控制器采用VERO信号可以指示 媒体网关丢弃媒体网关最新收集的语音信息例如表达(Utterance)数据。该VERO信号的 类型可以设置为BR。该VODE信号可以定义在现有的包中,或者定义在一个新的包中,例如 前面定义的“说话人确认和辨认(Speaker Verification and Identification) ”包。媒体 网关控制器向媒体网关下发的VERO信号不需要携带参数。进一步地,该说话人识别方法中还可以包括缓存清理的方法,具体地MGC向MG发 送的缓存清理指示可以通过定义一种扩展的H. 248信号实现,例如将H. 248信号命名为缓 存清理(Clear Buffer ;简称CLBU)信号。媒体网关控制器采用CLBU信号可以指示媒体网 关对当前的缓存空间进行清理,即丢弃当前缓存的内容数据。该CLBU信号的类型可以设置 为BR。该CLBU信号可以定义在现有的包中,或者定义在一个新的包中,例如前面定义的 “说话人确认和辨认(Speaker Verification and Identification) ”包。媒体网关控制器 向媒体网关下发的CLBU信号不需要携带参数。进一步地,该说话人识别方法中还可以包括获取说话人确认操作的中间结果的方 法,具体地MGC向MG发送的获取中间结果指示可以通过定义一种扩展的H. 248信号实现,例如将H. 248信号命名为获取中间结果(Getlntermediate Result ;简称=GIR)信号。媒 体网关控制器采用GIR信号可以指示媒体网关向媒体网关控制返回当前执行说话人确认 操作的中间结果。这个中间结果可能只是一个声纹匹配的过程数据。该GIR信号的类型可 以设置为BR。该GIR信号可以定义在现有的包中,或者定义在一个新的包中,例如前面定 义的“说话人确认和辨认(Speaker Verification andldentification) ”包。媒体网关控 制器向媒体网关下发的该GIR信号可以携带媒体网关控制器希望获知信息对应的信号参 数。参数的设置可以与前面确认结果事件的参数一致,例如可以包括声纹标识、结果类型、 决策结果、表达长度、设备类型、性别、适配类型等参数。参数下发时可以赋值为“$”,媒体网 关在响应消息携带结果信息给媒体网关控制器。另外,该信号的实现方法还可以是信号中 不携带任何信号参数;当媒体网关收到该信号时,触发上述“说话人确认结果”事件,即获取 当前说话人确认操作的结果,并通过该事件上报结果给媒体网关控制器。进一步地,该说话人识别方法中还可以包括停止当前的说话人确认操作的方法, 具体地向MG发送的停止确认指示可以通过定义一个扩展的H. 248信号实现,用以指示MG 停止当前的说话人确认操作。例如,将该H. 248信号命名为“停止确认(Stop Verify ;简称 STVE)”信号。该STVE信号的类型可以设置为BR。该STVE信号可以定义在现有的包中,或 者定义在一个新的包中,例如前面定义的“说话人确认和辨认(Speaker Verificationand Identification) ”包中。与前面终止说话人确认会话信号不同,停止确认信号是停止所执 行的当前的说话人确认操作,但不释放识别资源,而终止说话人确认会话则是释放识别会 话资源。在该STVE信号中,可以定义一些参数,MGC向MC发送STVE信号可以将STVE信号 中定义的参数同时下发给MG,通过这些参数指示MG停止进行中的说话人确认操作。STVE 信号中可以携带的参数例如中止确认(Abort Verification ;简称ABVE)参数,用以指定 在停止确认操作时是否上报当前确认操作的结果。其中,ABVE参数的类型是布尔型,ABVE 参数取值为“True”,表示MG应该丢弃当前说话人确认操作的执行结果;ABVE参数取值为 “False”,则表示MG需要将当前说话人确认操作的执行结果上报给MGC。媒体网关接收到 该停止确认指示例如=STVE信号后,停止当前的说话人识别操作,并向媒体网关控制器返 回停止响应消息。如果ABVE参数的取值为“False”,则MG触发前面所述的“说话人确认结 果”事件,即获取当前说话人确认操作的结果,并通过该事件上报结果给媒体网关控制器。本发明实施例中通过扩展的H. 248信号表示缓存确认指示、获取中间结果指示、 停止确认指示、确认回滚指示、缓存清理指示等,媒体网关控制器向媒体网关发送H. 248信 号,可以实现在分离架构下通过说话人确认过程中的缓存确认、获取中间结果、停止确认、 确认回滚、缓存清理等操作,方便了各种声纹文件资源的共享、维护与更新。本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以通过 程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序 在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括R0M、RAM、磁碟或者 光盘等各种可以存储程序代码的介质。图7为本发明媒体网关实施例的结构示意图,如图7所示,该媒体网关包括第一 接收模块71、确认模块72和上报模块73。其中第一接收模块71用于接收媒体网关控制器 发送的说话人确认指示,所述说话人确认指示携带需要识别的语音信息的状态。确认模块 72用于根据所述说话人确认指示执行说话人确认操作,并获取说话人确认操作的结果。上报模块73用于将所述说话人确认操作的结果上报至所述媒体网关控制器。具体地,采用媒体网关控制协议例如H. 248进行说话人识别时,媒体网关的第一 接收模块71接收媒体网关控制器发送的说话人确认指示后,确认模块72根据所述说话人 确认指示执行说话人确认操作,并获取说话人确认操作的结果。如果媒体网关控制器下发 的说话人确认指示携带了一段指定的语音信息的存储地址,确认模块72可以从该存储地 址获取需要识别的语音信息;如果说话人确认指示媒体网关接收说话人实时语音信息的指 示,确认模块72可以接收说话人实时的语音信息。然后确认模块72执行说话人确认的操 作,例如根据媒体网关上之前存储的声纹文件对所述语音信息进行声纹的匹配,上报模块 73将说话人确认的操作的结果上报至所述媒体网关控制器。其中第一接收模块、确认模块 和上报模块进行说话人识别的具体方法,可以参照本发明说话人识别方法第一、第二实施 例中的相关描述。进一步地,该媒体网关还可以包括第一建立会话模块、调用模块。其中第一建立会 话模块用于接收所述媒体网关控制器发送的建立说话人确认会话指示,所述建立说话人确 认会话指示携带用于说话人确认操作的声纹标识。调用模块用于根据所述建立说话人确认 会话指示建立说话人识别会话,并获取所述声纹标识对应的声纹文件。在第一接收模块71 接收媒体网关控制器发送的说话人确认指示之前,第一建立会话模块可以接收所述媒体网 关控制器发送的建立说话人识别会话指示,调用模块根据所述建立说话人识别会话指示建 立说话人识别会话,并可以根据建立说话人识别会话指示中携带的声纹标识查找并调用声 纹标识对应的声纹文件,如果建立说话人识别会话指示中携带存储库标识,则可以存储库 标识对应的声纹文件存储库中查找声纹标识对应的声纹文件。使确认模块72可以根据该 声纹文件对需要识别的语音信息进行声纹的匹配。该媒体网关还可以包括第一终止会话模块、终止响应模块。其中第一终止会话模 块,用于接收所述媒体网关控制器发送的终止说话人确认会话指示。终止响应模块将根据 所述终止说话人确认会话指示,终止说话人确认会话,并向所述媒体网关控制器返回终止 响应消息。其中第一建立会话模块、调用模块、第一终止会话模块、终止响应模块建立、终止 声纹会话连接的具体方法,可以参照本发明说话人识别方法第一、第三实施例中的相关描 述。此外,当媒体网关控制器需要指示媒体网关对的缓存中的语音信息进行说话人确 认操作时,媒体网关可以包括第一缓存确认模块。第一缓存确认模块用于接收所述媒体网 关控制器发送的缓存确认指示,根据所述缓存确认指示对媒体网关的缓存中存放的语音信 息进行说话人确认操作。当媒体网关控制器需要指示媒体网关获取说话人确认操作的中间结果时,媒体网 关可以包括第一中间结果模块。第一中间结果模块用于接收所述媒体网关控制器发送的 获取中间结果指示,根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作 的中间结果。当媒体网关控制器需要指示媒体网关进行停止说话人确认操作时,媒体网关可以 包括第一停止确认模块,用于接收所述媒体网关控制器发送的停止确认指示,根据所述停 止确认指示停止当前所执行的说话人确认操作;当媒体网关控制器需要指示媒体网关进行声纹文件的查询时,媒体网关还可以包
19括第一查询指示模块。其中第一查询指示模块用于接收所述媒体网关控制器发送的声纹查 询指示,所述声纹查询指示携带需要查询的声纹标识,并向所述媒体网关控制器返回根据 所述声纹标识获取的查询结果。查询操作结束后,媒体网关可以向媒体网关控制器返回查 询响应消息,告知媒体网关控制器查询结果。其中第一查询指示模块进行声纹查询的具体 方法,可以参照本发明说话人识别方法第一、第三、第四实施例中的相关描述。当媒体网关控制器需要指示媒体网关进行声纹文件的删除时,媒体网关还可以包 括第一删除指示模块。其中第一删除指示模块用于接收所述媒体网关控制器发送的声纹删 除指示,所述声纹删除指示携带需要删除的声纹标识,并向所述媒体网关控制器返回删除 结果。删除操作结束后,媒体网关可以向媒体网关控制器返回删除响应消息,告知媒体网关 控制器删除结果。其中第一删除指示模块进行声纹删除的具体方法,可以参照本发明说话 人识别方法第一、第三、第五实施例中的相关描述。当媒体网关控制器需要指示媒体网关进行确认回滚时,媒体网关还可以包括第 一确认回滚模块。第一确认回滚模块用于接收所述媒体网关控制器发送的确认回滚指示, 根据所述确认回滚指示丢弃媒体网关最新收集的语音信息。当媒体网关控制器需要指示媒体网关缓存清理时,媒体网关还可以包括第一缓 存清理模块。第一缓存清理模块用于接收所述媒体网关控制器发送的缓存清理指示,根据 所述缓存清理指示丢弃缓存的媒体数据。本实施例媒体网关的第一接收模块接收媒体网关控制器发送的说话人确认指示, 确认模块根据说话人识别指进行说话人确认操作,上报模块将说话人确认操作的结果上报 至媒体网关控制器,可以实现在分离架构下通过媒体网关控制协议的控制进行说话人识 别,采用分离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。图8为本发明媒体网关控制器实施例的结构示意图,如图8所示,该媒体网关控制 器包括第一发送模块81和第二接收模块82。其中第一发送模块81用于向媒体网关发送 说话人确认指示。第二接收模块82用于接收所述媒体网关上报的根据所述说话人确认指 示获取的说话人确认操作的结果。具体地,采用媒体网关控制协议例如H. 248进行说话人识别时,媒体网关控制器 的第一发送模块81向媒体网关发送说话人确认指示,媒体网关根据说话人确认指示执行 说话人确认操作,并获取说话人确认操作的结果,第二接收模块82接收媒体网关上报的话 人确认操作的结果。进一步地,该媒体网关控制器可以包括第二建立会话模块,用于向所述媒体网关 发送建立说话人确认会话指示,所述建立说话人确认会话指示携带用于说话人确认操作的 声纹标识。该媒体网关控制器还可以包括第二终止会话模块,用于向所述媒体网关发送终 止说话人确认会话指示,并接收所述媒体网关返回的终止响应消息。其中第二建立会话模 块、第二终止会话模块指示媒体网关建立、终止声纹会话连接进行说话人识别的具体方法, 可以参照本发明说话人识别方法第二、第三实施例中的相关描述。此外,当媒体网关控制器需要指示媒体网关对的缓存中的语音信息进行说话人确 认操作时,媒体网关控制器可以包括第二缓存确认模块,用于向所述媒体网关发送缓存确 认指示,指示所述媒体网关根据所述缓存确认指示对媒体网关的缓存中存放的语音信息进 行说话人确认操作。
当媒体网关控制器需要指示媒体网关获取说话人确认操作的中间结果时,媒体网 关控制器可以包括第二中间结果模块,用于向所述媒体网关发送获取中间结果指示,指示 所述媒体网关根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中 间结果。当媒体网关控制器需要指示媒体网关进行停止说话人确认操作时,媒体网关控制 器可以包括第二停止确认模块,用于向所述媒体网关发送停止确认指示,指示所述媒体网 关根据所述停止确认指示停止当前所执行的说话人确认操作。当媒体网关控制器需要指示媒体网关进行声纹文件的查询时,该媒体网关控制器 还可以包括第二查询指示模块,用于向所述媒体网关发送声纹查询指示,所述声纹查询指 示携带需要查询的声纹标识,并接收所述媒体网关返回的根据所述声纹标识获取的查询结 果。其中第二查询指示模块指示媒体网关进行声纹查询的具体方法,可以参照本发明说话 人识别方法第二、第三、第四实施例中的相关描述。当媒体网关控制器需要指示媒体网关进行声纹文件的删除时,该媒体网关控制器 还可以包括第二删除指示模块,用于向所述媒体网关发送声纹删除指示,所述声纹删除指 示携带需要删除的声纹标识,并接收所述媒体网关返回的根据所述声纹标识获取的删除结 果。其中第二删除指示模块指示媒体网关进行声纹删除的具体方法,可以参照本发明说话 人识别方法第二、第三、第五实施例中的相关描述。当媒体网关控制器需要指示媒体网关进行确认回滚时,媒体网关控制器还可以包 括第二确认回滚模块,用于向所述媒体网关发送确认回滚指示,指示所述媒体网关根据所 述确认回滚指示丢弃媒体网关最新收集的语音信息。当媒体网关控制器需要指示媒体网关缓存清理时,媒体网关控制器还可以包括 第二缓存清理模块,用于向所述媒体网关发送缓存清理指示,指示所述媒体网关根据所述 缓存清理指示丢弃缓存的媒体数据。本实施例媒体网关控制器的第一发送模块向媒体网关发送说话人确认指示,指示 媒体网关获取对语音信息进行说话人确认操作,第二接收模块接收媒体网关上报的说话人 确认操作的结果,可以实现在分离架构下通过媒体网关控制协议进行说话人识别,采用分 离架构进行说话人识别可以方便各种声纹文件资源的共享、维护与更新。图9为本发明说话人识别系统实施例的结构示意图,如图9所示,该说话人识别系 统包括媒体网关91和媒体网关控制器92。其中媒体网关91用于接收媒体网关控制器发 送的说话人确认指示;根据所述说话人确认指示执行说话人确认操作,并获取说话人确认 操作的结果;将所述说话人确认操作的结果上报至所述媒体网关控制器。媒体网关控制器 92用于向媒体网关发送说话人确认指示;接收所述媒体网关上报的根据所述说话人确认 指示获取的说话人确认操作的结果。具体地,采用媒体网关控制协议例如H. 248进行说话人识别时,媒体网关91接收 媒体网关控制器92发送说话人确认指示,根据所述说话人确认指示可以对语音信息执行 说话人确认的操作。其中,如果媒体网关控制器92下发的说话人确认指示包括为一段指 定的语音信息的存储地址,媒体网关91可以从该存储地址获取需要识别的语音信息;如果 说话人确认指示为接收说话人实时语音信息的指示,媒体网关91可以接收说话人实时的 语音信息。然后媒体网关91可以根据存储的声纹文件对获取的语音信息进行声纹的匹配,执行说话人确认的操作,并将说话人确认操作的结果上报至媒体网关控制器92。媒体网关 91可以通过通报(Notify)请求消息向媒体网关控制器92上报说话人确认操作的结果,说 话人确认操作的结果中可以包括匹配是否成功、匹配的相似程度以及说话人相关资料等信 息。该上报的过程可以通过事件来实现。本实施例中的媒体网关91和媒体网关控制器92可以采用上述的媒体网关和媒体 网关控制器实施例中的任意一种媒体网关和媒体网关控制器。媒体网关、媒体网关控制器 进行说话人识别的具体方法可以参照本发明说话人识别方法第一、第二、第三实施例中的 相关描述。本实施例媒体网关根据媒体网关控制器发送的说话人确认指示,根据存储的声纹 文件对语音信息进行说话人确认的操作,然后将说话人确认操作的结果上报至媒体网关控 制器,在分离架构下通过媒体网关控制协议的控制实现说话人识别,采用分离架构进行说 话人识别可以方便各种声纹文件资源的共享、维护与更新。最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其限制;尽 管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解其依然 可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
权利要求
一种说话人识别方法,其特征在于,包括接收媒体网关控制器发送的说话人确认指示;根据所述说话人确认指示执行说话人确认操作,并获取说话人确认操作的结果;将所述说话人确认操作的结果上报至所述媒体网关控制器。
2.根据权利要求1所述的说话人识别方法,其特征在于,所述接收媒体网关控制器发 送的说话人确认指示之前包括接收所述媒体网关控制器发送的建立说话人确认会话指示,所述建立说话人确认会话 指示携带用于说话人确认操作的声纹标识;根据所述建立说话人确认会话指示建立说话人识别会话,并获取所述声纹标识对应的 声纹文件。
3.根据权利要求2所述的说话人识别方法,其特征在于,所述将所述说话人确认操作 的结果上报至所述媒体网关控制器之后包括接收所述媒体网关控制器发送的终止说话人确认会话指示;根据所述终止说话人确认会话指示,终止说话人确认会话,并向所述媒体网关控制器 返回终止响应消息。
4.根据权利要求1-3所述的说话人识别方法,其特征在于,进一步包括接收所述媒体网关控制器发送的缓存确认指示,根据所述缓存确认指示对媒体网关的 缓存中存放的语音信息进行说话人确认操作;或接收所述媒体网关控制器发送的获取中间结果指示,根据所述获取中间结果指示获取 并上报当前所执行的说话人确认操作的中间结果;或接收所述媒体网关控制器发送的停止确认指示,根据所述停止确认指示停止当前所执 行的说话人确认操作;或接收所述媒体网关控制器发送的声纹查询指示,所述声纹查询指示携带需要查询的声 纹标识,并向所述媒体网关控制器返回根据所述声纹标识获取的查询结果;或接收所述媒体网关控制器发送的声纹删除指示,所述声纹删除指示携带需要删除的声 纹标识,并向所述媒体网关控制器返回删除结果;或接收所述媒体网关控制器发送的确认回滚指示,根据所述确认回滚指示丢弃媒体网关 最新收集的语音信息;或接收所述媒体网关控制器发送的缓存清理指示,根据所述缓存清理指示丢弃缓存的媒 体数据。
5.一种说话人识别方法,其特征在于,包括 向媒体网关发送说话人确认指示;接收所述媒体网关上报的根据所述说话人确认指示获取的说话人确认操作的结果。
6.根据权利要求5所述的说话人识别方法,其特征在于,所述向媒体网关发送说话人 确认指示之前包括向所述媒体网关发送建立说话人确认会话指示,所述建立说话人确认会话指示携带用 于说话人确认操作的声纹标识。
7.根据权利要求6所述的说话人识别方法,其特征在于,所述接收所述媒体网关上报 的根据所述说话人确认指示获取的说话人确认操作的结果之后包括向所述媒体网关发送终止说话人确认会话指示,并接收所述媒体网关返回的终止响应 消息。
8.根据权利要求5-7任一所述的说话人识别方法,其特征在于,还包括向所述媒体网关发送缓存确认指示,指示所述媒体网关根据所述缓存确认指示对所述 媒体网关的缓存中存放的语音信息进行说话人确认操作;或向所述媒体网关发送获取中间结果指示,指示所述媒体网关根据所述获取中间结果指 示获取并上报当前所执行的说话人确认操作的中间结果;或向所述媒体网关发送停止确认指示,指示所述媒体网关根据所述停止确认指示停止当 前所执行的说话人确认操作;或向所述媒体网关发送声纹查询指示,所述声纹查询指示携带需要查询的声纹标识,并 接收所述媒体网关返回的根据所述声纹标识获取的查询结果;或向所述媒体网关发送声纹删除指示,所述声纹删除指示携带需要删除的声纹标识,并 接收所述媒体网关返回的根据所述声纹标识获取的删除结果;向所述媒体网关发送确认回滚指示,指示所述媒体网关根据所述确认回滚指示丢弃媒 体网关最新收集的语音信息;或向所述媒体网关发送缓存清理指示,指示所述媒体网关根据所述缓存清理指示丢弃缓 存的媒体数据。
9.一种媒体网关,其特征在于,包括第一接收模块,用于接收媒体网关控制器发送的说话人确认指示; 确认模块,用于根据所述说话人确认指示执行说话人确认操作,并获取说话人确认操 作的结果;上报模块,用于将所述说话人确认操作的结果上报至所述媒体网关控制器。
10.根据权利要求9所述的媒体网关,其特征在于,还包括以下模块的任意一项或者多项第一建立会话模块,用于接收所述媒体网关控制器发送的建立说话人确认会话指示, 所述建立说话人确认会话指示携带用于说话人确认操作的声纹标识;调用模块,用于根据所述建立说话人确认会话指示建立说话人识别会话,并获取所述 声纹标识对应的声纹文件;第一终止会话模块,用于接收所述媒体网关控制器发送的终止说话人确认会话指示; 终止响应模块,用于根据所述终止说话人确认会话指示,终止说话人确认会话,并向所 述媒体网关控制器返回终止响应消息;第一缓存确认模块,用于接收所述媒体网关控制器发送的缓存确认指示,根据所述缓 存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作;第一中间结果模块,用于接收所述媒体网关控制器发送的获取中间结果指示,根据所 述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果;第一停止确认模块,用于接收所述媒体网关控制器发送的停止确认指示,根据所述停 止确认指示停止当前所执行的说话人确认操作;第一查询模块,用于接收所述媒体网关控制器发送的声纹查询指示,所述声纹查询指 示携带需要查询的声纹标识,并向所述媒体网关控制器返回根据所述声纹标识获取的查询结果;第一删除模块,用于接收所述媒体网关控制器发送的声纹删除指示,所述声纹删除指 示携带需要删除的声纹标识,并向所述媒体网关控制器返回删除结果;第一确认回滚模块,用于接收所述媒体网关控制器发送的确认回滚指示,根据所述确 认回滚指示丢弃媒体网关最新收集的语音信息;第一缓存清理模块,用于接收所述媒体网关控制器发送的缓存清理指示,根据所述缓 存清理指示丢弃缓存的媒体数据。
11.一种媒体网关控制器,其特征在于,包括第一发送模块,用于向媒体网关发送说话人确认指示;第二接收模块,用于接收所述媒体网关上报的根据所述说话人确认指示获取的说话人 确认操作的结果。
12.根据权利要求11所述的媒体网关控制器,其特征在于,还包括以下模块的任意一 项或者多项第二建立会话模块,用于向所述媒体网关发送建立说话人确认会话指示,所述建立说 话人确认会话指示携带用于说话人确认操作的声纹标识;第二终止会话模块,用于向所述媒体网关发送终止说话人确认会话指示,并接收所述 媒体网关返回的终止响应消息;第二缓存确认模块,用于向所述媒体网关发送缓存确认指示,指示所述媒体网关根据 所述缓存确认指示对媒体网关的缓存中存放的语音信息进行说话人确认操作;第二中间结果模块,用于向所述媒体网关发送获取中间结果指示,指示所述媒体网关 根据所述获取中间结果指示获取并上报当前所执行的说话人确认操作的中间结果;第二停止确认模块,用于向所述媒体网关发送停止确认指示,指示所述媒体网关根据 所述停止确认指示停止当前所执行的说话人确认操作;第二查询模块,用于向所述媒体网关发送声纹查询指示,所述声纹查询指示携带需要 查询的声纹标识,并接收所述媒体网关返回的根据所述声纹标识获取的查询结果;第二删除模块,用于向所述媒体网关发送声纹删除指示,所述声纹删除指示携带需要 删除的声纹标识,并接收所述媒体网关返回的根据所述声纹标识获取的删除结果;第二确认回滚模块,用于向所述媒体网关发送确认回滚指示,指示所述媒体网关根据 所述确认回滚指示丢弃媒体网关最新收集的语音信息。第二缓存清理模块,用于向所述媒体网关发送缓存清理指示,指示所述媒体网关根据 所述缓存清理指示丢弃缓存的媒体数据。
13.—种说话人识别系统,其特征在于,包括媒体网关,用于接收媒体网关控制器发送的说话人确认指示;根据所述说话人确认指 示执行说话人确认操作,并获取说话人确认操作的结果;将所述说话人确认操作的结果上 报至所述媒体网关控制器;媒体网关控制器,用于向媒体网关发送说话人确认指示;接收所述媒体网关上报的根 据所述说话人确认指示获取的说话人确认操作的结果。
全文摘要
本发明实施例涉及一种说话人识别方法、设备和系统,其中该说话人识别方法包括接收媒体网关控制器发送的说话人确认指示;根据所述说话人确认指示执行说话人确认操作,并获取说话人确认操作的结果;将所述说话人确认操作的结果上报至所述媒体网关控制器。本发明实施例媒体网关根据媒体网关控制器发送的说话人确认指示进行说话人确认操作,然后将说话人确认操作的结果上报至媒体网关控制器,实现了在分离架构下通过媒体网关控制协议进行说话人识别。
文档编号H04L12/66GK101923853SQ200910086980
公开日2010年12月22日 申请日期2009年6月12日 优先权日2009年6月12日
发明者杨玮玮, 祝宁 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1