用于处理语音的人声数据的方法和设备与流程

文档序号:26009696发布日期:2021-07-23 21:29阅读:116来源:国知局
用于处理语音的人声数据的方法和设备与流程

本公开涉及一种用于处理从用户接收的语音的人声数据的方法和设备。



背景技术:

随着多媒体技术和网络技术的发展,可通过使用装置向用户提供各种服务。最近,随着人工智能(ai)技术的发展,用户可向装置输入人声并基于人声的输入来执行装置的操作。

在多个用户使用多用户装置的情况下,为了基于每个用户的人声输入提供个性化服务,需要从语音中识别用户。根据相关技术,使用了一种技术,由此在用户的语音被输入并存储在装置中并且与所存储的语音相应的用户的识别信息被注册之后,基于从用户输入的语音与预先注册的语音之间的比较的匹配概率来执行用户识别。然而,该技术需要在使用服务之前存储用户的人声并注册识别信息的处理。此外,根据相关技术,存在基于输入语音预测多个用户之间的关系或用户的当前状态的限制。

上述信息仅作为背景信息呈现,以帮助理解本公开。关于上述内容中的任何一个内容是否可应用为关于本公开的现有技术,没有做出任何确定,也没有做出任何断言。



技术实现要素:

本公开的各方面是为了至少解决上述问题和/或缺点,并且至少提供下面描述的优点。因此,本公开的一方面是提供一种用于处理从说话者接收的语音的人声数据的方法和设备。具体地,本公开将提供一种用于从语音的人声数据提取特征向量,基于提取的特征向量生成说话者特征图,并且基于特征向量在所生成的说话者特征图上的位置关系对说话者进行分类的方法和设备。

本公开的另一方面是提供一种用于基于特征向量在说话者特征图上的位置关系来预测用户之间的关系以及用户的状态信息的方法和设备。

另外的方面将部分地在下面的描述中阐述,并且部分地将从描述中显而易见,或者可通过实践本公开的所呈现的实施例来学习。

有益效果

根据本公开的实施例通过仅使用输入的语音来对多个说话者进行分类,而无需另外注册用户识别信息。因此,根据本公开的实施例在用户未注册时为每个说话者提供个性化服务,因此提高了使用便利性。

附图说明

通过以下结合附图的描述,本公开的特定实施例的上述和其他方面、特征和优点将更加明显,其中:

图1是示出根据本公开的实施例的由电子装置执行的通过处理从说话者输入的语音的人声数据来生成说话者特征图并且对说话者特征图上的多个说话者进行分类的方法的示例的示图;

图2a是根据本公开的实施例的电子装置的组件的框图;

图2b是根据本公开的实施例的电子装置和服务器的组件的框图;

图3a是根据本公开的实施例的由电子装置执行的处理从说话者输入的语音的人声数据的方法的流程图;

图3b是根据本公开的实施例的包括电子装置和服务器的系统的操作方法的流程图;

图3c是根据本公开的实施例的包括电子装置和服务器的系统的操作方法的流程图;

图3d是根据本公开的实施例的包括电子装置和服务器的系统的操作方法的流程图;

图4a是用于描述根据本公的开实施例的由电子装置执行的通过处理从说话者输入的人声数据来生成说话者特征图的方法的示图;

图4b是用于描述根据本公开的实施例的由电子装置执行的通过处理从说话者输入的人声数据来生成说话者特征图的方法的示图;

图4c是用于描述根据本公开的实施例的由电子装置执行的通过处理从说话者输入的人声数据来生成说话者特征图的方法的示图;

图4d是根据本公开的实施例的由电子装置执行的通过处理从多个说话者输入的语音的人声数据来生成说话者特征图的方法的流程图;

图5是示出根据本公开的实施例的由电子装置执行的通过使用人工智能(ai)技术将人声特征向量转换为说话者特征向量的方法的示图;

图6a是示出根据本公开的实施例的由电子装置执行的注册与在说话者特征图上形成的集群相应的用户识别信息的方法的示图;

图6b是示出根据本公开的实施例的由电子装置执行的注册与在说话者特征图上形成的集群相应的用户识别信息的方法的示图;

图6c是示出根据本公开的实施例的由电子装置执行的注册与在说话者特征图上形成的集群相应的用户识别信息的方法的示图;

图7a是示出根据本公开的实施例的基于语音的每个音素的频率特征值生成用于在说话者特征图上识别说话者的区别句子并输出所生成的区别句子的方法的示图;

图7b是示出根据本公开的实施例的基于语音的每个音素的频率特征值生成用于在说话者特征图上识别说话者的区别句子并输出所生成的区别句子的方法的示图;

图7c是根据本公开的实施例的由电子装置执行的生成用于在说话者特征图上识别说话者的区别句子并输出请求该区别句子的语音的消息的方法的流程图;

图8是根据本公开的实施方案的包括在电子装置中的虚拟助理模块的组件的框图;

图9是示出根据本公开的实施例的由电子装置执行的基于说话者特征图上的多个集群之间的位置关系来预测多个说话者之间的关系的方法的示图;

图10a是示出根据本公开的实施例的由电子装置执行的基于说话者特征图上的多个集群之间的位置关系来预测多个说话者之间的关系并且基于预测的关系提供个性化服务的方法的示图;

图10b是示出根据本公开的实施例的由电子装置执行的基于说话者特征图上的多个集群之间的位置关系来预测多个说话者之间的关系并且基于预测的关系提供个性化服务的方法的示图;

图11是根据本公开的实施例的由电子装置执行的基于说话者特征图上的多个集群之间的位置关系来预测多个说话者之间的关系并且基于预测的关系提供个性化服务的方法的流程图;

图12a是示出根据本公开的实施例的由电子装置执行的基于说话者特征图上的多个说话者特征向量之间的位置关系来预测用户状态的方法的示图;

图12b是示出根据本公开的实施例的由电子装置执行的基于说话者特征图上的多个说话者特征向量之间的位置关系来预测用户状态的方法的示图;

图13是根据本公开的实施例的由电子装置执行的基于说话者特征图上的多个说话者特征向量之间的位置关系来预测用户状态的方法的流程图;以及

图14是根据本公开的实施例的电子装置的组件的框图。

在整个附图中,相同的附图标记将被理解为指代相同的部件、组件和结构。

具体实施方式

根据本公开的一方面,提供了一种处理语音的人声数据的方法。该方法包括:从接收自说话者的语音的人声数据提取说话者特征向量,通过将提取的说话者特征向量定位在多维向量空间上的特定位置处来生成说话者特征图,通过对位于所述说话者特征图上的至少一个说话者特征向量进行分组来形成指示多个说话者的语音的特征的多个集群,以及根据形成的所述多个集群对所述多个说话者进行分类。

生成所述说话者特征图的步骤可包括:通过将从人声数据提取的人声特征向量作为输入应用于深度神经网络(dnn)模型并且将针对说话者的索引的特征值用作输出来训练所述dnn模型,并且通过使用所述训练的结果来提取说话者特征向量。

所述方法还可包括:从用户接收输入识别信息的语音,从接收的语音的人声数据提取说话者特征向量,并在所述说话者特征图上将提取的说话者特征向量映射到所述多个集群中的集群,以及将所述用户的识别信息注册到所述多个集群中的被映射的集群。

所述方法还可包括:在从所述用户接收识别信息之前,请求所述用户说出用于注册所述用户的识别信息的区别句子。

区别句子可包括音素,其中,对于音素,与多个预先注册的集群相应的多个说话者之间的累积频率特征值的差等于或大于预定临界值。

所述方法还可包括:针对从说话者接收的语音分析每个音素的频率特征值的累积程度,并且基于分析的结果生成包括具有相对低的累积程度或零累积程度的音素的区别句子。

形成所述多个集群的步骤可包括:通过对位于所述说话者特征图上的彼此在预定距离内的所述至少一个说话者特征向量进行分组来形成所述多个集群。

形成所述多个集群的步骤可包括:通过将说话者特征向量作为输入值应用于dnn模型并将说话者之间的相似性指数用作输出值来训练所述dnn模型,并且通过基于训练对至少一个相似的说话者特征向量进行分组来形成所述多个集群。

所述方法还可包括:基于所述说话者特征图上的所述多个集群之间的距离和方向性信息来预测与所述多个集群相应的所述多个说话者之间的关系。

所述方法还可包括:基于预测出的说话者之间的关系来识别接收的语音的说话者,并且提供与识别出的说话者同步的个性化服务。

所述方法还可包括:基于所述多个集群中的一个集群中的多个说话者特征向量之间的相对位置关系来预测说话者的状态。

预测说话者的状态的步骤可包括:通过将从用户接收的语音的第一特征向量的位置与第一特征向量在所述说话者特征图上被映射到的集群中的第二特征向量的位置进行比较来识别方向性,并且基于识别出的方向性来预测说话者的健康状态。

所述方法还可包括:从预先存储的消息中输出与预测的用户的健康状态相应的消息。

根据本公开的另一方面,提供了一种用于处理语音的人声数据的电子装置。所述电子装置包括:语音输入器,从说话者接收语音;控制器,被配置为从由语音输入器接收的语音的人声数据提取说话者特征向量,通过将提取的说话者特征向量定位在多维向量空间上的特定位置处来生成说话者特征图,通过对位于所述说话者特征图上的至少一个说话者特征向量进行分组来形成指示多个说话者的人声的特征的多个集群,并且根据形成的所述多个集群来对所述多个说话者进行分类;以及存储器,存储所述说话者特征图。

控制器还可被配置为:通过将从人声数据提取的人声特征向量作为输入应用于dnn模型并且将关于说话者的索引的特征值用作输出来训练所述dnn模型,并且通过使用所述训练的结果来提取说话者特征向量。

语音输入器可从用户接收输入识别信息的语音,并且控制器还可被配置为:从接收的语音的人声数据提取说话者特征向量,将提取的说话者特征向量映射到所述说话者特征图上的所述多个集群中的集群,并且将所述用户的识别信息注册到所述多个集群中的被映射的集群。

所述电子装置还可包括:扬声器,输出语音消息,并且控制器还可被配置为控制扬声器输出用于请求所述用户说出用于注册所述用户的识别信息的区别句子的语音消息。

控制器还可被配置为:生成包括音素的区别句子,其中,对于音素,与多个预先注册的集群相应的多个说话者之间的累积频率特征值的差等于或大于预定临界值。

控制器还可被配置为:针对从说话者接收的语音分析每个音素的频率特征值的累积程度,并且基于分析的结果生成包括具有相对低的累积程度或零累积程度的音素的区别句子。

控制器还可被配置为:通过对位于所述说话者特征图上的彼此在预定距离内的所述至少一个说话者特征向量进行分组来形成所述多个集群。

控制器还可被配置为:通过将说话者特征向量作为输入值应用于dnn模型并将说话者之间的相似性指数用作输出值来训练所述dnn模型,并且通过基于训练对至少一个相似的说话者特征向量进行分组来形成所述多个集群。

控制器还可被配置为:基于所述说话者特征图上的所述多个集群之间的距离和方向性信息来预测与所述多个集群相应的所述多个说话者之间的关系。

所述电子装置还可包括显示器,并且控制器还可被配置为基于预测出的说话者之间的关系来识别接收的语音的说话者,并且在显示器上显示与识别出的说话者同步的个性化服务。

控制器还可被配置为:通过将由语音输入器接收的语音的第一特征向量的位置与第一特征向量在所述说话者特征图上被映射到的集群中的第二特征向量的位置进行比较来识别方向性,并且基于识别出的方向性来预测用户的健康状态。

所述电子装置还可包括:扬声器,输出语音消息,并且控制器还可被配置为控制扬声器从预先存储的消息中输出与预测的用户的健康状态相应的消息。

根据本公开的另一方面,提供了一种包括非暂时性计算机可读记录介质的计算机程序产品。计算机程序产品包括控制电子装置进行以下操作的指令:从说话者接收语音,从接收的语音的人声数据提取说话者特征向量,通过将提取的说话者特征向量定位在多维向量空间上的特定位置处来生成说话者特征图,通过对位于所述说话者特征图上的至少一个说话者特征向量进行分组来形成指示多个说话者的人声的特征的多个集群,并且根据形成的所述多个集群对所述多个说话者进行分类。

根据以下结合附图公开了本公开的各种实施例的详细描述,本公开的其他方面、优点和显著特征对于本领域技术人员将变得显而易见。

本申请基于并要求于2018年11月22日在韩国知识产权局提交的第10-2018-0145644号韩国专利申请的优先权,其公开内容通过引用整体并入本文。

提供参照附图的以下描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体细节以帮助理解,但是这些细节仅被认为是示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可对本文描述的各种实施例进行各种改变和修改。此外,为了清楚和简明,可省略对公知的功能和结构的描述。

在以下描述和权利要求书中使用的术语和词语不限于书面含义,而是仅由发明人使用以使得能够清楚且一致地理解本公开。因此,对于本领域技术人员显而易见的是,提供本公开的各种实施例的以下描述仅用于说明目的,而不是为了限制由所附权利要求及其等同物限定的本公开的目的。

应当理解,除非上下文另有明确规定,否则单数形式“一”、“一个”和“该”包括复数指示物。因此,例如,对“组件表面”的引用包括对一个或更多个这样的表面的引用。

在整个公开内容中,表述“a、b或c中的至少一个”表示仅a、仅b、仅c、a和b两者、a和c两者、b和c两者、a、b和c全部或其变体。

在整个说明书中,当部件“包括”元件时,将被理解,该部件另外包括其他元件而不是排除其他元件,只要没有特定的相反叙述即可。此外,说明书中描述的术语(诸如“单元”、“模块”等)表示处理至少一个功能或操作的单元,其可被实现为硬件或软件或其组合。

在下文中,现在将参照附图更全面地描述本公开的实施例,以使本领域普通技术人员能够毫无困难地执行本公开。然而,本公开可以以许多不同的形式实施,并且不应被解释为限于本文阐述的本公开的实施例。

在下文中,将参照附图详细描述本公开的实施例。

图1是示出根据本公开的实施例的由电子装置执行的通过处理从说话者接收的语音的人声数据来生成说话者特征图并且对说话者特征图上的多个说话者进行分类的方法的示图。

参照图1,电子装置10可从说话者1接收语音。电子装置10可识别从说话者1输入的人声,并接收与输入的人声相应的“语音”,其中不包括非人声部分。说话者1所说的语言可被称为“口语”,并且口语可与预定指令相应。然而,本发明不限于此。口语可与自然语言相应,其中,自然语言是说话者1通常使用的语言。

电子装置10可从语音提取人声数据20。在这种情况下,电子装置10可通过检测从说话者1输入的人声的起点和终点来检测实际人声部分,并且可从检测到的实际人声部分提取人声数据20。

人声特征可被指示为人声特征向量。详细地,电子装置10可通过将特征向量提取技术应用于人声数据20来提取输入的人声数据20的人声特征向量。根据本公开的实施例,电子装置10可通过使用倒谱、线性预测系数(lpc)、梅尔频率倒谱系数(mfcc)和滤波器组能量中的任何一种特征向量提取技术来提取输入的人声数据20的人声特征值。所描述的特征向量提取技术仅为示例,并且本公开所使用的特征向量提取技术不限于所描述的示例。

提取的人声特征向量可以是n维向量,其中,n等于或大于2。此外,提取的人声特征向量可包括至少两个向量列。

说话者特征可被指示为说话者特征向量。详细地,电子装置10可通过将深度神经网络(dnn)模型应用于从人声数据20提取的人声特征向量来提取说话者特征向量。电子装置10可通过将人声特征向量作为输入值应用于dnn模型并将说话者特征值作为输出值应用于dnn模型来训练dnn模型,以获得说话者特征向量。这里,说话者索引可表示通过使用独热编码、word2vec和glove中的至少一个编码将说话者识别信息转换为向量值而获得的值。

dnn模型可包括卷积神经网络(cnn)、递归神经网络(rnn)或生成对抗网络(gan)中的至少一个。然而,dnn模型不限于上述示例。根据本公开的电子装置10使用的dnn模型可包括当前已知的所有类型的dnn模型。

根据本公开的实施例,输入到dnn模型的人声特征向量可以是n维向量,其中,n等于或大于2。此外,输入到dnn模型的人声特征向量可包括至少两个向量列。通过训练dnn模型提取的说话者特征向量可以是n维向量,其中,n等于或大于2。

根据本公开的另一实施例,说话者特征向量可被指示为i向量(是特征向量)。详细地,当通过使用高斯混合模型(gmm)对从人声数据提取的声音参数的分布进行建模时,从通过连接平均高斯值生成的gmm超向量减去全局背景模型(ubm)的信息可被指示为i向量与总变量变换矩阵的乘积。这里,ubm可以是通过使用指示多个各种说话者的人声特征的大量数据获得的值,并且总变量变换矩阵可以是基于说话者识别模型(例如,gmm等)确定的值,因此,电子装置10可通过从说话者的人声数据获得人声特征向量来获得i向量。

电子装置10可生成在n维虚拟空间的特定位置处显示说话者特征向量的说话者特征图30。从由多个说话者输入的人声数据20提取的n维说话者特征向量31、32和33可被定位在说话者特征图30的特定位置处,其中,特定位置与特征向量值相应。在图1中示出了说话者特征图30和说话者特征向量31、32和33都是三维的。然而,这是为了便于解释。根据本公开的说话者特征图30和说话者特征向量31、32和33不限于此,并且可以是n维的,其中,n等于或大于2。

电子装置10可基于位于所生成的说话者特征图30上的说话者特征向量31、32和33之间的相对位置关系来形成多个集群41、42和43。如图1所示,说话者特征向量31、32和33可分别位于说话者特征图30的位置上,其中,所述位置分别与它们的说话者特征向量值相应,并且位于预定距离内的说话者特征向量可形成球形组。根据本公开的实施例,电子装置10可通过对位于预定距离内的多个说话者特征向量进行分组来形成多个集群41、42和43。也就是说,电子装置10可通过将聚集在说话者特征图30上在预定距离内的说话者特征向量组合为一组来形成集群41、42和43中的每一个集群。这里,“集群41、42和43”可以是具有相同人声特征的说话者特征向量组,并且是从以下方面推导出的概念:人声数据的具有相似特征的说话者特征向量可被定位为在说话者特征图30上彼此相对相邻,并且人声数据的具有不相似特征的说话者特征向量可被定位为在说话者特征图上彼此相对远离。

电子装置10可根据在说话者特征图30上形成的多个集群41、42和43对多个说话者进行分类。例如,电子装置10可将具有映射在第一集群41中的说话者特征向量31的语音分类为第一用户,将具有映射在第二集群42中的说话者特征向量32的语音分类为第二用户,并且将具有映射在第三集群43中的说话者特征向量33的语音分类为第三用户。

根据本公开的实施例,电子装置10可通过应用dnn模型,根据各个说话者对说话者特征图30上的说话者特征向量进行聚类。例如,电子装置10可通过将说话者特征向量作为输入值应用于dnn并将关于说话者之间的相似性指数作为输出值应用于dnn模型来训练dnn模型,根据各个说话者对说话者特征图上的说话者特征向量进行分类。这里,例如,当说话者是同一人时,关于说话者之间的相似性指数可被指示为1,并且当说话者不是同一人时,关于说话者之间的相似性指数可被指示为转换为0的值。由电子装置10使用和训练的dnn模型可包括cnn、rnn或gan中的至少一个,但不限于所描述的示例。

根据本公开的实施例,电子装置10可基于在说话者特征图30上形成的多个集群41、42和43的距离和方向性信息来预测分别与多个集群41、42和43相应的多个说话者之间的关系。根据本公开的另一实施例,电子装置10可通过使用dnn模型来预测多个说话者之间的关系。将参照本公开的图9和图10a至图10c详细描述这个方面。根据本公开的实施例,电子装置10可基于说话者特征图30上的多个集群41、42和43中的任何一个集群中的多个说话者特征值的位置关系来预测说话者的状态。将参照本公开的图12a、图12b和图13详细描述这个方面。

当多个用户使用电子装置10时,必须从语音中识别用户,以便基于用户的人声输入来提供个性化服务。根据相关技术,使用一种技术,由此在电子装置10预先输入并存储多个用户的语音并存储并且注册与所存储的语音相应的用户识别信息之后,电子装置10通过将从用户输入的语音与预先注册的语音进行比较来基于匹配概率执行用户识别。然而,这个技术需要在使用服务之前存储用户的人声和注册识别信息的处理。

根据本公开的实施例的电子装置10可通过仅使用输入的语音来对多个说话者进行分类,而无需另外注册用户识别信息。因此,当用户不被注册时,根据本公开的电子装置10可为每个说话者提供个性化服务,因此可提高使用便利性。

图2a是根据本公开的实施例的电子装置的组件的框图。电子装置可以是固定类型的终端或者是被实现为计算机装置的移动终端。电子装置可包括例如智能电话、蜂窝电话、导航装置、计算机、笔记本计算机、数字广播终端、个人数字助理(pda)、便携式多媒体播放器(pmp)或平板个人计算机(pc)中的至少一个,但不限于此。电子装置可通过使用无线或有线通信方法经由网络与其他电子装置和/或服务器通信。

参照图2a,电子装置100可包括语音输入器110、控制器120、存储器130、扬声器140和显示器150。并非图2a的所有示出的组件都是电子装置100的必要组件。可通过包括比图2a所示的组件更多的组件或者通过包括比图2a所示的组件更少的组件来实现电子装置100。

例如,如图14所示,根据一个或更多个实施例的电子装置1000可包括用户输入器1100、传感器1400、通信器1500和音频/视频(a/v)输入器1600。

语音输入器110可从说话者接收包括人声的语音。语音输入器110可识别输入的人声并输出识别人声的结果。识别的结果可包括由说话者所说的语言。作为由说话者所说的语言的“口语”可与预定指令相应。然而,本发明不限于此。口语可与自然语言相应,其中,自然语言是说话者通常使用的语言。

语音输入器110可包括语音识别引擎。语音识别引擎可通过将人声识别算法应用于输入的人声来识别由说话者说出的人声,并且可生成识别的结果。这里,输入的人声可被转换为适合于人声识别的形式,并且语音输入器110可通过从人声信号检测起点和终点来检测被包括在输入的人声中的实际人声部分。

控制器120可包括处理器122、数据训练模块123和存储器(memory)124。控制器120可被实现为包括软件、硬件或软件和硬件的组合的计算机可读记录介质。

处理器122可被配置为通过执行计算、逻辑、输入和输出计算以及信号处理来处理计算机程序的指令。计算机程序的指令可被存储在存储器124中,并且可由存储器124提供给处理器122。在下文描述的实施例中,由控制器120执行的功能和/或操作可由处理器122通过执行根据存储在诸如存储器124的记录介质中的计算机程序代码接收的指令来实现。

处理器122可包括例如中央处理单元(cpu)、微处理器、图形处理单元(gpu)、专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理装置(dspd)、可编程逻辑装置(pld)或现场可编程门阵列(fpga)中的至少一个,但不限于此。根据本公开的实施例,当电子装置100是诸如智能电话、平板pc等的移动装置时,处理器122可以是被配置为执行应用的应用处理器(ap)。

数据训练模块123可包括被配置为通过使用dnn模型来训练诸如人声特征向量或说话者特征向量的向量数据的硬件装置。数据训练模块123可包括具有计算和训练能力以通过执行经由dnn模型执行学习的软件来训练大量数据的硬件装置。

存储器124可包括例如随机存取存储器(ram)、静态随机存取存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)或可编程只读存储器(prom)中的任何一种,但不限于所描述的示例。

控制器120可从由语音输入器110输入的语音的人声数据提取说话者特征向量,并且通过将提取的说话者特征向量定位在多维向量空间上的特定位置处来生成说话者特征图。根据本公开的实施例,语音输入器110可通过将倒谱、lpc、mfcc和滤波器组能量中的任何一种特征向量提取技术应用于通过使用端点检测(epd)方法从说话者的语音中检测到的人声数据来提取输入的人声数据的人声特征向量。这里,提取的人声特征向量可基于在每个音素的频率范围中累积的人声信号值的大小被提取出,并且可以是n维向量,其中,n等于或大于2。

控制器120的数据训练模块123可通过针对从说话者输入的语音的人声数据提取的人声特征向量应用dnn模型来提取说话者特征向量。数据训练模块123可通过将人声特征向量作为输入值应用于dnn模型并将说话者特征值作为输出值来训练dnn模型,以获得说话者特征向量。这里,dnn模型可包括cnn、rnn或gan中的至少一个。然而,dnn不限于所描述的示例。数据训练模块123可通过使用当前已知的所有类型的神经网络模型方法从人声特征向量提取说话者特征向量。控制器120可累积所提取的n维说话者特征向量,并且可通过将累积的说话者特征向量分别定位在n维向量空间上的特定位置处来生成说话者特征图。说话者特征图可将从多个说话者输入的语音分别指示为多维向量空间(即,n维向量空间,其中,n等于或大于2)中的向量。由于说话者特征向量被定位为在说话者特征图上彼此相邻,所以说话者的人声可以是相似的。

控制器120可通过对位于说话者特征图上在预定距离内的至少一个说话者特征向量进行分组来形成集群。这里,“集群”可以是具有相同人声特征的一组说话者特征向量,并且可以是指示每个说话者的人声特征的组单元。根据本公开的实施例,控制器120可根据形成的多个集群对多个说话者进行分类。

根据本公开的实施例,数据训练模块123可通过应用dnn模型基于每个说话者对说话者特征图上的说话者特征向量进行聚类。例如,数据训练模块123可通过将说话者特征向量作为输入值应用于dnn模型并将说话者的索引作为输出值应用于dnn模型来训练dnn模型,根据各个说话者对说话者特征图上的说话者特征向量进行分类。这里,说话者的索引可表示通过使用独热编码、word2vec和glove中的至少一个编码将说话者识别信息转换为向量值而获得的值。数据训练模块123可通过使用dnn模型来分析说话者特征向量是否彼此相似,并且可对相似的说话者特征向量进行聚类。例如,数据训练模块123可通过使用当说话者1和说话者2是同一人时具有输出值1并且当说话者1和说话者2是不同的人时具有输出值0的dnn模型来对说话者特征向量进行聚类。

根据本公开的实施例,数据训练模块123可通过使用dnn模型来获得关于说话者之间的关系的信息。详细地,数据训练模块123可通过将说话者特征向量作为输入值应用于dnn模型并且将关于说话者之间的关系的信息作为标签应用于dnn模型来预测说话者之间的关系。

根据本公开的实施例,语音输入器110可从用户接收输入识别信息的语音,并且控制器120可根据从用户接收的语音提取说话者特征向量,并将提取的说话者特征向量映射到说话者特征图上的多个集群中的一个集群。这里,由控制器120使用的映射方法可以是将从接收的语音提取的说话者特征向量与说话者特征图上的说话者特征向量进行比较,并且可与直接比较或统计方法相应。这里,直接比较是指将要识别的单元(诸如单词、音素等)设置为说话者特征向量并且测量输入的人声与说话者特征向量的相似程度的方法。直接比较可包括向量量化。统计方法是指将要识别的单元设置为状态序列并使用状态序列之间的关系的方法。统计方法可包括动态时间规整(dtw)、隐马尔可夫模型(hmm)、使用神经电路网络的方法等。

控制器120可将从用户输入的语音提取的说话者特征向量映射到集群,并且可将用户识别信息注册并存储到映射的集群。将参照本公开的图6a至图6c详细描述由控制器120执行的注册用户识别信息的详细方法。

控制器120可生成用于注册用户识别信息的区别句子,并且可控制扬声器140输出请求用户说出所生成的区别句子的语音消息。根据本公开的实施例,控制器120可生成包括音素的区别句子,其中,对于所述音素,在说话者特征图上预先注册的多个集群中包括的多个说话者之间的频率信号值的差等于或大于预定临界值。根据本公开的实施例,控制器120可针对从说话者输入的语音分析每个音素的频率信号值的累积程度,并且可生成包括具有相对低的累积程度或零累积程度的音素的区别句子。将参照本公开的图7a至图7c详细描述由控制器120执行的生成区别句子的详细方法。

控制器120可基于说话者特征图上的多个集群之间的距离和方向性的程度来预测与多个集群相应的多个说话者之间的关系。根据本公开的实施例,控制器120可基于预测的说话者之间的关系来识别输入的语音的说话者,并且提供与识别出的说话者同步的个性化服务。根据本公开的实施例,数据训练模块123可通过使用dnn模型从说话者特征向量识别说话者,并预测说话者之间的关系。将参照本公开的图9至图11详细描述这个方面。

控制器120可提取由语音输入器110接收的用户的语音的说话者特征向量,将提取的说话者特征向量映射到说话者特征图上的特定集群,并且基于映射的集群中的其他说话者特征向量与输入的语音的说话者特征向量之间的位置关系来预测用户的健康状态。根据本公开的实施例,控制器120可从由语音输入器110接收的用户的语音提取第一特征向量,将第一特征向量映射到说话者特征图上的特定集群,通过将映射的集群中的第二特征向量的位置与第一特征向量的位置进行比较来识别方向性,并且基于识别出的方向性来预测用户的健康状态。将参照本公开的图12a、图12b和图13详细描述这个方面的详细方法。

存储器130可存储由控制器120提取的说话者特征向量和说话者特征图。存储器130可包括例如闪存型存储介质、硬盘型存储介质、多媒体卡微型存储介质、卡型存储器(例如,安全数字(sd)或极端数字(xd)存储器)、磁存储器、磁盘和光盘中的至少一种类型的存储介质,但不限于所描述的示例。

根据本公开的实施例,存储器130可以不是包括在电子装置100中的组件,并且可被实现为外部网络服务器或云服务器。在这种情况下,由控制器120提取的说话者特征向量和说话者特征图可被存储在外部网络服务器或云服务器中,并且控制器120可经由通信网络访问特征向量和说话者特征图。将参照图2b详细描述这个方面。

扬声器140可输出与由电子装置100执行的功能相关的语音数据。这些功能可包括例如消息接收声音、通知声音等。扬声器140可输出存储在存储器130中的语音消息或由控制器120生成的语音消息。根据本公开的实施例,扬声器140可输出请求用户说出用于注册用户识别信息的区别句子的语音消息。根据本公开的实施例,扬声器140可输出与由控制器120预测的用户的健康状态相应的语音消息。

显示器150可显示与由控制器120识别的说话者同步的个性化服务。显示器150可包括物理装置,其中,物理装置包括例如阴极射线管(crt)显示器、液晶显示器(lcd)显示器、等离子体显示面板(pdp)显示器、有机发光二极管(oled)显示器、场发射显示器(fed)显示器、发光二极管(led)显示器、真空荧光显示器(vfd)显示器、数字光处理(dlp)显示器、平板显示器、3d显示器或透明显示器中的至少一个,但不限于此。根据本公开的实施例,显示器150可形成为包括触摸界面的触摸屏。当显示器150形成为触摸屏时,显示器150可与触摸板集成并且可从用户接收触摸输入。

图2b是根据本公开的实施例的电子装置和服务器的组件的框图。

参照图2b,电子装置100可包括语音输入器110、控制器120、扬声器140、显示器150和通信器160。图2b所示的组件中的语音输入器110、控制器120、扬声器140和显示器150分别与图2a所示的组件相同,因此,将不给出重复描述。与图2a所示的电子装置100不同,图2b所示的电子装置100可不包括存储器130。然而,不限于此,并且图2b所示的电子装置100也可包括存储器130(参照图2a)。

参照图2b,电子装置100可经由通信器160向服务器200发送数据和从服务器200接收数据。通信器160可经由有线或无线通信方法被连接到服务器200,并且可与服务器200执行数据通信。通信器160可通过使用诸如有线局域网(lan)、无线lan、wi-fi、蓝牙、zigbee、wi-fi直连(wfd)、红外数据协会(irda)、蓝牙低功耗(ble)、近场通信(nfc)、无线宽带互联网(wibro)、世界微波接入互操作性(wimax)、共享无线接入协议(swap)、无线吉比特联盟(wigig)和rf通信的数据通信方法中的至少一种来执行与服务器200的数据通信。

根据本公开的实施例,电子装置100可经由语音输入器110从来自说话者输入的语音获得人声数据,并且可将获得的人声数据发送到服务器200。服务器200可经由从电子装置100接收的人声数据生成说话者特征图。将参照图3b详细描述这个方面。

服务器200可以是人声识别服务器或说话者识别服务器。图2b示出了一个服务器200,但是为了便于解释,这是一个示例。根据本公开的实施例,服务器200可包括一个或更多个服务器200。

根据本公开的实施例,电子装置100可根据从说话者输入的语音获得人声数据,从获得的人声数据提取多维人声特征向量,并且经由通信器160将提取的人声特征向量发送到服务器200。这里,人声数据可以是例如语音的音频文件。服务器200可针对每个说话者经由与从电子装置100接收的人声特征向量的分类相关的训练来生成说话者特征图。将参照图3c详细描述这个方面。

根据本公开的实施例,电子装置100可根据从说话者输入的语音获得人声数据,从人声数据提取多维人声特征向量,并且通过将提取的人声特征向量作为输入并将说话者作为输出来训练dnn模型,以提取说话者特征向量。电子装置100可在多维向量空间上生成指示提取的说话者特征向量的说话者特征图,并且经由通信器160将所生成的说话者特征图发送到服务器200。将参照图3d详细描述这个方面。

图3a是根据本公开的实施例的由电子装置执行的处理从说话者接收的语音的人声数据的方法的流程图。

参照图3a,在操作s310,电子装置100可从接收自说话者的语音的人声数据提取说话者特征向量,并且在多维空间上生成指示提取的说话者特征向量的说话者特征图。

根据本公开的实施例,电子装置100可通过针对语音的人声数据使用倒谱、lpc、mfcc和滤波器组能量中的任何一种特征向量提取技术来提取输入的人声数据的人声特征值。提取的人声特征向量可以是n维向量,其中,n等于或大于2。此外,提取的人声特征向量可包括至少两个向量列。

说话者特征可被指示为说话者特征向量。详细地,电子装置100可通过将dnn模型应用于人声特征向量来提取说话者特征向量。电子装置100可通过将人声特征向量作为输入值应用于dnn模型并将说话者特征值作为输出值应用于dnn模型来训练dnn模型,以获得说话者特征向量。这里,dnn模型可包括cnn、rnn或gan中的至少一个。然而,dnn模型不限于所描述的示例。

根据本公开的实施例,输入到dnn模型的人声特征向量可以是n维向量,其中,n等于或大于2。此外,输入到dnn模型的人声特征向量可以是至少两个向量列。通过训练dnn模型提取的说话者特征向量可以是n维向量,其中,n等于或大于2。

根据本公开的另一实施例,电子装置100可将说话者特征向量指示为i向量(是特征向量)。电子装置100可通过从说话者的人声数据获得人声特征向量来获得i向量。

电子装置100可通过将提取的说话者特征向量定位在n维虚拟空间的位置上来生成说话者特征图,其中,所述位置分别与说话者特征向量的向量值相应。

在操作s320,电子装置100可通过对位于说话者特征图上的至少一个说话者特征向量进行分组来形成多个集群。

根据本公开的实施例,电子装置100可通过将聚集在说话者特征图上在预定距离内的一组说话者特征向量分组为虚拟组来形成集群。集群是从以下方面推导出的概念:人声数据的具有相似特征的说话者特征向量可被定位为在说话者特征图上彼此相对相邻,并且人声数据的具有非相似特征的说话者特征向量可被定位为在说话者特征图上彼此相对远离。集群可指示每个说话者的人声特征。

根据本公开的实施例,电子装置100可通过应用dnn模型基于每个说话者对说话者特征图上的说话者特征向量进行聚类。例如,电子装置100可通过将说话者特征向量作为输入值应用于dnn模型并将说话者的索引作为输出值应用于dnn模型来训练dnn模型,根据各个说话者对说话者特征图上的说话者特征向量进行分类。这里,说话者的索引可表示通过使用独热编码、word2vec和glove中的至少一个编码将说话者识别信息转换为向量值而获得的值。

在操作s330,电子装置100可根据多个集群对多个说话者进行分类。例如,电子装置100可将具有映射在多个集群中的第一集群中的说话者特征向量的语音分类为第一用户,将具有映射在第二集群中的说话者特征向量的语音分类为第二用户,并且将具有映射在第三集群中的说话者特征向量的语音分类为第三用户。

图3b至图3d是根据本公开的各种实施例的包括电子装置100和服务器200的系统的操作方法的流程图。

参照图3b至图3d,服务器200可以是人声识别服务器或说话者识别服务器。图3b至图3d示出了一个服务器200,但是为了便于解释,这是一个示例。根据本公开的实施例,服务器200可包括至少一个服务器200。

参照图3b,电子装置100可经由通信器160(参照图2b)向服务器200发送数据和从服务器200接收数据。

在操作s312,电子装置100可从由说话者输入的语音获得人声数据。根据本公开的实施例,电子装置100可经由麦克风或扬声器从说话者接收语音,并从接收的语音获得人声数据。

在操作s313,电子装置100可将人声数据发送到服务器200。

在操作s322,服务器200可根据从电子装置100接收的人声数据提取多维人声特征向量。根据本公开的实施例,服务器200可通过针对人声数据使用倒谱、lpc、mfcc和滤波器组能量中的任何一种特征向量提取技术来提取输入的人声数据的人声特征值。由服务器200提取的人声特征向量可基于在每个音素的频率范围内累积的人声信号值的大小被提取,并且可以是n维向量,其中,n等于或大于2。

在操作s324,服务器200可通过根据每个说话者对人声特征向量进行分类来生成说话者特征图。根据本公开的实施例,服务器200可通过将dnn模型应用于人声特征向量来提取说话者特征向量。服务器200可通过将人声特征向量作为输入值应用于dnn模型并将说话者的特征值作为输出值应用于dnn模型来训练dnn模型,以获得说话者特征向量。这里,dnn模型可包括cnn、rnn或gan中的至少一个。然而,dnn模型不限于所描述的示例。

服务器200可累积提取的n维说话者特征向量,并且可通过将累积的说话者特征向量分别定位在n维向量空间上的特定位置处来生成说话者特征图。

在操作s326,服务器200可将说话者特征图发送到电子装置100。

在操作s328,电子装置100可通过对说话者特征图上的说话者特征向量进行分组来生成多个集群。操作s328与图3a的操作s320相同,因此,将不给出重复描述。

在操作s330,电子装置100可根据多个集群对多个说话者进行分类。

参照图3c,电子装置100可经由通信器160(参照图2b)向服务器200发送数据和从服务器200接收数据。

在操作s312,电子装置100可从由说话者输入的语音获得人声数据。

在操作s314,电子装置100可从人声数据提取多维人声特征向量。根据本公开的实施例,电子装置100可通过将倒谱、lpc、mfcc和滤波器组能量中的任何一种特征向量提取技术应用于包括在从说话者接收的语音中的人声数据来提取输入的人声数据的人声特征向量。由电子装置100提取的人声特征向量可基于在每个音素的频率范围内累积的语音信号值的大小被提取,并且可以是n维向量,其中,n等于或大于2。

在操作s318,电子装置100可将人声特征向量发送到服务器200。

在操作s324,服务器200可通过根据每个说话者对人声特征向量进行分类来生成说话者特征图。在操作s326,服务器200可将说话者特征图发送到电子装置100。操作s324和s326分别与图3b的操作s324和s326相同,因此,将不给出重复描述。

在操作s328,电子装置100可通过对说话者特征图上的说话者特征向量进行分组来生成多个集群。

在操作s330,电子装置100可根据多个集群对多个说话者进行分类。

在图3b和图3c中示出了由服务器200生成说话者特征图。然而,说话者特征图可由包括电子装置100的边缘装置生成。该边缘装置可包括例如包括智能电话、蜂窝电话、ai扬声器、扬声器、导航装置、计算机、膝上型计算机、数字广播终端、pda或平板pc、具有计算能力的家用电器中的至少一个的装置、或被配置为管理其他装置的装置(诸如,路由器),但是该边缘装置不限于此。

参照图3d,电子装置100可生成说话者特征图并将生成的说话者特征图发送到服务器200。

在操作s312,电子装置100可从接收自说话者的语音获得人声数据。在操作s314,电子装置100可从人声数据提取多维人声特征向量。在操作s315,电子装置100可通过根据每个说话者对人声特征向量进行分类来生成说话者特征图。在操作s316,电子装置100可将生成的说话者特征图发送到服务器200。

在操作s340,服务器200可通过对从电子装置100接收的说话者特征图上的说话者特征向量进行分组来生成多个集群。根据本公开的实施例,服务器200可基于说话者特征向量在说话者特征图上的距离来形成集群,但不限于此。根据本公开的实施例,服务器200可通过应用dnn模型基于每个说话者对说话者特征图上的说话者特征向量进行聚类。例如,数据训练模块123可通过将说话者特征向量作为输入值应用于dnn模型并将说话者的索引作为输出值应用于dnn模型来训练dnn模型,根据各个说话者对说话者特征图上的说话者特征向量进行分类。

在操作s350,服务器200可根据多个集群对多个说话者进行分类。这里,服务器200可以是说话者识别服务器。

图4a至图4c是用于描述根据本公开的各种实施例的由电子装置100执行的通过处理从说话者输入的人声数据来生成说话者特征图的方法的示图。

图4a是示出根据本公开的实施例的通过处理由说话者a输入的语音的人声数据而提取的每个音素的频率信号值400a和通过处理由说话者b输入的语音的人声数据而提取的每个音素的频率信号值400b的示图。

参照图4a,数字是基于每个音素的频率范围累积的信号值,并且可能不是准确值并且可指示相对大小。在图4a中,总频率被分为三个范围,即高、中和低。频率范围的数量和频率范围的长度是示例,并且频率范围的数量不限于3。

根据本公开的实施例,当电子装置100分别从说话者a和说话者b接收到语音时,电子装置100可从输入的语音检测人声数据,并且可通过对检测到的人声数据应用倒谱、lpc、mfcc和滤波器组能量中的任何一种特征向量提取技术来提取输入的人声数据的人声特征向量。

作为提取人声特征向量的方法的示例,电子装置100可使用计算针对语音中的每个单词或每个音素的频率范围的信号值的累积量(即,语音的能量值的累积量)的方法。参照频率信号值400a,在说话者a的语音的情况下,针对音素/b/,高频范围中的累积能量被测量为相对高为80,并且中频范围中的累积能量被测量为约20。同样地,在说话者a的语音中,针对音素/d/,高频范围中的累积能量被测量为约60,并且中频范围中的累积能量被测量为约50。在说话者a的语音中,针对音素/g/,高频范围中的累积能量被测量为约30,并且中频范围中的累积能量被测量为约20。

参照频率信号值400b,在说话者b的语音的情况下,针对音素/b/,低频范围中的累积能量被测量为相对高为60,并且中频范围中的累积能量被测量为约20。在说话者b的语音中,针对音素/g/,高频范围中的累积能量几乎不被计算,也就是说,高频范围中的累积能量被计算为0,并且低频范围中的累积能量被计算为约40。

在说话者a和说话者b的情况下,参照针对每个音素的频率范围中的频率信号值400a和400b,即使针对相同的音素,说话者在能量比其他频率范围相对更多地累积的频率范围中也不同。例如,在音素/b/的情况下,说话者a在高频范围内具有高累积能量,而说话者b在低频范围内具有相对高累积能量。电子装置100可基于在每个音素的频率范围内计算的能量值来生成指示每个说话者的语音的特征的人声特征向量。这里,人声特征向量可被形成为多维向量列。

图4b示出根据本公开的实施例的基于在说话者a和说话者b的每个音素的频率范围中计算的信号值来提取特征x、y和z的实施例。

参照图4b,电子装置100可通过使用每个音素的频率范围内的频率信号值400a和400b之间的差来提取特征x、y和z,其中,频率信号值400a和400b是在说话者a和说话者b的语音中计算的。同时参照图4a,在音素/b/的情况下,说话者a在低频范围内具有累积能量值0,而说话者b在低频范围内具有累积能量值60。也就是说,这与说话者a的信号值与说话者b的信号值之间的差等于或大于预定值的情况相应。因此,电子装置100可通过使用针对音素/b/的低频范围内的累积能量值来提取特征x。同样,在音素/d/的情况下,说话者a具有在高频范围内的累积能量值60,而说话者b具有在高频范围内的累积能量值50。因此,电子装置100可通过使用针对音素/d/的高频范围中的累积能量值来提取特征y。通过使用相同的方法,电子装置100可通过使用针对音素/f/的高频范围中的累积能量值来提取特征z。

图4c是示出根据本公开的实施例的由电子装置100执行的通过使用从说话者a和说话者b提取的特征来生成说话者特征向量421和422并且通过将说话者特征向量421和422定位在多维空间上来生成说话者特征图410的方法的示图。将参照图5详细描述通过使用人声特征向量生成说话者特征向量421和422的详细方法。

参照图4c,电子装置100可通过使用针对说话者a提取的特征x、y和z来生成具有值(0,6,3)的说话者特征向量421。同样,电子装置100可通过使用针对说话者b提取的特征x、y和z来生成具有值(6,5,0)的说话者特征向量422。

电子装置100可通过将说话者a的具有值(0,6,3)的说话者特征向量421和说话者b的具有值(6,5,0)的说话者特征值422定位在三维空间上来生成说话者特征图410。在图4c中三维地示出了说话者特征向量421和422以及说话者特征图410。然而,这是为了便于解释,并且说话者特征向量421和422以及说话者特征图410不限于此。

图4d是根据本公开的实施例的由电子装置执行的通过处理由多个说话者输入的语音的人声数据来生成说话者特征图的方法的流程图。

参照图4d,在操作s410,电子装置可从多个说话者接收语音。根据本公开的实施例,电子装置100可通过使用人声识别引擎将人声识别算法应用于输入的人声来识别说话者说出的人声,并生成识别结果。电子装置100可通过检测人声信号的起点和终点来检测包括在输入的人声中的实际人声部分。

在操作s420,电子装置100可从输入的语音提取每个音素的频率信号值并对信号值进行累积。根据本公开的实施例,电子装置100可将倒谱、lpc、mfcc和滤波器组能量中的任何一种特征向量提取技术应用于从输入的语音中检测到的人声数据。电子装置100可针对人声数据累积针对每个音素在每个频率范围内计算的相对能量值。

在操作s430,电子装置100可基于累积的信号值提取说话者之间的区别特征。根据本公开的实施例,当多个说话者的语音的相同音素的和相同频率范围内累积的信号值(即,累积的能量值)之间的差等于或大于预定临界值时,电子装置100可提取特征值。从音素和频率范围提取的特征值可以是多个,并且多个特征值可彼此独立。

在操作s440,电子装置100可将提取的特征值转换为n维说话者特征向量,其中,n等于或大于2。

在操作s450,电子装置100可通过将转换的n维说话者特征向量定位在多维空间的位置上来生成说话者特征图,其中,所述位置分别与说话者特征向量的值相应。

图5是示出根据本公开的实施例的由电子装置100执行的通过使用ai技术将人声特征向量510转换为说话者特征向量的方法的示图。图5所示的方法不仅可由电子装置100执行,而且可由服务器200执行。

参照图5,电子装置100可通过将dnn模型500n应用于人声特征向量510来提取说话者特征向量。详细地,电子装置100可通过将人声特征向量510作为输入值应用于dnn模型500n并将说话者索引520作为输出值应用于dnn模型500n来训练dnn模型500n以获得说话者特征向量。这里,说话者索引520可以是关于说话者的特征值,并且可以是通过使用独热编码将关于第一说话者至第n说话者中的每一个说话者的索引转换为向量列而获得的向量。例如,当n是3时,说话者索引520可形成为向量列,诸如[1,0,0]、[0,1,0]和[0,0,1]。然而,这是为了便于解释,并且说话者索引520不限于上述向量列。

dnn模型500n可包括cnn、rnn或gan中的至少一个。然而,dnn模型不限于所描述的示例。根据本公开的由电子装置100使用的dnn模型500n可包括当前已知的所有类型的神经网络模型。

图6a至图6c是示出根据本公开的各种实施例的由电子装置100执行的注册与在说话者特征图上形成的集群相应的用户识别信息的方法的示图。图6a至图6c全部是示出位于说话者特征图600a、600b和600c上的说话者特征向量的示图,并且尽管说话者特征图600a、600b和600c被二维地示出,但这是为了便于解释,并且本公开的说话者特征图不限于此。

参照图6a所示的说话者特征图600a,在预定距离内聚集的多个第一特征向量610a至610n可形成第一集群610,并且在预定距离内聚集的多个第二特征向量620a至620n可形成第二集群620。在图6a所示的实施例中,可将位于第一集群610中的多个第一特征向量610a至610n注册为说话者a的语音,并且可注册说话者a的识别信息。同样地,可将位于第二集群620中的多个第二特征向量620a至620n注册为说话者b的语音,并且可注册说话者b的识别信息。这里,识别信息可表示用于识别说话者的信息,识别信息包括说话者的用户id、密码、地址、电话号码、年龄、性别或三星账户信息中的至少一个。

可在说话者特征图600a上在预定距离内聚集多个第三特征向量630a至630n,但是可不形成另外的集群。同样地,可在说话者特征图600a上在预定距离内聚集多个第四特征向量640a至640n,但是可不形成另外的集群。

参照图6b所示的说话者特征图600b,电子装置100可通过对在预定距离内聚集的多个第三特征向量630a至630n进行分组来形成第三集群630。

参照图6c中所示的说话者特征图600c,电子装置100可从被分类为第三集群630的说话者c接收输入识别信息的语音,并且可将说话者c的识别信息注册为与第三集群630相应。

根据本公开的实施例,电子装置100可输出请求说话者c输入识别信息的消息,其中,说话者c已经说出与被包括在第三集群630中的多个第三特征向量630a至630n相应的语音。根据本公开的实施例,请求识别信息的消息可以是经由扬声器140(参见图2a和图2b)输出的声音消息或显示在显示器150(参见图2a和图2b)上的用户界面(ui)。

电子装置100可从说话者c接收输入说话者c的识别信息的语音,并从接收的语音的人声数据提取说话者特征向量。电子装置100可将从说话者c提取的说话者特征向量映射到第三集群630,并将从说话者c输入的识别信息注册在第三集群630中。经由上述处理,说话者c的识别信息可被存储在第三集群630,并且第三集群630可作为注册的说话者的集群(类似于第一集群610和第二集群620)被存储在存储器130(参见图2a和2b)中。

参照图6a至图6c中所示的说话者特征图600a、600b和600c,电子装置100可根据从多个说话者(说话者a、b和c)输入的语音的人声数据提取说话者特征向量,可通过对在预定距离内聚集的说话者特征向量进行分组来形成集群,可接收与集群相应的说话者识别信息,并且可将识别信息注册在集群中。因此,电子装置100可提供根据注册用户的识别信息(例如,用户id、电话号码、地址、年龄、性别等)同步的个性化服务,因此,电子装置100可提高用户便利性。

图7a和图7b是示出根据本公开的各种实施例的基于语音的每个音素的频率特征值生成用于在说话者特征图上识别说话者的区别句子并输出所生成的区别句子的方法的示图。电子装置100可从说话者接收语音,基于语音的每个音素的频率特征值生成区别句子,并输出区别句子。然而,被配置为生成并输出区别句子的装置不限于电子装置100。根据本公开的实施例,服务器可对从电子装置100接收的人声语音的每个音素的频率特征值进行分析并生成区别句子。在这种情况下,服务器可直接存储说话者特征图。服务器可将生成的区别句子发送到电子装置100。

图7a示出了根据本公开的实施例的关于注册的说话者a和注册的说话者b的每个音素的频率特征值的表700a和表700b。

参照图7a,表700a和表700b中的数字是基于每个音素的频率范围的累积的信号值,并且数字可能不是准确值并且可指示相对大小。在图7a中,总频率被分成三个范围,即高、中和低。频率范围的数量和频率范围的长度是示例,并且频率范围的数量不限于3。

参照表700a,在注册的说话者a的语音的情况下,针对音素/b/,可在高频范围中计算出与80相应的信号值,也就是说,累积能量值是80,并且可在低频范围中计算出累积能量值0。针对音素/g/,在注册的说话者a的语音中,可在高频范围中计算出与30相应的累积能量值,并且可在低频范围中计算出与10相应的累积能量值。

参照表700b,在注册的说话者b的语音的情况下,针对音素/b/,可在高频范围中计算出与30相应的信号值,也就是说,累积能量值是30,可在中频范围中计算出累积能量值60,并且可在低频范围中计算出累积能量值40。针对音素/g/,在注册的说话者b的语音中,可在高频范围中计算出与90相应的累积能量值,并且可在中频范围和低频范围中计算出与60相应的累积能量值。

参照表700a和700b,在音素/b/和/g/的情况下,注册的说话者a和注册的说话者b的语音的每个频率范围中的累积能量值在注册的说话者a和注册的说话者b之间具有很大的差异,因此,容易区分注册的说话者a和注册的说话者b。然而,在音素/d/和/f/的情况下,注册的说话者a和注册的说话者b的语音的每个频率范围中的累积能量值在注册的说话者a和注册的说话者b之间具有小的差异。

根据本公开的实施例,电子装置100或服务器200可生成区别句子,以将未注册的说话者(即,非注册的说话者)的语音映射到说话者特征图上注册的说话者的集群。区别句子可以是用于区分使用电子装置100的用户的语音属于预先注册的集群中的哪一个集群的句子,或者用于区分用户的语音是否属于新说话者的集群的句子,并且可以是用于请求用户说出语音的句子。

根据本公开的实施例,电子装置100或服务器200可生成区别句子,使得区别句子包括这样的音素:对于该音素,频率特征的差(即,在说话者特征图上预先注册的说话者的语音之间的频率范围的累积能量值的差)等于或大于预定临界值。在图7a所示的实施例中,例如,可生成包括音素/g/和/r/的区别句子704“gotogreeceandbuyanicecream”。

根据本公开的实施例,电子装置100可输出请求用户说出所生成的区别句子704的消息702。电子装置100可在显示器150上显示请求用户说出区别句子704的消息702。然而,本公开不限于此。根据本公开的实施例,电子装置100可通过扬声器140(参照图2a和2b)输出请求用户说出区别句子704的声音消息。电子装置100可直接生成区别句子并输出区别句子。然而,不限于此,并且电子装置100可从服务器200接收由服务器200生成的区别句子并输出所接收的区别句子。

图7b示出根据本公开的实施例的指示未注册的说话者的语音中的音素的频率特征值的表710。表710中描述的数字表示针对每个音素的频率范围计算的信号的累积时间。

参照表710,在未注册的说话者的语音的情况下,针对音素/d/和/f/,音素分别被发音且累积30秒和20秒,并且音素/b/被发音且累积1秒,并且音素/g/被发音并累积0秒。它可指示在未注册语音的语音中音素/d/和/f/具有比音素/b/和/g/更高的发音累积程度。特别地,它可指示音素/g/根本没有被累积。

根据本公开的实施例,电子装置100可对从说话者(特别是未注册的说话者)输入的语音中的每个音素的频率特征值的累积程度进行分析,并且可基于分析的结果生成包括具有相对低的累积程度或根本不累积的音素的区别句子714。

参照图7b,音素/b/具有比音素/d/和/f/相对较低的累积程度,并且音素/g/不被累积。因此,电子装置100可生成包括音素/b/和/g/的区别句子714。例如,区别句子714可以是“baggage”。然而,生成区别句子714的主体不限于电子装置100。根据本公开的实施例,服务器200可对从电子装置100接收的人声语音中的每个音素的频率特征值进行分析,并且可生成包括具有低累积程度的音素(在图7b所示的实施例中的/b/)和不被累积的音素(在图7b所示的实施例中的/g/)的区别句子714。在这种情况下,服务器200可将生成的区别句子714发送到电子装置100。

根据本公开的实施例,电子装置100可输出请求用户说出所生成的区别句子714的消息712。电子装置100可在显示器150上显示请求用户说出区别句子714的消息712。然而,本发明不限于此。根据本公开的实施例,电子装置100可通过扬声器140(参照图2a和2b)输出请求用户说出区别句子714的声音消息。

图7c是根据本公开的实施例的由电子装置100执行的基于输入的语音的每个音素的频率特征值生成识别说话者特征图上的说话者的区别句子并输出请求说出区别句子的消息的方法的流程图。

参照图7c,在操作s710,电子装置100可针对语音分析每个音素的频率特征值的累积程度。根据本公开的实施例,电子装置100可接收未注册的说话者的语音,基于针对输入的语音中的每个音素的频率范围获得累积时间信息,并对累积时间信息进行分析。

在操作s720,电子装置100可基于操作s810中进行分析的结果来生成包括具有相对低的累积程度或不被累积的音素的区别句子。

操作s710和s720可由电子装置100执行,但不限于此。操作s710和s720可由服务器200执行。

在操作s730,电子装置100可输出请求用户说出区别句子的消息。根据本公开的实施例,电子装置100可通过扬声器输出请求用户说出区别句子的声音消息。根据本公开的实施例,电子装置100可在显示器上输出请求用户说出区别句子的消息。当由服务器200执行操作s710和s720时,电子装置100可接收由服务器200生成的区别句子并输出接收的区别句子。

图8是根据本公开的实施方案的虚拟助理模块800的组件的框图。虚拟助理模块800可被包括在电子装置100,但不限于此。根据本公开的实施例,服务器200可包括虚拟助理模块800。

虚拟助理模块800可生成区别句子。

参照图8,虚拟助理模块800可包括硬件模块,其中,该硬件模块包括自动语音识别(asr)模块810、自然语言理解(nlu)模块820、对话管理(dm)模块830、自然语言生成(nlg)模块840和文本到语音(tts)模块850。

asr模块810可识别从用户输入的语音并将识别的语音转换为计算机可读文本。asr模块810可针对输入的语音分析每个音素的频率特征值的累积程度,并且基于分析的结果检测具有相对低的累积程度或根本不累积的音素。根据本公开的实施例,asr模块810可对每个说话者的每个音素的频率特征值的累积程度进行分析。

当asr模块810被包括在服务器200中时,电子装置100可以以音频文件格式将从用户接收的语音发送到服务器200。在这种情况下,服务器200可对接收的语音进行分析并将接收的语音转换为文本形式。经由这个处理,服务器200可对每个音素的频率特征值的累积程度进行分析。

nlu模块820可执行自然语言处理(nlp),其中,例如,从由asr模块810转换的文本提取单词,并且将提取的单词转换为单词向量以生成句子向量。

dm模块830可通过接收文本形式的输入来生成区别句子,并且可生成与语音相关的响应。dm模块830可基于针对由asr模块810分析的每个音素的累积程度来生成区别句子。

nlg模块840可生成自然语言形式的区别句子。

tts模块850可将所生成的区别句子转换为语音。

虚拟助理模块800可输出由tts模块850转换为语音的区别句子。

图9是示出根据本公开的实施例的由电子装置100执行的基于说话者特征图900m上的多个集群之间的位置关系来预测多个说话者之间的关系的方法的示图。图9示出位于说话者特征图900m上的说话者特征向量。图9示出二维说话者特征图900m。然而,这是为了便于解释。本公开的说话者特征图900m不限于此,并且可以是n维的,其中,n等于或大于2。

参照图9,说话者特征图900m上的第一集群911、第二集群912、第三集群921和第四集群922可以是注册了用户识别信息并且被存储在存储器130(参照图2a和图2b)上的集群,并且第五集群931和第六集群932可以是未注册用户识别信息的集群。例如,第一集群911可以是存储了母亲a的识别信息的注册的集群,并且第二集群912可以是存储了儿子a(母亲a的儿子)的识别信息的注册的集群。从母亲a输入的语音提取的多个说话者特征向量911a至911n可被包括在第一集群911中,并且从儿子a输入的语音提取的多个说话者特征向量912a至912n可被包括在第二集群912中。

第三集群921可以是存储了母亲b的识别信息的注册的集群,第四集群922可以是存储了儿子b(母亲b的儿子)的识别信息的注册的集群。从母亲b的语音输入提取的多个说话者特征向量921a至921n可被包括在第三集群921中,并且从儿子b的语音输入提取的多个说话者特征向量922a至922n可被包括在第四集群922中。

第一集群911和第二集群912可在说话者特征图900m上彼此分开第一距离d1,并且可具有相对于x轴形成第一角度θ1的位置关系。第三集群921和第四集群922可在说话者特征图900m上彼此分开第二距离d2,并且可具有相对于x轴形成第二角度θ2的位置关系。

第一角度θ1和第二角度θ2可彼此基本相同,并且第一距离d1和第二距离d2可彼此基本相同。根据本公开的实施例,电子装置100可通过从多个说话者接收语音来对大量人声数据进行分析,并且基于学习的结果,可识别出在母子关系的情况下,集群可具有特定距离d1和d2以及特定角度θ1和θ2的位置关系。也就是说,电子装置100可识别出诸如母子关系的特定情况可能具有关于集群之间的角度和距离的趋势。根据本公开的实施例,电子装置100可对大量人声数据进行分析并学习不同集群之间的距离和方向性信息以及与集群相应的说话者的关系匹配信息,并且可对所学习的匹配信息进行存储。

电子装置100可基于说话者特征图900m上的多个集群之间的距离和方向性信息来预测与多个集群相应的多个说话者之间的关系。

在图9所示的实施例中,电子装置100可从说话者1接收语音,从人声数据提取第五特征向量931k,并将提取的第五特征向量931k映射到说话者特征图900m上的第五集群931。此外,电子装置100可接收说话者2的语音,从人声数据提取第六特征向量932k,并将提取的第六特征向量932k映射到说话者特征图900m上的第六集群932。电子装置100可在说话者特征图900m上获得关于第五集群931和第六集群932彼此分开的距离dk以及由第五集群931和第六集群932相对于x轴形成的角度θk的信息。这里,在误差范围内,距离dk可与第一距离d1和第二距离d2相同,并且角度θk可与第一角度θ1和第二角度θ2相同。电子装置100可基于针对集群之间的包括距离和方向性信息的位置信息与说话者关系之间的关系信息进行学习的结果,来预测产生与第五集群931中的第五特征向量931k相应的语音的说话者1和产生与第六集群932中的第六特征向量932k相应的语音的说话者2具有母子关系。

尽管在图9中描述了电子装置100基于集群之间的距离和方向性信息来预测说话者之间的关系,其中,该集群之间的距离和方向性信息是基于预先注册的说话者特征向量和集群学习的,但是本公开的实施例不限于此。根据本公开的实施例,服务器200可存储说话者特征图900m,并且可基于预先注册的说话者特征向量以及集群之间的距离和方向性信息从输入的语音来预测说话者之间的关系。

图10a和图10b是示出根据本公开的各种实施例的由电子装置执行的基于说话者特征图上的多个集群之间的位置关系来预测多个说话者之间的关系并且基于预测的关系提供个性化服务的方法的示图。

图10a示出根据本公开的实施例的位于说话者特征图上的说话者特征向量。图10a示出了二维说话者特征图,但是这是为了便于解释。本公开的说话者特征图不限于二维说话者特征图,并且可以是n维说话者特征图,其中,n等于或大于2。

参照图10a,说话者特征图1000m上的第一集群1010、第二集群1020和第三集群1030可以是注册的集群,在所有这些集群中用户识别信息被注册并存储。根据本公开的实施例,父亲a的识别信息、母亲a的识别信息和祖母a的识别信息可分别被存储并注册在第一集群1010、第二集群1020和第三集群1030中。

电子装置100可识别第一集群1010、第二集群1020和第三集群1030之间的特定位置关系。根据本公开的实施例,当电子装置100从多个说话者接收到语音,对大量的人声数据进行分析,并且基于该分析识别出集群具有特定距离和特定角度的位置关系时,电子装置100可学习说话者具有哪些关系并且可对学习的结果进行存储。在图10a所示的实施例中,父亲a和祖母a具有母子关系,并且第三集群1030可垂直地位于第一集群1010下方,并且可具有相对于第一集群1010具有特定角度的方向性。

电子装置100可基于根据预先注册的说话者特征向量和集群进行学习的集群之间的距离和方向性信息从新输入的用户的语音提取说话者特征向量,获得预先注册的集群与新提取的说话者特征向量之间的距离和方向性信息,并且基于获得的距离和方向性信息来预测与预先注册的集群相应的说话者与产生新语音的说话者之间的关系。在图10a所示的实施例中,电子装置100可从用户接收语音,从人声数据提取第四特征向量1033,并将提取的第四特征向量1033映射到说话者特征图1000m上的第四集群1032。电子装置100可识别相对于第四特征向量1033所在的第四集群1032以特定距离和特定角度定位的第四集群1012。电子装置100可识别出第四集群1012和第四集群1032相对于彼此定位的距离和角度与预先注册的第一集群1010和第三集群1030之间的距离和角度相同。电子装置100可基于识别的结果来预测产生与包括在第四集群1012中的第四特征向量1013相应的语音的说话者和产生与包括在第四集群1032中的第四特征向量1033相应的语音的说话者具有母子关系。例如,当父亲b的识别信息被注册在第四集群1012中时,电子装置100可预测出第四集群1032与祖母b(父亲b的母亲)的语音的集群相应。

根据本公开的实施例,电子装置100可基于预测的说话者之间的关系来识别新输入的语音的用户,并提供与识别出的用户同步的个性化服务。针对这个方面,参照图10b,电子装置100可接收从祖母2输入的语音,通过从祖母2的语音提取说话者特征向量来映射集群,并且通过将映射的集群的位置与说话者特征图上的预先注册的集群的位置进行比较来获得距离和方向性信息。电子装置100可基于所获得的角度和方向性信息将祖母2和jameshong3之间的关系预测为母子关系。

根据本公开的实施例,当电子装置100从祖母2接收到语音“请呼叫我的儿子”时,电子装置100可识别出祖母2并输出问题“你是jameshong的母亲吗?”当祖母2回答“是,对的”时,电子装置100可呼叫jameshong3,同时输出消息“呼叫hong先生”。

例如,当电子装置100的主用户是jameshong3,并且jameshong3的儿子(cheolsu)而不是jameshong3,作为“儿子”被存储在电子装置100的地址列表中时,根据现有技术的电子装置100可能不会预测说话者与电子装置100的主用户之间的关系,因此,电子装置100可对被存储在地址列表中的cheolsu进行电话呼叫。然而,根据本公开的实施例的电子装置100可识别出说话者是祖母2并且预测出祖母2和jameshong之间的母子关系,因此,响应于“请呼叫我的儿子”的语音命令,电子装置100可呼叫jameshong3,而不是cheolsu。因此,根据本公开的实施例的电子装置100可提供与每个用户同步的个性化服务,因此可提高用户便利性。

除了上述示例之外,电子装置100还可基于预测出的说话者的关系来提供各种个性化服务,诸如目标广告等。图10a和图10b的实施例不仅可由电子装置100执行,而且可由服务器200执行。

图11是根据本公开的实施例的由电子装置100执行的基于说话者特征图上的多个集群之间的位置关系来预测多个说话者之间的关系并且基于预测的关系提供个性化服务的方法的流程图。

参照图11,在操作s1110,电子装置100可基于说话者特征图上的多个集群之间的距离和方向性信息来预测与多个集群相应的多个说话者之间的关系。根据本公开的实施例,当多个说话者具有特定关系时,电子装置100可从多个说话者接收语音,对大量的人声数据进行分析和学习,并且识别集群之间具有特定距离和特定角度的位置关系的趋势。根据本公开的实施例,电子装置100可对不同集群之间的距离和方向性信息以及说话者的关系匹配信息进行学习和存储。

在操作s1120,电子装置100可基于说话者之间的预测关系来识别新输入的语音的说话者。根据本公开的实施例,电子装置100可接收使用电子装置100的说话者(即,电子装置100的用户)的语音,从接收的语音提取说话者特征向量,在说话者特征图上定位该说话者特征向量,并识别该说话者特征向量与其他预先注册的说话者特征向量的集群之间的位置关系。根据本公开的实施例,当识别出用户的新输入的语音的说话者特征向量被映射到的集群被定位为与其他预先注册的集群分开特定距离,并且相对于其他预先注册的集群具有特定角度的方向性时,电子装置100可基于距离和方向性信息来识别说话者。

在操作s1130,电子装置100可提供与识别出的说话者同步的个性化服务。根据本公开的实施例,电子装置100可识别新接收的语音的说话者,并基于该说话者与另一存储的说话者之间的关系提供同步服务。例如,电子装置100可提供与识别出的说话者相应的目标广告。

图11所示的操作s1110至s1130不仅可由电子装置100执行,而且可由服务器200执行。

图12a和图12b是示出根据本公开的各种实施例的由电子装置100执行的基于位于说话者特征图1200m上的单个集群中的多个说话者特征向量之间的位置关系来预测用户状态的方法的示图。图12a和12b示出了位于说话者特征图1200m上的说话者特征向量,并且图12a和12b示出了二维说话者特征图1200m,但是这是为了便于解释。本公开的说话者特征图1200m不限于二维说话者特征图,并且可以是n维说话者特征图,其中,n等于或大于2。

参照图12a,说话者特征图1200m上的第一集群1201和第二集群1202都可以是用户识别信息被注册并存储的注册的集群。根据本公开的实施例,第一集群1201可以是说话者a的集群,并且第二集群1202可以是说话者b的集群。第一集群1201可包括第一第一子集群1201-1和第一第二子集群1201-2,并且第二集群1202可包括第二第一子集群1202-1和第二第二子集群1202-2。

在图12a所示的实施例中,包括在第一集群1201中的多个说话者特征向量的全部可以是从说话者a的语音提取的说话者特征向量。包括在第一第一子集群1201-1中的多个说话者特征向量可以是当说话者a健康时从说话者a的语音提取的说话者特征向量,并且包括在第一第二子集群1201-2中的多个说话者特征向量可以是当说话者a感冒时从说话者a的语音提取的说话者特征向量。第一集群1201中的第一第一子集群1201-1和第一第二子集群1201-2可彼此分开特定距离,并且可相对于x轴形成特定角度θ。

同样地,包括在第二集群1202中的多个说话者特征向量的全部是从说话者b的语音提取的说话者特征向量,其中,包括在第二第一子集群1202-1中的多个说话者特征向量是当说话者b健康时从说话者b的语音提取的说话者特征向量,并且包括在第二第二子集群1202-2中的多个说话者特征向量是当说话者b感冒时从说话者b的语音提取的说话者特征向量。第二集群1202中的第二第一子集群1202-1和第二第二子集群1202-2可彼此分开特定距离,并且可相对于x轴形成特定角度θ2。

根据本公开的实施例,电子装置100可从多个说话者接收语音,对大量的人声数据进行分析和学习,通过基于学习的结果对单个集群中在预定距离内聚集的多个说话者特征向量进行分组来形成多个子集群,并且识别子集群之间的位置关系与关于说话者的状态的信息之间的连接趋势。例如,当单个集群中的多个子集群彼此分开特定距离并且具有预定角度θ的方向性时,电子装置100可获得说话者感冒或说话者处于身体不好状态的相关性信息。电子装置100可存储所获得的子集群之间的位置关系与说话者的状态之间的相关性信息。

参照图12b,电子装置100可接收说话者c的新语音,并从接收的语音的人声数据提取说话者特征向量1203-k。电子装置100可将提取的说话者特征向量1203-k映射到第三集群1203。电子装置100可基于第三集群1203中的第三第一子集群1203-1与新提取的说话者特征向量1203-k之间的位置关系来预测说话者c的健康状态。

在图12b所示的实施例中,当说话者c健康时从语音提取的说话者特征向量可位于第三第一子集群1203-1中,并且当说话者c感冒时从语音提取的说话者特征向量1203-k可基于第三第一子集群1203-1被映射在相对于x轴具有角度k(θk)的方向性的位置。电子装置100可将角度k(θk)与针对健康状态预先存储的角度θ进行比较,并且当角度k(θk)与角度θ相同时,可预测说话者c当前感冒了。

也就是说,电子装置100可从说话者c的新输入语音提取说话者特征向量1203-k,将提取的说话者特征向量1203-k的位置与在说话者特征图1200m上的第三集群1203中的第三第一子集群1203-1中的说话者特征向量的位置进行比较,其中,说话者特征向量1203-k被映射在第三集群1203,识别方向性,并基于识别出的方向性来预测说话者c的健康状态。

根据本公开的实施例,电子装置100可从被存储在存储器130(参见图2a和图2b)中的消息中输出与用户(即,说话者c)的预测的健康状态相应的消息。例如,电子装置100可识别出说话者c已经感冒,并且可输出安慰消息,诸如“小心,别加重你的感冒”,或者向说话者c提供与感冒相关的关于诊所、药店等的位置的信息。

图12a和图12b的实施例不仅可由电子装置100执行,而且可由服务器200执行。

图13是根据本公开的实施例的由电子装置100执行的基于位于说话者特征图上的单个集群中的多个说话者特征向量之间的位置关系来预测用户状态的方法的流程图。

参照图13,在操作s1310,电子装置100可通过将从用户接收的语音的第一特征向量的位置与说话者特征图上的单个集群的第二特征向量的位置进行比较来识别方向性。根据本公开的实施例,第一特征向量可被映射在第一集群中,并且第一集群可包括多个子集群。多个子集群可由一个说话者的语音形成,并且可以是从根据说话者的状态(诸如健康或年龄等)改变的人声语音提取的说话者特征向量的子组。根据本公开的实施例,电子装置100可通过将根据从用户接收的语音提取的第一特征向量的位置与第一集群中的多个子集群的位置进行比较来识别方向性。

在操作s1320,电子装置100可基于识别出的方向性来预测用户的健康状态。电子装置100可对关于单个集群中的多个子集群之间的方向性(即,在多个子集群之间形成的角度)与说话者状态之间的相关性的信息进行存储。例如,电子装置100可对当在多个子集群之间形成的方向性与第一角度相应时说话者感冒的相关性信息进行存储。电子装置100可通过使用存储的相关性信息来预测由在操作s1310从语音输入提取的第一特征向量和子集群形成的角度指示用户的哪个健康状态。例如,当第一特征向量与作为当用户健康时提取的说话者特征向量的子组的子集群形成第一角度时,电子装置100可预测用户当前感冒了。

在操作s1330,电子装置100可输出与预测的用户健康状态相应的消息。根据本公开的实施例,当预测出用户当前感冒时,电子装置100可通过扬声器140(参见图2a和2b)输出诸如“小心感冒”的安慰消息,或者通过显示器150(参见图2a和2b)输出与感冒相关的关于诊所、药店等的位置的信息。

根据本公开的实施例的电子装置100可经由用户的语音来预测用户的当前健康状态并输出相关消息,从而除了简单信息之外还向用户提供情绪安慰,使得用户感觉到电子装置100的人情味。

图13所示的操作s1310至s1330不仅可由电子装置100执行,而且可由服务器200执行。

图14是根据本公开的实施例的电子装置1000的组件的框图。图14所示的电子装置1000可包括与参照图2a、图2b、图3a至图3d、图4a至图4d、图5、图6a至图6c、图7a至图7c、图8、图9、图10a、图10b、图11、图12a、图12b和图13描述的电子装置100相同的组件。例如,图14所示的组件中的控制器1300与图2a和2b所示的控制器120相同,声音输出器1220与图2a和2b所示的扬声器140相同,并且显示器1210与图2a和2b所示的显示器150相同。因此,将不给出重复描述。

图14所示的电子装置1000可执行参照图2a、图2b、图3a至图3d、图4a至图4d、图5、图6a至图6c、图7a至图7c、图8、图9、图10a、图10b、图11、图12a、图12b和图13描述的电子装置100的所有操作和功能。因此,在下文中,将描述到目前为止未被描述的电子装置1000的组件。

参照图14,电子装置1000可包括用户输入器1100、输出器1200、控制器1300、传感器1400、通信器1500、a/v输入器1600和存储器1700。

用户输入器1100可表示由用户用来输入数据以控制电子装置1000的装置。例如,用户输入器1100可包括键盘、圆顶开关、触摸板(触摸电容方法、压阻方法、红外检测方法、表面超声传导方法、整体张力测量方法、压电效应方法等)、滚轮、微动开关等,但不限于此。用户输入器1100可接收用于生成要提供给用户的通信信息所需的用户输入。

输出器1200可输出音频信号、视频信号或振动信号,并且可包括显示器1210、声音输出器1220和振动电机1230。

振动电机1230可输出振动信号。例如,振动电机1230可输出与音频数据或视频数据的输出相应的振动信号(例如,呼叫信号接收声音、消息接收声音等)。

传感器1400可感测电子装置1000的状态或电子装置1000周围的状态,并将感测到的信息发送到控制器1300。

传感器1400可包括磁传感器1410、加速度传感器1420、温度/湿度传感器1430、红外传感器1440、陀螺仪传感器1450、位置传感器(例如,全球定位传感器(gps))1460、气压传感器1470、接近传感器1480或红绿蓝(rgb)传感器(亮度传感器)1490中的至少一个,但不限于此。本领域普通技术人员可基于其名称直观地推断每个传感器的功能,因此将不给出其详细描述。

通信器1500可包括被配置为实现与其他装置的通信的组件。例如,通信器1500可包括短距离无线通信器1510、移动通信器1520和广播接收器1530。

短距离无线通信器151可包括蓝牙通信器、ble通信器、nfc、无线lan(wlan)(或wi-fi)通信器、zigbee通信器、红外数据协会(irda)通信器、wfd通信器、超宽带(uwb)通信器、ant+通信器等,但不限于此。

移动通信器1520可经由移动通信网络与基站、外部终端或服务器中的至少一个收发无线信号。这里,无线信号可包括声音呼叫信号、视频电话呼叫信号或基于文本/多媒体消息的收发的各种类型的数据。

广播接收器1530可经由广播信道从外部接收广播信号和/或广播相关信息。广播信道可包括卫星信道和地波信道。根据本公开的实施例,电子装置1000可不包括广播接收器1530。

此外,通信器1500可将用于生成要提供给第一用户的通信信息所需的信息发送到第二通信电子装置3000、其他装置和服务器以及从第二通信电子装置3000、其他装置和服务器接收用于生成要提供给第一用户的通信信息所需的信息。

a/v输入器1600可被配置为输入音频信号或视频信号,并且可包括相机1610和麦克风1620。相机1610可在视频电话模式或捕获模式下经由图像传感器获得图像帧,诸如静止图像或视频。由图像传感器捕获的图像可由控制器1300或另外的图像处理器(未示出)处理。

由相机1610处理的图像帧可被存储在存储器1700,或者可经由通信器1500被发送到外部。根据终端的实施例,相机1610可包括两个相机。

麦克风1620可接收外部声音信号并将接收的外部声音信号处理为电人声数据。例如,麦克风1620可从外部装置或扬声器接收声音信号。麦克风1620可使用各种噪声去除算法来去除在接收外部声音信号的过程中产生的噪声。

存储器1700可存储用于处理和控制控制器1300的操作的程序,并且可存储输入到电子装置1000或从电子装置1000输出的数据。

存储器1700可包括闪存型存储器、硬盘型存储器、多媒体卡微型存储器、卡型存储器(例如,sd或xd存储器)、ram、sram、rom、eeprom、prom、磁存储器、磁盘和光盘中的至少一种类型的存储介质。

存储在存储器1700中的程序可根据其功能被分类为多个模块。例如,程序可被分类为ui模块1710、触摸屏模块1720、通知模块1730等。

ui模块1710可根据应用提供与电子装置1000同步的专用ui或图形用户界面(gui)等。触摸屏模块1720可感测用户在触摸屏上的触摸手势,并且可将关于触摸手势的信息发送到控制器1300。根据本公开的一个或更多个实施例的触摸屏模块1720可识别和分析触摸代码。触摸屏模块1720可被形成为包括控制器的附加硬件。

通知模块1730可生成用于通知电子装置1000的事件的发生的信号。在电子装置1000中发生的示例事件可包括呼叫信号接收、消息接收、键信号输入、日程通知等。通知模块1730可经由显示器1210以视频信号形式输出通知信号,经由声音输出器1220以音频信号形式输出通知信号,并且经由振动电机1230以振动信号形式输出通知信号。

根据本公开的电子装置10、100和100可被实现为硬件组件、软件组件和/或硬件组件和软件组件的组合。例如,根据本公开的实施例的电子装置10、100和1000可通过使用处理器、算术逻辑单元(alu)、专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理装置(dspd)、可编程逻辑装置(pld)、微计算机、微处理器或一个或更多个通用计算机或专用计算机(诸如能够执行和响应指令的装置)来实现。

软件组件可包括计算机程序、代码、指令或其一个或更多个的组合,并且可将处理装置配置为根据需求进行操作或者单独地或共同地命令处理装置。

软件组件可被实现为包括被存储在计算机可读存储介质中的指令的计算机程序。计算机可读存储介质可包括例如磁存储介质(例如,rom、ram、软盘、硬盘等)和光学读取介质(例如,光盘rom(cd-rom)、数字通用光盘(dvd)等)。计算机可读记录介质可被分布在连接在网络中的计算机系统中,并且可以以分布式方式存储和执行计算机可读代码。介质可以是计算机可读的,可被存储在存储器中,并且由处理器执行。

计算机可以是被配置为调用存储在存储介质中的指令并且响应于所调用的指令来执行根据本公开的实施例的操作的装置,并且可包括根据本公开的实施例的电子装置10、100和1000。

计算机可读存储介质可被设置为非暂时性存储介质。这里,术语“非暂时性”仅表示存储介质不包括信号并且是有形的,并且该术语不区分存储介质中的数据的半永久存储和临时存储。

此外,根据本公开的实施例的电子装置10、100和1000或方法可被包括在计算机程序产品中。计算机程序产品是可在卖方和买方之间购买的产品。

计算机程序产品可包括软件程序和存储有软件程序的计算机可读存储介质。例如,计算机程序产品可包括由电子装置10、100和1000的制造商或电子市场(例如,googleplaytm商店、app商店等)电子分发的软件程序型产品(例如,可下载的应用)。对于电子分发,软件程序的至少一部分可被存储在存储介质中或被临时生成。在这种情况下,存储介质可以是制造商的服务器、电子市场的服务器或临时存储软件程序的广播服务器的存储介质。

在包括服务器和终端的系统(例如,超声诊断设备)中,计算机程序产品可包括服务器的存储介质或终端的存储介质。可选地,当存在与服务器或终端连接以进行通信的第三装置(例如,智能电话)时,计算机程序产品可包括第三装置的存储介质。可选地,计算机程序产品可包括从服务器发送到终端或第三装置或者从第三装置发送到终端的软件程序。

在这种情况下,服务器、终端和第三装置之一可通过执行计算机程序产品来执行根据本公开的实施例的方法。可选地,服务器、终端和第三装置中的至少两个可通过执行计算机程序产品以分布式方式执行根据本公开的实施例的方法。

例如,服务器(例如,云服务器或ai服务器)可执行存储在服务器中的计算机程序产品,并控制与服务器连接以进行通信的终端以执行根据本公开的实施例的方法。

作为另一示例,第三装置可执行计算机程序产品并控制连接到第三装置以进行通信的终端执行根据本公开的实施例的方法。

当第三装置执行计算机程序产品时,第三装置可从服务器下载计算机程序产品并执行下载的计算机程序产品。可选地,第三装置可执行以免费加载状态提供的计算机程序产品,并且执行根据本公开的实施例的方法。

另外,尽管上面已经示出和描述了本公开的实施例,但是本公开不限于上述具体实施例。在不脱离如权利要求中所要求保护的本公开的范围的情况下,本领域普通技术人员可做出各种修改的实施例,并且这些修改不应从本公开的技术精神或前景中单独理解。

虽然已经参照本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的情况下,可在其中进行形式和细节上的各种改变。例如,所描述的技术可以以与所描述的方法不同的顺序执行,和/或所描述的电子装置、结构、电路等的组件可以以与所描述的方法不同的形式组合或集成,或者可由其他组件或等同物替换或替代以实现适当的结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1