用于识别语音的电子设备的制作方法

文档序号:14951851发布日期:2018-07-17 22:43阅读:246来源:国知局

本申请要求2017年1月9日向韩国知识产权局提交的韩国专利申请10-2017-0003085的优先权,该申请的公开通过全文引用合并于此。

本公开总体上涉及识别语音的技术。



背景技术:

随着语音识别技术的发展,配备有麦克风的电子设备(例如,智能手机)已经广泛分布。可以通过语音识别技术识别用户的语音,并且电子设备可以基于识别的语音执行各种操作。例如,电子设备可以基于识别的语音来执行应用或者通过网站搜索信息。

电子设备可以仅在应用物理输入时识别语音。例如,电子设备可以仅当用户触摸图标或主(home)按键时识别语音。然而,最近还开发了即使在没有物理输入的情况下仅使用关键字来识别语音的技术。

用户需要将预定义关键字存储在电子设备中以仅使用关键字来识别语音。此外,只有当用户说出存储在电子设备中的关键字时,电子设备才执行与关键字相对应的操作。如上所述,由于用户需要直接存储关键字并且说出关键字以便使用仅通过关键字来识别语音的技术,所以用户可能会感到不便。因此,用户可能会避免使用语音识别功能。



技术实现要素:

已经做出了本公开以至少解决上述问题和/或缺点,并且至少提供以下描述的优点。因此,本公开的一个方面提供了一种用于解决上述问题的电子设备。

根据本公开的另一方面,识别用户的语音信号而无需关键字,由此为用户提供便利。

根据本公开的另一方面,低功率处理器识别用户的语音信号,由此降低电子设备的功耗。

根据本公开的一个方面,一种电子设备包括获得音频信号的麦克风;存储讲话者模型的存储器;以及至少一个处理器。所述至少一个处理器被配置为从所述音频信号获得语音信号,将所述语音信号与所述讲话者模型进行比较以验证用户,并且如果验证结果指示所述用户对应于预先登记的讲话者,执行与所获得的语音信号相对应的操作。

根据本公开的另一方面,一种可穿戴电子设备包括用于感测用户的运动的传感器、用于在感测到运动的情况下获得音频信号的麦克风、存储讲话者模型的存储器以及至少一个处理器。所述至少一个处理器被配置为从所述音频信号获得语音信号,将所述语音信号与所述讲话者模型进行比较以验证用户,并且如果验证结果指示所述用户对应于预先登记的讲话者,执行与所获得的语音信号相对应的操作。

附图说明

根据以下结合附图给出的详细描述,本公开的以上及其他方面、特征和优点将更加显而易见,在所述附图中:

图1示出了根据本公开实施例的网络环境中的电子设备;

图2示出了根据本公开实施例的存储在电子设备中的程序模块的框图;

图3示出了根据本公开实施例的电子设备的操作的流程图;

图4示出了根据本公开的实施例的由至少一个处理器执行的程序模块;

图5示出了根据本公开的实施例的通过使用场景分类模块获得语音信号的程序模块;

图6示出了根据本公开实施例的登记讲话者模型的程序模块的框图;

图7示出了根据本公开实施例的登记讲话者模型并验证用户的程序模块的框图;

图8示出了根据本公开的实施例的基于谈话模块和通用背景模块(ubm)来验证用户的用户验证模块;

图9示出了根据本公开实施例的存储在可穿戴电子设备中的程序模块的框图;

图10示出了根据本公开的实施例的向显示器输出关于是否产生讲话者模型的信息的可穿戴电子设备;

图11示出了根据本公开实施例的电子设备的框图;以及

图12是根据本公开实施例的程序模块的框图。

具体实施方式

可以参考附图来描述本公开的实施例。尽管示出在不同的附图中,相同或相似的组件可以用相同或相似的附图标记来表示。可以省略对本领域公知的结构或处理的详细描述,以免混淆本公开的主题。

在本公开中,本文中所使用的表述“具有”、“可以具有”、“包含”、“包括”、“可以包含”或“可以包括”指示存在对应的特征(例如,数值、功能、操作或组件),但是不排除一个或多个附加的特征。

在本公开中,表述“a或b”、“a和/或b中的至少一个”或“a和/或b中的一个或多个”可以包括列出项中一个或多个的任意和所有组合。例如,表达方式“a或b”、“a和b中至少一项”和“a或b中至少一项”指代的是以下所有情形:(1)包括至少一个a,(2)包括至少一个b,和(3)包括至少一个a和至少一个b二者。

这里使用的表述“第一”和“第二”可以表示各种元件,而无论顺序和/或优先级如何,但是并不限制元件。例如,“第一用户设备”和“第二用户设备”指示不同的用户设备,而与顺序或优先级无关。例如,在不脱离本公开的范围的情况下,第一元件可以被称为第二元件,类似地,第二元件可以被称为第一元件。

将要理解的是,当一个元件(例如,第一元件)被称为“(操作或通信地)耦接到”或“连接到”另一元件(例如,第二元件)时,所述元件可以直接耦接或直接连接到该另一元件,或者可以存在中间元件(例如,第三元件)。相反,当一元件(例如,第一元件)被称为“直接耦接到”或“直接连接到”另一元件(例如,第二元件)时,应理解,不存在中间元件(例如,第三元件)。

本公开中所使用的表述“(被)配置为”可以与表述“适用于”、“具有...的能力”、“(被)设计为”、“适于”、“(被)制造为”和“能够”互换使用。术语“被配置为……”可以不只意味着在硬件方面“被专门设计为……”。相反,表述“(被)配置为...的设备”可以意味着该设备与另一设备或另一组件“能够”一起操作。例如,“被配置为(或被设置为)执行a、b和c的处理器”可以意味着用于执行对应操作的专用处理器(例如,嵌入式处理器)、或通过执行存储设备中所存储的一个或多个软件程序来执行对应操作的通用处理器(例如,中央处理单元(cpu)或应用处理器(ap))。

本公开中使用的术语描述具体实施例,而不是为了限制本公开的范围。单数形式的术语可以包括复数形式,除非另有规定。本文使用的所有术语(包括技术或科学术语)可以具有与本领域技术人员通常理解的含义相同的含义。还应该理解,在通用字典中定义并且常用的术语应该按相关技术中的惯例进行解释,而不应该解释为具有理想化或过度刻板的含义,除非在本公开中明确限定。在一些情况下,即使术语是在本公开中定义的术语,也不应将它们理解为排除本公开的实施例。

根据本公开的各种实施例的电子设备可以包括以下至少一项:例如智能电话、平板个人计算机(pc)、移动电话、视频电话、电子书阅读器、台式pc、膝上型pc、上网本计算机、工作站、服务器、个人数字助理(pda)、便携式多媒体播放器(pmp)、移动图像专家组(mpeg-1或mpeg-2)音频层3(mp3)播放器、移动医疗设备、摄像机、或可穿戴设备。可穿戴设备可以包括以下至少一个:饰品型(例如,手表、戒指、手链、脚链、项链、眼镜、隐形眼镜或头戴式设备(hmd))、衣料或服饰集成型(例如,电子服饰)、身体附着型(例如,皮肤贴或纹身)、或生物植入型(例如,可植入电路)。

根据本公开的各种实施例,电子设备可以是家用电器。例如,家电可以包括以下至少一项:例如,电视(tv)、数字多功能盘(dvd)播放器、音频播放器、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动控制面板、安保控制面板、tv盒(例如samsunghomesynctm、appletvtm或googletvtm)、游戏机(例如xboxtm或playstationtm)、电子词典、电子钥匙、摄像机和电子相框。

根据本公开实施例,电子设备包括以下至少一项:各种医疗设备(例如,各种便携式医疗测量设备(例如,血糖监控设备、心率监控设备、血压测量设备和体温测量设备)、磁共振血管造影(mra)、磁共振成像(mri)设备、计算断层扫描(ct)机器、扫描仪和超声波设备)、导航设备、全球导航卫星系统(gnss)、事件数据记录仪(edr)、飞行数据记录仪(fdr)、车辆信息娱乐设备、船用电子设备(例如,导航系统和罗盘)、航空电子设备、安保设备、车头单元、工业或家用机器人、自动柜员机(atm)、商店的销售点(pos)设备或物联网(iot)设备(例如,灯泡、各种传感器、电表或气表、洒水器、火警、恒温器、街灯、烤面包机、移动器材、热水箱、加热器或锅炉)。

根据本公开实施例,电子设备可以包括以下至少一项:家具或建筑物/结构的一部分、电子板、电子签名接收设备、投影仪、或各种类型测量仪表(例如,水表、电表、气表、或测波计)。电子设备可以是上述设备之一或上述设备的组合。电子设备还可以是柔性电子设备。此外,电子设备不限于上述电子设备,并且可以包括根据将来技术发展的其他电子设备和新的电子设备。

在下文中,参照附图描述了根据本公开各实施例的电子设备。在本公开中,术语“用户”可以指代使用电子设备的人,或者可以指代使用电子设备的设备(例如,人工智能电子设备)。

图1示出了根据本公开实施例的网络环境中的电子设备。

参考图1,电子设备101、第一电子设备102、第二电子设备104或服务器106可以通过网络162或通过短距离通信164彼此连接。电子设备101包括总线110、处理器120、存储器130、输入/输出接口150、显示器160和通信接口170。电子设备101可以省略上述元件中的至少一个,或者还可以包括其他元件。

例如,总线110可以与上述元件110至170互连,并且可以包括用于在上述元件之间传送通信(例如,控制消息和/或数据)的电路。

处理器120可包括中央处理单元(cpu)、应用处理器(ap)、或通信处理器(cp)中的一项或多项。处理器120可以执行与电子设备101的其它元件的控制和/或通信相关联的算数运算或数据处理。

存储器130可以包括易失性和/或非易失性存储器并且存储与电子设备101的至少一个其它元件相关联的指令或数据。存储器130可以存储软件和/或程序140。程序140可以包括内核141、中间件143、应用编程接口(api)145和/或应用(或应用)147。内核141、中间件143或api145中的至少一部分可以被称作操作系统(os)。

内核141可以控制或管理用于执行其它程序(例如,中间件143、api145和应用147)的操作或功能的系统资源(例如,总线110、处理器120、存储器130等)。此外,内核141可以提供允许中间件143、api145或应用147访问电子设备101的分立元件以便控制或管理系统资源的接口。

中间件143可以作为例如中介角色,使得api145或应用147与内核141进行通信以交换数据。

此外,中间件143可以根据优先级处理从应用147接收的任务请求。例如,中间件143可以向应用147中的至少一个分配使得可以使用电子设备101的系统资源(例如,总线110、处理器120或存储器130)的优先级。例如,中间件143可以根据向至少一个应用分配的优先级处理一个或更多个任务请求,这使得可以对所述一个或更多个任务请求执行调度或负载均衡。

api145可以例如是接口,应用147通过所述接口控制由内核141或中间件143提供的功能,并且api145例如可以包括用于文件控制、窗口控制、图像处理或字符控制的至少一个接口或功能(例如,指令)。

输入/输出接口150可以用作例如向电子设备101的其他元件120至170发送从用户或其他外部设备输入的指令或数据的接口。此外,输入/输出接口150可以向用户或另一个外部设备输出从电子设备101的其它元件接收到的指令或数据。

显示器160可以包括例如液晶显示器(lcd)、发光二极管(led)显示器、有机led(oled)显示器、微机电系统(mems)显示器或电子纸显示器。显示器160可以向用户显示各种内容(例如,文本、图像、视频、图标和符号)。显示器160可以包括触摸屏,并可以接收使用电子笔或用户的身体的一部分进行的触摸、手势、接近输入或悬停输入。

通信接口170可以在电子设备101与第一电子设备102、第二电子设备104或服务器106之间建立通信。例如,通信接口170可通过无线通信或有线通信连接到网络162以与第二电子设备104或服务器106通信。

麦克风180可以获得从声源产生的音频信号。声源可以是产生声音的物体,诸如人、动物或汽车。音频信号可以包括人的语音信号和非语音信号的噪声(例如,狗吠声、汽车喇叭声)。

无线通信例如可以使用以下至少一项作为蜂窝通信协议:长期演进(let)、lte-高级(lte-a)、码分多址(cdma)、宽带cdma(wcdma)、通用移动电信系统(umts)、无线宽带(wibro)或全球移动通信系统(gsm)。此外,无线通信可以包括例如短距离通信164。短距离通信164可以包括无线保真(wi-fi)、蓝牙(bt)、近场通信(nfc)、磁性安全传输(mst)或全球导航卫星系统(gnss)中的至少一个。

mst可以响应于传输数据使用电磁信号产生脉冲,并且脉冲可以产生磁场信号。电子设备101可以将磁场信号传送到pos设备,并且pos设备可以使用mst读取器来检测磁场信号。pos设备可以通过将检测到的磁场信号转换为电信号来恢复数据。

基于可用区域或带宽,gnss可以包括以下至少一项:例如,全球定位系统(gps)、全球导航卫星系统(glonass)、北斗导航卫星系统(北斗)或欧洲基于全球卫星的导航系统(伽利略)等。下文中,“gps”和“gnss”可以互换使用。例如,有线通信可以包括以下的至少一个:通用串行总线(usb)、高分辨率多媒体接口(hdmi)、推荐标准-232(rs-232)、或者简易老式电话业务(pots)。网络162可以包括电信网络中的至少一个,例如,计算机网络(例如,lan或wan)、互联网或电话网。

第一电子设备102和第二电子设备104中的每一个可以是在类型上与电子设备101相同或不同的设备。根据本公开的实施例,服务器106可以包括具有一个或多个服务器的组。要由电子设备101执行的操作中的全部或一些可以由第一电子设备102、第二电子设备104或服务器106来执行。在电子设备101自动执行或响应于请求来执行任何功能或服务的情况下,电子设备101可以备选地并附加地从另一电子设备(例如,第一电子设备102、第二电子设备104、或服务器106)请求与电子设备101相关联的功能的至少一部分,而不是内在地执行所述功能或服务。其它电子设备可以执行所请求的功能或附加功能,并且可以向电子设备101发送执行结果。电子设备101可以使用接收到的结果来提供所请求的功能或服务,或者还处理接收到的结果以提供所请求的功能或服务。为此,可以使用例如云计算、分布式计算或客户端-服务器计算。

图2示出了根据本公开实施例的存储在电子设备101中的程序模块的框图。图2所示的程序模块可以由处理器120执行并且可以被存储在存储器130中。

参考图2,程序模块包括语音检测模块210、用户验证模块220、命令识别模块230、语音数据库240、讲话者模型产生模块250和讲话者模型260。

语音检测模块210可以通过麦克风180从输入的音频信号获得语音信号。例如,除了人的语音信号之外,还可能会通过麦克风180噪声(例如,汽车声音或动物声音)包括在输入的音频信号中。语音检测模块210可以通过麦克风180从输入的音频信号中去除噪声以仅获得语音信号。

用户验证模块220可以基于由语音检测模块210获得的语音信号来执行用户验证。例如,可以通过将所获得的语音信号与讲话者模型进行比较来执行用户验证。如果验证结果指示用户对应于预先登记的讲话者,则验证是成功的。如果验证结果指示用户不对应于预先登记的讲话者,则验证可能失败。

如果用户验证成功,则命令识别模块230可以从被成功验证的语音信号获得命令。如果获得命令,则电子设备可以执行与由命令识别模块230获得的命令相对应的操作。例如,如果输入了“今天天气如何?”的语音信号并且用户验证成功,则电子设备可以执行天气应用。

语音数据库240可以在特定的条件下存储用户的语音信号。例如,当用户打电话给另一用户时,语音数据库240可以获得并存储用户的语音信号。

讲话者模型产生模块250可以基于存储在语音数据库240中的用户的语音信号来产生讲话者模型260。例如,讲话者模型产生模块250可以基于用户的语音信号的特征值来产生讲话者模型260。根据本公开的实施例,特征值可以包括线性预测编码(lpc)和梅尔频率倒谱系数(mel-frequencycepstralcoefficients,mfcc)中的至少一个。

讲话者模型260可以是存储语音信号的特征值的数据库。

根据本公开的实施例,参考图1和图2给出的细节可以相同地应用于具有与参考图1和图2描述的电子设备101和程序模块相同的附图标记的元件。

图3示出了根据本公开实施例的电子设备101的操作的流程图。

参考图3,在步骤301中,处理器120通过麦克风180获得音频信号。除了语音信号之外,音频信号还可以包括噪声。

根据本公开的实施例,如果通过麦克风180获得音频信号,则在步骤303中,处理器120(或图2的语音检测模块210)从音频信号获得语音信号。例如,处理器120可以确定音频信号中具有幅度大于或等于临界值的能量的信号是音频信号,并且可以确定音频信号中具有幅度小于临界值的能量的信号是噪声。

如果获得语音信号,则在步骤305中,处理器120(或图2的用户验证模块220)执行用户验证。例如,处理器120可以将语音信号的特征值与讲话者模型的特征值进行比较;如果特征值彼此一致的程度大于或等于特定水平,则处理器120可以确定用户对应于预先登记的讲话者。

在步骤307中,处理器120(或图2的命令识别模块230)对成功验证的语音信号执行自然语言处理,以掌握用户的意图。例如,如果输入语音信号“今天有会议吗?”,则处理器120可以对语音信号执行自然语言处理以掌握用户的意图。

如果掌握了用户的意图,则处理器120可匹配与用户的意图相对应的操作。在上述示例中,由于用户的意图是“验证时间表”,所以可以匹配与时间表相关联的应用。同时,如步骤307在图1至图3所示的实施例中,由电子设备101执行。然而,可以由服务器执行步骤307。

如果用户的意图与操作匹配,则在步骤309中,处理器120可以执行与用户的意图相对应的操作。在上述示例中,处理器120可以执行与时间表相关联的应用。

图4示出了根据本公开的实施例的由至少一个处理器执行的程序模块。

参考图4,至少一个处理器包括电连接到麦克风180的数字信号处理器(dsp)和电连接到dsp的ap。

可以由dsp执行语音检测模块210和用户验证模块220。根据本公开的实施例,dsp可以基于音频信号的过零率或者可以基于比率(信噪比噪声与音频信号的比率(snr))来从通过麦克风180输入的音频信号获得语音信号。此外,dsp可以基于音频信号的分布来获得语音信号。

如果获得语音信号,则dsp可以将语音信号与存储在存储器中的讲话者模型进行比较以执行用户验证。如果验证结果指示用户对应于预先登记的讲话者,则dsp可以将ap的状态从睡眠状态改变为激活状态。如果ap被激活,则ap可以驱动命令识别模块230。ap可以从用户的语音信号中获得命令。如果获得该命令,则ap可以执行与该命令相对应的操作。

可以由ap执行讲话者模型产生模块250,并且ap可以允许存储器存储语音数据库240。例如,当用户打电话给另一用户时,ap可以通过麦克风180获得语音信号,并且可以将语音信号存储在存储器中。

可以由服务器执行命令识别模块230和讲话者模型产生模块250,语音数据库240可以存储在服务器中。例如,电子设备101可以通过通信电路与服务器进行通信。如果电子设备101向服务器发送关于用户是否被验证的信息,则服务器可以从用户的语音信号中获得命令以再次向电子设备101发送命令。接收到该命令的电子设备101可以执行与该命令相对应的操作。

根据本公开的实施例,低功率处理器识别用户的语音信号,由此降低电子设备101的功耗。

图5示出了根据本公开的实施例的通过使用场景分类模块来获得语音信号的程序模块。

参考图5,场景分类模块211可以将通过麦克风180输入的音频信号分类为多个场景,以获得语音信号。例如,当通过麦克风180输入音频信号时,场景分类模块211可以将分类:场景是用户讲话或场景是噪声输入。如果场景是用户讲话,则场景分类模块211可以通过麦克风180获得语音信号。如果场景是噪声输入,则场景分类模块211可以不通过麦克风180接收音频信号。

根据本公开的实施例,场景分类模块211可以将用户讲话的场景、讲话时输入噪声的场景、仅输入噪声的场景以及播放音乐的场景进行分类以获得语音信号。如果由场景分类模块211获得语音信号,则用户验证模块220可以执行用户验证。例如,用户验证模块220验证用户的操作可对应于图2中描述的操作。

场景分类模块211可以基于通过麦克风180输入的音频信号的分布来获得语音信号。例如,如果音频信号的分布类似于噪声场景中的分布,则场景分类模块211可以不通过麦克风180接收音频信号。

图6示出了根据本公开实施例的登记讲话者模型的程序模块的框图。

参考图6,语音数据库240可以在特定的条件下存储通过麦克风180获得的语音信号。例如,在电子设备101向外部设备发送呼叫的情况下,语音数据库240可以获得通过麦克风180获得的语音信号。如果语音识别应用或执行记录应用,则语音数据库240可以存储通过麦克风180获得的语音信号。

讲话者模型产生模块250可以对存储在语音数据库240中的语音信号的特征值进行归一化以产生讲话者模型260。例如,讲话者模型产生模块250可以将语音信号划分为多个特定部分以从每个部分提取特征值。讲话者模型产生模块250可以对从每个部分提取的特征值进行归一化以产生讲话者模型260。

图7示出了根据本公开实施例的登记讲话者模型并验证用户的程序模块的框图。

参考图7,特征提取模块711可以从通过麦克风180获得的语音信号中提取特征值。如果提取特征值,则特征标准化模块712可以根据特定规则改变特征值。根据本公开的实施例,特征标准化模块712可根据特定规则改变特定范围内的特征值,以向讲话者适配模块713发送改变的特征值。讲话者适配模块713可以基于归一化特征值和通用背景模型(ubm)714来产生讲话者模型260。例如,讲话者适配模块713可以计算归一化特征值与ubm714之间的相似度以产生讲话者模型260。

由讲话者适配模块713产生的讲话者模型260可以存储在存储器中。用户验证模块220可以基于存储在存储器中的讲话者模型260来执行用户验证。根据本公开的实施例,特征提取模块721可以提取语音信号的特征值。特征标准化模块722可以根据特定规则改变特征值。用户验证模块220可以基于归一化特征值来执行用户验证。例如,用户验证模块220可以通过使用隐马尔可夫模型(hmm)、高斯混合模型(gmm)、支持向量机(svm)、i向量、概率线性判别分析(plda)和深度神经网络(dnn)。

图8示出了根据本公开的实施例的基于讲话模块和ubm来验证用户的用户验证模块。

参考图8,用户验证模块220包括特征提取模块801、讲话者模型802、谈话模型803、ubm804和/或判决模块805。用户验证模块220可以通过使用特征提取模块801来提取特征值,并且可以基于模型之间的相似性来确定用户。例如,如果从麦克风180输入的语音信号的特征值与讲话者“a”的讲话者模型802之间的相似性大于或等于特定水平,则判决模块805可以判决用户是“a”。

根据本公开的实施例,用户验证模块220可以基于特征值与谈话模型803之间的相似性以及特征值与ubm804之间的相似性来确定用户。谈话模型803可以是与预先登记的讲话者和另一讲话者之间的讲话内容相关联的模型。例如,如果通过麦克风180输入通过“a”和“b”之间的谈话获得的语音信号,并且语音信号的特征值与谈话模型803之间的相似度大于或等于特定水平,判决模块805可以确定当前场景是谈话场景。如果语音信号的特征值与讲话者“a”的讲话者模型802之间的相似性大于或等于特定水平,则判决模块805可以判决用户是“a”。

根据本公开的实施例,可以基于谈话模型803和ubm804来执行用户验证,由此减少在用户验证期间发生错误的可能性。

图9示出了根据本公开实施例的存储在可穿戴电子设备中的程序模块的框图。

参考图9,可穿戴电子设备1000包括传感器、麦克风1020、存储器以及至少一个处理器。至少一个或多个程序模块可以包括运动检测模块1010,数据缓存模块1030,语音检测模块1040,用户验证模块1050和命令识别模块1060。图9所示的程序模块的操作可以由可穿戴电子设备1000中包括的至少一个处理器来执行,并且可以将其存储在存储器中。

运动检测模块1010可以感测用户的移动。例如,可穿戴电子设备1000可以佩戴在用户的手腕上,并且如果用户移动他/她的手腕,则运动检测模块1010可以感测该移动。运动检测模块1010可以基于由传感器感测的信号来确定用户是否移动。传感器可以包括加速度传感器、陀螺仪传感器、重力传感器和地磁传感器中的至少一个。

如果感测到用户的移动,则麦克风1020可以获得语音信号。例如,如果用户将他/她的手腕靠近他/她的嘴部以输入语音信号,则话筒1020可以获得语音信号。

如果感测到用户的移动,则数据缓存模块1030可以允许语音检测模块1040在距离感测到移动的时间点的预设时间之后获得语音信号。例如,在用户将他/她的手腕靠近(例如,上方)他/她的嘴部以输入语音信号的操作中,数据缓存模块1030可以从用户移动他/她的手腕的时间点到手腕位于嘴部上方的时间点,向语音检测模块1040发送缓存信号。如果用户的手腕位于他/她的嘴部上方,则数据缓存模块1030可以中断向语音检测模块1040发送缓存信号的操作。根据本公开的实施例,可以在输入语音信号之前发送缓存信号,从而最小化输入噪声的时间。

根据本公开的一个方面,语音检测模块1040,用户验证模块1050和命令识别模块1060可分别对应于图2所示语音检测模块210、用户验证模块220和命令识别模块230。

图10示出了根据本公开的实施例的向显示器输出关于是否产生讲话者模型的信息的可穿戴电子设备。

参考图10,可穿戴电子设备1000可基于存储在语音数据库中的用户的语音信号来产生讲话者模型。如果产生讲话者模型,则可穿戴电子设备1000可以向显示器1070输出关于是否产生讲话者模型的信息。例如,可以基于产生讲话者模型之前的信息和产生讲话者模型之后的信息来改变向显示器1070输出的字符、向显示器1070输出的消息或者显示器1070的亮度。根据本公开的实施例,可以调整向显示器1070输出的字符、向显示器1070输出的消息或者显示器1070的亮度,以通知是否产生用户讲话者模型,由此提供用户便利。

根据本公开的实施例,一种电子设备包括:获得音频信号的麦克风;存储讲话者模型的存储器;以及至少一个处理器。所述至少一个处理器可以被配置为从所述音频信号获得语音信号,将所述语音信号与所述讲话者模型进行比较以验证用户,并且如果验证结果指示所述用户对应于预先登记的讲话者,执行与所获得的语音信号相对应的操作。

根据本公开的实施例,至少一个处理器包括电连接到麦克风的dsp和电连接到dsp的ap。如果验证结果指示用户是预先登记的讲话者,则dsp可以执行验证用户的操作并且将ap的状态从睡眠状态改变为激活状态,并且ap可以从所获得的声音中识别命令信号并执行与该命令相关联的操作。

根据本公开的实施例,所述至少一个处理器可以被配置为将音频信号中具有其幅度大于或等于临界值的能量的信号确定为语音信号并且将具有幅度小于临界值的能量信号确定为噪声。

根据本公开的实施例,所述至少一个处理器可以被配置为基于所述音频信号的过零率来获得语音信号。

根据本公开的实施例,所述至少一个处理器可以被配置为基于信噪比snr来获得语音信号。

根据本公开的实施例,所述至少一个处理器可以被配置为基于所述音频信号的分布来获得语音信号。

根据本公开的实施例,至少一个处理器可以被配置为将语音信号的特征值与讲话者模型的特征值进行比较以验证用户。

根据本公开的实施例,语音信号的特征值和讲话者模型的特征值中的至少一个可以包括lpc和mfcc中的至少一个。

根据本公开的实施例,至少一个处理器可以被配置为通过使用hmm、gmm、svm、plda和dnn中的至少一个来验证用户。

根据本公开的实施例,所述至少一个处理器可以被配置为基于讲话者模型与ubm之间的相似性来验证用户。

根据本公开的实施例,至少一个处理器可以被配置为基于讲话者模型和与预先登记的讲话者和另一讲话者之间的讲话内容相关联的谈话模型之间的相似性来验证用户。

根据本公开的实施例,所述至少一个处理器可以被配置为在特定条件下通过所述麦克风获得所述语音信号,并且将所获得的语音信号的特征值归一化以产生所述讲话者模型。

根据本公开的实施例,如果电子设备向外部设备发送呼叫,则至少一个处理器可以被配置为通过麦克风获得语音信号。

根据本公开的实施例,如果执行记录应用,则可以将至少一个处理器配置为通过麦克风获得语音信号。

根据本公开的实施例,至少一个处理器可以被配置为通过显示器输出关于是否产生讲话者模型的信息。

根据本公开的实施例,可穿戴电子设备可以包括感测用户的移动的传感器、如果感测到移动则获得音频信号的麦克风、存储讲话者模型的存储器以及至少一个处理器。至少一个处理器可以被配置为从所述音频信号获得语音信号,将语音信号与所述讲话者模型进行比较以验证用户,并且如果验证结果指示所述用户对应于预先登记的讲话者,执行对应于所获得的语音信号的操作。

根据本公开的实施例,如果感测到移动,则传感器可以向麦克风发送缓存数据。

根据本公开的实施例,麦克风可以在距离感测到移动的时间点预设时间之后获得音频信号。

根据本公开的实施例,传感器可以包括加速度传感器、陀螺仪传感器、重力传感器和地磁传感器中的至少一个。

根据本公开的实施例,所述至少一个处理器可以被配置为对所获得的语音信号的特征值进行归一化以产生讲话者模型,并且向显示器输出关于是否产生讲话者模型的信息。

图11出了根据本公开实施例的电子设备的框图。

参考图11,电子设备1601可以包括例如以上参考图1描述的电子设备101的整体或一部分。图11中的电子设备11可以包括至少一个ap1110、通信模块1120、订户标识模块卡1124、存储器1130、传感器模块1140、输入设备1150、显示器1160、接口1170、音频模块1180、摄像机模块1191、电源管理模块1195、电池1196、指示器1197和电机1198。

处理器1110可以例如驱动os或应用,以便控制与处理器1110相连的多个硬件或软件元件,并可以处理和计算各种数据。例如,处理器1110可以利用片上系统(soc)来实现。根据本公开实施例,处理器1110还可以包括图形处理单元(gpu)和/或图像信号处理器。处理器1110可以包括图11所示的部件中的至少一部分(例如,蜂窝模块1121)。处理器1110可以将从至少一个其它元件(例如,非易失性存储器)接收到的指令和数据加载到易失性存储器中,并且处理所加载的指令或数据。处理器1110可以将各种数据存储在非易失性存储器中。

通信模块1120可以被配置为与图1的通信接口170相同或相似。通信模块1120包括蜂窝模块1121、wifi模块1123、bt模块1125、gnss模块1127(例如,gps模块、glonass模块、北斗模块或伽利略模块)、nfc模块1128和射频(rf)模块1129。

蜂窝模块1121可以通过通信网络提供例如语音通信、视频通信、字符服务、互联网服务等。根据实施例,蜂窝模块1121可以通过使用订户标识模块(例如,sim)卡1124来执行在通信网络中对电子设备1101进行区分和认证。根据实施例,蜂窝模块1121可以至少执行处理器1110提供的功能的一部分。根据实施例,蜂窝模块1121可以包括cp。

例如,wi-fi模块1123、bt模块1125、gnns模块1127和nfc模块1128中的每个可以均包括用于处理经对应模块交换的数据的处理器。根据本公开的各种实施例,可以将蜂窝模块1121、wi-fi模块1122、bt模块1125、gnns模块1127和nfc模块1128中的至少一部分(例如,两个或更多个)包含在一个集成电路(ic)中或ic封装中。

rf模块1129可以发送并接收通信信号(例如,rf信号)。例如,rf模块1129可以包括收发机、功率放大器模块(pam)、频率滤波器、低噪放大器(lna)和天线。蜂窝模块1121、wifi模块1123、蓝牙模块1125、gnss模块1127或nfc模块1128中的至少一个可以通过单独的rf模块来发送和接收rf信号。

订户标识模块1124可以包括例如嵌入式sim,并且可以包括唯一身份信息(例如集成电路卡标识符(iccid))或订户信息(例如国际移动订户身份(imsi))。

存储器1130可以包括内部存储器1132或外部存储器1134。例如,内部存储器1132可以包括以下至少一项:易失性存储器(例如,动态随机存取存储器(dram)、静态ram(sram)或同步dram(sdram))、非易失性存储器(例如,一次性可编程只读存储器(otprom)、可编程rom(prom)、可擦除prom(eprom)、电可擦除和可编程rom(eeprom)、掩模rom、闪存rom、闪存(例如nand闪存或nor闪存)、硬盘驱动器、或者固态驱动器(ssd)。

外部存储器1134还可包括闪速驱动器,例如,紧凑闪存(cf)驱动、安全数字(sd)存储卡、微sd(微-sd)、迷你sd(迷你-sd)、超级数字(xd)、多媒体卡(mmc)或记忆棒。外部存储器1134可以通过各种接口与电子设备1101操作地连接和/或物理地连接。

安全模块1136可以是包括其安全等级比存储器1130更高的存储空间的模块,并且可以是确保安全的数据存储和受保护的执行环境的电路。安全模块1136可以利用单独的电路来实现,并且可以包括单独的处理器。例如,安全模块1136可以在可拆卸的智能芯片或sd卡中,或可以包括嵌入在电子设备1101的固定芯片中的嵌入式安全元件(ese)。此外,安全模块1136可以基于与电子设备1101的os不同的os操作。例如,安全模块1136可以基于java卡开放平台(jcop)os来操作。

传感器模块1140可以测量物理量或可以检测电子设备1101的操作状态。传感器模块1140可以将测量到的或检测到的信息转换为电信号。例如,传感器模块1140可以包括以下至少一项:手势传感器1140a、陀螺仪传感器1140b、气压传感器1140c、磁传感器1140d、加速度传感器1140e、握持传感器1140f、接近传感器1140g、颜色传感器1140h(例如红、绿、蓝(rgb)传感器)、生物传感器1140i、温度/湿度传感器1140j、照度传感器1140k、或者uv传感器1140m。传感器模块1140还可以包括电子鼻传感器、肌电图(emg)传感器、脑电图(eeg)传感器、心电图(ecg)传感器、红外线(ir)传感器、虹膜传感器、和/或指纹传感器。传感器模块1140还可以包括用于控制其中包括的至少一个或多个传感器的控制电路。根据本公开的实施例,电子设备1101还可以包括作为处理器1110的一部分或独立于处理器1110并被配置为控制传感器模块1140的处理器。所述处理器可以在处理器1110保持睡眠状态期间控制传感器模块1140。

输入设备1150可以包括例如触摸面板1152、(数字)笔传感器1154、按键1156或超声输入设备1158。例如,触摸面板1152可以使用电容型、电阻型、红外型和超声型检测方法中的至少一个方法。此外,触摸面板1152还可以包括控制电路和触觉层,以便向用户提供触觉反应。

(数字)笔传感器1154可以是例如触摸面板的一部分或包括用于识别的附加片。按键1156可以包括例如物理按钮、光学键或键区。超声输入单元1158可以能够通过使用麦克风(例如,麦克风1188)来检测(或感测)超声波(该声波通过输入设备产生的),并可以检查与所检测到的超声信号相对应的数据。

显示器1160可以包括面板1162、全息设备1164或投影仪1166。面板262可以与图1所示的显示器160相同或相似。面板1162可以例如被实现为柔性的、透明的或可穿戴的。面板1162和触摸面板1152可以集成在单个模块中。全息设备1164可以使用光的干涉现象在空中显示立体图像。投影仪1166可以将光投射到屏幕上以显示图像。例如,屏幕可被布置在电子设备1101的内部或外部。根据本公开的实施例,显示器260还可以包括用于控制面板262、全息设备264和投影仪266的控制电路。

接口1170可以包括例如hdmi1172、usb1174、光学接口1176或d-超小型(d-sub)连接器1178。接口1170可以包括在例如图1中示出的通信接口170中。附加地或者一般地,接口1170可以包括例如移动高清链路(mhl)接口、sd卡/mmc接口或者红外数据协会(irda)标准接口。

音频模块1180可以双向转换声音和电信号。音频模块1680的至少一部分可以包括在例如图1所示的输入/输出接口150中。音频模块1180可以处理例如通过扬声器1182、听筒1184、耳机1186或麦克风1188输入或输出的声音信息。

例如,摄像机模块1191可以拍摄静态图像或视频。根据本公开的实施例,摄像机模块1191可以包括至少一个或多个图像传感器(例如,前置传感器或后置传感器)、镜头、图像信号处理器(isp)或闪光灯(例如,led或氙灯)。

电源管理模块1195可以管理例如电子设备1101的电力。根据本公开实施例,电源管理ic(pmic)、充电器ic、或电池量表可被包括在电源管理模块1195中。pmic可以具有有线充电方法和/或无线充电方法。无线充电方法可包括例如磁共振方法、磁感应方法或电磁方法,并还包括附加电路,例如,线圈环路、共振电路或整流器。电池表可以测量例如电池1196的剩余量以及电池充电过程中电池的电压、电流或温度。例如,电池1196可以包括可再充电电池和/或太阳能电池。

指示器1197可以显示电子设备1101或其一部分(例如,处理器1110)的具体状态,例如引导状态、消息状态和充电状态。电机1198可以将电信号转换为机械振动,并可以产生振动和触觉效果。电子设备1101可以包括用于支持移动tv的处理设备(例如,gpu)。用于支撑移动tv的处理设备可以根据数字多媒体广播(dmb)、数字视频广播(dvb)或mediaflotm等的标准来处理媒体数据。

电子设备的上述元件中的每一个可以配置有一个或多个组件,并且元件的名称可以根据电子设备的类型而改变。在本公开的各种实施例中,电子设备可以包括上述元件中的至少一个,并且可以省略一些元件或可以添加其它附加元件。此外,可以将电子设备的某些部件彼此组合,以便形成一个实体,使得仍执行与组合之前这些部件所执行的功能相同的功能。

图12示出了根据本公开实施例的程序模块的框图。

程序模块2010可以包括os以控制与电子设备1801相关联的资源和/或在os上驱动的多种应用147。os可以是例如androidtm、iostm、windowstm、symbiantm或tizentm

程序模块1210可以包括内核1220、中间件1230、api1260和/或应用1270。程序模块1210的至少一部分可以被预加载在电子设备上,或者可以从外部电子设备(例如,第一电子设备102、第二电子设备104或服务器106)下载。

内核1220可以包括例如系统资源管理器1221或设备驱动器1223。系统资源管理器1221可以执行系统资源的控制、分配或者获得。根据本公开的实施例,系统资源管理器1221可以包括进程管理单元、存储器管理单元或文件系统管理单元。设备驱动器1223可以包括例如显示器驱动器、摄像机驱动器、蓝牙驱动器、共享存储器驱动器、usb驱动器、键区驱动器、wi-fi驱动器、音频驱动器或进程间通信(ipc)驱动器。

中间件1230可以提供例如由应用1270通常所需的功能、或者可以通过api1260向应用1270提供多种功能,以便允许应用1270能够高效地使用电子设备的有限系统资源。根据本公开的实施例,中间件1230可以包括以下至少一项:运行时间库1235、应用管理器1241、窗口管理器1242、多媒体管理器1243、资源管理器1244、电源管理器1245、数据库管理器1246、分组管理器1247、连接管理器1248、通知管理器1249、位置管理器1250、图形管理器1251、安全管理器1252或支付管理器1254。

运行时间库1235可以包括由编译器使用以在运行应用1270的同时通过编程语言添加新的功能的库模块。运行库1235可执行输入和输出管理、存储器管理、或与算术功能相关的能力。

应用管理器1241可以管理应用1270中的至少一个应用的生命周期。窗口管理器1242可以管理在屏幕中使用的图形用户界面(gui)资源。多媒体管理器1243可以识别用于播放多种媒体文件所需的格式,并且可以通过使用适用于该格式的编解码器来对媒体文件执行编码或解码。资源管理器1244可以管理至少一个应用1270的资源(例如存储空间、存储器或源代码)。

电源管理器1245可以连同基本输入/输出系统(bios)一同操作,以便管理电池或电源,并且可以提供针对电子设备101的操作的电源信息。数据库管理器1246可以产生、搜索或修改要在至少一个应用1270中使用的数据库。数据包管理器1247可以安装或更新以数据包文件形式分发的应用。

连接性管理器1248可以管理无线连接,诸如wi-fi或蓝牙。通知管理器1249可以以不干扰用户的模式显示或通知事件,例如到达消息、预约或接近通知。位置管理器1250可以管理关于电子设备101的位置信息。图形管理器1251可以管理向用户提供的图形效果,或管理与图形效果相关的用户界面。安全管理器1252可以提供用于系统安全或用户认证所需的普通安全功能。根据本公开的实施例,在电子设备101包括电话功能的情况下,中间件1230还可以包括电话管理器,用于管理电子设备101的语音或视频呼叫功能。

中间件1230可以包括组合上述元件的各种功能的中间件模块。中间件1230可以提供根据每种类型的os而被专门化的模块,以便提供差异化的功能。此外,中间件1230可以动态地移除已有元件的一部分,或者可以向已有元件添加新的元件。

api1260可以是编程功能的集合,且可以根据os而具有不同配置。例如,在os是安卓tm或iostm的情况下,可以为每个平台提供一个api集合。在os是tizentm的情况下,可以为每个平台提供两个或更多个api集合。

应用1270可以包括能够提供如下功能的一个或多个应用:主页应用1271、拨号盘应用1272、sms/mms应用1273、即时消息应用(im)1274、浏览器应用1275、摄像机应用1276、闹钟应用1277、联系人应用1278、语音拨号应用1279、电子邮件应用1280、日历应用1281、媒体播放器应用1282、相册应用1283、时计应用1284或提供医疗保健信息(例如,测量移动量或测量血糖)或环境信息(例如,气压信息、湿度信息或温度信息)。

根据实施例,应用1270可以包括信息交换应用以支持电子设备和外部电子设备之间的信息交换。信息交换应用可以包括用于向外部电子设备发送特定信息的通知中继应用或者用于管理外部电子设备的设备管理应用。

例如,通知中继应用可以包括向外部电子设备发送从其它应用(例如,sms/mms应用、电子邮件应用、卫生保健应用或环境信息应用)处产生的通知信息的功能。附加地,信息交换应用可以从外部电子设备接收例如通知信息并将通知信息提供给用户。

设备管理应用可以管理(例如,安装、删除或更新)与该电子设备101通信的外部电子设备的至少一个功能(例如,外部电子设备(或一些元件)的开启/关闭、或调整显示器的亮度(或分辨率))、在外部电子设备中运行的应用、或从外部电子设备提供的服务(例如,呼叫服务或消息服务)。

根据本公开的实施例,应用1270可以包括根据外部电子设备的属性特定的应用(例如,移动医疗设备的健康护理应用)。应用1270可包括从外部电子设备接收的应用。应用1270可以包括预加载的应用或可以从服务器下载的第三方应用。程序模块1210的元件的名称可以根据os的类型而变化。

程序模块1210的至少一部分可以用软件、固件、硬件或者其组合的两个或更多个来实现。例如,可以由处理器1110实现(例如,执行)程序模块1210的至少一部分。程序模块1210的至少一部分可以包括例如用于执行一个或多个功能的模块、程序、例程、指令集或处理。

在本公开中使用的术语“模块”可以表示包括硬件、软件和固件的一个或多个组合在内的单元。术语“模块”可以与术语“单元”、“逻辑”、“逻辑块”、“组件”和“电路”互换使用。“模块”可以是集成组件的最小单元或者可以是其一部分。“模块”可以是用于执行一个或多个功能的最小单元或其一部分。可以用机械方式或电子方式来实现“模块”。例如,“模块”可以包括用于执行已知的或将来开发的一些操作的专用集成电路(asic)芯片、现场可编程门阵列(fpga)和可编程逻辑器件中的至少一种。

装置(例如,模块及其功能)或方法(例如操作)的至少一部分可以由以程序模块的形式存储在计算机可读存储介质中的指令来实现。指令在由处理器执行时,可以使一个或多个处理器执行与该指令相对应的功能。例如,计算机可读存储介质可以是图10的存储器1030。

计算机可读记录介质可以包括硬盘、软盘、磁介质(例如,磁带)、光学介质(例如,压缩光盘只读存储器(cd-rom)、数字通用盘(dvd))或磁光介质(例如,软光盘)、以及硬件设备(例如,rom、ram或闪存)。此外,程序指令不仅可以包括诸如由编译器产生的事物的机器代码,而且包括使用解释器在计算机上可执行的高级语言代码。上述硬件单元可以被配置为通过一个或多个软件模块进行操作,以执行操作,反之亦然。

模块或程序模块可以包括以下元件的至少一个,或者可以省略以上元件的一部分,或者还可以包括附加其他元件。由模块、编程模块或其他元件执行的操作可以顺序地、并行地、重复地或者按照启发式的方法执行。此外,一些操作可以以不同顺序执行,或者可以省略。备选地可以添加其它操作。

虽然已经参考某些实施例示出和描述了本公开,本领域技术人员可以理解,在不脱离本公开的精神和范围的情况下,可以在形式和细节上进行各种改变,其中不是通过详细描述和实施例而是由所附权利要求及其等同物来限定本公开的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1