比对语音操作信号以载入对应指令元素的系统及其方法

文档序号:2825526阅读:251来源:国知局
比对语音操作信号以载入对应指令元素的系统及其方法
【专利摘要】一种比对语音操作信号以载入对应指令元素的系统及其方法,其通过判断语音数据库中是否存在与所接收的语音操作信号相符的识别数据,当存在与语音操作信号相符的识别数据时,载入与相符的识别数据对应的指令元素的技术手段,可以复杂度低的句子取代复杂度高的句子,并达成提高辨识品质与保障隐私数据的技术效果。
【专利说明】比对语音操作信号以载入对应指令元素的系统及其方法
【技术领域】
[0001]本发明涉及一种语音输入系统及其方法,特别涉及一种比对语音操作信号以载入对应指令元素的系统及其方法。
【背景技术】
[0002]语音辨识技术,又称为自动语音辨识(Automatic Speech Recognition, ASR),其目标是将人类的语音中的词句转换为电脑可辨识的指令。语音辨识技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索等。
[0003]语音识别技术在还没成熟之前,辨识度不高,近来辨识度已逐渐提高到可以商品化的程度。不过,目前商品化的语音辨识技术中,具有较高辨识度的句子通常要有完整且严谨的语法结构,若使用者所说出的句子较为口语化,则辨识度会明显降低。另外,句型复杂度低的句子的辨识度也明显的较句型复杂度高的句子的辨识度高,也就是说,即使句子的语法结构完整且严谨,但句型过于复杂,辨识度仍然会明显降低,甚至,该句子完全无法被辨识。
[0004]另外,在使用者使用语音辨识技术时,使用者需要以一定的音量说出句子,因此,使用者所说出的句子容易被旁人所听到,若使用者所说出的句子中,包含使用者个人的隐私数据,例如使用者的帐号、密码、身分证号等,则使用者所说出的隐私数据就容易被旁人得知,这样,使用者必须要在使用语音辨识技术与保护隐私数据之间做出选择,这降低了使用语音辨识技术的方便性。
[0005]综上所述,可知现有技术中长期以来一直存在复杂度过高的句子不易被语音辨识技术成功辨识,且使用语音辨识技术可能不易保护隐私数据的问题,因此有必要提出改进的技术手段,来解决这一问题。

【发明内容】

[0006]有鉴于现有技术存在不易成功辨识复杂度过高的句子且不易保护隐私数据的问题,本发明遂揭露一种比对语音操作信号以载入对应指令元素的系统及其方法,其中:
[0007]本发明所揭露的比对语音操作信号以载入对应指令元素的系统,至少包含:语音数据库,包含识别数据及与识别数据对应的指令元素,其中,识别数据所表示的词句的复杂度低于指令元素所表示的词句的复杂度;语音接收模块,用以接收语音操作信号;语音判断模块,用以判断语音数据库中是否存在与语音操作信号相符的识别数据;物件载入模块,用以在语音判断模块判断与语音操作信号相符的识别数据存在时,载入与相符的识别数据对应的指令元素。
[0008]本发明所揭露的比对语音操作信号以载入对应指令元素的方法,其步骤至少包括:提供语音数据库,语音数据库包含识别数据及与识别数据对应的指令元素,其中,识别数据所表示的词句的复杂度低于指令元素所表示的词句的复杂度;接收语音操作信号;判断语音数据库中是否存在与语音操作信号相符的识别数据;当存在与语音操作信号相符的包含识别数据及与识别数据对应的指令元
2的指令元素
2的识别数据I音数据库的对应栏位中高的词句,这样,在电脑可执行装置接收到表示复杂度较低的词句的语音操作信号后,可以依照被取代的复杂度较高的词句的语音操作信号执行对应的指令,由此控制电脑可执行装置及/或控制电脑可执行装置中的应用程序。
[0036]在本发明中,词句的“复杂度”包含例如词句的长度、词句所包含的子句数目等,但本发明并不以此为限,凡能够影响语音识别技术且与词句的结构相关的因素都属于本发明所述的“复杂度”。
[0037]本发明所述的“语音操作信号”为使用者所发出的声音被电脑可执行装置接收后所产生的操作信号,电脑可执行装置会依据所产生的操作信号执行相对应的操作,其中,电脑可执行装置所执行的操作与使用者使用电脑可执行装置时,电脑可执行装置所执行的操作相同,例如,当使用者发出“开启浏览器”或“关闭浏览器”的声音时,电脑可执行装置可以执行开启或关闭浏览器的操作,又如,当使用者发出“打电话给爸爸”的声音时,电脑可执行装置可以执行读取名称为“爸爸”的电话号码,并拨打所读取的电话号码的操作等,但本发明所述的电脑可执行装置所执行的操作并不以上述为限。
[0038]以下先以图1本发明所述的比对语音操作信号以载入对应指令元素的系统架构图来说明本发明的系统运作。如图1所示,本发明的系统含有语音数据库110、语音接收模块130、语音判断模块160、物件载入模块170。
[0039]语音数据库110储存识别数据。语音数据库110所储存的识别数据可以是词句的完整语音信号、词句的语音特征、或词句的声纹等类型。一般而言,在同一个语音数据库110中,被储存的识别数据的类型都会相同,但本发明并不以此为限。
[0040]语音数据库110也负责储存与识别数据对应的指令元素。语音数据库110所储存的指令元素可以是一个可以直接执行的完整的指令、一个或多个完整的指令的组合、或是一个有意义或无意义的字串。指令元素也可以是一个完整的指令的一部分,例如,当一个完整的指令是由操作命令以及操作目标等两个部分组成、由操作主体与操作命令两部分组成、或是由操作主体、操作命令、以及操作目标等三个部分组成时,指令元素可以是操作主体、操作命令、或操作目标其中之一。其中,操作主体则通常是软件或应用程序的名称,操作命令包含但不限于执行、上传、下载、开启、关闭、拨打电话等可以对执行本发明的装置下达的命令,操作目标包含但不限于文档名称、文档路径、联络人资料等数据。
[0041]在部分的实施例中,语音数据库110所储存的识别数据所表示的词句的复杂度会低于语音数据库110所储存的指令元素所表示的词句的复杂度,例如,指令元素所表示的词句是“今天的天气如何”时,相对应的识别数据所表示的词句可以是“I”、或是“天气”等。
[0042]语音数据库110所储存的识别数据与相对应的指令元素并不一定只能是预设的内容,而是可以被修改的。当本发明包含可附加的物件输入模块120以及数据库管理模块140时,可以提供新增删除语音数据库110所储存的识别数据与相对应的指令元素。其中,物件输入模块120与数据库管理模块140将在稍后说明。
[0043]语音接收模块130负责接收语音信号,其中,除了在编辑语音数据库110的情况下,语音接收模块130所接收到的语音信号在本发明中被称为“语音操作信号”。而在编辑语音数据库110时,语音接收模块130所接收到的语音信号在本发明中被称为“语音设定信号”。
[0044]语音接收模块130所接收到的语音信号是麦克风等语音接收装置将所接收到的由使用者发出的声音转换而成,但语音接收模块130所接收到的语音信号并不以上述为限。
[0045]语音判断模块160负责判断语音数据库110中是否存在与语音接收模块130所接收的语音操作信号相符的识别数据。
[0046]当语音数据库110中所储存的识别数据的类型是词句的完整语音信号时,语音判断模块160可以直接比对所接收到的语音操作信号与语音数据库110中所储存的识别数据,当语音接收模块130所接收的语音操作信号与语音数据库110所储存的识别数据相同或相似时,语音判断模块160可以判断语音数据库110中存在与语音接收模块130所接收的语音操作信号相符的识别数据。
[0047]而当语音数据库110中所储存的识别数据的类型是词句的语音特征或词句的声纹时,语音判断模块160需要先分析语音操作信号的语音特征/声纹,而后再比对分析所得的语音特征/声纹与语音数据库HO中的所有识别数据,当分析所得的语音特征/声纹与语音数据库110中的识别数据相同时,语音判断模块160可以判断语音数据库110中存在与语音操作信号相符的识别数据。
[0048]物件载入模块170负责在语音判断模块160判断语音数据库110中存在与语音接收模块130所接收的语音操作信号相符的识别数据时,载入与相符的识别数据对应的指令元素。其中,与相符的识别数据对应的指令元素为完整的指令时,物件载入模块170将会执行指令,与相符的识别数据对应的指令元素为指令的部分时,物件载入模块170将会尝试使用多个连续的指令元素组合出完整的指令,并在组合出完整的指令后,执行该指令。
[0049]例如,连续的两个指令元素分别为拨打电话的命令与受话方电话的字串时,物件载入模块170不会在取得拨打电话的命令后立刻执行拨打电话的命令。而是在取得受话方的电话后,组合出完整的指令,并执行所组合出的完整的指令,也就是拨打受话方电话。
[0050]此外,本发明还可以选择性的加入物件输入模块120与数据库管理模块140,及/或加入数据加密模块192与数据解密模块196。
[0051]物件输入模块120负责提供输入与语音接收模块130所接收的语音设定信号对应的指令元素。
[0052]数据库管理模块140负责将语音接收模块130所接收的语音设定信号与物件输入模块120提供输入的指令元素储存在语音数据库110的对应栏位中,使得语音接收模块130所接收的语音设定信号以及物件输入模块120提供输入的指令元素成为语音数据库110中的同一笔数据。其中,当语音数据库110的识别数据的类型是语音信号的语音特征或声纹时,数据库管理模块140还可以分析语音信号的语音特征或声纹,并将分析出的语音特征或声纹作为识别数据,存入语音数据库110中。
[0053]数据加密模块192负责在数据库管理模块140存入语音数据库110中的指令元素为文字时,加密指令元素。其中,数据加密模块192可以不加密所有的文字,而是依据设定,加密需要特别隐藏的文字,例如,个人基本资料、帐号密码等,但本发明并不以此为限。
[0054]数据解密模块196负责将物件载入模块170所载入的经过加密的指令元素解密。
[0055]接着以一个实施例来解说本发明的运作系统与方法,并请参照图2A本发明所述的比对语音操作信号以载入对应指令元素的方法流程图。在本实施例中,假设使用者希望以语音操作的方式浏览需要登入的网页,但本发明并不以此为限。[0056]在本发明提供服务之前,必须先提供语音数据库110 (步骤21(0。使得本发明可以提供使用者使用。在本实施例中,假设语音数据库110储存与“浏览器”、“开启”、“!^矶,、
等词句相符的识别数据,且语音数据库110中也储存与“浏览器”、“开启”、“脑的”、“1^4”等词句相符的识别数据对应的指令元素,分别是应用程序的名称、载入特定网页的命令、特定网页的网址的字串、以及控制浏览器回到上一页的命令。
[0057]当使用者发出“浏览器开启的语音时,语音接收模块130可以接收到表示“浏览器开启砠矶,的语音的语音操作信号(步骤23(0。
[0058]之后,语音判断模块160可以判断语音数据库110中是否存在与语音接收模块130所接收的语音操作信号相符的识别数据(步骤25(0。在本实施例中,假设语音数据库110中的识别数据的类型为语音信号的语音特征,则语音判断模块160可以如图2(:的流程所示,先分析语音操作信号“浏览器开启的语音特征(步骤250。
[0059]接着,语音判断模块160可以比对所分析出的语音特征与语音数据库110中的所有识别数据(步骤253),并判断所分析出的语音特征是否与语音数据库110中的识别数据相同或相似(步骤255〉。在本实施例中,由于语音数据库110中存在与“浏览器”、“开启”、“!等词句的语音特征相符的识别数据,因此,语音判断模块160可以判断分析出的语音特征确实与语音数据库110中的识别数据相同或相似。
[0060]当语音判断模块160判断分析出的语音特征与语音数据库110中的识别数据相同或相似时,表示语音数据库110中存在与语音接收模块130所接收的语音操作信号相符的识别数据。
[0061]接着回到图2八,在语音数据库110中存在与语音接收模块130所接收的语音操作信号相符的识别数据时,物件载入模块170可以载入与相符的识别数据对应的指令元素(步骤27(0。在本实施例中,由于语音数据库110中存在与“浏览器”、“开启”、“1^1^”等词句相符的识别数据,因此,物件载入模块170可以分别取得执行浏览器的命令、载入特定网页的命令、以及使用者欲浏览的网页的网址,之后,物件载入模块170可以判断载入特定网页的命令与使用者欲浏览的网页的网址都不是完整的指令,因此,会尝试将执行浏览器的命令、载入特定网页的命令及使用者欲浏览的网页的网址与执行浏览器的命令结合,这样,物件载入模块170便可以产生控制浏览器载入使用者欲浏览的网页的完整指令,并使执行本发明的装置可以依据物件载入模块170所产生的指令,执行浏览器,并控制浏览器载入使用者欲浏览的网页,使得使用者可以在执行本发明的装置上使用浏览器浏览其欲浏览的网页。
[0062]在使用者使用浏览器浏览网页的过程中,若使用者发出“1^4”的语音,使得语音接收模块130接收到表示“1^4”的语音的语`音操作信号(步骤230)后,语音判断模块160可以判断语音数据库110中是否存在与语音接收模块130所接收的语音操作信号相符的识别数据(步骤25(0。
[0063]当语音判断模块160判断语音数据库110中存在与语音接收模块130所接收的语音操作信号相符的识别数据时,物件载入模块170可以载入与相符的识别数据对应的指令元素(步骤27(0。在本实施例中,物件载入模块170可以取得控制浏览器回到前一页的指令,使得执行本发明的装置可以依据物件载入模块170所取得的指令,控制浏览器回到前一页。[0064]在上述的实施例中,若语音数据库110中的识别数据与指令元素并不足以提供使用者浏览其欲浏览的网页,也就是说,语音数据库110中并未储存与“浏览器”、“开启”、“mana”、或“back”等词句相符的识别数据,或未储存与“浏览器”、“开启”、“mana”、或“back”等词句相符的识别数据对应的指令元素,则本发明可以如图2B的流程所示,提供使用者输入与语音设定信号对应的指令元素(步骤211),并可以提供使用者输入语音设定信号,也就是接收使用者所说出的词句的语音设定信号(步骤213)。在本实施例中,也就是提供选择浏览器程序并说出词句“浏览器”、提供选择浏览器载入特定网页的命令并说出词句“开启”、提供输入欲浏览的特定网页的网址并说出词句“mana”、提供选择浏览器回到上一页的命令并说出词句“back”。
[0065]之后,数据库管理模块140可以依据语音设定信号产生相对应的识别数据(步骤215)。在本实施例中,也就是分析语音设定信号的语音特征,所分析出的语音特征即为识别数据。
[0066]接着,数据库管理模块140可以将识别数据与指令元素储存到语音数据库110的对应栏位中(步骤217)。这样,便完成了识别数据与相对应的指令元素的建立,也就是与词句“浏览器”相符的识别数据与指令元素(浏览器应用程序的文档名称与目录)对应、与词句“浏览器”相符的识别数据与指令元素(载入特定网页的命令)对应、与词句“mana”相符的识别数据与指令元素(网页的网址)对应、与词句“back”相符的识别数据与指令元素(控制浏览器回到上一页的指令)对应。
[0067]在上述的实施例中,若还包含数据加密模块192以及数据解密模块196,则在数据库管理模块140将识别数据与指令元素储存到语音数据库110的对应栏位中(步骤217)时,数据加密模块192可以将需要隐藏的数据,也就是使用者的帐号密码加密,而后才由数据库管理模块140将加密后的数据存入语音数据库110中。而在物件载入模块170载入使用者的帐号密码(步骤270)时,数据解密模块196会将使用者的帐号密码解密。
[0068]另外,上述的实施例还可以在语音判断模块160判断语音操作信号与产生识别数据的语音设定信号是由相同的使用者发出,且语音操作信号与识别数据相符时,物件载入模块170才会载入与识别数据对应的指令元素(步骤270)。更实际的说,语音判断模块160在判断语音数据库中是否存在与语音操作信号相符的识别数据(步骤250)时,可以先分析语音操作信号的语音特征与声纹,并在判断出语音特征与语音数据库HO中的识别数据相符时,可以进一步判断相符的识别数据的声纹是否与语音操作信号的声纹相符,若声纹也相符,则物件载入模块170才会载入与识别数据对应的指令元素(步骤270)。
[0069]综上所述,可知本发明与现有技术之间的差异在于具有判断语音数据库中是否存在与所接收的语音操作信号相符的识别数据,当存在与语音操作信号相符的识别数据时,载入与相符的识别数据对应的指令元素的技术手段,通过这一技术手段可以解决现有技术所存在不易成功辨识复杂度过高的句子且不易保护隐私数据的问题,进而达成提高辨识品质与保障隐私数据的技术效果。
[0070]再者,本发明的比对语音操作信号以载入对应指令元素的方法,可实现于硬件、软件或硬件与软件的组合中,亦可在电脑系统中以集中方式实现或以不同元件散布于若干互连的电脑系统的分散方式实现。
[0071]虽然本发明所揭露的实施方式如上,然而所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属【技术领域】人员,在不脱离本发明所揭露的精神和范围的前提下,对本发明的实施的形式上及细节上作一些更动润饰,均属于本发明的专利保护范围。本发明的专利保护范围,仍须以权利要求书所限定的内容为准。
【权利要求】
1.一种比对语音操作信号以载入对应指令元素的方法,其特征在于,该方法至少包含下列步骤: 提供语音数据库,该语音数据库包含至少一个识别数据及与所述各识别数据对应的指令元素,其中,该识别数据所表示的词句的复杂度低于该指令元素所表示的词句的复杂度; 接收语音操作信号; 判断该语音数据库中是否存在与该语音操作信号相符的识别数据;及 当存在与该语音操作信号相符的识别数据时,载入与该相符的识别数据对应的指令元素。
2.如权利要求1所述的比对语音操作信号以载入对应指令元素的方法,其特征在于,该方法在提供该语音数据库的步骤前,还包含接收语音设定信号,提供输入与该语音设定信号对应的指令元素,依据该语音设定信号产生相对应的识别数据,储存该识别数据与该指令元素在该语音数据库的对应栏位中的步骤。
3.如权利要求1所述的比对语音操作信号以载入对应指令元素的方法,其特征在于,判断该语音数据库中是否存在与该语音操作信号相符的识别数据的步骤还包含分析该语音操作信号的语音特征/声纹,依据该语音特征/该声纹比对该语音数据库中的所有识别数据,当该语音特征/该声纹与该语音数据库中的识别数据相同时,判断该语音数据库中存在与该语音操作信号相符的识别数据的步骤。
4.如权利要求1所述的比对语音操作信号以载入对应指令元素的方法,其特征在于,载入与相符的识别数据对应的指令元素的步骤还包含解密该被载入的指令元素的步骤。
5.一种比对语音操作信号以载入对应指令元素的系统,其特征在于,该系统至少包含: 语音数据库,包含至少一个识别数据及与所述各识别数据对应的指令元素,其中,该识别数据所表示的词句的复杂度低于该指令元素所表示的词句的复杂度; 语音接收模块,用以接收语音操作信号; 语音判断模块,用以判断该语音数据库中是否存在与该语音操作信号相符的识别数据;及 物件载入模块,用以在该语音判断模块判断与该语音操作信号相符的识别数据存在时,载入与该相符的识别数据对应的指令元素。
6.如权利要求5所述的比对语音操作信号以载入对应指令元素的系统,其特征在于,该系统还包含: 物件输入模块,用以提供输入与该语音设定信号对应的指令元素;及数据库管理模块,用以将该语音接收模块所接收的语音设定信号与该物件输入模块提供输入的指令元素储存于该语音数据库的对应栏位。
7.如权利要求5所述的比对语音操作信号以载入对应指令元素的系统,其特征在于,该语音判断模块是分析该语音操作信号的语音特征/声纹,依据该语音特征/该声纹比对该语音数据库中的所有识别数据,当该语音特征/该声纹与该语音数据库中的识别数据相同时,判断该语音数据库中存在与该语音操作信号相符的识别数据。
8.如权利要求5所述的比对语音操作信号以载入对应指令元素的系统,其特征在于,该系统还包含: 数据加密模块,用以加密该语音数据库中的指令元素 '及 数据解密模块,用以解密该物件载入模块所载入的指令元素。
9.如权利要求5所述的比对语音操作信号以载入对应指令元素的系统,其特征在于,该词句的复杂度包含词句的长度及/或词句所包含的子句数目。
10.如权利要求5所述的比对语音操作信号以载入对应指令元素的系统,其特征在于,该指令元素为一个完整的指令、多个完整的指令的组合、一字串、或一完整的指令的一部分,其中,该完整 的指令是由一个指令元素或多个指令元素组成。
【文档编号】G10L15/02GK103839547SQ201210492426
【公开日】2014年6月4日 申请日期:2012年11月27日 优先权日:2012年11月27日
【发明者】李扬 申请人:英业达科技有限公司, 英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1