检测语音输入模式的方法与流程

文档序号：17727365发布日期：2019-05-22 02:36阅读：427来源：国知局

本发明关于一种检测语音输入模式的方法，特别是一种根据使用者的操作习惯而检测语音输入模式的方法。

背景技术：

一般的通讯软件，ai软件或翻译软件大都具有语音输入功能，其可以让用户直接念出文字，以输入语音数据至手机里，因此使用者不再需要花费大量时间点击手机键盘输入文字。

通讯软件或翻译软件为了配合语音输入功能，通常会在软件界面上提供长按式的语音操作键。长按式的语音操作键用以供用户长按，并且当用户按住该语音操作键的期间，使用者也可以对手机说话，如此一来手机便会录下按住按钮的期间所接收到的语音，并将录下的语音配合通讯软件，ai软件或翻译软件而执行云端语音上传或转换为文字等功能。另外，有的软件也会在软件界面上提供短按式的语音操作键。短按式的语音操作键用以供用户短暂得点击，以使软件激活录音功能，以录下用户的语音；当用户录完语音之后，用户可以再次点击短按式的语音操作键，或是软件自动判断以关闭录音功能，并且通讯软件或翻译软件会把录完的语音执行云端上传或转换为文字等功能。

然而，使用者们通常只会习惯使用长按式或短按式的其中一种操作模式。因此，用户在运用不同软件时，常常需要舍弃自身的使用习惯，而勉强自己去使用不同软件所提供的不同操作模式。

因此，有必要提供一种根据使用者的操作习惯，而检测和调整语音输入模式的方法。

技术实现要素：

本发明的主要目的系在提供一种根据使用者的操作习惯而检测语音输入模式的方法。

为达成上述的目的，本发明的一种检测语音输入模式的方法用于一电子装置，电子装置包括一麦克风和一启动按键。麦克风用以接收一语音的输入，启动按键用以供一用户按住以启动一语音输入模式而输入语音，其中依照用户按住启动按键的行为差异，而判断语音输入模式为一短按模式或一长按模式。检测语音输入模式的方法包括：检测启动按键的一按住时间是否小于一按住门槛时间，其中按住门槛时间为0.001秒至1.5秒之间；若是，则判断语音输入模式为短按模式；若否，则检测按住时间之内，麦克风接收的语音的一语音发声时间是否大于一语音发声门槛时间，其中语音发声门槛时间为0秒至1.5秒之间；若是，则判断语音输入模式为长按模式；若否，则判断语音输入模式为短按模式。

根据本发明之一实施例，其中按住门槛时间为0.001秒至0.8秒之间。

根据本发明之一实施例，其中语音发声门槛时间为0.2秒至0.9秒之间。

根据本发明之一实施例，其中检测语音发声时间是用户按下启动按键即开始。

根据本发明之一实施例，其中电子装置为一手机、一计算机或一平板计算机。

根据本发明之一实施例，其中电子装置更包括一喇叭，喇叭用以发出一提示音；检测语音发声时间的开始时间点在是喇叭播放该提示音之后。

根据本发明之一实施例，其中电子装置更包括一耳机，耳机用以发出一提示音；检测语音发声时间的一起始时间点在是耳机播放提示音之后。

根据本发明之一实施例，其中当语音输入模式为长按模式时，用户输入语音之一结束时间点为用户放开启动按键的时间点；其中当语音输入模式为短按模式时，用户输入语音之一结束时间点并非用户放开启动按键的时间点。

附图说明

图1为本发明的第一实施例的电子装置的系统架构图。

图2为本发明的第一实施例的检测语音输入模式的方法的步骤流程图。

图3为本发明的第一实施例的电子装置的示意图。

图4为本发明的第二实施例的电子装置的系统架构图。

图5为本发明的第二实施例的配合耳机使用检测语音输入模式的方法的步骤流程图。

图6为本发明的第二实施例的电子装置的示意图。

其中附图标记为：

101：检测启动按键的一按住时间是否小于一按住门槛时间，其中按住门槛时间为0.001秒至1.5秒之间

102：判断语音输入模式为短按模式

103：检测按住时间之内，麦克风接收的语音的一语音发声时间是否大于一语音发声门槛时间，其中语音发声门槛时间为0秒至1.5秒之间

104：判断语音输入模式为长按模式

电子装置10、10a

麦克风11、181

启动按键12、12a、182

喇叭13

触控屏幕14

处理器15

储存件16

通讯界面17

耳机18

具体实施方式

为能让贵审查委员能更了解本发明的技术内容，特举较佳具体实施例说明如下。

以下请一并参考图1至图3关于本发明的第一实施例的检测语音输入模式的方法。图1为本发明的第一实施例的电子装置的系统架构图；图2为本发明的第一实施例的检测语音输入模式的方法的步骤流程图；图3为本发明的第一实施例的电子装置的示意图。

如图1至图3所示，在第一实施例之中，检测语音输入模式的方法是被编程为一计算机程序，并应用于一电子装置10。检测语音输入模式的方法可以根据用户的操作习惯，而自动检测用户运用的语音输入模式是长按模式或短按模式。电子装置10例如为一手机，但其也可以是一计算机或一平板计算机。电子装置10包括一麦克风11、一启动按键12、一喇叭13、一触控屏幕14、一处理器15和一储存件16。

在本发明的第一实施例之中，麦克风11用以接收用户的语音。触控屏幕14用以显示数据以供用户观看和操作。处理器15为一中央处理器(centralprocessingunit，cpu)，其电性连接麦克风11、启动按键12、喇叭13、触控屏幕14、储存件16，以控制该些组件运作。储存件16为一内存，其用以储存检测语音输入模式的方法所编程的计算机程序。

启动按键12为一实体按钮，其可用以供使用者按住以启动一语音输入模式而输入语音，其中依照用户按住启动按键12的行为差异，会使语音输入模式呈现为一短按模式或一长按模式。若是用户长时间按住启动按键12，则语音输入模式为长按模式。在长按模式时，用户输入语音的一开始时间点是用户按下启动按键12的时间点；用户输入语音的一结束时间点为用户放开启动按键12的时间点。若是用户短暂得点击启动按键12，则语音输入模式为短按模式。在短按模式时，用户输入语音的一开始时间点是用户点击启动按键12的时间点；用户输入语音的一结束时间点并非用户放开启动按键12的时间点，用户输入语音的一结束时间点可以是使用者再次点击启动按键12的时间点，或是用户短时间输入语音之后停止输入语音的时间点。然而，启动按键12并不以实体按钮为限，例如，触控屏幕14也可以形成一虚拟形式的启动按键12a(一般智能型手机会以虚拟形式的启动按键12a为主)，以供用户按住以启动语音输入模式而输入语音。

本发明的检测语音输入模式的方法所编程而成的计算机程序可以设计为，当使用者执行任何需要输入语音的程序(例如翻译软件，通讯软件，人工智能问答软件，搜寻软件等等)时，检测语音输入模式的方法的计算机程序就会在电子装置10上自动启动；或者检测语音输入模式的方法的计算机程序也可以设计为内建于需要输入语音的程序之内。在本发明之中，系以检测语音输入模式的方法的计算机程序内建于一翻译软件为例，如图3所示，当用户开启翻译软件时，翻译软件会配合检测语音输入模式的方法而于触控屏幕14上提供一虚拟形式的启动按键12a，并且显示「按下启动按键以输入语音」之讯息以告知用户可以开始输入语音。接着，使用者可以依照自己习惯，使用长按的持续按住或短按的点击方式来按下实体的启动按键12或是虚拟形式的启动按键12a，而检测语音输入模式的方法便会根据用户按下按键的操作行为以及稍后输入语音的行为，来检测用户欲透过长按模式或短按模式而进行语音输入。首先，当用户按下实体的启动按键12或是虚拟形式的启动按键12a后，检测语音输入模式的方法便会执行步骤101：检测启动按键的一按住时间是否小于一按住门槛时间，其中按住门槛时间为0.001秒至1.5秒之间。

当用户按下启动按键12、12a中的任一者后，实体的启动按键12或是虚拟形式的启动按键12a会将用户按下启动按键12、12a的时间点传输给处理器15，并也将用户放开启动按键12、12a的时间点传输给处理器15。处理器15会计算按下按键的时间点与放开按键的时间点之间的时间差，且该时间差即为启动按键12、12a的一按住时间p1。处理器15也会检测按住时间p1是否小于一按住门槛时间pt1；本发明的按住门槛时间pt1为0.001秒至1.5秒之间，较佳可设计为0.001秒至0.8秒之间。经由发明人实际观察和统计使用者的操作行为，一般使用者在进行短按的点击操作时，手指平均会碰触按纽约0.6秒，且最长时间的点击操作也不会超过1.5秒，故发明人将按住门槛时间pt1设计为0.001秒至1.5秒之间。

若是处理器15检测按住时间p1小于一按住门槛时间pt1，则进行步骤102：判断语音输入模式为短按模式。

在第一实施例中，若是用户点击启动按键12，并且仅碰触了0.6秒便放开启动按键12，则处理器15会计算出启动按键12的按住时间p1为0.6秒，其小于按住门槛时间pt1的1.5秒；因此处理器15会判断使用者此刻欲使用的语音输入模式为短按模式，故处理器15会实时调整翻译软件和启动按键12、12a，让翻译软件激活录音功能，录下用户要输入的语音，并且让启动按键12、12a随时准备接受使用者的再次点击，以停止录音；或者处理器15也可以调整翻译软件和启动按键12、12a，让翻译软件激活录音功能，录下用户要输入的语音，并且在麦克风11收不到用户的语音时(也就是用户不再出声时)，即停止录音。

若是处理器15检测按住时间p1不小于一按住门槛时间pt1，则进行步骤103：检测按住时间之内，麦克风接收的语音的一语音发声时间v1是否大于一语音发声门槛时间vt1，其中语音发声门槛时间vt1为0秒至1.5秒之间。

经由发明人实际观察和统计使用者的操作行为，一般用户在进行长按模式来输入语音时，会一边按住启动按键12一边输入语音，且用户输入语音的时间通常会在1.5秒以上。因此，为了判断使用者是否确定要使用长按模式来输入语音，处理器15会启动麦克风11来接收用户按住启动按键12的按住时间p1内所输入的语音。麦克风11会将按住时间p1内接收到的语音传输给处理器15，处理器15会计算麦克风11接收的语音的一语音发声时间v1的时间长短；处理器15也会检测语音发声时间v1是否大于一语音发声门槛时间vt1。语音发声门槛时间vt1为0秒至1.5秒之间，较佳为0.2秒至0.9秒之间。另外，需注意的是，第一实施例的检测语音发声时间v1的起始点是设计为按住时间p1内开始接收到语音的时间点，但是检测语音发声时间v1也可以设计为用户一按下启动按键12即开始。

若是处理器15检测在按住时间p1之内，麦克风11接收的语音的语音发声时间v1大于一语音发声门槛时间vt1，则可以确认用户欲使用的语音输入模式的确为长按模式。因此会继续进行步骤104：判断语音输入模式为长按模式。

在第一实施例中，若是处理器15判断语音发声时间v1大于一语音发声门槛时间vt1，则处理器15会判断使用者此刻欲使用的语音输入模式为长按模式。故处理器15会实时调整翻译软件和启动按键12、12a，让录音功能录下用户在按住启动按键12、12a的按住时间p1所输入的语音，并且让启动按键12、12a准备在用户放开启动按键12、12a时停止录音。

回到步骤103之后，若是处理器15检测在按住时间p1之内，麦克风11接收的语音的语音发声时间v1不大于一语音发声门槛时间vt1，则可以确认用户欲使用的语音输入模式并非长按模式；例如，有些老人家较不擅长操作电子装置10，老人家在长按住启动按键12后，仅会对麦克风11输出短暂的语音，故会出现按住时间p1超过按住门槛pt1，但是语音发声时间v1不大于语音发声门槛时间vt1的情境。因此若是出现此种情境，本发明会接续到步骤102：判断语音输入模式为短按模式。

若是处理器15判断麦克风11接收用户的语音的语音发声时间v1不大于一语音发声门槛时间vt1的1.5秒(例如语音发声时间v1只有0.5秒)，则处理器15会判断使用者此刻欲使用的语音输入模式为短按模式，故处理器15会实时调整翻译软件和启动按键12、12a，让翻译软件激活录音功能，录下用户要输入的语音，并且让启动按键12、12a随时准备接受使用者的再次点击，以停止录音；或者处理器15也可以调整翻译软件和启动按键12、12a，让翻译软件激活录音功能，录下用户要输入的语音，并且在麦克风11收不到用户的语音时(也就是用户不再出声时)，即停止录音。

以下请一并参考图4至图6关于本发明的第二实施例的检测语音输入模式的方法。图4为本发明的第二实施例的电子装置的系统架构图；图5为本发明的第二实施例的配合耳机使用检测语音输入模式的方法的步骤流程图；图6为本发明的第二实施例的电子装置的示意图。

如图4至图6所示，在第二实施例之中，电子装置更包括一通讯界面17和一耳机18。通讯界面17和耳机18皆电性连接处理器15。第二实施例的通讯界面17例如为一无线模块，其可藉由无线传输功能而与其他组件电性连接。耳机18例如为一有线式的多功能耳机，其可放出声音，并具有一麦克风181、一启动按键182和一喇叭183。麦克风181用以接收语音，且麦克风181接收到的语音可以传输给处理器15。启动按键182用以接收用户的按压操作，且启动按键182接收的按压操作所产生的讯号可以传输给处理器15。喇叭13、183用以发出一提示音，以提示用户可以开始输入语音。第二实施例的耳机18插在电子装置10a的耳机孔(图未示)上，因此耳机18及其麦克风181、启动按键182和喇叭183也透过耳机孔而电性连接至处理器15，故耳机18的该些组件也可以配合本发明的检测语音输入模式的方法一起使用。然而，耳机18并不限于有线式的耳机，其亦可为无线耳机，并且无线耳机可以电性连接至通讯界面17而与处理器15互相沟通。

在第二实施例中，若是使用者要运用耳机18而一起使用电子装置10a的翻译软件时，用户可以先开启翻译软件，并依照自己习惯，使用长按的持续按住或短按的点击方式来按下启动按键182。此时，耳机会执行步骤301：接收按压讯号并传送按压讯号。

当用户按下启动按键182时，启动按键182会接收到用户按下启动按键182所产生的按压讯号。启动按键182会把接收到的按压讯号，藉由耳机孔而传送给处理器15。

接着，处理器15会执行步骤201：接收按压讯号，并记录接收到按压讯号的时间点。

处理器15接收到启动按键182的按压讯号后，处理器15会记录接收到按压讯号的时间点。

接着，若是用户放开启动按键182，则耳机会执行步骤302：接收放开讯号并传送放开讯号。

当用户放开启动按键182时，启动按键182会接收到用户放开启动按键182所产生的放开讯号。启动按键182会把接收到的放开讯号，藉由耳机孔而传送给处理器15。

接着，处理器15会执行步骤202：接收放开讯号，并记录接收到放开讯号的时间点。

处理器15接收到启动按键182的放开讯号后，处理器15会记录接收到放开讯号的时间点。

接着，处理器15会执行步骤203：计算接收到放开讯号的时间点和接收到按压讯号的时间点之间的差异时间，将该差异时间视为启动按键的一按住时间。

处理器15会计算收到启动按键182的放开讯号的时间点和接收到启动按键182的按压讯号的时间点之间的差异时间，并将该差异时间视为启动按键182的按住时间p1。

接着，处理器15会执行步骤204：检测启动按键的按住时间是否小于一按住门槛时间，其中按住门槛时间为0.001秒至1.5秒之间。

处理器15会检测按住时间p1是否小于一按住门槛时间pt1的0.001秒至1.5秒之间。若是处理器15检测按住时间p1小于一按住门槛时间pt1，则进行步骤205：判断语音输入模式为短按模式。由于步骤204、205相当于第一实施例的步骤101、102，故在此不对步骤204、205多做赘述。另外，由于第二实施例的耳机18插在电子装置10a的耳机孔上，因此在进行步骤205之中，在处理器15判断使用者此刻欲使用的语音输入模式为短按模式之后，处理器15也可以传送一提示音播放讯号给耳机18，使得耳机18接收提示音播放讯号并对用户播放一提示音，以提示使用者可开始录音。

在步骤204之后，若是处理器15检测按住时间p1不小于一按住门槛时间pt1，则进行步骤206：若否，则传送一提示音播放讯号。

若是处理器15检测按住时间p1不小于一按住门槛时间pt1，则处理器15传送一提示音播放讯号给耳机18。然而，处理器15也可以设计为传送提示音播放讯号给喇叭13。

接着，耳机18会进行步骤303：接收提示音播放讯号，并播放提示音。

耳机18会接收提示音播放讯号并对用户播放一提示音，以提示使用者可开始录音。当使用者从耳机18听到提示音之后，就可以对麦克风181说话以进行录音。然而，若是处理器15是设计为传送提示音播放讯号给喇叭13，则会是喇叭13接受提示音播放讯号并播放提示音。

当用户对麦克风181说话以进行录音后，耳机18会进行步骤304：接收语音，并传送语音。

耳机18之麦克风181会接收用户输入的语音，并将该语音传送给处理器15。

接着，处理器会进行步骤207：接收语音，并记录接收到语音的时间点。

处理器15会接收耳机18传来的语音，并记录接收到语音的时间点，且处理器15记录接收到语音的时间点会被视为是检测语音发声时间v1的一起始时间点。

当用户停止对麦克风181输入语音后，耳机会执行步骤305：停止接收语音，并传送语音停止讯号。

用户停止对麦克风181输入语音后，耳麦克风181就不会接收到语音，此时，耳机18的麦克风181会停止接收语音，并传送一语音停止讯号给处理器15。

接着，处理器15会执行步骤208：接收语音停止讯号，并记录收到语音停止讯号的时间点。

处理器15会接收耳机18传来的语音停止讯号，并记录接收到语音停止讯号的时间点，且处理器15记录接收到语音停止讯号的时间点会被视为是检测语音发声时间v1的一结束时间点。

接着，处理器15会执行步骤209：计算接收到语音的时间点和接收到语音停止讯号的时间点之间的差异时间，将该差异时间视为麦克风接收的语音的语音发声时间。

处理器15会计算收到语音的时间点和接收到语音停止讯号的时间点之间的差异时间，并将该差异时间视为麦克风181接收的语音的语音发声时间v1。

接着，处理器15会进行步骤210：检测按住时间之内，麦克风接收的语音的一语音发声时间是否大于一语音发声门槛时间，其中语音发声门槛时间为0秒至1.5秒之间。并藉由步骤210的结果而选择进行步骤211：若是，判断语音输入模式为长按模式；或是进行步骤212：若否，判断语音输入模式为短按模式。由于步骤210相当于第一实施例的步骤103，步骤211相当于步骤104，步骤212相当于步骤102，故在此不对步骤210、211、212多做赘述。

藉由本发明的检测语音输入模式的方法，可以根据使用者的操作习惯，而自动检测用户欲使用的语音输入模式是长按模式或短按模式，以方便用户更自然且便利得运用电子装置。

需注意的是，上述仅为实施例，而非限制于实施例。譬如此不脱离本发明基本架构者，皆应为本专利所主张的权利范围，而应以专利申请范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马明仁;杨国屏;杨治勇;赵冠力;李建颖
技术所有人：塞舌尔商元鼎音讯股份有限公司
我是此专利的发明人

上一篇：一种适用于嵌入式平台的二值化卷积神经网络的构建方法与流程
上一篇：一种可燃气的处理系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。