以语音识别来选择控制客体的装置及方法

文档序号：6540917阅读：96来源：国知局

以语音识别来选择控制客体的装置及方法
【专利摘要】本发明涉及一种以语音识别来选择控制客体的装置及方法，本发明的控制客体选择装置是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置，所述一个以上的处理装置，其构成为，基于用户的语音获取输入信息，基于控制客体获取的至少一个的识别信息与输入信息匹配，在识别信息中获取与输入信息匹配的匹配识别信息，在匹配识别信息中选择对应的控制客体；在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别来控制电子装置，具有可提高该电子装置的用户接近性的效果。
【专利说明】以语音识别来选择控制客体的装置及方法

【技术领域】
[0001]本发明涉及一种以语音识别来选择控制客体的装置和方法，尤其是利用基于控制客体显示信息的识别信息来选择控制客体的装置和方法。

【背景技术】
[0002]随着使用电脑、笔记本电脑、智能手机、平板电脑、汽车导航仪等电子装置的用户越来越多，这些电子装置与用户间易于人机交互的用户界面的重要性也越来越高。
[0003]一般的用户界面多是通过键盘、鼠标、触控屏幕等输入装置进行物理性输入，但是对于无法看到显示画面的视觉残疾人，或是不便于使用操作键盘、鼠标、触控屏幕等输入装置的用户来说，通过上述的用户界面来操作电子装置是不容易的。
[0004]另外，对于没有残疾的人来说，在驾驶中或是双手拿着行李不便于或是很难对电子装置进行操作时，通过上述用户界面不易于操作电子装置。
[0005]由此可见，开发出可提高电子装置接近性的用户界面势在必行。可提高电子装置接近性的用户界面中，如分析用户语音控制电子装置的语音识别技术就属其一。
[0006]为了实现电子装置利用语音识别技术，通过用户的语音来进行控制，需要事先将可与用户语音匹配的控制指令内置在电子装置中。
[0007]在将可与用户语音匹配的控制指令内置在平台端时，通过语音识别，可对相关电子装置的基本设定，如电子装置的音量或亮度等进行控制。
[0008]此外，为了通过语音识别对个性的应用程序进行控制，在各个应用程序上，必须内置可与用户语音匹配的控制指令。
[0009]因此，为了在不支持语音识别的应用程序中进行语音识别，或是为了添加语音识别功能，需要对应用程序进行新的开发或是升级，以便在相关的应用程序上内置与用户语音匹配的控制指令。
[0010]但是，电子装置和各个电子装置所搭载的应用程序日新月异、多种多样，在所有的应用程序上内置与用户语音匹配的控制指令并不容易，在多种多样的应用程序中实现可联动通用的语音识别系统就更为不易。
[0011]综上所述，支持语音识别的应用程序很少，即使支持语音识别，通过语音识别而执行的动作也很有限，实质上提高电子装置的接近性也是非常有限的。
[0012]由此可见，开发通过语音识别来提高电子装置接近性的技术，是势在必行的。

【发明内容】

[0013]为了解决上述技术问题，本发明的目的在于，提供一种在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别控制电子装置的装置及方法。
[0014]为了解决上述技术问题，本发明的另一目的在于，提供一种通过语音识别可选择由图像构成的控制客体的装置和方法。
[0015]本发明实现上述目的的技术方案是:一种控制客体选择装置，是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置；所述一个以上的处理装置的构成为，基于用户的语音获取输入信息，基于控制客体获取的至少一个的识别信息与所述输入信息匹配，在所述识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。
[0016]本发明的另一技术特征是:所述识别信息是基于所述控制客体的显示信息而获取的。
[0017]本发明的另一技术特征是:所述识别信息是基于应用程序画面信息而获取的。
[0018]本发明的另一技术特征是:所述识别信息是通过光学字符识别(0CR:opticalcharacter recognit1n)而获取的。
[0019]本发明的另一技术特征是:所述输入信息包括分析所述用户的语音特征而获取的语音模式信息；所述识别信息和所述输入信息的匹配包括所述识别信息和所述语音模式信息的匹配。
[0020]本发明的另一技术特征是:所述输入信息包括通过语音识别，由所述用户的语音而识别的文本(Text);所述识别信息和所述输入信息的匹配包括所述识别信息和所述文本的匹配。
[0021]本发明的另一技术特征是:所述控制客体是通过在显示所述控制客体的领域中至少一部分领域的输入事件(input event)或所述控制客体的选择事件(select1n event)而选择的。
[0022]本发明的另一技术特征是:所述一个以上的处理装置，在所述控制客体包含文本输入栏(text input field)时，使所述文本输入栏活性化，利用所述语音识别功能，自用户的语音获取用户输入文本(user input text),将所述用户输入文本输入到所述文本输入栏。
[0023]本发明实现上述目的的另一技术方案是:一种控制客体选择方法，是在电脑装置中通过语音识别来选择控制客体的方法，其特征在于，包括:基于用户的语音获取输入信息的步骤；基于控制客体获取的至少一个的识别信息与所述输入信息匹配的步骤；在所述识别信息中获取与所述输入信息匹配的匹配识别信息的步骤；在所述匹配识别信息中选择对应的控制客体的步骤。
[0024]本发明的另一技术特征是:所述识别信息是基于所述控制客体的显示信息而获取的。
[0025]本发明的另一技术特征是:所述识别信息是基于应用程序画面信息而获取的。
[0026]本发明的另一技术特征是:所述识别信息是通过光学字符识别(0CR:opticalcharacter recognit1n)而获取的。
[0027]本发明的另一技术特征是:所述输入信息包括分析所述用户的语音特征而获取的语音模式信息；所述识别信息和所述输入信息的匹配包括所述识别信息和所述语音模式信息的匹配。
[0028]本发明的另一技术特征是:所述输入信息包括通过语音识别，由所述用户的语音而识别的文本(Text);所述识别信息和所述输入信息的匹配包括所述识别信息和所述文本的匹配。
[0029]本发明的另一技术特征是:所述控制客体是通过在显示所述控制客体的领域中至少一部分领域的输入事件(input event)或所述控制客体的选择事件(select1n event)而选择的。
[0030]本发明的另一技术特征是:在所述控制客体包含文本输入栏(text input field)时，包括:使所述文本输入栏活性化的步骤；利用所述语音识别功能，自用户的语音获取用户输入文本(user input text)的步骤；及将所述用户输入文本输入到所述文本输入栏的步骤。
[0031]本发明实现上述目的的另一技术方案是:一种可电脑判读的媒体，是储存指令集的可电脑判读的媒体，其特征在于，所述指令集因电脑装置而被执行时，可让所述电脑装置获取基于用户语音的输入信息，基于控制客体获取的至少一个的识别信息与所述输入信息匹配，在所述识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。
[0032]其他实施方式的具体内容包含在本发明的详细说明及说明书附图中。
[0033]本发明的有益效果是:依据本发明，在使用用户事前未内置控制指令的应用程序时，也可以通过语音识别控制电子装置，具有提高相关电子装置接近性的效果。
[0034]依据本发明，通过语音识别可选择由图像构成的控制客体，具有不受构成控制客体的构成要素的类别影响，可通过语音识别选择控制客体的效果。
[0035]本发明的效果并不局限于上述内容，本发明还具有其他多种效果。

【专利附图】

【附图说明】
[0036]图1是本发明一实施方式的控制客体选择装置的方块图；
[0037]图2是本发明一实施方式的控制客体选择方法的流程图；
[0038]图3图示了基于控制客体的显示信息而获取的识别信息；
[0039]图4图示了基于控制客体的文本信息而获取的识别信息；
[0040]图5图示了控制客体的说明信息和基于说明信息而获取的识别信息；
[0041]图6是本发明一实施方式的控制客体选择装置的示意图；
[0042]图7是本发明一实施方式的控制客体选择方法的流程图；
[0043]图8是本发明一实施方式的控制客体的选择方法的示意图；
[0044]图9是本发明一实施方式的控制客体选择方法的另一示意图。
[0045]附图符号说明
[0046]100、控制客体选择装置；110、界面;120、处理器;122、内存控制器；124、内存；130、显示部;140、话筒;142、扬声器;150、160、170、180、应用程序;152、154、156、161、162、163、164、165、166、167、168、171、172、173、174、175、176、177、178、179、181、182A、182B、182C、183A、183B、184A、184B、184C、184D、控制客体；167、168B、181A、文本输入栏;200、控制客体的信息；232、234、236、控制客体的说明信息；242、244、246、控制客体的文本信息；252、252A、252B、254、254A、254B、256、256A、256B、控制客体的显示信息

【具体实施方式】
[0047]本发明的优点及特征，以及实现其优点及特征的方法，将结合本发明的附图，通过以下的实施方式进行明确的说明。但是，本发明并不局限于以下的实施方式，可为多种形态，本发明的实施方式用于说明本发明的特征，用于在本发明的【技术领域】，向相关技术人员说明本发明的范围，本发明的范围取决于本发明的权利要求项的范围。
[0048]“第一”、“第二”等表现用于说明多种构成要素，但是本发明的构成要素并不局限于此。这中表现只用来区分不同的构成要素，也就是说，本发明中的第一构成要素也可以被称为第二构成要素。
[0049]在说明书中所标记的相同的符号是指相同的构成要素。
[0050]本发明的多个实施方式的各自特征可部分或全部的结合或组合，本发明【技术领域】的技术人员可通过充分理解其内容，进行多种多样的技术性联动或驱动，各实施方式可相对独立，也可结合实施。
[0051]在本说明书中，在任何一个构成要素向其他构成要素“传送”数据或信号时，可以是直接传送所述数据或信号，也可以是通过至少一个以上的其他构成要素来传送数据和信号。
[0052]“语音识别”一般是指用户所发出的声音被电子装置分析，并以文本来识别的作业。具体来说，用户所发出声音的波形被输入电子装置时，参照音响型号等，语音波形被分析，从而获取语音模式信息。另外，所获取的语音模式信息与识别信息进行对比，从而识别出识别信息中一致概率最高的文本。
[0053]在本说明书中，“控制客体”是指在控制客体选择装置的画面上显示出来，可接收用户输入的按键等界面，在显示出来的控制客体上，完成用户输入后，控制客体选择装置可执行事先决定的控制动作。
[0054]控制客体可以是用户通过对按键、确认栏、文字输入栏等的点击、输入来选择的界面，但并不局限于此，也可以是用户通过鼠标或触控屏等输入装置来选择的所有界面。
[0055]在本说明书中，“输入信息”是指基于用户的语音，经过前述的部分或是全部的语音识别过程而获取的信息。比如说，输入信息可以是分析用户的语音波形而获取的语音模式信息。这种语音模式信息为了表现声学特征，由按照短区间从用户的语音中提取的语音特征系数构成。
[0056]在本说明书中，“识别信息”是指通过控制客体选择装置，基于控制客体自动获取的文本。分析用户的语音而获取的语音模式信息若与文本的识别信息匹配，识别信息中一致概率最高的识别信息可被识别。
[0057]识别信息中与用户的语音一致概率最高的识别信息被识别时，与所识别的识别信息对应的控制客体会被选择。因此，即使未内置与用户的语音相匹配的控制指令，控制客体也会因控制客体选择装置被选择。
[0058]识别信息基于控制客体的显示信息、应用程序的画面信息、控制客体的文本信息或控制客体的说明信息等而获取，与此相关的详细说明参照图3及图5将另行后述。
[0059]本说明书中，“控制客体的显示信息”是指显示特定控制客体时使用的信息。比如说，客体的图像、符号、控制客体的大小或位置等信息可为显示信息。基于构成显示信息的各项目的值或该值的属性，控制客体被显示在控制客体选择装置的画面上。
[0060]在本说明书中，“应用程序的画面信息”是指在控制客体选择装置所执行的应用程序中，显示特定画面时所使用的信息。
[0061]在本说明书中，“控制客体的文本信息”是指指代控制客体的文字列，该文字列可与控制客体一起被显示。
[0062]在本说明书中，“控制客体的说明信息”是指开发者为了说明控制客体而记载的信肩、O
[0063]在本说明书中，“用户输入文本”是指用户的语音通过语音识别功能，在控制客体选择装置上表现文字的方式。比如说，转换为ASCII码等的文本。
[0064]接下来，参照说明书附图，对本发明的多种实施方式进行详细的说明。
[0065]图1是本发明一实施方式的控制客体选择装置的方块图。
[0066]如图1所示，本发明的一实施方式的控制客体选择装置100包括:处理器120、内存控制器122、内存124。还包括:界面110、话筒140、扬声器142、显示部130。
[0067]本发明一实施方式的控制客体选择装置100是可通过语音识别选择控制客体的电脑装置，包括一个以上的处理装置，可以是具备音响输入功能的电脑、笔记本电脑、智能手机、平板电脑、汽车导航仪、掌上电脑、便携式媒体播放器、MP3播放器、电子词典等终端设备，或是与这些终端设备连接的服务器或由多个电脑构成的分散电脑系统。在此，一个以上的处理装置可包括至少一个以上的处理器120和内存124，复数个处理器120可共享相互的内存124。
[0068]内存124储存程序或指令集等，内存124可包括随机存取存储器(RAM;randomaccess memory)、只读存储器(ROM;read-only memory)、磁盘装置、光盘装置、闪存等。
[0069]内存控制器122控制处理器120或界面110等其他组件被格式化成内存124。
[0070]处理器120可执行储存在内存124上的程序或指令集进行实行等的演算。
[0071]界面110将控制客体选择装置100的话筒140或扬声器142等输入输出装置100连接在处理器120及内存124上。
[0072]话筒140可接收语音信号，将接收的语音信号转换成电子信号，提供给界面110。扬声器142接收来自界面110的电子信号，并将其转换成语音信号后输出。
[0073]显示部130向用户显示视觉性的图像信息，显示部130可包括侦测触控输入的触控屏幕显示。
[0074]本发明的一实施方式的控制客体选择装置100是利用储存在内存124上，由处理器120而实行的程序(以下称为“控制客体选择引擎”)，通过语音识别来选择控制客体的。
[0075]控制客体引擎是在控制客体选择装置100的背景下而实行的，自应用程序获取控制客体的信息，利用基于控制客体的信息获取的识别信息，让控制客体选择装置100通过语音识别来选择控制客体。
[0076]图2是本发明一实施方式的控制客体选择方法的流程图。图3图示了基于控制客体的显示信息而获取的识别信息。
[0077]控制客体选择装置基于用户的语音获取输入信息S100。
[0078]在此，输入信息是指分析用户语音的特征而获取的语音模式信息，但输入信息并不局限于此。
[0079]获取输入信息后，控制客体选择装置将基于控制客体获取的至少一个的识别信息与输入信息进行匹配S110。
[0080]如图3所示，在控制客体选择装置100上实行地铁应用程序150时，“路线按键152”、“时间表按键154”、“路径搜索按键156”属于控制客体。
[0081]依据本发明的一实施方式，基于控制客体的显示信息，可获取并实现识别信息。
[0082]如图3所示，在控制客体的信息200中，显示信息252、254、256可包括决定控制客体大小和位置的项目252A、254A、256A的“width”项目、“height”项目、
[0083]“left”项目及“top”项目，及提供控制客体的图像链接的“img”项目252B、254B、256B等的值。
[0084]前述的项目252A、254A、256A、252B、254B、256B是为了便于说明任意定义的，构成控制客体的显示信息252、254、256的项目的种类、数量、项目名称等可做多种多样的变形来体现。
[0085]如图3所示，提供控制客体152、154、156的图像链接的“ img”项目252B、254B、256B的值由该控制客体152、154、156的图像文件路径(“x.jpg", “y.jpg", “z.jpg”)或显示图像的文字列构成。
[0086]决定控制客体大小和位置的项目252A、254A、256A中的“width”项目及“height”项目的值，决定控制客体152、154、156的图像宽度和高度；“left”项目及“top”项目的值，决定控制客体152、154、156的显示位置，从而可决定该控制客体152、154、156被显示的领域。
[0087]如图3所示，“路线按键152”因“img”项目252B的“x.jpg”显示成图像。在此，“x.jpg”仅为一实施例，控制客体可由多种形式的文件显示成图像。
[0088]如图3所示，该图像包括可识别为“路线”的文本时，该图像的光学字符识别被执行，图像所包括的“路线”文本被识别。
[0089]如上所述，“路线按键152”的图像被光学字符识别后，“路线”文本被识别时，所识别的文本不属于识别信息。因此，基于“路线按键152”而获取的识别信息属于“路线”；以相同的方法，基于“时间表按键154”而获取的识别信息属于“时间表”;基于“路径搜索按键156”而获取的识别信息属于“路径搜索”。
[0090]识别信息和输入信息的匹配，也就是通过识别信息和语音模式信息的匹配，将获取的语音模式与识别信息进行对比，判断具有与该语音模式相同或最近似的模式的识别信肩、O
[0091]另外，识别信息也可以以来自用户语音的语音模式信息代码化的方式，代码化成音素或特定的区间单位，从而使语音模式信息和识别信息互相匹配。识别信息和语音模式信息匹配时，可使用静止匹配(static matching)、余弦相似度(cosine similarity)对比、弹性匹配(elastic matching)等。
[0092]控制客体选择装置依据所获取的识别信息和输入信息的匹配结果，来判断是否有与输入信息匹配的匹配识别信息S120。
[0093]如上所述，判断具有与所获取的语音模式相同或最近似的模式的识别信息是否是匹配识别信息。
[0094]如果判断出没有与输入信息匹配的识别信息时，控制客体选择装置在重新获取输入信息前会待机或体现出要求用户重新发出语音的要求。
[0095]如果判断出有与输入信息相匹配的识别信息时，控制客体选择装置获取该匹配的识别?目息S130。
[0096]如图3所示，从用户的语音中获取“搜索”的输入信息时，在“路线”、“时间表”、“路径搜索”识别信息中，至少“路径搜索”属于匹配的识别信息。
[0097]获取匹配的识别信息后，控制客体选择装置选择与匹配的识别信息相对应的控制客体S140。
[0098]在此，控制客体的选择是可通过输入事件或选择事件来实现的。
[0099]“事件”是指程序中所侦测的活动或事件，按照事件的类型，举例来说有用于处理输入的输入事件、用于处理输出的输出事件、用于选择特定客体的选择事件等。
[0100]输入事件通常是通过鼠标、触控板、触控屏幕、键盘等输入装置，进行点击、触控、键入等输入时而发生的，但是即使不通过上述输入装置进行实际输入，也可以处理虚拟的输入，发生输入事件。
[0101]另外，选择事件是为了选择特定控制客体而发生的，依据特定控制客体的上述输入事件，如双击或键入事件的发生，来实现特定控制客体的选择。
[0102]如上所述，依据本发明的一实施方式的控制客体选择装置，即使事前未内置控制指令的应用程序，也可以通过语音识别来控制电子装置，具有提高该电子装置的用户接近性的效果。
[0103]另外，依据本发明的一实施方式，识别信息基于应用程序的画面信息而被获取。
[0104]在应用程序画面上显示控制客体时，应用程序画面的光学文字字符识别被执行，可获取该应用程序的画面内的所有文本。
[0105]在应用程序画面中获取文本时，需要决定该文本是否属于特定的控制客体的对应识别息。
[0106]由此一来，控制客体选择装置判断在应用程序画面内显示文本的第一领域和与第一领域对应的第二领域内所显示的控制客体，在第一领域中将文本作为识别信息实现与控制客体的关联。
[0107]在此，与显示文本的第一领域相对应的第二领域，可以是包括显示文本的区段(block)的至少一部分的领域、与显示文本的区段最临近的领域、显示文本的区段上端或下端的领域。在此，与第一领域对应的第二领域并不局限于上述内容，可为多种多样的方式。另外，为了判断在第二领域中所显示的控制客体，可参照控制客体的显示信息。
[0108]此外，依据本发明的一实施方式，可基于控制客体的文本信息获取识别信息。基于控制客体的文本信息获取识别信息的构成，将参照图4做以详细说明。
[0109]图4图示了基于控制客体的文本信息而获取的识别信息。
[0110]如图4所示，控制客体的信息200可包括控制客体的文本信息242、244、246。
[0111]当控制客体的图像上包括文本时，通过光学字符识别等手段识别文本，从而可获取识别信息；但是在存在控制客体的文本信息时，可从该文本信息马上获取作为文本的识别信息。
[0112]在此，控制客体的文本信息的一部分可作为识别信息被获取。比如说，文本信息由复数个词构成时，各词可作为该控制客体对应的个别识别信息而被获取。
[0113]另外，依据本发明的一实施方式，可体现为基于控制客体的说明信息而获取识别信息。基于控制客体的说明信息而获取识别信息的构成，将参照图5做以详细说明。
[0114]图5图示了控制客体的说明信息和基于说明信息而获取的识别信息。
[0115]如图5所示，控制客体的信息200可包括控制客体的说明信息232、234、236。
[0116]控制客体的图像中包括文本时，通过光学字符识别等手段可识别文本，从而获取作为文本的识别信息；存在控制客体的说明信息时，可参照该说明信息获取作为文本的识别信息。
[0117]在此，控制客体的说明信息全部可作为识别信息而被获取。但是，说明信息与前述的文本信息不同，是记入开发者对该控制客体说明的，该说明整体作为识别信息被获取时，与输入信息的匹配准确度或匹配速度都会降低。
[0118]由此可见，如图5所示，控制客体的说明信息232、234、236由复数个词构成时，仅有一部分的该说明信息作为识别信息而被获取。另外，可体现为该说明信息的各部分可作为该控制客体相对应的个别识别信息而别获取。
[0119]如图3至图5所示，识别信息基于控制客体的多种信息而被获取，识别信息不一定要对于控制客体仅存在一个，对于自多种信息一起被获取时，一个控制客体上可对应复数个识别信息。
[0120]另外，识别信息由控制客体选择引擎而获取，可储存在内存上，但是并不局限于此,也可以因所实行的应用程序而被获取,储存在内存上。
[0121]若一个控制客体上对应复数个识别信息时，复数个识别信息间指定优先顺序，优先顺序在前的识别信息可被定为匹配识别信息。比如说，基于显示信息而获取的识别信息与用户看到的文本相同，具有最前位的优先顺序，基于说明信息而获取的识别信息是开发者为了便利任意记入的，其优先顺序则靠后。
[0122]另外，本发明的一实施方式的控制客体选择装置可将控制客体的识别信息或匹配识别信息以语音输出。
[0123]因为控制客体的识别信息以语音输出，所以用户可获取控制客体选择装置可识别的单词等；匹配识别信息以语音输出，从而使用户知道所发出的声音最终被识别的单词是什么，具有即使不看控制客体选择装置的画面，也可以选择控制客体的效果。
[0124]另外，本发明的一实施方式的控制客体选择装置不论是否有控制客体或应用程序画面的显示，都可以获取控制客体的识别信息。对此将参照图6进行详细说明。
[0125]图6是本发明一实施方式的控制客体选择装置的示意图。
[0126]如图6所示，根据控制客体选择装置100的画面分辨率，向用户所显示的范围也会受限制。
[0127]但是，识别信息基于控制客体的信息而被获取，实际与有无显示无关都可获取识别信息。
[0128]如图5所示，应用程序170不仅对于显示的控制客体171、172、173、174、175可获取识别信息，还可对于没有显示的控制客体176、177、178、179获取识别信息。
[0129]由此可见，没有显示的控制客体176、177、178、179也可以通过语音识别而被选择，没有显示的控制客体176、177、178、179被选择时，可实现至该控制客体所在点的自动滚动(auto-scroll )。
[0130]如上所述，依据本发明一实施方式的控制客体选择装置，即使基于未显示的控制客体或画面，也可获取控制客体的识别信息。
[0131]图7是本发明一实施方式的控制客体选择方法的流程图；图8是本发明一实施方式的控制客体的选择方法的示意图。
[0132]图8的(a)图示了文本输入栏167是控制客体167的情况；图8的(b)图示了文本输入栏168b包括在控制客体168上的情况。
[0133]如图8的(a)及(b)所示，在控制客体选择装置100上实行应用程序160时，该应用程序160中可选择的控制客体161、162、163、164、165、166、167、168被显示出来。在此，各控制客体161、162、163、164、165、166、167、168可包括作为识别信息而被获取的文本。
[0134]控制客体选择装置基于用户的语音而获取输入信息S200。
[0135]输入信息被获取时，控制客体选择装置将基于控制客体而获取的至少一个的识别信息与输入信息进行匹配S210。
[0136]如图8 的(a)所示，基于各控制客体 161、162、163、164、165、166、167、168，可获取“江南车医院”、“新论岘站”、“江南站十字路口”、“江南站”、“驿三站”、“莱美乐宾馆”、“搜索”、“场所、地址、公共汽车号”的识别信息。
[0137]所获取的识别信息和输入信息的匹配结果，控制客体选择装置判断是否有与输入信息匹配的匹配识别信息S220。
[0138]若判断有与输入信息匹配的匹配识别信息时，控制客体选择装置获取该匹配识别信息S230。
[0139]上述S200、S210、S220、S230 步骤，与图 2 中的 S100、S110、S120、S130 步骤实质上是一样的，在此不作重复说明。
[0140]获取匹配识别信息后，控制客体选择装置判断与匹配识别信息对应的控制客体是否包括文本输入栏S240。
[0141]用户选择文本输入栏的意图可看作是为了在该文本输入栏输入文本。因此，控制客体包括文本输入栏时，体现为该文本输入栏内可输入文本。
[0142]若匹配的识别信息对应的控制客体不包括文本输入栏时，控制客体选择装置选择与匹配的识别信息对应的控制客体S250。S250步骤与图2所示的S140步骤实质上是相同的，省略重复说明。
[0143]当匹配的识别信息对应的控制客体包括文本输入栏时，控制客体选择装置使该文本输入栏活性化S260。
[0144]如图8的(a)所示，文本输入栏167是控制客体167时，该文本输入栏167被活性化。
[0145]另外，如图8的(b)所示，文本输入栏168B不包括作为识别信息获取的文本时，文本输入栏168B在自身不获取识别信息时，可基于包括该文本输入栏168B的控制客体获取识别信息(“搜索”)。“搜索”识别信息对应的控制客体168包括文本输入栏168时，可获取与“搜索”识别信息匹配的输入信息，从而使该文本输入栏168被活性化。
[0146]被活性化的文本输入栏内设有插入台。该文本输入栏被活性化后，控制客体选择装置利用语音识别功能，由用户的语音来获取用户输入文本S270。
[0147]也就是说，在文本输入栏被活性化后，所接收的用户语音信号，不会再被识别为用于与识别信息匹配的输入信息，被转换成用户输入文本，可在该文本输入栏内输入。
[0148]用户输入文本被获取后，控制客体选择装置将所获取的用户输入文本输入到控制客体内包括的文本输入栏上S280。
[0149]用户输入文本被输入到文本输入栏后，该文本输入栏非活性化，控制客体选择装置通过语音识别可重新选择控制客体。
[0150]另外，说明用户输入文本的输入结束的特定输入信息，如“结束”、“确认”、“下一个”等输入信息被获取时，该文本输入栏非活性化，控制客体选择装置可通过语音识别重新选择控制客体。
[0151]图9是本发明一实施方式的控制客体选择方法的另一示意图。
[0152]如图9所示，在本发明一实施方式的控制客体选择装置100上实行网络浏览器180，可输入个人信息等多种信息。在此，按照控制客体的类型，控制客体的选择效果也会有所相异。
[0153]如图9所示，文本输入栏或含有文本输入栏的控制客体181与图7中说明的内容实质上是相同的，在此不作重复说明。
[0154]—般来说,选择下拉菜单(drop down)项目时,列表被下拉,用户选择被下拉德列表中的一个，从而在下拉菜单项目中输入数据。
[0155]但是，通过语音识别选择下拉菜单项目，在下拉的列表中再选择一个的过程使用户非常不便利。也就是说，如图9所示，用户为了通过语音识别输入出生年月日，要经过首先“年度”被语音识别，选择“年度下拉菜单项目182A”后，重新语音识别特定的年度进行选择的过程。
[0156]由此可见，基于下拉菜单项目182A、182B、182C而获取的识别信息及被下拉的列表中一个被结合的信息和可被匹配的输入信息被获取时，举例来说，可与“ 1985年”匹配的输入信息被获取时，控制客体选择装置100可将与在输入信息中与识别信息对应的部分以外的其它信息“1985”下拉的列表匹配的该其它信息“1985”，输入在下拉菜单项目182A上。
[0157]本发明一实施方式的控制客体选择装置100，如图9所示，控制客体包括操作按键183AU83B或确认栏184A、184B、184V、185D时，选择该操作按键183A、183B，或是确认确认栏 184A、184B、184V、185D。
[0158]另外，依据本发明一实施方式，输入信息也可以是通过自用户语音获取的语音模式信息与语言模式数据库对比的过程而被识别的文本。
[0159]输入信息通过语音识别，自用户的语音识别文本时，输入信息和识别信息的匹配因识别的文本和识别信息自身的比较而被实行。
[0160]参附的方块图的各方块和流程图的各步骤的组合，可因电脑指令而实行。这些电脑指令可以搭载在常用电脑、特殊电脑或其它软件数据处理装备的处理机上，通过电脑或其它软件数据处理装备的处理机而实行的指令生成在方块图的各方块或流程图的各步骤中实行说明功能的手段。这些电脑软件指令为了以特定的方式体现功能，可在电脑或其它软件数据处理装备的可用于电脑或电脑可读的内存上储存，因此，在可用于电脑或电脑可读的内存上所储存的指令包括各方块图的方块或流程图的各步骤中实行的说明功能的指令手段。电脑软件指令也可搭载在电脑或其它软件数据处理装备上，电脑或其它软件数据处理装备上，相关的动作步骤被实行，生成电脑实行的处理器，实行电脑或其它软件数据处理装备的指令可提供方块图各方块及流程图各步骤中用于说明功能的步骤。
[0161]在本说明书中，各方块可以为包括用于实现特定的论理功能的一个以上可实行指令的模组、程序或代码的一部分。另外，在几种代替实行的举例中，在方块图中所提及的功能也可以是脱离顺序而发生的。举例来说，陆续被图示的两个方块也可能是实质上同时实行的，也可以是该方块有时随着功能而逆顺序实行。
[0162]与本说明书中所记载的实施方式相关，并被说明的方法或算法的步骤，可以是处理器实行的硬件、软件模组或其结合直接体现的。软件模组可为在RAM内存、闪存、ROM内存、EPROM内存、EEPROM内存、寄存器、硬盘、装拆性盘、CD-ROM或本【技术领域】内供知的任意形态的储存媒体。示例性的储存媒体在处理器上联合，处理器可判读来自媒体的信息，并在储存媒体上记入信息。采用其他方法，储存媒体可与处理器为一体形。处理器及储存媒体可设在ASIC集成电路内。ASIC可设置的用户终端机内。采用其他方法，处理器及储存媒体可各自设置在用户终端机内。
[0163]以上结合本发明的实施方式，对本发明作了更加详细的说明，但是本发明并不局限于此，在本发明技术思想的范围内可进行多种变形。由此可见，本发明所记载的实施方式并不用于限定本发明的思想，仅用于说明本发明，本发明的技术思想并不受实时方式的限制。本发明的保护范围在权利要求书中的权利要求项内，在其同等范围内的所有技术思想均被看作属于本发明的权利范畴之内。
【权利要求】
1.一种控制客体选择装置，是以语音识别来选择控制客体的装置，其特征在于，包括一个以上的处理装置；所述一个以上的处理装置的构成为，基于用户的语音获取输入信息，基于控制客体获取的至少一个的识别信息与所述输入信息匹配，在所述识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。
2.根据权利要求1所述的控制客体选择装置，其特征在于，所述识别信息是基于所述控制客体的显示信息而获取的。
3.根据权利要求2所述的控制客体选择装置，其特征在于，所述识别信息是基于应用程序画面信息而获取的。
4.根据权利要求2或3所述的控制客体选择装置，其特征在于，所述识别信息是通过光学字符识别(OCR:optical character recognit1n)而获取的。
5.根据权利要求1所述的控制客体选择装置，其特征在于，所述输入信息包括分析所述用户的语音特征而获取的语音模式信息；所述识别信息和所述输入信息的匹配包括所述识别信息和所述语音模式信息的匹配。
6.根据权利要求1所述的控制客体选择装置，其特征在于，所述输入信息包括通过语音识别，由所述用户的语音而识别的文本(Text);所述识别信息和所述输入信息的匹配包括所述识别信息和所述文本的匹配。
7.根据权利要求1所述的控制客体选择装置，其特征在于，所述控制客体是通过在显示所述控制客体的领域中至少一部分领域的输入事件(input event)或所述控制客体的选择事件(select1n event)而选择的。
8.根据权利要求1所述的控制客体选择装置，其特征在于，所述一个以上的处理装置，在所述控制客体包含文本输入栏(text input field)时,使所述文本输入栏活性化,利用所述语音识别功能，自用户的语音获取用户输入文本(user input text),将所述用户输入文本输入到所述文本输入栏。
9.一种控制客体选择方法，是在电脑装置中通过语音识别来选择控制客体的方法，其特征在于，包括:基于用户的语音获取输入信息的步骤；基于控制客体获取的至少一个的识别信息与所述输入信息匹配的步骤；在所述识别信息中获取与所述输入信息匹配的匹配识别信息的步骤；在所述匹配识别信息中选择对应的控制客体的步骤。
10.根据权利要求9所述的控制客体选择方法，其特征在于，所述识别信息是基于所述控制客体的显示信息而获取的。
11.根据权利要求10所述的控制客体选择方法，其特征在于，所述识别信息是基于应用程序画面信息而获取的。
12.根据权利要求10或11所述的控制客体选择方法，其特征在于，所述识别信息是通过光学字符识别(OCR:optical character recognit1n)而获取的。
13.根据权利要求9所述的控制客体选择方法，其特征在于，所述输入信息包括分析所述用户的语音特征而获取的语音模式信息；所述识别信息和所述输入信息的匹配包括所述识别信息和所述语音模式信息的匹配。
14.根据权利要求9所述的控制客体选择方法，其特征在于，所述输入信息包括通过语音识别，由所述用户的语音而识别的文本(Text);所述识别信息和所述输入信息的匹配包括所述识别信息和所述文本的匹配。
15.根据权利要求9所述的控制客体选择方法，其特征在于，所述控制客体是通过在显示所述控制客体的领域中至少一部分领域的输入事件(input event)或所述控制客体的选择事件(select1n event)而选择的。
16.根据权利要求9所述的控制客体选择方法，其特征在于，在所述控制客体包含文本输入栏(text input field)时，包括:使所述文本输入栏活性化的步骤；利用所述语音识别功能，自用户的语音获取用户输入文本(user input text)的步骤；及将所述用户输入文本输入到所述文本输入栏的步骤。
17.—种可电脑判读的媒体，是储存指令集的可电脑判读的媒体，其特征在于，所述指令集因电脑装置而被执行时，可让所述电脑装置获取基于用户语音的输入信息，基于控制客体获取的至少一个的识别信息与所述输入信息匹配，在所述识别信息中获取与所述输入信息匹配的匹配识别信息，在所述匹配识别信息中选择对应的控制客体。
【文档编号】G06F3/01GK104347075SQ201410100205
【公开日】2015年2月11日申请日期:2014年3月18日优先权日:2013年8月2日
【发明者】申宗元, 金涩幂, 郑姜理, 多全仁, 尹延森, 金京顺申请人:迪欧泰克有限责任公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：申宗元;金涩幂;郑姜理;多全仁;尹延森;金京顺
技术所有人：迪欧泰克有限责任公司
我是此专利的发明人

上一篇：跨浏览器书签同步方法及系统的制作方法
上一篇：一种同一固件兼容不同设备的方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。