基于电视终端的交互方法、装置及系统与流程

文档序号：12479246阅读：153来源：国知局

本发明涉及电视领域，具体涉及一种基于电视终端的交互方法、装置及系统。

背景技术：

本发明的发明人在研究本申请的过程中发现，传统的电视终端只能通过电视上的实体按键或遥控器上的遥控按键进行控制，并且，执行的控制操作仅限于切换频道、调节音量等。由此可见，传统的电视终端无法通过互联网实现人机交互。为了提高用户体验，目前，已经推出了具备交互功能的电视终端。这些电视终端通常能够执行下述两种类型的交互操作：

第一种类型的交互操作用于对电视终端进行控制，例如，能够控制电视终端执行前进、后退、切换内容等操作，在现有技术中，该类交互操作通常由用户触发相应的控制按键实现。例如，用户需要利用遥控器在电视界面的交互菜单中进行选择，以便执行对应的控制操作。在上述过程中，需要用户从交互菜单中所包含的诸多菜单项中逐一筛选，无疑增加了用户操作的复杂度。

第二种类型的交互操作用于在电视终端上实现文字互动，例如，能够在电视终端上输入文字，以实现发表评论、更新弹幕等功能。在现有技术中，该类交互操作一般通过下述两种方式实现文字录入过程：在第一种方式中，直接在电视屏幕上显示虚拟键盘，以便于用户通过虚拟键盘执行文字录入操作，但是，由于电视屏幕通常较大，因此，用户触摸虚拟键盘上不同位置的按键时需移动较远的距离，因而为输入过程带来了不便。在第二种方式中，通过手机扫描电视屏幕上的二维码以便在手机端撰写用于显示在电视屏幕上的文字内容，该方式虽然能够充分迎合人们经常通过手机输入文字的习惯，但是当手机不在身边时则无法操作。

由此可见，在现有的交互操作中，均需要用户执行相对繁琐的操作过程才能实现，显著降低了用户操作速度。

技术实现要素：

鉴于上述问题，本发明实施例提供一种解决上述问题的基于电视终端的交互方法、装置及系统。

依据本发明实施例的一个方面，提供了一种基于电视终端的交互方法，包括：将接收到的语音输入内容发送给云服务器，接收所述云服务器对所述语音输入内容进行分析识别后返回的语义识别结果；根据所述语义识别结果中包含的类型标识信息确定所述语义识别结果的类型；当确定所述语义识别结果的类型为第一类识别结果时，将所述语义识别结果以文字形式显示在所述电视终端的交互区域内；当确定所述语义识别结果的类型为第二类识别结果时，执行与所述语义识别结果相对应的交互操作指令。

可选地，所述第一类识别结果为文字交互类识别结果，所述第二类识别结果为交互控制类识别结果；其中，所述云服务器对所述语音输入内容进行分析识别后，进一步判断所述语义识别结果是否与预设指令相匹配；若判断结果为否，则在所述语义识别结果中添加用于指示其为第一类识别结果的类型标识信息；若判断结果为是，则在所述语义识别结果中添加用于指示其为第二类识别结果的类型标识信息。

可选地，所述云服务器对所述语音输入内容进行分析识别后，进一步确定所述语义识别结果的展现类型为单机展现类型或联网展现类型，其中，当确定所述语义识别结果为联网展现类型时，进一步将所述语义识别结果同步给与所述语音输入内容对应的电视终端处于同一网络内的其他电视终端。

可选地，当确定所述语义识别结果为联网展现类型时，进一步根据预设的审核规则对所述语义识别结果进行审核，并在审核通过后，执行所述将所述语义识别结果同步给与所述语音输入内容对应的电视终端处于同一网络内的其他电视终端的步骤。

可选地，所述交互区域包括以下区域中的至少一种：社交软件区域、内容评论区域、以及弹幕区域；所述交互操作指令包括以下指令中的至少一种：后退指令、前进指令、以及关闭指令。

依据本发明的另一方面，提供了一种基于电视终端的交互装置，包括：通信模块，用于将接收到的语音输入内容发送给云服务器，接收所述云服务器对所述语音输入内容进行分析识别后返回的语义识别结果；确定模块，用于根据所述语义识别结果中包含的类型标识信息确定所述语义识别结果的类型；当确定所述语义识别结果的类型为第一类识别结果时，将所述语义识别结果提供给第一处理模块；当确定所述语义识别结果的类型为第二类识别结果时，将所述语义识别结果提供给第二处理模块；第一处理模块，用于将所述语义识别结果以文字形式显示在所述电视终端的交互区域内；第二处理模块，用于执行与所述语义识别结果相对应的交互操作指令。

可选地，所述第一类识别结果为文字交互类识别结果，所述第二类识别结果为交互控制类识别结果；其中，所述云服务器对所述语音输入内容进行分析识别后，进一步用于：判断所述语义识别结果是否与预设指令相匹配；若判断结果为否，则在所述语义识别结果中添加用于指示其为第一类识别结果的类型标识信息；若判断结果为是，则在所述语义识别结果中添加用于指示其为第二类识别结果的类型标识信息。

可选地，所述云服务器对所述语音输入内容进行分析识别后，进一步用于：确定所述语义识别结果的展现类型为单机展现类型或联网展现类型，其中，当确定所述语义识别结果为联网展现类型时，进一步将所述语义识别结果同步给与所述语音输入内容对应的电视终端处于同一网络内的其他电视终端。

可选地，当确定所述语义识别结果为联网展现类型时，所述云服务器进一步用于：根据预设的审核规则对所述语义识别结果进行审核，并在审核通过后将所述语义识别结果同步给与所述语音输入内容对应的电视终端处于同一网络内的其他电视终端。

依据本发明的又一方面，提供了一种基于电视终端的交互系统，包括：云服务器以及上述任一所述的交互装置。

在本发明实施例提供的基于电视终端的交互方法、装置及系统中，能够直接接收用户发出的语音输入内容，并根据云服务器返回的语义识别结果执行对应的交互操作。由此可见，本发明实施例提供的交互方式避免了用户手工输入的不便，大幅简化了用户的操作复杂度，缩短了操作时间，为用户提供了便利。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明一个实施例提供的基于电视终端的交互方法的流程图；

图2示出了本发明一个实施例提供的基于电视终端的交互方法的流程图；

图3示出了本发明另一个实施例提供的基于电视终端的交互方法的流程图；

图4示出了本发明一个实施例提供的基于电视终端的交互装置的结构图；

图5示出了本发明一个实施例提供的基于电视终端的交互系统的结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于电视终端的交互方法、装置及系统，至少能够解决现有技术中的交互操作中需要用户执行相对繁琐的操作过程才能实现的技术问题。

图1示出了本发明一个实施例提供的基于电视终端的交互方法的流程图，如图1所示，该方法包括以下步骤：

步骤S110：将接收到的语音输入内容发送给云服务器，接收云服务器对上述语音输入内容进行分析识别后返回的语义识别结果。

其中，触发电视终端开始接收语音输入内容的触发方式可以有多种。例如，可以在电视终端开机后持续接收，也可以在用户触发指定按键后开始接收，或者，还可以在电视屏幕显示预设的交互区域后开始接收。总之，本领域技术人员可以灵活设定各种方式触发本步骤的执行，本发明对此不作限定。

具体地，云服务器首先根据语音识别算法对语音输入内容进行语音识别，得到对应的语音识别结果。然后，云服务器利用云端存储的词汇库对语音识别结果进行预处理，以滤除其中包含的不必要的词汇或因口误而产生的词汇，提取出其中的重要词汇，并对重要词汇进行语义分析，得到语义识别结果。

步骤S120：根据语义识别结果中包含的类型标识信息确定语义识别结果的类型。

其中，语义识别结果的类型可能为第一类识别结果，也可能为第二类识别结果，或者，还可能为第一类识别结果和第二类识别结果的结合。

步骤S130：当确定语义识别结果的类型为第一类识别结果时，将语义识别结果以文字形式显示在电视终端的交互区域内。

其中，第一类识别结果通常为文字交互类识别结果，相应地，在本步骤中执行文字输入类的交互操作，例如，发表评论、发布弹幕等。

步骤S140：当确定语义识别结果的类型为第二类识别结果时，执行与语义识别结果相对应的交互操作指令。

其中，第二类识别结果通常为交互控制类识别结果，相应地，在本步骤中执行控制类的交互操作，例如，控制当前内容后退或前进等。

由此可见，在本发明实施例提供的基于电视终端的交互方法中，能够直接接收用户发出的语音输入内容，并根据云服务器返回的语义识别结果执行对应的交互操作。其中，交互操作既可以是文字输入类操作，也可以是交互控制类操作。由此可见，本发明实施例提供的交互方式避免了用户手工输入的不便，大幅简化了用户的操作复杂度，缩短了操作时间，为用户提供了便利。

图2示出了本发明一个实施例提供的基于电视终端的交互方法的流程图，该实施例主要侧重于文字输入类操作，如图2所示，该方法包括以下步骤：

步骤S210：将接收到的语音输入内容发送给云服务器。

具体地，在本实施例中，可以通过多种方式触发步骤S210的启动。例如，在一种实现方式中，可以在电视终端上设置实体按键，当用户按压该实体按键时，则触发电视终端开启麦克风并捕获用户发出的语音输入内容。在另一种实现方式中，也可以在电视屏幕上设置虚拟按键或图标，当用户点击该虚拟按键或图标时，则触发电视终端开启麦克风并捕获用户发出的语音输入内容。在又一种实现方式中，也可以在电视屏幕上显示出交互区域时，触发电视终端开启麦克风并捕获用户发出的语音输入内容。其中，交互区域是指：能够使用户输入交互内容的区域，例如，可以是社交软件区域(如微信、微博等)、内容评论区域以及弹幕区域等。总之，本领域技术人员可以灵活设置多种方式来触发本步骤的执行。另外，在本发明其他的实施例中，也可以在电视终端开机过程中持续开启麦克风并捕获用户发出的语音输入内容。

当捕获到用户发出的语音输入内容后，将该语音输入内容发送给云服务器。具体地，当电视终端基于安卓系统实现时，可以通过APK客户端将接收到的语音输入内容传递给语音SDK模块，由语音SDK模块发送给云服务器。

步骤S220：云服务器对语音输入内容进行分析识别后得到语义识别结果，判断语义识别结果是否与预设指令相匹配；若判断结果为否，则在语义识别结果中添加用于指示其为第一类识别结果的类型标识信息。

其中，预设指令主要包括用于对电视终端进行控制的指令，在本步骤中，云服务器首先根据语义识别结果判断其是否与预设指令匹配，若匹配则说明本次语音输入主要用于对电视终端进行控制，关于该种情况将在后续实施例中给予介绍，本实施例中主要关注不匹配的情况。当语义识别结果与预设指令不匹配时，说明本次语音输入的语义识别结果为第一类识别结果，主要用于实现文字交互，相应地，云服务器可以在该语义识别结果中添加用于指示其为第一类识别结果的类型标识信息。

本领域技术人员可以理解的是，云服务器判断语义识别结果是否与预设指令相匹配的操作步骤以及在语义识别结果中添加用于指示其为第一类识别结果的类型标识信息的操作步骤均为可选的步骤。当本发明其他的实施例仅用于实现文字输入类的交互操作时，也可以省略这些步骤。

步骤S230：电视终端确定语义识别结果为第一类识别结果时，将语义识别结果以文字形式显示在电视终端的交互区域内。

具体地，电视终端可以根据语义识别结果中包含的类型标识信息确定其为第一类识别结果，进而将语义识别结果以文字形式显示在电视终端的交互区域内。其中，交互区域包括上文提到的社交软件区域、内容评论区域以及弹幕区域等。用户通过社交软件区域可以发微博、发微信；通过内容评论区域可以在观影过程中将观影感受以文字形式发表为评论；通过弹幕区域可以将吐槽内容以弹幕形式显示在屏幕上。

另外，在本实施例中，用户通过语音方式输入在交互区域内的文字内容可以通过两种展现类型进行展现：第一种为单机展现类型，仅在用户本地的电视终端上进行展现，例如，当用户发表仅自身可见的私密内容时可通过该种形式进行展现。第二种为联网展现类型，不仅在用户本地的电视终端上进行展现，还进一步地通过云服务器将语义识别结果以文字形式同步给其他的电视终端，例如，当用户发表面向全部电视观众的评论或弹幕时可通过该种形式进行展现。为了便于云服务器确定语义识别结果的展现类型，可以在上述的语音输入内容中进一步包含展现类型标识，例如，当用户发表仅自身可见的私密内容时可包含单机展现类型的类型标识；当用户发表共享内容时可包含联网展现类型的类型标识。相应地，当云服务器确定语义识别结果为联网展现类型时，进一步将语义识别结果同步给与语音输入内容对应的电视终端处于同一网络内的其他电视终端。例如，当语音输入内容对应的电视终端正在播放足球直播时，则其他所有正在播放足球直播的电视终端均为与该电视终端处于同一网络内的电视终端。

进一步地，为了更好地实现UGC(用户原创内容，即User Generated Content的缩写)的质量监控，在上述的第二种展现方式中，云服务器进一步根据预设的审核规则对语义识别结果进行审核，仅在审核通过后，将语义识别结果同步给其他电视终端，若审核未通过，则不将语义识别结果同步给其他电视终端。其中，审核规则可以根据预先收集的不雅词汇、反动词汇等制定，以滤除不符合文明上网行为的语义内容。另外，为了提高用户实时交互的体验，在审核通过之前，可以先将语义识别结果发送给发起语音输入的电视终端，并在该电视终端上以单机形式展现相应的语义识别结果，以便给用户带来实时交互的体验效果。然后，在审核通过之后，再将语义识别结果同步给其他的电视终端，以达到最终联网显示的目的。另外，如果审核未通过，则可以进一步向发起语音输入的电视终端发送删除指令，以删除该电视终端本地显示的语义识别结果，更进一步地，还可以向该发起语音输入的电视终端发送特定的提示内容，以提示其内容审核未通过。

由此可见，图2所示的实施例主要用于实现文字输入类型的交互操作，通过该实施例中提供的方式，能够将用户输入的语音输入内容识别为文字，并将识别后的文字直接显示在交互区域内，以实现快速便捷地输入文字的效果。

图3示出了本发明又一个实施例提供的基于电视终端的交互方法的流程图，如图3所示，该方法包括以下步骤：

步骤S310：将接收到的语音输入内容发送给云服务器。

具体地，在本实施例中，也可以通过多种方式触发步骤S310的启动。具体可参照上一实施例中步骤S210中的触发方式。另外，由于本实施例主要侧重于实现对于电视终端的控制，因此，可以在电视终端开机过程中持续开启麦克风并捕获用户发出的语音输入内容。

步骤S320：云服务器对语音输入内容进行分析识别后得到语义识别结果，判断语义识别结果是否与预设指令相匹配；若判断结果为是，则在语义识别结果中添加用于指示其为第二类识别结果的类型标识信息。

其中，预设指令主要包括用于对电视终端进行控制的指令，在本步骤中，云服务器首先根据语义识别结果判断其是否与预设指令匹配，若匹配则说明本次语音输入主要用于对电视终端进行控制。当语义识别结果与预设指令匹配时，说明本次语音输入的语义识别结果为第二类识别结果，主要用于实现对电视终端的控制，相应地，云服务器可以在该语义识别结果中添加用于指示其为第二类识别结果的类型标识信息。其中，预设指令可以通过预设的指令关键字表示，例如，可以包括如下关键字：退出、后退、前进、关闭等。

本领域技术人员可以理解的是，云服务器判断语义识别结果是否与预设指令相匹配的操作步骤以及在语义识别结果中添加用于指示其为第二类识别结果的类型标识信息的操作步骤均为可选的步骤。当本发明其他的实施例仅用于实现控制类的交互操作时，也可以省略这些步骤。

步骤S330：电视终端确定语义识别结果为第二类识别结果时，执行与语义识别结果相对应的交互操作指令。

其中，上述的交互操作指令可以包括各种控制指令，例如，包括：后退指令、前进指令、以及关闭指令等。另外，还可以包括播放某一视频、切换当前视频、调节音量等各种指令。电视终端根据相应的交互操作指令实现页面的跳转，以完成特定的操作。

另外，本领域技术人员还可以对图2和图3所示的实施例进行各种改进和变形，例如，图2和图3所示的实施例也可以合并为一个实施例进行，本发明对此不做限定。

优选地，本领域技术人员可以将图2和图3所示的实施例合并在一起执行，即：执行完图2所示的步骤S210以及步骤S220中的“判断语义识别结果是否与预设指令相匹配”的操作之后，根据匹配结果确定后续执行的步骤。当语义识别结果与预设指令不匹配时，在语义识别结果中添加用于指示其为第一类识别结果的类型标识信息，并继续执行步骤S230；当语义识别结果与预设指令匹配时，在语义识别结果中添加用于指示其为第二类识别结果的类型标识信息，并继续执行步骤S330。

更进一步地，在步骤S220中，还有可能出现下述情况，即：语义识别结果中的部分内容与预设指令相匹配，其余部分内容则与预设指令不匹配，此时，在步骤S220中，进一步将语义识别结果划分为两部分：第一部分为与预设指令不匹配的部分，在第一部分语义识别结果中添加用于指示其为第一类识别结果的类型标识信息，并针对该部分内容继续执行步骤S230；第二部分为与预设指令匹配的部分，在第二部分语义识别结果中添加用于指示其为第二类识别结果的类型标识信息，并针对该部分内容继续执行步骤S330。通过该种方式，能够同时输入两种类型的语音输入内容，并分别加以执行，从而提高了输入和执行的效率，简化了用户操作的复杂度。例如，当电视终端显示微博提供的交互区域时，若接收到的语音输入内容为“增加‘祝大家节日快乐’的文字内容后退出微博”，其中，第一部分内容“增加‘祝大家节日快乐’的文字内容”与预设指令不匹配，针对该部分内容执行文字输入类交互操作，从而将“祝大家节日快乐”的文字显示在微博输入区域内；第二部分内容“退出微博”与预设指令中包含的退出指令格式匹配，针对该部分内容执行控制类交互操作，从而控制电视终端退出微博应用。通过上面的例子可以看出，云服务器在对语音输入内容进行识别时，能够根据预设的过滤规则过滤掉其中包含的非必需词汇，例如将第一部分内容“增加‘祝大家节日快乐’的文字内容”中的“增加”和“的文字内容”过滤掉，以提高输入的准确率，具体的过滤规则可由本领域技术人员灵活设定。

通过本发明实施例提供的基于电视终端的交互方法，能够通过语音输入方式完成控制类型以及文字输入类型的交互操作，极大地简化了用户的操作复杂度，使用户可以一边从事其他事务一边实现交互操作。另外，在本发明中，将语音识别和语义判断的操作步骤交由云服务器完成，相应地，可以在云服务器侧设置词汇库，该词汇库能够根据用户反馈进行实时更新，以便及时扩充库中的词汇，从而提升识别的速度和准确度。

图4示出了本发明一个实施例提供的基于电视终端的交互装置的结构图，如图4所示，该装置包括：通信模块41、确定模块42、第一处理模块43以及第二处理模块44。

通信模块41，用于将接收到的语音输入内容发送给云服务器，接收所述云服务器对所述语音输入内容进行分析识别后返回的语义识别结果。例如，可以在电视终端开机后持续接收，也可以在用户触发指定按键后开始接收，或者，还可以在电视屏幕显示预设的交互区域后开始接收。总之，本领域技术人员可以灵活设定各种方式触发本步骤的执行，本发明对此不作限定。具体地，云服务器首先根据语音识别算法对语音输入内容进行语音识别，得到对应的语音识别结果。然后，云服务器利用云端存储的词汇库对语音识别结果进行预处理，以滤除其中包含的不必要的词汇或因口误而产生的词汇，提取出其中的重要词汇，并对重要词汇进行语义分析，得到语义识别结果。

确定模块42，用于根据所述语义识别结果中包含的类型标识信息确定所述语义识别结果的类型；当确定所述语义识别结果的类型为第一类识别结果时，将所述语义识别结果提供给第一处理模块；当确定所述语义识别结果的类型为第二类识别结果时，将所述语义识别结果提供给第二处理模块。

第一处理模块43，用于将所述语义识别结果以文字形式显示在所述电视终端的交互区域内。第二处理模块44，用于执行与所述语义识别结果相对应的交互操作指令。

图5示出了本发明一个实施例提供的基于电视终端的交互系统的结构图，如图5所示，该系统包括：云服务器50以及交互装置40，其中，交互装置40进一步包括通信模块41、确定模块42、第一处理模块43以及第二处理模块44。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王蕊;
技术所有人：乐视控股（北京）有限公司;乐视致新电子科技（天津）有限公司;
我是此专利的发明人

上一篇：一种出光光强分布可调的LED器件的制作方法与工艺
上一篇：一种提升出光效率的COB封装方法及其结构与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。