使用因用户而异的语法的媒体项选择的制作方法

文档序号：9932624阅读：295来源：国知局

使用因用户而异的语法的媒体项选择的制作方法
【专利说明】使用因用户而异的语法的媒体项选择
[0001 ] 背景
[0002]随着数字媒体已变得越来越普遍，用户媒体库已变得越来越难以管理。用户具有含数万或甚至数十万歌曲、电影、游戏等的媒体库并不少见。此外，各种服务向用户提供该库以即时地下载和/或流传送新媒体项。由于有这么多的选项，因此难以提供其中用户能够容易地选择一个或多个媒体项以供回放的有益用户体验。
[0003]概述
[0004]提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。而且，所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。
[0005]存储机保持可由逻辑机执行以接收口述命令的数字表示的指令。该数字表示被提供给用因用户而异的语法库训练的语音识别器。逻辑机随后从语音识别器接收针对多个不同的媒体项中的每一者的置信度评级。置信度评级指示该媒体项在口述命令中被提及的可能性。逻辑机随后自动回放具有最大置信度评级的媒体项。
[0006]附图简述
[0007]图1示出了根据本公开的一实施例的其中用户用口述命令来控制媒体项回放的环境的非限制性示例。
[0008]图2是示出根据本公开文本的一实施例的用于基于用户的口述命令来回放媒体项的方法的流程图。
[0009]图3是说明根据本公开的一实施例的用于解释并协调有歧义的结果的方法的流程图。
[0010]图4是示出根据本公开的一实施例的用于接收指示具有最大置信度评级的媒体项不是期望回放的媒体项的用户输入并对该用户输入作出响应的方法的流程图。
[0011]图5示意性地示出根据本公开的因用户而异的语法库。
[0012]图6示意性地示出根据本公开的包括多个媒体项以及父容器的媒体库。
[0013]图7示意性地示出根据本公开的一实施例的其中显示器被配置成指示可用于回放的多个媒体项的控制环境。
[0014]图8示意性地示出根据本公开的一实施例的其中显示器被配置成显示排队等待回放的媒体项的控制环境。
[0015]图9示意性地示出根据本公开的一实施例的计算系统。
[0016]详细描述
[0017]用户使用话音用户界面(VUI)来查找并回放正确的媒体项的任务可需要在准确性、步骤数和可能被需要作为该界面的一部分的直观且灵活的语音发音之间进行折衷。准确性可通过要求更多的过程步骤或限制可允许的语音输入来改善，但可用于阻止用户与VUI进行交互。
[0018]如本文中所描述的，通过使用由因用户而异的语法库来训练的语音识别器，可获得对用户语音的准确识别，而不需要许多步骤，同时允许将直观且灵活的语音发音用作命令。所公开的方法提供对具有最大置信度评级的媒体项的快速回放，同时允许用户在其中没有媒体项具有高于阈值的置信度评级或其中系统选择了不匹配用户期望的媒体项的场景中有用于选择特定媒体项的直观路径。
[0019]图1显示了示例控制环境10的各方面。所示出的控制环境是个人住处的起居室或家庭活动室。然而，本文中描述的方法可等同地适用于其他环境，诸如零售店和售货亭、餐馆、信息和公共服务站等。
[0020]图1的环境以家庭娱乐系统12为特色。家庭娱乐系统包括大规格显示器14和扩音器16，两者均被操作地耦合到计算机系统18。在其他实施例(诸如近眼显示器变体)中，显示器可被安装在计算机系统的用户所佩戴的头饰或眼镜中。在其他实施例中，显示器可以是小规格显示器，诸如计算机监视器、膝上型计算机屏幕、平板计算机屏幕、智能电话屏幕等。
[0021]在一些实施例中，计算机系统18可以是视频游戏系统。在一些实施例中，计算机系统18可以是被配置成播放音乐和/或视频的多媒体系统。在一些实施例中，计算机系统18可以是用于因特网浏览和生产力应用(例如文字处理和电子表格应用)的通用计算机系统。一般来说，计算机系统18可被配置用于以上目的中的任一者或全部，而不背离本公开的范围。
[0022]计算机系统18被配置成经由用户输入子系统22来接受来自一个或多个用户20的各种形式的用户输入。由此，诸如键盘、鼠标、触摸屏、游戏垫或操纵杆控制器之类的传统用户输入设备可被操作地耦合到计算机系统。不管传统的用户输入模式是否被支持，用户输入子系统22都可被配置成仲裁来自至少一个用户的所谓的自然用户输入(NUI)和/或话音用户输入(VUI)。
[0023]为了仲裁来自一个或多个用户的用户输入，用户输入子系统22是计算机系统18可用的。用户输入子系统被配置成捕捉用户输入的各方面，并将相应的可操作输入提供给计算机系统。结果，用户输入子系统可接收来自外围传感器组件(其可包括视觉子系统24和监听子系统26)的低级输入。在所示的实施例中，视觉系统和监听系统共享公共外壳;在其他实施例中，它们可以是分开的组件。在又一些实施例中，视觉、监听和用户输入子系统可被集成在计算机系统内。计算机系统和视觉系统可经由有线通信链路(如附图中示出的)或按任何其他合适的方式耦合。虽然图1示出了被布置在显示器14顶上的传感器组件，但各种其他布置也被构想。例如，用户输入子系统22可被安装在头戴式显示系统的顶板或一部分上。
[0024]在图1所示的示例中，用户20被描绘为按口述命令30的形式提供用户输入。在该示例中，用户正请求计算机系统回放媒体项。如本文中使用的术语“媒体项”可指代数字媒体文件，诸如音频文件、视频文件、或音频/视频混合文件(例如，歌曲、音乐视频、电影、游戏等)。口述命令30可包括多个命令分量。口述命令30可包括主要命令分量，其指引监听子系统以主动监听模式参与(例如，“计算机系统” )。口述命令30还可包括次要命令分量，其提供应用专用命令(例如“播放”)。在该示例中，次要命令分量指示用户的对回放媒体项的期望。应用专用命令可导致计算机系统18启动应用和/或确定要由计算机系统18及其组件和子系统处理的命令的路径，这可触发一个或多个方法，诸如图2-4所示的示例方法。在用户提供用户希望计算机系统回放的媒体项的标识信息(例如，“攻击和释放”)的情况下，口述命令30可包括第三级分量。
[0025]在一些示例中，口述命令30可不包括主要命令分量、次要命令分量和第三级命令分量中的每一者。相反，可推断一个或多个命令分量，或通过其他用户输入模块将其中继到用户输入子系统22。例如，断言监听模式的主要命令可基于用户的姿态、注视等来推断。监听模式还可通过用户对计算系统18的参与或经由正在计算系统18上运行的应用的上下文来推断。附加地或替换地，用户可通过其他用户输入模块，例如通过在键盘上按压按钮，来命令主动监听模式。在本文中并结合图7进一步讨论其中口述命令30不包括第三级分量的示例。
[0026]口述命令30可被包括在监听子系统26中的一个或多个话筒接收到。口述命令30的数字表示随后可由包括在监听子系统26和/或用户输入子系统22中的模数转换电路系统创建。口述命令30的数字表示可随后被呈现给包括在计算机系统18中的逻辑机，如本文中并结合图2-4进一步描述的。
[0027]计算机系统18可向用户20提供口述命令30已被识别出以及该命令正在被处理的反馈。反馈可包括呈现在显示器14上的视觉反馈和/或通过扩音器16呈现的音频反馈。如果口述命令30或其数字表示不包含足够的信息来提示计算机系统18的特定响应，则计算机系统18可提示用户20重申口述命令30。
[0028]在一些示例中，口述命令30的主要命令分量还可激励视觉子系统24以主动数据捕捉模式参与。视觉子系统24可收集涉及用户20所执行的姿势的数据和/或涉及在用户20正说出补充和完善计算机系统18所执行的语音识别的口述命令30时所执行的面部移动的数据。
[0029]口述命令30可在媒体回放程序或应用正主动地运行时被计算机系统18接收并处理，和/或可在另一程序或应用正主动地运行时被计算机系统18接收并处理。例如，用户20可主动地参与正在家庭娱乐系统12上播放的视频游戏，并递送具有通过扩音器16收听音乐的意图的口述命令30，而无需暂停或退出该视频游戏应用。
[0030]图2示出用于基于用户的口述命令来回放媒体项的示例方法200的流程图。例如，方法200可用于响应于用户20递送如图1中所描绘的口述命令30而在家庭娱乐系统12上回放媒体项。方法200可以以存储在存储机上并由逻辑机执行的指令的形式来实现，存储机和逻辑机为例如如图9所示的存储机920和逻辑机910。例如，计算机系统18可包括保持方法200的指令的存储机和被配置成执行这些指令的逻辑机。

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：V·萨池达南达姆;J·唐宁;C·奇林乔内;C·帕姆;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

上一篇：用于提供对流通网络中的物品的实时追踪的系统和方法
上一篇：医生度量的移动视图的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。