信息处理装置、信息处理方法和计算机程序与流程

文档序号：31748185发布日期：2022-10-11 17:56阅读：69来源：国知局

1.在本说明书(在下文中，“本公开”)中公开的技术涉及处理关于内容观看(viewing，视听)的信息的信息处理装置和信息处理方法以及计算机程序。

背景技术：

2.电视广播服务已经广泛普及。目前，电视接收器得到了广泛的应用，每个家庭中都安装一个或多个电视接收器。最近，使用诸如互联网协议tv(iptv)和ott(over-the-top)的网络的广播类型(推送分发类型)的视频分发服务以及诸如视频共享服务的拉动分发类型也变得流行。
3.此外，最近，已经对用于通过组合电视接收器和感测技术来测量指示观看者对于视频内容的注视度的“观看质量”的技术进行了研究和开发(例如，参见专利文献1)。观看质量的使用方法有多种。例如，可以基于观看质量的测量结果评价视频内容或广告的效果，并且向观看者推荐其他内容或产品。
4.引用列表
5.专利文献
6.专利文献1：日本专利申请公开号2015-220530
7.专利文献2：日本专利申请公开号2015-92529
8.专利文献3：日本专利第4915143号
9.专利文献4：日本专利申请公开号2019-66788
10.专利文献5：wo 2017/104320
11.专利文献6：日本专利申请公开号2007-143010

技术实现要素：

12.本发明要解决的问题
13.本公开的目的是提供基于观看内容的用户的注视度处理信息的信息处理装置和信息处理方法以及计算机程序。
14.问题的解决方案
15.本公开的第一方面是一种信息处理装置，包括：估计单元，估计观看内容的用户的注视度；获取单元，获取关于向用户推荐的内容的相关信息；以及控制单元，基于所述注视度的估计结果控制呈现相关信息的用户界面。
16.获取单元通过使用学习了用户的信息和用户表现出兴趣的内容的因果关系的人工智能模型，获取相关信息。
17.用户的信息包括关于用户的状态的传感器信息，用户的状态包括当用户观看内容时的视线。可替换地，用户的信息包括关于当用户观看内容时的环境的环境信息，并且获取单元根据基于每个用户的环境信息的区域特性估计与用户匹配的内容。
18.此外，本公开的第二方面是一种信息处理方法，包括：估计步骤，估计观看内容的
用户的注视度；获取步骤，获取关于向用户推荐的内容的相关信息；以及控制步骤，基于所述注视度的估计结果控制呈现相关信息的用户界面。
19.此外，本公开的第三方面是计算机程序，具有计算机可读形式，使计算机用作：估计单元，估计观看内容的用户的注视度；获取单元，获取关于向用户推荐的内容的相关信息；控制单元，基于所述注视度的估计结果控制呈现相关信息的用户界面。
20.根据第三方面的计算机程序限定以计算机可读形式描述以在计算机上实现预定处理的计算机程序。换言之，当将根据本技术的权利要求的计算机程序安装到计算机时，在计算机上施加协作动作，并且可以实现与根据第一方面的信息处理装置的动作和效果相似的动作和效果。
21.本发明的效果
22.根据本公开，可以提供在对正在观看的内容感到厌烦的用户与用户接下来应观看的内容之间执行匹配的信息处理装置和信息处理方法，以及计算机程序。
23.应注意，在本说明书中描述的效果仅是示例，并且本公开带来的效果不限于此。此外，除了上述效果之外，本公开可进一步提供额外的效果。
24.通过基于稍后描述的实施例的更详细的描述和附图，本公开的其他目的、特征和优点将变得显而易见。
附图说明
25.图1是示出用于观看视频内容的系统的配置示例的示图。
26.图2为示出内容再现装置100的配置示例的示图。
27.图3是示出了穹型屏幕300的构造示例的示图。
28.图4是示出穹型屏幕400的构造示例的示图。
29.图5是示出穹型屏幕500的构造示例的示图。
30.图6为示出内容再现装置100的另一个配置示例的示图。
31.图7是示出了导演设备110的安装示例的示图。
32.图8是示出了传感器单元109的配置示例的示图。
33.图9是示出用于收集对内容再现装置100中的内容感兴趣的用户的反应的功能配置示例的示图。
34.图10是示出人工智能服务器1000的功能配置示例的示图。
35.图11是示出用于在内容再现装置100中向用户呈现关于推荐内容的信息的功能配置的示图。
36.图12是示出根据用户对正在观看的内容的注视度的改变的画面转换示例的示图。
37.图13是示出根据用户对正在观看的内容的注视度的改变的画面转换示例的示图。
38.图14是示出根据用户对正在观看的内容的注视度的改变的画面转换示例的示图。
39.图15是示出根据用户对正在观看的内容的注视度的改变的画面转换示例的示图。
40.图16是示出根据用户对正在观看的内容的注视度的改变的画面转换示例的示图。
41.图17是示出根据用户对正在观看的内容的注视度的改变的画面转换示例的示图。
42.图18是示出内容推荐系统1800的功能配置示例的示图。
43.图19为示出用于收集对内容再现装置100的内容感兴趣的用户的反应的功能配置
示例的示图。
44.图20是示出人工智能服务器2000的功能配置示例的示图。
45.图21是示出用于在内容再现装置100中向用户呈现关于根据区域特性推荐的内容的信息的功能配置的示图。
46.图22是示出内容推荐系统2200的功能配置示例的示图。
47.图23是示出根据区域特性进行用户和内容的匹配操作示例的示图。
48.图24是示出根据区域特性进行用户和内容的匹配操作示例的示图。
49.图25是示出在内容再现装置100与内容推荐系统1800之间执行的顺序示例的示图。
50.图26是示出在内容再现装置100与内容推荐系统2200之间执行的顺序示例的示图。
具体实施方式
51.下面将参考附图详细描述本公开的实施例。
52.a.系统配置
53.图1示意性地示出了用于观看视频内容的系统的配置示例。
54.内容再现装置100是例如安装在家庭成员聚在一起以在家庭中进行消遣的客厅、用户的私人房间等中的电视接收器。然而，内容再现装置100不必限于诸如电视接收器的固定设备，并且可以是诸如个人计算机、智能电话、平板计算机或头戴式显示器的小型或便携式设备。此外，在本实施方式中，除非另外指定，否则术语“用户”仅指观看(包括观看者具有观看计划的情况)在内容再现装置100上显示的视频内容的观看者。
55.内容再现装置100配备有显示视频内容的显示器和输出声音的扬声器。内容再现装置100包括例如用于选择和接收广播信号的内置调谐器，或者外部连接到具有调谐器功能的机顶盒，并且可以使用由电视台提供的广播服务。广播信号可以是地面波或卫星波。
56.此外，内容再现装置100还可使用利用诸如iptv、ott和视频共享服务的网络的视频分发服务。因此，内容再现装置100配备有网络接口卡，并且使用基于现有通信标准的通信(诸如以太网(注册商标)或wi-fi(注册商标))，经由路由器或接入点与诸如因特网的外部网络互连。在功能方面，内容再现装置100也是内容获取设备、内容再现装置或配备有显示器的显示设备，具有通过经由广播波或互联网的流式传输或下载获取各种类型的再现内容(诸如视频和音频)来获取或再现要呈现给用户的各种类型的内容的功能。
57.提供视频流的流式传输服务器安装在互联网上，并且向内容再现装置100提供广播型视频分发服务。
58.此外，在互联网上安装了提供各种服务的无数服务器。服务器的示例是使用网络(诸如，iptv、ott或视频共享服务)提供视频流传输服务的流式传输服务器。在内容再现装置100侧，浏览器功能被激活以向流式传输服务器发出例如超文本传输协议(http)请求，使得可以使用流式传输服务。
59.此外，在本实施例中，还假设人工智能服务器向客户端提供互联网上(或者云端)的人工智能功能。人工智能是通过软件或硬件人工地实现人类大脑所展现的功能(例如，学习、推断、数据创建和规划)的功能。可以使用由模拟人类脑神经回路的神经网络代表的人
工智能模型来实现人工智能的功能。
60.人工智能模型是具有用于人工智能的可变性的计算模型，其通过随着学习数据的输入不断地学习(训练)来改变模型结构。在使用神经元形态(大脑类型)计算机的神经网络的情况下，节点也被称为经由突触的人工神经元(或简称为“神经元”)。神经网络具有通过耦合节点(神经元)形成的网络结构，并且一般包括输入层、隐藏层和输出层。通过由将数据(学习数据)输入到神经网络并学习节点(神经元)之间的耦合程度(在下文中，也称为“耦合加权系数”)来改变神经网络的处理，执行由神经网络表示的人工智能模型的学习。使用学习的人工智能模型使得可以估计问题(输入)的最佳解(输出)。例如，人工智能模型被视为节点(神经元)之间的耦合加权系数的集合数据。
61.这里，神经网络可以根据目的具有不同算法、形式和结构，诸如卷积神经网络(cnn)、递归神经网络(rnn)、生成对抗网络、变分自动编码器、自组织特征图、以及脉冲神经网络(snn)，并且这些可以被任意组合。
62.假定应用于本公开的人工智能服务器配备有能够执行深度学习(dl)的多级神经网络。当执行深度学习时，学习数据的数量和节点(神经元)的数量变大。因此，使用巨大的计算机资源(例如，云)执行深度学习被认为是合适的。
63.在本说明书中提及的“人工智能服务器”不限于单个服务器设备，并且可以是例如云的形式，其通过另一设备向用户提供云计算服务，并且将服务结果(成果)输出和提供给另一设备。
64.而且，本说明书中提到的“客户端”(在下文中，也称为终端、传感器设备或边缘设备)的特征至少在于，从人工智能服务器下载由人工智能服务器学习的人工智能模型作为由人工智能服务器的服务结果，并且使用下载的人工智能模型来执行诸如推断和对象检测的处理，或者由人工智能服务器接收作为服务的结果并使用人工智能模型推断的传感器数据来执行诸如推断和对象检测的处理。客户端可通过进一步包括使用相对小的神经网络的学习功能来与人工智能服务器协作执行深度学习。
65.注意，上述神经元形态计算机技术和其他人工智能技术不是彼此独立的，并且可彼此协作地使用。例如，神经元形态计算机中的代表性技术是snn(如上所述)。例如，使用snn技术使得能够将来自图像传感器等的输出数据以基于输入数据序列在时间轴上微分的形式用作要提供给深度学习的输入的数据。因此，在本说明书中，除非另外指定，神经网络被视为使用神经元形态计算机技术的一种类型的人工智能技术。
66.b.设备配置
67.图2示出了内容再现装置100的配置示例。图中的内容再现装置100包括与外部执行数据交换(诸如内容的接收)的外部接口单元120。这里提及的外部接口单元120配备有高清晰度多媒体接口(hdmi)(注册商标)接口和用于连接到网络的网络接口(nic)，用于从选择和接收广播信号的调谐器和媒体再现设备输入再现信号。外部接口单元120具有诸如从诸如广播和云的介质接收数据以及从云读取和检索数据的功能。
68.外部接口单元120具有获取提供给内容再现装置100的内容的功能。假设将内容提供给内容再现装置100的形式是广播信号(例如，地面广播和卫星广播)、从记录介质(例如，硬盘驱动器(hdd)或蓝光)再现的再现信号、从云端的流式传输服务器传输的流传输内容等。使用网络的广播型视频分发服务的示例包括iptv、ott和视频共享服务。然后，将这些内
容作为通过复用媒体数据(诸如视频、音频和辅助数据(字幕、文本、图形、节目信息等))的比特流而获得的复用比特流而被提供给内容再现装置100。在复用比特流中，例如，假设根据mpeg2系统标准复用诸如视频和音频的每种媒体的数据。
69.注意，假设从广播站、流式传输服务器或记录介质提供的视频流包括2d视频和3d视频两者。3d视频可以是自由视点视频。2d视频可以包括从多个视点成像的多个视频。此外，假设从广播站、流式传输服务器或记录介质提供的音频流包括各个发声对象未被混合的基于对象的音频(稍后描述)。
70.此外，在本实施例中，假定外部接口单元120获取由云端的人工智能服务器通过深度学习等学习的人工智能模型。例如，外部接口单元120获取用于视频信号处理的人工智能模型和用于音频信号处理的人工智能模型。
71.内容再现装置100包括解复用器101、视频解码单元102、音频解码单元103、辅助数据解码单元104、视频信号处理单元105、音频信号处理单元106、图像显示单元107和音频输出单元108。注意，内容再现装置100是诸如机顶盒的终端设备，并且可以被配置为处理接收到的复用比特流，并且将处理后的视频和音频信号输出到包括图像显示单元107和音频输出单元108的另一设备。
72.解复用器101将作为广播信号、再现信号或流数据从外部接收的复用比特流解复用成视频比特流、音频比特流和辅助比特流，并且在后续阶段中将解复用的比特流分发给视频解码单元102、音频解码单元103和辅助数据解码单元104中的每个。
73.视频解码单元102对例如mpeg编码的视频比特流进行解码，并输出基带视频信号。应注意，还可设想，从视频解码单元102输出的视频信号是低分辨率或标准分辨率视频、或低动态范围(ldr)或标准动态范围(sdr)视频。
74.音频解码单元103解码由编码系统(例如，mpeg音频层3(mp3)或高效mpeg4高级音频编码(he-aac))编码的音频比特流，并且输出基带音频信号。要注意的是，认为从音频解码单元103输出的音频信号是去除或压缩一部分频带(例如，高范围)的低分辨率或标准分辨率音频信号。
75.辅助数据解码单元104对编码的辅助比特流进行解码，并输出字幕、文本、图形、节目信息等。
76.内容再现装置100包括执行再现内容的信号处理等的信号处理单元150。信号处理单元150包括视频信号处理单元105和音频信号处理单元106。
77.视频信号处理单元105对从视频解码单元102输出的视频信号和从辅助数据解码单元104输出的字幕、文本、图形、节目信息等执行视频信号处理。这里提到的视频信号处理可以包括图像质量增强处理，例如，诸如降噪和超分辨率的分辨率转换处理、动态范围转换处理和伽马处理。在从视频解码单元102输出的视频信号是低分辨率或标准分辨率视频或低动态范围或标准动态范围视频的情况下，视频信号处理单元105执行从低分辨率或标准分辨率视频信号生成高分辨率视频信号的超分辨率处理，以及诸如高动态范围的图像质量增强处理。视频信号处理单元105可在合成从视频解码单元102输出的主视频信号和从辅助数据解码单元104输出的辅助数据(诸如字幕)之后执行视频信号处理，或者可在对主视频信号和辅助数据分别执行图像质量增强处理之后执行合成处理。在任一情况下，视频信号处理单元105在作为视频信号的输出目的地的图像显示单元107所允许的屏幕分辨率的范
围或亮度动态范围内执行诸如超分辨率处理和高动态范围的视频信号处理。
78.在本实施方式中，假设视频信号处理单元105通过人工智能模型来进行上述视频信号处理。期望通过利用云端上的人工智能服务器通过深度学习进行了初步学习的人工智能模型实现最佳的视频信号处理。
79.音频信号处理单元106对从音频解码单元103输出的音频信号执行音频信号处理。从音频解码单元103输出的音频信号是移除或压缩诸如高范围的频带的一部分的低分辨率或标准分辨率音频信号。音频信号处理单元106可执行将低分辨率或标准分辨率音频信号的频带扩展为包括移除或压缩频带的高分辨率音频信号的声音质量增强处理。此外，音频信号处理单元106执行应用诸如输出声音的反射、衍射和干扰的效果的处理。此外，除声音质量增强(例如，频带扩展)之外，音频信号处理单元106可使用多个扬声器来执行声音图像定位处理。通过确定在声音图像的期望定位的位置(在下文中，也称为“发声坐标”)处的声音的方向和响度并且确定用于生成声音图像的扬声器的组合以及每个扬声器的方向性和音量来实现声音图像定位处理。然后，音频信号处理单元106从每个扬声器输出音频信号。
80.要注意的是，在本实施方式中处理的音频信号可以是“基于对象的音频”，其中，提供单独的发声对象，而不在再现设备侧上混合和再现。在基于对象的音频中，对象音频的数据包括关于发声对象(在视频帧中用作声源的对象(可包括从视频隐藏的对象))的波形信号的元信息和由距离用作预定参考的收听位置的相对位置表示的发声对象的定位信息。例如，发声对象的波形信号通过基于矢量的振幅平移(vbap)根据元信息被渲染为具有期望数量的声道的音频信号，并且被再现。音频信号处理单元106可通过使用符合基于对象的音频的音频信号来指定发声对象的位置，并且可容易地实现更稳健的立体声。
81.在本实施例中，音频信号处理单元106被假定为通过人工智能模型来执行音频信号处理，诸如频带扩展、效果和声音图像定位。期望通过利用云端上的人工智能服务器通过深度学习进行了初步学习的人工智能模型，实现最佳的音频信号处理。
82.此外，可以在信号处理单元150中使用组合执行视频信号处理和音频信号处理的单个人工智能模型。例如，在诸如对象跟踪、取景(包括视点切换和视线改变)和缩放的(上述)处理作为使用人工智能模型的视频信号处理在信号处理单元150中被执行的情况下，可结合帧中的对象的位置的改变来控制声音图像位置。
83.图像显示单元107向用户(内容等的观看者)呈现显示视频的画面，其中，已经通过视频信号处理单元105对该视频执行了诸如图像质量增强等的视频信号处理。图像显示单元107是包括例如液晶显示器、有机电致发光(el)显示器、使用微细发光二极管(led)元件用于像素的自发光显示器(例如，参见专利文献2)等的显示装置。
84.此外，图像显示单元107可以是应用了将屏幕划分为多个区域并控制每个区域的亮度的部分驱动技术的显示装置。在使用透射型液晶面板的显示器的情况下，可通过明亮地点亮对应于具有高信号电平的区域的背光以及较暗地点亮对应于具有低信号电平的区域的背光来提高亮度对比度。这种类型的部分驱动型显示装置使得能够通过进一步利用上推(push up，增高)技术在部分地执行白色显示(同时保持整个背光的输出功率恒定)的情况下增强亮度，来实现高动态范围，在上推(push up，增高)技术中，将在黑暗部分中抑制的功率分配给具有高信号电平的区域以强烈地发光(例如，参见专利文献3)。
85.可替代地，图像显示单元107可以是3d显示器或能够在2d视频显示与3d视频显示
之间切换的显示器。此外，3d显示器可以是具有能够立体地观看的屏幕的显示器，诸如裸眼或者眼镜型3d显示器，以及使得能够根据视线方向观看不同视频并且具有改善的深度感知的全息显示器(或者光场显示器)(例如，参见专利文献4)。注意，裸眼3d显示器的示例包括使用视差屏障系统的显示器、以及使用多个液晶显示器增强深度效果的多层显示器(mld)。在3d显示器用于图像显示单元107的情况下，用户可以享受立体视频，使得可以提供更有效的观看体验。
86.或者，图像显示单元107可以是投影仪(或使用投影仪投影视频的电影院)。视频投影到具有任意形状的墙壁面上的投影映射技术或者叠加来自多个投影仪的投影视频的投影仪堆叠技术可以应用于投影仪。使用投影仪使得可以在相对大的屏幕上放大和显示视频，因此，其具有可以向多个人同时呈现相同视频的优点。
87.在投影仪用于图像显示单元107的情况下，结合穹型(圆顶，dome)屏幕使得可以将整个周围图像呈现给在圆顶中的用户(例如，参见专利文献5)。穹型屏幕可以是具有能够仅容纳一个用户的紧凑尺寸的穹型屏幕300(参见图3)，或者可以是具有能够容纳多个或大量用户的大尺寸穹型屏幕400(参见图4)。此外，在多组用户被成团地聚集在大尺寸穹型屏幕500中(参见图5)的情况下，代替将一个整个周围图像投影到整个屏幕上，可以将为每组用户选择的内容或者每组用户的用户界面(ui)投影并显示在用户组附近。
88.再次参考图2继续说明内容再现装置100的配置。
89.音频输出单元108输出在音频信号处理单元106中经过了音频信号处理(诸如声音质量增强)的音频。音频输出单元108包括诸如扬声器的声音产生元件。例如，音频输出单元108可以是多个扬声器被组合的扬声器阵列(多声道扬声器或超多声道扬声器)。
90.除了圆锥形扬声器之外，平板扬声器(例如，参见专利文献6)可以用于音频输出单元108。当然，可以将组合了不同类型的扬声器的扬声器阵列用作音频输出单元108。此外，扬声器阵列可以包括通过由产生振动的一个或多个振动器(致动器)振动图像显示单元107来执行音频输出的扬声器阵列。之后，振动器(致动器)可以被附接到图像显示单元107。
91.此外，构成音频输出单元108的一些或所有扬声器可从外部连接到内容再现装置100。外部扬声器可以具有放置在电视前面的形式，诸如条形音响，或者可以具有无线连接到电视的形式，诸如无线扬声器。此外，扬声器可以是经由放大器等连接至另一音频产品的扬声器。可替换地，外部扬声器可以是配备有扬声器并且能够进行音频输入的智能扬声器、有线或无线头戴式耳机/耳机、平板电脑、智能电话、个人计算机(pc)、所谓的智能家用电器(诸如冰箱、洗衣机、空调、真空吸尘器或照明器具)、或物联网(iot)家用电器。
92.在音频输出单元108包括多个扬声器的情况下，可以通过单独地控制从多个输出声道中的每个输出的音频信号来执行声音图像定位。此外，通过增加声道和复用扬声器的数量，可以以高分辨率控制声场。例如，通过组合使用多个定向扬声器或环形地布置多个扬声器，并调整从每个扬声器发出的声音的方位和响度，可在期望的发声坐标处产生声音图像。
93.传感器单元109包括配备在内容再现装置100的主体内部的传感器和外部连接到内容再现装置100的传感器两者。外部连接的传感器还包括内置在内容再现装置100所在的空间中的其他消费电子(ce)设备或iot装置中的传感器。在本实施方式中，假设从传感器单元109获得的传感器信息作为在视频信号处理单元105和音频信号处理单元106中使用的神
经网络的输入信息。然而，稍后将描述神经网络的细节。
94.c.其他装置的配置示例
95.图6示出了内容再现装置100的另一个配置示例。然而，与图2中所示的组件相同的组件由相同的名称和相同的参考标号表示，并且将省略描述或者将进行最小描述。
96.图6所示的内容再现装置100的特征在于，其配备有各种类型的导演设备110。导演设备110是除了内容的视频和声音之外刺激用户感觉以增强用户观看由内容再现装置100再现的内容的真实感的设备。因此，通过除了内容的视频和声音以外与用户正在观看的内容的视频和声音同步地刺激用户的感觉，内容再现装置100可增强用户的真实感并且执行身体感觉类型导演。
97.假设用户的感知通过导演设备110给予用户刺激而改变。例如，在创作者在创作内容时希望使用户感到恐惧的场景中，通过给出发送冷空气或吹水滴的导演效果来引起用户的恐惧感。身体感觉类型导演技术(也称为“4d”)已经被引入一些电影院等中，并且利用座位前后、上下、以及左右移动、风(冷空气、暖空气)、光(灯光等的开/关)、水(雾、飞溅)、气味、烟雾、物理运动等结合所展现的场景刺激观众的感觉。另一方面，在本实施例中，假设使用导演设备110，该导演设备110刺激观看正在电视接收器上再现的内容的用户的五种感觉。导演设备110的示例包括空调、电风扇、加热器、照明设备(天花板照明、立灯、台灯等)、喷雾器、芳香器以及烟雾器。此外，可穿戴设备、手持式设备、iot设备、超声阵列扬声器、自主设备(诸如无人机)可以用于导演设备110。这里所提到的可穿戴设备包括诸如手镯类型或首饰类型的设备。
98.导演设备110可以是已经安装在安装了内容再现装置100的房间中的家用电器，或者可以是用于向用户给予刺激的专用设备。此外，导演设备110可以是外部连接到内容再现装置100的外部设备或者安装在内容再现装置100的壳体中的内置设备。例如，作为外部设备配备的导演设备110经由家庭网络连接到内容再现装置100。
99.导演设备110包括使用风、温度、光、水(雾、飞溅)、气味、烟雾、物理运动等的各种类型的导演设备中的至少一个。针对内容的每个场景基于从导演控制单元111输出的控制信号驱动导演设备110(可替换地，与视频或音频同步)。例如，在导演设备110是使用风的导演设备的情况下，基于从导演控制单元111输出的控制信号来调整风速、风量、风压、风向、波动、送风的温度等。
100.在图6中所示的示例中，导演控制单元111是与信号处理单元150中的视频信号处理单元105和音频信号处理单元106类似的组件。视频信号和音频信号以及从传感器单元109输出的传感器信息被输入到导演控制单元111。导演控制单元111输出用于控制导演设备110的驱动的控制信号，以获得适合于视频和音频的每个场景的身体感觉类型导演效果。在图6所示的示例中，配置为将解码后的视频信号和音频信号输入导演控制单元111，但也可以配置为将解码前的视频信号和音频信号输入导演控制单元111。
101.在本实施例中，假设导演控制单元111通过人工智能模型来执行对导演设备110的驱动控制。期望利用云端人工智能服务器通过深度学习进行了初步学习的人工智能模型，实现对导演设备110的最优驱动控制。
102.图7示出了导演设备110位于作为内容再现装置100的电视接收器所在的房间中的安装示例。在图中的示例中，用户坐在椅子上，面向电视接收器的屏幕。
103.在安装电视接收器的房间中，空调701、配备在电视接收器中的风扇702和703、电风扇(未示出)、加热器(未示出)等被设置为使用风的导演设备110。在图7所示的示例中，风扇702和703被布置在电视接收器的壳体中，以便分别从电视接收器的大屏幕的上端边缘和下端边缘吹送空气。此外，空调701、风扇702和703以及加热器(未示出)也可以操作作为使用温度的导演设备110。假设用户的感知通过调节风扇702和703的风速、风量、风压、风向、波动、吹风的温度等而改变。
104.此外，诸如天花板照明704、立灯705和布置在安装有电视接收器的房间中的台灯(未示出)的照明设备可被用作使用光的导演设备110。假设用户的感知通过调节照明设备的光量、每个波长的光量、光束的方向等而改变。
105.此外，布置在安装有电视接收器的房间中的用于喷雾或飞溅的喷雾器706可用作使用水的导演设备110。假设用户的感知通过调节喷雾器706的喷雾量和喷射方向、颗粒直径、温度等而改变。
106.此外，在安装电视接收器的房间中，布置通过气体扩散等在空间中有效地释放期望的香味的芳香器(扩散器)707作为使用香味的导演设备110。假设用户的感知通过调节由芳香器707释放的香味的类型、浓度、持续时间等而改变。
107.此外，在安装电视接收器的房间中，将烟雾喷射到空气中的烟雾器(未示出)被布置为使用烟雾的导演设备110。典型的烟雾器将液化的二氧化碳气体瞬时喷射到空气中以产生白烟。假定用户的感知通过调节由烟雾器产生的烟雾量、烟雾浓度、喷射时间、烟雾颜色等而改变。
108.此外，安装在电视接收器的屏幕前方并且用户坐在其上的椅子708能够进行诸如前后、上下、左右移动以及振动移动的物理运动，并且被用作使用运动的导演设备110。例如，按摩椅可以用作这种类型的导演设备110。此外，由于椅子708与就座的用户紧密接触，可以通过在没有健康危害的程度给予用户电刺激、或者刺激用户的皮肤感觉(触觉)或触觉感觉来获得导演效果。
109.图7所示的导演设备110的安装示例仅仅是示例。除了所示的那些以外，可穿戴设备、手持式设备、iot设备、超声阵列扬声器、自主设备(诸如无人机)可用于导演设备110。这里所提到的可穿戴设备包括诸如手镯类型或首饰类型的装置。此外，在图像显示单元107包括穹型屏幕的情况下(图3至图5)，导演设备110可以安装在穹顶中。在其中多个用户组成团地聚集在大尺寸穹型屏幕500中(参见图5)的情况下，可以为每个用户组投影和显示内容，并且可以驱动为每个用户组布置的导演设备110。
110.d.感测功能
111.图8示意性示出了配备在内容再现装置100中的传感器单元109的配置示例。传感器单元109包括相机单元810、用户状态传感器单元820、环境传感器单元830、设备状态传感器单元840以及用户简档传感器单元850。在本实施例中，传感器单元109用于获取关于用户的观看状态的各种类型的信息。
112.相机单元810包括对正在观看显示在图像显示单元107上的视频内容的用户进行成像的相机811、对显示在图像显示单元107上的视频内容进行成像的相机812、以及对安装有内容再现装置100的房间(可替换地，安装环境)进行成像的相机813。对用户成像的相机811和对内容成像的相机812可各自包括多个相机。
113.例如，相机811被安装在图像显示单元107的屏幕的上端边缘的中心附近，并且适当地对正在观看视频内容的用户进行成像。相机812例如与图像显示单元107的屏幕相对地安装，并且对用户正在观看的视频内容进行成像。或者，用户可佩戴配备有相机812的眼镜。此外，假定相机812还包括记录视频内容的语音的功能。此外，相机813包括例如全穹顶(full dome，全球)相机或广角相机，并且对安装有内容再现装置100的房间(可替代地，安装环境)进行成像。可替代地，例如，相机813可以是放置在可围绕横滚、俯仰、和偏航的每个轴旋转的相机台(相机平台)上的相机。然而，在环境传感器830可以获取足够的环境数据的情况下或者在环境数据本身是不必要的情况下，相机830是不必要的。
114.用户状态传感器单元820包括获取关于用户的状态的状态信息的一个或多个传感器。用户状态传感器单元820旨在获取状态信息，诸如用户的工作状态(视频内容的观看与否)、用户的动作状态(诸如保持静止、行走和行驶的移动状态、眼睑打开/闭合状态、视线方向和瞳孔大小)、精神状态(印象程度、兴奋程度、清醒程度、感觉、情绪等，诸如用户是沉浸还是集中在视频内容中)、以及生理状态。用户状态传感器单元820可以包括各种传感器，诸如出汗传感器、肌电电位传感器、眼电位传感器、脑电波传感器、呼吸传感器、气体传感器、离子浓度传感器和测量用户的行为的惯性测量单元(imu)、以及收集用户的话语的音频传感器(麦克风等)。用户状态传感器820可以以可穿戴设备的形式附接到用户的身体。注意，麦克风不必与内容再现装置100集成，并且可以是安装在放置在电视前面的产品上的麦克风，诸如条形音响。此外，可以使用以有线或无线方式连接的外部麦克风安装设备。外部麦克风安装设备可以是智能扬声器、无线头戴式耳机/耳机、平板电脑、智能电话、pc、所谓的智能家用电器(诸如冰箱、洗衣机、空调、真空吸尘器、或照明器具)、或备有麦克风并且能够进行音频输入的iot家用电器。
115.环境传感器单元830包括测量关于环境的信息的各种传感器，环境诸如安装有内容再现装置100的房间。例如，环境传感器单元830包括温度传感器、湿度传感器、光学传感器、照度传感器、气流传感器、气味传感器、电磁波传感器、地磁传感器、全球定位系统(gps)传感器和收集环境声音的音频传感器(麦克风等)。此外，环境传感器单元830可获取诸如放置了内容再现装置100的房间的大小、房间中的用户的数量、用户的位置(在存在多个用户的情况下，每个用户的位置或用户的中心位置)、房间的亮度等信息。环境传感器单元830可以获取关于区域特性的信息。
116.设备状态传感器单元840包括获取内容再现装置100的内部状态的一个或多个传感器。可替换地，诸如视频解码单元102和音频解码单元103的电路组件可具有外部输出输入信号的状态、处理输入信号的状态等的功能，并且可起到检测设备内部的状态的传感器的作用。此外，设备状态传感器单元840可以检测用户对内容再现装置100或另一设备执行的操作，或者可以保存用户的过去操作历史。用户的操作可包括针对内容再现装置100和其他设备的遥控操作。这里提到的其他设备可以是平板、智能电话、pc、所谓的智能家用电器(诸如冰箱、洗衣机、空调、真空吸尘器或照明器具)或iot家用电器。此外，设备状态传感器单元840可以获取关于设备的性能和规格的信息。设备状态传感器单元840可以是诸如其中记录了关于设备的性能和规格的信息的存储器(内置只读存储器(rom))，或者可以是从这样的存储器读取信息的读取器。
117.用户简档传感器单元850检测关于利用内容再现装置100观看视频内容的用户的
简档信息。用户简档传感器单元850不必包括传感器元件。例如，可以基于通过相机811成像的用户的面部图像、通过音频传感器收集的用户的话语等，来估计诸如用户的年龄和性别的用户简档。此外，通过内容再现装置100和智能电话之间的协作可获取在由用户携带的多功能信息终端(例如，智能电话)上获取的用户简档。然而，用户简档传感器单元甚至不需要检测与用户的隐私和机密性相关的敏感信息。此外，不必每次观看视频内容时检测同一用户的简档，并且用户简档传感器单元可以是存储一次获取的用户简档信息的存储器，诸如电可擦可编程rom(eeprom)。
118.此外，通过内容再现装置100与智能电话之间的协作，由用户携带的多功能信息终端(诸如智能电话)可用作用户状态传感器单元820、环境传感器单元830或用户简档传感器单元850。例如，由内置在智能电话中的传感器获取的传感器信息和由诸如保健功能(计步器等)、日历、日程表、备忘录、电子邮件、浏览器历史、社交网络服务(sns)的发布和浏览历史等应用管理的数据可被添加到用户的状态数据和环境数据。此外，内置在内容再现装置100所在的空间中的其他ce设备或iot装置中的传感器可以用作用户状态传感器单元820或环境传感器单元830。此外，可通过对讲的声音或与对讲系统的通信来检测访客。此外，获取并分析从内容再现装置100输出的视频或音频的亮度计或频谱分析单元可被设置为传感器。
119.e.内容观看的优化
120.通常的情况是，用户在观看从电视节目或视频分发服务分发的内容、记录介质的再现内容等时会对这些内容感到厌烦，并且没有找到用户接下来想要观看的内容。在这种情况下，用户需要切换频道并搜索用户想要观看的节目。电视节目的频道数量是有限的，但是视频分发服务的频道数量(可替换地，能够观看的内容的数量)是巨大的，并且用户难以从他们之中搜索适合于可刺激用户的好奇心的用户的内容。
121.因此，在本公开中，通过收集对内容感兴趣的人的大量反应，将关于高度感兴趣的内容的信息自动提供给已对正在观看的内容变得厌烦的用户。此外，在本公开中，当向用户呈现关于推荐内容的信息时，使用不阻碍内容观看的ui，并且用户可以通过ui操作切换到推荐内容。注意，在下文中，当简单地提及ui时，应当理解，除了ui之外，还包括用户体验(ux)。
122.图9示出了用于收集对内容再现装置100中的内容感兴趣的用户的反应的功能配置示例。基本上使用内容再现装置100中的组件配置图9所示的功能配置。
123.接收单元901接收包括视频流和音频流的内容。接收的内容可以包括元数据。内容包括从广播站(广播塔、广播卫星等)发送的广播内容、从iptv、ott或视频共享服务递送的流内容、以及从记录介质再现的再现内容。然后，接收单元901将所接收的内容解复用为视频流、语音流以及元数据，并且在后续阶段中将它们输出至信号处理单元902和缓冲单元906。接收单元901例如对应于图2中的外部接口单元110和解复用器101。
124.例如，信号处理单元902对应于图2中的视频解码单元102、音频解码单元103以及信号处理单元150，对从接收单元901输入的视频流和语音流中的每一个进行解码，并且将经过了视频信号处理和音频信号处理的视频信号和音频信号输出至输出单元903。输出单元903对应于图2中的图像显示单元107和音频输出单元108。此外，信号处理单元902可以将经过信号处理之后的视频信号和语音信号输出到缓冲单元906。
125.缓冲单元906包括视频缓冲器和音频缓冲器，并且在一定时间段内临时保持由信号处理单元902解码的视频信息和语音信息中的每一个。这里提到的一定时间段对应于例如从视频内容获取用户注视的场景所需的处理时间。
126.传感器单元904对应于图2中的传感器单元109，并且基本上包括图8中所示的传感器组800。当用户正在观看从输出单元903输出的内容时，传感器单元904将通过相机811成像的用户的面部图像、通过用户状态传感器单元820感测的生物信息等输出至注视度估计单元905。此外，传感器单元904也可以将由相机813成像的图像、由环境传感器单元830感测的室内环境信息等输出至注视度估计单元905。
127.注视度估计单元905基于从传感器单元904输出的传感器信息估计用户正在观看的视频内容的注视度。在本实施方式中，假设注视度估计单元905基于传感器信息通过人工智能模型执行估计用户的注视度的处理。例如，注视度估计单元905基于面部表情的图像识别结果(诸如用户的瞳孔的扩张或很大地张开嘴)来估计用户的注视度。当然，除了由相机811成像的图像之外，注视度估计单元905还可输入有传感器信息并且通过人工智能模型来估计用户的注视度。
128.当注视度估计单元905估计的用户注视度高时，即，在与用户对用户正在观看的内容表现出兴趣的反应相同的时间或者前几秒时，观看信息获取单元907从缓冲单元906获取视频和音频流。然后，发送单元908将包括用户感兴趣的视频和语音流的观看信息与此时的传感器信息一起发送给云端的人工智能服务器。例如，观看信息获取单元907被布置在图2中的信号处理单元150中。此外，例如，发送单元908对应于图2中的外部接口单元110。
129.人工智能服务器可从大量内容再现装置收集对内容感兴趣的人的大量反应，即，用户表现出兴趣的观看信息和传感器信息。然后，使用从大量内容再现装置收集的信息作为学习数据，人工智能服务器执行人工智能模型的深度学习，用于估计对正在观看的内容变得厌烦的用户表现出高度兴趣的内容。人工智能模型由神经网络表示。图10示意性示出了人工智能服务器1000的功能配置示例，人工智能服务器对神经网络执行深度学习，神经网络用于估计对正在观看的内容感到厌烦的用户表现出高度兴趣的内容的处理。假定在云端构建人工智能服务器1000。
130.用于学习数据的数据库1001累积了从大量内容再现装置100(例如，每个家庭的电视接收器)上传的大量学习数据。假设学习数据包括每个内容再现装置获取的用户的兴趣的观看信息和传感器信息以及观看内容的评价值。例如，评价值可以是用户对观看内容的简单评价(好或不好)。
131.用于内容推荐处理的神经网络1002根据从用于学习数据的数据库1001读取的观看信息与传感器信息之间的因果关系，来估计匹配用户的最佳内容。
132.评价单元1003评价神经网络1002的学习结果。具体地，当输入从用于学习数据的数据库1001读取训练数据时，评价单元1003基于从神经网络1002输出的推荐内容和从神经网络1002输出的视频流之间的差来定义损失函数。例如，训练数据是对正在观看的内容感到厌烦的用户接下来选择的内容的观看信息以及用户对所选择的内容的评价结果。注意，可通过执行加权来定义损失函数，诸如增加与具有用户高评价结果的训练数据的差的权重和增加与具有用户低评价结果的训练数据的差的权重。然后，评价单元1003通过反向传播执行神经网络1002的深度学习，以便使损失函数最小化。
133.图11示出了用于当用户对内容再现装置100中正在观看的内容厌烦时向用户呈现关于推荐内容的信息的功能配置。基本上使用内容再现装置100中的组件配置图11中所示的功能配置。
134.接收单元1101接收包括视频流和音频流的内容。接收的内容可以包括元数据。内容包括广播内容、从iptv、ott或者视频共享服务递送的流内容、以及从记录介质再现的再现内容。然后，接收单元1101将所接收的内容解复用为视频流、语音流以及元数据，并且在后续阶段中将它们输出至信号处理单元1102。接收单元1101例如对应于图2中的外部接口单元110和解复用器101。
135.信号处理单元1102对应于图2中的视频解码单元102、音频解码单元103和信号处理单元150，例如，对从接收单元1101输入的视频流和语音流中的每一个进行解码，并且将经过了视频信号处理和音频信号处理的视频信号和音频信号输出到输出单元1103。输出单元1103对应于图2中的图像显示单元107和音频输出单元108。
136.传感器单元1104对应于图2中的传感器单元109，并且基本上包括图8中所示的传感器组800。当用户观看从输出单元1103输出的内容时，传感器单元1104将通过相机811成像的用户的面部图像、通过用户状态传感器单元820感测的生物信息等输出至注视度估计单元1105。此外，传感器单元1104还可以将由相机813成像的图像、由环境传感器单元830感测的室内环境信息等输出至注视度估计单元1105。
137.注视度估计单元1105基于从传感器单元1104输出的传感器信息估计用户对正在观看的视频内容的注视度。因为当收集对内容感兴趣的用户的反应时，通过与注视度估计单元905(参见图9)的处理相似的处理来估计用户的注视度，所以在此将省略详细描述。
138.在注视度估计单元1105的估计结果指示用户已经对正在观看的内容感到厌烦的情况下，信息请求单元1107请求关于应当推荐给用户的内容的信息。具体地，信息请求单元1107执行将由用户观看的内容的观看信息和此时的传感器信息从发送单元1108发送到云端的内容推荐系统的操作。此外，在用户对正在观看的内容感到厌烦时，信息请求单元1107指示ui控制单元1106对ui屏幕的显示操作，以及关于从内容推荐系统提供的内容的信息的ui显示。例如，信息请求单元1107被布置在图2中的信号处理单元150中。此外，例如，发送单元1108对应于图2中的外部接口单元110。
139.稍后将描述内容推荐系统的细节。接收单元1101从内容推荐系统接收关于应当向用户推荐的内容的信息。
140.在用户对正在观看的内容感到厌烦时，ui控制单元1106执行ui屏幕的显示操作，并且执行关于从内容推荐系统提供的内容的信息的ui显示。
141.这里，在内容再现装置100中，将参照图12至图16描述根据用户正在观看的内容的注视度的改变进行的画面转换示例。
142.图12示出了紧接在开始内容再现之后的显示画面。内容包括广播内容、从iptv、ott或者视频共享服务递送的流内容、以及从记录介质再现的再现内容。紧接在开始内容的再现之后(紧接在频道切换之后、紧接在开始流接收之后、紧接在开始从记录介质的再现之后等)，在全屏幕上显示再现内容的视频。此后，在用户对该再现内容的注视度或兴趣保持较高时，保持再现内容的全屏显示。
143.此后，当用户对再现内容的注视度或兴趣减小时，再现内容的显示区域收缩，如图
13中所示，并且在屏幕的外围部分中出现空闲空间。此外，如图14所示，当用户对再现内容的注视度或兴趣进一步减小时，再现内容的显示区域可根据减小的程度进一步缩小。
144.应注意，在内容再现装置100被配置为配备有如图6中所示的导演设备110的情况下，导演控制单元111可基于用户对再现内容的注视度来控制导演设备110。在用户注视或者沉浸在再现的内容中的情况下，可以通过操作导演设备110以产生导演效果来增强用户的真实感并且实现身体感类型导演。另一方面，如果在用户对再现内容的注视度或兴趣减小时给出导演效果，则对用户来说变得恼怒。因此，当用户对再现内容的注视度减小时，导演控制单元111可以抑制导演设备110的输出或者停止导演设备110的操作。
145.在任何情况下，在用户兴趣降低的再现内容的显示区域周围，确保用于显示从内容推荐系统提供的推荐内容的信息的空间。此外，在转换了画面的背景中，内容再现装置100执行以下处理：将用户观看的内容的观看信息和此时的传感器信息发送至云端的内容推荐系统，从内容推荐系统获取关于推荐的内容的信息，并且执行ui显示。
146.注意，在再现内容的显示区域缩小之后直到从内容推荐系统递送关于推荐内容的信息为止发生延迟时间的情况下，可以原样保留空闲空间，或者可以利用其他内容(诸如广告信息)填充空闲空间。
147.然后，当从内容推荐系统获得关于推荐内容的信息时，内容再现装置100执行推荐内容的ui显示操作。图15示出了在空闲空间中显示关于推荐内容的信息的画面配置示例。在图15中所示的示例中，内容的缩略图图像被显示为关于推荐内容的信息，但是可显示与内容(例如，广播节目的内容)相关的信息。注意，在即使显示了从内容推荐系统发送的关于推荐内容的所有信息，也没有填满空闲空间的情况下，在未填充的空间中可以显示诸如广告信息的其他内容。此外，如图16所示，关于内容的相关信息可由化身的语音引导。
148.如图12至图16中所示，根据缩小再现内容的显示区域以缩小推荐内容的显示区域并确保推荐内容的显示区域的方法，用户可确认关于推荐内容的相关信息而不中断原始再现内容的观看。此外，用户可以通过在推荐内容的显示区域中的ui操作(例如，用鼠标点击、对触摸屏触摸等)选择接下来想要观看的内容。
149.图17示出了在内容再现屏幕上显示关于推荐内容的相关信息的画面的另一配置示例。在图17中所示的示例中，再现内容的显示区域没有缩小。或者，可缩小再现内容的显示区域。然后，在再现内容的显示区域重叠显示浮起和消失的气泡，使用该气泡显示推荐内容的相关信息。当气泡出现时，暂时难以看到再现内容，但是气泡迅速消失。因此，用户可在不中断观看原始再现内容的情况下确认关于推荐内容的相关信息。此外，用户可以通过针对期望接下来观看的内容的气泡的ui操作(例如，用鼠标点击、对触摸屏触摸等)来选择期望接下来观看的内容。当然，类似于图16，关于内容的相关信息可以由化身的语音引导。
150.图18示出了向内容再现装置100提供关于向用户推荐的内容的信息的内容推荐系统1800的功能配置示例。假设在云端构建内容推荐系统1800。然而，内容推荐系统1800的部分或全部处理可被合并到内容再现装置100中。
151.接收单元1801从请求源的内容再现装置100接收用户观看的内容的观看信息和此时的传感器信息。
152.推荐内容估计单元1802根据自请求源的内容再现装置100接收的观看信息和传感器信息之间的因果关系估计要推荐给用户的内容。假设推荐内容估计单元1802使用由图10
中所示的人工智能服务器1000执行了深度学习的神经网络1002来估计向用户推荐的内容。推荐内容估计单元1802优选地估计多条内容以便给予用户选择范围。
153.内容相关信息获取单元1803在云端检索并获取关于由推荐内容估计单元1802估计的每个内容的相关信息。在内容是广播节目的内容的情况下，例如，关于内容的相关信息包括诸如节目名称、表演者名称、节目内容的概要和关键字的文本数据。
154.相关信息输出控制单元1804进行向用户呈现与由内容相关信息获取单元1803通过检索云而获取的内容有关的相关信息的输出控制。存在向用户呈现相关信息的各种方法。例如，存在在通过缩小再现内容的显示区域而保证的空闲空间中显示关于内容的相关信息的列表的方法(例如，见图13至图15)、通过使用出现和消失的气泡显示关于内容的相关信息的方法(例如，见图17)以及通过使用化身引导关于内容的相关信息的方法(例如，见图16)。相关信息输出控制单元1804使用这些方法生成用于呈现相关信息的ui的控制信息。
155.发送单元1805将关于内容的相关信息及其输出控制信息回复给请求源的内容再现装置100。请求源的内容再现装置100侧基于关于从内容推荐系统1800接收的内容的相关信息和输出控制信息，进行关于由内容推荐系统提供的内容的信息的ui显示。
156.当用户厌烦由内容再现装置100再现的内容时，关于从内容推荐系统提供的推荐内容的信息被呈现在不妨碍内容观看的ui上。然后，用户可通过ui操作切换到推荐的内容。
157.图25示出了在内容再现装置100与内容推荐系统1800之间执行的顺序示例。
158.内容推荐系统1800继续执行用于内容推荐处理的人工智能模型的深度学习。
159.另一方面，当内容的再现开始时，即，开始用户观看内容时，内容再现装置100执行用户的注视度估计处理(seq 2501)。
160.此后，当估计用户的注视度已减小，即，用户对再现的内容感到厌烦时(seq 2502)，内容再现装置100将观看信息和传感器信息发送到内容推荐系统1800，并请求用户提供关于推荐内容的信息(seq 2503)。
161.内容推荐系统1800根据从内容再现装置100发送的观看信息和传感器信息之间的因果关系，使用深度学习的人工智能模型估计与用户匹配的最佳内容，进一步检索并获取关于云端的每个内容的相关信息，生成关于呈现内容的相关信息的ui的控制信息(seq 2504)，并将关于推荐内容的相关信息和ui的控制信息发送到内容再现装置100(seq 2505)。
162.当估计用户已经对正在观看的内容感到厌烦时，内容再现装置100缩小图像显示单元107的屏幕上的再现内容的显示区域。然后，当从内容推荐系统1800接收关于推荐内容的相关信息和ui的控制信息时，内容再现装置100在通过缩小再现内容的显示区域而获得的空闲空间中显示关于推荐内容的相关信息(seq 2506)。此外，当用户通过ui操作选择期望接下来观看的内容时，停止再现正在再现的内容，并且开始再现由用户选择的内容(seq 2507)。
163.f.区域的内容观看的优化
164.在本公开中，通过收集对内容感兴趣的人的大量反应，将关于高度感兴趣的内容的信息自动提供给对正在观看的内容变得厌烦的用户。此外，在本公开中，通过还收集用户正在观看内容的环境信息，可以根据区域特性向用户提供关于内容的信息，实现了区域事件的激活和该区域的消费改善。此外，在本公开中，当向用户呈现关于推荐内容的信息时，
使用不阻碍内容观看的ui，并且用户可以通过ui操作切换到推荐内容。
165.注意，这里提到的区域特性是指根据行政划分(诸如国家、辖区和直辖市)的特性，或者地理或地形的差异。作为扩展的解释，区域特性可以包括根据空间差异、观看环境下(例如，房间中)的人数、谈话内容、亮度、温度、湿度和气味的特性。
166.图19示出了用于收集对内容再现装置100中的内容感兴趣的用户的反应的功能配置示例。图19中所示的功能配置基本上使用内容再现装置100中的部件来配置。
167.接收单元1901接收包括视频流和音频流的内容。接收的内容可以包括元数据。内容包括从广播站(广播塔、广播卫星等)发送的广播内容、从iptv、ott或视频共享服务递送的流内容、以及从记录介质再现的再现内容。然后，接收单元901将所接收的内容解复用为视频流、语音流以及元数据，并且在后续阶段中将它们输出至信号处理单元1902和缓冲单元1906。接收单元1901例如对应于图2中的外部接口单元110和解复用器101。
168.信号处理单元1902对应于图2中的视频解码单元102、音频解码单元103和信号处理单元150，例如，对从接收单元1901输入的视频流和语音流中的每一个进行解码，并且将经过了视频信号处理和音频信号处理的视频信号和音频信号输出至输出单元1903。输出单元1903对应于图2中的图像显示单元107和音频输出单元108。此外，信号处理单元1902可以将信号处理后的视频信号和语音信号输出到缓冲单元1906。
169.缓冲单元1906包括视频缓冲器和音频缓冲器，并且在一定时间段内临时保持由信号处理单元1902解码的视频信息和语音信息中的每个。这里提到的一定时间段对应于例如从视频内容获取用户注视的场景所需的处理时间。
170.传感器单元1904对应于图2中的传感器单元109，并且基本上包括图8中所示的传感器组800。当用户正在观看从输出单元903输出的内容时，传感器单元1904将通过相机811成像的用户的面部图像、通过用户状态传感器单元820感测的生物信息等输出至注视度估计单元1905。此外，传感器单元904还可将由相机813成像的图像、由环境传感器单元830感测的室内环境信息等输出至观看信息获取单元1905。
171.注视度估计单元1905基于从传感器单元1904输出的传感器信息估计用户正在观看的视频内容的注视度。在本实施例中，假定注视度估计单元1905通过人工智能模型执行基于传感器信息估计用户的注视度的处理。例如，注视度估计单元1905基于面部表情的图像识别结果(诸如用户的瞳孔的扩张或大幅度张开嘴)来估计用户的注视度。当然，注视度估计单元1905也可以输入除了由相机811成像的图像之外的传感器信息并且通过人工智能模型估计用户的注视度。
172.当注视度估计单元1905估计的用户注视度高时，即，在与用户对用户正在观看的内容感兴趣的反应的同时或者几秒钟之前，观看信息获取单元1907从缓冲单元1906获取视频和音频流。此外，观看信息获取单元1907从传感器单元1904获取用户正在观看内容的环境信息。然后，发送单元1908将包括用户感兴趣的视频和语音流的观看信息与那时的传感器信息一起发送至云端的人工智能服务器，那时的传感器信息包括用户状态和环境信息。然而，诸如环境信息的传感器信息可以包括敏感信息。因此，诸如环境信息的传感器信息被应用于过滤器1909，使得不会发生诸如侵犯隐私的问题。例如，观看信息获取单元1907被布置在图2中的信号处理单元150中。此外，例如，发送单元1908对应于图2中的外部接口单元110。此外，尽管过滤器1909被布置在发送单元1908的输出侧上，但是其可以被布置在传感
器单元1904的输出侧或者云侧上。
173.人工智能服务器可从大量内容再现装置收集对内容感兴趣的人的大量反应，即，用户感兴趣的观看信息以及包括用户观看内容的状态和环境信息的传感器信息。然后，使用从大量内容再现装置收集的信息作为学习数据，人工智能服务器执行人工智能模型的深度学习，以用于根据区域特性估计与用户匹配的内容。人工智能模型由神经网络表示。图20示意性示出了对用于估计内容的处理的神经网络执行深度学习的人工智能服务器2000的功能配置示例，其中，对正在观看的内容感到厌烦的用户对上述估计的内容表现出高度兴趣。假定在云端构建人工智能服务器2000。
174.用于学习数据的数据库2001累积从大量内容再现装置100(例如，每个家庭的电视接收器)上传的大量学习数据。假设学习数据包括由每个内容再现装置获取的用户兴趣的观看信息和传感器信息以及观看内容的评价值。传感器信息包括用户状态和环境信息。此外，例如，评价值可以是用户对观看内容的简单评价(好或不好)。
175.用于内容推荐处理的神经网络2002根据从用于学习数据的数据库2001读取的观看信息和诸如环境信息的传感器信息之间的因果关系，基于区域特性来估计与用户匹配的内容。注意，这里推荐的内容可以包括在区域中举行的事件、音乐会、艺术家的推广活动和电影。
176.评价单元2003评价神经网络2002的学习结果。具体地，当输入从用于学习数据的数据库2001读取的训练数据时，评价单元2003基于从神经网络2002输出的关于每个区域的推荐内容和从神经网络2002输出的视频流之间的差来定义损失函数。例如，训练数据是对正在观看的内容感到厌烦的用户接下来选择的内容的观看信息以及每个区域的用户对所选择的内容的评价结果。注意，可通过执行加权来定义损失函数，诸如增加与具有用户的高评价结果的训练数据的差的权重和增加与具有用户的低评价结果的训练数据的差的权重。然后，评价单元2003通过反向传播执行神经网络2002的深度学习，以便使损失函数最小化。
177.神经网络2002的深度学习“根据区域特性”执行。因此，即使不同区域中的用户在观看相同内容时类似地感到厌烦，由于区域特性的差异，神经网络2002也可学习将不同内容匹配到每个区域中的用户。通过经由神经网络2002根据区域特性在用户和内容之间执行匹配，预期实现了区域事件的激活和该区域的消费改善。
178.图21示出了当用户对内容再现装置100中正在观看的内容感到厌烦时，向用户呈现关于根据区域特性推荐的内容的信息的功能配置。图21中所示的功能配置基本上使用内容再现装置100中的部件配置。
179.接收单元2101接收包括视频流和音频流的内容。接收的内容可以包括元数据。内容包括广播内容、从iptv、ott或者视频共享服务递送的流内容、以及从记录介质再现的再现内容。然后，接收单元2101将接收的内容解复用为视频流、语音流以及元数据，并且在后续阶段将它们输出至信号处理单元2102。接收单元1101例如对应于图2中的外部接口单元110和解复用器101。
180.信号处理单元2102对应于图2中的视频解码单元102、音频解码单元103和信号处理单元150，例如，对从接收单元2101输入的视频流和语音流中的每一个进行解码，并且将经过了视频信号处理和音频信号处理的视频信号和音频信号输出到输出单元2103。输出单元2103对应于图2中的图像显示单元107和音频输出单元108。
181.传感器单元2104对应于图2中的传感器单元109，并且基本上包括图8中所示的传感器组800。当用户正在观看从输出单元2103输出的内容时，传感器单元2104将通过相机811成像的用户的面部图像、通过用户状态传感器单元820感测的生物信息等输出至注视度估计单元905。此外，传感器单元2104还可以将由相机813成像的图像、由环境传感器单元830感测的室内环境信息等输出至注视度估计单元2105。因此，诸如环境信息的传感器信息被应用于过滤器2109，使得不会发生诸如侵犯隐私的问题。
182.注视度估计单元2105基于从传感器单元2104输出的传感器信息估计用户正在观看的视频内容的注视度。因为当收集对内容感兴趣的用户的反应时，通过与注视度估计单元905(参见图9)的处理相似的处理来估计用户的注视度，所以在此将省略详细描述。
183.在注视度估计单元2105的估计结果指示用户对正在观看的内容感到厌烦的情况下，信息请求单元2107请求关于应当被推荐给用户的内容的信息。具体地，信息请求单元2107执行以下操作：将由用户观看的内容的观看信息以及包括此时的用户状态和环境信息的传感器信息从发送单元2108发送至云端的内容推荐系统。此外，信息请求单元2107指示ui控制单元2106在用户对正在观看的内容感到厌烦时的ui屏幕的显示操作，以及关于从内容推荐系统提供的内容的信息的ui显示。例如，信息请求单元2107被布置在图2中的信号处理单元150中。此外，例如，发送单元2108对应于图2中的外部接口单元110。此外，尽管过滤器2109被布置在发送单元2108的输出侧上，但它可以被布置在传感器单元2104的输出侧或云侧上。
184.稍后将描述内容推荐系统的细节。接收单元2101从内容推荐系统接收关于根据区域特性向用户推荐的内容的信息。
185.ui控制单元2106执行当用户对正在观看的内容感到厌烦时的ui屏幕的显示操作，以及关于从内容推荐系统提供的内容的信息的ui显示。
186.例如，根据用户观看的内容的注视度的改变的画面转换与在图12到图17中所示的示例中的画面转换相似。然而，由于内容推荐系统根据区域特性在用户与内容之间执行匹配，因此即使不同区域中的用户在观看相同内容时类似地感到厌烦，也存在由于区域特性的差异而推荐不同内容的情况。因此，在用于每个区域的内容再现装置100中，当用户对正在观看的内容感到厌烦时，呈现根据区域特性推荐的内容，因此预期会实现区域事件的激活和该区域的消费的改进。
187.图22示出向内容再现装置100提供与向用户推荐的内容有关的信息的内容推荐系统2200的功能配置示例。假设在云端构建内容推荐系统2200。然而，内容推荐系统2200的部分或全部处理可被合并到内容再现装置100中。
188.接收单元2201从请求源的内容再现装置100接收由用户观看的内容的观看信息以及包括那时的用户状态和环境信息的传感器信息。
189.推荐内容估计单元2202根据从作为请求源的内容再现装置100接收的观看信息和包括用户状态和环境信息的传感器信息之间的因果关系，根据区域特性来估计与用户匹配的内容。假设推荐内容估计单元2202使用神经网络2002估计推荐给用户的内容，其中，通过图20所示的人工智能服务器2000已经对神经网络执行了深度学习。推荐内容估计单元2202优选地估计多条内容，以给予用户选择范围。
190.内容相关信息获取单元2203在云端检索并获取关于由推荐内容估计单元2202估
计的每个内容的相关信息。在内容是广播节目的内容的情况下，例如，关于内容的相关信息包括诸如节目名称、表演者名称、节目内容的概要和关键字的文本数据。此外，这里推荐的内容可以包括在区域中举行的事件、音乐会、艺术家的推广活动和电影。在这种情况下，关于内容的相关信息包括诸如事件的举办地点、事件的日期和时间、事件参与者和入场费用的信息。
191.相关信息输出控制单元2204进行输出控制，该输出控制用于向用户提供内容相关信息获取单元2203通过检索云而获取的内容的相关信息。存在向用户提供相关信息的各种方法。例如，存在在通过缩小再现内容的显示区域而保证的空闲空间中显示关于内容的相关信息的列表的方法(例如，见图13至图15)、通过使用出现和消失的气泡显示关于内容的相关信息的方法(例如，见图17)以及通过使用化身引导关于内容的相关信息的方法(例如，见图16)。相关信息输出控制单元2204使用这些方法生成用于呈现相关信息的ui的控制信息。
192.发送单元2205将关于内容的相关信息及其输出控制信息回复到请求源的内容再现装置100。请求源的内容再现装置100侧基于从内容推荐系统2200接收到的内容的相关信息和输出控制信息，进行内容推荐系统所提供的内容的信息的ui显示。
193.当用户厌烦由内容再现装置100再现的内容时，关于从内容推荐系统提供的推荐内容的信息被呈现在不妨碍内容观看的ui上。然后，用户可通过ui操作切换到推荐的内容。此外，内容推荐系统根据区域特性来推荐内容。因此，通过根据区域特性在用户和内容之间执行匹配，预期实现了区域事件的激活和该区域的消费改善。
194.此外，作为区域特性的扩展解释，区域特性包括根据空间的差异、观看环境下(例如，房间中)的人的数量、谈话的内容、亮度、温度、湿度和气味的特征。不管规模如何，该区域可以是具有共同兴趣并交换信息的人的集合(社区)，并且区域特性还包括社区的特性。
195.例如，在大尺寸穹型屏幕500中成团地聚集多个用户组，并且投影和显示为每个用户组选择的内容或每个用户组的ui的情况下，为每个聚集的用户组成立社区，并且每个组具有个体区域特性。因此，在穹型屏幕500中，执行ui控制，在该ui控制中，为每个用户组估计用户对再现内容的注视度，并且根据注视度的改变为每个用户组(即，根据区域特性)呈现内容推荐和推荐内容。
196.图23示出了执行ui控制的状态，其中，在估计用户对再现内容的注视度在用户组1到3中的每个中减小时，基于估计结果缩小再现内容的投影图像，并且在空闲空间中显示关于推荐内容的相关信息。
197.即使所有用户组首先观看相同的内容，当估计每个用户组对内容感到厌烦时，内容推荐系统根据每个用户组的特性的差异(即，区域特性的差异)来针对每个用户组匹配不同内容。然后，投影并显示用于为每个用户组推荐不同内容的ui。此外，对于每个用户组，用户在观看期间感到厌烦的时间也不同，并且转换到用于推荐内容的ui的时间也根据每个用户组而不同。
198.此外，社区被配置用于每个家庭共享一个内容再现装置100(诸如电视接收器)，并且每个家庭具有区域特性。因此，执行ui控制，在ui控制中，以家庭为单位估计用户的注视度，并且根据注视度的改变来针对每个家庭(即，根据区域特性)呈现内容推荐和推荐内容。
199.图24示出了三个家庭2401至2403布置在空间中的状态。
200.内容再现装置100布置在家庭2401至2403中的每个中，并且假设多个用户(家庭成员)一起观看再现内容。对于每个家庭，诸如观看再现内容的用户的数量、谈话的内容、亮度、温度、湿度和气味的区域特性是不同的。在图24中，家庭2401和家庭2402被布置为彼此相对靠近，并且家庭2403被布置为远离家庭2401和2402，但是空间距离不一定与区域特性的差异的大小一致。例如，还假设家庭2401和家庭2403具有接近的区域特性，但是家庭2401和家庭2402在空间上接近，但具有大大不同的区域特性。
201.即使首先在所有家庭中观看相同的内容，当估计每个家庭对内容感到厌烦时，内容推荐系统根据每个家庭的特性(即，区域特性)的差异，针对每个家庭匹配不同的内容。然后，投影并显示针对每个家庭推荐不同内容的ui。此外，用户在观看期间变得厌烦的时间也因家庭而异，并且转换到推荐内容的ui的时间也因家庭而异。
202.图26示出在内容再现装置100与内容推荐系统2200之间执行的顺序示例。
203.内容推荐系统2200继续执行用于内容推荐处理的人工智能模型的深度学习。
204.另一方面，当内容的再现开始时，即，开始用户观看内容时，内容再现装置100执行用户的注视度估计处理(seq 2601)。
205.此后，当估计用户的注视度降低，即，用户对再现的内容感到厌烦时(seq 2602)，内容再现装置100将观看信息和传感器信息发送到内容推荐系统2200，并请求提供关于向用户推荐的内容的信息(seq 2603)。
206.使用深度学习的人工智能模型，内容推荐系统2200从内容再现装置100发送的观看信息和包括环境信息的传感器信息之间的因果关系，根据区域特性执行用户和内容之间的匹配，进一步检索并获取关于云端的每个内容的相关信息，生成关于呈现关于内容的相关信息的ui的控制信息(seq 2604)，并将关于推荐内容的相关信息和ui的控制信息发送到内容再现装置100(seq 2605)。
207.当估计用户已经对正在观看的内容感到厌烦时，内容再现装置100缩小图像显示单元107的屏幕上的再现内容的显示区域。然后，当从内容推荐系统2200接收关于根据区域特性推荐的内容的相关信息和ui的控制信息时，内容再现装置100在通过缩小再现内容的显示区域而获得的空闲空间中显示关于推荐内容的相关信息(seq 2606)。此外，当用户通过ui操作选择接下来想要观看的内容时，停止再现正在再现的内容，并且开始再现由用户选择的内容(seq 2607)。
208.工业实用性
209.上面已经参考具体实施方式详细描述了本公开。然而，显而易见的是，在不背离本公开的主旨的情况下，本领域技术人员可对实施方式进行修改和替换。
210.在本说明书中，已经主要描述了本公开应用于电视接收器的实施方式，但是本公开的要旨不限于此。本公开可以类似地应用于将通过经由广播波或互联网流式传输或下载获取的内容或从记录介质(例如，个人计算机、智能电话、平板电脑、头戴式显示器、媒体播放器等)再现的内容呈现给用户的各种类型的设备。
211.简而言之，已经以例示的形式描述了本公开，并且不应当以限制的方式解释本说明书中描述的内容。为了判断本公开的要点，应当考虑权利要求。
212.应注意，本公开可具有以下配置。
213.(1)一种信息处理装置，包括：
214.估计单元，估计观看内容的用户的注视度；
215.获取单元，获取关于向用户推荐的内容的相关信息；以及
216.控制单元，基于注视度的估计结果控制呈现相关信息的用户界面。
217.(2)根据上述(1)的信息处理装置，其中，
218.获取单元通过使用已学习了用户的信息与用户表现出兴趣的内容之间的因果关系的人工智能模型来获取相关信息。
219.(3)根据上述(1)和(2)中任一项所述的信息处理装置，其中：
220.用户的信息包括关于用户的状态的传感器信息，用户的状态包括当用户观看内容时的视线。
221.(4)根据上述(1)至(3)中任一项所述的信息处理装置，其中
222.用户的信息包括关于当用户观看内容时的环境的环境信息，并且
223.获取单元根据基于每个用户的环境信息的区域特性来估计与用户匹配的内容。
224.(5)根据上述(1)至(4)中任一项所述的信息处理装置，其中
225.控制单元响应于注视度的减小而开始显示呈现相关信息的用户界面。
226.(6)根据上述(1)至(5)中任一项所述的信息处理装置，其中
227.控制单元通过使用用户界面以不妨碍用户观看内容的形式来呈现相关信息。
228.(7)根据上述(1)至(6)中任一项所述的信息处理装置，其中
229.响应于用户的注视度的减小，控制单元缩小正被再现的内容的显示区域并提供用于显示用户界面的区域。
230.(8)一种信息处理方法，包括：
231.估计步骤，估计观看内容的用户的注视度；
232.获取步骤，获取关于向用户推荐的内容的相关信息；以及
233.控制步骤，基于注视度的估计结果控制呈现相关信息的用户界面。
234.(9)一种以计算机可读形式描述的计算机程序，所述计算机程序使计算机用作：
235.估计单元，估计观看内容的用户的注视度；
236.获取单元，获取关于向用户推荐的内容的相关信息；
237.控制单元，基于注视度的估计结果控制呈现相关信息的用户界面。
238.附图标记列表
239.100 内容再现装置
240.101 解复用器
241.102 视频解码单元
242.103 音频解码单元
243.104 辅助数据解码单元
244.105 视频信号处理单元
245.106 音频信号处理单元
246.107 图像显示单元
247.108 音频输出单元
248.109 传感器单元
249.120 外部接口单元
250.150 信号处理单元
251.701 空调
252.702、703 风扇
253.704 天花板照明
254.705 立灯
255.706 喷雾器
256.707 芳香器
257.708 椅子
258.810 相机单元
259.811～813 相机
260.820 用户状态传感器单元
261.830 环境传感器单元
262.840 设备状态传感器单元
263.850 用户简档传感器单元
264.901 接收单元
265.902 信号处理单元
266.903 输出单元
267.904 传感器单元
268.905 注视度估计单元
269.906 缓冲单元
270.907 观看信息获取单元
271.908 发送单元
272.1000 人工智能服务器
273.1001 用于学习数据的数据库
274.1002 神经网络(用于内容推荐处理)
275.1003 评价单元
276.1101 接收单元
277.1102 信号处理单元
278.1103 输出单元
279.1104 传感器单元
280.1105 注视度估计单元
281.1106 ui控制单元
282.1107 信息请求单元
283.1108 发送单元
284.1800 内容推荐系统
285.1801 接收单元
286.1802 推荐内容估计单元
287.1803 内容相关信息获取单元
288.1804 相关信息获取控制单元
289.1805 发送单元
290.1901 接收单元
291.1902 信号处理单元
292.1903 输出单元
293.1904 传感器单元
294.1905 注视度估计单元
295.1906 缓冲单元
296.1907 观看信息获取单元
297.1908 发送单元
298.1909 过滤器
299.2000 人工智能服务器
300.2001 用于学习数据的数据库
301.2002 神经网络(用于内容推荐处理)
302.2003 评价单元
303.2101 接收单元
304.2102 信号处理单元
305.2103 输出单元
306.2104 传感器单元
307.2105 注视度估计单元
308.2106 ui控制单元
309.2107 信息请求单元
310.2108 发送单元
311.2109 过滤器
312.2200 内容推荐系统
313.2201 接收单元
314.2202 推荐内容估计单元
315.2203 内容相关信息获取单元
316.2204 相关信息获取控制单元
317.2205 发送单元

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梨子田辰志小林由幸
技术所有人：索尼集团公司
我是此专利的发明人

上一篇：一类新型抗肿瘤环肽活性分子的制备方法与应用
上一篇：一种通信方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。