信息处理装置及其方法和程序的制作方法

文档序号：2829714阅读：152来源：国知局

专利名称：信息处理装置及其方法和程序的制作方法
技术领域：
本发明涉及信息处理装置及其方法和程序。更特别地，本发明涉及用于基于附加到内容的信息和例如用户面部表情的信息而识别用户的情绪的信息处理装置和方法及其所使用的程序。
背景技术：
已经提出了基于用户的声音音调或面部表情来识别(或估计)人的(或用户的)情绪的技术(参见，例如日本未审专利申请公开No.10-228295以及MATSUMOTO等人的“Emotion Recognition Using Face Image and SpeechInformation for Robots(关于机器人使用面部图像和语音信息的情绪识别)”，日本的机器人学协会的第22届年会)。
在用于识别用户情绪的相关现有技术的方法中，通过利用麦克风来获取用户的声音，以及基于声音的音调等来识别用户的情绪。此外，通过利用照相机来捕捉用户的脸部图像，以及基于从所捕捉的图像中获得的面部表情来识别用户的情绪。
然而，在基于从麦克风和照相机获取的语音和图像信号来识别用户情绪的方法中，可能错误地确定情绪(即，识别精确度低)。这样，希望可以以更高的准确率来识别用户的情绪(即，希望更可靠地估计用户的情绪)。
因此希望实现对用户情绪的高精确识别(或估计)。

发明内容
根据本发明实施例的一种信息处理装置包括获取装置，用于获取关于内容的元信息；预测装置，用于根据该获取装置所获取的元信息预测正在观看该内容的用户的情绪；以及识别装置，用于利用该预测装置所预测的情绪和从用户获取的用户信息来识别用户的情绪。
该识别装置可以根据该预测装置所预测的情绪针对用户的情绪执行加权。
该信息处理装置还可以包括声音特征值提取装置，用于收集从用户发出的声音，以及从所收集的声音提取特征值。该识别装置可以利用该声音特征值提取装置所提取的特征值作为该用户信息。
该信息处理装置还可以包括图像特征值提取装置，用于捕捉用户的图像，以及从所捕捉的图像提取特征值。该识别装置可以利用该图像特征值提取装置所提取的特征值作为该用户信息。
所述获取装置所获取的元信息可以是关于内容的文本信息。
当内容包括音频信息时，该获取装置可以从该音频信息提取特征值，且可以获取所提取的特征值作为元信息。
当内容包括语音信息时，该获取装置可以基于该语音信息识别语音，以及可以获取从所识别的语音提取的文本作为元信息。
当内容包括视频信息时，该获取装置可以基于该视频信息获取与出现在视频中的表演者有关的信息作为元信息。
当内容具有附加到其的时间信息时，该获取装置可以基于该时间信息根据所述内容的发展提取元信息。
该预测装置可以包括用于预测用户情绪的表格。可以将该识别装置所识别的用户情绪提供给该预测装置，以及该预测装置可以响应于提供的所识别的用户情绪来更新该表格。
根据本发明的另一实施例的一种信息处理方法包括以下步骤获取关于内容的元信息；根据所获取的元信息预测正在观看该内容的用户的情绪；以及利用所预测的情绪和从用户获取的信息来识别用户的情绪。
根据本发明的另一实施例的一种程序，使计算机执行包括以下步骤的处理获取关于内容的元信息；根据所获取的元信息预测正在观看该内容的用户的情绪；以及利用所预测的情绪和从用户获取的信息来识别用户的情绪。
在本发明的一个实施例中，从用户观看的内容预测的用户情绪和从观看内容的用户获取的信息常被用于识别用户的情绪。
因而，根据本发明的实施例，可以识别用户的情绪。
根据本发明的另一实施例，关于用户观看的内容的信息以及从用户的行为获取的信息可以被用来识别用户的情绪。

图1是示出了根据本发明一个实施例的系统结构的图；图2是详细示出了情绪识别单元的实例结构的图；图3是示出了存储在情绪预测单元中的预测数据的图；图4是示出了存储在情绪预测单元中的预测数据的图；图5是示出了情绪识别设备的操作的流程图；以及图6是示出了记录媒介的图。
具体实施例方式
在描述本发明的实施例之前，下面讨论权利要求的特征与本发明实施例中披露的特定元素之间的对应性。此描述旨在确保支持所要求的发明的实施例在本说明书中被描述。这样，即使下面的实施例中的一元素没有作为涉及到本发明的某个特征而被描述，这也并不必然表示着该元素与权利要求的特征不相关。相反，即使一元素被描述为与权利要求的某个特征相关，这也不必然意味着该元素不与权利要求的其他特征相关。
根据本发明的一种实施例的一种信息处理装置包括获取装置(例如，图1所示的元信息提取单元34)，用于获取关于内容的元信息；预测装置(例如，图1所示的情绪预测单元35)，用于根据由获取装置获取的元信息预测正在观看该内容的用户的情绪；以及识别装置(例如，图1所示的情绪识别单元36)，用于利用从预测装置预测的情绪以及从用户获取的信息来识别用户的情绪。
该信息处理装置更进一步包括声音特征值提取装置(例如，图2所示的声学特征提取单元69)，用于收集从用户发出的声音以及从所收集的声音提取特征值。
该信息处理装置更进一步包括图像特征值提取装置(例如，图2所示的图像特征提取单元67)，用于捕捉用户的图像以及从所捕捉的图像提取特征值。
将参考附图来描述本发明的一个实施例。
系统配置的实例图1示出了根据本发明的实施例的系统结构。图1所示的系统可操作来识别(或估计)用户的情绪。图1所示的系统获得从用户获取的信息(例如声音的音调或面部表情)(下文称为“用户信息”)以及被用户浏览(观看和/或收听)的内容有关的信息，并且识别用户的情绪。所识别的用户情绪可以用作例如用于选择推荐给用户的信息的信息。
图1所示的系统包括向用户提供内容的内容再现单元11，识别用户情绪的情绪识别设备12，以及获取用户信息并将用户信息提供给情绪识别设备12的用户信息获取单元13。
内容再现单元11从情绪识别单元12接收内容(内容数据)。该内容再现(playback)单元11包括个人计算机(PC)21、电视接收器22以及音频再现设备23。该内容再现单元11将被描述为包括但是不限于以上描述的设备，并且它还可以包括其他设备。
在下面的讨论中，PC 21是用于再现例如比赛等内容的设备；电视接收器22是用于通过再现电视广播节目或数字光盘放像机(DVD)而再现所获取的播放内容的设备；以及音频再现设备23是用于通过再现音频广播程序或只读光盘(CD)再现所获取的内容的设备。要由这些设备再现的内容的数据由情绪识别设备12提供。
情绪识别设备12包括内容获取单元31、内容存储单元32、内容提供单元33、元信息提取单元34、情绪预测单元35以及情绪识别单元36。该内容获取单元31通过电视广播、音频广播或网络而获取内容，例如视频、音乐或比赛。一旦设备，例如DVD播放器或CD播放器，与网络连接，则可以获取要由该设备播放的内容。
内容获取单元31获取内容，以及关于内容的可得的附加信息，例如电子节目向导(EPG)数据、闭路字幕(closed-caption)信息或评论文本。内容存储单元32存储由内容获取单元31获取的内容以及附加信息。
内容提供单元33将内容获取单元31获取的内容或内容存储单元32中存储的内容提供给内容再现单元11的PC 21、电视接收器22以及音频再现设备23中的一个，其与内容兼容，以使得用户可以观看内容。
元信息提取单元34提取与内容获取单元31获取的内容或者内容存储单元32中存储的内容有关的元信息。例如，如果内容是电视广播节目，则该元信息包括通过分析附加到节目上的文本信息所获得的关键字，例如节目所属类型(genre)、情节概要(plot synopsis)以及评论。如果内容是音乐，则元信息包括通过分析歌词、评论等等所获得的关键字，以及从声学上分析一首歌曲诸如一首高拍子或低拍子歌曲或者一首响亮声音或低沉声音的歌曲等所获得的信息。
情绪预测单元35利用由元信息提取单元34提取的元信息结合由内容提供单元33向内容再现单元11提供的内容来预测用户的情绪。情绪预测单元35根据以表格或概率表的形式存储的信息来执行预测处理，如以下参考图3和4中所描述的。情绪识别单元36基于用户信息获取单元13获取的用户信息例如用户的表情、姿势(gesture)以及声音等来识别用户的情绪。
用户信息获取单元13包括照相机41和麦克风42。照相机41拍下用户的脸或全身的快照，并且将快照提供给情绪识别单元36。从照相机41提供给情绪识别单元36的信息可以是静态图像数据或运动图片数据。麦克风42收集用户发出的声音(例如，声音或拍手的声音)，并且将声音数据提供给情绪识别单元36。
如图1所示，情绪识别设备12将被描述为包括，但不限于，一种用于提供内容数据到内容再现单元11的设备。例如，内容获取单元31、内容存储单元32、内容提供单元33以及元信息提取单元34可以不被包括在情绪识别设备12中，并且可以被提供为分开的设备(独立的设备)。
当与情绪识别设备12分开地提供用于提供内容数据的设备(下文称之为“内容处理单元”)时，内容数据和元信息可以被从该内容处理单元提供到情绪识别设备12。例如，内容处理单元可以被并入DVD播放器或能够处理内容数据的类似设备中。
图2特别示出了情绪识别单元36的实例结构。情绪识别单元36包括情绪预测信息获取单元61、情绪识别模型选择单元62、情绪识别模型保持单元63、匹配单元64、情绪信息输出单元65、图像数据获取单元66、图像特征提取单元67、音频数据获取单元68以及声学特征提取单元69。
该情绪预测信息获取单元61从情绪预测单元35(见图1)获取预测信息(预测结果)。从情绪预测信息获取单元61获取的预测信息被提供给情绪识别模型选择单元62。情绪识别模型选择单元62基于来自情绪预测单元35的预测信息(即，所预测的用户情绪)从情绪识别模型保持单元63选择适当的情绪识别模型，并将所选择的情绪识别模型提供给匹配单元64。
匹配单元64在从图像特征提取单元67和声学特征提取单元69分别提供的特征值与从情绪识别模型选择单元62提供的情绪识别模型之间执行匹配，并且为各个模型计算分数(score)。根据从图像数据获取单元66和音频数据获取单元68分别提供给图像特征提取单元67和声学特征提取单元69的数据，从图像特征提取单元67和声学特征提取单元69将特征值提供给匹配单元64。
特别地，图像数据获取单元66从照相机41(见图1)获取图像数据，并且将所获取的图像数据提供给图像特征提取单元67。图像特征提取单元67从所提供的图像数据中提取识别用户情绪所必需的特征值，且将该特征值提供给匹配单元64。
音频数据获取单元68从麦克风42(见图1)获取音频数据，且将获取的音频数据提供给声学特征提取单元69。该声学特征提取单元69从所提供的音频数据中提取识别用户情绪所必需的特征值，并且将该特征值提供给匹配单元64。
该匹配单元64在从图像特征提取单元67和声学特征提取单元69提供的特征值与从情绪识别模型选择单元62提供的情绪识别模型之间执行匹配，并且为各个模型计算分数，如前面描述的。
因此，匹配单元64利用(或基于)根据从照相机41和麦克风42获取的数据所确定的用户情绪以及从用户正在观看的内容中所获得的元信息来执行匹配处理(来识别用户情绪)。这样，可以实现一种更加详细的匹配。
由匹配单元64计算的分数被提供给情绪信息输出单元65。情绪输出单元65根据情绪预测单元35(见图1)所预测的情绪来纠正匹配单元64计算得到的分数，并且输出最终的情绪识别结果(情绪信息)。
由情绪信息输出单元65输出的情绪信息被用作用户偏好信息，用于例如，向用户推荐节目。当通过网络等搜索信息时，该情绪信息也可以用作帮助给用户提供更准确的信息的信息。
从情绪信息输出单元65输出的情绪信息被反馈给情绪预测单元35。该反馈机制允许情绪预测单元35适应情绪识别设备12的用户，且能增加情绪识别的精确度。特别地，可以基于元信息的当前情况和实际所识别的情绪来更新概率表。
由情绪识别模型选择单元62对情绪识别模型的选择以及由情绪信息输出单元65对匹配分数的纠正可以被独立地执行，且可以执行它们中的一个或全部。
将参考图3和4来描述存储在情绪预测单元35中的情绪数据。图3和4示出了在内容为电视广播节目情况情境下的情绪数据。情绪数据以图3示出的表格81的形式或以图4示出的表格82的形式存储在情绪预测单元35中。表格81是包括类型信息和可预测情绪的表。表格82是包括类型信息和各个情绪结合概率的概率表。
图3所示的表格81包括彼此相关联的节目的类型信息和可预测情绪的列表，该可预测情绪的列表是将要从节目类型的信息中预测的用户情绪。图3中所示的表格81包括含有“杂耍”、“运动”、“浪漫剧”以及“恐怖电影”的类型作为类型信息。要被预测的用户情绪的列表(即，可预测的情绪)与每一种类型相关联。
例如，类型信息“杂耍”与作为可预测情绪的情绪列表“快乐”、“笑”、“鼓掌”、“惊讶”、“生气”以及“厌恶”有关。同样地，剩余的类型信息与图3所示的方式中的可预测情绪有关。
当表格81存储在情绪预测单元35中时，与被用户观看的内容对应的可预测情绪的信息(其为表格81的信息的一部分)被从情绪预测单元35输出(且提供给情绪识别单元36)。
图4所示的表格82包括节目的类型信息以及可预测情绪列表，该可预测情绪列表为要从程序类型上的信息中预测的用户情绪。在表格82中，还给出了每种可预测情绪发生的概率(概率值)。如同图3中所示的表格81那样，图4中所示的表格82包括含有“杂耍”、“运动”、“浪漫剧”以及“恐怖电影”的类型作为类型信息。
每种类型与将被预测的用户情绪(即，可预测的情绪)相关联。例如，类型信息“杂耍”与作为可预测情绪的情绪“惊讶”、“恐惧”、“厌恶”、“生气”、“快乐”、“悲伤”、“笑”、“鼓掌”、“哭泣”以及“大叫”相关联。每一个相关联的可预测情绪还与概率值相关联。概率值是表示关于预定类型的预定可预测情绪的发生概率的值。
例如，可预测情绪“惊讶”具有关于类型信息“杂耍”的概率值0.1。同样地，剩余的可预测情绪以及与剩余类型信息相关的可预测情绪都和概率值相关联，如图4所示。
在图4所示的概率表格82中，如果节目的类型信息被表示为J，那么表示成P(E|J)的用户情绪(E)发生的概率以表格的形式被存储。
当表格82被存储在情绪预测单元35中时，关于可预测情绪的信息以及与用户观看的内容对应的概率值(其为表格82的信息的一部分)被从情绪预测单元35输出(并被提供给情绪识别单元36)。
情绪识别设备的操作将参考图5的流程图来描述情绪识别设备12的操作。在步骤S11，获取用户观看的内容。要获取的内容是如下内容，该内容是由内容提供单元33(见图1)提供给内容再现单元11的，并且是由内容获取单元31获取的或者是存储在内容存储单元32中的。
在步骤S12，获取与所获取的内容有关的元信息。元信息提取单元34提取与由内容提供单元33提供的内容有关的元信息，并且将该元信息提供给情绪预测单元35。如上所述，如果内容是电视广播节目，该元信息包括附加到节目的文本信息，例如节目所属的类型、情节概述以及评论，以及通过分析文本信息获得的关键字。
如果用户观看的内容包括语音，则语音识别设备(未示出)可以从包含在内容中的话语中提取关键字作为元信息(即，语音识别设备可以被配置为对话语进行语音识别，将识别出的话语转换成文本，以及从该文本中提取元信息)。在这种情况下，情绪预测单元35具有用于识别(或分析)语音的设备。在这种结构中，情绪预测单元35存储其中从语音提取的关键字和对应于该关键字的情绪彼此相关联的表格(例如，图3所示的表格81)或概率表(例如，图4所示的表格82)。
如果用户观看(即，收听)的内容是音乐，则可以提取歌曲的声学特征值作为元信息。在这种情况下，情绪预测单元35具有能够从歌曲中提取特征值的设备。在这个结构中，情绪预测单元35存储一种表格或一种概率表，其中根据从歌曲中提取的特征值确定的歌曲的总体印象(种类)诸如一首声音响亮或声音低沉的歌曲等和可预测的用户情绪彼此相关联。
如果用户观看的内容包括视频信息，则关于内容中出现的表演者的信息可以用作元信息。当关于表演者的信息用作元信息时，例如，从与内容有关的视频信息中识别表演者脸部的技术被用于指定表演者，以及因而关于表演者的信息被提取作为元信息。在指定表演者的处理中，例如，从关于内容的视频信息中提取脸部图像，以及在所提取的图像和用于指定表演者的图像(例如，基于表演者的图像数据的图像，该图像数据被存储在内容存储单元32中)之间执行匹配，由此指定表演者。
指示哪个表演者出现以及在哪个时间区间表演者出现的信息可以从节目的EPG数据等中获取。为了指定一表演者，根据从EPG数据获取的信息来选定给定时间区间内出现的表演者，以及在所选择的表演者的图像与从关于内容的视频信息中获取的脸部信息之间执行匹配。这样，可以减少执行匹配的时间(即，用于指定表演者的时间)，并且可以增加匹配精确度。
诸如EPG数据等的信息的使用允许情绪预测单元35随时间动态预测。EPG数据是附加到内容的辅助信息，并且与广播时间、节目、出现在节目中的表演者等等相关联。
如上所述，节目的EPG数据的使用有助于指定表演者，或者允许情绪预测单元35随时间动态预测。情绪预测单元35的动态预测可以通过动态地改变由元信息提取单元34提取的元信息来实现。
因此，可以更精确地预测情绪。例如，在喜剧演员出现在电视广播节目中的情景下，可以增加笑声和快乐的预测值。
可以利用仅一条元信息或多条元信息的组合执行预测。利用各种类型信息作为元信息可以更精确地预测用户的情绪，并且因此可以提高预测精确度。
如上所述，可以根据内容的发展而动态地更新表格81或概率表82以提高预测精确度。
假定内容为电视广播节目且类型信息被提取作为元信息，给出下面的描述。
在步骤S12，提取(或获取)元信息。在步骤S13，情绪预测单元35预测用户情绪。情绪预测单元35存储图3所示的表格81或图4所示的表格82。情绪预测单元35参考表格81或82，并且从表格81或82提取与所提供的元信息(在此情况下为种类信息)对应的信息。将所提取的信息作为预测的情绪提供给情绪识别单元36(见图1)。
在步骤S14，基于预测的情绪选择情绪识别模型。情绪识别模型可以是直接表示用户情绪的模型，诸如“生气”、“快乐”以及“悲伤”，或者可以是间接表示用户情绪的模型，例如“笑”和“鼓掌”(即，表示当用户感受预定的情绪时用户的行为和动作的模型)。可以利用已有的基于机器学习的模型诸如隐马尔可夫模型(Hidden Markov model，HMM)或支持向量机(supportvector machine，SVM)模型实现情绪识别模型。
HMM技术也可以用来识别表示情绪诸如“生气”、“厌恶”、“恐惧”、“悲伤”、“快乐”和“惊讶”等的面部表情，。在这个实施例中，不仅使用HMM技术来识别用户的情绪，而且使用与用户观看的内容有关的信息(元信息)，以便更精确地识别用户的情绪。
在步骤S14中由情绪识别模型选择单元62所选择的情绪识别模型被提供给匹配单元64。在步骤S15，匹配单元64获取用户信息。用户信息从用户获得，并且包括从图像特征提取单元67提供的信息(特征值)例如用户的面部表情和姿势，以及从声学特征提取单元69提供的信息(特征值)例如用户声音和拍手声音。因此用户信息是用于从用户表情或行为识别用户情绪的信息。
在步骤S16，匹配单元64在从图像特征提取单元67以及声学特征提取单元69提供的特征值与从情绪识别模型选择单元62提供的情绪识别模型之间进行匹配。匹配的结果是，计算出各个情绪识别模型的分数。即，在从用户观看的内容识别的情绪识别模型和从当用户观看内容时用户的真实语言及非语言行为确定(或识别)的用户情绪之间执行匹配(分数计算)。
可以根据情绪预测单元35所预测的信息通过对匹配分数加权而实现匹配处理。加权允许更精确的匹配(即，用户情绪的更精确识别)。
匹配方法(即，用于识别用户情绪的方法)可以利用例如基于贝叶斯决策规则的识别方法来实现。在基于贝叶斯决策规则的识别方法中，如果从传感器输入的观察信号(例如，来自图像特征提取单元67和声学特征提取单元69的特征值)用x表示，以及该时刻的情绪用e表示，则最大化后验概率p(e|x)的情绪e被用作识别结果。
后验概率可以利用贝叶斯定理提供如下p(e|x)＝p(x|e)·p(e)/p(x)这里p(e)表示情绪e的先验概率。通过利用由情绪预测单元35确定的概率(即，从关于内容的元信息确定的用户情绪)作为先验概率，可以提高识别精确度。
在步骤S17，根据情绪预测单元35预测的情绪，情绪输出单元65纠正匹配单元64计算的分数，并且输出最终情绪识别结果。
从情绪输出单元65输出的情绪识别结果被反馈到情绪预测单元35，以便情绪预测单元35可以适应于用户，以增加精确度。即，可以基于元信息的当前情况和实际识别的情绪来更新表格(表格81或82)。当通过网络获取(或搜索)某些信息时，情绪识别结果也可以用作指示用户偏好的信息，以获取适合于用户偏好的信息。
情绪识别模型选择单元62对情绪识别模型的选择以及由情绪输出单元65执行的对匹配单元64所执行的匹配的分数的纠正可以独立地执行，并且可以执行它们中的一个或两者。
在这个实施例中，如上所述，元信息的提取和内容的再现是并行执行的。然而，可以预先提取关于存储在内容存储单元32中的内容的元信息，并且也可以存储所提取的元信息。在这种情况下，可以减少内容再现期间的处理负载。
因此，关于用户观看的内容的元信息被用于识别用户的情绪，这样实现了用户情绪的更精确的识别。因为提取了关于观看内容的个人偏好信息，所以可以准确地提取与元信息中所定义的信息相关的情绪。
根据本发明实施例的系统允许关于用户观看内容的用户的评估的更精确的反馈，并且因此可以详细阐述关于内容的用户偏好信息。
记录媒介图6是示出了根据程序执行上述一系列处理的个人计算机的实例结构的方块图。中央处理单元(CPU)101根据存储在只读存储器(ROM)102或存储单元108内的程序来执行各种类型的处理。适当时，随机存取存储器(RAM)103存储CPU 101执行的程序和数据。CPU101、ROM102以及RAM103经由总线104彼此连接。
CPU 101也经由总线104与输入/输出接口105连接。输入/输出接口105连接到包括键盘、鼠标以及麦克风的输入单元106，以及包括显示器和扬声器的输出单元107。CPU 101响应于来自输入单元106的指令输入而执行各种类型的处理。接着，CPU101输出处理结果到输出单元107。
连接到输入/输出接口105的存储单元108包括例如硬盘，并且可操作来存储CPU 101执行的程序和各种数据。通信单元109经由诸如因特网或局域网的网络与外设通信。
程序可以经由通信单元109来获取，并且可以存储在存储单元108中。
驱动器110与输入/输出接口105连接。当附接了可移动媒介121例如磁盘、光盘、磁光盘或半导体存储器时，驱动器110驱动所附接的媒介121，且获取其中存储的程序和数据。必要时，所获取的程序和数据被传输到并且存储在存储单元108中。
用于存储安装在计算机中且可由计算机执行的程序的程序存储媒介包括，如图6所示，可移动媒介121，其为封装媒介，例如磁盘(包括软盘)、光盘(包括致密盘只读存储器(CD-ROM)和数字化多功能盘(DVD))、磁光盘(包括小型盘(MD))或者半导体存储器，其中临时或永久存储程序的ROM 102，构成存储单元108的硬盘，等等。如果必要，通过诸如路由器或调制解调器等的接口的通信单元109，利用有线或无线通信媒介例如局域网、因特网或数字卫星广播，将程序存储在程序存储媒介中。
在本说明书中，定义存储在程序存储媒介中的程序的步骤可以包括按所描述的顺序而顺序执行的处理，并且也可以也可以包括并行或单独执行，而不必要一定是顺序的，。
在本文档中，术语“系统”意思是包括多个设备的整个装置。
上面所述的实施例仅仅是本发明各个实施例的一个例子，并且在不背离本发明范围的前提下可以作出各种修改。
本领域技术人员应该理解的是，可以根据设计需求或其它因素而作出各种修改、组合、次组合以及更改，它们均落入所附权利要求或其等同的范围中。
本发明包含与2005年8月5日提交于日本专利局的日本专利申请JP2005-227527有关的主题，通过引用将其内容全部结合于此。
权利要求
1.一种信息处理装置，包括获取装置，用于获取关于内容的元信息；预测装置，用于根据该获取装置所获取的元信息预测正在观看该内容的用户的情绪；以及识别装置，用于利用该预测装置所预测的情绪和从用户获取的用户信息来识别用户的情绪。
2.根据权利要求1的信息处理装置，其中，该识别装置根据该预测装置所预测的情绪针对用户的情绪执行加权。
3.根据权利要求1的信息处理装置，还包括声音特征值提取装置，用于收集从用户发出的声音，以及从所收集的声音提取特征值，其中，该识别装置利用该声音特征值提取装置所提取的特征值作为该用户传息。
4.根据权利要求1的信息处理装置，还包括图像特征值提取装置，用于捕捉用户的图像，以及从所捕捉的图像提取特征值，其中，该识别装置利用该图像特征值提取装置所提取的特征值作为该用户信息。
5.根据权利要求1的信息处理装置，其中，所述获取装置所获取的元信息包括关于内容的文本信息。
6.根据权利要求1的信息处理装置，其中，当所述内容包括音频信息时，该获取装置从该音频信息提取特征值，且获取所提取的特征值作为元信息。
7.根据权利要求1的信息处理装置，其中，当所述内容包括语音信息时，该获取装置基于该语音信息识别语音，以及获取从所识别的语音提取的文本作为元信息。
8.根据权利要求1的信息处理装置，其中，当所述内容包括视频信息时，该获取装置基于该视频信息获取与出现在视频中的表演者有关的信息作为元信息。
9.根据权利要求1的信息处理装置，其中，当所述内容具有附加到其的时间信息时，该获取装置基于该时间信息根据所述内容的发展提取元信息。
10.根据权利要求1的信息处理装置，其中该预测装置包括用于预测用户情绪的表格；将该识别装置所识别的用户情绪提供给该预测装置；且该预测装置响应于提供的所识别的用户情绪来更新该表格。
11.一种信息处理方法，包括以下步骤获取关于内容的元信息；根据所获取的元信息预测正在观看该内容的用户的情绪；以及利用所预测的情绪和从用户获取的信息来识别用户的情绪。
12.一种程序，使计算机执行以下处理，包括步骤获取关于内容的元信息；根据所获取的元信息预测正在观看该内容的用户的情绪；以及利用所预测的情绪和从用户获取的信息来识别用户的情绪。
13.一种信息处理装置，包括获取单元，其获取关于内容的元信息；预测单元，其根据该获取单元所获取的元信息预测正在观看该内容的用户的情绪；以及识别单元，其利用该预测单元所预测的情绪和从用户获取的用户信息来识别用户的情绪。
全文摘要
一种信息处理装置，包括获取单元，获取关于内容的元信息；预测单元，其根据该获取单元所获取的元信息预测正在观看该内容的用户的情绪；以及识别单元，其利用该预测单元所预测的情绪和从用户获取的用户信息来识别用户的情绪。
文档编号G10L15/02GK1908965SQ20061015156
公开日2007年2月7日申请日期2006年8月7日优先权日2005年8月5日
发明者浅野康治, 山本则行申请人:索尼株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：浅野康治;山本则行
技术所有人：索尼株式会社
我是此专利的发明人

上一篇：变速方法和系统的制作方法
上一篇：时域听觉阈值加权滤波器的构造方法和设备、编解码器的制作方法