一种信息处理方法、装置、终端设备及服务器与流程

文档序号：18030331发布日期：2019-06-28 22:35阅读：135来源：国知局

本发明实施例涉及通信
技术领域：
：，尤其涉及一种信息处理方法、装置、终端设备及服务器。
背景技术：
：：目前，移动终端，平板电脑等终端设备的普及程序越来越高，越来越多的用户习惯使用终端设备来观看视频。在使用终端设备观看视频的过程中，存在这样的情况：视频中出现了用户不认识的对象，例如不认识的人物或物品等，但用户想要认识这个对象，例如知道人物的姓名。针对上述情况，用户需要打开浏览器或者搜索引擎进行搜索，以认识视频中的对象，这样，现有技术中，认识视频中出现的对象的操作实施起来非常繁琐。技术实现要素：本发明实施例提供一种信息处理方法、装置、终端设备及服务器，以解决现有技术中，认识视频中出现的对象的操作实施起来非常繁琐的问题。第一方面，本发明实施例提供一种信息处理方法，应用于终端设备，所述方法包括：在通过显示界面播放视频时，将当前视频帧或者当前视频帧的帧标识发送至服务器；接收所述服务器返回的返回信息；其中，所述返回信息中包括所述当前视频帧的对象关联信息和对象位置信息；根据所述对象关联信息和所述对象位置信息，在所述显示界面进行显示处理。第二方面，本发明实施例提供一种信息处理方法，应用于服务器，所述方法包括：接收终端设备发送的当前视频帧或者当前视频帧的帧标识；生成返回信息；其中，所述返回信息中包括所述当前视频帧的对象关联信息和对象位置信息；向所述终端设备发送所述返回信息。第三方面，本发明实施例提供一种信息处理装置，应用于终端设备，所述装置包括：发送模块，用于在通过显示界面播放视频时，将当前视频帧或者当前视频帧的帧标识发送至服务器；接收模块，用于接收所述服务器返回的返回信息；其中，所述返回信息中包括所述当前视频帧的对象关联信息和对象位置信息；显示处理模块，用于根据所述对象关联信息和所述对象位置信息，在所述显示界面进行显示处理。第四方面，本发明实施例提供一种信息处理装置，应用于服务器，所述装置包括：接收模块，用于接收终端设备发送的当前视频帧或者当前视频帧的帧标识；生成模块，用于生成返回信息；其中，所述返回信息中包括所述当前视频帧的对象关联信息和对象位置信息；发送模块，用于向所述终端设备发送所述返回信息。第五方面，本发明实施例提供一种终端设备，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面提供的信息处理方法的步骤。第六方面，本发明实施例提供一种服务器，包括处理器，存储器，存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第二方面提供的信息处理方法的步骤。第七方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的信息处理方法的步骤，或者实现上述第二方面提供的信息处理方法的步骤。本发明实施例中，在通过显示界面播放视频时，终端设备可以将当前视频帧或者当前视频帧的帧标识发送至服务器，以接收服务器返回的返回信息；其中，返回信息中可以包括当前视频帧的对象关联信息和对象位置信息。接下来，终端设备可以根据返回信息中的对象关联信息和对象位置信息，在显示界面进行显示处理，之后，基于显示处理结果，观看视频的用户能够便捷地认识视频中出现的对象，例如了解视频中出现的人物的姓名。可见，本发明实施例中，在终端设备进行视频的播放时，通过终端设备与服务器之间的交互，以及终端设备根据来自服务器的返回信息，在显示界面进行的显示处理，用户无需打开浏览器或者搜索引擎进行搜索即可认识视频中的对象，因此，与现有技术相比，本发明实施例中，用户能够更为便捷地认识视频中出现的对象。附图说明为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。图1是本发明实施例提供的一种信息处理方法的流程图；图2是本发明实施例中终端设备的界面示意图之一；图3是本发明实施例中终端设备的界面示意图之二；图4是本发明实施例中终端设备的界面示意图之三；图5是本发明实施例中终端设备的界面示意图之四；图6是对象位置信息中的对象位置坐标对应的位置示意图；图7是归一化坐标对应的位置示意图；图8是视频帧z1在显示界面中的显示位置示意图；图9是本发明实施例中终端设备与服务器的交互示意图；图10是本发明实施例提供的另一种信息处理方法的流程图；图11是本发明实施例提供的一种信息处理装置的结构框图；图12是本发明实施例提供的另一种信息处理装置的结构框图；图13是本发明实施例提供的一种终端设备的结构示意图；图14是本发明实施例提供的一种服务器的结构示意图。具体实施方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。参见图1，图中示出了本发明实施例提供的信息处理方法的流程图。如图1所示，该方法应用于终端设备，该方法包括如下步骤：步骤101，在通过显示界面播放视频时，将当前视频帧或者当前视频帧的帧标识发送至服务器。在步骤101中，终端设备可以通过显示界面播放视频，例如通过显示界面播放在线视频或者本地视频，此时，显示界面中可以显示有识别按钮，例如显示有图2中的识别按钮200。如果检测到用户对图2中的识别按钮200的点击操作，终端设备可以按照用户的指示，将当前视频帧或者当前视频帧的帧标识发送至服务器。这里，当前视频帧的帧标识可以包括当前播放的视频的标识(例如视频名称)以及当前视频帧在当前播放的视频中的标识(例如时间戳信息和/或帧位图信息)。当然，将当前视频帧或者当前视频帧的帧标识发送至服务器的动作也可以不由用户主动触发，而由终端设备定期自动执行。步骤102，接收服务器返回的返回信息；其中，返回信息中包括当前视频帧的对象关联信息和对象位置信息。这里，对象关联信息可以为人脸关联信息，对象位置信息可以为人脸位置信息，这时，本发明实施例中涉及的对象具体为人物，本发明实施例能够实现对视频中出现的人物的识别。当然，本发明实施例中涉及的对象也可以为动物、物品等，以便于实现对视频中出现的动物、物品等的识别。为了便于本领域技术人员理解本方案，后续实施例中均以对象为人物的情况为例进行说明。需要说明的是，在终端设备进行当前视频帧或者当前视频帧的帧标识的发送之后，服务器可以接收到来自终端设备的当前视频帧或者当前视频帧的帧标识，服务器可以据此生成返回信息；其中，返回信息中可以包括当前视频帧的对象关联信息和对象位置信息。具体地，对象关联信息为与当前视频帧中的对象关联的信息，该信息能够用于用户认识当前视频帧中的对象，例如，该信息可以包括当前视频帧中的人物的姓名、年龄及其他介绍等。另外，对象位置信息可以用于表征当前视频帧中的对象的位置，例如，对象位置信息中可以包括当前视频帧中的对象的对象位置坐标。步骤103，根据对象关联信息和对象位置信息，在显示界面进行显示处理。下面对终端设备在显示界面进行显示处理的具体实现形式进行举例介绍。在一种实现形式中，假设对象位置信息中包括对象位置坐标，终端设备可以直接确定显示界面中的，与该对象位置坐标对应的位置，并在所确定的位置显示返回信息中的对象关联信息中的至少部分信息，以便于用户通过对象关联信息中的至少部分信息，认识视频中的对象。在另一种实现形式中，假设对象位置信息中包括对象位置坐标，终端设备可以确定显示界面中的，与该对象位置坐标对应的位置，并在显示界面中显示操作按钮。在接收到对操作按钮的点击操作的情况下，终端设备可以在所确定的位置显示返回信息中的对象关联信息中的至少部分信息，以便于用户通过对象关联信息中的至少部分信息，认识视频中的对象。当然，在显示界面进行显示处理的实现形式并不局限于以上两种情况，只需保证基于显示处理结果，能够便捷地实现对象关联信息中的至少部分信息的显示，以便于实现用户对视频中的对象的认识即可，在此不再一一列举。需要说明的是，本发明实施例中涉及的终端设备具体可以为：计算机(computer)、手机、平板电脑(tabletpersonalcomputer)、膝上型电脑(laptopcomputer)、个人数字助理(personaldigitalassistant，简称pda)、移动上网电子设备(mobileinternetdevice，mid)等。本发明实施例中，在通过显示界面播放视频时，终端设备可以将当前视频帧或者当前视频帧的帧标识发送至服务器，以接收服务器返回的返回信息；其中，返回信息中可以包括当前视频帧的对象关联信息和对象位置信息。接下来，终端设备可以根据返回信息中的对象关联信息和对象位置信息，在显示界面进行显示处理，之后，基于显示处理结果，观看视频的用户能够便捷地认识视频中出现的对象，例如了解视频中出现的人物的姓名。可见，本发明实施例中，在终端设备进行视频的播放时，通过终端设备与服务器之间的交互，以及终端设备根据来自服务器的返回信息，在显示界面进行的显示处理，用户无需打开浏览器或者搜索引擎进行搜索即可认识视频中的对象，因此，与现有技术相比，本发明实施例中，用户能够更为便捷地认识视频中出现的对象。可选地，对象关联信息包括对象索引信息；根据对象关联信息和对象位置信息，在显示界面进行显示处理，包括：根据对象位置信息，在显示界面显示对象索引信息。这里，对象索引信息可以为能够对视频中的对象进行索引的信息，具体地，对象索引信息可以为对象的标识，在对象为人物的情况下，对象索引信息可以为人物的姓名、人物的昵称等。本实施例中，服务器可以预先对全网的视频进行抓取，并对每一视频进行逐帧分析，以得到每一视频帧的对象索引信息和对象位置信息。接下来，服务器可以根据分析后得到的信息，构建视频帧、对象索引信息和对象位置信息三者之间的对应关系，并将所构建的对应关系存储在数据库中。在接收到来自终端设备的当前视频帧或者当前视频帧的帧标识的情况下，服务器可以根据数据库中存储的对应关系，确定当前视频帧对应的对象索引信息和对象位置信息，并生成包括所确定的对象位置信息，以及对象关联信息的返回信息；其中，对象关联信息中包括所确定的对象索引信息。当然，返回信息的生成方式并不局限于上述情况。举例而言，也可以不预先构建并存储上述对应关系，在接收到来自终端设备的当前视频帧或者当前视频帧的帧标识的情况下，服务器可以对当前视频帧进行分析，以得到当前视频帧的对象索引信息和对象位置信息，并据此生成返回信息，这也是可行的。无论采用上述何种生成方式，服务器均可以将生成的返回信息发送给终端设备，之后，终端设备可以根据返回信息中的对象位置信息，在显示界面显示返回信息中的对象索引信息，例如直接在对象位置信息对应的位置，显示对象索引信息，以便于用户通过显示的对象索引信息，认识视频中出现的对象。可见，本实施例中，通过对象索引信息的显示，用户能够便捷地了解视频中出现的对象。可选地，对象关联信息还包括对象索引信息对应的对象索引结果；根据对象关联信息和对象位置信息，在显示界面进行显示处理，还包括：在显示界面的预设区域，显示对象索引结果对应的控件；在接收到对控件的第一输入操作的情况下，根据第一输入操作，在预设区域显示对象索引结果。本实施例中，在根据数据库中存储的对应关系，确定当前视频帧对应的对象索引信息和对象位置信息之后，服务器可以根据所确定的对象索引信息，进行信息搜索，以得到相应的对象索引结果。具体地，在所确定的对象索引信息为人物的姓名的情况下，服务器可以将该姓名作为关键词，搜索与该关键词相关的资源数据，并将搜索得到的资源数据作为对象索引结果；其中，对象索引结果可以包括人物的个人简介、相关视频等，例如，在人物为歌手的情况下，对象索引结果中可以包括其的出生日期、出生地、作品名称、所发行专辑中的音乐短片(musicvideo，mv)、演唱会视频等。服务器之后向终端设备发送的返回信息中可以包括对象索引结果。在接收到服务器发送的返回信息之后，终端设备可以在显示界面的预设区域显示返回信息中的对象索引结果对应的控件。具体地，预设区域可以位于显示界面的左上部、左下部、右上部或者右下部；返回信息中的对象索引结果对应的控件可以为呈圆形、矩形或者其他形状的按钮。接下来，终端设备可以定时或者不定时地检测是否接收到对控件的第一输入操作。具体地，对控件的第一输入操作包括但不限于对控件的点击操作、按压操作、拖动操作等。如果接收到对控件的第一输入操作，终端设备可以对预设区域的显示内容进行更新，以使预设区域显示返回信息中的对象索引结果，从而便于观看视频的用户通过显示界面中的对象索引结果，进一步了解视频中出现的对象。具体实施时，假设当前视频帧为图3中显示的视频帧(其中包括三个人物)，在终端设备向服务器发送当前视频帧或者当前视频帧的帧标识之后，服务器发送的返回信息中可以包括对象索引信息1、对象位置信息1、对象索引结果1、对象索引信息2、对象位置信息2、对象索引结果2、对象索引信息3、对象位置信息3、对象索引结果3；其中，对象索引信息1、对象位置信息1、对象索引结果1三者具有对应性，对象索引信息2、对象位置信息2、对象索引结果2三者具有对应性，对象索引信息3、对象位置信息3、对象索引结果3三者具有对应性。如图4所示，显示界面的右下角可以具有一抽屉400，抽屉400在终端设备接收到返回信息的情况下打开，打开状态下的抽屉400可以位于显示界面的预设区域，对象索引结果1对应的第一控件401、对象索引结果2对应的第二控件402，以及对象索引结果3对应的第三控件403可以以投篮效果投入抽屉400内，这样，第一控件401至第三控件403会在预设区域进行显示。可选地，第一控件401可以呈现对象位置信息1对应的位置处的人脸；第二控件402可以呈现对象位置信息2对应的位置处的人脸；第三控件403可以呈现对象位置信息3对应的位置处的人脸。另外，在抽屉400打开的过程中，视频可以继续进行播放而不暂停。之后，如果用户执行了对图4中的第一控件401的点击操作，预设区域可以显示对象索引结果1，以便于用户根据对象索引结果1，对对象位置信息1对应的位置处的人脸所对应的人物进行进一步了解。可见，本实施例中，用户可以实际根据需求，通过第一输入操作，触发对象索引结果的显示，以便于对视频中出现的对象进行进一步了解。可选地，对象索引结果中包括视频类型的资源数据；在预设区域显示对象索引结果之后，该方法还包括：在接收到对视频类型的资源数据的第二输入操作的情况下，根据第二输入操作，通过显示界面全屏播放视频类型的资源数据。需要说明的是，预设区域显示的对象索引结果中可以包括文字类型的资源数据、图片类型的资源数据、视频类型的资源数据等。终端设备可以定时或者不定时地检测是否接收到对所显示的对象索引结果中，视频类型的资源数据的第二输入操作。具体地，对视频类型的资源数据的第二输入操作包括但不限于对视频类型的资源数据的点击操作、按压操作等。如果接收到对视频类型的资源数据的第二输入操作，终端设备可以对整个显示界面的显示内容进行更新，以使显示界面全屏播放视频类型的资源数据，从而方便用户观看视频类型的资源数据，进而使得用户更为深入地了解视频中出现的对象。具体实施时，如图5所示，预设区域显示的对象索引结果中可以同时包括文字类型的资源数据(例如资源数据d1)和视频类型的资源数据(例如资源数据d2和资源数据d3)，如果用户点击了资源数据d2中的播放按钮500，终端设备可以通过显示界面全屏播放资源数据d2，以便于用户根据资源数据d2对视频中出现的对象进行更进一步的了解。可见，本实施例中，用户可以根据实际需求，通过第二输入操作，触发视频类型的资源数据的全屏播放，以便于对视频中出现的对象进行更进一步的了解。可选地，根据对象位置信息，在显示界面显示对象索引信息，包括：根据对象位置信息，在显示界面显示对象标记，并在对象标记的预设位置显示对象索引信息。这里，对象标记可以为一悬浮的标记框，标记框可以呈矩形、圆形或者其他形状；对象标记的预设位置可以位于标记框的顶部、底部或者其他位置。具体实施时，假设当前视频帧为图3中显示的视频帧(其中包括三个人物)，服务器发送的返回信息中包括对象索引信息1、对象位置信息1、对象索引结果1、对象索引信息2、对象位置信息2、对象索引结果2、对象索引信息3、对象位置信息3、对象索引结果3，如图4所示，终端设备可以根据对象位置信息1，在显示界面显示标记框411，并在标记框411的顶部显示对象索引信息1；根据对象位置信息2，在显示界面显示标记框412，并在标记框412的顶部显示对象索引信息2；根据对象位置信息3，在显示界面显示标记框413，并在标记框413的顶部显示对象索引信息3。这样，通过标记框411至标记框413，能够清楚地示意出视频中的各人脸与返回信息中的各对象索引信息之间的关联关系。可见，本实施例中，基于对象标记与对象索引信息的一并显示，每个对象标记能够对视频中的相应对象进行标记，用户能够便捷地获知视频中的各对象与返回信息中的各对象索引信息之间的关联关系，这样，用户能够较为准确地认识视频中的出现的对象。可选地，返回信息中还包括当前视频帧对应的第一视频尺寸；根据对象位置信息，在显示界面显示对象标记，包括：获取显示界面的界面尺寸；根据对象位置信息、第一视频尺寸和界面尺寸，确定显示界面中的目标位置；在目标位置显示对象标记。需要说明的是，上述数据库中存储的具体可以是视频帧、对象索引信息、对象位置信息、视频尺寸四者之间的对应关系；该对应关系中，任一视频帧对应的视频尺寸可以为该视频帧的原始尺寸。在接收到终端设备发送的当前视频帧或者当前视频帧的帧标识之后，终端设备生成的返回信息中不仅可以包括当前视频帧对应的对象索引信息和对象位置信息，还可以包括当前视频帧对应的视频尺寸(即上述的第一视频尺寸)。需要指出的是，如果终端设备需要播放某一视频，一般需要先将终端设备的显示界面的界面尺寸与待播放的视频的原始视频尺寸进行比对。如果界面尺寸与视频尺寸匹配(即两个尺寸相同)，可以直接将视频在显示界面上进行播放；如果界面尺寸与视频尺寸不匹配，一般会先对待播放的视频进行等比例缩放，然后再将待播放的视频在显示界面中进行居中显示，以保证视频播放效果。这样，如果上述的步骤101中，终端设备当前播放的视频的原始视频尺寸与显示界面的界面尺寸不匹配，后续直接在返回信息中的对象位置信息对应的位置处显示对象标记，有可能导致对象标记未正确标记视频中的对象。有鉴于此，本实施例中，终端设备可以根据返回信息中的对象位置信息和第一视频尺寸，以及显示界面的界面尺寸，确定显示界面中的目标位置，目标位置可以为视频中的对象所在的实际位置。之后，终端设备再在目标位置显示对象标记，以保证对象标记能够正确标记视频中的对象。可选地，对象位置信息中包括对象位置坐标。这里，对象位置坐标可以用(x，y，w，h)的形式进行表示。根据对象位置信息、第一视频尺寸和界面尺寸，确定显示界面中的目标位置，包括：根据第一视频尺寸，对对象位置坐标进行归一化处理，得到归一化坐标；根据第一视频尺寸和界面尺寸，确定显示界面中的视频的第二视频尺寸，以及显示界面的留白尺寸；根据归一化坐标、第二视频尺寸和留白尺寸，确定显示界面中的目标位置。一般而言，为了保证在各种网络环境下均能够达到较好的播放效果，在进行视频播放时，可以提供不同视频分辨率供用户选择，例如，视频可以分为高清视频和超高清视频，高清视频和超高清视频的分辨率是不同的，当然，高清视频和超高清视频的码率一般也是不同的。需要指出的是，视频的分辨率可以用于表征视频的尺寸大小，显示界面的分辨率可以用于表征显示界面的尺寸大小，下面以一个具体的例子，对本实施例的具体实施过程进行详细说明。假设构建用于存储至数据库中的对应关系时，从全网抓取的视频1对应的视频分辨率为100×100，那么，后续构建好的对应关系中，视频1中的各视频帧对应的视频尺寸均可以表示为100×100。也就是说，视频1中的每一视频帧的原始视频宽度(即video_width)可以认为是100，视频1中的每一视频帧的原始视频高度(video_height)可以认为是100。另外，假设在构建好的对应关系中，视频1中的视频帧z1对应的对象位置信息中的对象位置坐标为(20，20，30，40)，那么，对象位置信息对应的位置具体可以为图6中的，左上端点坐标为(20，20)，右下端点坐标为(50，60)的矩形框所在的位置。假设终端设备正在播放视频1，且当前视频帧为视频帧z1，这时，第一视频尺寸可以用100×100进行表征，在对对象位置坐标进行归一化处理后，得到的归一化坐标为：x1＝x/video_width＝20/100＝0.2y1＝y/video_height＝20/100＝0.2x2＝x1+w/video_width＝0.2+30/100＝0.5y2＝y1+h/video_height＝0.2+40/100＝0.6这样，归一化坐标所对应的位置为图7中左上端点坐标为(0.2，0.2)，右下端点坐标为(0.5，0.6)的矩形框所在的位置。另外，假设终端设备的显示界面的分辨率为160×90，那么，显示界面的界面尺寸可以用160×90表征，也就是说，显示界面的视野宽度(即view_width)为160，显示界面的视野高度(即view_height)为90，之后，可以采用下述公式计算视野的宽高比(即view_aspect_ratio)和视频的宽高比(即video_aspect_ratio)，其中：view_aspect_ratio＝view_width/view_height＝160/90＝1.777video_aspect_ratio＝video_width/video_height＝100/100＝1。由于view_aspect_ratio>video_aspect_ratio，如图8所示，需要优先适配高度，保证视频1的所有内容都在显示界面的可显示范围内，那么，可计算得到高度比height_ratio，其中：height_ratio＝video_height/view_height＝90/100＝0.9这样，视频1的渲染大小(其可以用于表征上述的第二视频尺寸)为：draw_video_width＝video_width*height_ratio＝100*0.9＝90draw_video_height＝video_height*height_ratio＝100*0.9＝90其中，draw_video_width为video的渲染宽度(即显示界面中的视频1的实际宽度)，draw_video_height为video的渲染高度(即显示界面中的视频1的实际高度)。由于视频1是居中显示的，所以左边留白大小left_space为：left_space＝(view_width-draw_video_width)/2＝(160-90)/2＝35这样，可以得到人脸渲染坐标为：draw_x1＝x1*draw_video_width+left_space＝0.2*90+35＝53draw_y1＝y1*draw_video_height＝0.2*90＝18draw_x2＝x2*draw_video_width+left_space＝0.5*90+35＝80draw_y2＝y2*draw_video_height＝0.6*90＝54这样，通过(53，18，80，54)即可用于表征显示界面中的目标位置；其中，目标位置为矩形，且矩形的左上端点坐标为(53，18)，矩形的右下端点坐标为(80，54)。可见，本实施例中，基于归一化处理，以及第二视频尺寸和留白尺寸，能够确定出目标位置，以使得对象标记能够显示在正确的位置，从而使得对象标记能够正确标记视频中的对象。可选地，确定显示界面中的目标位置之后，该方法还包括：确定目标位置是否显示有预设类型的对象；在目标位置显示对象标记，包括：在目标位置显示有预设类型的对象的情况下，在目标位置显示对象标记。本实施例中，在确定显示界面中的目标位置之后，终端设备可以进行图像识别，以确定目标位置是否显示有预设类型的对象(例如人物)。具体地，终端设备可以确定目标位置是否显示有人脸。如果目标位置显示有预设类型的对象，可以认为服务器返回的返回信息中的对象位置信息是正确的，终端设备可在目标位置显示对象标记，以正确标记视频中的对象。如果目标位置未显示预设类型的对象，可以认为服务器返回的返回信息中的对象位置信息有误，终端设备可以不在目标位置显示对象标记。可见，本实施例中，终端设备可以验证返回信息中的对象位置信息是否正确，并仅根据正确的对象位置信息，利用对象标记对视频中的对象进行标记，从而保证标记的准确性。可选地，在通过显示界面播放视频时，将当前视频帧或者当前视频帧的帧标识发送至服务器，包括：在通过显示界面播放视频时，确定显示界面中的视频播放位置是否显示有预设类型的对象；在视频播放位置显示有预设类型的对象的情况下，将当前视频帧或者当前视频帧的帧标识发送至服务器。本实施例中，在通过显示界面播放视频时，可以确定显示界面中的视频播放位置是否显示有预设类型的对象(例如人物)。具体地，终端设备可以确定视频播放位置是否显示有人脸。如果显示界面中的视频播放位置显示有预设类型的对象，这说明视频中存在可识别的对象，终端设备可以显示图2中所示的识别按钮200。在用户点击识别按钮200的情况下，终端设备可以将当前视频帧或者当前视频帧的帧标识发送至服务器，以便于后续操作的执行。可见，本实施例中，只有在当前播放的视频中存在可识别对象的情况下，终端设备才会与服务器进行交互，这样能够减少不必要的资源损耗和功耗。可选地，将当前视频帧或者当前视频帧的帧标识发送至服务器之后，在显示界面进行显示处理之前，该方法还包括：在显示界面显示预设的对象识别动画效果。本实施例中，在进行对象识别的过程中，终端设备可以在显示界面显示预设的对象识别动画效果，例如闪动效果，计时效果等，以通知用户当前正在进行对象识别。下面结合图9，以一个具体的例子，对终端设备与服务器的交互过程进行说明。如图9所示，终端设备利用视频播放器，在显示界面播放视频时，如果用户点击图2中的识别按钮200，可以触发人物识别，这时，终端设备暂停视频的播放，获取当前视频帧的帧标识，并将当前视频帧的帧标识发送至服务器，以请求服务器识别当前视频帧中的人物。接下来，服务器可以向终端设备发送返回信息；其中，返回信息中可以包括当前视频帧的对象关联信息和对象位置信息。这样，根据返回信息中的对象位置信息，终端设备可以显示对象标记和返回信息中的对象索引信息，以标记视频中的人脸；根据返回信息中的对象索引结果，终端设备可以展示视频中的人物的人物简介及相关推荐。另外，终端设备可以继续进行视频的播放。可见，本实施例中，在用户通过终端设备观看视频时，通过终端设备与服务器之间的交互，可以实现对视频内容的分析与理解，以辅助用户对视频内容的认识，另外，还能够对相关资源数据进行搜索和推荐。一般而言，视频内容分析是指分析视频帧出现的时间、人物、物品、场景、动作等，并分析出音频中出现的对话，台词等音频信息；视频内容理解是指通过人工智能(artificialintelligence，ai)技术，尝试理解揣测视频中分析出来的相关信息；视频内容搜索是指将视频内容分析理解后在全网搜索与之相关的信息，例如搜索明星人物信息、桥段视频等；视频内容推荐是将视频内容分析理解后搜索出相关信息后主动推送相关信息。综上，与现有技术相比，本实施例中，用户能够更为便捷地认识视频中出现的对象。参见图10，图中示出了本发明实施例提供的信息处理方法的流程图。如图10所示，该方法应用于服务器，该方法包括如下步骤：步骤1001，接收终端设备发送的当前视频帧或者当前视频帧的帧标识；步骤1002，生成返回信息；其中，返回信息中包括当前视频帧的对象关联信息和对象位置信息；步骤1003，向终端设备发送返回信息。可选地，生成返回信息，包括：根据预先设置的视频帧、对象索引信息、对象位置信息之间的对应关系，确定当前视频帧对应的对象索引信息和对象位置信息；生成返回信息；其中，返回信息中包括对象关联信息和所确定的对象位置信息，所述对象关联信息中包括所确定的对象索引信息。可选地，生成返回信息之前，该方法还包括：根据所确定的对象索引信息，进行信息搜索，以得到相应的对象索引结果；其中，返回信息中还包括所得到的对象索引结果。可选地，根据预先设置的视频帧、对象索引信息、对象位置信息之间的对应关系，确定当前视频帧对应的对象索引信息和对象位置信息，包括：根据预先设置的视频帧、对象索引信息、对象位置信息、视频尺寸之间的对应关系，确定当前视频帧对应的对象索引信息、对象位置信息和视频尺寸；其中，返回信息中还包括所确定的视频尺寸。可见，本发明实施例中，在终端设备进行视频的播放时，通过终端设备与服务器之间的交互，以及终端设备根据来自服务器的返回信息，在显示界面进行的显示处理，用户无需打开浏览器或者搜索引擎进行搜索即可认识视频中的对象，因此，与现有技术相比，本发明实施例中，用户能够更为便捷地认识视频中出现的对象。参见图11，图中示出了本发明实施例提供的信息处理装置1100的结构框图。如图11所示，信息处理装置1100应用于终端设备，信息处理装置1100包括：发送模块1101，用于在通过显示界面播放视频时，将当前视频帧或者当前视频帧的帧标识发送至服务器；接收模块1102，用于接收服务器返回的返回信息；其中，返回信息中包括当前视频帧的对象关联信息和对象位置信息；显示处理模块1103，用于根据对象关联信息和对象位置信息，在显示界面进行显示处理。可选地，对象关联信息包括对象索引信息；显示处理模块1103，具体用于：根据对象位置信息，在显示界面显示对象索引信息。可选地，对象关联信息还包括对象索引信息对应的对象索引结果；显示处理模块1103，包括：第一显示单元，用于在显示界面的预设区域，显示对象索引结果对应的控件；第二显示单元，用于在接收到对控件的第一输入操作的情况下，根据第一输入操作，在预设区域显示对象索引结果。可选地，对象索引结果中包括视频类型的资源数据；信息处理装置1100还包括：播放模块，用于在预设区域显示对象索引结果之后，在接收到对视频类型的资源数据的第二输入操作的情况下，根据第二输入操作，通过显示界面全屏播放视频类型的资源数据。可选地，显示处理模块1103，具体用于：根据对象位置信息，在显示界面显示对象标记，并在对象标记的预设位置显示对象索引信息。可选地，返回信息中还包括当前视频帧对应的第一视频尺寸；显示处理模块1103，包括：获得单元，用于获取显示界面的界面尺寸；第一确定单元，用于根据对象位置信息、第一视频尺寸和界面尺寸，确定显示界面中的目标位置；第三显示单元，用于在目标位置显示对象标记。可选地，对象位置信息中包括对象位置坐标；第一确定单元，包括：获得子单元，用于根据第一视频尺寸，对对象位置坐标进行归一化处理，得到归一化坐标；第一确定子单元，用于根据第一视频尺寸和界面尺寸，确定显示界面中的视频的第二视频尺寸，以及显示界面的留白尺寸；第二确定子单元，用于根据归一化坐标、第二视频尺寸和留白尺寸，确定显示界面中的目标位置。可选地，信息处理装置1100还包括：第一确定模块，用于在确定显示界面中的目标位置之后，确定目标位置是否显示有预设类型的对象；第三显示单元，具体用于：在目标位置显示有预设类型的对象的情况下，在目标位置显示对象标记。可选地，发送模块，包括：第二确定单元，用于在通过显示界面播放视频时，确定显示界面中的视频播放位置是否显示有预设类型的对象；发送单元，用于在视频播放位置显示有预设类型的对象的情况下，将当前视频帧或者当前视频帧的帧标识发送至服务器。可选地，信息处理装置1100还包括：显示模块，用于在将当前视频帧或者当前视频帧的帧标识发送至服务器之后，在显示界面进行显示处理之前，在显示界面显示预设的对象识别动画效果。可选地，对象关联信息为人脸关联信息，对象位置信息为人脸位置信息。可见，本发明实施例中，在终端设备进行视频的播放时，通过终端设备与服务器之间的交互，以及终端设备根据来自服务器的返回信息，在显示界面进行的显示处理，用户无需打开浏览器或者搜索引擎进行搜索即可认识视频中的对象，因此，与现有技术相比，本发明实施例中，用户能够更为便捷地认识视频中出现的对象。参见图12，图中示出了本发明实施例提供的信息处理装置1200的结构框图。如图12所示，信息处理装置1200应用于服务器，信息处理装置1200包括：接收模块1201，用于接收终端设备发送的当前视频帧或者当前视频帧的帧标识；生成模块1202，用于生成返回信息；其中，返回信息中包括当前视频帧的对象关联信息和对象位置信息；发送模块1203，用于向终端设备发送返回信息。可选地，生成模块1202，包括：确定单元，用于根据预先设置的视频帧、对象索引信息、对象位置信息之间的对应关系，确定当前视频帧对应的对象索引信息和对象位置信息；生成单元，用于生成返回信息；其中，返回信息中包括对象关联信息和所确定的对象位置信息，对象关联信息中包括所确定的对象索引信息。可选地，信息处理装置1200还包括：搜索模块，用于在生成返回信息之前，根据所确定的对象索引信息，进行信息搜索，以得到相应的对象索引结果；其中，返回信息中还包括所得到的对象索引结果。可选地，确定单元，具体用于：根据预先设置的视频帧、对象索引信息、对象位置信息、视频尺寸之间的对应关系，确定当前视频帧对应的对象索引信息、对象位置信息和视频尺寸；其中，返回信息中还包括所确定的视频尺寸。可见，本发明实施例中，在终端设备进行视频的播放时，通过终端设备与服务器之间的交互，以及终端设备根据来自服务器的返回信息，在显示界面进行的显示处理，用户无需打开浏览器或者搜索引擎进行搜索即可认识视频中的对象，因此，与现有技术相比，本发明实施例中，用户能够更为便捷地认识视频中出现的对象。参见图13，图中示出了本发明实施例提供的终端设备1300的结构示意图。如图13所示，终端设备1300包括但不限于：射频单元1301、网络模块1302、音频输出单元1303、输入单元1304、传感器1305、显示单元1306、用户输入单元1307、接口单元1308、存储器1309、处理器1310、以及电源1311等部件。本领域技术人员可以理解，图13中示出的终端设备结构并不构成对终端设备的限定，终端设备1300可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中，处理器1310，用于：在通过显示界面播放视频时，将当前视频帧或者当前视频帧的帧标识发送至服务器；接收服务器返回的返回信息；其中，返回信息中包括当前视频帧的对象关联信息和对象位置信息；根据对象关联信息和对象位置信息，在显示界面进行显示处理。可选地，对象关联信息包括对象索引信息；处理器1310，具体用于：根据对象位置信息，在显示界面显示对象索引信息。可选地，对象关联信息还包括对象索引信息对应的对象索引结果；处理器1310，具体用于：在显示界面的预设区域，显示对象索引结果对应的控件；在接收到对控件的第一输入操作的情况下，根据第一输入操作，在预设区域显示对象索引结果。可选地，对象索引结果中包括视频类型的资源数据；处理器1310，还用于：在预设区域显示对象索引结果之后，在接收到对视频类型的资源数据的第二输入操作的情况下，根据第二输入操作，通过显示界面全屏播放视频类型的资源数据。可选地，处理器1310，具体用于：根据对象位置信息，在显示界面显示对象标记，并在对象标记的预设位置显示对象索引信息。可选地，返回信息中还包括当前视频帧对应的第一视频尺寸；处理器1310，具体用于：获取显示界面的界面尺寸；根据对象位置信息、第一视频尺寸和界面尺寸，确定显示界面中的目标位置；在目标位置显示对象标记。可选地，对象位置信息中包括对象位置坐标；处理器1310，具体用于：根据第一视频尺寸，对对象位置坐标进行归一化处理，得到归一化坐标；根据第一视频尺寸和界面尺寸，确定显示界面中的视频的第二视频尺寸，以及显示界面的留白尺寸；根据归一化坐标、第二视频尺寸和留白尺寸，确定显示界面中的目标位置。可选地，处理器1310，还用于：在确定显示界面中的目标位置之后，确定目标位置是否显示有预设类型的对象；处理器1310，具体用于：在目标位置显示有预设类型的对象的情况下，在目标位置显示对象标记。可选地，处理器1310，还用于：在通过显示界面播放视频时，确定显示界面中的视频播放位置是否显示有预设类型的对象；在视频播放位置显示有预设类型的对象的情况下，将当前视频帧或者当前视频帧的帧标识发送至服务器。可选地，处理器1310，还用于：在将当前视频帧或者当前视频帧的帧标识发送至服务器之后，在显示界面进行显示处理之前，在显示界面显示预设的对象识别动画效果。可选地，对象关联信息为人脸关联信息，对象位置信息为人脸位置信息。可见，本发明实施例中，在终端设备1300进行视频的播放时，通过终端设备1300与服务器之间的交互，以及终端设备1300根据来自服务器的返回信息，在显示界面进行的显示处理，用户无需打开浏览器或者搜索引擎进行搜索即可认识视频中的对象，因此，与现有技术相比，本发明实施例中，用户能够更为便捷地认识视频中出现的对象。应理解的是，本发明实施例中，射频单元1301可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1310处理；另外，将上行的数据发送给基站。通常，射频单元1301包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元1301还可以通过无线通信系统与网络和其他设备通信。终端设备1300通过网络模块1302为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。音频输出单元1303可以将射频单元1301或网络模块1302接收的或者在存储器1309中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元1303还可以提供与终端设备1300执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元1303包括扬声器、蜂鸣器以及受话器等。输入单元1304用于接收音频或视频信号。输入单元1304可以包括图形处理器(graphicsprocessingunit，gpu)13041和麦克风13042，图形处理器13041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1306上。经图形处理器13041处理后的图像帧可以存储在存储器1309(或其它存储介质)中或者经由射频单元1301或网络模块1302进行发送。麦克风13042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1301发送到移动通信基站的格式输出。终端设备1300还包括至少一种传感器1305，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板13061的亮度，接近传感器可在终端设备1300移动到耳边时，关闭显示面板13061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器1305还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。显示单元1306用于显示由用户输入的信息或提供给用户的信息。显示单元1306可包括显示面板13061，可以采用液晶显示器(liquidcrystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板13061。用户输入单元1307可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元1307包括触控面板13071以及其他输入设备13072。触控面板13071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板13071上或在触控面板13071附近的操作)。触控面板13071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1310，接收处理器1310发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板13071。除了触控面板13071，用户输入单元1307还可以包括其他输入设备13072。具体地，其他输入设备13072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。进一步的，触控面板13071可覆盖在显示面板13061上，当触控面板13071检测到在其上或附近的触摸操作后，传送给处理器1310以确定触摸事件的类型，随后处理器1310根据触摸事件的类型在显示面板13061上提供相应的视觉输出。虽然在图13中，触控面板13071与显示面板13061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板13071与显示面板13061集成而实现终端设备的输入和输出功能，具体此处不做限定。接口单元1308为外部装置与终端设备1300连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元1308可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备1300内的一个或多个元件或者可以用于在终端设备1300和外部装置之间传输数据。存储器1309可用于存储软件程序以及各种数据。存储器1309可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1309可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器1310是终端设备1300的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器1309内的软件程序和/或模块，以及调用存储在存储器1309内的数据，执行终端设备1300的各种功能和处理数据，从而对终端设备1300进行整体监控。处理器1310可包括一个或多个处理单元；优选的，处理器1310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1310中。终端设备1300还可以包括给各个部件供电的电源1311(比如电池)，优选的，电源1311可以通过电源管理系统与处理器1310逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。另外，终端设备1300包括一些未示出的功能模块，在此不再赘述。优选地，本发明实施例还提供一种终端设备，包括处理器1310，存储器1309，存储在存储器1309上并可在所述处理器1310上运行的计算机程序，该计算机程序被处理器1310执行时实现上述应用于终端设备的信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述应用于终端设备的信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read-onlymemory，简称rom)、随机存取存储器(randomaccessmemory，简称ram)、磁碟或者光盘等。参见图14，图中示出了本发明实施例提供的服务器1400的结构示意图。如图14所示，服务器1400包括：处理器1401、存储器1403、用户接口1404和总线接口。处理器1401，用于读取存储器1403中的程序，执行下列过程：接收终端设备发送的当前视频帧或者当前视频帧的帧标识；生成返回信息；其中，返回信息中包括当前视频帧的对象关联信息和对象位置信息；向终端设备发送返回信息。在图14中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1401代表的一个或多个处理器和存储器1403代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。针对不同的用户设备，用户接口1404还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。处理器1401负责管理总线架构和通常的处理，存储器1403可以存储处理器1401在执行操作时所使用的数据。可选地，处理器1401，具体用于：根据预先设置的视频帧、对象索引信息、对象位置信息之间的对应关系，确定所述当前视频帧对应的对象索引信息和对象位置信息；生成返回信息；其中，所述返回信息中包括对象关联信息和所确定的对象位置信息，所述对象关联信息中包括所确定的对象索引信息。可选地，处理器1401，还用于：在生成返回信息之前，根据所确定的对象索引信息，进行信息搜索，以得到相应的对象索引结果；其中，所述返回信息中还包括所得到的对象索引结果。可选地，处理器1401，具体用于：根据预先设置的视频帧、对象索引信息、对象位置信息、视频尺寸之间的对应关系，确定所述当前视频帧对应的对象索引信息、对象位置信息和视频尺寸；其中，所述返回信息中还包括所确定的视频尺寸。可见，本发明实施例中，在终端设备进行视频的播放时，通过终端设备与服务器1400之间的交互，以及终端设备根据来自服务器1400的返回信息，在显示界面进行的显示处理，用户无需打开浏览器或者搜索引擎进行搜索即可认识视频中的对象，因此，与现有技术相比，本发明实施例中，用户能够更为便捷地认识视频中出现的对象。优选地，本发明实施例还提供一种服务器，包括处理器1401，存储器1403，存储在存储器1403上并可在处理器1401上运行的计算机程序，该计算机程序被处理器1401执行时实现上述应用于服务器的信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述应用于服务器的信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(read-onlymemory，简称rom)、随机存取存储器(randomaccessmemory，简称ram)、磁碟或者光盘等。上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：芦斌;于新卫;陈明;夏凡;于天宝
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。