用于识别相关媒体内容的方法和系统与流程

文档序号：14943064发布日期：2018-07-13 21:34阅读：134来源：国知局

本发明总体上涉及一种用于识别相关媒体内容的方法和系统，更具体地涉及基于视频的视觉内容的识别。

背景技术：

广告对于视频内容的提供者起重要作用。例如，就比如youtube^tm和hulu^tm的视频流传输网站来说，视频内容通常免费地流传输到它们的用户中的至少一些。内容提供者的收益的很大一部分因此来源于广告。即使在视频内容不是免费提供的情况下，广告收益也可以帮助补贴提供和托管视频内容的成本，从而使订阅费用保持很低。视频流传输网站的用户通常具有关闭正在播放的广告的选择，因此显示将使观看者感兴趣的广告的能力对于视频内容提供者是重要的，因为它影响他们吸引登广告者的能力，因此影响他们的收益。

目前已知的在视频播放期间识别用于显示的广告的方法是基于标准(比如用户配置文件或者行为)以及视频的元数据(比如标题和体裁)的。然而，这样的匹配方法可能不能识别用户将感兴趣的广告。类似地，在其他情况下，比如在教育背景下，还可能可取的是识别观看者将感兴趣的相关媒体内容。

技术实现要素：

概括地说，本发明提供一种用于基于视频中显示的对象与和媒体内容(比如广告)相关联的视觉图像之间的视觉相似性来识别媒体内容的方法和系统。使相关媒体内容与视频匹配的这个机制有利地提供由于其与观看者在视频中看到的对象的视觉相似性而使用户将对其感兴趣的媒体内容。相比之下，目前已知的方法不基于视频的视觉内容来识别媒体内容，结果，可能错过用户将感兴趣的相关广告。

在一示例性实施方案中，一种用于管理视频内容的方法被描述。所述方法包括与特征数据库建立通信信道。特征数据库包括多个预定特征。所述方法可以进一步包括与内容数据库建立通信信道。内容数据库包括多个预定媒体内容。所述方法可以进一步包括接收输入视频。所述方法可以进一步包括选择输入视频的一部分，所述部分具有潜在地相关的特征。所述方法可以进一步包括产生潜在地相关的特征的替代表示。所述方法可以进一步包括处理产生的替代表示。处理产生的替代表示的步骤可以包括搜索特征数据库。处理产生的替代表示的步骤还可以包括确定产生的替代表示与在特征数据库中的预定特征中的一个或更多个之间匹配的可能性。通过处理产生的替代表示的步骤，响应于产生的替代表示与在特征数据库中的特定预定特征之间匹配的可能性超过第一阈值的确定，所述方法还可以包括搜索内容数据库。通过处理产生的替代表示的步骤，响应于产生的替代表示与在特征数据库中的特定预定特征之间匹配的可能性超过第一阈值的确定，所述方法还可以包括确定特定预定特征与在内容数据库中的预定媒体内容中的一个或更多个之间匹配的可能性。响应于特定预定特征与在内容数据库中的特定预定媒体内容之间匹配的可能性超过第二阈值的确定，所述方法还可以包括将特定预定媒体内容关联到输入视频。

在另一示例性实施方案中，一种用于管理视频内容的方法被描述。所述方法可以包括提供特征数据库。特征数据库可以包括多个预定特征。所述方法还可以包括提供内容数据库。内容数据库可以包括多个预定媒体内容。所述方法还可以包括选择输入视频的一部分，所述部分具有潜在地相关的特征。所述方法还可以包括产生潜在地相关的特征的替代表示。所述方法还可以包括从特征数据库选择特定预定特征。特定预定特征可以基于特定预定特征最可能地匹配于从在特征数据库中的多个预定特征中产生的替代表示的确定被选择。所述方法还可以包括从内容数据库选择特定预定媒体内容。特定预定媒体内容可以基于特定预定媒体内容最可能地匹配于被选择的特定预定特征和/或潜在地相关的特征的确定被选择。所述方法还可以包括将被选择的特定预定媒体内容关联到输入视频。

在另一示例性实施方案中，一种用于管理视频内容的系统被描述。所述系统可以包括处理器。处理器可以被配置或可配置来与特征数据库建立通信信道。特征数据库可以包括多个预定特征。处理器还可以被配置或可配置来与媒体内容数据库建立通信信道。媒体内容数据库可以包括多个预定媒体内容。处理器还可以被配置或可配置来接收输入视频。处理器还可以被配置或可配置来选择输入视频的一部分，所述部分具有潜在地相关的特征。处理器还可以被配置或可配置来产生识别的潜在地相关的特征的替代表示。处理器还可以被配置或可配置来处理产生的替代表示。处理产生的替代表示的步骤可以包括搜索特征数据库。处理产生的替代表示的步骤还可以包括确定产生的替代表示与在特征数据库中的预定特征中的一个或更多个之间匹配的可能性。通过处理产生的替代表示的步骤，响应于产生的替代表示与在特征数据库中的特定预定特征之间匹配的可能性超过第一阈值的确定，处理器还可以被配置或可配置来搜索媒体内容数据库以及确定特定预定特征与在媒体内容数据库中的预定媒体内容中的一个或更多个之间匹配的可能性。响应于特定预定特征与在媒体内容数据库中的特定预定媒体内容之间匹配的可能性超过第二阈值的确定，处理器还可以被配置或可配置来将特定预定媒体内容关联到输入视频。

在另一示例性实施方案中，一种用于管理视频内容的系统被描述。所述系统可以包括处理器。处理器可以被配置或可配置来与特征数据库通信。特征数据库可以包括多个预定特征。处理器还可以被配置或可配置来与内容数据库通信。内容数据库可以包括多个预定媒体内容。处理器还可以被配置或可配置来接收输入视频。处理器还可以被配置或可配置来选择输入视频的一部分，所述部分具有潜在地相关的特征。处理器还可以被配置或可配置来产生潜在地相关的特征的替代表示。处理器还可以被配置或可配置来从特征数据库选择特定预定特征。特定预定特征可以基于特定预定特征最可能地匹配于从在特征数据库中的多个预定特征中产生的替代表示的确定被选择。处理器还可以被配置或可配置来从内容数据库选择特定预定媒体内容。特定预定媒体内容可以基于特定预定媒体内容最可能地匹配于被选择的特定预定特征和/或潜在地相关的特征的确定被选择。处理器还可以被配置或可配置来将被选择的特定预定媒体内容关联到输入视频。

在另一示例性实施方案中，一种用于管理视频内容的方法被描述。所述方法可以包括接收具有一个或更多个视频帧的输入视频。所述方法还可以包括从输入视频中选择显示目标产品和/或其他特征的视频帧(和/或输入视频的一部分)。所述方法还可以包括产生显示在被选择的视频帧(和/或输入视频的被选择的部分)中的目标产品和/或其他特征的替代表示。所述方法还可以包括针对可能与显示在被选择的视频帧(和/或输入视频的被选择的部分)中的目标产品和/或其他特征有关的媒体内容搜索内容数据库。内容数据库的搜索可以通过使用目标产品和/或其他特征的替代表示被执行。所述方法还可以包括在搜索内容数据库的步骤中，将找到的最可能匹配的媒体内容关联到被选择的视频帧(和/或输入视频的被选择的部分)。

在另一示例性实施方案中，一种用于管理视频内容的系统被描述。所述系统可以包括处理器。处理器可以可配置或被配置来接收具有一个或更多个视频帧的输入视频。处理器还可以可配置或被配置来从输入视频中选择显示目标产品和/或其他特征的视频帧(和/或输入视频的一部分)。处理器还可以可配置或被配置来产生显示在被选择的视频帧(和/或输入视频的被选择的部分)中的目标产品和/或其他特征的替代表示。处理器还可以可配置或被配置来针对可能与显示在被选择的视频帧(和/或输入视频的被选择的部分)中的目标产品和/或其他特征有关的媒体内容搜索内容数据库。内容数据库的搜索可以通过使用目标产品和/或其他特征的替代表示被执行。处理器还可以可配置或被配置来在搜索内容数据库的步骤中，将找到的最可能匹配的媒体内容关联到被选择的视频帧(和/或输入视频的被选择的部分)。

根据本发明的一个方面，提供了一种用于对包括多个视频帧的输入视频识别相关媒体内容的方法。所述方法包括：对所述多个视频帧中的至少一个进行分析以检测所述多个视频帧中的任何一个是否包含目标产品；选择至少一个包含检测到的目标产品的视频帧；以及对每个选定视频帧产生产品缩略图，所述产品缩略图包括检测到的目标产品。选择产品缩略图中的至少一个，并且对每个选定产品缩略图产生视频产品视觉索引。所述方法进一步包括通过将每个选定产品缩略图的视频产品视觉索引与媒体内容数据库中的多个媒体内容视觉索引进行比较来从媒体内容数据库对选定产品缩略图中的至少一个识别相关媒体内容，每个媒体内容视觉索引与媒体内容产品数据库中的一个媒体内容相关联。

根据各种实施方案，所述方法可以进一步包括基于比较使至少一个媒体内容与选定产品缩略图有相关关系(correlating)。

根据各种实施方案，所述方法可以进一步包括产生包括至少一个视频产品元数据的视频产品索引，每个视频产品元数据与选定产品缩略图中的一个相关联(associated)。

根据各种实施方案，每个视频产生元数据可以包括与选定产品缩略图有相关关系的至少一个媒体内容，所述至少一个媒体内容是可检索的以显示在视频显示器上。

根据各种实施方案，所述方法可以进一步包括对每个选定产品缩略图计算产品相关性得分，其中产品相关性得分指示与选定产品缩略图有相关关系的每个媒体内容与产品缩略图中所包括的检测到的目标产品之间的相关性程度。

根据各种实施方案，产生包括至少一个视频产品元数据的视频产品索引的步骤可以包括基于选定产品缩略图的产品相关性得分来选择所述多个选定产品缩略图中的哪个产生所述至少一个产品元数据。

根据各种实施方案，每个视频产品元数据可以进一步包括选定产品缩略图的产品相关性得分。

根据各种实施方案，每个视频产品元数据可以进一步包括与选定产品缩略图相关联的时间标签信息，其中时间标签信息指示视频帧的输入视频内的从其提取选定产品缩略图的时间位置。

根据各种实施方案，每个视频产品元数据可以进一步包括选定产品缩略图的视觉图像，该视觉图像是可检索的以显示在视频显示器上。

根据各种实施方案，对所述多个视频帧中的至少一个进行分析以检测所述多个视频帧中的任何一个是否包含目标产品的步骤可以包括使用视觉分析算法，所述视觉分析算法包括全图像视觉分类算法和对象定位算法。

根据各种实施方案，所述方法可以进一步包括产生包括至少一个视频产品元数据的视频产品索引，每个视频产品元数据与选定产品缩略图中的一个相关联，并且包括与视频产品元数据相关联的选定产品缩略图的视频产品视觉索引。

根据各种实施方案，对选定产品缩略图中的至少一个识别相关媒体内容的步骤可以在产生视频产品索引之后执行，并且识别可以使用与选定产品缩略图相关联的视频产品元数据中的视频产品视觉索引。

根据各种实施方案，所述方法可以进一步包括在识别相关媒体内容的步骤之后使至少一个媒体内容与选定产品缩略图有相关关系。

根据各种实施方案，所述方法可以进一步包括对与视频产品元数据中的一个相关联的每个选定产品缩略图计算产品相关性得分，其中产品相关性得分指示与选定产品缩略图有相关关系的每个媒体内容与选定产品缩略图中的检测到的目标产品之间的相关性得分。

根据各种实施方案，每个视频产品元数据可以进一步包括与选定产品缩略图相关联的时间标签信息，所述选定产品缩略图与视频产品元数据相关联，其中时间标签信息指示视频帧的输入视频内的从其提取选定产品缩略图的时间位置。

根据各种实施方案，媒体内容可以为广告的形式。

在本发明的另一个方面，提供了一种对包括多个视频帧的输入视频识别相关媒体内容的系统，所述系统包括至少一个处理器，所述至少一个处理器被配置为执行以下步骤：对所述多个视频帧中的至少一个进行分析以检测所述多个视频帧中的任何一个是否包含目标产品；选择至少一个包含检测到的目标产品的视频帧；对每个选定视频帧产生产品缩略图，所述产品缩略图包括检测到的目标产品；选择产品缩略图中的至少一个，并且对每个选定产品缩略图产生视频产品视觉索引；以及从媒体内容数据库对选定产品缩略图中的至少一个识别相关媒体内容，所述识别的步骤包括：将每个选定产品缩略图的视频产品视觉索引与媒体内容数据库中的多个媒体内容视觉索引进行比较，每个媒体内容视觉索引与媒体内容产品数据库中的一个媒体内容相关联。

在本发明的又一个方面，提供了一种用于对包括多个视频帧的输入视频识别相关媒体内容的系统，所述系统包括：媒体内容数据库，其包括多个媒体内容和多个媒体内容视频索引，每个媒体内容视觉索引与媒体内容中的一个相关联。所述系统还包括视频产品索引数据库，其包括多个视频产品索引，每个视频产品索引与多个输入视频中的一个相关联，其中每个视频产品索引包括至少一个视频产品元数据，每个视频产品元数据包括产品缩略图的视频产品视觉索引，产品缩略图表示在输入视频中找到的检测到的目标产品。还存在产品-媒体内容搜索服务器，其被配置为通过以下步骤在视频数据库中对输入视频中的一个识别相关媒体内容：将匹配的输入视频的视频产品索引中的所述至少一个视频产品元数据中的每个中的视频产品视觉索引与媒体内容数据库中的多个媒体内容视觉索引进行比较。所述系统有利地提供在用户请求播放输入视频之后对该输入视频的相关媒体内容的识别。

根据各种实施方案，产品-媒体内容搜索服务器可以被进一步配置为基于比较使至少一个媒体内容与每个视频产品视觉索引有相关关系。

根据各种实施方案，产品-媒体内容搜索服务器可以被进一步配置为将有相关关系的媒体内容发送到通信地耦合到视频播放器的媒体内容模块，广告模块被配置为使有相关关系的媒体内容显示在视频显示器上。

根据各种实施方案，媒体内容模块可以形成视频播放器的一部分。

根据各种实施方案，输入视频存储在与视频产品索引数据库安置在一起的数据库中。

附图说明

参照以下附图详细地描述根据一个或者更多个各种实施方案的本发明。出于例示说明的目的提供的这些附图仅意图便利读者理解本发明。它们不应被解读为限制本发明的范围或者适用性。相同的编号可以被用来指示出现在多于一个的附图中的相似的元件。

图1是图示用于相关广告的离线识别的示例性布置的框图。

图2是图示根据图1的实施方案由视频帧选择模块执行的操作的示例性模块化概览的示图。

图3是图示根据图1的实施方案由产品缩略图产生模块执行的操作的示例性模块化概览的示图。

图4是图示在其中可以递送通过图1的实施方案产生的视频产品索引的示例性计算环境的示意图。

图5是图示根据本发明的一个实施方案的视频播放期间的相关广告的显示的示例性视频播放器图形用户界面。

图6是图示用于产生用于相关广告的在线识别的视频产品索引的示例性布置的框图。

图7是根据一个实施方案的视频产品索引的示例性图示。

图8是图示用于相关广告的在线识别的示例性布置的框图。

图9是图示视频播放期间的相关广告在弹出窗口中的显示的示例性视频播放器图形用户界面。

具体实施方式

概括地说，本发明提供了一种用于基于视频中显示的对象与和媒体内容相关联的视觉图像之间的视觉相似性来识别相关媒体内容(即广告)的方法和系统。相关媒体内容的识别可以在播放视频的请求被发出之前离线地执行，或者在播放视频的请求被发出之后实时地执行。下面描述的实施方案在识别并显示与视频相关的广告的背景下例示说明本发明。然而，要意识到，本发明不限于仅应用于广告背景下。例如，本发明还可以用在教育背景下，在教育背景下，比如视觉图像或者视频的媒体内容被示出以教育正在观看出现在视频中的关于某些对象的名称的视频的孩子。鉴于此，要意识到，术语ad在以下段落中描述的模块和属性中的使用并不意在于是对本发明的范围的限制。例如，以下模块可以被包含或者处理其他形式的媒体内容(比如具有教育目的的图片和视频)的模块取代。因此，ad产品数据库可以被媒体内容数据库取代，ad存储数据库可以被媒体内容存储数据库取代，ad产品视觉索引编排模块可以被媒体内容视觉索引编排模块取代，产品-ad匹配模块可以被产品-媒体内容匹配模块取代，产品-ad搜索服务器可以被产品-媒体内容搜索服务器取代，并且广告模块可以被媒体内容模块取代。属性ad产品视觉索引也可以被称为媒体内容视觉索引。此外，要意识到，在下面的描述中，阐述了许多细节来提供不同实施方案的更透彻的解释。这些细节并非意图限制，本发明可以在没有这些特定细节的情况下实施。

图1是根据本发明的一个实施方案的用于相关广告的离线识别的布置100的框图。布置100包括视频数据库102、视频帧选择模块110、与目标产品图像数据库210通信的产品检测模块200、产品缩略图产生模块220、视频产品视觉索引编排模块300、产品-ad匹配模块310、视频产品元数据模块350以及ad产品数据库400。用于处理的输入视频从视频数据库102馈送到视频帧选择模块110，视频帧选择模块110将输入视频分割为多个片段(shot)，并且滤除图像分辨率差的视频帧，每个片段包括多个帧。产品检测模块200然后对从视频帧选择模块110传入的视频帧进行分析，并且识别哪些帧包含目标产品图像数据库210识别的目标产品。目标产品是指与媒体内容相关的对象，在该示例性例示说明中，媒体内容是存储在ad产品数据库400中的广告。例如，它可以包括登广告者想要广告的任何消费者物品，比如包、移动电话、杯面以及汽车。然而，目标产品不限于物品，可以是识别特性(比如，品牌标志，例如，bmw^tm)的形式。目标产品也可以是与登广告者希望广告的产品或服务相关的对象。例如，目标产品可以是酒店建筑的形状，正被广告的服务是酒店预订服务。目标产品图像数据库210包含目标产品的视觉表示，并且每个目标产品具有与它相关联的目标产品名称。被识别为包含目标产品的至少一个视频帧被选择，并且产品缩略图产品模块220产生在该帧内检测到的目标产品的产品缩略图。视频产品视觉索引编排模块300然后通过使用视觉分析算法提取在缩略图中检测到的目标产品的视觉表示来对从产品缩略图产生模块传入的每个产品缩略图产生产品视觉索引。产品-ad视觉匹配模块310通过将产品缩略图的视频产品视觉索引与驻留在ad存储数据库410中的广告的视觉表示(也被称为ad产品视觉索引)进行比较来识别接近这样的产品的广告，所述产品在视觉上与在产品缩略图中检测到的目标产品类似。至少一个相关的广告可以与基于该比较的每个产品缩略图有相关关系。最后，视频产品元数据模块350产生被配置为便利相关广告在视频播放期间的显示的视频产品索引。视频产品索引包括一个或者更多个视频产品元数据，每个视频产品元数据与产品缩略图相关联。每个视频产品元数据包括与其相关联的缩略图有相关关系的至少一个相关广告。指示帧的在其处提取产品缩略图的时间位置的时间标签信息也可以包含在视频产品元数据中。

图2图示根据本发明的一个实施方案的视频帧选择模块110。帧选择模块110包括片段分割模块112和帧质量过滤模块114。来自视频数据库102的输入视频被馈送到片段分割模块212，片段分割模块212将输入视频分割为多个视频片段，每个视频片段包括多个帧。每个视频片段通常持续几秒。优选地，输入视频被分割为使得在一个片段内不存在重大的场景变化。在一个实施方案中，基于连续帧之间的视觉像素中的变化来将输入视频分割为片段。计算连续帧之间的逐像素和颜色直方图差值，如果该差值超过预定阈值，则将这些帧划分为两个单独的片段。分割的视频然后被馈送到帧质量过滤模块114，帧质量过滤模块114在产品检测模块200就目标产品的存在对输入视频中的视频帧进行分析之前滤除图像分辨率差的帧。帧质量过滤模块114对视频帧的过滤涉及评估输入视频中的帧的图像清晰度和对比度并且丢弃不满足最小分辨率阈值要求(例如，由于运动模糊或者场景转变而导致)的帧。可替换地，可能可行的是将帧质量过滤步骤完全省略并且直接进行目标产品的检测。输入视频的分割也可以是可选的。

来自输入视频的帧然后从视频帧选择模块110馈送到产品检测模块200，产品检测模块200对传入的视频帧进行分析以确定它们是否包含任何目标产品。产品检测模块200首先通过从每个帧提取视觉特征并且对提取的特征进行量化以创建该帧的视觉表示来产生该帧的视觉表示。视觉特征可以包括颜色直方图、有向梯度直方图以及卷积神经网络。其他视觉特征也可以附加地或者替代地使用。为了评估帧是否包含任何目标产品，将该帧的视觉表示与目标产品图像数据库210中所包含的目标产品的视觉表示进行比较。目标产品的视觉表示可以通过从目标产品的至少一个示例性图像提取视觉特征并且像对视频帧那样对提取的特征进行量化来创建。目标产品的多于一个的示例性图像(例如，在不同视图中，比如前透视图)以及相关产品的图像可以被用来对目标产品进行建模并且创建该目标产品的视觉表示。

产品检测模块200可以使用视觉分析算法来对视频帧进行分析，视觉分析算法包括全图像视觉分类算法和对象定位算法。可替换地，其他视觉分析算法也可以是合适的。全图像视觉分类算法搜索帧的视觉表示以确定它是否包含与在目标产品图像数据库210中找到的目标产品的视觉表示相似的任何视觉特性。可以计算指示存在于帧内的任何目标产品的概率的目标产品概率度量。只有通过它们是否满足最小产品概率度量阈值而被确定为包含目标产品的概率足够高的帧被选择供产品缩略图产生模块220进行进一步处理。在一个实施方案中，当检测到存在目标产品时，对象定位算法定位在帧内检测到的目标产品，并且产生指示检测到的目标产品在该帧内的坐标的位置矢量。基于特征形状检测对象的基于形状的视觉模型可以被用来定位检测到的目标产品。这样的算法的实施例包括但不限于harr级联检测器和hog检测器。可替换地，其他对象检测算法也可以是合适的。位置矢量随后可以被产品缩略图产生模块220用来在产生包含检测到的目标产品的产品缩略图之前定位检测到的目标产品。如前所述，每个目标产品具有与它相关联的目标产品名称。

产品检测模块200选择的视频帧然后被馈送到产品缩略图产生模块220，优选地与在选定视频帧中找到的检测到的目标产品的目标产品名称一起馈送。如图3所示，产品缩略图产生模块220包括缩略图成像模块222、缩略图过滤模块224以及视频产品缩略图数据库228。缩略图成像模块222定位在传入的视频帧内检测到的目标产品，并且基于检测到的目标产品的局部图像来产生检测到的产品的缩略图图像。我们应将缩略图图像称为产品缩略图。目标产品在帧内的位置可以由位置矢量辅助，位置矢量指示检测到的目标产品在视频帧内的坐标。在替换实施方案中，缩略图成像模块222基于整个帧的视觉图像来产生目标产品的缩略图，而不是首先定位检测到的目标产品并且基于围绕该产品本身的局部区域来产生产品缩略图。在帧内定位目标产品并且在创建产品缩略图之前在检测到的目标产品的本身上放大的优点是，来自该帧内的其他特征的背景噪声基本上被消除。这使得可以更精确地在视觉上表示检测到的目标产品，并且因此改进与检测到的目标产品相关的广告的识别。

产品缩略图成像模块222产生的产品缩略图被馈送到缩略图过滤模块224，缩略图过滤模块224可以包括产品分组模块226和/或过滤模块227。产品分组模块226对产品缩略图进行评估，并且如果必要，对它们进行分组。缩略图然后可以被过滤模块227过滤。在一个实施方案中，产品分组模块226确定同一个片段内的两个或者更多个产品缩略图是否包含相同的目标产品，如由检测到的目标产品中的相似性(比如帧内的产品视觉特征和位置)所指示的。如果两个或者更多个产品缩略图被发现包含相同的目标产品，则它们被分组在一起。过滤模块227然后按两步处理对产品缩略图进行过滤。在第一步中，基于比如每个缩略图组的图像质量和大小的标准来对产品缩略图进行过滤。可以就图像分辨率和对比度来对图像质量进行评估。组大小较大的缩略图组可以被认为是更可取的，因为这意味着相同的目标产品出现在片段内的持续时间较长，并且照此，与仅出现一次的产品相比，该目标产品更有可能已经被精确地识别。可以对过滤机制进行加权以便给每个标准分配不同的优先度。如果单个的产品缩略图(其不是一个组的一部分)不满足过滤标准，或者如果同一组的所有成员都不满足过滤标准，则它们被丢弃。在第二步中，如果其余的产品缩略图包含一个或者更多个组，则过滤模块选择一个产品缩略图来表示每个组，并且删除该组中的其余的缩略图。对选择代表性产品缩略图有用的标准包括使用帧质量过滤的那些标准，比如图像分辨率、对比度以及目标产品概率度量。更特定于产品的其他标准，比如产品概率度量和缩略图图像分辨率，也可以附加地或者替代地使用。过滤模块227保留的产品缩略图被保存到视频产品缩略图数据库228。在产品缩略图中检测到的目标产品的目标产品名称以及与产品缩略图相关联的时间标签信息也可以与产品缩略图一起保存在视频产品缩略图数据库中。时间标签信息指示视频帧的输入视频内的在其处提取缩略图的时间位置。

如图1所示，存储在产品缩略图产生模块220的视频产品缩略图数据库228中的视频产品缩略图输入到视频产品视觉索引编排模块300，视频产品视觉索引编排模块300产生在每个产品缩略图中检测到的目标产品的视觉表示。我们应将该视觉表示称为视频产品视觉索引。视频产品视觉索引是通过提取产品缩略图中的视觉特征并且对提取的特征进行量化以创建检测到的目标产品的视觉表示而产生的。视觉特征可以包括颜色直方图、有向梯度直方图以及卷积神经网络。其他视觉特征也可以附加地或者替代地使用。产品缩略图的视频产品视觉索引然后输入到产品-ad匹配模块310，产品-ad匹配模块310使用视频产品视觉索引来识别媒体内容，在这种情况下，媒体内容是接近这样的产品的广告，所述产品的在视觉上与在缩略图中检测到的目标产品类似。

如图1所示，产品-ad匹配模块310与ad产品数据库400通信，ad产品数据库400包括ad存储数据库410和ad产品视觉索引编排模块420。ad存储数据库410存储可以为视觉图像或者视频的形式的广告。例如，就视频来说，至少一个表示正被广告的产品的视觉图像与视频一并存储。ad产品视觉索引编排模块420产生每个广告正在广告的产品的视觉表示。我们应称之为ad产品视觉索引的视觉表示可以基于广告本身，如果广告采取视觉图像的话。ad产品图像也可以基于在广告中正被广告的产品的一个或者更多个视觉图像。与视频产品视觉索引一样，ad产品视觉索引也是通过使用视觉分析算法提取视觉图像中的视觉特征而产生的。视觉特征可以包括颜色直方图、有向梯度直方图以及卷积神经网络。其他视觉特征也可以附加地或者替代地使用。ad产品视觉索引被作为其相关联的广告的ad产品索引的一部分存储在ad存储数据库中。ad存储数据库中的广告优选地还被分配与用于存储在目标产品图像数据库中的目标产品的目标产品名称对应的目标产品名称。与广告相关联的目标产品名称可以被存储在ad产品索引中。

产品-ad匹配模块310通过在ad存储数据库410中搜索与在视觉上类似于检测到的目标产品的产品有依赖关系的广告来识别与在每个视频产品缩略图中检测到的目标产品相关的广告。视觉相似性是通过确定产品缩略图的视频产品视觉索引与广告的ad产品视觉索引之间的匹配相近程度来测量的。如以上所讨论的，广告的ad产品视觉索引是在广告中正被广告的产品的视觉表示。对相关广告的搜索可以通过使搜索限于具有与检测到的目标产品相同的目标产品名称的广告来辅助进行。产品-ad视觉匹配模块310可以基于搜索结果对每个缩略图计算产品相关性得分。产品相关性得分指示ad存储数据库上的至少匹配程度最相近的广告与检测到的目标产品之间的就它们各自的产品视觉索引来说的相似性程度。产品相关性得分中所包括的广告数量对应于与缩略图有相关关系的相关广告的数量。有相关关系的广告的数量又取决于可以同时显示在视频显示器(比如图形用户界面(gui))上的广告的期望数量。因此，产品相关性得分不仅仅限于关于匹配程度最相近的广告的信息，而是可以适用于相关性排前几位的广告。在一个实施方案中，如果如产品相关性得分中指示的、匹配程度最相近的广告与在缩略图中检测到的目标产品之间的相似性程度不满足最小阈值，则产品缩略图可以被丢弃，并且不被馈送到视频产品元数据模块350。

视频产品元数据模块350对尚未被产品-ad匹配模块310丢弃的每个产品缩略图创建视频产品元数据。与产品缩略图有相关关系的广告以及关于产品缩略图的其他信息输入到视频产品元数据模块350，以便使得能够创建视频产品元数据。每个视频产品元数据包含至少一个与产品缩略图有相关关系的广告。它还可以包含与产品缩略图相关联的属性，包括关于帧的在其处提取产品缩略图的时间位置的时间标签信息。其他属性，比如产品相关性得分、产品缩略图的图像，也可以包括在视频产品元数据中。要意识到，包括时间标签信息、产品缩略图图像以及产品相关性得分并不是必要的。然而，如果当播放输入视频时将要显示产品缩略图图像，则该图像是必需的，而如果意图是广告根据产品相关性得分选择性地显示，则产品相关性得分是必要的。关于每个缩略图的视频产品元数据可以被存储在位于视频产品元数据模块350中的缓冲器中以供以后被视频产品元数据模块350检索。为了使得能够在播放输入视频时显示相关广告，视频产品元数据模块350产生包括与输入视频相关联的所有视频产品元数据的视频产品索引。视频产品索引可以为数据包的形式，并且被配置为使得视频产品元数据中的有相关关系的广告可以被检索以用于显示在视频显示器上。

在图4所示的一个实施方案中，输入视频及其相关联的视频产品索引被保存在视频流传输服务器500上，视频流传输服务器500是远离位于客户端处的视频播放器510远程托管的。视频流传输服务器经由网络(比如互联网)与视频播放器进行通信。视频播放器510包括广告模块512，广告模块512被配置为读取视频产品索引并且使相关广告显示在视频播放器在其上显示视频的视频显示器上。尽管广告模块在图4中被示为视频播放器510的部件，但是应理解，这不是必要的，广告模块也可以实施为独立模块。当用户请求视频播放器510播放存储在视频流传输服务器500上的特定视频时，视频播放器510将请求与将被检索的视频的视频id一起发送到服务器500。响应于接收到视频请求，服务器将请求的视频的视频内容及其相关联的视频产品索引流传输到视频播放器510。相关联的视频产品索引被存储在广告模块512中。广告模块将读取视频产品索引，并且在视频播放器的图形用户界面(gui)上渲染有相关关系的广告的显示。在一个实施方案中，当视频正被播放时，比如当视频在时间标签处播放时，广告模块512可以随时自动地在视频播放器的gui上渲染有相关关系的广告的显示。如早先所讨论的，时间标签是指视频中出现具有检测到的产品的帧的时刻。有相关关系的广告也可以在输入视频播放之前或者之后显示。可替换地或者附加地，广告的显示也可以是选择性的，在这种情况下，广告模块将每个广告的产品相关性得分与指定阈值进行比较，并且仅渲染产品相关性得分超过指定阈值的广告的显示。指定阈值可以根据请求输入视频的用户的身份而改变。例如，视频内容提供者可以具有不同类的用户，比如付费用户和非付费用户。广告模块然后可以被配置为使得用于付费用户的指定阈值高于用于非付费用户的指定阈值，以使得非付费用户一般有更多正在显示的广告。在图5所示的一个实施方案中，多于一个的相关广告同时显示，例如，产品相关性得分最高和第二高的广告可以被显示。尽管图5中的广告被示为视觉图像，但是广告也可能是视频的形式。包含检测到的目标产品的产品缩略图也可以与广告同时显示。另外，gui也可以被配置为使得可以在广告图像和产品缩略图图像上放大。gui还可以具有可移动的以更多或接近地查看的控制栏520。要理解，尽管视频流传输服务器500在图4中被示为仅服务一个视频播放器客户端，但是服务器也可以服务其视频和视频产品索引在视频流传输服务器上被类似托管的多个客户端。此外，在另一个离线实施方案中，输入视频及其相关联的视频产品索引可以被一起存储在客户端位置(比如位于视频播放器中的或者耦合到视频播放器的存储装置)处，并且在不必连接到远程服务器的情况下被检索。

图6示出了示例性布置600的框图，布置600用于产生当视频被播放时在线识别相关广告中将使用的视频产品索引。布置600包括视频数据库102、视频帧选择模块110、与目标产品图像数据库210通信的产品检测模块200、产品缩略图产生模块220、视频产品视觉索引编排模块300、视频产品元数据模块350以及视频产品索引数据库620。在一个实施方案中，视频帧选择模块110、产品选择模块200、目标产品图像数据库210、产品缩略图产生模块220、视频产品视觉索引编排模块300类似于见于图1的离线实施方案中的那些模块。它们也类似地进行操作以识别输入视频流中的目标产品，选择一个或者更多个包含检测到的目标产品的帧，产生包含检测到的产品的产品缩略图，并且产生在产品缩略图中检测到的目标产品的视觉产品索引。

具体地说，用于处理的输入视频从视频数据库102馈送到视频帧选择模块110，视频帧选择模块110将输入视频分割为多个片段，并且滤除图像分辨率差的视频帧，每个片段包括多个帧。可以使用图2中描述的视频帧选择模块110。产品检测模块200然后对从视频帧选择模块110传入的视频帧进行分析，并且识别哪些帧包含如由目标产品图像数据库210识别的目标产品。目标产品是指与存储在ad产品数据库400中的广告相关的对象，其中，这些广告将与输入视频匹配以用于当该视频被播放时显示。可以使用关于图1描述的产品检测模块200。目标产品的检测是通过使用视觉分析算法将每个帧的视觉表示与目标产品图像数据库210中的目标产品的视觉表示进行比较来执行的。视觉分析算法可以包括全图像视觉分类算法，该算法搜索帧的视觉表示以确定它是否包含与在目标产品图像数据库210中找到的目标产品的视觉表示类似的任何视觉特性。可以计算指示存在于帧内的任何目标产品的概率的目标产品概率度量。在一个实施方案中，视觉分析算法可以进一步包括对象定位算法，该算法在帧内检测到目标产品时产生指示检测到的目标产品在该帧内的坐标的位置矢量。基于特征形状检测对象的基于形状的视觉模型可以被用来定位检测到的目标产品。位置矢量随后可以被产品缩略图产生模块220用来在产生包含检测到的目标产品的产品缩略图之前定位检测到的目标产品。只有满足对产品概率度量预设的阈值目标值的帧被选择供产品缩略图产生模块220进行进一步处理。产品检测模块选择的视频帧然后被馈送到产品缩略图产生模块220，产品缩略图产生模块220产生在视频帧内检测到的目标产品的缩略图。可以使用图3中描述的产品缩略图产生模块220。如关于图3所描述的，产品缩略图产生模块220包括缩略图成像模块222、缩略图过滤模块224以及视频产品缩略图数据库228。缩略图成像模块222成像产品缩略图，该产品缩略图是在视频帧内检测到的目标产品的视觉图像。优选地，缩略图成像模块222使用产品检测模块200产生的位置矢量来定位在视频帧内检测到的目标产品，并且基于检测到的目标产品的局部图像来产生该产品的缩略图图像。产品缩略图也可以改为基于整个帧的视觉图像来产生。在多于一个的目标产品在一个帧内被检测到的情况下，缩略图成像模块仅产生如通过目标产品概率度量测量的存在可能性最高的目标产品的产品缩略图。产品缩略图成像模块222产生的产品缩略图被馈送到缩略图过滤模块224，缩略图过滤模块224包括产品分组模块226和过滤模块227。产品分组模块226对产品缩略图进行评估，并且如果必要，对它们进行分组。过滤模块227然后可以按两步处理对产品缩略图进行过滤。在第一步中，基于比如每个缩略图组的图像质量和大小的标准来对产品缩略图进行过滤。在第二步中，如果其余的产品缩略图包含一个或者更多个组，则过滤模块选择一个产品缩略图来表示每个组，并且删除该组中的其余的缩略图。过滤模块227保留的产品缩略图被保存到视频产品缩略图数据库228，优选地与在缩略图中检测到的目标产品的目标产品名称以及与缩略图相关联的时间标签信息一起保存。时间标签信息指示视频帧的输入视频内的在其处提取缩略图的时间位置。如图6所示，存储在产品缩略图产生模块220的视频产品缩略图数据库228中的视频产品缩略图输入到视频产品视觉索引编排模块300，视频产品视觉索引编排模块300产生在每个缩略图中检测到的目标产品的视觉表示。视频产品视觉索引是通过提取产品缩略图中的视觉特征并且对提取的特征进行量化以创建检测到的目标产品的视觉表示而产生的。

产品缩略图的视频产品视觉索引然后输入到视频产品元数据模块350，视频产品元数据模块350对每个产品缩略图产生视频产品元数据。每个视频产品元数据至少包含它所关联的产品缩略图的视频产品视觉索引。它还可以可选地包括与相关联的产品缩略图相关的其他属性，包括目标产品名称、时间标签信息以及产品缩略图的图像。时间标签是指关于帧的在其处提取产品缩略图的时间位置，并且被包括在视频产品元数据中，如果广告将在检测到的目标产品出现在视频中时的时间左后显示的话。关于产品缩略图图像，如果产品缩略图的图像将在输入视频被播放时显示，则产品缩略图图像是必需的。关于每个缩略图的视频产品元数据可以被存储在位于视频产品元数据模块350中的缓冲器中以供以后被视频产品元数据模块350检索。为了使得能够在播放输入视频时显示相关广告，视频产品元数据模块350产生包括与输入视频相关联的所有视频产品元数据的视频产品索引。视频产品索引为数据包的形式，并且被配置为使得驻留在视频产品元数据中的信息可以被检索并且被用于比如识别相关广告的目的。图7示出了包括多个视频产品元数据1-n的示例性视频产品索引700，每个视频产品元数据与产品缩略图相关联。如早先所讨论的，每个视频产品元数据应至少包含识别与产品缩略图中所示的检测到的目标产品相关的广告所必需的信息。视频产品索引被配置为使得每个视频产品元数据中的信息可以被检索并且被用于搜索相关广告。图7所示的视频产品索引700是基于时间的，以使得如驻留在视频产品元数据中的时间标签信息的存在所证明的，所述信息与输入视频的时间线是绑定的。

图8图示了用于使用视频产品索引来在线识别相关广告的系统800的实施方案。该系统包括位于服务器位置处的包括多个视频的视频服务器810。视频服务器可以与图1和6所示的视频数据库102是相同的。服务器位置还包括产品-ad搜索服务器820，产品-ad搜索服务器820耦合到视频产品索引数据库620以及包括ad存储数据库的ad产品数据库820。产品-ad搜索服务器820经由网络(比如互联网)与包括视频播放器840的客户端进行通信，视频播放器840包括广告模块842。广告模块842被配置为读取与视频相关联的视频产品索引以及坐标，并且使当视频被播放时显示相关广告。广告模块842还可以被配置为响应于用户动作采取某些动作。广告模块842在图8中被示为形成视频播放器本身的一部分，但是要意识到，广告模块842也可以是附加模块的形式的独立实施方案。

响应于用户请求播放特定的视频文件，视频播放器将发送视频id识别的被请求视频文件的请求发送到视频服务器810。当接收到该请求时，视频服务器810将所述视频文件发送到视频播放器。为了使得能够识别与所述视频文件相关的广告，广告模块842还将对与被请求视频对应的视频产品索引的请求发送到产品-ad搜索服务器820。对应的视频产品索引由与视频本身相同的视频id识别。当接收到该请求时，产品-ad搜索服务器820使用视频id从视频产品索引数据库620检索对应的视频产品索引，并且将该视频产品索引发送到广告模块842。在图中未图示的另一个实施方案中，视频产品索引可以与视频文件一起存储在比如文件服务器810中，并且与视频文件一起被检索。视频产品索引也可以与视频文件一起存储在客户端方上被发现的位置处。如果视频产品索引与其相关联的视频文件一起存储，则可能不需要单独的视频产品索引数据库。如早先所描述的，视频产品索引包含与产品缩略图相关联的一个或者更多个视频产品元数据。每个视频产品元数据至少包括将帮助识别与在缩略图中检测到的目标产品相关的广告的信息。因此，每个视频产品元数据将至少包括视频产品视觉索引。它还可以包括目标产品名称，因为这将便利相关广告的识别。另外，指示帧的在其处找到产品的时序的时间标签和/或产品缩略图的视觉图像也可以包括在视频元数据中。

为了识别与在产品缩略图中找到的检测到的目标产品相关的广告，广告模块842从视频产品索引中的其对应的视频产品元数据检索产品缩略图的视频产品视觉索引。广告模块842然后将推荐信号发送到产品-ad搜索服务器910，该推荐信号请求产品-ad搜索服务器910基于视频产品视觉索引来识别相关的广告。广告模块842可以在视频产品索引已经被接收到之后随时发送推荐信号。在与检测到的目标产品相关的广告将与检测到的目标产品在视频中出现的时候同时显示的情况下，对该检测到的产品的推荐信号将必须在视频播放到达时间标签(即，检测到的目标产品在视频中出现的时间位置)之前被触发。广告模块842可以从视觉产品索引中所包含的视频产品元数据获得时间标签信息，并且协调推荐信号的触发以使得相关广告可以被及时地接收和显示。优选地，与检测到的产品相关联的目标产品名称也在视频元数据中被找到以使得它可以被广告模块842检索，并且被发送到产品-ad搜索服务器以使得如下所述只有具有相同的目标产品名称的广告被分析。另外，广告模块还可以发送在视频元数据中未找到的其他信息来辅助搜索。要意识到，发送推荐信号、识别相关广告以及发送有相关关系的广告的处理甚至可以在相关联的视频正被播放的同时进行。

如图8所示，产品-ad搜索服务器820与ad产品数据库830进行通信，ad产品数据库830存储视觉图像或者视频的形式的多个广告。每个广告具有对应的ad产品视觉索引，该索引是每个广告正在广告的产品的视觉表示。类似于图1中的实施方案，如果广告采取视觉图像的形式，则ad产品视觉索引可以基于广告本身，或者可以基于广告中正在广告的产品的一个或者更多个视觉图像。ad产品视觉索引是通过提取视觉图像中的视觉特征而产生的。视觉特征可以包括颜色直方图、有向梯度直方图以及卷积神经网络。其他视觉特征也可以附加地或者替代地使用。ad产品数据库830还可以包括关于广告的其他信息，比如广告属于哪种产品类别。产品-ad搜索服务器810通过在ad存储数据库830中搜索接近这样的产品的广告来识别与检测到的目标产品相关的广告，所述产品在视觉上与检测到的目标产品类似。视觉相似性是通过产品缩略图的视频产品视觉索引与广告的ad产品视觉索引之间的匹配相近程度来测量的。优选地，ad存储数据库中的广告也被分配与分配给目标产品图像数据库中的目标产品的目标产品名称对应的目标产品名称。对相关广告的搜索然后将通过搜索具有与匹配的检测到的产品相同的目标产品名称的广告来辅助进行。对相关广告的搜索还可以由广告模块发送的其他附加信息来引导，比如用户信息以及可能已经被用户在搜索视频时输入的引导搜索的任何文本查询。产品-ad搜索服务器820可以基于搜索结果来对每个缩略图计算产品相关性得分。产品相关性得分指示ad产品数据库830上的至少匹配程度最相近的广告与匹配的检测到的目标产品之间的就它们各自的产品视觉索引来说的视觉相似性程度。产品相关性得分中所包括的广告数量对应于与缩略图有相关关系的相关广告的数量。有相关关系的广告的数量又取决于可以同时显示在视频播放器gui上的广告的期望数量。因此，产品相关性得分不仅仅限于关于匹配程度最相近的广告的信息，而是可以适用于相关性排前几位的广告。

产品-ad搜索服务器820从ad产品数据库830检索有相关关系的广告，并且将它们发送到广告模块842。广告模块842可以在有相关关系的广告显示在视频播放器gui上之前将这些广告存储在缓冲器中。在一个实施方案中，当视频正被播放时，广告模块842自动地在视频播放器的图形用户界面(gui)上渲染有相关关系的广告的显示。优选地，相关广告在视频在时间标签处播放时显示，也就是说，与该视频对应的检测到的目标产品在视频上出现的时候同时显示。产品缩略图也可以像图5中那样与广告一并显示。然而，这不是必要的。例如，相关广告也可以在视频被播放之前或者之后显示。在另一个实施方案中，广告的显示是选择性的，在这种情况下，广告模块842将每个有相关关系的广告的产品相关性得分与指定阈值进行比较，并且仅渲染产品相关性得分超过指定阈值的广告的显示。阈值设置可以是变量，该变量根据请求视频的用户的身份而改变。例如，付费用户可以具有比非付费用户高的阈值设置，以使得较少的广告被显示。在阈值设置存储在产品-ad搜索服务器上的情况下，只有产品相关性得分高于阈值的广告将被发送到广告模块842。另外，广告模块842还可以被配置为当用户对显示的广告做出响应时执行某些动作。

在图9中的系统的另一个应用中，对相关广告的搜索不是自动触发的，而是基于用户请求。在图9所示的一个实施例中，检测到的产品的产品缩略图在视频播放期间显示在视频播放器gui上，用户通过点击缩略图来触发搜索。在这样的情况下，在视频产品索引中找到的视频产品元数据将必须包括产品缩略图的图像以及时间标签信息。响应于这样的用户动作，图8中的广告模块842触发与当视频在时间标签附近播放时自动地触发的推荐信号类似的推荐信号。当接收到推荐信号时，产品-ad搜索服务器820对在缩略图中找到的检测到的目标产品识别相关广告。为了便利相关广告的搜索，检测到的产品的视频产品视觉索引从其在与正被播放的视频相关联的视频产品索引中的视频元数据检索，并且发送到产品-ad搜索服务器820。优选地，检测到的产品的目标产品名称也可以从该视频产品元数据检索，并且发送到产品-ad搜索服务器820。与搜索自动触发的实施例一样，产品-ad搜索服务器820在ad存储数据库830中搜索在视觉上与检测到的目标产品类似的产品的广告。视觉相似性是通过检测到的目标产品的视频产品视觉索引与广告的ad产品视觉索引之间的匹配相近程度来测量的。在一个实施方案中，对相关广告的搜索通过搜索具有与匹配的检测到的产品相同的目标产品名称的广告来辅助进行。其他信息也可以被广告模块842发送到产品-ad搜索服务器820来辅助搜索。例如，图9所示的视频播放器gui允许用户选择搜索选项。用户选择的搜索选项以及其他信息(比如用户行为和偏好信息)、可能已经在搜索视频时被用户输入的文本查询也可以发送到产品-ad搜索服务器820，并且被用来识别相关广告。产品-ad搜索服务器820计算产品相关性得分，该得分指示至少匹配程度最相近的广告与匹配的检测到的目标产品的相关性程度。它主要基于视觉相似性程度。产品相关性得分中反映的相关广告的数量取决于可以同时显示在视频播放器gui上的、因此与每个产品缩略图有相关关系的广告的期望数量。一个或者更多个产品相关性得分最高的广告被产品-ad搜索服务器820发送到广告模块842以用于显示在视频播放器gui上。在图9的实施例中，相关广告与产品缩略图和搜索选项一并显示在弹出窗口中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李广达;宋征;徐帆
技术所有人：拍搜有限公司
我是此专利的发明人

上一篇：一种矿山井下信号基站散热保护装置的制作方法
上一篇：一种基于组播的EPG搜索方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。