一种利用视频信息搜索物品的方法和装置的制作方法

文档序号：6618186阅读：207来源：国知局

专利名称：一种利用视频信息搜索物品的方法和装置的制作方法
技术领域：
本发明涉及一种利用视频信息搜索物品的方法和装置。
背景技术：
随着智能电视的发展和普及，人们可以通过智能电视设备进行视频的下载和观看，同时也可以在智能电视终端通过网络来进行购物。为了实现智能电视终端用户在观看视频的过程中，购买视频中所展示的商品，但视频中所展示的商品与电商所销售的商品没有直接的关联性。近年来，一些研究者们开始探索智能电视屏幕上所展示的视频内容与线上电商所销售的商品之间的关联性，并寻求能有效桥接二者之间鸿沟的桥梁。目前智能电视购物还处于初步探索阶段，主要的方式有(I)视频搜索视频。通过增加电视机硬件设备来获取正在播放的视频流，或者是通过移动设备录制正在播放的视频片段，将得到的视频段发送到服务器上，通过视频搜索技术来搜索视频库中与之相关的视频。若采用该方式实现购物，需要通过人工事先将视频库中的视频与视频中所展示的商品信息相关联。(2)特定视频关联商品。对特定视频进行预处理，加入相关商品的标记信息，用户在观看视频的过程中点击视频中特定的标记信息来查看商品的详细信息，并实现感兴趣商品的购买。(3)图像视频帧搜索商品图像。该方式与(I)类似，获取智能电视屏幕上当前播放的视频段，采用图像处理方式分析图像中的信息量，选择信息量最多的视频帧图像来代表该视频段进行视频搜索。综上所述，现存的这些方式存在的缺陷有(1)通过人工对视频进行预处理以及视频与商品相关联的预处理，不仅需要耗费大量的人工，而且人工预处理具有很强的主观性，一致性较弱，准确性较低。(2)通过视频段来进行视频的搜索，不仅需要占用较多的网络传输带宽，而且视频库的建立成本较高，需要耗费大量的人力与物力，同时其搜索效率较低。(3)选择富含信息量的视频帧图像来代表用户的查询意图，其表达能力较弱，用户的查询意愿与视频帧图像的内容之间存在“语义鸿沟”，所选择的视频帧图像中的视觉内容并不能在任何情况下都准确描述了用户的查询意图，因此影响了搜索的准确性。移动互联网的飞速发展，使得用户能够随时随地享受网络带来的便利性和丰富的信息量，使得随时随地购物成为了现实；同时智能电视的发展，产生了新的购物平台和购物方式，如何提高智能电视终端用户购物的便捷性，实现一键式便捷购物是我们需要解决的问题。在这个大的应用环境中，通过智能电视终端实现基于内容的图像搜索购物也成为了新的发展领域。但在实际的应用中，利用智能电视提供的视频信息进行商品搜索的效率和准确性都比较低。

发明内容
有鉴于此，本发明提供一种利用视频信息搜索物品的方法和装置，能够提高对视频内的物品进行搜索的效率和准确性。为实现上述目的，根据本发明的一个方面，提供了一种利用视频信息搜索物品的方法。
本发明的利用视频信息搜索物品的方法包括从视频信息中获取图像；基于SIFT特征计算，选择所述图像的每个被分割出的区域中的关键点；对所述关键点进行语义学习得到所述图像中的物品的语义信息；根据所述语义信息，在物品信息数据库中搜索该物品。可选地，所述从视频信息中获取图像的步骤包括接收用于截取视频帧的指令；从视频信息中获取预设时间段的视频帧，该预设时间段包含接收到所述指令的时刻。可选地，所述预设时间段为[tfl. 5s, t0+0. 6s]，其中h表示接收到所述指令的时刻。可选地，所述基于SIFT特征计算，选择所述图像的每个被分割出的区域中的关键点的步骤包括将所述图像从RGB色彩空间变换到LUV色彩空间；采用均值平移算法将图像分割成多个区域；对所述多个区域进行SIFT特征计算；根据所述SIFT特征计算的结果从所述多个区域中选择各个区域中的关键点。可选地，对所述关键点进行语义学习得到所述图像中的物品的语义信息的步骤包括对所述关键点进行k-means算法聚类，并计算每个聚类的中心；将所述每个聚类的中心输入到SVM分类器中，得到每个语义类别的输出；根据所述语义类别的输出确定所述图像中的物品的语义信息。
可选地，所述k-means算法中，聚类数目是根据如下公式进行计算
权利要求
1.一种利用视频信息搜索物品的方法，其特征在于，包括从视频信息中获取图像；基于SIFT特征计算，选择所述图像的每个被分割出的区域中的关键点；对所述关键点进行语义学习得到所述图像中的物品的语义信息；根据所述语义信息，在物品信息数据库中搜索该物品。
2.根据权利要求1所述的方法，其特征在于，所述从视频信息中获取图像的步骤包括接收用于截取视频帧的指令；从视频信息中获取预设时间段的视频帧，该预设时间段包含接收到所述指令的时刻。
3.根据权利要求2所述的方法，其特征在于，所述预设时间段为[tf1.Ss，h+o.es]，其中h表示接收到所述指令的时刻。
4.根据权利要求1所述的方法，其特征在于，所述基于SIFT特征计算，选择所述图像的每个被分割出的区域中的关键点的步骤包括将所述图像从RGB色彩空间变换到LUV色彩空间；采用均值平移算法将图像分割成多个区域；对所述多个区域进行SIFT特征计算；根据所述SIFT特征计算的结果从所述多个区域中选择各个区域中的关键点。
5.根据权利要求1所述的方法，其特征在于，对所述关键点进行语义学习得到所述图像中的物品的语义信息的步骤包括对所述关键点进行k-means算法聚类，并计算每个聚类的中心；将所述每个聚类的中心输入到SVM分类器中，得到每个语义类别的输出；根据所述语义类别的输出确定所述图像中的物品的语义信息。
6.根据权利要求5所述的方法，其特征在于，所述k-means算法中，聚类数目是根据如下公式进行计算
7.一种利用视频信息搜索物品的装置，其特征在于，包括截屏模块，用于从视频信息中获取图像；图像处理模块，用于基于SIFT特征计算，选择所述图像的每个被分割出的区域中的关键点；语义学习模块，用于对所述关键点进行语义学习得到所述图像中的物品的语义信息；搜索模块，用于根据所述语义信息，在物品信息数据库中搜索该物品。
8.根据权利要求7所述的装置，其特征在于，所述截屏模块还用于接收用于截取视频帧的指令；从视频信息中获取预设时间段的视频帧，该预设时间段包含接收到所述指令的时刻。
9.根据权利要求7所述的装置，其特征在于，所述图像处理模块还用于将所述图像从RGB色彩空间变换到LUV色彩空间；采用均值平移算法将图像分割成多个区域；对所述多个区域进行SIFT特征计算；根据所述SIFT特征计算的结果从所述多个区域中选择各个区域中的关键点。
10.根据权利要求7所述的装置，其特征在于，所述语义学习模块还用于对所述关键点进行k-means算法聚类，并计算每个聚类的中心；将所述每个聚类的中心输入到SVM分类器中，得到每个语义类别的输出；根据所述语义类别的输出确定所述图像中的物品的语义信息。
全文摘要
本发明提供一种利用视频信息搜索物品的方法和装置，能够提高对视频内的物品进行搜索的效率和准确性。该方法包括从视频信息中获取图像；基于SIFT特征计算，选择所述图像的每个被分割出的区域中的关键点；对所述关键点进行语义学习得到所述图像中的物品的语义信息；根据所述语义信息，在物品信息数据库中搜索该物品。
文档编号G06K9/46GK103020172SQ20121049210
公开日2013年4月3日申请日期2012年11月28日优先权日2012年11月28日
发明者王亚卿申请人:北京京东世纪贸易有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王亚卿
技术所有人：北京京东世纪贸易有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。