一种用于获取多媒体数据的特征信息的方法和设备的制作方法

文档序号:6432138阅读:128来源:国知局
专利名称:一种用于获取多媒体数据的特征信息的方法和设备的制作方法
技术领域
本发明涉及互联网技术,尤其涉及获取多媒体数据的特征信息的技术。
背景技术
传统搜索引擎的网页抓取工具,如“网络蜘蛛(spider) ”、“网络爬虫(crawler) ”或者“机器人(robot) ”等,抓取如视频缩略图,视频时长等视频特征信息的方法主要通过对视频网站提供的视频网页进行分析,并从中提取该视频特征信息,该方法的缺点在于,若视频网页中并未包含视频特征信息,则网页抓取工具将无法获得该视频特征信息,进而影响 搜索引擎对视频网页的搜索覆盖率。因此,如何有效地获取多媒体数据的特征信息成为亟待解决的问题。

发明内容
本发明的目的是提供一种用于获取多媒体数据的特征信息的方法与设备。根据本发明的一个方面,提供一种计算机实现的用于获取多媒体数据的特征信息的方法,其中,该方法包括以下步骤a获取多媒体数据的标识信息;b根据所述标识信息,生成所述多媒体数据的播放请求;c将所述播放请求发送至该多媒体数据所在的网络设备;d接收来自所述网络设备的响应于所述播放请求反馈的多媒体播放响应信息;e根据所述多媒体播放响应信息,获取所述多媒体数据的特征信息。根据本发明的另一个方面,还提供一种用于获取多媒体数据的特征信息的设备,其中,该设备包括标识信息获取装置,用于获取多媒体数据的标识信息;请求生成装置,用于根据所述标识信息,生成所述多媒体数据的播放请求;发送装置,用于将所述播放请求发送至该多媒体数据所在的网络设备;接收装置,用于接收来自所述网络设备的响应于所述播放请求反馈的多媒体播放响应信息;特征信息获取装置,用于根据所述多媒体播放响应信息,获取所述多媒体数据的特征信息。如上所述,与现有技术相比,本发明提供了一种通用的获取多媒体数据的特征信息的方法,使得在多媒体数据网页中未包含该特征信息的情况下,依然可以获取多媒体数据的特征信息,从而提高多媒体数据的搜索覆盖率。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显
图I为根据本发明一个方面的用于获取多媒体数据的特征信息的设备示意图;图2为根据本发明一个优选实施例的用于获取多媒体数据的特征信息的设备示意图;图3为根据本发明另一个方面的用于获取多媒体数据的特征信息的方法流程图;图4为根据本发明一个优选实施例的用于获取多媒体数据的特征信息的方法流程图;附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。 图I为根据本发明一个方面的用于获取多媒体数据的特征信息的设备示意图。多媒体信息获取设备I包括标识信息获取装置11、请求生成装置12、发送装置13、接收装置14和特征信息获取装置15。在此,多媒体信息获取设备I包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。具体地,标识信息获取装置11获取多媒体数据的标识信息。更具体地,标识信息获取装置11例如根据多媒体数据的名称以及该多媒体数据所属的多媒体网站信息,在标识信息库中进行匹配查询以获得该多媒体数据的标识信息,其中,所述多媒体数据包括但不限于I)多媒体文件,诸如.wmv,. f lv,. rmvb,. mp4等格式的视频文件,及.wav,. mp3等格式的音频文件;2)流媒体数据,即采用流式传输的方式在因特网与内联网播放的媒体格式;其中,所述多媒体数据的标识信息用于标识该多媒体数据,其包含于发送至多媒体网站服务器的多媒体数据播放请求中,该多媒体网站服务器将根据该标识信息,识别该多媒体数据。在一示例中,多媒体数据为视频文件,该视频文件的名称为“非诚勿扰2”,并且该视频文件来自视频网站“WWW. videoabc. com”,标识信息获取装置11根据该视频文件的名称及其所属的网站,在标识信息库中进行匹配查询,以获得该视频文件的标识信息为“XMjg40Dk40DYw”。在此,所述标识信息库用于存储多媒体数据的名称、所属网站等信息,及其对应的多媒体数据的标识信息,该标识信息库包括但不限于关系数据库,内存存储器,硬盘存储器等。优选地,标识信息获取装置11可基于所述多媒体数据的播放页面的网络地址,来获取所述多媒体数据的标识信息。具体地,标识信息获取装置11例如根据该多媒体数据的播放页面的统一资源定位符(URL),确定该多媒体数据所属的多媒体网站,并根据该多媒体网站对其多媒体数据的播放页面的URL的命名规则,从该URL的预设位置读取该标识信息;或者,标识信息获取装置11通过在页面数据库中获取来自该多媒体数据所属多媒体网站的多个播放页面的URL,并对该些URL进行比较,获得该些URL中内容不同部分的位置信息,然后,标识信息获取装置11根据该位置信息,在该多媒体数据的播放页面的URL中提取该多媒体数据的标识信息。在一个示例中,多媒体数据Ml的播放页面的URL为“http ://v. abc. com/v_show/id_XMjkxMTYlNzcy. html”,标识信息获取装置11根据该URL中的多媒体网站的域名地址“V. abc. com”,在页面数据库中查询获得来自该多媒体网站的若干多媒体数据的播放页面,该些播放页面的URL分别为l)http://v. abc. com/v_show/id_273cvel2. html ;2)http://v. abc. com/v_show/id_XMkxMTYz. html ;3)http://v. abc. com/v_show/id_CVerl2Hk. html ;4)http://v. abc. com/v_show/id_720cvb64. html ; 通过对该些URL进行比较,标识信息获取装置11确定该些URL的变化内容在URL中的位置为字符串“id_”与“.html”之间,其中,该变化内容即为多媒体数据的标识信息,然后,标识信息获取装置11根据该位置信息,在多媒体数据Ml的播放页面的URL中提取其标识信息为 “XMjkxMTYlNzcy”。优选地,标识信息获取装置11还可基于在所述多媒体数据的播放页面中启动多媒体播放插件的参数信息,来获取所述多媒体数据的标识信息,其中,所述多媒体播放插件包括但不限于-Flash 插件;-MediaPlayer 插件;-Quicktime 插件。在一个示例中,当多媒体数据的播放页面在浏览器中渲染,浏览器通过运行该播放页面中的诸如Javascript、VBscript等脚本指令生成启动该播放页面中的多媒体播放插件的各启动参数,则标识信息获取装置11通过调用浏览器提供的API获取该各启动参数,并根据预设的标识信息参数关键字,在各启动参数中进行匹配查询,以获得该多媒体数据的标识信息。本领域技术人员应能理解上述获取标识信息的方式仅为举例,其他现有的或今后可能出现的获取标识信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。随后,请求生成装置12根据所述标识信息,生成所述多媒体数据的播放请求。具体地,请求生成装置12例如按照该多媒体数据所属多媒体网站设定的多媒体数据的播放请求的格式,生成包含标识信息获取装置11所获取的标识信息的该多媒体数据的播放请求,其中,所述播放请求包括但不限于-(超文本传输协议)HTTP请求;-(安全超文本传输协议)HTTPS请求;-(微软媒体服务器协议)丽S请求。在一个示例中,多媒体数据的标识信息为“75020837”,该多媒体数据所属多媒体网站的域名为“V. abc. com”,请求生成装置12根据该网站设定的多媒体数据的播放请求的格式,生成该多媒体数据的播放请求,如http://v. abc. com/v hd = l&vid = 75020837&noCache = 12469&ui = 0,其中该播放请求中的参数vid的参数值即为该多媒体数据的标识信息。
本领域技术人员应能理解上述生成播放请求的方式仅为举例,其他现有的或今后可能出现的生成播放请求的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。随后,发送装置13将所述播放请求发送至该多媒体数据所在的网络设备。具体地,发送装置13例如将请求生成装置12获得的多媒体数据的播放请求通过约定的通信协议,如HTTP、HTTPS协议,发送至该该多媒体数据所在的网络设备,如多媒体网站的服务器。在此,多媒体信息获取设备I与所述网络设备之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。本领域技术人员应能理解上述发送播放请求的方式仅为举例,其他现有的或今后可能出现的发送播放请求的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。 接着,接收装置14接收来自所述网络设备的响应于所述播放请求反馈的多媒体播放响应信息。具体地,多媒体数据所在的网络设备对来自多媒体信息获取设备I该多媒体数据的播放请求进行处理,以生成相应的多媒体播放响应信息,并将其按照约定的通信方式反馈至多媒体信息获取设备I,接收装置14实时地或应预定条件触发地接收该多媒体播放响应信息,其中,该多媒体播放响应信息包含该多媒体数据的特征信息。本领域技术人员应能理解上述接收响应信息的方式仅为举例,其他现有的或今后可能出现的接收响应信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。接着,特征信息获取装置15根据所述多媒体播放响应信息,获取所述多媒体数据的特征信息。具体地,特征信息获取装置15例如根据预先设定的多媒体数据播放响应信息的存储格式,对接收装置14获得的多媒体播放响应信息进行解析,并从解析后的多媒体播放响应信息中获得该多媒体数据的特征信息,其中,所述响应信息的存储格式包括但不限于I) JSON格式,其为一种轻量级的数据交换格式,一般采用“名称/值”对的方式表示数据,名称和值之间使用“”隔开;2) XML格式,其通过标记描述数据。在此,所述多媒体数据的特征信息包括但不限于-所述多媒体数据的缩略图;-所述多媒体数据的播放时长;-所述多媒体数据的播放死链信息,该播放死链信息意指用于提示用户该多媒体数据资源已不可用的信息;-所述多媒体数据的标题信息;-发布所述多媒体数据的用户信息,如用户账号、用户名称等。在一个示例中,接收装置14接收来自多媒体网站服务器的多媒体播放响应信息的存储格式为XML格式,其内容为<v Ig=nOn wt="0" tm="818970" vi="l" ch="14" tt=’'未之X成名袍爾' cd="Hlzhla-YRRY">
<f st="2" be=” 14” brt="2">
http://23.12.203.74/f4v/3 7/7502083 7.h264—I.f4v key=92bf6e&playtype=l &id=abc&itemid=45137369&fi=75020837&sz=34250563
</f>
</v>其中,标签<v>中的属性tt代表多媒体数据的标题、tm代表该多媒体数据的播放 时长,单位为ms ;接着,特征信息获取装置15将该响应信息解析为文档对象模型(DOM)树,并在该DOM树中遍历以获取所述多媒体数据的特征信息,例如多媒体数据的标题为“朱之文成名视频”,该多媒体数据的播放时长为818970ms。在此,所述DOM树意指通过对XML格式数据进行解析而获得的树结构数据,该树中的各节点与XML格式数据中的标签以及标签内容相对应,通过该DOM树可操作XML格式数据中的内容。在另一示例中,接收装置14接收来自多媒体网站服务器的多媒体播放响应信息的存储格式为JSON格式,其内容为
{"data":
[{"logo":"http://g2.abcimg.com/1100641F464CD617997F8B04AC9
C20CD0D85F8-628D-81BD-1886-0652309CA78B",
"videoid":"55149407",
"username": "\u96cf\u76ee",
"userid":"78421024",
” title”:"\u5e7b\u60f3\u5927\u9646”,
"seconds":"2225.67",
"error":"\u8be5\u89c6\u9891\u4ec5\u5bf9\u597d\u53cb\u516c\u5f00\uff0c\u8bf7" }]
}其中,“logo”代表多媒体数据的缩略图、“username”和“userid”代表发布该多媒体数据的用户信息,“seconds”代表该多媒体数据的播放时长,“eiror”代表该多媒体数据的播放死链信息;接着,特征信息获取装置15根据该存储格式,将该多媒体播放响应信息解析为“名称/值”数据对,如“userid/78421024”,“seconds/2225. 67”,并据此确定该多媒体数据的特征信息,例如该多媒体数据的缩略图为一 URL,该URL指向该缩略图在网络中的访问路径,以及该多媒体数据的播放死链信息。本领域技术人员应能理解上述多媒体播放响应信息的存储格式、获取多媒体数据的特征信息的方式仅为举例,其他现有的或今后可能出现的多媒体播放响应信息的存储格式、获取多媒体数据的特征信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。需要说明的是,本发明通过对多媒体数据播放请求的响应信息进行解析,并根据该响应信息中是否包含播放死链信息,确定该多媒体数据的资源是否可用,解决了现有技术难于确定多媒体数据资源是否可用的技术问题,从而有效地辅助搜索引擎的网页抓取工具过滤不可用的多媒体数据的网页,提高多媒体数据搜索的质量。在此,还需要说明的是,举例中的各多媒体数据的播放请求和响应信息作为说明作用的示例,仅供理解本发明,不作为实际应用时的真实数据。如无特别说明,本文中其他地方出现的播放请求和响应信息的功用与此处相同,为简明起见,不再赘述。
优选地,标识信息获取装置11、请求生成装置12、发送装置13、接收装置14和特征信息获取装置15之间是持续不断地工作。具体地,标识信息获取装置11持续地获取多媒体数据的标识信息;随后,请求生成装置12也持续地根据所述标识信息,生成所述多媒体数据的播放请求;接着,发送装置13也持续地将所述播放请求发送至该多媒体数据所在的网络设备;随后,接收装置14也持续地接收来自所述网络设备的响应于所述播放请求反馈的多媒体播放响应信息;接着,特征信息获取装置15也持续地根据所述多媒体播放响应信息,获取所述多媒体数据的特征信息;在此,本领域技术人员应理解“持续”是指各装置分别不断进行多媒体数据标识信息的获取、播放请求的生成、播放请求的发送、响应信息的接收以及多媒体数据的特征信息的获取,直至满足预定停止条件,例如标识信息获取装置11在较长时间内停止对多媒体数据的标识信息的获取。图2为根据本发明一个优选实施例的用于获取多媒体数据的特征信息的设备示意图;其中,特征信息获取装置15’包括键值对获取单元151’、匹配查询单元152’和第一获取单元153’,其中,所述多媒体播放响应信息包括各键值数据对,每一键值数据对包括键值名称与键值;键值对获取单元151’提取所述多媒体播放响应信息中的各键值数据对;随后,匹配查询单元152’根据所述键值名称,在信息映射表中进行匹配查询,以获得所述多媒体数据的特征信息中与所述键值名称相对应的信息项;接着,第一获取单元153’将所述键值名称所对应的所述键值作为所述信息项的信息项值,以获得所述多媒体数据的特征信息。在此,图2中所示装置1Γ-14’与前面参照图I所描述的装置11-14的内容相同,为简明起见,以引用方式包含于此,而不做赘述。具体地,键值对获取单元151’例如通过对多媒体播放响应信息进行解析,以获得其中的各键值数据对,其中,所述键值数据对包括键值名称与键值,每个键值数据对与多媒体数据的特征信息中的一个信息项相对应,该信息项包括该多媒体数据的播放时长、该多媒体数据的缩略图等;随后,匹配查询单元152’将键值对获取单元151’获得的各键值数据对中的各键值名称分别在信息映射表中进行匹配查询,以确定所述多媒体数据的特征信息中与该各键值名称相对应的信息项;接着,第一获取单元153’将该键值名称在其键值数据对中所对应的键值作为所述信息项的信息项值,以获得该多媒体数据的特征信息。在此,所述信息映射表用于存储响应信息中键值数据对的键值名称与多媒体数据的特征信息中的信息项之间的映射关系。在一个示例中,键值对获取单元151’通过对多媒体播放响应信息的解析,获得键值数据对如下
权利要求
1.一种计算机实现的用于获取多媒体数据的特征信息的方法,其中,该方法包括以下步骤 a获取多媒体数据的标识信息; b根据所述标识信息,生成所述多媒体数据的播放请求; c将所述播放请求发送至该多媒体数据所在的网络设备; d接收来自所述网络设备的响应于所述播放请求反馈的多媒体播放响应信息; e根据所述多媒体播放响应信息,获取所述多媒体数据的特征信息。
2.根据权利要求I所述的方法,其中,所述多媒体数据的特征信息包括以下至少任一项 -所述多媒体数据的缩略图; -所述多媒体数据的播放时长; -所述多媒体数据的播放死链信息; -所述多媒体数据的标题信息; -发布所述多媒体数据的用户信息。
3.根据权利要求I或2所述的方法,其中,所述步骤a包括 -基于所述多媒体数据的播放页面的网络地址,来获取所述多媒体数据的标识信息。
4.根据权利要求I或2所述的方法,其中,所述步骤a包括 -基于在所述多媒体数据的播放页面中启动多媒体播放插件的参数信息,来获取所述多媒体数据的标识信息。
5.根据权利要求4所述的方法,其中,所述多媒体播放插件包括以下至少任一项 -Flash 插件; -MediaPlayer 插件; -Quicktime 插件。
6.根据权利要求I至5中任一项所述的方法,其中,所述多媒体播放响应信息的存储格式包括以下任一项 -JSON格式; -XML格式。
7.根据权利要求I至6中任一项所述的方法,其中,所述多媒体播放响应信息包括各键值数据对,每一键值数据对包括键值名称与键值,所述步骤e包括 -提取所述多媒体播放响应信息中的各键值数据对; -根据所述键值名称,在信息映射表中进行匹配查询,以获得所述多媒体数据的特征信息中与所述键值名称相对应的信息项; -将所述键值名称所对应的所述键值作为所述信息项的信息项值,以获得所述多媒体数据的特征信息。
8.根据权利要求7所述的方法,其中,该方法还包括 -获取来自所述网络设备的多个多媒体播放响应信息; -基于预定规则对所述多个多媒体播放响应信息中的各键值数据对进行识别,以获得与所述多媒体数据的特征信息中各信息项相对应的键值名称; -根据所述键值名称,建立或更新所述信息映射表。
9.根据权利要求8所述的方法,其中,所述预定规则包括当以下至少任一项符合预定条件时,将所述键值名称识别为与该预定条件相对应的信息项 -所述键值数据对在所述多个多媒体播放响应信息中累计出现的次数; -所述键值数据对中键值的数据类型。
10.一种用于获取多媒体数据的特征信息的设备,其中,该设备包括 标识信息获取装置,用于获取多媒体数据的标识信息; 请求生成装置,用于根据所述标识信息,生成所述多媒体数据的播放请求; 发送装置,用于将所述播放请求发送至该多媒体数据所在的网络设备; 接收装置,用于接收来自所述网络设备的响应于所述播放请求反馈的多媒体播放响应信息; 特征信息获取装置,用于根据所述多媒体播放响应信息,获取所述多媒体数据的特征信息。
11.根据权利要求10所述的设备,其中,所述多媒体数据的特征信息包括以下至少任一项: -所述多媒体数据的缩略图; -所述多媒体数据的播放时长; -所述多媒体数据的播放死链信息; -所述多媒体数据的标题信息; -发布所述多媒体数据的用户信息。
12.根据权利要求10或11所述的设备,其中,所述标识信息获取装置用于基于所述多媒体数据的播放页面的网络地址,来获取所述多媒体数据的标识信息。
13.根据权利要求10或11所述的设备,其中,所述标识信息获取装置用于基于在所述多媒体数据的播放页面中启动多媒体播放插件的参数信息,来获取所述多媒体数据的标识信息。
14.根据权利要求13所述的设备,其中,所述多媒体播放插件包括以下至少任一项 -Flash 插件; -MediaPlayer 插件; -Quicktime 插件。
15.根据权利要求10至14中任一项所述的设备,其中,所述多媒体播放响应信息的存储格式包括以下任一项 -JSON格式; -XML格式。
16.根据权利要求10至15中任一项所述的设备,其中,所述多媒体播放响应信息包括各键值数据对,每一键值数据对包括键值名称与键值,所述特征信息获取装置包括 键值对获取单元,用于提取所述多媒体播放响应信息中的各键值数据对; 匹配查询单元,用于根据所述键值名称,在信息映射表中进行匹配查询,以获得所述多媒体数据的特征信息中与所述键值名称相对应的信息项; 第一获取单元,用于将所述键值名称所对应的所述键值作为所述信息项的信息项值,以获得所述多媒体数据的特征信息。
17.根据权利要求16所述的设备,其中,该设备还包括 响应信息获取装置,用于获取来自所述网络设备的多个多媒体播放响应信息; 识别装置,用于基于预定规则对所述多个多媒体播放响应信息中的各键值数据对进行识别,以获得与所述多媒体数据的特征信息中各信息项相对应的键值名称; 更新装置,用于根据所述键值名称,建立或更新所述信息映射表。
18.根据权利要求17所述的设备,其中,所述预定规则包括当以下至少任一项符合预定条件时,将所述键值名称识别为与该预定条件相对应的信息项 -所述键值数据对在所述多个多媒体播放响应信息中累计出现的次数; -所述键值数据对中键值的数据类型。
全文摘要
本发明的目的是提供一种用于获取多媒体数据的特征信息的方法与设备。其中,多媒体信息获取设备获取多媒体数据的标识信息;根据所述标识信息,生成所述多媒体数据的播放请求;将所述播放请求发送至该多媒体数据所在的网络设备;接收来自所述网络设备的响应于所述播放请求反馈的多媒体播放响应信息;根据所述多媒体播放响应信息,获取所述多媒体数据的特征信息。与现有技术相比,本发明提供了一种通用的获取多媒体数据的特征信息的方法,使得在多媒体数据网页中未包含该特征信息的情况下,依然可以获取多媒体数据的特征信息,从而提高多媒体数据的搜索覆盖率。
文档编号G06F17/30GK102968412SQ20111025572
公开日2013年3月13日 申请日期2011年8月31日 优先权日2011年8月31日
发明者谭国强 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1