一种存储视频文件的描述信息和视频片段的方法及系统的制作方法

文档序号:6613010阅读:174来源:国知局
专利名称:一种存储视频文件的描述信息和视频片段的方法及系统的制作方法
技术领域
本发明涉及互联网领域,特别是涉及一种存储视频文件的描述信息和视频 片段的方法及系统。
背景技术
随着计算机网络、互联网技术的不断发展,互联网上信息的形式逐渐向集 视频、语音、图像、文本于一体的多媒体信息形式发展。互联网上涌现出大量 的视频网站,为互联网用户提供视频文件以及与其相关的资源信息。互联网用 户对欲获取信息的形式的选择也随之变化,越来越倾向于选择图文并茂的多媒 体形式的信息。
目前主流的视频网站,聚合大量的视频资源, 一般都提供视频文件的下载,互联网用户可以通过网页在线观看视频文件,也可以通过下载软件将^L频文件 下载后观看。为了方便互联网用户下载视频文件,视频网站页面展现出视频文 件的相关信息,例如视频文件的标题、大小、格式、视频质量等,目前的视频 网站页面主要有以下展现形式第一、展现出视频文件的标题、大小、格式等信息。第二、展现出视频文件的标题、大小、格式等信息,还提供视频文件的图 片预览。这两种形式各有优缺点釆用第一种形式,用户可以快速获取^L频文件的 一些基本信息,但不能确定这些基本信息是否真实(尤其当这些基本信息是通 过搜索引擎查找出来时);采用第二种形式,显然优于采用第一种形式,用户 可以快速获取视频文件的一些基本信息,但图片是静止的,用户不能判断视频 质量。本发明提供一种存储视频文件的描述信息和视频片段的方法及系统,以实 现关联存储视频文件的描述信息和视频片段。发明内容本发明实施例提供一种存储视频文件的描述信息和视频片段的方法及系 统,以实现关联存储视频文件的描述信息和视频片段。本发明实施例的方法包括从网站获取视频文件的描述信息;根据获取的所述描述信息中的链接信息和视频文件的内容签名cid,获取 所述视频文件的视频片段;通过视频文件的cid关联存储获取的所述视频文件的描述信息和视频片段。本发明实施例的系统包括网络爬虫Spider、中央处理服务器Hub和中央 数据存储服务器,网络爬虫Spider,用于从网站获取视频文件的描述信息,以及根据视频文 件的描述信息中的链接信息和视频文件的cid获取该视频文件的视频片段; 中央处理服务器Hub,用于将Spider获取的视频文件的描述信息输出; 中央数据存储服务器,用于接收Hub输出的视频文件的描述信息,以及接 收视频片段,并通过视频文件的cid将视频文件的描述信息与视频片段关联存 储。本发明实施例从网站获取视频文件的描述信息,描述信息中至少包括链接 信息和视频文件的cid,其中视频文件的cid可以唯一确定视频文件,再根据获 取的描述信息来获取视频文件的视频片段,并通过视频文件的cid关联存储获 取的视频文件的描述信息和视频片段。因此本发明实施例能够实现关联存储视 频文件的描述信息和视频片段。


图1为本发明实施例中存储视频文件的描述信息和视频片段的方法步骤流程图2为本发明实施例中存储视频文件的描述信息和视频片段的系统结构示意图。
具体实施例方式
为了实现关联存储视频文件的描述信息和视频片段,本发明实施例提供一 种存储视频文件的描述信息和视频片段的方法,参见图l所示,包括以下主要步骤
Sl、从网站获取一见频文件的描述信息。
视频文件的描述信息至少包括视频文件的链接信息、内容签名cid (Content Identification )、归属的网站、标题、格式以及大小等。
其中,视频文件的cid通过下述方式获得(之后不再赘述)以能算出文件 内容的唯一标识的算法对视频文件进行计算,得出该视频文件的cid。具体的, 计算视频文件的cid包括以下因素
因素一、采用能算出文件内容的唯一标识的算法来计算,例如MD5算法 (包括但不限于MD5算法)。
因素二、选择计算的对象。具体的,可以对视频文件的所有二进制数据内 容进行计算;也可以任意选取视频文件中至少两段二进制数据内容进行计算, 而且选取的每段二进制数据内容的长度任意,例如可以对视频文件起始字节信 息、中间字节信息进行计算,也可以对视频文件起始字节信息、中间字节信息 以及结尾字节信息进行计算。
因素三、对计算后的结果进行合成的方式。当任意选取视频文件中至少两 段二进制数据内容进行计算时,对计算后得出的结果可以采用但不限于以下方 式进行合成若采用MD5算法,则将计算后得出的各MD5值首尾相连合成该
视频文件的cid;也可以再以MD5算法对计算后得出的结果进行计算,得出 MD5值,作为该视频文件的cid。52、 根据获取的所述描述信息中的链接信息和视频文件的内容签名cid, 获取所述视频文件的视频片段。在获取视频片段之前,按照前文所述计算视频文件的cid的方法计算,得 出该视频文件的cid;也可以直接从存储的描述信息中获取视频文件的cid。再以视频文件的cid为索引,判定已存储的该视频文件的视频片段数量小 于预设的阈值,则根据描述信息中的链接信息获取该视频文件的视频片段。在获取视频片段之后,计算获取的视频片段中每一帧的图像直方图,判定 每一帧的图像均为特定颜色,则重新获取视频片段。53、 通过视频文件的cid关联存储获取的所述视频文件的描述信息和视频 片段。进一步,还可以向用户展现存储的视频文件的描述信息和视频片段。至此本发明实施例的方法的主要步骤流程描述完毕。本发明实施例还提供一种存储视频文件的描述信息和视频片段的系统,参 见图2所示,包括网络爬虫Spider、中央处理服务器Hub和中央数据存储服 务器。其中,网络爬虫Spider,用于从网站获取视频文件的描述信息,以及根据 视频文件的描述信息中的链接信息和视频文件的cid获取该视频文件的视频片 段。在实际操作中,可以由一种Spider获取视频文件的描述信息和视频片段, 也可以由两种Spider分别获取视频文件的描述信息和视频片段。中央处理服务器Hub,用于将Spider获取的视频文件的描述信息输出; 中央数据存储服务器,用于接收Hub输出的视频文件的描述信息,以及接 收视频片段,并通过视频文件的cid将视频文件的描述信息与视频片段关联存 储。进一步,本发明实施例的系统还可以包括展现服务器,用于向用户展现中
央数据存储服务器存储的视频文件的描述信息和视频片段。进一步,网络爬虫Spider获取的视频文件的描述信息包括视频文件的链 接信息、视频文件的cid、归属的网站、标题、格式以及大小等。Spider通过下述方式获得视频文件的cid (之后不再赘述)Spider以能算 出文件内容的唯一标识的算法对视频文件进行计算,得出该视频文件的cid。 具体的,Spider计算-见频文件的cid包括以下因素
因素一、Spider采用能算出文件内容的唯一标识的算法来计算,例如MD5 算法(包括但不限于MD5算法)。因素二、 Spider选择计算的对象。具体的,Spider可以对视频文件的所有 二进制数据内容进行计算;也可以任意选取视频文件中至少两段二进制数据内 容进行计算,而且选取的每段二进制数据内容的长度任意,例如Spider可以对 视频文件起始字节信息、中间字节信息进行计算,也可以对视频文件起始字节 信息、中间字节信息以及结尾字节信息进行计算。因素三、Spider对计算后的结果进行合成的方式。当Spider任意选取视频 文件中至少两段二进制数据内容进行计算时,对计算后得出的结果可以采用但 不限于以下方式进行合成若Spider采用MD5算法,则将计算后得出的各 MD5值首尾相连合成该视频文件的cid;也可以再以MD5算法对计算后得出 的结果进行计算,得出MD5值,作为该视频文件的cid。互联网上分布着众多的Spider,可以将预先设置的一个或多个不同的视频 网站作为种子,从中获取视频文件的描述信息,再根据描述信息中包括的链接 信息和视频文件的cid,获取视频文件的视频片段。下面以具体实施例进行详细说明。方法实施例本实施例以 一个Spider为例,假设该Spider以视频网站A 为种子。流程主要包括三个部分获取描述信息、获取一见频片段、关联存储描 述信息和视频片段,下面分别说明。以下说明获取描述信息。
由于互联网上的视频文件越来越多,为了避免对同 一视频文件的重复获取,基于视频文件中各字节的值不变,可以通过但不限于信息-摘要算法MD5 (Message-Digest Algorithm 5 ),分别对每一视频文件起始的32k字节信息、中 间的64k字节信息以及结尾的32k字节信息进行计算,得出对应的MD5值, 然后将这三个MD5值合成一个新的MD5值,作为该碎见频文件的cid,以该cid 唯一确定该一见频文件。从视频网站A获取描述信息时,先获取视频网站A的页面信息,解析视 频网站A的页面上视频文件的链接信息,再获取该链接信息对应的视频文件的 描述信息,该描述信息至少包括该视频文件的链接信息、该视频文件的cid、 归属的网站、标题、格式以及大小等。以下详细说明获取视频片段。首先按照前文所述计算^L频文件的cid的方法,对描述信息中的链接信息 对应的视频文件进行计算,得出该视频文件的cid;也可以直接从获取的描述 信息中取视频文件的cid。然后以视频文件的cid为索引,判定已存储的视频文件的视频片段数量小 于预设的阈值(该阈值可以预先按照实际需要进行设定,本实施例中假设为3), 则继续后续流程。视频文件包括文件头、帧数据和索引三部分,其中文件头描述视频文件和 其中每个流的总体信息,如文件类型、播放时间、最大码率、视频图像的宽高 以及帧的数量等;帧数据是视频文件的主要组成部分,包括所有视频帧和音频 帧的数据;索引相当于一个目录,存储了每个关键帧的时间戳与该关键帧在对 应的视频文件中的偏移位置的对应关系。文件头、帧数据和索引分别以对应的 四字符码FOURCC或全局唯一标识符GUID(Globally Unique Identifier)来标识。获取视频片段时,先根据视频文件中文件头的信息,设定待获取的视频片 段的时间段,本实施例中假设该时间段为从a秒到b秒。读取并分析视频文件的 索引,根据分析结果分别确定时间戳在a秒和b秒的视频关键帧和音频关键帧、
以及这些关键帧在视频文件中的偏移位置。由于没有画面只有声音的视频片段 难以被用户接受,为了使获取的视频片段容易被用户接受,给用户带来好的体 验,待获取的第 一个视频帧的时间戳应早于待获取的第 一个音频帧的时间戳。再根据确定的起始与结束的视频关键帧和音频关键帧的时间戳及偏移位 置,截取待获取的视频片段的帧数据,将帧数据存储到各包中,其中每一个包 中的包头信息指示该包的大小和结构。由于帧的大小、格式等不同,截取方式也不同。以下描述截取帧数据的过程。截取帧数据是以包Packet(或块Chunk)为单位进行的,可能每个包Packet (或块Chunk)包含一个或多个帧,也可能由多个包Packet (或块Chunk)合 成一个帧。不同的包Packet (或块Chunk)所包含的帧的时间跨度不同,因此,从某 个时间戳开始截取,可能需要对包Packet (或块Chunk)进行拆分,以形成新 的包Packet (或块Chunk)。由于某些格式的包Packet (或块Chunk)的大小必须固定,因此需要对拆 分后的这种包Packet (或块Chunk)进行填充(Padding)。截取到帧数据以后,丢弃除视频帧数据和音频帧数据以外的其它流数据。截取待获取的视频片段的帧数据并存储到包中之后,获取所有包中存储的 帧数据,将每一个包中存储的帧数据作为新的帧数据,对应地修改播放时间和 帧的数量,设置对应的新文件头和新索引,然后将新的文件头、帧数据和索引 组成一个新的视频片段,即为获取的视频片段。然后,计算获取的视频片段中每一帧的图像直方图,判定每一帧的图像均 为特定颜色(如灰黑色),则重新获取该视频文件的视频片段。以下详细说明关联存储描述信息和视频片段。由于目前互联网中视频网站上的视频文件数量日益增长、质量参差不齐, 为了保证视频文件的唯一以及获取优质的视频片段,可以人工给作为种子的视 频网站定制级别,定制网站级别的规则包括但不限于对视频文件质量较好、 信誉较高及点击率较高的视频网站定制较高的级别,对其它视频网站则定制较 低的级别。按照上述规则定制视频网站A的级别,并以视频文件的cid为索引,判断 当前视频文件的描述信息是否已被存储,如果否,则直接存储当前视频文件的 描述信息;如果是,则按照下述方式处理在视频网站A的级别高于已存储的 视频文件归属的网站级别时,以当前视频文件的描述信息覆盖已存储视频文件 的描述信息。存储获取的视频片段前,先计算该视频片段中每一帧的图像直方图,判定 每一帧的图像不均为特定颜色(如灰黑色),则按照前文所述计算视频文件的 cid的方法,对该视频片段进行计算,得出该视频片段的MD5值作为该视频片 段的cid。再以视频片段的cid为索引,判定该视频片段未被存储,则存储该视频片 段及其cid;判定获取的视频片段已被存储,则不存储获取的视频片段并可重 新获取该视频文件的其它视频片段,重复上述流程。本实施例中的存储为关联存储,具体的,通过视频文件的cid关联存储视 频文件的描述信息和视频片段及其cid。至此关联存储视频文件的描述信息和视频片段描述完毕。为了方便用户选择视频文件,还可以向用户展现存储的视频文件的描述信 息和视频片段。目前互联网上存在多种格式的视频文件,例如flv (flash video )格式,flv 格式是一种新的流媒体视频格式,采用flv格式生成的视频文件较小、加载速 度较快,适合在线播放,因此目前大多数视频网站提供flv格式的视频文件。由于互联网上的视频片段大小不一,而且各地域的网速也不同,以及不同 用户可能安装不同的视频播放插件,为了保证视频片段能够顺利在线播放,还 可以根据当前片段的视频质量的优劣进一步灵活处理,将获取的视频片段的格 式进行转换,并合理控制视频片段的大小。例如,对优质的视频片段进行压缩 及格式转换,通过特定程序将优质视频片段自动转换为不同压缩率的flv格式, 对劣质的视频片段可以保留原有格式和大小。在视频网站(如在线视频预览网站、视频搜索引擎网站等)上,视频文件的描述信息和视频片段的展现方式可以包括以下几种展现方式一在网站的页面上展现每个视频片段的起始帧的截图,用户点 击该截图时,可以快速下载该视频片段,并在线播放。展现方式二当用户搜索到某个视频片段时,网站的页面上立即轮回播放 该视频片段。展现方式三当用户搜索到某个视频片段时,网站的页面上轮回播放该视 频片段的某些帧的图片。实际应用中,应该根据当前的网络状态,灵活地选择视频片段的展现方式。 例如,视频网站可以根据其页面返回的用户网络状况,灵活地选择适当大小的 视频片段进行在线播放或提供下载。至此方法实施例描述完毕,以下描述系统实施例。如前文所述,本发明实施例的系统中,可以由一种Spider获取^L频文件的 描述信息和视频片段,也可以由两种Spider分别获取视频文件的描述信息和视 频片段。下面以四个具体实施例进行说明。系统实施例1:包括一种Spider的系统。当Spider收到Hub发来的获取指令时,Spider从不同网站获取视频文件的 描述信息并输出到Hub中,该描述信息至少包括该视频文件的链接信息、该 视频文件的cid、归属的网站(即视频网站A)、标题、格式以及大小等。其中, 视频文件的cid由Spider按照前文所述计算视频文件的cid的方法,对该视频 文件进行计算得出。Hub从Spider得到其获取的描述信息,并以视频文件的cid为索引,判断 当前视频文件的描述信息是否已被中央数据存储服务器存储,如果否,则直接
指示中央数据存储服务器存储Hub输出的当前视频文件的描述信息;如果是, 则按照下述方式处理在视频网站A的级别高于已存储的视频文件归属的网站 级别时,指示中央数据存储服务器以Hub输出的当前视频文件的描述信息覆盖 已存储视频文件的描述信息。Hub以视频文件的cid为索引,在中央数据存储服务器中查找与该cid对 应的视频文件的片段数量,判断已存储的视频片段的数量是否小于预设的阈值 (该阈值可以预先按照实际需要进行设定,本实施例中假设为3),如果是,则 向Spider返回获取指令;如果否,则指示Spider不再获取该视频文件的视频片 段。Spider收到Hub发来的获取指令时,根据已获取的视频文件的描述信息中 的链接信息,获取该视频文件的视频片段。当Spider获取了符合要求的视频片段后,按照前文所述视频文件的cid的 计算方法,对该视频片段进行计算得出该视频片段的cid,并将获取的视频片 段以及该视频片段的cid输出到Hub。Hub计算视频片段中的每一帧的图像直方图,判定每一帧的图像均为特定 颜色(如灰黑色)时,则将该视频片段进行过滤,并指示Spider重新获取该视 频文件中另外一处的视频片段,直到找到符合要求的视频片段为止。Hub判定视频片段中每一帧的图像不均为特定颜色(如灰黑色),则以视 频片段的cid为索引,判定中央数据存储服务器中未存储该视频片段时,将该 视频片段及其cid输出到中央数据存储服务器;Hub判定中央数据存储服务器 中已存储该视频片段,则丢弃该视频片段,指示Spider重新获取该视频文件中 另外一处的视频片段。中央数据存储服务器通过视频文件的cid,将Hub输出的描述信息、视频 片段以及视频片段的cid进行关联存储。之后需要向用户展示时,由展现服务器向用户展现中央数据存储服务器存 储的视频文件的描述信息和视频片段。
系统实施例2:另 一种包括一种Spider的系统。当Spider收到Hub发来的获取指令时,Spider从不同网站获取一见频文件的 描述信息并输出到Hub,该描述信息至少包括该视频文件的链接信息、该视 频文件的cid、归属的网站(即视频网站A)、标题、4各式以及大小等。其中, 视频文件的cid由Spider按照前文所述计算视频文件的cid的方法,对该视频 文件进行计算得出。Hub从Spider得到其获取的描述信息,并以视频文件的cid为索引,判断 当前视频文件的描述信息是否已被中央数据存储服务器存储,如果否,则直接 指示中央数据存储服务器存储Hub输出的当前视频文件的描述信息;如果是, 则按照下述方式处理在视频网站A的级别高于已存储的视频文件归属的网站 级别时,指示中央数据存储服务器以Hub输出的当前视频文件的描述信息覆盖 已存储视频文件的描述信息。Hub以视频文件的cid为索引,在中央数据存储服务器中查找与该cid对 应的视频文件的片段数量,判断已存储的视频片段的数量是否小于预设的阈值 (该阈值可以预先按照实际需要进行设定,本实施例中假设为3),如果是,则 向Spider返回获取指令;如果否,则指示Spider不再获取该视频文件的视频片 段。Spider收到Hub发来的获取指令时,根据已获取的视频文件的描述信息中 的链接信息,获取该视频文件的视频片段。Spider计算获取的视频片段中的每一帧的图像直方图,判定每一帧的图像 均为特定颜色(如灰黑色)时,则将该视频片段进行过滤,并重新获取该视频 文件中另外一处的视频片段,直到找到符合要求的视频片段为止。当Spider获取了符合要求的视频片段后,按照前文所述视频文件的cid的 计算方法,对该视频片段进行计算,得出该视频片段的cid,并将该视频片段 的cid專lT出到Hub。Hub则以视频片段的cid为索引,判定中央数据存储服务器中未存储该视
频片段时,指示Spider将该视频片段及其cid输出到中央数据存储服务器;Hub 判定中央数据存储服务器中已存储该视频片段,则丢弃该视频片段,指示Spider 重新获取该视频文件中另外一处的视频片段。
中央数据存储服务器通过视频文件的cid,将Hub输出的描述信息、Spider 输出的视频片段以及视频片段的cid进行关联存储。
之后需要向用户展示时,由展现服务器向用户展现中央数据存储服务器存 储的视频文件的描述信息和视频片段。
系统实施例3:包括两种Spider的系统。
本实施例的系统中包括Text_spider (获取描述信息的spider )和 Video—spider (获耳又视频片段的spider )。
Text—spider从不同网站获取视频文件的描述信息并输出到Hub,该描述信 息至少包括该视频文件的链接信息、该视频文件的cid、归属的网站(即视 频网站A)、标题、格式以及大小等。其中,视频文件的cid由Text—spider按 照前文所述计算视频文件的cid的方法,对该视频文件进行计算得出。
Hub得到Text—spider获取的视频文件的描述信息后,以视频文件的cid为 索引,判断当前视频文件的描述信息是否已被中央数据存储服务器存储,如果 否,则直接指示中央数据存储服务器存储Hub输出的当前视频文件的描述信 息;如果是,则按照下述方式处理在视频网站A的级别高于已存储的视频文 件归属的网站级别时,指示中央数据存储服务器以Hub输出的当前视频文件的 描述信息覆盖已存储视频文件的描述信息。Video—spider根据中央数据存储服务器存储的描述信息中的链接信息,按 照Text—spider计算视频文件cid的方法来计算该链接信息对应的视频文件的cid (也可直接获取中央数据存储服务器存储的cid ),并输出到Hub。
Hub以视频文件的cid为索引,在中央数据存储服务器中查找与该cid对 应的视频文件的片段数量,判断已存储的视频片段的数量是否小于预设的阔值 (该阈值可以预先按照实际需要进行设定,本实施例中假设为3),如果是,则
向Video_spider返回获取指令,如果否,则指示Video_spider不再获取该^见频 文件中的视频片段。Video—spider收到Hub发来的获取指令时,根据该视频文件的链接信息获 取视频片段,并输出到Hub。Hub计算Video—spider获取的视频片段中的每一帧的图像直方图,判定每 一帧的图像均为特定颜色(如灰黑色)时,则将该视频片段进行过滤,并指示 Video—spider重新获取该视频文件中另外一处的视频片段,直到找到符合要求 的视频片段为止。Video—spider获取了符合要求的视频片段后,按照前文所述视频文件的cid 的计算方法,对该视频片段进行计算,得出该视频片段的cid,并将该视频片 段的cid输出到Hub。Hub以视频片段的cid为索引,判定中央数据存储服务器中未存储该视频 片段时,将该视频片段及其cid输出到中央数据存储服务器;Hub判定中央数 据存储服务器中已存储该视频片段时,则指示Video—spider重新获取该视频文 件中另外一处的视频片段。中央数据存储服务器通过视频文件的cid,将Hub输出的描述信息、视频 片段以及视频片段的cid进行关联存储。之后需要向用户展示时,由展现服务器向用户展现中央数据存储服务器存 储的视频文件的描述信息和视频片段。系统实施例4:另 一种包括两种Spider的系统。本实施例的系统中包括Text—spider (获取描述信息的spider )和 Video—spider (获取视频片段的spider )。Text—spider从不同网站获取视频文件的描述信息并输出到Hub,该描述信 息至少包括该视频文件的链接信息、该视频文件的cid、归属的网站(即视 频网站A)、标题、格式以及大小等。其中,视频文件的cid由Text_spider按 照前文所述计算视频文件的cid的方法,对该视频文件进行计算得出。
Hub得到Text—spider获取的视频文件的描述信息后,以视频文件的cid为 索引,判断当前视频文件的描述信息是否已被中央数据存储服务器存储,如果 否,则直接指示中央数据存储服务器存储Hub输出的当前视频文件的描述信 息;如果是,则按照下述方式处理在视频网站A的级别高于已存储的视频文 件归属的网站级别时,指示中央数据存储服务器以Hub输出的当前视频文件的 描述信息覆盖已存储视频文件的描述信息。Video—spider根据中央数据存储服务器存储的描述信息中的链接信息,按 照Text—spider计算视频文件cid的方法来计算该链接信息对应的视频文件的cid (也可直接获取中央数据存储服务器存储的cid ),并输出到Hub。Hub以视频文件的cid为索引,在中央数据存储服务器中查找与该cid对 应的视频文件的片段数量,判断已存储的视频片段的数量是否小于预设的阈值 (该阈值可以预先按照实际需要进行设定,本实施例中々支设为3),如果是,则 向Video—spider返回获取指令,如果否,则指示Video—spider不再获取该视频 文件中的视频片段。Video—spider收到Hub发来的获取指令时,根据该视频文件的链接信息获 取视频片段。Video—spider计算获取的视频片段中的每一帧的图像直方图,判定每一帧 的图像均为特定颜色(如灰黑色)时,则将该视频片段进行过滤,并重新获取 该视频文件中另外一处的视频片段,直到找到符合要求的视频片段为止。Video一spider获取了符合要求的视频片段后,按照前文所述视频文件的cid 的计算方法,对该视频片段进行计算,得出该视频片段的cid,并将该视频片 段的cid输出到Hub。Hub以视频片段的cid为索引,判定中央数据存储服务器中未存储该视频 片段时,指示Video—spider将该视频片段及其cid输出到中央数据存储服务器; Hub判定中央数据存储服务器中已存储该视频片段时,则指示Video—spider重 新获取该视频文件中另外一处的视频片段。
中央数据存储服务器通过视频文件的Cid,将Hub输出的描述信息、Video—spider输出的视频片段以及视频片段的cid进行关联存储。之后需要向用户展示时,由展现服务器向用户展现中央数据存储服务器存 储的视频文件的描述信息和视频片段。综上所述,本发明实施例从网站获取视频文件的描述信息,描述信息中至 少包括链接信息和视频文件的cid,其中视频文件的cid可以唯一确定视频文 件,再根据获取的描述信息来获取视频文件的视频片段,并通过视频文件的cid 关联存储获取的视频文件的描述信息和视频片段。因此本发明实施例能够实现 关联存储视频文件的描述信息和视频片段。进一步,本发明实施例存储从级别 最高的网站获取的视频文件的描述信息,以及向用户展现存储的视频文件的描 述信息和视频片段,由于级别最高的网站提供的是优质视频文件,因此最终展 现给用户的是优质视频文件的描述信息和视频片段。更进一步,转换视频片段 的格式并将视频文件的描述信息与视频片段准确的匹配起来呈现给用户,使用 户能够在下载^L频文件之前,预先知道视频文件的具体信息,例如,视频的内 容与描述信息是否匹配、视频质量的优劣等,给用户下载优质视频文件带来了 方便。明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种存储视频文件的描述信息和视频片段的方法,其特征在于,包括以下步骤从网站获取视频文件的描述信息;根据获取的所述描述信息中的链接信息和视频文件的内容签名cid,获取所述视频文件的视频片段;通过视频文件的cid关联存储获取的所述视频文件的描述信息和视频片段。
2、 如权利要求1所述的方法,其特征在于,所述描述信息中的视频文件 cid通过下述方式获得以能算出文件内容的唯一标识的算法对视频文件进行计算,得出该视频文 件的cid。
3、 如权利要求1所述的方法,其特征在于,根据获取的所述描述信息中 的链接信息和视频文件的cid获取所述视频文件的视频片段包括以能算出文件内容的唯一标识的算法对所述视频文件进行计算,得出该视 频文件的cid;以视频文件的cid为索引判定该视频文件的视频片段数量小于预 设的阈值,则根据该链接信息获取所述视频文件的视频片段;或者直接从获取的所述描述信息中取视频文件的cid,并以;现频文件的cid为索 引判定该视频文件的视频片段数量小于预设的阈值,则根据该链接信息获取所 述视频文件的视频片段。
4、 如权利要求2或3所述的方法,其特征在于,以MD5算法对所述视频 文件中的至少两段二进制数据内容进行计算,并将所得结果合成该视频文件的 cid。
5、 如权利要求4所述的方法,其特征在于,对所述视频文件中的起始字 节信息、中间字节信息以及结尾字节信息进行计算。
6、 如权利要求4所述的方法,其特征在于,所述合成方式为将得出的各 MD5值首尾相连合成该-见频文件的cid;或者以MD5算法对所得结果进行计 算得出MD5值,作为该^L频文件的cid。
7、 如权利要求2或3所述的方法,其特征在于,以MD5算法对所述视频 文件的所有二进制数据内容进行计算,得出该视频文件的cid。
8、 如权利要求1所述的方法,其特征在于,存储获取的所述视频文件的 视频片段包括计算该视频片段中每一帧图像的直方图,判定每一帧的图像均为特定颜 色,则重新获取所述视频文件的视频片段;判定每一帧的图像不均为特定颜色,则以能算出文件内容的唯一标识的算 法计算得出该视频片段的cid;以视频片段的cid为索引,判定该视频片段未被 存储,则存储该视频片段及其cid。
9、 如权利要求1所述的方法,其特征在于,从不同网站获取j见频文件的 描述信息,并存储从级别最高的网站获取的视频文件的描述信息和视频片段。
10、 如权利要求9所述的方法,其特征在于,所述存储从级别最高的网站 获取的视频文件的描述信息包括以视频文件的cid为索引,判断当前视频文件的描述信息是否已被存储, 若是,则在当前视频文件归属的网站级别高于已存储的视频文件归属的网站级 别时,以当前视频文件的描述信息覆盖已存储视频文件的描述信息;否则,直 接存储当前视频文件的描述信息。
11、 如权利要求l所述的方法,其特征在于,所述视频文件的描述信息还 包括该视频文件的标题、格式、大小和归属的网站。
12、 如权利要求l所述的方法,其特征在于,向用户展现存储的视频文件 的描述信息和视频片段。
13、 一种存储视频文件的描述信息和视频片段的系统,其特征在于,包括 网络爬虫Spider、中央处理服务器Hub和中央数据存储服务器,网络爬虫Spider,用于从网站获取视频文件的描述信息,以及根据视频文 件的描述信息中的链接信息和视频文件的cid获取该视频文件的视频片段; 中央处理服务器Hub,用于将Spider获取的视频文件的描述信息输出; 中央数据存储服务器,用于接收Hub输出的视频文件的描述信息,以及接收视频片段,并通过视频文件的cid将视频文件的描述信息与视频片段关联存储。
14、 如权利要求13所述的系统,其特征在于,Spider以能算出文件内容 的唯一标识的算法对视频文件进行计算,得出该视频文件的cid。
15、 如权利要求13所述的系统,其特征在于,Hub以视频文件的cid为 索引,在判定Spider输出的视频文件的cid对应的视频文件的视频片段数量小 于预设的阈值时,向Spider返回获取指令。
16、 如权利要求15所述的系统,其特征在于,Spider从中央数据存储服 务器中取链接信息,以能算出文件内容的唯一标识的算法计算该链接信息对应 的视频文件的cid,并输出到Hub;以及收到Hub发来的获取指令时,根据该 链接信息获取视频片段;或者Spider直接从中央数据存储服务器中获取^L频文件的cid,并输出到Hub; 以及收到Hub发来的获取指令时,根据该链接信息获取视频片段。
17、 如权利要求16所述的系统,其特征在于,所述Spider还以能算出文 件内容的唯一标识的算法计算获取的视频片段的cid,并将所述^L频片段的cid 输出到Hub。
18、 如权利要求17所述的系统,其特征在于,Hub接收到Spider输出的 视频片段及其cid时,计算所述视频片段中每一帧图像的直方图,判定每一帧 的图像均为特定颜色,则指示Spider重新获取视频片段;Hub判定每一帧的图像不均为特定颜色,则以视频片段的cid为索引,判 定在中央数据存储服务器中未存储该视频片段时,将该视频片段及其cid输出 到中央数据存储服务器。
19、 如权利要求17所述的系统,其特征在于,Spider计算获取的视频片段中每一帧图像的直方图,判定每一帧的图像均为特定颜色,则重新获取视频片段;Spider判定每一帧的图像不均为特定颜色,则将该视频片段的cid输出到 Hub, Hub以视频片段的cid为索引,判定在中央数据存储服务器中未存储该 视频片段,则指示Spider将该视频片段及其cid输出到中央数据存储服务器。
20、 如权利要求13所述的系统,其特征在于,Spider获取的视频文件的 描述信息还包括4见频文件的标题、格式、大小和归属的网站。
21、 如权利要求13所述的系统,其特征在于,还包括展现服务器,用于向用户展现中央数据存储服务器存储的视频文件的描述 信息和视频片段。
22、 如权利要求14或16所述的系统,其特征在于,Spider以MD5算法 对所述视频文件中的至少两段二进制数据内容进行计算,并将所得结果合成该 ^L频文件的cid。
23、 如权利要求22所述的系统,其特征在于,Spider对所述视频文件中 的起始字节信息、中间字节信息以及结尾字节信息进行计算。
24、 如权利要求22所述的系统,其特征在于,Spider采用的合成方式为 将得出的各MD5值首尾相连合成该视频文件的cid;或者以MD5算法对所得 结果进行计算得出MD5值,作为该视频文件的cid。
25、 如权利要求14或16所述的系统,其特征在于,Spider以MD5算法 对所述视频文件的所有二进制数据内容进行计算,得出该视频文件的cid。
全文摘要
本发明公开了一种存储视频文件的描述信息和视频片段的方法及系统,属于互联网领域。方法包括从网站获取视频文件的描述信息;根据获取的所述描述信息中的链接信息和视频文件的内容签名cid(Content Identification),获取所述视频文件的视频片段;通过视频文件的cid关联存储获取的所述视频文件的描述信息和视频片段。应用此方法,可以实现关联存储视频文件的描述信息和视频片段。
文档编号G06F17/30GK101158962SQ20071016556
公开日2008年4月9日 申请日期2007年11月12日 优先权日2007年11月12日
发明者刘小鑫, 刘汉洲, 李章存, 龙述兵 申请人:深圳市迅雷网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1