一种实现多媒体文件分级的方法和装置的制作方法

文档序号:6597777阅读:161来源:国知局
专利名称:一种实现多媒体文件分级的方法和装置的制作方法
技术领域
本发明涉及网络监测技术和版权监管及保护技术,尤其涉及一种实现多媒体文件 分级的方法和装置。
背景技术
近年来,随着互联网的飞速发展,无处不在的网络技术给社会带来了极大的便利, 譬如多媒体文件共享和流媒体应用给予了网络前所未有的用户体验,而且网络下载成为用 户获取多媒体文件的最重要渠道。然而,网络中传播的多媒体文件数量浩如烟海,如何监管 这些多媒体文件日益成为一个十分棘手的问题。多媒体文件相对普通文件体积庞大,其传 输严重占用了网络带宽资源。更为重要的是,因为对网络中多媒体文件内容缺乏有效的监 管,使得多媒体文件盗版现象日益猖獗,成为版权侵犯的重灾区。因此,网络运营商与多媒 体文件版权拥有者都迫切需要对互联网中传播的多媒体文件从内容上进行分级,以实现对 多媒体文件的有效监管。传统的方法主要通过关键词匹配和图像信息识别来进行内容分级。譬如内容分级 审查就是根据互联网内容分级联盟(ICRA)提供的描述性关键词汇,来允许或禁止访问某 些不良的网站。关键词匹配方法能在网页、文本等文件中对暴力、色情、赌博、毒品等不良信 息进行部分识别,能够阻止网络用户对部分不良内容的访问。图像信息识别技术的应用主 要集中于对色情图片的过滤,目前已有使用基于肤色侦测的图像识别算法可以部分实现这 种功能。然而,这些方法只能阻止用户对部分非法内容的访问,而对在网络中非法传播的数 据却没有任何监管措施,无法获悉多媒体文件在网络中的传播热度及传播行为方式;另外, 也不能对盗版等非法多媒体文件进行任何处理。

发明内容
有鉴于此,本发明的主要目的在于提供一种实现多媒体文件分级的方法和装置, 实现对互联网中多媒体文件传播热度的分级,为网络中非法传播的数据的监管提供有利帮 助。为达到上述目的,本发明的技术方案是这样实现的本发明提供的一种实现多媒体文件分级的方法,该方法包括建立多媒体文件DNA数据库和多媒体文件热度数据库;将捕获到的网络数据包解析成具有有效载荷的格式;提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在 匹配成功时,更新多媒体文件热度数据库中该文件的传播热度。上述方案中,所述建立多媒体文件DNA数据库和多媒体文件热度数据库具体为 设置多媒体文件DNA数据库和多媒体文件热度数据库,将捕获到的数据包解析成“到达时 间+包头信息+有效载荷”的格式,根据数据包的到达时间和包头信息将数据包的有效载荷 组合为多媒体文件,提取多媒体文件的文件DNA,与多媒体文件DNA数据库进行匹配,将匹配失败的文件DNA及文件名称添加到多媒体文件DNA数据库,并将文件名称添加到多媒体 文件热度数据库,设置初始热度。上述方案中,该方法进一步包括建立盗版多媒体文件DNA数据库,具体为预先设 置盗版多媒体文件DNA的数据库,在提取多媒体文件的文件DNA之后,用户判断传输的多媒 体文件为盗版文件时,将提取的文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进 行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将 文件名称添加到多媒体文件热度数据库,设置初始热度;该方法进一步包括建立盗版源地址数据库和盗版下载地址数据库,分别用于存储 盗版多媒体文件中的数据包的源IP地址和目的IP地址。上述方案中,该方法进一步包括建立多媒体网站热度数据库和/或P2P热度数据 库;在提取的数据包的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中 的文件DNA匹配成功之后,读取文件名称,根据有效载荷中携带有URL地址和/或P2P特征 字段,相应更新多媒体网站热度数据库和/或P2P热度数据库。上述方案中,该方法进一步包括在建立了盗版多媒体文件DNA数据库、且提取的 数据包的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将文件DNA与盗版 多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,更新多媒体文件热度数据 库中该文件的传播热度。本发明提供的一种实现多媒体文件分级的装置,该装置包括数据库建立模块、分 级模块;其中,数据库建立模块,用于建立多媒体文件DNA数据库和多媒体文件热度数据库;分级模块,用于将捕获到的网络数据包解析成具有有效载荷的格式,提取有效载 荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒 体文件热度数据库中该文件的传播热度。上述方案中,所述数据库建立模块包括数据库设置模块、第一数据包捕获模块、 第一解析模块、第一多媒体格式检测模块、多媒体文件复原模块、第一文件DNA提取模块、 第一匹配模块;其中,数据库设置模块,用于设置用于存储文件DNA的多媒体文件DNA数据库和用于存 储多媒体文件热度的多媒体文件热度数据库;第一数据包捕获模块,用于在局域网或更大型网络的出口网关对网络进行侦听, 从网卡捕获网络中的原始数据包;第一解析模块,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为 “到达时间+包头信息+有效载荷”的格式;第一多媒体格式检测模块,用于从有效载荷中利用特征字段检测为多媒体格式数 据包时,通知多媒体文件复原模块;多媒体文件复原模块,用于提取数据包包头信息中的源IP地址和目的IP地址,存 储经过网关的与提取的源IP地址、目的IP地址相同的数据包,根据数据包的到达时间和包 头信息将多媒体格式的数据包的有效载荷组合为多媒体文件;第一文件DNA提取模块,用于提取多媒体文件的文件DNA ;第一匹配模块,用于将第一文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配失败时,将文件DNA及文件名称添加到多媒体文件 DNA数据库中,并将文件名称添加到多媒体文件热度数据库,设置初始热度;所述分级模块包括第二数据包捕获模块、第二解析模块、第二多媒体格式检测模 块、第二文件DNA提取模块、第二匹配模块、更新热度模块;其中,第二数据包捕获模块,用于从网卡捕获网络中的原始数据包;第二解析模块,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为 “到达时间+包头信息+有效载荷”的格式;第二多媒体格式检测模块,用于从有效载荷中利用特征字段检测为多媒体格式数 据包时,通知第二文件DNA提取模块;第二文件DNA提取模块,用于提取数据包有效载荷中的文件DNA ;第二匹配模块,用于将第二文件DNA提取模块提取的文件DNA与多媒体文件DNA 数据库中的文件DNA进行匹配,在匹配成功时,读取匹配成功的文件DNA的文件名称,通知 更新热度模块按照文件名称更新多媒体文件热度数据库;更新热度模块,用于根据匹配模块的按照文件名称更新多媒体文件热度数据库的 通知,更新多媒体文件热度数据库中该文件的传播热度。上述方案中,所述数据库设置模块进一步用于预先设置盗版多媒体文件DNA的数 据库;所述第一匹配模块进一步用于在用户判断传输的多媒体文件为盗版文件时,将第 一文件DNA提取模块提取的文件DNA与盗版多媒体文件DNA数据库中的文件DNA进行匹配, 在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将文件名称 添加到多媒体文件热度数据库,设置初始热度;所述数据库设置模块进一步还用于建立盗版源地址数据库和盗版下载地址数据 库,分别存储盗版多媒体文件中的数据包的源IP地址和目的IP地址。上述方案中,所述第二匹配模块进一步用于在建立了盗版多媒体文件DNA数据 库、且第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失 败时,将文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时, 读取文件名称,通知更新热度模块按照文件名称更新多媒体文件热度数据库。上述方案中,所述数据库设置模块进一步还用于建立多媒体网站热度数据库和/ 或P2P热度数据库;所述第二匹配模块,进一步还用于在第二文件DNA提取模块提取的文件DNA与多 媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件 名称,根据有效载荷中携带有URL地址和/或P2P特征字段,相应通知更新热度模块更新多 媒体网站热度数据库和/或P2P热度数据库;相应的,所述更新热度模块进一步用于根据第二匹配模块的通知,更新多媒体网 站热度数据库和/或P2P热度数据库。本发明提供的一种实现多媒体文件分级的方法和装置,建立多媒体文件DNA数据 库和多媒体文件热度数据库;将捕获到的网络数据包解析成具有有效载荷的格式,提取有 效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更 新多媒体文件热度数据库中该文件的传播热度,实现对互联网中多媒体文件传播热度的分级;同时还可以进一步建立盗版多媒体文件DNA数据库、盗版源地址数据库、盗版下载地址 数据库、多媒体网站热度数据库和P2P热度数据库,记录盗版多媒体文件信息、多媒体网站 热度及多媒体文件的传播方式,为网络中非法传播的数据的监管提供有利帮助。


图1为本发明实现多媒体文件分级的方法的流程示意图;图2为本发明建立多媒体文件DNA数据库和多媒体文件热度数据库的方法的流程 示意图;图3为本发明更新多媒体文件热度数据库的方法的流程示意图;图4为本发明实现多媒体文件分级的装置的流程示意图。
具体实施例方式本发明的基本思想是建立多媒体文件DNA数据库和多媒体文件热度数据库;将 捕获到的网络数据包解析成具有有效载荷的格式,提取多媒体格式的数据包有效载荷中的 文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件 热度数据库中该文件的传播热度。下面通过附图及具体实施例对本发明做进一步的详细说明。本发明实现多媒体文件分级的方法,如图1所示,包括以下几个步骤步骤101 建立多媒体文件DNA数据库和多媒体文件热度数据库;具体的,设置用于存储文件DNA的多媒体文件DNA数据库和用于存储多媒体文件 热度的多媒体文件热度数据库,将捕获到的网络数据包解析成“到达时间+包头信息+有效 载荷”的格式,根据数据包的到达时间和包头信息将多媒体格式的数据包的有效载荷组合 为多媒体文件,提取多媒体文件的文件DNA,与多媒体文件DNA数据库进行匹配,将匹配失 败的文件DNA及文件名称添加到多媒体文件DNA数据库,并将文件名称添加到多媒体文件 热度数据库,设置初始热度。具体步骤如图2所示,包括步骤201 在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络 中的原始数据包;步骤202 按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+ 包头信息+有效载荷”的格式,从有效载荷中利用特征字段检测是否为多媒体格式数据包, 如果是多媒体数据包则执行步骤203,否则结束本次流程;所述特征字段是定位数据包格式为多媒体格式的字符串。步骤203 提取该数据包包头信息中的源IP地址和目的IP地址;所述包头信息主要为数据包的五元组信息,即源IP地址、目的IP地址、源端口号、 目的端口号以及传输层协议类型。步骤204 捕获经过网关的源IP地址、目的IP地址分别和步骤203中提取的IP地 址相同的数据包;步骤205 将捕获到的数据包写入到预先开辟的存储空间;步骤206 当捕获到的源IP地址、目的IP地址之间数据包的包头信息携带TCP拆 除连接信息时,根据数据包的到达时间和包头信息将所有数据包的有效载荷组合成多媒体文件;步骤207 按照多媒体文件DNA提取方法,提取多媒体文件的文件DNA ;所述多媒体文件DNA提取方法包括均勻提取、随机提取等算法,具体参见申请号 为200910180572. 1的发明专利;文件DNA —般为几十字节,远小于一个网络数据包的大小。步骤208 将该文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,匹配失 败则执行步骤209 ;匹配成功则本次流程结束;步骤209 将文件DNA及文件名称添加到多媒体文件DNA数据库中,并将文件名称 添加到多媒体文件热度数据库,设置初始热度,实现多媒体文件DNA数据库和多媒体文件 热度数据库的建立,本次流程结束。上述方法中,进一步包括建立盗版多媒体文件DNA数据库,即预先设置用于存储 盗版多媒体文件DNA的盗版多媒体文件DNA数据库,在提取多媒体文件的文件DNA之后,用 户判断传输的多媒体文件为盗版文件时,将提取的文件DNA与盗版多媒体文件DNA数据库 中的文件的DNA进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件 DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度;在匹配成功时, 本次流程结束;该方法进一步包括建立盗版源地址数据库和盗版下载地址数据库,分别用于将文 件DNA及文件名称添加到盗版多媒体文件DNA数据库之后,存储盗版多媒体文件中的数据 包的源IP地址和目的IP地址;上述方法中,进一步包括建立多媒体网站热度数据库;上述方法中,进一步包括建立P2P热度数据库。步骤102 将捕获到的网络数据包解析成具有有效载荷的格式,提取多媒体格式 的数据包有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配 成功时,更新多媒体文件热度数据库相应文件的传播热度;具体步骤如图3所示,包括步骤301 在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络 中的原始数据包;步骤302 按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达时间+ 包头信息+有效载荷”的格式,从有效载荷中利用特征字段检测是否为多媒体格式数据包, 如果是多媒体数据包则执行步骤303,否则结束本次流程;步骤303 提取数据包有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件 DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中相应文件的传播热度;具体的,提取多媒体格式的数据包有效载荷中的文件DNA,与多媒体文件DNA数据 库中的文件DNA进行匹配,由于此时提取的文件DNA为一个数据包有效载荷中的文件DNA, 在与多媒体文件DNA数据库中的文件DNA进行匹配时,按照提取的文件DNA的字符串长度 与多媒体文件DNA数据库中的文件DNA逐段进行匹配,在匹配成功时,读取匹配成功的文件 DNA的文件名称,更新多媒体文件热度数据库中该文件的传播热度;在匹配失败时,不更新 多媒体文件热度数据库;进一步的,本步骤还包括在建立了盗版多媒体文件DNA数据库、且提取的数据包 的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将提取的数据包的文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,更新多媒体文件热 度数据库中该文件的传播热度;在匹配失败时,不更新多媒体文件热度数据库;进一步的,本步骤还包括在建立了多媒体网站热度数据库时,在提取的数据包的 文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之 后,读取匹配成功的文件DNA的文件名称,检验有效载荷中是否携带URL地址,如果携带,则 更新多媒体网站热度数据库中该文件名称对应的URL地址的热度,否则不进行更新。其中, 当多媒体网站热度数据库中没有该文件名称时,将该文件名称及URL地址添加到多媒体网 站热度数据库,并设置初始热度;进一步的,本步骤还包括在建立了 P2P热度数据库时,在提取的数据包的文件DNA 与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取 匹配成功的文件DNA的文件名称,检验有效载荷中是否携带P2P特征字段,如果携带,则更 新P2P热度数据库中该文件名称对应的P2P的热度,否则不进行更新。其中,当P2P热度数 据库中没有该文件名称时,将该文件名称及P2P类型添加到P2P热度数据库,并设置初始热 度。所述P2P热度包括BitTorrent协议热度、Edonkey协议热度等,基于上述方法,本发明还提供了一种多媒体文件分级的装置,如图4所示,该装置 包括数据库建立模块41、分级模块42 ;其中,数据库建立模块41,用于建立多媒体文件DNA数据库和多媒体文件热度数据库;分级模块42,用于将捕获到的网络数据包解析成具有有效载荷的格式,提取多媒 体格式的数据包有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配, 在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度;所述具有有效载荷的格 式具体可以为“到达时间+包头信息+有效载荷”的格式;所述数据库建立模块41包括数据库设置模块411、第一数据包捕获模块412、第 一解析模块413、第一多媒体格式检测模块414、多媒体文件复原模块415、第一文件DNA提 取模块416、第一匹配模块417 ;其中,数据库设置模块411,用于设置用于存储文件DNA的多媒体文件DNA数据库和用于 存储多媒体文件热度的多媒体文件热度数据库;第一数据包捕获模块412,用于在局域网或更大型网络的出口网关对网络进行侦 听,从网卡捕获网络中的原始数据包;第一解析模块413,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成 为“到达时间+包头信息+有效载荷”的格式;第一多媒体格式检测模块414,用于从有效载荷中利用特征字段检测是否为多媒 体格式数据包,在为多媒体格式数据包时,通知多媒体文件复原模块415;在不为多媒体格 式数据包时,结束本次流程;多媒体文件复原模块415,用于提取数据包包头信息中的源IP地址和目的IP地 址,存储经过网关的与提取的源IP地址、目的IP地址相同的数据包,当捕获到的源IP地 址、目的IP地址之间数据包的包头信息携带TCP拆除连接信息时,根据数据包的到达时间 和包头信息将多媒体格式的数据包的有效载荷组合为多媒体文件;第一文件DNA提取模块416,用于提取多媒体文件的文件DNA ;第一匹配模块417,用于将第一文件DNA提取模块416提取的文件DNA与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配失败时,将文件DNA及文件名称添加到多媒体 文件DNA数据库中,并将文件名称添加到多媒体文件热度数据库,设置初始热度;在匹配成 功时,结束本次流程;所述数据库设置模块411进一步用于预先设置用于存储盗版多媒体文件DNA的盗 版多媒体文件DNA的数据库;所述第一匹配模块417进一步用于在用户判断传输的多媒体文件为盗版文件时, 将第一文件DNA提取模块416提取的文件DNA与盗版多媒体文件DNA数据库中的文件DNA 进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并 将文件名称添加到多媒体文件热度数据库,设置初始热度;在匹配成功时,结束本次流程;所述数据库设置模块411进一步还用于建立盗版源地址数据库和盗版下载地址 数据库,分别在将文件DNA及文件名称添加到盗版多媒体文件DNA数据库之后,存储盗版多 媒体文件中的数据包的源IP地址和目的IP地址;所述数据库设置模块411进一步还用于建立多媒体网站热度数据库和/或P2P热 度数据库;所述分级模块42包括第二数据包捕获模块421、第二解析模块422、第二多媒体 格式检测模块423、第二文件DNA提取模块424、第二匹配模块425、更新热度模块426 ;其 中,第二数据包捕获模块421,用于在局域网或更大型网络的出口网关对网络进行侦 听,从网卡捕获网络中的原始数据包;第二解析模块422,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成 为“到达时间+包头信息+有效载荷”的格式;第二多媒体格式检测模块423,用于从有效载荷中利用特征字段检测是否为多媒 体格式数据包,在为多媒体格式数据包时,通知第二文件DNA提取模块424 ;在不为多媒体 格式数据包时,结束本次流程;第二文件DNA提取模块424,用于提取数据包有效载荷中的文件DNA ;第二匹配模块425,用于将第二文件DNA提取模块似4提取的文件DNA与多媒体 文件DNA数据库中的文件DNA进行匹配,在匹配成功时,读取匹配成功的文件DNA的文件名 称,通知更新热度模块4 按照文件名称更新多媒体文件热度数据库;在匹配失败时,不通 知更新热度模块;更新热度模块426,用于根据第二匹配模块425的按照文件名称更新多媒体文件 热度数据库的通知,更新多媒体文件热度数据库中该文件的传播热度;所述第二匹配模块425进一步用于在建立了盗版多媒体文件DNA数据库、且第二 文件DNA提取模块提取的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失败时,将 文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时,读取匹配 成功的文件DNA的文件名称,通知更新热度模块似6按照文件名称更新多媒体文件热度数 据库;在匹配失败时,不通知更新热度模块426 ;所述第二匹配模块425进一步还用于在建立了多媒体网站热度数据库时,在第二 文件DNA提取模块似4提取的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数 据库中的文件DNA匹配成功之后,读取文件名称,检验有效载荷中是否携带URL地址,如果携带,则通知更新热度模块426更新多媒体网站热度数据库中该文件名称对应的URL地址 的热度,不通知更新热度模块4 。相应的,所述更新热度模块4 进一步用于根据第二匹配模块425的通知,更新多 媒体网站热度数据库中该文件名称对应的URL地址的热度;其中,当多媒体网站热度数据 库中没有该文件名称时,将该文件名称及URL地址添加到多媒体网站热度数据库,并设置 初始热度。所述第二匹配模块425进一步还用于在建立了 P2P热度数据库时,在第二文件DNA 提取模块4M提取的文件DNA与多媒体文件DNA数据库或盗版多媒体文件DNA数据库中的 文件DNA匹配成功之后,读取文件名称,检验有效载荷中是否携带P2P特征字段,如果携带, 则通知更新热度模块4 更新P2P热度数据库中该文件名称对应的P2P的热度,否则不通 知更新热度模块426。相应的,所述更新热度模块4 进一步用于根据第二匹配模块425的通知,更新 P2P热度数据库中该文件名称对应的P2P的热度;其中,当P2P热度数据库中没有该文件名 称时,将该文件名称及P2P类型添加到P2P热度数据库,并设置初始热度。以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在 本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护 范围之内。
权利要求
1.一种实现多媒体文件分级的方法,其特征在于,该方法包括建立多媒体文件DNA数据库和多媒体文件热度数据库;将捕获到的网络数据包解析成具有有效载荷的格式;提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配 成功时,更新多媒体文件热度数据库中该文件的传播热度。
2.根据权利要求1所述的方法,其特征在于,所述建立多媒体文件DNA数据库和多媒 体文件热度数据库具体为设置多媒体文件DNA数据库和多媒体文件热度数据库,将捕获 到的数据包解析成“到达时间+包头信息+有效载荷”的格式,根据数据包的到达时间和包 头信息将数据包的有效载荷组合为多媒体文件,提取多媒体文件的文件DNA,与多媒体文件 DNA数据库进行匹配,将匹配失败的文件DNA及文件名称添加到多媒体文件DNA数据库,并 将文件名称添加到多媒体文件热度数据库,设置初始热度。
3.根据权利要求1所述的方法,其特征在于,该方法进一步包括建立盗版多媒体文件 DNA数据库,具体为预先设置盗版多媒体文件DNA的数据库,在提取多媒体文件的文件DNA 之后,用户判断传输的多媒体文件为盗版文件时,将提取的文件DNA与盗版多媒体文件DNA 数据库中的文件的DNA进行匹配,在匹配失败时,将该文件DNA及文件名称添加到盗版多媒 体文件DNA数据库,并将文件名称添加到多媒体文件热度数据库,设置初始热度;该方法进一步包括建立盗版源地址数据库和盗版下载地址数据库,分别用于存储盗版 多媒体文件中的数据包的源IP地址和目的IP地址。
4.根据权利要求1至3任一所述的方法,其特征在于,该方法进一步包括建立多媒体 网站热度数据库和/或P2P热度数据库;在提取的数据包的文件DNA与多媒体文件DNA数 据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件名称,根据有效载 荷中携带有URL地址和/或P2P特征字段,相应更新多媒体网站热度数据库和/或P2P热 度数据库。
5.根据权利要求3所述的方法,其特征在于,该方法进一步包括在建立了盗版多媒体 文件DNA数据库、且提取的数据包的文件DNA与多媒体文件DNA数据库中的文件DNA匹配失 败时,将文件DNA与盗版多媒体文件DNA数据库中的文件的DNA进行匹配,在匹配成功时, 更新多媒体文件热度数据库中该文件的传播热度。
6.一种实现多媒体文件分级的装置,其特征在于,该装置包括数据库建立模块、分级 模块;其中,数据库建立模块,用于建立多媒体文件DNA数据库和多媒体文件热度数据库;分级模块,用于将捕获到的网络数据包解析成具有有效载荷的格式,提取有效载荷中 的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文 件热度数据库中该文件的传播热度。
7.根据权利要求6所述的装置,其特征在于,所述数据库建立模块包括数据库设置模 块、第一数据包捕获模块、第一解析模块、第一多媒体格式检测模块、多媒体文件复原模块、 第一文件DNA提取模块、第一匹配模块;其中,数据库设置模块,用于设置用于存储文件DNA的多媒体文件DNA数据库和用于存储多 媒体文件热度的多媒体文件热度数据库;第一数据包捕获模块,用于在局域网或更大型网络的出口网关对网络进行侦听,从网卡捕获网络中的原始数据包;第一解析模块,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达 时间+包头信息+有效载荷”的格式;第一多媒体格式检测模块,用于从有效载荷中利用特征字段检测为多媒体格式数据包 时,通知多媒体文件复原模块;多媒体文件复原模块,用于提取数据包包头信息中的源IP地址和目的IP地址,存储经 过网关的与提取的源IP地址、目的IP地址相同的数据包,根据数据包的到达时间和包头信 息将多媒体格式的数据包的有效载荷组合为多媒体文件; 第一文件DNA提取模块,用于提取多媒体文件的文件DNA ;第一匹配模块,用于将第一文件DNA提取模块提取的文件DNA与多媒体文件DNA数据 库中的文件DNA进行匹配,在匹配失败时,将文件DNA及文件名称添加到多媒体文件DNA数 据库中,并将文件名称添加到多媒体文件热度数据库,设置初始热度;所述分级模块包括第二数据包捕获模块、第二解析模块、第二多媒体格式检测模块、 第二文件DNA提取模块、第二匹配模块、更新热度模块;其中, 第二数据包捕获模块,用于从网卡捕获网络中的原始数据包; 第二解析模块,用于按TCP/IP对捕获到的网络数据包进行解析,将其解析成为“到达 时间+包头信息+有效载荷”的格式;第二多媒体格式检测模块,用于从有效载荷中利用特征字段检测为多媒体格式数据包 时,通知第二文件DNA提取模块;第二文件DNA提取模块,用于提取数据包有效载荷中的文件DNA ; 第二匹配模块,用于将第二文件DNA提取模块提取的文件DNA与多媒体文件DNA数据 库中的文件DNA进行匹配,在匹配成功时,读取匹配成功的文件DNA的文件名称,通知更新 热度模块按照文件名称更新多媒体文件热度数据库;更新热度模块,用于根据匹配模块的按照文件名称更新多媒体文件热度数据库的通 知,更新多媒体文件热度数据库中该文件的传播热度。
8.根据权利要求7所述的装置,其特征在于,所述数据库设置模块进一步用于预先设 置盗版多媒体文件DNA的数据库;所述第一匹配模块进一步用于在用户判断传输的多媒体文件为盗版文件时,将第一文 件DNA提取模块提取的文件DNA与盗版多媒体文件DNA数据库中的文件DNA进行匹配,在 匹配失败时,将该文件DNA及文件名称添加到盗版多媒体文件DNA数据库,并将文件名称添 加到多媒体文件热度数据库,设置初始热度;所述数据库设置模块进一步还用于建立盗版源地址数据库和盗版下载地址数据库,分 别存储盗版多媒体文件中的数据包的源IP地址和目的IP地址。
9.根据权利要求8所述的装置,其特征在于,所述第二匹配模块进一步用于在建立了 盗版多媒体文件DNA数据库、且第二文件DNA提取模块提取的文件DNA与多媒体文件DNA 数据库中的文件DNA匹配失败时,将文件DNA与盗版多媒体文件DNA数据库中的文件的DNA 进行匹配,在匹配成功时,读取文件名称,通知更新热度模块按照文件名称更新多媒体文件 热度数据库。
10.根据权利要求7至9任一所述的装置,其特征在于,所述数据库设置模块进一步还用于建立多媒体网站热度数据库和/或P2P热度数据库;所述第二匹配模块,进一步还用于在第二文件DNA提取模块提取的文件DNA与多媒体 文件DNA数据库或盗版多媒体文件DNA数据库中的文件DNA匹配成功之后,读取文件名称, 根据有效载荷中携带有URL地址和/或P2P特征字段,相应通知更新热度模块更新多媒体 网站热度数据库和/或P2P热度数据库;相应的,所述更新热度模块进一步用于根据第二匹配模块的通知,更新多媒体网站热 度数据库和/或P2P热度数据库。
全文摘要
本发明公开了一种实现多媒体文件分级的方法,建立多媒体文件DNA数据库和多媒体文件热度数据库;将捕获到的网络数据包解析成具有有效载荷的格式,提取有效载荷中的文件DNA,与多媒体文件DNA数据库中的文件DNA进行匹配,在匹配成功时,更新多媒体文件热度数据库中该文件的传播热度,实现对互联网中多媒体文件传播热度的分级;本发明同时还公开了一种实现多媒体文件分级的装置;在本发明的方案中,还可以建立盗版多媒体文件DNA数据库、多媒体网站热度数据库和P2P热度数据库,记录盗版多媒体文件信息、多媒体网站热度及多媒体文件的传播方式,为网络中非法传播的数据的监管提供有利帮助。
文档编号G06F17/30GK102143120SQ20101010352
公开日2011年8月3日 申请日期2010年2月1日 优先权日2010年2月1日
发明者杨勇, 王桥, 蒋玖川, 许建国 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1