一种多媒体系统及多媒体处理方法

文档序号：7822093阅读：178来源：国知局

一种多媒体系统及多媒体处理方法
【专利摘要】本发明涉及一种多媒体系统，包括拍摄终端、服务器和查询终端。拍摄终端包括第一摄像单元、录音单元、记录单元、第一输入单元、第一传输单元、第一存储单元、显示单元等。优选的，拍摄终端还包括计时单元、焦距检测单元。服务器包括第二传输单元、解析单元、数据库、第二存储单元。查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元等。本发明还涉及使用所述多媒体系统的多媒体处理方法。
【专利说明】一种多媒体系统及多媒体处理方法

【技术领域】
[0001] 本发明涉及多媒体领域，特别涉及能够进行检索的多媒体领域。

【背景技术】
[0002] 随着网络和多媒体技术的广泛应用，网络培训已成为员工培训的必然发展趋势。然而，网络培训面临着"来源单一、脱离实践、滞后现场"的问题，尤其是缺少以现场案例为内容的生产技能类培训，这势必会影响以生产技能操作为主的员工培训效果。因此，积极引入现场案例教学，探索智能终端和移动网络的应用，将成为网络培训和资源建设的新方向。

【发明内容】

[0003] 本发明涉及一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：拍摄终端包括第一摄像单元、录音单元、记录单元、第一输入单元、第一传输单元、第一存储单元、显示单元、计时单元、焦距检测单元；服务器包括第二传输单元、解析单元、数据库、第二存储单元；查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元。
[0004] 本发明还涉及一种使用所述的多媒体系统的多媒体处理方法。
[0005] 本发明的多媒体系统及多媒体处理方法特别适用于以生产现场为背景的基于移动智能终端的现场案例培训，获得了以生产实践为基础、培训内容来源多样化的有益效果。并且，本发明的多媒体系统及多媒体处理方法能够从多媒体视频中快速提取具有代表性的视频帧，便于后续的多媒体查询，提高了多媒体查询的准确性和效率。

【专利附图】

【附图说明】
[0006] 图1是多媒体系统的框图；
[0007] 图2是拍摄终端位置变化的示意图。

【具体实施方式】
[0008] 为使本发明的目的、技术方案和优点更加清楚，将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式，这些实施方式的描述是足够详细的，以使得本领域技术人员能够实践本发明，在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此，不应当从限制性意义上来理解以下的详细描述。
[0009] 如图1所示，本发明的多媒体系统包括拍摄终端100、服务器200和查询终端300。
[0010] 拍摄终端100包括第一摄像单元110、录音单元120、记录单元130、第一输入单元 140、第一传输单元150、第一存储单元160、显示单元170等。优选的，拍摄终端100还包括计时单元180 (例如计时器）、焦距检测单元190。服务器200包括第二传输单元210、解析单元220、数据库230、第二存储单元240等。查询终端300包括第三摄像单元310、第三输入单元320、查询单元330、第三传输单元340等。
[0011] 多媒体系统的处理流程如下所示：
[0012] 在步骤S100,用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；在某一位置拍摄时，由计时单元记录下在某一位置拍摄的开始时间和结束时间；当移动拍摄位置或变换焦距时，由计时单元记录下移动拍摄位置或变换焦距后拍摄的开始时间和结束时间；随后，计时单元将事件（包括位置/变焦）、开始时间和结束时间一并保存到第一存储单元的记录表中。
[0013] 下面参考图2详细说明拍摄终端由位置A移动到位置B再移动到位置C的过程，以及计时单元的计时过程。
[0014] 首先，在位置A，当用户打开拍摄终端的第一摄像单元开始拍摄时，将自动触发计时单元开始计时，此时由计时单元记录下位置A的开始时间（例如0秒）。可选的，也可由用户操作拍摄终端的特定物理按键或触摸屏上显示的特定按键以触发计时单元开始计时。一段时间后，当在位置A拍摄完成时，由用户操作上述特定按键结束在位置A的计时，并由计时单元记录下结束时间（例如180秒）。随后，计时单元将记录的位置A、开始时间和结束时间保存到第一存储单元的记录表中。
[0015] 之后，将拍摄终端移动到位置B继续进行拍摄，由用户操作上述特定按键开始在位置B的计时，并由计时单元记录下位置B的开始时间（例如181秒）。又一段时间后，当在位置B拍摄完成时，由用户操作上述特定按键结束位置B的计时，并由计时单元记录下结束时间（例如270秒）。随后，计时单元将记录的位置B、开始时间和结束时间保存到第一存储单元的记录表中。
[0016] 之后，再将拍摄终端移动到位置C继续进行拍摄，由用户操作上述特定按键开始在位置C的计时，并由计时单元记录下位置C的开始时间（例如271秒）。又拍摄一段时间后，当在位置C拍摄完成时，由用户关闭拍摄终端的第一摄像单元停止拍摄，此时将自动触发计时单元结束位置C的计时，并由计时单元记录下结束时间（例如300秒）。可选的，也可由用户操作上述特定按键结束计时。随后，计时单元将记录的位置C、开始时间和结束时间也保存到第一存储单元的记录表中。
[0017] 另外，当用户暂停拍摄终端的第一摄像单元拍摄时，将自动触发计时单元结束计时；以及，当拍摄终端的第一摄像单元恢复拍摄时，也将自动触发计时单元继续开始计时。
[0018] 上述计时单元的自动触发，无需用户额外操作拍摄终端的按键，从而提高了效率。
[0019] 第一存储单元中的记录表包括事件、开始时间和结束时间，格式优选示例如下：
[0020] 表1 :记录表
[0021]

【权利要求】
1. 一种多媒体系统，包括拍摄终端、服务器和查询终端；其特征在于：拍摄终端包括第一摄像单元、录音单元、记录单元、第一输入单元、第一传输单元、第一存储单元、显示单元、计时单元、焦距检测单元；服务器包括第二传输单元、解析单元、数据库、第二存储单元；查询终端包括第三摄像单元、第三输入单元、查询单元、第三传输单元。
2. -种使用根据权利要求1所述的多媒体系统的多媒体处理方法，其特征在于包括以下步骤：步骤S100,用户使用拍摄终端拍摄多媒体，所述多媒体包括视频和音频；当在某一位置和/或变焦拍摄时，由计时单元记录下拍摄的开始时间和结束时间；随后，计时单元将事件、开始时间和结束时间一并保存到第一存储单元的记录表中，其中所述事件包括位置、变焦；步骤S200,将多媒体中的音频转换为文字，转换后，在拍摄终端上显示给用户，供用户确认；如果用户认为转换的文字内容有错误或需要调整，则使用拍摄终端的第一输入单元进行修改；步骤S220,拍摄终端通过第一传输单元将拍摄的多媒体、第一存储单元中的记录表、以及经过用户确认的文字上传到服务器的第二传输单元，服务器将拍摄的多媒体保存到数据库中，并记录多媒体ID，所述多媒体ID是上传的多媒体的唯一标识；步骤S240,服务器根据记录表中的事件、开始时间和结束时间，使用解析单元从多媒体的视频中提取关键巾贞，并确定关键巾贞的录制时长，所述关键巾贞为拍摄终端在同一事件下拍摄的视频帧的代表；提取关键帧的具体过程如下：对于每个事件，进行采样，从而获得每个事件的采样帧的集合F: F= {F1,F2,......Fi,......Fn} 其中，η为定义的采样频率，η= 10 ; Fi为采样的第i帧，即时间ΛTi所对应的帧： ΔTi=Tb+(Te-Tb) *(i/n),i〈 =η 其中，Tb为每个事件的开始时间，Te为每个事件的结束时间；对于集合F内的某一帧Fk，根据以下公式计算帧Fk与视频帧平均值的平均像素近似度AFk：
其中Pkj表示帧Fk中的第j个像素值，Pij表示帧Fi中的第j个像素值，η为采样频率，m为帧Fk中的像素总数，k的取值为1，2, 3......η；如果AFk大于某个阈值D，则认为帧Fk属于噪声巾贞，予以剔除；反之如果AFk小于或等于某个阈值D，则予以保留，从而形成保留帧的集合G: G= {G1,G2, -Gi, -Gt} 其中t〈 =n，Gi为保留帧集合中的第i帧；对于集合G中的每一帧，由于其内容都比较相似，故可任选一帧作为相应事件所对应的关键巾贞；步骤S260，得到视频中每个事件对应的关键帧和事件的持续时间，其中根据每个事件的开始时间和结束时间获取持续时间；步骤S300,服务器读取所述上传的文字，根据文字中的标点符号，将文字切分为基本字符串单元；步骤S310,根据分词词典，对基本字符串单元进行正向最大分词匹配和逆向最大分词匹配，形成分词扫描字符串；步骤S320,判断分词扫描字符串是否存在歧义；如果存在歧义，则消除歧义，形成分词结果字符串；如果不存在歧义，则直接将分词扫描字符串作为分词结果字符串；其中，对于存在歧义的字符串ABC，根据以下公式计算I(A，B)和I(B，C)的值：
其中A、B、C为单个字或词，n(x，y)为x，y在分词词典中出现的次数，n(x)为X在分词词典中出现的次数，n(y)分别为y在分词词典中出现的次数，N为分词词典的总词数；比较I(A，B)和I(B，C)的值：如果I(A，B)-I(B，C) >i，那么采用AB/C的切分；如果I(B，C)-I(A，B) >i，那么采用A/BC的切分；其中，i为第一阀值，优选为〇 ; 如果非上述两种情况，则利用如下公式：
其中，f(AB)表示在所述字符串中AB出现的次数；f(BC)表示在所述字符串中BC出现的次数;Max(f(AB)，f(BC))的值为f(AB)和f(BC)中较大的；比较Λf与β，其中β为第二阈值，优选为0.75; 如果Λf>β，则将字符串ABC切分为"AB/C" ；如果Λf〈 =β，则将字符串ABC切分为"A/BC" ；步骤S330,将经过分词后的字符串汇聚成文字索引；步骤S340,对于每一个多媒体，服务器形成多媒体索引表，并存储在第二存储单元中；所述多媒体索引表包括：多媒体ID、文字索引、关键帧集合以及事件持续时间集合；步骤S400,用户使用查询终端查找所述多媒体；步骤S420,若查询终端中输入的是纯文字，则仅在文字索引中进行检索，并将检索结果呈现给用户，同时向用户提供没有文字说明的多媒体数目；步骤S440,若查询终端中输入的仅是M幅照片，则查询终端形成照片集X: X= {X1，X2, ...Xi，…XM} 则比较照片集X中的每幅照片和关键帧集合中的每个关键帧是否匹配，然后根据照片和关键帧的匹配程度，检索出相应的视频，并将按照相似度排序的检索结果呈现给用户；相似度Sim的计算公式如下：
其中，M为照片集X中的照片数量；e为视频中的事件数量，即关键帧数量；Ti为第i个事件的持续时间；Tij的取值有两个，当照片和关键帧不匹配时，Tij=O;当照片和关键帧匹配时，Tij为匹配的第i个事件的持续时间；步骤S460,若查询终端输入的既包括文字又包括照片，则先在文字索引中进行检索，如果检索结果少于特定阈值，则直接将结果呈现给用户；反之，如果检索结果大于或等于特定阈值，则在文字检索到的结果中使用步骤S440中的方法进行再次检索，并将检索结果呈现给用户。
【文档编号】H04L29/06GK104462355SQ201410738808
【公开日】2015年3月25日申请日期:2014年12月5日优先权日:2014年12月5日
【发明者】谢清玉, 秦衡, 崔凤磊, 张耀坤, 李荣凯申请人:国家电网公司, 国网技术学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢清玉;秦衡;崔凤磊;张耀坤;李荣凯;
技术所有人：国家电网公司;国网技术学院;
我是此专利的发明人

上一篇：基于幂集置信度的联合频谱感知系统和方法
上一篇：拆回电能表专用照相装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。