一种为本地视频文件匹配字幕文件的方法和装置的制造方法_5

文档序号:9492220阅读:来源:国知局
字幕文件,确定为与所述第一视频文件匹配的字幕文件。2.根据权利要求1所述的方法,其特征在于,所述按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名,包括: 对所述第一视频文件名进行解析,获得所述第一视频文件名的所有字符,根据预设的无意义字符库,将第一视频文件名中的无意义字符删除,获得标准化第一视频文件名;所述无意义字符库中,包含:视频或字幕文件分辨率的标识,视频或字幕文件格式的标识,视频或字幕文件的语言标识,视频或字幕文件的文件源网址的标识,视频或字幕文件中用于分词分隔的符号; 按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合,包括: 对字幕文件名集合中的每个字幕文件名进行解析,获得所述每个字幕文件名的所有字符,根据预设的无意义字符库,将每个字幕文件名中的无意义字符删除,获得每个字幕文件名对应的标准化字幕文件名。3.根据权利要求1或2所述的方法,其特征在于,所述获得包含本地字幕文件名的字幕文件名集合,为: 根据预设的软件策略在本地搜索相应路径中的字幕文件,获得包含本地字幕文件名的字幕文件名集合。4.根据权利要求2所述的方法,其特征在于:若所述第一视频文件名包含英文字母,则所述按照预设的规整化算法对所述第一视频文件名进行规整化之前,还包括:将第一视频文件名中包含的英文字母统一为预设的大写或小写格式; 若字幕文件的文件名中包含英文字母,则所述按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名规整化之前,还包括:将字幕文件名集合中的文件名包含的英文字母统一为预设的大写或小写格式。5.根据权利要求1所述的方法,其特征在于, 在所述按照预设的规整化算法对所述第一视频文件名进行规整化之前,还包括:按照预设格式,提取所述第一视频文件名的第一核心词和字幕文件名集合中的各个字幕文件名的核心词;将所述字幕文件名集合中核心词与所述第一核心词不一致的字幕文件名,从所述字幕文件名集合中删除;或, 在所述将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算前,还包括:按预设格式,提取所述标准化第一视频文件名的第一核心词和标准化字幕文件名集合中的各个标准化字幕文件名的核心词;将标准化字幕文件名集合中核心词与所述第一核心词不一致的标准化字幕文件名,从所述标准化字幕文件名集合中删除。6.根据权利要求1所述的方法,其特征在于,所述将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算,包括: 分别计算出所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的“编辑距离”; 获得所述标准化第一视频文件名的字符长度; 将计算出的所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的编辑距离,和标准化第一视频文件名的字符长度,分别进行除法运算,将各个运算结果,确定为匹配特征值,该匹配特征值越低,匹配度越高。7.根据权利要求6所述的方法,其特征在于,所述将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字蒂文件,包括: 按照所述标准化第一视频文件名与每个标准化字幕文件名之间的匹配特征值,对标准化字幕文件名集合中的标准化字幕文件名进行排序,将匹配特征值最低的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。8.根据权利要求7所述的方法,其特征在于,所述对标准化字幕文件名集合中的标准化字幕文件名进行排序之前,还包括: 将匹配特征值大于预设阈值的标准化字幕文件名,从所述标准化字幕文件名集合中删除。9.一种为本地视频文件匹配字幕文件的装置,其特征在于,所述装置包括: 获取文件名模块,用于获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合; 规整化模块,用于按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合; 计算模块,用于将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算; 确定模块,用于将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。10.根据权利要求9所述的装置,其特征在于,所述规整化模块包括:第一规整化子模块和第二规整化子模块, 所述第一规整化子模块,用于对所述第一视频文件名进行解析,获得所述第一视频文件名的所有字符,根据预设的无意义字符库,将第一视频文件名中的无意义字符删除,获得标准化第一视频文件名;所述无意义字符库中,包含:视频或字幕文件分辨率的标识,视频或字幕文件的语言标识,视频或字幕文件的文件源网址的标识,视频或字幕文件中用于分词分隔的符号; 所述第二规整化子模块,用于对字幕文件名集合中的每个字幕文件名进行解析,获得每个所述字幕文件名的所有字符,根据预设的无意义字符库,将每个字幕文件名中的无意义字符删除,获得每个字幕文件名对应的标准化字幕文件名。11.根据权利要求10所述的装置,其特征在于:所述装置还包括格式统一模块, 所述格式统一模块,用于当所述第一视频文件名包含英文字母时,在按照预设的规整化算法对所述第一视频文件名进行规整化之前,将第一视频文件名中包含的英文字母统一为预设的大写或小写格式; 和当所述字幕文件的文件名中包含英文字母时,在按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名规整化之前,将字幕文件名集合中的文件名包含的英文字母统一为预设的大写或小写格式。12.根据权利要求9所述的装置,其特征在于,所述装置还包括第一删除模块, 所述第一删除模块,用于在所述按照预设的规整化算法对所述第一视频文件名进行规整化前,按照预设格式,提取所述第一视频文件名的第一核心词和字幕文件名集合中的各个字幕文件名的核心词;将所述字幕文件名集合中核心词与所述第一核心词不一致的字幕文件名,从所述字幕文件名集合中删除;或, 在所述将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算前,按预设格式,提取所述标准化第一视频文件名的第一核心词和标准化字幕文件名集合中的各个标准化字幕文件名的核心词;将标准化字幕文件名集合中核心词与所述第一核心词不一致的标准化字幕文件名,从所述标准化字幕文件名集合中删除。13.根据权利要求9所述的装置,其特征在于,所述计算模块包括:“编辑距离”计算子模块、字符长度获得子模块和匹配度计算子模块, 所述编辑距离计算子模块,用于分别计算出所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的编辑距离; 所述字符长度获得子模块,用于获得所述标准化第一视频文件名的字符长度; 所述匹配度计算子模块,用于将计算出的所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的编辑距离,和标准化第一视频文件名的字符长度,分别进行除法运算,将各个运算结果,确定为匹配特征值,该匹配特征值越低,匹配度越尚ο14.根据权利要求13所述的装置,其特征在于, 所述确定模块,具体用于,按照所述标准化第一视频文件名与每个标准化字幕文件名之间的匹配特征值,对标准化字幕文件名集合中的标准化字幕文件名进行排序,将匹配特征值最低的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。15.根据权利要求14所述的装置,其特征在于,所述装置还包括第二删除模块, 所述第二删除模块,用于在所述确定模块对标准化字幕文件名集合中的标准化字幕文件名进行排序之前,将匹配特征值大于预设阈值的标准化字幕文件名,从所述标准化字幕文件名集合中删除。
【专利摘要】本发明实施例公开了一种为本地视频文件匹配字幕文件的方法和装置,方法包括:获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合;按照预设的规整化算法对第一视频文件名和字幕文件名集合中的字幕文件名进行规整化,获得标准化第一视频文件名和包含所有标准化字幕文件名的标准化字幕文件名集合;将标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算;将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与第一视频文件匹配的字幕文件。本发明实施例,更好更方便的为本地视频文件自动匹配字幕,提高了用户观看视频的体验。
【IPC分类】H04N21/435, H04N21/488, G06F17/30
【公开号】CN105245943
【申请号】CN201510629402
【发明人】左家永, 陆其明
【申请人】北京奇艺世纪科技有限公司
【公开日】2016年1月13日
【申请日】2015年9月28日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1