一种为本地视频文件匹配字幕文件的方法和装置的制造方法_4

文档序号:9492220阅读:来源:国知局
>[0124]标准化第一视频文件名〈Iietomes02e02>与标准化字幕文件名 < 冰与火之歌s02e02>的匹配特征值=7/13 = 0.53。
[0125](6)根据步骤S206,进行判断匹配特征值是否大于预设阈值,
[0126]所述预设阈值是可以根据情况调节的,本实施例中设定预设阈值为0.5,有
0.53>0.5,所以将 < 冰与火之歌s02e02>从标准化字幕文件名集合中删除。
[0127](7)根据步骤S207,进行确定与所述第一视频文件匹配的字幕文件。
[0128]根据匹配特征值,对字幕文件集合中剩余的字幕文件名进行排序,选择匹配特征值最小,即匹配度最高的字幕文件进行加载,本实施例中仅剩余标准化字幕文件名为<lietomes02e02>的字幕文件,即自动加载该字幕文件。
[0129]应用本发明图2所示实施例,能够将视频文件名和字幕文件名中的包含的英文字母进行了统一的大写格式或小写格式转换,无意义字符删除,并且提取视频文件名和字幕文件名中的核心词,更加增加了视频文件与字幕文件的匹配的概率,能够更好更方便的为本地视频文件自动匹配字幕,提高了用户观看视频的体验。
[0130]图3为本发明实施例提供的一种为本地视频文件匹配字幕文件的装置的结构示意图,与图1所示的流程相对应,包括获取文件名模块301、规整化模块302、计算模块303和确定模块304。
[0131]获取文件名模块301,用于获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合。
[0132]规整化模块302,用于按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合。
[0133]具体的,所述规整化模块302包括:第一规整化子模块3021和第二规整化子模块3022,
[0134]所述第一规整化子模块3021,用于对所述第一视频文件名进行解析,获得所述第一视频文件名的所有字符,根据预设的无意义字符库,将第一视频文件名中的无意义字符删除,获得标准化第一视频文件名;所述无意义字符库中,包含:视频或字幕文件分辨率的标识,视频或字幕文件格式的标识,视频或字幕文件的文件源网址的标识,视频或字幕文件中用于分词分隔的符号;
[0135]所述第二规整化子模块3022,用于对字幕文件名集合中的每个字幕文件名进行解析,获得每个所述字幕文件名的所有字符,根据预设的无意义字符库,将每个字幕文件名中的无意义字符删除,获得每个字幕文件名对应的标准化字幕文件名。
[0136]计算模块303,用于将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算;所述标准化字幕文件名集合中包含:按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化获得的所有标准化字幕文件名。
[0137]所述计算模块303可以包括:“编辑距离”计算子模块3031、字符长度获得子模块3032和匹配度计算子模块3033,
[0138]所述编辑距离计算子模3031,用于分别计算出所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的编辑距离;
[0139]所述字符长度获得子模块3032,用于获得所述标准化第一视频文件名的字符长度;
[0140]所述匹配度计算子模块3033,用于将计算出的所述标准化第一视频文件名与标准化字幕文件名集合中的每个标准化字幕文件名之间的编辑距离,和标准化第一视频文件名的字符长度,分别进行除法运算,将各个运算结果,确定为匹配特征值,该匹配特征值越低,匹配度越高。
[0141]确定模块304,用于将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。
[0142]所述确定模块304具体用于,按照所述标准化第一视频文件名与每个标准化字幕文件名之间的匹配特征值,对标准化字幕文件名集合中的标准化字幕文件名进行排序,将匹配特征值最低的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字蒂文件。
[0143]对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0144]应用本发明图3所示实施例,能够将视频文件名和字幕文件名中的无意义字符删除,能够提高视频文件与字幕文件的匹配的概率,能够更好更方便的为本地视频文件自动匹配字幕,提高了用户观看视频的体验。
[0145]图4为本发明实施例提供的另一种为本地视频文件匹配字幕文件的装置的结构示意图,与图2所示流程相对应,包括获取文件名模块401、格式统一模块402、第一删除模块403、规整化模块404、计算模块405、第二删除模块406和确定模块407。
[0146]获取文件名模块401,用于获得本地待匹配字幕文件的第一视频文件的第一视频文件名,和包含本地各个字幕文件名的字幕文件名集合。
[0147]格式统一模块402:用于将第一视频文件名和字幕文件名集合中的字幕文件名中包含的英文字母统一为预设的大写或小写格式。
[0148]第一删除模块403:用于按照预设格式,提取所述第一视频文件名的第一核心词和字幕文件名集合中的各个字幕文件名的核心词;将所述字幕文件名集合中核心词与所述第一核心词不一致的字幕文件名,从所述字幕文件名集合中删除。
[0149]规整化模块404,用于按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合。
[0150]计算模块405,用于将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算;所述标准化字幕文件名集合中包含:按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化获得的所有标准化字幕文件名。
[0151]第二删除模块406,用于将匹配度大于预设阈值的标准化字幕文件名,从所述标准化字幕文件名集合中删除。
[0152]确定模块407,用于将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的字幕文件,确定为与所述第一视频文件匹配的字幕文件。
[0153]应用本发明图4所示实施例,能够将视频文件名和字幕文件名中的无意义字符删除,并且提取视频文件名和字幕文件名中的核心词,更加增加了视频文件与字幕文件的匹配的概率,能够更好更方便的为本地视频文件自动匹配字幕,提高了用户观看视频的体验。
[0154]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0155]本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0156]本领域普通技术人员可以理解实现上述方法是实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成。所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:R0M/RAM、磁碟、光盘等。
[0157]以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
【主权项】
1.一种为本地视频文件匹配字幕文件的方法,其特征在于,所述方法包括步骤: 获得本地待匹配字幕文件的第一视频文件的第一视频文件名和包含本地字幕文件名的字幕文件名集合; 按照预设的规整化算法对所述第一视频文件名进行规整化,获得标准化第一视频文件名;并按照所述预设的规整化算法对所述字幕文件名集合中的字幕文件名进行规整化,获得包含所有标准化字幕文件名的标准化字幕文件名集合; 将所述标准化第一视频文件名与标准化字幕文件名集合中的各个标准化字幕文件名进行匹配度计算; 将标准化字幕文件名集合中,计算结果满足预设条件的标准化字幕文件名对应的
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1