一种播放器及字幕文件的字符编码检测方法和装置的制作方法

文档序号:6768723阅读:148来源:国知局
专利名称:一种播放器及字幕文件的字符编码检测方法和装置的制作方法
技术领域
本发明属于多媒体处理领域,尤其涉及一种播放器及字幕文件的字符编码检测方法和装置。
背景技术
在播放器播放视频文件时,为了达到较好的播放效果,一般均会为该视频文件制作对应的字幕文件。为了便于查找视频文件对应的字幕文件,视频文件和字幕文件一般采用相同的名称。在制作字幕文件时,针对不同的语言,可以采用不同的字符编码,如用于表示简体字的GB2312、GBK和GB18030,用于表示繁体字的BIG5,包含了西欧语言的Latinl, 包含东亚中日韩语言文字的CJK以及包含了全世界大部分语言的UNICODE(UTF-8,UTF-16) 等。其中字符编码是指字符在计算机中的数字化表示规则,根据一种字符编码,每种字符均对应一种编码值。其中字符是各种文字和符号的总称,如语言文字中的字母(如a、b、A、B 等)、文字(如你、我、他等)、符号(如+、-等)等。对于不同的字符编码,字符对应的编码值基本不同,也就是说各种字符编码之间一般是互不兼容的,而视频文件对应的字幕文件一般是以某种字符编码方式编码存储,因此,在输出字幕文件时,需要采用生成字幕文件的字符编码方式解析字幕文件,才能准确的显示字幕文件的内容,否则将导致显示乱码或者发生字符丢失(如显示为?)的现象。现有技术一般是通过人为的对字幕文件进行分析,判断字幕文件的字符编码,再将播放器的字符编码设置为字幕文件的字符编码,以实现字幕文件的准确显示。由于人为分析字幕文件的字符编码需要具备专业的计算机知识,导致大部分情况下,无法准确显示字幕文件,而且这种方法需要人为设置播放器的字符编码,从而降低了用户的播放体验。

发明内容
本发明实施例的目的在于提供一种字幕文件的字符编码检测方法,旨在解决现有技术需要通过人为方式分析字幕文件的字符编码的问题。本发明实施例是这样实现的,一种字幕文件的字符编码检测方法,所述方法包括下述步骤从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率;将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。本发明实施例的另一目的在于提供一种视频输出方法,所述方法包括下述步骤在输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件;从播放器设置的待选字符编码集中选择包含字幕文件中全部编码值的字符编码;根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率;将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码;采用确定的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的内容渲染成图像,在相应的时间叠加到视频图像中。本发明实施例的另一目的在于提供一种字幕文件的字符编码检测装置,所述装置包括过滤单元,用于从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;存储单元,用于存储每种字符编码的编码值分布概率表;可能性概率计算单元,用于根据所述存储单元中存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率;字符编码确定单元,用于根据所述可能性概率计算单元的计算结果,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。本发明实施例的另一目的在于提供一种播放器,所述播放器包括所述字幕文件的字符编码检测装置,所述播放器还包括字幕文件加载单元,用于在播放器输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件;字幕输出单元,用于采用所述字幕文件的字符编码检测装置检测到的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的内容渲染成图像,在相应的时间叠加到视频图像中。在本发明实施例中,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码,再根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码,从而自动、快速、准确的检测出字幕文件的字符编码。在播放视频文件时,由于可以自动、快速、准确的加载并检测到该视频文件对应的字幕文件的字符编码,从而使播放器可以采用字幕文件的字符编码来解析字幕文件,从而可以准确的显示字幕内容,给用户带来较好的播放体验。


图1是本发明第一实施例提供的字幕文件的字符编码检测方法的实现流程图;图2是本发明第二实施例提供的字幕文件的字符编码检测方法的实现流程图;图3是本发明第三实施例提供的字幕文件的字符编码检测方法的实现流程图;图4是本发明实施例提供的采用字符编码检测方法的视频输出方法的实现流程图;图5ajb分别是现有技术提供的字幕显示效果图和本发明实施例提供的字幕显示效果图;图6是本发明实施例提供的字幕文件的字符编码检测装置的结构框图;图7是本发明实施例提供的播放器的结构框图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在本发明实施例中,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码,再根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码,从而自动、快速、准确的检测出字幕文件的字符编码,从而可以快速、准确的输出字幕文件。实施例一图1示出了本发明第一实施例提供的字幕文件的字符编码检测方法的实现流程, 详述如下在步骤SlOl中,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码。在本发明实施例中,为了使播放器可以准确的输出采用不同字符编码的字幕文件,一般预先在播放器中设置字符编码集,该字符编码集中包括一种或多种字符编码。当需要检测播放器中待播放的字幕文件的字符编码时,则将播放器中设置的字符编码集作为待选字符编码集,从待选字符编码集中选择包含字幕文件中全部编码值的字符编码。举例说明如下,但不以该举例说明为限如果预先在播放器中设置的字符编码集中包括如下字符编码用来表示简体字的 GB2312、GBK、GB18030,用来表示繁体字的BIG5,包含西欧语言的Latinl,包含东亚中日韩语言文字的CJK以及包含了全世界大部分语言的UNICODE等,通过遍历字幕文件,针对字符编码集中的每种字符编码,判断该字符编码中是否包含字幕文件中的所有编码值,如果是, 则选择该字符编码,如果否,则过滤掉该字符编码。在步骤S102中,根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率。在本发明实施例中,在根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率时,可以采用算术加权算法计算,当然也可以采用现有技术提供的其他算法进行计算,在此不在一一举例说明。在本发明实施例中,由于不同语言中各个字符出现的概率可能不一致,通过收集大量的数据(如不同语言的网页、书籍等)进行统计分析后,可以得到每种字符编码的编码值分布概率表,将每种字符编码的编码值分布概率表预先存储在播放器中。举例说明如下假设根据收集的网页和书籍数据可以得到,对于字符编码GB2312来说,字符A出现的概率为0. 0001、字符B出现的概率为0. 0002、字符C出现的概率为0. 0003、字符D出现的概率为0. 0004,对于字符编码BIG5来说,字符A出现的概率为0. 0002、字符B出现的概率为0. 0004、字符C出现的概率为0. 0001、字符D出现的概率为0. 0003,由于在不同的字符编码中,字符对应的编码值可能不一样,假设在不同的字符编码中,上述字符对应的编码值如表1. 1所示
6
表1. 1
字符编码字符编码值GB2312A12345GB2312B23456GB2312C34567GB2312D45678BIG5A23456BIG5B12345BIG5C45678BIG5D34567则对于字符编码为GB2312来说,其编码值分布概率表如表1. 2所示表1. 2
编码值概率123450. 0001234560. 0002345670. 0003456780.0004对于字符编码为BIG5来说,其编码值分布概率表如表1. 3所示表 1. 权利要求
1.一种字幕文件的字符编码检测方法,其特征在于,所述方法包括下述步骤 从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率;将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。
2.如权利要求1所述的方法,其特征在于,所述根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,采用算术加权算法,计算字幕文件对应选择的每种字符编码的可能性概率的步骤具体为统计字幕文件包括的每种编码值在字幕文件中出现的次数;根据每种字符编码的编码值分布概率表以及字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率;根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括下述步骤采集大量不同语言数据,统计不同语言中各个字符出现的概率,并根据不同语言中各个字符出现的概率计算每种字符编码的编码值分布概率,得到每种字符编码的编码值分布概率表。
4.如权利要求1或2所述的方法,其特征在于,在所述根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,采用算术加权算法,计算字幕文件对应选择的每种字符编码的可能性概率的步骤之后,所述方法还包括下述步骤判断字幕文件可能性概率最大的字符编码的概率值是否大于预设的阈值,如果是,执行所述将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码的步骤,如果否,输出无法检测出字幕文件的字符编码的提示信息。
5.一种视频输出方法,其特征在于,所述方法包括下述步骤在输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件; 从播放器设置的待选字符编码集中选择包含字幕文件中全部编码值的字符编码; 根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率;将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码; 采用确定的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的文本内容渲染成图像,在相应的时间叠加到视频图像中。
6.一种字幕文件的字符编码检测装置,其特征在于,所述装置包括过滤单元,用于从待选字符编码集中选择包含字幕文件中全部编码值的字符编码; 存储单元,用于存储每种字符编码的编码值分布概率表;可能性概率计算单元,用于根据所述存储单元中存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率;字符编码确定单元,用于根据所述可能性概率计算单元的计算结果,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。
7.如权利要求6所述的装置,其特征在于,所述可能性概率计算单元包括次数统计模块,用于统计字幕文件包括的每种编码值在字幕文件中出现的次数;概率统计模块,用于根据每种字符编码的编码值分布概率表以及所述次数统计模块统计得到的字幕文件包括的每种编码值在字幕文件中出现的次数,统计字幕文件包括的每种编码值对应字符编码的概率;可能性概率计算模块,用于根据字幕文件包括的每种编码值对应字符编码的概率,计算字幕文件对应各个字符编码的可能性概率。
8.如权利要求6或7所述的装置,其特征在于,所述装置还包括编码值分布概率统计单元,用于采集大量不同语言数据,统计不同语言中各个字符出现的概率,并根据不同语言中各个字符出现的概率计算每种字符编码的编码值分布概率, 得到每种字符编码的编码值分布概率表。
9.如权利要求6或7所述的装置,其特征在于,所述装置还包括可能性概率判断单元,用于判断字幕文件可能性概率最大的字符编码是否大于预设的阈值;此时,所述字符编码确定单元,在可能性概率判断单元16判定字幕文件可能性概率最大的字符编码大于预设的阈值时,根据所述可能性概率计算单元的计算结果,将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码;信息提示单元,用于在所述可能性概率判断单元判定字幕文件可能性概率最大的字符编码的概率值小于或者等于预设的阈值时,输出无法检测出字幕文件的字符编码的提示信息。
10.一种播放器,其特征在于,所述播放器包括权利要求6所述的字幕文件的字符编码检测装置,所述播放器还包括字幕文件加载单元,用于在播放器输出视频文件时,根据视频文件名查找与该视频文件对应的字幕文件;字幕输出单元,用于采用所述字幕文件的字符编码检测装置检测到的字幕文件的字符编码解析字幕文件,并将解析后的字幕文件的文本内容渲染成图像,在相应的时间叠加到视频图像中。
全文摘要
本发明适用于多媒体处理领域,提供了一种播放器及字幕文件的字符编码检测方法和装置,该方法包括从待选字符编码集中选择包含字幕文件中全部编码值的字符编码;根据预先存储的每种字符编码的编码值分布概率表以及字幕文件,计算字幕文件对应选择的每种字符编码的可能性概率;将字幕文件可能性概率最大的字符编码确定为字幕文件的字符编码。本发明实施例可以自动、快速、准确的检测出字幕文件的字符编码。在播放视频文件时,由于可以自动、快速、准确的加载并检测到该视频文件对应的字幕文件的字符编码,使播放器可以采用字幕文件的字符编码来解析字幕文件,从而可以准确的显示字幕内容。
文档编号G11B27/10GK102194503SQ20101012563
公开日2011年9月21日 申请日期2010年3月12日 优先权日2010年3月12日
发明者赵东 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1