Epg信息解析方法及系统的制作方法

文档序号:9792152阅读:673来源:国知局
Epg信息解析方法及系统的制作方法
【技术领域】
[0001] 本发明属于广播电视播出系统技术领域,具体设及一种EPG信息解析方法及系统。
【背景技术】
[0002] 电子节目指南(electrical program guide,简称EPG)已成为数字电视的重要标 志,是观众进入数字电视和交互式网络电视(简称IPTV)的口户。EPG系统可向用户提供一种 容易使用、界面友好、快速访问所关注节目的方式,不仅能够使用户方便地找到自己喜欢的 节目,而且还能看到一个或者多个频道甚至所有频道上近期将播放的节目。
[0003] EPG系统处理的有关节目信息称之为EPG信息,其包括W下类型信息:节目名称、节 目副标题、栏目名称、节目分类、集数和总集数等。由于EPG信息是否各个电视台产生或者说 从各个网站上爬取,因此,EPG信息的文字风格和排列方式大不相同,是一种不规则的数据。 为此,现有技术中一般采用人为方式进行解析,不仅解析效率低,而且准确率低。
[0004] 因此,如何针对不规则的数据进行准确解析EPG信息中的多种类别是目前亟待解 决的问题之一。

【发明内容】

[0005] 本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种EPG信息解析 方法及系统,不仅解析效率高,而且解析正确率高,单字符正确率可达99.9 %,单句正确率 可达98.5%。
[0006] 为解决上述问题之一,本发明提供了一种EPG信息解析方法,所述EPG信息包括多 种类别,包括W下步骤:基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进 行学习,W获得与所述EPG信息的特征相关的解析模型;提取当前EPG信息的特征;根据提取 的特征,使用所述解析模型进行条件随机场解析,W获得当前EPG信息对应的类别信息。
[0007] 优选地,所述类别信息和所述EPG信息的对应关系如下:每种类别、所有的标点符 号和每个预设字分别对应一个字母或者字母组合;EPG信息中的属于同一类别的每个字符 标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组 合,从而根据EPG信息形成与之对应的由字母串接形成的类别信息。
[000引具体地,所述特征包括:所述EPG信息中的字符本身和字符位置特征。
[0009] 优选地,所述特征还包括词性特征。
[0010] 优选地,所述提取当前EPG信息的特征,包括:对当前EPG信息进行分词;基于分词 结果进行词性识别,W提取出所述词性特征。
[0011] 优选地,采用隐马尔可夫模型或者条件随机场模型对所述信息进行分词;和/或, 采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。
[0012] 本发明还提供一种EPG信息解析系统,包括:解析模型建立模块,用于基于多条EPG 信息和与之对应的类别信息,采用条件随机场模型进行学习,W获得与所述EPG信息的特征 相关的解析模型;提取模块,用于提取当前EPG信息的特征;解析模块,用于根据提取的特 征,使用所述解析模型进行条件随机场解析,W获得当前EPG信息对应的类别信息。
[001引优选地,所述类别信息和EPG信息的对应关系如下:每种类别、所有的标点符号和 每个预设字分别对应一个字母或者字母组合;EPG信息中的属于同一类别的每个字符标注 为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组合, 从而根据EPG信息形成与之对应的由字母串接形成的类别信息。
[0014] 具体地,所述特征包括:所述EPG信息中的字符本身和字符位置特征。
[0015] 优选地,所述特征还包括词性特征。
[0016] 优选地,所述提取模块包括:分词子模块,用于对当前EPG信息进行分词;词性识别 子模块,用于基于分词结果进行词性识别,W提取出所述词性特征。
[0017] 优选地,所述分词子模块,用于采用隐马尔可夫模型或者条件随机场模型对所述 信息进行分词;和/或,所述词性识别子模块,采用隐马尔可夫模型或者条件随机场模型对 分词结果进行词性识别。
[0018] 本发明具有W下有益效果:
[0019] 本发明提供的EPG信息解析方法及系统,针对各个电视台提供或者从各种网站上 爬取的文字风格和排列方式大不相同的EPG信息,均可采用条件随机场进行EPG信息解析, 获得每条EPG信息的分类信息,运与现有技术中采用人为解析方式相比,不仅解析效率高, 而且解析正确率高,单字符正确率可达99.9 %,单句正确率可达98.5 %。其中,单字符正确 率是指解析正确的字符个数占整个测试集字符个数的百分比,单句正确率是指解析正确的 EPG信息条数占整个测试集EPG信息条数的百分比。
【附图说明】
[0020] 图1为本发明实施例提供的EPG信息解析方法的流程图;
[0021] 图2为图1中步骤S2的流程图;
[0022] 图3为本发明实施例提供的EPG信息解析系统的原理框图;
[0023] 图4为图3中提取模块的原理框图。
【具体实施方式】
[0024] 为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图来对本发明 提供的EPG信息解析方法及系统进行详细描述。
[0025] 实施例1
[0026] 图1为本发明实施例提供的EPG信息解析方法的流程图,请参阅图1,EPG信息包括 多种类别,具体地,多种类别包括但不限于:1,节目名称,指具体的节目名称,举例:天龙八 部、快乐大本营等;2,栏目名称或剧场名称,举例:午夜剧场、午间剧场等;3,节目分类,指节 目的具体表现形式,举例:电影、电视剧等;4,集数,指节目当前播放的集数;5,总集数,指节 目的总集数;6,季/部,指第几季或第几部,例如,第一季;7,时间信息,指具体播出时间,例 如:2015-12-09;8,区域信息,指节目由那个区域制作,例如,大陆、香港、台湾等;9,人物信 息,指节目中出现了那些重要的人物,例如,霍建华版、胡军版;10,剪辑信息,指剪辑版本, 例如,剪辑版、精装版;11,播放状态,例如,转播、直播、重播等。
[0027] 该EPG信息解析方法,包括W下步骤:
[00%] SI,基于多条EPG信息和与之对应的类别信息,采用条件随机场模型(Conditional Random Field,简称CRF)进行学习,W获得与Ere信息的特征相关的解析模型。也就是说,多 条EPG信息和与之对应的类别信息作为样本集,W供学习来获得上述解析模型。
[0029] 举例说明:若一条EPG信息为"钻石剧场:天龙八部胡军版1/45",由于"钻石剧场" 所属类别为"栏目名称","天龙八部"所属类别为"节目名称","胡军版"所属类型为"人物信 息","r所属类型为"集数","45"所属类型为"总集数",因此,该EPG信息对应的类别信息可 W但不限于:"栏目名称节目名称人物信息集数/总集数"。
[0030] 在本实施例中,优选地,类别信息和EPG信息的对应关系如下:每种所述类别、所有 的标点符号和每个预设字分别对应一个字母或者字母组合;所述EPG信息中的属于同一类 别的每个字符标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的 字母或字母组合。基于该对应关系,即可根据EPG信息获得与之对应的类别信息,该类别信 息具体为:由字母串接形成的字符串。
[0031] 举例说明:类别、标点符号和预设字与字母和字母组合的对应关系见下表:
[0034] 其中,标点符号包括"空格7"和V等的所有标点符号。"版"为预设字。
[0035] 在此情况下,若一条EPG信息为"钻石剧场:天龙八部胡军版1/45",则由该EPG信息 标注形成的与之对应的类别信息为乂CCCMPPPPMNNVMEMES"。
[0036] 具体地,EPG信息的特征包括:EPG信息中的字符本身和字符位置特征。
[0037] 采用字符本身特征的原因为:类别与字符本身强相关,例如,当字符为阿拉伯数字 或者中文数字时,该字符的类别很大可能是集数或者总集数;标点符号本身就是一种类别; 大陆、韩国等区域名很大程度是区域信息;剪辑信息所能列举的字符相当有限。
[0038] 采用字符位置特征的原因为:类别与字符位置相关,例如,2015-12-09,虽然大部 分字符为数字,但是通过符号"-"W时间的固定格式连接,因此,每个字符的类别为时间信 息;同样的出现在7"之后的数字很大可能是总集数。
[0039] S2,提取当前EPG信息的特征。
[0040] 具体地,该步骤中需要提取的当前EPG信息的特征与步骤Sl
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1