Epg信息解析方法及系统的制作方法_2

文档序号:9792152阅读:来源:国知局
中获得的与解析模型 相关的特征相对应。
[0041] S3,根据提取的特征,基于在步骤Sl中获得的条件随机场模型进行条件随机场解 析,W获得当前EPG信息对应的类别信息。
[0042] 由上可知,本发明实施例提供的EPG信息解析方法,针对各个电视台提供或者从各 种网站上爬取的文字风格和排列方式大不相同的EPG信息,均可采用条件随机场进行EPG信 息解析,获得每条EPG信息的分类信息,运与现有技术中采用人为解析方式相比,不仅解析 效率高,而且解析正确率高,单字符正确率可达99.9%,单句正确率可达98.5%。其中,单字 符正确率是指解析正确的字符个数占整个测试集字符个数的百分比,单句正确率是指解析 正确的EPG信息条数占整个测试集EPG信息条数的百分比。
[0043] 在本实施例中,优选地,所述EPG信息的特征还包括词性特征,词性特征包括但不 限于:人名、地名和数量词。
[0044] 选择词性特征作为EPG信息的特征的原因为:词性特征能够帮助解析该字符的类 另IJ,例如,字符串经过分词后展现出的词性特征为数量词时,该字符的类别很有可能为集 数、总集数、季/部;再如,若词性特征为人名时,该字符的类别很有可能为人物信息;又如, 若词性特征为地名时,该字符的类别很有可能为区域信息。
[0045] 在EPG信息的特征还包括词性特征的情况下,优选地,如图2所示,步骤S2包括:
[0046] S21,对当前EPG信息进行分词。
[0047] 具体地,可采用隐马尔可夫模型化idden Markov Model,简称HMM)或者条件随机 场模型对所述信息进行分词。
[0048] S22,基于分词结果进行词性识别,W提取出所述词性特征。
[0049] 具体地,采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。
[00加]实施例2
[0051] 图3为本发明实施例提供的EPG信息解析系统的原理框图,请参阅图3,本实施例提 供的EPG信息解析方系统,包括:
[0052] 解析模型建立模块10,用于基于多条EPG信息和与之对应的类别信息,采用条件随 机场模型进行学习,W获得与所述EPG信息的特征相关的解析模型。
[0053] 提取模块11,用于提取当前EPG信息的特征。
[0054] 解析模块12,用于根据提取的特征,使用所述解析模型进行条件随机场解析,W获 得当前EPG信息对应的类别信息。
[0055] 在本实施例中,类别信息和EPG信息的对应关系如下:预设每种类别、所有的标点 符号和每个预设分别对应一个字母或者字母组合;EPG信息中的属于同一类别的每个字符 标注为该类别对应的字母或字母组合,每个标点符号和预设字标注为对应的字母或字母组 合。在此情况下,根据EPG信息形成与之对应的类别信息为由字母串接形成的字符串。
[0056] 具体地,EPG信息的特征包括:EPG信息中的字符本身和字符位置特征。
[0057] 优选地,EPG信息的特征还包括词性特征,词性特征包括但不限于:人名、地名和数 量词。
[0058] 在EPG信息的特征还包括词性特征的情况下,优选地,如图4所示,提取模块11还包 括:
[0059] 分词子模块111,用于对当前EPG信息进行分词;
[0060] 词性识别子模块112,用于基于分词结果进行词性识别,W提取出所述词性特征。
[0061] 更优选地,分词子模块111,用于采用隐马尔可夫模型或者条件随机场模型对所述 信息进行分词。
[0062] 词性识别子模块112,用于采用隐马尔可夫模型或者条件随机场模型对分词结果 进行词性识别。
[0063] 需要说明的是,由于本发明实施例提供的EPG信息解析系统是实施例1提供的EPG 信息解析方法对应的产品,因此,在此不再详述,具体内容参见实施例1。
[0064] 由上可知,本发明实施例提供的EPG信息解析系统,针对各个电视台提供或者从各 种网站上爬取的文字风格和排列方式大不相同的EPG信息,均可采用条件随机场进行EPG信 息解析,获得每条EPG信息的分类信息,运与现有技术中采用人为解析方式相比,不仅解析 效率高,而且解析正确率高,单字符正确率可达99.9%,单句正确率可达98.5%。其中,单字 符正确率是指解析正确的字符个数占整个测试集字符个数的百分比,单句正确率是指解析 正确的EPG信息条数占整个测试集EPG信息条数的百分比。
[0065] 可W理解的是,W上实施方式仅仅是为了说明本发明的原理而采用的示例性实施 方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精 神和实质的情况下,可W做出各种变型和改进,运些变型和改进也视为本发明的保护范围。
【主权项】
1. 一种EPG信息解析方法,所述EPG信息包括多种类别,其特征在于,包括以下步骤: 基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进行学习,以获得与所 述EPG信息的特征相关的解析模型; 提取当前EPG信息的特征; 根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前EPG信息对应的 类别信息。2. 根据权利要求1所述的EPG信息解析方法,其特征在于,所述类别信息和所述EPG信息 的对应关系如下: 每种所述类别、所有的标点符号和每个预设字分别对应一个字母或者字母组合;所述 EPG信息中的属于同一类别的每个字符标注为该类别对应的字母或字母组合,每个标点符 号和预设字标注为对应的字母或字母组合。3. 根据权利要求1所述的EPG信息解析方法,其特征在于,所述特征包括: 所述EPG信息中的字符本身和字符位置特征。4. 根据权利要求3所述的EPG信息解析方法,其特征在于,所述特征还包括词性特征。5. 根据权利要求4所述的EPG信息解析方法,其特征在于,所述提取当前EPG信息的特 征,包括: 对当前EPG信息进行分词; 基于分词结果进行词性识别,以提取出所述词性特征。6. 根据权利要求5所述的EPG信息解析方法,其特征在于,采用隐马尔可夫模型或者条 件随机场模型对所述信息进行分词;和/或 采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性识别。7. -种EPG信息解析系统,其特征在于,包括: 解析模型建立模块,用于基于多条EPG信息和与之对应的类别信息,采用条件随机场模 型进行学习,以获得与所述EPG信息的特征相关的解析模型; 提取模块,用于提取当前EPG信息的特征; 解析模块,用于根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前 EPG信息对应的类别信息。8. 根据权利要求7所述的EPG信息解析系统,其特征在于,所述类别信息和EPG信息的对 应关系如下: 每种类别、所有的标点符号和每个预设字分别对应一个字母或者字母组合;EPG信息中 的属于同一类别的每个字符标注为该类别对应的字母或字母组合,每个标点符号和预设字 标注为对应的字母或字母组合,从而根据EPG信息形成与之对应的由字母串接形成的类别 信息。9. 根据权利要求7所述的EPG信息解析系统,其特征在于,所述特征包括: 所述EPG信息中的字符本身和字符位置特征。10. 根据权利要求9所述的EPG信息解析系统,其特征在于,所述特征还包括词性特征。11. 根据权利要求10所述的EPG信息解析系统,其特征在于,所述提取模块包括: 分词子模块,用于对当前EPG信息进行分词; 词性识别子模块,用于基于分词结果进行词性识别,以提取出所述词性特征。12.根据权利要求11所述的EPG信息解析系统,其特征在于,所述分词子模块,用于采用 隐马尔可夫模型或者条件随机场模型对所述信息进行分词;和/或 所述词性识别子模块,采用隐马尔可夫模型或者条件随机场模型对分词结果进行词性 识别。
【专利摘要】本发明提供了一种EPG信息解析方法及系统,该方法包括以下步骤:基于多条EPG信息和与之对应的类别信息,采用条件随机场模型进行学习,以获得与所述EPG信息的特征相关的解析模型;提取当前EPG信息的特征;根据提取的特征,使用所述解析模型进行条件随机场解析,以获得当前EPG信息对应的类别信息。本发明提供的EPG信息解析方法及系统,不仅解析效率高,而且解析正确率高,单字符正确率可达99.9%,单句正确率可达98.5%。
【IPC分类】H04N21/81, H04N21/435, H04N21/235
【公开号】CN105554519
【申请号】CN201510991521
【发明人】李鹏, 陆承恩, 周鸣
【申请人】北京酷云互动科技有限公司
【公开日】2016年5月4日
【申请日】2015年12月24日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1