获取节目源信息的装置及方法

文档序号:7665811阅读:119来源:国知局
专利名称:获取节目源信息的装置及方法
技术领域
本发明涉及一种获取信息的装置,尤其是一种获取节目源信息的装置;还涉及一种获取信息的方法,尤其是一种获取节目源信息的方法。
背景技术
目前,互联网上的视频站点中视频数据的更新速度很快,要获知该视频站点更新了哪些数据,通过人工的方式来获知并更新是不现实的,因为工作量太大而且容易出错,所以,需要一种能自动地、及时地、准确地获知视频站点所更新的数据的装置和方法。

发明内容
本发明的一个目的是提供一种获取节目源信息的装置,其能自动收集互联网上的节目源的信息。本发明解决其技术问题所采用的技术方案是构造一种获取节目源信息的装置, 包括网页信息获取模块,其与互联网中的站点通信,用于获取网页上指定的内容;第一存储模块,用于缓存所述网页信息获取模块获取的网页内容;数据解析模块,用于对所述第一存储模块中缓存的所述网页内容进行解析;第二存储模块,用于存储经过所述数据解析模块解析得到的节目源的信息;控制模块,用于控制所述网页信息获取模块、所述第一存储模块、所述数据解析模块和所述第二存储模块的操作。在本发明所述的获取节目源信息的装置中,所述数据解析模块具体用于在所述第一存储模块中建立对象,将所述网页内容转换为可扩展标记语言文件格式,然后对转换后得到的文件进行分析。在本发明所述的获取节目源信息的装置中,所述网页信息获取模块还包括网页浏览器模块,用于向所述互联网中的站点发送请求并下载网页内容;第三存储模块,用于缓存所述网页浏览器模块下载的所述网页内容;过滤模块,用于从所述第三存储模块中读取网页内容并从中识别出有用的内容和/或无用的内容;节目扩展搜寻模块,用于扩展搜寻所述网页内容中的其它链接地址;第四存储模块,用于存储所述节目扩展搜寻模块搜寻到的链接地址。作为对本发明的获取节目源信息的装置的一种改进,所述节目扩展搜寻模块还用于判断所搜寻得到的链接地址中的域名跟指定的网站的域名是否一样和/或所述链接地址是否与所述第四存储模块中已经存储的某链接地址重复。本发明的另一个目的是提供一种获取节目源信息的方法,包括以下步骤网页信息获取模块与互联网中的站点通信并获取网页内容;第一存储模块缓存所述网页信息获取模块获取的所述网页内容;数据解析模块对所述第一存储模块中的所述网页内容进行解析;第二存储模块存储经过所述数据解析模块解析得到的节目源的信息;控制模块总控所述网页信息获取模块、所述第一存储模块、所述数据解析模块和所述第二存储模块的操作。在本发明的所述获取节目源信息的方法中,所述方法还包括以下步骤所述数据
4解析模块在所述第一存储模块中建立对象,将所述网页内容转换为可扩展标记语言文件格式,然后对转换后得到的文件进行分析。在本发明的所述获取节目源信息的方法中,所述网页信息获取模块还包括网页浏览器模块、第三存储模块和过滤模块,所述方法还包括以下步骤所述网页浏览器模块向所述互联网中的站点发送请求并下载网页内容;所述第三存储模块缓存所述网页浏览器模块下载的所述网页内容;所述过滤模块从所述第三存储模块中读取网页内容并从中识别出有用的内容和/或无用的内容。在本发明的所述获取节目源信息的方法中,所述网页信息获取模块还包括网页浏览器模块、第三存储模块和过滤模块,所述方法还包括以下步骤所述网页浏览器模块向所述互联网中的站点发送请求并下载网页的源代码;所述第三存储模块缓存所述网页浏览器模块下载的所述源代码;所述过滤模块从所述第三存储模块中读取网页内容并从中识别出有用的内容和/或无用的内容;所述过滤模块通知所述网页浏览器模块下载指定的内容; 所述网页浏览器模块根据所述过滤模块的指示下载所述指定的内容;所述过滤模块将所述网页浏览器模块下载的内容存储到所述第一存储模块中;所述数据解析模块对所述第一存储模块中的所述有用的内容进行解析;所述第二存储模块存储经过所述数据解析模块解析得到的节目源的信息。作为对本发明的获取节目源信息的方法的一种改进,所述网页信息获取模块还包括节目扩展搜寻模块和第四存储模块,所述方法还包括以下步骤所述节目扩展搜寻模块扩展搜寻网页内容中的其它链接地址;所述第四存储模块存储所述节目扩展搜寻模块搜寻到的链接地址。作为对上述改进的更进一步改进,所述方法还包括以下步骤节目扩展搜寻模块判断所搜寻得到的链接地址中的域名跟指定的网站的域名是否一样和/或所述链接地址是否与第四存储模块中已经存储的某链接地址重复。本发明的有益效果是,自动地、及时地、准确地获知视频网站中更新的数据。


下面将结合附图及实施例对本发明作进一步说明,附图中图1是本发明的获取节目源信息的装置的框图;图2是图1所示的网页信息获取模块的第一个实施例的框图;图3是图1所示的网页信息获取模块的第二个实施例的框图;图4是本发明的获取节目源信息的方法的第一个实施例的流程图;图5是本发明的获取节目源信息的方法的第二个实施例的流程图。
具体实施例方式参考图1,本发明的获取节目源信息的装置包括第一存储模块104、网页信息获取模块101、第二存储模块103、数据解析模块105和控制模块102。第一存储模块104是一个内部存储器,第二存储模块103是一个外部存储器。从互联网上获取的但未经过数据解析模块105解析的信息将会被存储在第一存储模块104中,经过数据解析模块105解析的节目源信息将会被存储在第二存储模块103中。网页信息获取模块101从互联网上发现并获取可能存在节目源信息的网页内容,该网页内容将会被临时地存储到第一存储模块104 中。数据解析模块105对存储到第一存储模块104中的数据进行解析,将符合规则文件要求的信息以预定的格式存储到第二存储模块103中,该预定的格式可以是XML(Extensible Markup Language,可扩展标记语言)文件格式,该规则文件可以由管理者定义,其与该预定的格式具有相关性,该规则文件还可以包含网页内容的过滤条件、需要提取的信息的关键词及该关键词的同义词等。数据解析模块105在第一存储模块104中建立对象,将所述网页内容在第一存储模块104中转换为XML文件格式,对XML文件进行分析,并提取需要的数据。控制模块102总控并协调第一存储模块104、网页信息获取模块101、第二存储模块 103、数据解析模块105的操作。 参考图2和图3,网页信息获取模块101包括节目扩展搜寻模块202、网页浏览器模块203、第三存储模块204、第四存储模块201和过滤模块205。第三存储模块204是一个内部存储器,第四存储模块201是一个外部存储器。网页浏览器模块203根据节目扩展搜寻模块202的指令向互联网中的站点发送请求并下载网页内容,所下载的网页内容被缓存在第三存储模块204中,过滤模块205从第三存储模块204中读取网页内容,并根据规则文件从中过滤无用的内容并保留有用的内容。过滤模块205从所述网页内容中过滤无用的内容并获取有用的内容是这样实现的(1)过滤模块205解析网页的源代码;(2)过滤模块205跳过CSS (Cascading Style Sheet,层叠样式表)的定义或者CSS的引用,直接进入网页的主体部分,CSS的定义以及CSS的引用一般都放在源代码的上方,网页的主体部分一般以<body>和</body>分别作为起始标志和结束标志;(3)进入网页的主体部分以后过滤模块205识别网页的横幅广告(Banner)、页脚(Footer)等,把横幅广告(Banner)、页脚(Footer)等都过滤掉,原因是节目源的信息一般都不会放置在网页的这些位置;(4)过滤模块205把过滤后得到的有用的内容存储到第一存储模块104中,同时,过滤模块205把该有用的内容发送给节目扩展搜寻模块202,当然,节目扩展搜寻模块202也可以从第一存储模块104中读取该有用的内容。节目扩展搜寻模块202从过滤模块205过滤得出的有用的内容中扩展搜寻其他节目的链接地址,搜寻其他节目的链接地址同样通过识别网页的源代码来实现,一般来讲,节目的名称和节目的链接地址在网页的源代码中是放在一起(同一行)的,节目扩展搜寻模块202在同一行源代码中识别节目的名称和节目的链接地址,节目扩展搜寻模块202在搜寻到节目的链接地址之后把该链接地址发送给网页浏览器模块 203,同时把该链接地址存储到第四存储模块201中。可能出现的情况是节目扩展搜寻模块 202从源代码中搜寻到的并不是节目信息,节目扩展搜寻模块202同样把其中的链接地址挑选出来。为了避免重复工作,节目扩展搜寻模块202把所有穷举得到链接地址存储到第四存储模块202中,节目扩展搜寻模块202比较该链接地址和存储在第四存储模块201中的链接地址以判断是否有重复,若不重复,则将该链接地址存储到第四存储模块201中,若不重复,则丢弃该链接地址。节目扩展搜寻模块202将经过比较后的链接地址发送给网页浏览器模块203,这样做的目的是穷举该网站中的所有链接地址,从这些链接地址对应的页面中寻找节目源信息。一个网页中会有多个链接地址,按照这种思想,节目扩展搜寻模块 202所获得的链接地址的结果数会呈现爆炸式增长,为了防止本发明的获取节目源信息的装置出现崩溃的情况,节目扩展搜寻模块202 —旦发现所搜寻到的链接地址中的域名跟指定的网站的域名不一样和/或该链接地址与第四存储模块中已经存储的某链接地址重复,那么,节目扩展搜寻模块202将该网址丢弃,既不将其存储到第四存储模块201中,也不将其发送到网页浏览器模块203中。网页信息获取模块101在第一次工作时接收由管理者输入的某网站的网址,在以后的工作当中就不需要管理者输入了,只需从第四存储模块201 中读取即可。本发明中,获取节目源的信息有两种方式。参考图2,第一种方式是网页浏览器模块203把源代码和与源代码链接图片全都下载下来,存储到第三存储模块204中,过滤模块 205然后根据规则文件从所下载的内容中把无用的内容全部都过滤掉,只留下有用的内容, 该有用的内容被存储到第一存储模块104中,一旦过滤模块205把该有用的内容存储到第一存储模块104,过滤模块205便发送一个触发信号给控制模块102,控制模块102触发数据解析模块105对第一存储模块104中的网页内容进行解析,数据解析模块105从第一存储模块104中读取该有用的内容并进行解析,数据解析模块105根据规则文件查找出指定的字段(如“片名”),并把与该字段联系的字段(如视频名称)同时也查找或识别出来,数据解析模块105将所查找或识别的信息按照预定的格式存储到第二存储模块103中,数据解析模块105从该有用的内容中的源代码查找出与该视频相关的图片或宣传海报的链接信息并从第一存储模块104中找到与该视频相关的图片或宣传海报,然后将该图片或海报存储到第二存储模块103中。参考图3,第二种方式是网页浏览器模块203先把源代码下载下来,过滤模块205在源代码下载完后并且在图片、动画等开始下载之前根据规则文件对网页内容进行过滤,如把页脚O^ooter)、横幅广告(Banner)等识别出来,只留下可能与节目源信息相关的内容,过滤模块205通知网页浏览器模块203下载哪些内容(过滤模块 205认为有用的内容)以及不下载哪些内容(过滤模块205认为无用的内容),所下载的内容将会存储到第一存储模块104中,由数据解析模块105进行解析,经过过滤模块205预先过滤后,上述所下载的内容可能只是与节目相关的图片或宣传海报而已,大大减少了对第三存储模块204的存储空间的需求,同时也减少了本发明的获取节目源信息的装置的工作量;作为对上述第二种方式的改进,网页浏览器模块203同样先把源代码下载下来,过滤模块205根据源代码对网页内容进行过滤,即把无用的内容和有用的内容识别出来,数据解析模块105从该有用的内容中根据规则文件查找出指定的字段(如“片名”),并把与该字段联系的字段(如视频名称)同时也识别出来,数据解析模块105将所查找和识别的信息按照预定的格式存储到第二存储模块103中,除此之外,数据解析模块105还将与该视频相关的图片或宣传海报的链接查找出来,即网页浏览器模块203、过滤模块205和数据解析模块105联合工作,有选择性地下载有用的网页内容,从中查找和识别出节目源信息,最后网页浏览器模块203在过滤后的结果中根据相关链接下载与节目相关的图片,该图片在由网页浏览器模块203下载后被存储到第一存储模块104中,然后通过数据解析模块105存储到第二存储模块103中。由于有的节目并没有相关图片,而只有一个预览的画面,在这种情况下,网页浏览器模块203截取节目的预览画面。参考图4,本发明的获取节目源信息的方法包括以下步骤在步骤501,在第一次执行获取某个网站的节目源信息的任务时,节目扩展搜寻模块202接收管理者输入的网页地址,节目扩展搜寻模块202判断所输入的地址是否跟第四存储模块201中的某个地址重复,若是,节目扩展搜寻模块202丢弃该网页地址并提示管理者重新输入,在非第一次执行获取某个网站的节目源信息的任务时,节目扩展搜寻模块202从第四存储模块201中读取网页地址,并将其发送给网页浏览器模块203 ;在步骤502,网页浏览器模块203在接收到节目扩展搜寻模块202发送的网页地址后根据网页地址获取网页内容,在本实施例中,网页浏览器模块203获取整个网页的内容,包括源代码、所有的图片等;在步骤503,网页浏览器模块203将所获取的网页内容存储到第三存储模块204中;在步骤504,在接收到规则文件后,过滤模块205从第三存储模块204中读取网页内容并根据规则文件对网页内容进行过滤,过滤模块205根据网页的源代码识别出有用的内容和无用的内容;在步骤505,过滤模块205将过滤后的网页内容(即有用的内容)存储到第一存储模块104中;在步骤506,过滤模块205发送触发信号给控制模块102,用于通知网页内容已经过滤完毕;在步骤507,控制模块102通知数据解析模块105对第一存储模块104中的数据进行解析;在步骤508,数据解析模块105从第一存储模块104中读取网页内容并进行解析,数据解析模块105在第一存储模块104中建立对象,然后将所述网页内容在第一存储模块104中转换为XML文件格式,然后对该XML文件进行分析,从中提取需要的数据;在步骤509,数据解析模块105将经过解析的数据存储到第二存储模块103中。参考图5,本发明的获取节目源信息的方法包括以下步骤在步骤601,在第一次执行获取某个网站的节目源信息的任务时,节目扩展搜寻模块202接收管理者输入的网页地址,节目扩展搜寻模块202判断所输入的地址是否跟第四存储模块201中的某个地址重复,若是,节目扩展搜寻模块202丢弃该网页地址并提示管理者重新输入,在非第一次执行获取某个网站的节目源信息的任务时,节目扩展搜寻模块202从第四存储模块201中读取网页地址,并将其发送给网页浏览器模块203 ;在步骤602,网页浏览器模块203在接收到节目扩展搜寻模块202发送的网页地址后根据网页地址获取网页的源代码;在步骤603,网页浏览器模块203将所获取的源代码存储到第三存储模块204中;在步骤604,在接收到规则文件后,过滤模块205从第三存储模块204中读取源代码并从源代码中识别出有用的内容;在步骤605,过滤模块205根据识别结果通知网页浏览器模块203下载与所述有用的内容中的链接地址对应的图片;在步骤606,在网页浏览器203把过滤模块205指定下载的图片下载完后,过滤模块205将该图片缓存到第一存储模块104中;在步骤607,过滤模块205 发送触发信号给控制模块102以通知有用的内容已经下载就绪;在步骤608,控制模块102 通知数据解析模块105对第一存储模块104中的数据进行解析;在步骤609,数据解析模块 105从第一存储模块104中读取网页内容并进行解析,数据解析模块105在第一存储模块 104中建立对象,然后将所述网页内容在第一存储模块104中转换为XML文件格式,然后对该XML文件进行分析,从中提取需要的数据;在步骤610,数据解析模块105将经过解析的数据存储到第二存储模块103中。以上描述了本发明的一些实施例,对本领域的普通技术人员来说,在不脱离本发明原理和精神的前提下,可以对发明做出一些修改或变换,对本发明的一些修改或变换均落在本发明的保护范围之内。
8
权利要求
1.一种获取节目源信息的装置,其特征在于,包括网页信息获取模块,其与互联网中的站点通信,用于获取网页上指定的内容; 第一存储模块,用于缓存所述网页信息获取模块获取的网页内容; 数据解析模块,用于对所述第一存储模块中缓存的所述网页内容进行解析; 第二存储模块,用于存储经过所述数据解析模块解析得到的节目源的信息; 控制模块,用于控制所述网页信息获取模块、所述第一存储模块、所述数据解析模块和所述第二存储模块的操作。
2.根据权利要求1所述的获取节目源信息的装置,其特征在于,所述数据解析模块具体用于在所述第一存储模块中建立对象,将所述网页内容转换为可扩展标记语言文件格式,然后对转换后得到的文件进行分析。
3.根据权利要求1所述的获取节目源信息的装置,其特征在于,所述网页信息获取模块还包括网页浏览器模块,用于向所述互联网中的站点发送请求并下载网页内容; 第三存储模块,用于缓存所述网页浏览器模块下载的所述网页内容; 过滤模块,用于从所述第三存储模块中读取网页内容并从中识别出有用的内容和/或无用的内容;节目扩展搜寻模块,用于扩展搜寻所述网页内容中的其它链接地址; 第四存储模块,用于存储所述节目扩展搜寻模块搜寻到的链接地址。
4.根据权利要求3所述的获取节目源信息的装置,其特征在于,所述节目扩展搜寻模块还用于判断所搜寻得到的链接地址中的域名跟指定的网站的域名是否一样和/或所述链接地址是否与所述第四存储模块中已经存储的某链接地址重复。
5.一种获取节目源信息的方法,其特征在于,包括以下步骤 网页信息获取模块与互联网中的站点通信并获取网页内容;第一存储模块缓存所述网页信息获取模块获取的所述网页内容; 数据解析模块对所述第一存储模块中的所述网页内容进行解析; 第二存储模块存储经过所述数据解析模块解析得到的节目源的信息; 控制模块总控所述网页信息获取模块、所述第一存储模块、所述数据解析模块和所述第二存储模块的操作。
6.根据权利要求5所述的获取节目源信息的方法,其特征在于,所述方法还包括以下步骤所述数据解析模块在所述第一存储模块中建立对象,将所述网页内容转换为可扩展标记语言文件格式,然后对转换后得到的文件进行分析。
7.根据权利要求5所述的获取节目源信息的方法,其特征在于,所述网页信息获取模块还包括网页浏览器模块、第三存储模块和过滤模块,所述方法还包括以下步骤所述网页浏览器模块向所述互联网中的站点发送请求并下载网页内容; 所述第三存储模块缓存所述网页浏览器模块下载的所述网页内容; 所述过滤模块从所述第三存储模块中读取网页内容并从中识别出有用的内容和/或无用的内容。
8.根据权利要求5所述的获取节目源信息的方法,其特征在于,所述网页信息获取模块还包括网页浏览器模块、第三存储模块和过滤模块,所述方法还包括以下步骤 所述网页浏览器模块向所述互联网中的站点发送请求并下载网页的源代码; 所述第三存储模块缓存所述网页浏览器模块下载的所述源代码; 所述过滤模块从所述第三存储模块中读取网页内容并从中识别出有用的内容和/或无用的内容;所述过滤模块通知所述网页浏览器模块下载指定的内容; 所述网页浏览器模块根据所述过滤模块的指示下载所述指定的内容; 所述过滤模块将所述网页浏览器模块下载的内容存储到所述第一存储模块中; 所述数据解析模块对所述第一存储模块中的所述有用的内容进行解析; 所述第二存储模块存储经过所述数据解析模块解析得到的节目源的信息。
9.根据权利要求7或8所述的获取节目源信息的方法,其特征在于,所述网页信息获取模块还包括节目扩展搜寻模块和第四存储模块,所述方法还包括以下步骤所述节目扩展搜寻模块扩展搜寻网页内容中的其它链接地址; 所述第四存储模块存储所述节目扩展搜寻模块搜寻到的链接地址。
10.根据权利要求9所述的获取节目源信息的方法,其特征在于,所述方法还包括以下步骤节目扩展搜寻模块判断所搜寻得到的链接地址中的域名跟指定的网站的域名是否一样和/或所述链接地址是否与第四存储模块中已经存储的某链接地址重复。
全文摘要
本发明涉及一种获取节目源信息的装置及方法,该装置包括网页信息获取模块,其与互联网中的站点通信,用于获取网页上指定的内容;第一存储模块,用于缓存所述网页信息获取模块获取的网页内容;数据解析模块,用于对所述第一存储模块中缓存的所述网页内容进行解析;第二存储模块,用于存储经过所述数据解析模块解析得到的节目源的信息;控制模块,用于控制所述网页信息获取模块、所述第一存储模块、所述数据解析模块和所述第二存储模块的操作。本发明的装置和方法能够自动地、及时地、准确地获知视频网站中更新的数据。
文档编号H04N21/4782GK102348136SQ20111012428
公开日2012年2月8日 申请日期2011年5月13日 优先权日2011年5月13日
发明者吴伟林, 杨克文, 童开宏 申请人:深圳市网合科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1