一种互联网元数据的分布式采集处理系统及方法

文档序号:6437743阅读:129来源:国知局
专利名称:一种互联网元数据的分布式采集处理系统及方法
技术领域
本发明涉及分布式系统领域,主要是一种互联网元数据的分布式采集处理系统及方法。
背景技术
随着三网融合的推行,越来越多的互联网应用被“搬”到了电视上。可以预见,随着互联网电视应用的爆炸式增长,用户个性化需求的日益深入,互联网信息会高度聚合经二次开发成为互联网电视上的增值应用,另外,互联网电视的操作方便性不及PC电脑和手机、互联网电视的界面内容容量也不及PC,这些因素都潜在地要求互联网电视上的实现更精准的站内搜索,而当前互联网上最流行的基于全文检索的搜索技术实现显然无法满足互联网电视领域的客观需求。另一方面,随着软件商业销售方式的演化,软件提供商正从原先的系统和产品提供商向平台服务提供商演化,IPTV也必然会从单纯的TV业务平台向面向服务的支撑平台演化,相应地,软件构架技术将从原先的面向产品向面向服务发展,软件即服务MaS(Software as a Service)成为互联网领域最重要的技术构架方式。目前IPTV对元数据的处理不够通用和开放,已有实现无法重用到互联网电视平台的站内精准搜索、互联网电视增值业务应用等领域。本发明以^aS为构架、以分布式计算为技术基础,为互联网海量元数据采集和处理提供通用的、开放式的分布式组件和服务。

发明内容
本发明的目的是为互联网电视业务支撑平台实现一种统一的、通用的、开放式的互联网元数据的分布式采集处理系统及方法,本发明能同时为多个互联网业务应用的互联网元数据采集和处理提供支撑服务,从而大大降低内容聚合型互联网应用的开发难度,缩短其开发周期、降低其部署和运营成本。本发明解决其技术问题采用的技术方案本发明提供了一种互联网元数据的分布式采集处理方法,该方法的具体步骤为(1)各业务应用系统通过互联网分布式元数据采集系统的配置管理模块配置提交元数据采集需求;(2)互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集任务调度程序(采集job)、生成的元数据可扩展标记语言(XML)文件;A读取各业务应用系统的元数据采集配置,归并各业务应用系统的元数据采集需求信息的输入元数据来源站点URL列表(Site URL List)和输出元数据映射(Meta Data Mapping);B以输入元数据来源站点URL列表(Site URL List)为入口,创建并执行抓取任务调度程序(抓取job),进行映射化简(Map Reduce)分布式处理,从因特网/企业内部网 (Internet/Intranet网)上抓取html页面内容、并结合元数据映射(Meta Data Mapping)过滤出有用的元数据源页面;C对元数据源页面进行映射化简(Map Reduce)分布式处理,根据元数据映射 (Meta Data Mapping)以及各业务应用系统的定义的元数据XSD结构定义,即Meta Data XML Schema Define,生成目标元数据可扩展标记语言(XML)文件;(3)互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成的元数据可扩展标记语言(XML)文件输出给各业务应用系统。更进一步的,所述业务应用系统元数据采集配置包括以下三个方面(1)元数据来源站点URL列表(Site URL List)定义业务应用系统的元数据将从哪些web站点去抓取;(2)元数据XSD 定义业务应用系统的元数据的可扩展标记语言(XML)结构;(3)元数据映射具体定义业务应用系统的元数据将从哪些URL的html源页面上提取、html源页面字段与目标元数据可扩展标记语言XML字段之间的xpath(—种用于在 XML文档中进行导航的语言)对应关系。更进一步的,在步骤B中抓取流程为以元数据来源站点URL列表(Site URL List)为初始入口、结合抓取历史记录(Fetch History),生成第一等级(level 1)的抓取列表(fetch list),然后在各分布式节点上创建并执行第一等级(level 1)的抓取任务 (task)根据抓取列表里的URL逐个抓取html页面,计算html页面内容的MD5值,在抓取历史中查找此URL的记录并比对MD5值A)若上次成功抓取过URL且MD5值与上次相同,则更新抓取历史记录(Fetch History)、延长此URL的抓取周期,然后直接进入下一 URL的抓取处理;B)若未成功抓取过URL或是MD5值与上次不同,则需要完成以下三步后再进入下一 URL的抓取处理Bi)若当前抓取等级(fetch level)小于系统的最大抓取等级(max fetch level),则需解析出此html里的超链接link ;B2)如果当前URL与元数据映射中的元数据映射单元(MetadataMappingUnit)的统一资源定位符前缀(URLPrefix)属性匹配,则将此URL及html页面内容放入元数据源 (Meta Data Source) φ ;Β3)追加/更新抓取历史(Fetch History)记录,包括以下信息URL,抓取等级 (fetch level),最近抓取状态,最近抓取时间,抓取周期,下次抓取时间=最近抓取时间+ 抓取周期;第一等级(level 1)的抓取任务(task)完成后,抓取任务(task)将返回解析 html所得的超链列表Qitml link list),抓取任务调度程序(抓取job)将根据超链列表 (html link list)、结合抓取历史记录(Fetch History)形成第二等级(level 2)的抓取列表(fetch list),创建并执行下一个等级(next level)的抓取任务调度程序(抓取job), 依此迭代,直到达到系统指定的最大抓取等级(max level)才结束本轮抓取。更进一步的,所述步骤C包括如下步骤1)从元数据源(Metadata Source)获取一 html页面内容,将html格式化为可扩展标记语言格式Uml),根据xpath来读取指定节点值;2)根据页面的URL在元数据映射定义(Metadata Mapping)中查找对应的元数据映射单元(MetadataMappingUnit),对每个匹配的元数据映射单元(MetadataMappingUnit) 做如下步骤幻至步骤6)处理3)根据元数据映射单元(MetadataMappingUnit)的每一顶的源 xpath(itemSourceXpath)值,对源html页面按xpath中获取到一个节点列表(Node列表);4)结合业务应用系统的元数据可扩展标记语言XML结构定义元数据 XSD(Metadata XSD),将步骤3)得到的节点列表(Node列表)中的每一列转换为一个元数据XML对象;5)根据元数据映射单元(MetadataMappingUnit)的字段映射(FieldMappings) 定义,为元数据XML对象的各字段赋值如果指定了期望关联的页面url地址 (relevantPageURLExp),则根据期望关联的页面url地址(relevantPageURLExp)得出相关页面URL并抓取相关页面;根据期望的源xpath (sourceXpathExp)从源页面或源页面的相关页面中得到xpath所对应的节点值;如果指定了期望的值格式化(valuei^ormatExp),则进一步对得到的节点值进行格式化处理;将节点值赋给目标xpath(targetXpath)所指定的元数据可扩展标记语言对象(XML对象)的对应字段上;6)将元数据可扩展标记语言对象(XML对象)序列化为可扩展标记语言(XML)文件并按应用程序唯一编码applD分目录存储;7)从元数据源(Metadata Source)中删除此html页面;8)重复步骤1)至步骤7,直至元数据源(Metadata Source)为空。本发明所述的这种互联网元数据的分布式采集处理系统,该系统包括配置管理图形用户接口(GUI)模块、元数据采集组件模块和元数据输出模块,其中,配置管理图形用户接口(⑶I)模块为业务应用系统的元数据采集配置提供图形用户接口(GUI)界面,采集分布式组件参数配置,元数据采集和输入日志查看;元数据采集组件模块元数据采集的分布式组件,读取各业务应用系统的元数据采集配置,周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言(XML)文件;元数据输出模块负责将元数据可扩展标记语言(XML)文件输出给各业务应用系统。本发明有益的效果是为互联网的元数据采集提供了通用、开放式的分布式组件和服务,通过实现通用的海量元数据的采集组件和系统,为进一步实现互联网电视的站内精准搜索、内容聚合型应用的垂直搜索提供统一规范的数据源。


图1为本发明互联网分布式元数据采集系统的基本模块结构图;图2为本发明互联网分布式元数据采集组件的基本流程原理图;图3为本发明互联网分布式元数据采集组件的页面抓取流程图;图4为本发明互联网分布式元数据采集组件的元数据XML生成流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合举例,对本发明进行进一步详细说明。应当理解,此处所描述的举例仅仅用以解释本发明,并不用于限定本发明。如图1所示,为本发明互联网分布式元数据采集系统的基本模块结构图,本实施例包括以下模块和步骤步骤1 各业务应用系统通过互联网分布式元数据采集系统的配置管理(⑶I)模块配置提交元数据采集需求;业务应用系统元数据采集配置主要包括以下三个方面 元数据来源站点URL列表(Site URL List)定义业务应用系统的元数据将从哪些web站点去抓取; 元数据XSD (Metadata XML Schema Define)定义业务应用系统的元数据的XML 结构; 元数据映射(Meta data Mapping)具体定义业务应用系统的元数据将从哪些 url的html源页面上提取、html源页面字段与目标元数据XML字段之间的xpath对应关系元数据映射(Metadata Mapping)以 XML 方式定义,其 XSD (XML Schema Define)
如下< xml version = "1.0" encoding = "UTF 8" >
<xs:schema xmlns:xs = "http://www.w3.org/2001/XMLSchema" elementFormDefault= "qualified" attribute Form Defa ult="unqualified">
<xs: element name="MetadataMapping"> <xs:an 门 otation>
<xs: documentation >元数据映射定义 </xs: documentation〉
</xs:annotation> <xs:complexType> <xs:seque 门 ce>
<xs: element name= "MetadataMappingUnit" type= "MetadataMappingUnit"
maxOccurs= "unbounded "> <xs:an 门 otation>
<xs: documentation > 元数据映射单元 </xs: documentation〉 </xs:annotation> </xs:element> </xs:seque 门 ce> </xs:complexType> </xs:element> <xs:complexType name="MetadataMappingUnit"> <xs:complexType name="FieldMappings"> <xs:a 门门 otation><xs: documentation > 元数据字段映射 </xs: documentation〉
</xs:annotation> <xs:sequence>
<xs:element name= "relevantPagellrlExp'' type="xs:string'' min0ccurs="0"> <xs:annotation>
<xs:documentation>ffi关页面 URL 表达式</xs:documentation> </xs:annotation> </xs:element>
<xs:element name="sourceXpathExp" type="xs:string "> <xs:annotation>
<xs:documentation>字段值来源xpath 表达式</xs:documentation〉 </xs:annotation> </xs:element>
<xs:element name="valueFormatExp'' type="xs:string" min0ccurs = "0"> <xs:annotation>
<xs: documentation > 字段值格式化表达式 </xs: documentation〉 </xs:annotation> </xs:element> <xs:element name="targetXpath" type="xs:string"> <xs:annotation>
<xs: documentation >字段目标 xpath </xs: documentation > </xs:annotation> </xs:element> </xs:sequence> </xs:complexType> <xs:complexType name= 'MetadataItemType"> <xs:sequence>
<xs:element name= "itemSourceXpath" type="xs:string ">
<xs:annotation>
<xs: documentation〉)^应的源 xpath </xs: documentation > </xs:annotation></xs:element>
<xs:element name="FieldMappings" type="FieldMappings" maxOccurs="unbounded"> <xs:a 门 notation〉
<xs: documentation > 字段映 If </xs: documentation〉 </xs:annotation> </xs:element> </xs:sequence> </xs:complexType>
</xs:schema>可以定义1至多个映射单元(MetadataMappingUnit),映射单元决定了从web站点抓取到的哪些页面将成为元数据源(Metadata Source) :ur 1与映射单元 (MetadataMappingUnit)的urlPref ix字段值匹配的html页面被转换为业务应用系统的元数据XML文件,而映射单元(MetadataMappingUnit)的元数据项(Metadataltem)则描述了 html页面转换为元数据XML文件的具体规则根据每一项的源Xpath (UemSourceXpath)从html源页面获取到元数据节点列表(Node List),该列表中的每一项将对应生成一个元数据XML,元数据XML的字段值则是在一至多个字段映射(Fi el (!Mappings)中具体定义targetXpath表示元数据目标字段; relevantPageUrlExp若指定此项,表示此元数据目标字段值不是来源于当前html、而是来源于一个与当前html页面相关的html页面;sourceXpathExp 表示此元数据目标字段值是根据这里指定的xpath表达式去获取,如果指定了 relevantPagetolExp,则xpath是相关页面的xpath,若未指定relevantPagetolExp,则xpath是当前页面的xpath、如果是相对 xpath,则是相对于itemSourceXpath的;valuei^ormatExp则是定义了如何对值进行格式化处理。总之,元数据源html页面与元数据目标XML可以是多对多的映射关系一个元数据源html页面可以生成一或多个元数据XML文件,一个元数据XML的字段值也可以来源于一个以上的html页面。另外,业务应用系统元数据采集配置也包括配置元数据XM L文件输出给业务应用系统的方式S0AP或FTP。步骤2 互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集的任务调度程序(job)、元数据XML生成job ;具体流程设计见下面关于图2的说明;步骤3 互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成的元数据XML文件输出给各业务应用系统;输出模块将按应用系统指定的方式S0AP或FTP,逐个或是打包发送给业务应用系统。如图2所示,为本发明互联网分布式元数据采集组件的基本流程原理图,本实施例包括以下步骤步骤1 读取各业务应用系统的元数据采集配置,归并各业务应用系统的元数据采集配置信息的输入(Site URL List)和输出(Meta Data Mapping);不同业务应用系统可能对同一 Site的页面有抓取需求,归并输入可以最大程度地减少元数据采集组件对同一 Site的页面请求次数;归并输出可以对元数据源页面进行集中的解析和转换处理,有效提升元数据采集系统的吞吐率;步骤2 以元数据来源站点URL列表(Site URL List)为初始入口,创建并执行抓取任务调度程序(抓取job),进行映射化简(Map Reduce)分布式处理,从hternet/ htranet网上抓取html页面内容、并结合元数据映射(Meta Data Mapping)定义过滤出有用的元数据源页面;元数据采集分布式组件周期性地创建并执行抓取job,如图3所示,元数据采集组件的抓取流程为以元数据来源站点URL列表(Site URL List)为初始入口、结合抓取历史记录(Fetch History),生成第一等级(level 1)的抓取列表(fetch list),然后在各分布式节点上创建并执行第一等级(level 1)的抓取任务(task)根据抓取列表(fetch list)里的url逐个抓取html页面,计算html页面内容的 MD5值,在抓取历史记录(Fetch History)中查找此url的记录并比对MD5值A)若上次成功抓取过url且MD5值与上次相同,则更新抓取历史i^etch History、 延长此url的抓取周期,然后直接进入下一 url的抓取处理;B)若未成功抓取过url或是MD5值与上次不同,则需要完成以下三步后再进入下一 url的抓取处理Bi)若当前抓取等级(fetch level)小于系统最大抓取等级(max fetch level), 则需解析出此html里的超链接(link);B2)如果当前url与元数据映射(Metadata Mapping)中的元数据映射单元 (MetadataMappingUnit)的urlPrefix属性匹配,则将此url及html页面内容放入元数据 iH (Meta Data Source) ψ ;Β3)追加/更新抓取历史(Fetch History)记录,包括以下信息url,抓取等级 (fetch level),最近抓取状态,最近抓取时间,抓取周期,下次抓取时间=(最近抓取时间 +抓取周期);第一等级(level 1)的抓取任务(task)完成后,抓取任务(task)将返回解析 html所得的超链列表Qitml link list),抓取任务调度程序(抓取job)将根据超链列表 (html link list)、结合抓取历史记录(Fetch History)形成第二等级(level 2)的抓取列表(fetch list),创建并执行下一个等级(next level)的抓取任务调度程序(抓取job), 依此迭代,直到达到系统指定的最大抓取等级(max level)才结束本轮抓取。步骤3 创建元数据生成job,对元数据源(Metadata Source)进行映射化简(Map Reduce)分布式处理,根据元数据映射定义(Meta Data Mapping)以及各业务应用系统的定义的元数据XML定义XSD(Meta Data XML Schema Define)生成目标元数据XML文件。如图4所示,元数据生成步骤为1)从元数据源(Metadata Source)获取一 html页面内容,将html格式化为可扩展标记语言格式(xml),以方便根据xpath来读取指定节点值;2)根据页面的URL在元数据映射定义(Metadata Mapping)中查找对应的元数据映射单元(MetadataMappingUnit),对每个匹配的元数据映射单元(MetadataMappingUnit) 做如下步骤幻至步骤6)处理3)根据元数据映射单元(MetadataMappingUnit)的每一顶的源 xpath(itemSourceXpath)值,对源html页面按xpath中获取到一个节点列表(Node列表);4)结合业务应用系统的元数据可扩展标记语言XML结构定义元数据 XSD(Metadata XSD),将步骤3)得到的节点列表(Node列表)中的每一列转换为一个元数据XML对象;5)根据元数据映射单元(MetadataMappingUnit)的字段映射(FieldMappings) 定义,为元数据XML对象的各字段赋值如果指定了期望关联的页面url地址 (relevantPageURLExp),则根据期望关联的页面url地址(relevantPageURLExp)得出相关页面URL并抓取相关页面;根据期望的源xpath (sourceXpathExp)从源页面或源页面的相关页面中得到xpath所对应的节点值;如果指定了期望的值格式化(valuei^ormatExp),则进一步对得到的节点值进行格式化处理;将节点值赋给目标xpath(targetXpath)所指定的元数据可扩展标记语言对象(XML对象)的对应字段上;6)将元数据可扩展标记语言对象(XML对象)序列化为可扩展标记语言(XML)文件并按应用程序唯一编码applD分目录存储;7)从元数据源(Metadata Source)中删除此html页面;8)重复步骤1)至步骤7,直至元数据源(Metadata Source)为空。该发明为元数据的采集提供了通用的、海量数据的分布式处理方法,为IPTV、互联网电视平台实现站内搜索提供统一格式的元数据,为第三方开发内容聚合型互联网电视增值应用提供了必要的支撑服务,从而降低第三方开发互联网增值应用的门槛和难度、缩短其开发周期。术语解释SaaS软件即服务或软件运营URL统一资源定位符Site URL List元数据来源站点URL列表Meta Data Mapping 元数据映射Map Reduce映射化简Internet/Intranet 因特网/企业内部网Xml可扩展标记语言XSD全称 XML khemas Definition (xml 结构定义)Meta Data XML Schema Define元数据 xml 结构定义Xpath一种用于在XML文档中进行导航的
;五 ta πFetch History抓取历史fetch list抓取列表task抓取任务level 1抓取第一等级0099]MD5消息摘要算法第五版0100]fetch level抓取等级0101]max fetch level最大抓取等级0102]link超链接0103]MetadataMappingUnit元数据映射单元0104]urlPrefix统一资源定位符前缀0105]Meta Data Source元数据源0106]html link list超链列表0107]抓取job抓取任务调度程序0108]next level下一个等级0109]Metadata Mapping数据映射定义0110]itemSourceXpath每一项的源xpath0111]Node列表节点列表0112]Metadata XSD元数据xsd0113]FieldMappings字段映射0114]re1evantPageUrIExp期望关联的页面url地址0115]sourceXpathExp期望的源xpath0116]valueFormatExp期望的值格式化0117]targetXpath目标xpath0118]applD应用程序唯一编码0119]GUI图形用户接口0120]采集job采集的任务调度程序0121]Metadataltem元数据项0122]Node List节点列表0123]SOAP简单对象访问协议0124]FTP文件传输协议0125]可以理解的是,对本领域技术人员来说,对本发明的技术方案及发明构思加以等
同替换或改变都应属于本发明所附的权利要求的保护范围。
权利要求
1.一种互联网元数据的分布式采集处理方法,其特征是该方法的具体步骤为(1)各业务应用系统通过互联网分布式元数据采集系统的配置管理模块配置提交元数据采集需求;(2)互联网分布式元数据采集系统的元数据采集组件模块周期性地创建和执行页面采集任务调度程序、生成的元数据可扩展标记语言文件;A读取各业务应用系统的元数据采集配置,归并各业务应用系统的元数据采集需求信息的输入元数据来源站点URL列表和输出元数据映射;B以输入元数据来源站点URL列表为入口,创建并执行抓取任务调度程序,进行映射化简分布式处理,从因特网/企业内部网上抓取html页面内容、并结合元数据映射过滤出有用的元数据源页面;C对元数据源页面进行映射化简分布式处理,根据元数据映射以及各业务应用系统的定义的元数据结构定义,生成目标元数据可扩展标记语言文件;(3)互联网分布式元数据采集系统的元数据输出模块将元数据采集组件生成的元数据可扩展标记语言文件输出给各业务应用系统。
2.根据权利要求1所述的互联网元数据的分布式采集处理方法,其特征是所述业务应用系统元数据采集配置包括以下三个方面(1)元数据来源站点URL列表定义业务应用系统的元数据将从哪些web站点去抓取;(2)元数据结构定义定义业务应用系统的元数据的可扩展标记语言结构;(3)元数据映射具体定义业务应用系统的元数据将从哪些URL的html源页面上提取、 html源页面字段与目标元数据可扩展标记语言字段之间的xpath对应关系。
3.根据权利要求1所述的互联网元数据的分布式采集处理方法,其特征是在步骤B 中抓取流程为以元数据来源站点URL列表为初始入口、结合抓取历史记录,生成第一等级的抓取列表,然后在各分布式节点上创建并执行第一等级的抓取任务根据抓取列表里的URL逐个抓取html页面,计算html页面内容的MD5值,在抓取历史中查找此URL的记录并比对MD5值若上次成功抓取过URL且MD5值与上次相同,则更新抓取历史记录、延长此URL的抓取周期,然后直接进入下一 URL的抓取处理;若未成功抓取过URL或是MD5值与上次不同,则需要完成以下三步后再进入下一 URL 的抓取处理Bi)若当前抓取等级小于系统的最大抓取等级,则需解析出此html里的超链接;B2)如果当前URL与元数据映射中的元数据映射单元的统一资源定位符前缀属性匹配,则将此URL及html页面内容放入元数据源中;B3)追加/更新抓取历史记录,包括以下信息URL,抓取等级,最近抓取状态,最近抓取时间,抓取周期,下次抓取时间=最近抓取时间+抓取周期;第一等级的抓取任务完成后,抓取任务将返回解析html所得的超链列表,抓取任务调度程序j将根据超链列表、结合抓取历史记录形成第二等级的抓取列表,创建并执行下一个等级的抓取任务调度程序,依此迭代,直到达到系统指定的最大抓取等级才结束本轮抓取。
4.根据权利要求1所述的互联网元数据的分布式采集处理方法,其特征是所述步骤C包括如下步骤1)从元数据源获取一html页面内容,将html格式化为可扩展标记语言格式,根据 xpath来读取指定节点值;2)根据页面的URL在元数据映射定义中查找对应的元数据映射单元,对每个匹配的元数据映射单元做如下步骤3)至步骤6)处理3)根据元数据映射单元的每一顶的源xpath值,对源html页面按xpath中获取到一个节点列表;4)结合业务应用系统的元数据可扩展标记语言结构定义元数据XSD,将步骤3)得到的节点列表中的每一列转换为一个元数据可扩展标记语言对象;5)根据元数据映射单元的字段映射定义,为元数据可扩展标记语言对象的各字段赋值如果指定了期望关联的页面url地址,则根据期望关联的页面url地址得出相关页面 URL并抓取相关页面;根据期望的源xpath从源页面或源页面的相关页面中得到xpath所对应的节点值;如果指定了期望的值格式化,则进一步对得到的节点值进行格式化处理; 将节点值赋给目标xpath所指定的元数据可扩展标记语言对象的对应字段上;6)将元数据可扩展标记语言对象序列化为可扩展标记语言文件并按应用程序唯一编码分目录存储;7)从元数据源中删除此html页面;8)重复步骤1)至步骤7),直至元数据源为空。
5. 一种采用如权利要求1所述互联网元数据的分布式采集处理方法的系统,其特征是该系统包括配置管理图形用户接口模块、元数据采集组件模块和元数据输出模块,其中,配置管理图形用户接口模块为业务应用系统的元数据采集配置提供图形用户接口界面,采集分布式组件参数配置,元数据采集和输入日志查看;元数据采集组件模块元数据采集的分布式组件,读取各业务应用系统的元数据采集配置,周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言文件;元数据输出模块负责将元数据可扩展标记语言文件输出给各业务应用系统。
全文摘要
本发明涉及一种互联网元数据的分布式采集处理系统及方法,该系统包括配置管理图形用户接口模块、元数据采集组件模块和元数据输出模块,配置管理图形用户接口模块采集分布式组件参数配置,元数据采集和输入日志查看;元数据采集组件模块读取各业务应用系统的元数据采集配置,周期性地创建并分布式执行采集任务调度程序、生成各业务应用系统的所需要的元数据可扩展标记语言文件;元数据输出模块负责将元数据可扩展标记语言文件输出给各业务应用系统。本发明有益的效果是:为互联网的元数据采集提供了通用、开放式的分布式组件和服务,为进一步实现互联网电视的站内精准搜索、内容聚合型应用的垂直搜索提供统一规范的数据源。
文档编号G06F17/30GK102521232SQ20111035149
公开日2012年6月27日 申请日期2011年11月9日 优先权日2011年11月9日
发明者万超, 付文敬, 杨细强 申请人:Ut斯达康通讯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1