延伸标记语言文件的数据撷取方法及装置的制作方法

文档序号:6598701阅读:247来源:国知局
专利名称:延伸标记语言文件的数据撷取方法及装置的制作方法
技术领域
本发明涉及一种延伸标记语言文件的数据撷取方法及装置,尤其涉及一种可重复 使用并大幅提升使用效率的延伸标记语言文件的数据撷取方法及装置。
背景技术
近年来,由于互联网的兴盛,几乎所有数据都必须通过网络传递。其中,基于延伸 标记语言文件优越的跨平台特性及信息涵意表达能力,大部分的传输皆经由延伸标记语言 文件完成。然而,即便各个网站皆使用延伸标记语言文件存储数据,对于具有相同意义的元 素,不同网站所使用的标签却不尽相同。举例而言,请参考图1及图2,图1及图2分别为 一延伸标记语言文件10及一延伸标记语言文件20的内容示意图。延伸标记语言文件10 与延伸标记语言文件20所具有的元素及架构完全相同,但前者将标示书籍列表的标签命 名为〈Books〉,后者命名为〈Booklist〉。当使用者试图从延伸标记语言文件10撷取出XML guidelines 及 HTML guidelines 这两个元素时,使用者必须沿 <Books>\<Book>\<Name> 的路径撷取;相对地,当使用者试图从延伸标记语言文件20撷取出XML guidelines及 HTMLguidelines这两个元素时,则必须沿<Booklist>\<Book>\<Name>的路径撷取。也就是 说,为求正确地撷取延伸标记语言文件的内容,对于延伸标记语言文件10及延伸标记语言 文件20必须采取两套不同的作法。除了标签命名的不同外,一般而言,不同网站所提供的延伸标记语言文件的 结构也有很大的差异。举例而言,请同时参考图1及图3,图3为一延伸标记语言文 件30的示意图。其中,标示书籍列表的标签,在延伸标记语言文件10及延伸标记语 言文件30中皆为〈Books〉,延伸标记语言文件10及延伸标记语言文件30的书籍部 分所具有的元素亦完全相同,但两份文件的结构有所不同。当使用者试图从延伸标 记语言文件10撷取出XMLguidelines及HTML guidelines这两个元素时,使用者同 样必须沿<B00kS>\<B00k>\<Name>的路径撷取;相对地,当使用者试图从延伸标记 语言文件30撷取出XML guidelines及HTML guidelines这两个元素时,则必须沿 <2009>\<Books>\<Book>\<Name>的路径撷取。也就是说,为求正确地撷取延伸标记语言文 件的内容,对于延伸标记语言文件10及延伸标记语言文件30,使用者亦须采取两套不同的 作法。换句话说,为求正确地撷取延伸标记语言文件的内容,使用者必须针对使用不同标签 的网站采取不同的作法,因而造成许多资源的浪费、以及效率的低落,实有改进的必要。

发明内容
因此,本发明的主要目的即在于提供一可重复使用的延伸标记语言文件的数据撷 取方法及装置。本发明公开一种数据撷取方法,用来通过互联网取得数据,该数据撷取方法包含 有根据一使用者指令,自一服务器端取得一延伸标记语言文件,该延伸标记语言文件包含 多个元素(Element)对应于多个标签(Tag),该使用者指令用来取得该延伸标记语言文件中一特定元素;对该延伸标记语言文件进行格式分析,以产生一格式分析结果;根据该格 式分析结果,由多个模板(template)中选取一模板,该模板用来指示该多个标签的内容; 以及通过该模板,由该延伸标记语言文件中取得该特定元素。本发明另公开一种数据撷取装置,用来通过互联网取得数据,该数据撷取装置包 含有一微处理器;以及一存储器,用来存储一程序,该程序用来指示该微处理器执行以下步 骤根据一使用者指令,自一服务器端取得一延伸标记语言文件,该延伸标记语言文件包含 多个元素对应于多个标签,该使用者指令用来取得该延伸标记语言文件中一特定元素;对 该延伸标记语言文件进行格式分析,以产生一格式分析结果;根据该格式分析结果,由多个 模板中选取一模板,该模板用来指示该多个标签的内容;以及通过该模板,由该延伸标记语 言文件中取得该特定元素。


图1为已知一延伸标记语言文件的示意图。图2为已知一延伸标记语言文件的示意图。图3为已知一延伸标记语言文件的示意图。图4为本发明实施例一数据撷取流程的示意图。图5为本发明实施例一格式分析结果的示意图。图6为本发明实施例一模板的功能示意图。主要元件符号说明10、20、30延伸标记语言文件40数据撷取流程50格式分析结果60模板<Books>、 <Book>、 <Name>> <Author>> <Price>、 〈Booklist〉、 <2009〉、 <CDs>、 <Singer> 标签
具体实施例方式为改善已知延伸标记语言文件的数据撷取程序,本发明通过一特定模板指示标签 内容,使得用来取得该延伸标记语言文件中一特定元素的一使用者指令与一标签产生关 联,以由该延伸标记语言文件中取得对应于该标签的该特定元素。首先,请参考图4,图4为 本发明实施例一数据撷取流程40的示意图。数据撷取流程40用来撷取一延伸标记语言文 件中一特定元素,其包含以下步骤步骤400:开始。步骤402 根据一使用者指令,自一服务器端取得该延伸标记语言文件。步骤404 对该延伸标记语言文件进行格式分析,以产生一格式分析结果。步骤406 根据该格式分析结果,由多个模板中选取一模板。步骤408 通过该模板,由该延伸标记语言文件中取得一特定元素。步骤410:结束。根据数据撷取流程40,本发明根据使用者指令,自一服务器端取得延伸标记语言文件,再通过格式分析,选取对应的模板,进而取得延伸标记语言文件中一特定元素。在数据撷取流程40中,使用者指令包含两部分,一为延伸标记语言文件的名称, 另一为使用者欲取得的元素的名称。依据使用者指令取得延伸标记语言文件后,本发明 (步骤404)进一步对延伸标记语言文件进行格式分析,以产生格式分析结果。此格式分析 步骤可将延伸标记语言文件中的所有标签转换为一树状结构,其运作方式系业界所熟知, 以下仅简述之。首先,将延伸标记语言文件内每一标签作为一节点(Node),以初始的标签作 为根节点(Root),依循将文件内夹于同一标签内的多个标签视为同一阶层,并以后者为前 者之下一阶层的规则,逐一将延伸标记语言文件的标签转换为具有多个阶层化节点的树状 结构。换句话说,树状结构包含多个节点,每一节点对应于一标签。举例来说,请参考图5,图 5为本发明实施例一格式分析结果50的示意图。格式分析结果50根据本发明对图1的延 伸标记语言文件10进行格式转换而得;其中,格式分析结果50的根节点为标签〈Books〉, 下一阶层包含两个具有相同标签<Book>的节点,再下一阶层则包含六个分别具有<Name>、 <Author>,<Price>标签的节点。也就是说,格式分析结果50为一三层式的树状结构,亦即 延伸标记语言文件10具有三层式的结构。接着,根据格式分析结果,可得知该延伸标记语言文件的结构。据此,本发明(步 骤406)由多个预设模板中选取适当模板,用以指示延伸标记语言文件中标签的内容。举 例来说,前述格式分析结果50为三层式的树状结构,延伸标记语言文件10具有三层式的 结构,则应自预设模板中,选取一三层式的模板。同时,就延伸标记语言文件10而言,应选 择预设为撷取书籍数据,并具有能力判断类似于<Book>、<Name>,〈Author〉、〈Price〉等标 签的模板,如具有能力判断类似于<Book>、<Name>,〈Author〉、〈Price〉等标签,以及类似于 <Booklist>、<Title>、Ofriter>、<Price>等标签之一三层式模板60,如图6所示,使得延伸 标记语言文件10中任一标签及其对应的任一节点皆可被适当地定义。详言之,就延伸标记 语言文件10中的<Book>标签而言,模板60根据其对应的节点位于树状结构的第二层,以 及<Book>的标签命名,确认延伸标记语言文件10中的<Book>标签系用于标示个别书籍, 其下层应具有类似于 <Name>、〈Author〉、<Price> 或〈Title〉、<ffriter>, <Price> 等标签; 同理,就延伸标记语言文件10中的<Name>标签而言,模板60根据其对应的节点位于树状 结构的第三层,以及<Name>的标签命名,确认延伸标记语言文件10中的<Name>标签系用 于标示个别书籍的名称,同一层应具有类似于〈Author〉、<Price>或OVriter〉、<Price>等 标签。也就是说,本发明根据延伸标记语言文件的结构以及文件内容的分类选取模板60,而 模板60则通过延伸标记语言文件中标签的命名及标签所对应的节点位置,综合判断标签 及其对应的元素在延伸标记语言文件中所代表的意义。进一步地,通过模板60,本发明可由延伸标记语言文件中取得使用者指令所要求 的特定元素,其运作方式系先判断元素名称,再通过模板60,取得所有节点中对应于该元素 的节点,据此,可判断该节点所对应的标签,以由延伸标记语言文件中取得对应的元素,即 使用者指令所要求的特定元素。由此可知,在本发明中,模板不仅可定义延伸标记语言文件中任一标签及其对应 的任一节点,尚可定义前述使用者指令所要求的特定元素的名称,并将之对应至格式分析 结果的一特定节点。举例而言,模板60得将类似于〈Title〉的特定元素名称,对应至格式 分析结果50中具有<Name>标签的特定节点以及延伸标记语言文件10中的<Name>标签。在此,模板60仅根据特定元素名称的命名,即可指向前述已定义好的格式分析结果50的特 定节点。此目的可通过额外的特定元素名称表等方法达成,为本领域技术人员所熟知,而不 限于此。进一步地,本发明判断该节点所对应的一标签,以由延伸标记语言文件中取得对 应于该标签的元素。也就是说,前述格式分析结果50中的特定节点对应于<Name>标签,则 可由延伸标记语言文件10中,取得具有<Name>标签的元素。需注意的是,模板60及其判断各标签及对应元素的方法仅为本发明的一实施例, 不以此为限。同时,本发明的精神在于通过模板定义延伸标记语言文件的标签及对应的元 素。本领域技术人员可进一步依不同需求,得出适当的模板及判断各标签及对应的元素的 方法。如此一来,通过不同模板的选取,本发明可重复用于不同延伸标记语言文件的数据 撷取。也就是说,本发明也可撷取前述延伸标记语言文件20及延伸标记语言文件30中的 特定数据。例如,如果使用者欲取得延伸标记语言文件20中有关书籍作者的数据,而输入 包含延伸标记语言文件20的文件名称及<feiter>的特定元素名称的使用者指令,本发明 首先通过格式分析认定延伸标记语言文件20为一具有三层式的结构,则应自预设模板中, 选取一三层式的模板。同时,就延伸标记语言文件20而言,应选择预设为撷取书籍数据, 并具有能力判断类似于<Book>、<Name>,〈Author〉、〈Price〉等标签的模板,如具有能力判 断类似于 <Book>、<Name>、〈Author〉、<Price> 等标签,以及类似于〈Booklist〉、〈Title〉、 <Writer>, <Price>等标签之一三层式模板,即前述的模板60,并产生一格式分析结果。接 着,模板60将使用者指令中的〈Writer〉,对应至该格式分析结果中具有〈Author〉标签的 特定节点以及延伸标记语言文件20中的〈Author〉标签。也就是说,除了本发明,模板60 也可用于不同延伸标记语言文件的数据撷取,显然有助于使用效率的增进。至于延伸标记 语言文件30,应选取一四层式的模板,其亦预设为撷取书籍数据,并具有判断相关标签的能 力。其余部分的运作以此类推。此种衍生应为本领域技术人员可轻易完成,且本领域技术 人员可进一步依不同需求,得出各式不同的模板。另一方面,在硬件实现方面,可以软件、固件等方式,将数据撷取流程40转换为一 程序,并存储于一存储器中,以指示一微处理器执行数据撷取流程40的步骤。此等将数据 撷取流程40转换为适当程序以实现对应的数据撷取装置,应为本领域技术人员所熟习的 技艺。如前所述,已知技术为因应延伸标记语言文件的标签名称及结构的不同,使用者 必须针对使用不同标签的网站采取不同的作法以正确地撷取延伸标记语言文件的内容。相 较之下,本发明通过格式分析选择适当的模板,并建立延伸标记语言文件标签及使用者输 入欲取得的特定元素名称间的连结,使得本发明得重复用于不同延伸标记语言文件的数据 撷取,不受浏览器及开发环境的限制。综上所述,本发明通过选择适当的模板,定义延伸标记语言文件的标签及对应的 元素,并建立延伸标记语言文件标签及使用者输入欲取得的特定元素名称间的连结,使得 使用者得以在不知该延伸标记语言文件的标签的状况下,取得该延伸标记语言文件的特定 元素。因此,本发明得重复用于不同延伸标记语言文件的数据撷取,不受浏览器及开发环境 的限制,并大幅增进使用效率。以上所述仅为本发明的优选实施例,凡依本发明权利要求书所做的均等变化与修饰,皆应属本发明的涵盖范围。
权利要求
1.一种数据撷取方法,用来通过互联网取得数据,该数据撷取方法包含有根据一使用者指令,自一服务器端取得一延伸标记语言文件,该延伸标记语言文件包 含多个元素对应于多个标签,该使用者指令用来取得该延伸标记语言文件中一特定元素; 对该延伸标记语言文件进行格式分析,以产生一格式分析结果; 根据该格式分析结果,由多个模板中选取一模板,该模板用来指示该多个标签的内容;以及通过该模板,由该延伸标记语言文件中取得该特定元素。
2.如权利要求1所述的数据撷取方法,其中对该延伸标记语言文件进行格式分析,以 产生该格式分析结果的步骤,包含有将该延伸标记语言文件的该多个标签转换为一树状结构,作为该格式分析结果,该树 状结构包含多个节点,每一节点对应于该多个标签的一标签。
3.如权利要求2所述的网站数据解析方法,其中通过该模板,由该延伸标记语言文件 中取得该特定元素的步骤,包含有根据该使用者指令,判断该特定元素的名称;根据该特定元素的名称,通过该模板,取得该多个节点中对应于该特定元素的一节点;以及判断该节点所对应的一标签,以由该延伸标记语言文件中取得对应于该标签的该特定 元素。
4.如权利要求2所述的数据撷取方法,其还包含存储该树状结构。
5.一种数据撷取装置,用来通过互联网取得数据,该数据撷取装置包含有 一微处理器;以及一存储器,用来存储一程序,该程序用来指示该微处理器执行以下步骤 根据一使用者指令,自一服务器端取得一延伸标记语言文件,该延伸标记语言文件包 含多个元素对应于多个标签,该使用者指令用来取得该延伸标记语言文件中一特定元素; 对该延伸标记语言文件进行格式分析,以产生一格式分析结果; 根据该格式分析结果,由多个模板中选取一模板,该模板用来指示该多个标签的内容;以及通过该模板,由该延伸标记语言文件中取得该特定元素。
6.如权利要求5所述的数据撷取装置,其中对该延伸标记语言文件进行格式分析,以 产生该格式分析结果的步骤,包含有将该延伸标记语言文件的该多个标签转换为一树状结构,作为该格式分析结果,该树 状结构包含多个节点,每一节点对应于该多个标签的一标签。
7.如权利要求6所述的数据撷取装置,其中通过该模板,由该延伸标记语言文件中取 得该特定数据的步骤,包含有根据该使用者指令,判断该特定元素的名称;根据该特定元素的名称,通过该模板,取得该多个节点中对应于该特定元素的一节点;以及判断该节点所对应的一标签,以由该延伸标记语言文件中取得对应于该标签的该特定 元素。
8.如权利要求6所述的数据撷取装置,其还包含存储该树状结构。
全文摘要
延伸标记语言文件的数据撷取方法及装置。该数据撷取方法用来通过互联网取得数据,其包含有根据一使用者指令,自一服务器端取得一延伸标记语言文件,该延伸标记语言文件包含多个元素(Element)对应于多个标签(Tag),该使用者指令用来取得该延伸标记语言文件中一特定元素;对该延伸标记语言文件进行格式分析,以产生一格式分析结果;根据该格式分析结果,由多个模板(Template)中选取一模板,该模板用来指示该多个标签的内容;以及通过该模板,由该延伸标记语言文件中取得该特定元素。
文档编号G06F17/27GK102147801SQ201010117010
公开日2011年8月10日 申请日期2010年2月9日 优先权日2010年2月9日
发明者黄伟伦 申请人:纬创资通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1