专利名称:使超文字标示语言网页转换成纯文字的方法及其系统的制作方法
4吏超文字标示语言网页转换成纯文字的方法及其系统 技术领城本发明涉及一种网页转换成纯文字的方法,特别是涉及一种使超文字 标示语言网页转换成纯文字的方法及其系统。背景抹水随着网际网路的普及,人们愈来愈习惯通过网际网路来获得讯息与查 询资料,例如直接登入网站来浏览新闻网页或文章网页等,目前网页的格式大都为超文件标示语言(Hypertext Mark叩Language;以下简称HTML)。又,目前网路上出现一种新资讯提供方式,称为简单联合供稿(Really Simple Syndication,以下简称RSS),让使用者可以自行订阅想看资讯内 容,而把网页中最新讯息及新闻同步发送予订阅者。详细来说,使用者端安 装RSS浏览器后,可以通过RSS浏览器订阅网站所提供的各式各样RSS频 道。而后,RSS浏览器会定期更新已订阅RSS频道,即RSS浏览器每隔一段 时间会主动下载订阅频道中新的新闻或文章的简介(如标题、摘要与连结网 址)至使用者端,让使用者即时了解频道的更新资讯。若使用者对新的新闻 或文章有兴趣时,点选简介即可利用其连结网址连结对应HTML网页浏览完整内容。然而,无论是以直接登入网站或以RSS浏览器浏览HTML网页,HTLM网 页经常同时存在许多无涉于主要内容的资讯,如广告、其他HTML网页的介 绍、网站资讯等等,影响使用者对网页中主要内容的阅读速度,造成使用 者难以迅速了解网页的主要内容。由此可见,上述现有的网路资讯提供方式在方法、结构及使用上,显然 仍存在有不便与缺陷,而亟待加以进一步改进。为解决上述存在问题,相关 厂商莫不费尽心思来谋求解决之道,但长久以来一直未见适用的设计被发 展完成,而一般方法及产品又没有适切的方法及结构能解决上述问题,此显 然是相关业者急欲解决的问题。因此如何能创设一种新的使超文字标示语 言网页转换成纯文字的方法及其系统,实属当前重要研发课题之一,亦成为 当前业界极需改进的目标。有鉴于上述现有的网路资讯提供方式存在的缺陷,本发明人基于从事 此类产品设计制造多年丰富的实务经验及专业知识,并配合学理的运用,积 极加以研究创新,以期创设一种新的使超文字标示语言网页转换成纯文字 的方法及其系统,能够改进一般现有的网路资讯提供方式,使其更具有实用性。经过不断的研究、设计,并经反复试作及改进后,终于创设出确具实 用价值的本发明。发明内容本发明的目的在于,克服现有的网路资讯提供方式存在的缺陷,而提供 一种便于阅读的使超文字标示语言网页转换成纯文字的方法及其系统,非 常适于实用。本发明的另一目的在于,提供一种可以达到纯文字转换精确度较高的 使超文字标示语言网页转换成纯文字的方法及其系统,从而更加适于实用。本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据 本发明提出的一种使超文字标示语言网页转换成纯文字的方法,包含以下步骤(A)、接收一超文字标示语言网页的超文字标示语言原始码;(B)、执 行一前置标签程序以撷取前述超文字标示语言原始码中的一部分,前述部 分具有多数个字串及多数个位于前述字串间的标签;(C)、计算前述字串的 长度与位置,找出前述字串中长度为前第一预设值百分比的字串;(D)、分析 前述前第一预设值百分比字串中各字串与其余字串间的一位置间隔,并在 前述位置间隔不大于 一 第二预设值时标示与前述位置间隔对应字串为一同 一个区块,以找出一最大区块;以及(E)、删除前述最大区块内前述字串间 的标签以取得一主要内容。本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文 字标示语言网页的主要内容是一文章。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文 字标示语言网页是一简单联合供稿新闻网页。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文 字标示语言网页是一文章网页。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的第一 预设值为3~15中的一整数,前述第二预设值为2 10中的一整数。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的步骤 (B)中的前述前置标签程序是撷取前述超文字标示语言原始码的一主体。前述的使超文字标示语言网页转换成纯文字的方法,其中所述超文字 标示语言原始码具有多数个标签,前述标签含有一〈body〉和一〈/body〉,前 述步骤(B)中撷取前述超文字原始码的前述〈body〉标签与〈/body〉标签间的 内容来作为一主体。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文 字标示语言原始码具有多数个标签,前述步骤(B)中的前述前置标签程序中更在前述主体中标签与一第一预设标签群组相符时,删除前述相符标签间 字串与前述相符标签。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的第一预设标签群组具有一〈script〉和一〈/script〉、 一〈style〉和一〈/style〉及 一<!——和一一一>。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的步骤 (B)中的前述前置标签程序中更在前述主体中标签与一第二预设标签群组 相符时,删除前述相符标签。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的第二 预设标签群组具有一元素位置标签、 一颜色标签、 一字体标签及一字型标 签。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的第二 预设标签群组具有一〈font〉、 一〈i〉、 一〈b〉、 一〈U〉、 一〈u〉、 一〈strike〉、 一〈sub〉、 一<sup>、 一〈pre〉及一〈em〉。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的超文 字标示语言原始码具有多数个空白,前述步骤(B)中的前述前置标签程序中 更把前述主体中多个相邻空白转换成一个空白。前述的使超文字标示语言网页转换成纯文字的方法,其中所述的步骤 (E)中前述被删除标签是一段落格式标签,前述段落格式标签为〈br〉或一 〈p〉和〈/p〉。本发明的目的及解决其技术问题还采用以下技术方案来实现。依据本 发明提出的一种纯文字转换系统,其包含 一前置标签处理模组,用以接收 一超文字标示语言网页的超文字标示语言原始码并执行一前置标签程序以 取得前述超文字标示语言原始码中的一部分,前述部分具有多数个字串及 多数个位于前述字串间的标签; 一区块分析模组,计算前述部分中前述字串 的长度与位置,找出前述字串中长度为前第一预设值百分比的字串,及分析 前述前第一预设值百分比字串中各字串与其余字串间的一位置间隔,并在 前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为 一同 一个区块,以找出一最大区块;以及一后续标签处理模组,删除前述最大区 块内前述字串间的标签以取得一主要内容。本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。前述的纯文字转换系统,其中所述的超文字标示语言网页是一简单联 合供稿新闻网页或一文章网页。前述的純文字转换系统,其中所述第一预设值为3~15中的一整数,前 述第二预设值为2~10中的一整数。前述的纯文字转换系统,其中所述的前置标签处理模组在前置标签程序中撷取前述超文字标示语言原始码的一主体。前述的纯文字转换系统,其中所述的超文字标示语言原始码具有多数 个标签,前述前置标签处理模组在前述前置标签程序中更在前述主体中标 签与一第一预设标签群组相符时,删除前述相符标签间字串与前述相符标 签。前述的纯文字转换系统,其中所述的前置标签处理模组在前述前置标 签程序中更在前述主体中标签与 一第二预设标签群组相符时,删除前述相符标签o前述的純文字转换系统,其中所述的超文字标示语言原始码具有多数 个空白,前述前置标签处理模组在前述前置标签程序中更把前述主体中多 个相邻空白转换成一个空白。前述的纯文字转换系统,其中所述的后续标签处理模组所删除的标签 是一段落格式标签。本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方 案,本发明使超文字标示语言网页转换成纯文字的方法及其系统至少具有下列优点及有益效果由以上可知,为达到上述目的,本发明使超文字标示语言网页转换成纯 文字的方法,包含以下步骤(A)接收一超文字标示语言网页的超文字标示 语言原始码;(B)执行一前置标签程序以撷取前述超文字标示语言原始码中 的一部分,前述部分具有多数个字串及多数个位于前述字串间的标签;(C) 计算前述字串的长度与位置,找出前述字串中长度为前第 一预设值百分比 的字串;(D)分析前述前第一预设值百分比字串中各字串与其余字串间的一 位置间隔,并在前述位置间隔不大于一第二预设值时标示与前述位置间隔 位置的对应字串为一同一个区块,以找出一最大区块;以及(E)删除前述最 大区块内前述字串间的标签以取得一主要内容。如此,本发明借由对超文字标示语言网页的超文字标示语言原始码中 的标签处理及以字串的长度与两字串间的位置间隔来判断主要内容的位 置,可以达到精确地取得纯文字的主要内容的功效。综上所述,本发明是有关于一种使超文字标示语言网页转换成纯文字 的方法及其系统。该使超文字标示语言网页转换成纯文字的方法,包含执行 一前置标签程序以撷取前述超文字标示语言网页中超文字标示语言原始码 中的一具有多数个字串及多数个位于前述字串间的标签的部分,再计算各字串的长度与位置,找出前述字串中长度为前第 一预设值百分比的字串,进 而分析前述前第一预设值百分比字串中各字串与其余字串间的一位置间 隔,并在前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字 串为一同一个区块,以找出一最大区块,最后删除前述最大区块内前述字串间的标签以取得一纯文字的主要内容。本发明克服了现有的网路资讯提 供方式存在的缺陷,方便于阅读,非常适于实用。另外,本发明可以达到 纯文字转换精确度较高的功效,更加适于实用。本发明具有上述诸多优点 及实用价值,其不论在方法、产品结构或功能上皆有较大改进,在技术上 有显著的进步,并产生了好用及实用的效果,且较现有的网路资讯提供方 式具有增进的突出功效,从而更加适于实用,诚为一新颖、进步、实用的 新设计。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的 技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和 其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附 图,详细说明如下。
图1是本发明纯文字转换系统的较佳实施例,此实施例的纯文字转换系统是位于RSS浏览器内并可接收一网站的网页。图2是本实施例中的纯文字转换方法的流程图。 图3是本实施例中前置标签程序的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功 效,以下结合附图及较佳实施例,对依据本发明提出的使超文字标示语言网 页转换成纯文字的方法及其系统其具体实施方式
、方法、步骤、结构、特 征及其功效,详细说明如后。请参阅图1所示,揭露本发明纯文字转换系统的较佳实施例,该纯文 字转换系统2用以把超文字标示语言(Hypertext Markup Language;以下系统2可为一韧^或一程式,'该程式可先储存诸如光碟之类的储; 媒体上,以供使用者安装于其电子装置内来执行。HTML网页是由为一个或 多个伺服器构成的网站4来提供,该HTML网页是以新闻网页或文章网页为 佳。本实施例的纯文字转换系统2整合于一简单联合供稿浏览器1 (Really Simple Syndication Reader,以下简称RSS浏览器)内,该RSS浏览器1安装于一可连线网际网路的电子装置,如电脑。网站4提供至少一为RRS浏 览器1订阅的RSS频道41,而当网站4有新HTML网页时,使用者可以通过 RSS浏览器1的定期更新取得新HTML网页的简介(如标题、摘要与连结网 址),以即时获知网站4有新HTML网页存在,使用者对HTML网页的内容有兴趣时可利用简介连结至网站4连结至对应HTML网页来浏览完整内容。此 刻,RSS浏览器1连结至网站4的HTML网页时,会下栽HTML网页的HTML原 始码以在RSS浏览器1显示HTML网页。使用者可以通过RSS浏览器1的操 作介面(图中未示)来设定纯文字转换系统2把HTML网页转换成纯文字的主 要内容,进而RSS浏览器1可以显示此纯文字的主要内容给使用者浏览。应当注意的是,本发明的纯文字转换系统2也可以整合于其他支援HTML 网页的浏览程式,如IE,或整合于网站4内,或形成一独立程式,并不应 受限于本实施例所揭露者。当然,本实施例的RSS浏览器1更具有其他的 RSS浏览器1的基本构件,如一个用以因应使用者的控制指令以执行对应工 作的控制模组,然而此是广为熟习该项技艺的技术人员所熟知,且非本案 改良重点,故不在此赘述。本实施例纯文字转换系统2是从HTML原始码撷取主要内容。该HTML 原始码是由文字与标签所构成,所以HTML原始码含有多数个字串与多数个 标签,而这些字串中部分字串可能为HTML网页的主要内容、部分字串可能 用来定义或注解HTML网页而无涉于主要内容、部分字串可能属于广告。本 实施例的纯文字转换系统2包括一前置标签处理模组21、 一区块分析模组 22及一后续标签处理模组22。该前置标签处理^f莫组21,接收HTML原始码后进行一前置标签程序(容 后再述)以对HTML原始码内的标签或空白(white space)作处理,以撷取出 可能与主要内容相关的一部分以传送至区块分析模组21。此部分具有多数 个字串及多数个位于前述字串间的段落格式标签,此段落格式标签界定这 些字串相互间的关系,例如一〈p〉和一〈/p〉或一〈br〉, 〈p〉和〈/p〉系定义两 标签间字串系一个,炎落(Paragraphs),而〈br〉代表断行〈Line Breaks 〉。范例l<html><body>主体</body></html>如上述的范例l, 一般HTML原始码撰写,会把〈body〉与〈/body〉间的内 容称为主体,与主要内容相关的字串会出现于此处,例如为新闻网页时,此 则新闻文章的主要内容的字串会出现于主体内。因此,前置标签处理模组 21在接收HTML原始码会先取出其主体。主体中会有多数个字串与标签,其 中大部分标签是与纯文字的主要内容无关、且部分字串是用来作注解或定 义,所以前置标签处理^^莫组21会进一步删除主体内无涉于主要内容的标签 与字串。因此,本实施例前置标签处理模组21更储存一具有与注解与定义相关 标签对的第一预设标签群组及一具有与HTML元素位置、颜色、字体、字型 等HTML格式相关标签的第二预设标签群组。该第一预设标签群组,具有一〈script〉和一〈/script〉、 一〈style〉和一〈/style〉及一<!—和--->等等。〈script〉和〈/script〉是用来定义程式码语言,所以〈script〉和〈/script〉间的字串可能是javascript的程式 码。〈style〉和〈/style〉用来定义格式设定,所以〈style〉和〈/style〉间的 字串可能是描述HTML网页内的格式,例如它的字体、字型、颜色、间距等 的资讯。<!—和一>用来定义不会显示于HTML网页上的注解,故〈!一和--〉 间的字串是注解。本实施例的该第二预设标签群组,具有一定义字型用的〈font〉、 一定 义斜体字的〈i〉、 一定义粗体字的〈b〉、 一定义打字机字的〈tt〉、 一定义加 底线的〈u〉、 一定义划删除线的〈strike〉、 一定义下标的〈sub〉、 一定义上 标的〈sup〉、 一定义保持原貌的〈pre〉及一定义强调的〈em〉等等。应当注意 的是,本实施例虽然先把可能相关的标签预设于第一预设标签群组与第二 标签群组内,然而,事后亦可通过更新第一预设标签群组与第二标签群组 的内容,来适时增删标签。如此,前置标签处理;f莫组21会在主体中存在与第一预设标签群组相符 标签时,删除相符标签间的字串与相符标签。主体中存在第二预设标签群 组相符的标签,前置标签处理模组21删除相符标签。再者,经前述处理的 主体可能存在多数个相邻的空白,本实施例前置标签处理模组21更会把多 数个空白转换成一个空白,以得到供区块分析模组22的部分并传送至区块 分析模组22。一般HTML原始码中诸如新闻或部落格文章网页的内容往往是较长字串 且这些字串的位置常相近而可聚集成一个最大区块。因此,区块分析模组 22分析部分内各字串的长度与位置来找出一最大区块,而后再由后续标签 模组23删除最大区块内段落格式标签以作为纯文字的主要内容来输出给 RSS浏览器1,以套用预设版面显示^H吏用者浏览。在以下段落,请参阅图2所示,把纯文字转换系统2的工作流程作详 细说明,而前述才莫组21 ~ 23的功能可在以下的说明中更加清楚。首先,在步骤50中前置标签处理模组21接收HTML网页的HTML原始 码后,执行步骤51的前置标签程序以取得HTML原始码的一与主要内容相 关的部分来传送至区块分析模组22。前置标签程序(指步骤51)结束后继续 步骤52。请参阅图3所示,前置标签处理模组21先在步骤511中取出HTML原始 码的一主体,指位于^odyS与〈/body"'司的内容。而后,在步骤512中,前置标签处理;溪组21判断主体中是否存在与第一预设标签群组相符的标签。若 步骤512判断为是时,执行步骤513删除主体内相符标签间的字串与相符 标签。步骤513结束后或若步骤512判断为否,则继续步骤514。在步骤 514中,前置标签处理模组21判断主体中是否存在与第二预设标签群组相 符的标签,并在判断有时执行步骤515以删除主体中与第二预设标签群组 相符的标签。而若步骤514判断为否或步骤515结束后,执行步骤516,以 判断主体是否存在多数个相邻的空白。步骤516判断为是时,前置标签处 理模组21把多数个相邻空白转换成一个空白后,使不同行的字串会位于同 一行而这些字串间存在未删除的段落格式标签来区隔,如〈p〉和〈/p〉或 <br>。步骤516判断为否或步骤517结束后,完成前置标签程序,并把经 前述步骤511-517处理取得部分(此部分具有多数个字串与多数个段落格 式标签)传送给区块分析才莫组22,继续由区块分析^t组22执行图2的步骤 52。应注意的是,前述步骤512、 514的执行顺序可依设计需求来调整,也 可同步执行,并不应受限于本实施所揭露者。在步骤52中,区块分析模组22可以利用计算来自前置标签处理模组 21部分内各字串的长度与位置。紧接着,在步骤53中,区块分析模组22从 这些字串中找出长度为前第一预设值百分比的字串,以在步骤54中分析前 第一预设值百分比字串中各字串与其余字串间的一位置间隔,并在位置间 隔不大于一第二预设值时,标示与此位置间隔对应字串为一同一个区块。其 次,在步骤55中从标示所得的区块中找出一个最大区块,把最大区块传送 给后续标签处理^^組23。第一预设值为3~15中任一个整数,而第二预设 值为2~10中的任一个整体,本实施例中第一预设值与第二预设值的数值 是预先设定。为让前述步骤53 - 55更容易被了解,在以下中以20个字串为例来进 行说明,并设定第一预设值百分比为15%,而第二预设值为2。AA
BBBBBBBBBBBBBB<br〉CCC<br>DDDDDDDDDDDDDDD</p><p〉EEEEEEEEP>因此,每一个字串的位置是依序递增,B、 D、 E字串为前第一预设值百 分比长的字串,区块分析模组22会对B字串往前与往后找2个位置间隔(即 A字串与C、 D字串),以判断此2位置间隔内是否有其他同为前第一预设值 百分比长字串存在。由于B字串与D字串间的位置间隔为2而不大于第二 预设值,故B、 C、 D字串会^f皮标示为同一区块,而后以此区块继续再往前 与往后找2个位置间隔(即A字串与E、F字串),D与E间的位置间隔为1其 小于第二预设值,所以B、 C、 D、 E字串会被标示会同一区块,在此范例中B、 C、 D、 E构成的区块即为最大区块。步骤55结束后,继续步骤56,后续标签处理模组23进一步删除最大区块内的段落格式标签以取得纯文字的主要内容,进而在步骤57中输出给 RSS浏览器1并套用预设版面以纯文字方式显示给使用者浏览。以前述范例来说,则显示主要内容如下BBBBBBBBBBBBBB CCC DDDDDDDDDDDDDDDEEEEEEEEEEEEEEEEEEEEE据前所述,本发明利用前置标签程序来删除HTML原始码中无涉于主要 内容的标签与字串以取出与主要内容相关的部分,而后利用此部分内的字 串长度及相互间的位置间隔来找出最大区块,最后再删除最大区块中剩余 标签(指段落格式标签),以得到纯文字的主要内容来供使用者浏览,不只 可以精确转换HTML网页的主要内容为纯文字,而且使用者也可以快速浏览 网页中的主要内容。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式 上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发 明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利 用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但 凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所 作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
权利要求
1. 一种使超文字标示语言网页转换成纯文字的方法,其特征在于其包含以下步骤(A)、接收一超文字标示语言网页的超文字标示语言原始码;(B)、执行一前置标签程序以撷取前述超文字标示语言原始码中的一部分,前述部分具有多数个字串及多数个位于前述字串间的标签;(C)、计算前述字串的长度与位置,找出前述字串中长度为前第一预设值百分比的字串;(D)、分析前述前第一预设值百分比字串中各字串与其余字串间的一位置间隔,并在前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块,以找出一最大区块;以及(E)、删除前述最大区块内前述字串间的标签以取得一主要内容。
2、 如权利要求1 所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的超文字标示语言网页的主要内容是一文章。
3、 如权利要求1或2所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的超文字标示语言网页是一简单联合供稿新闻网 页。
4、 如权利要求1或2所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的超文字标示语言网页是一文章网页。
5、 如权利要求1 所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的第一预设值为3~15中的一整数,前述第二预设值为2-10中的一整数。
6、 如权利要求1 所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的步骤(B)中的前述前置标签程序是撷取前述超文 字标示语言原始码的一主体。
7、 如权利要求6 所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的超文字标示语言原始码具有多数个标签,前述标 签含有一〈body〉和一〈/body〉,前述步骤(B)中撷取前述超文字原始码的前 述〈body〉标签与〈/body〉标签间的内容来作为一主体。
8、 如权利要求6 所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的超文字标示语言原始码具有多数个标签,前述步骤(B)中的前述前置标签程序中更在前述主体中标签与 一第 一预设标签群 组相符时,删除前述相符标签间字串与前述相符标签。
9、 如权利要求8 所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的第一预设标签群组具有一〈script〉和一<formula>formula see original document page 0</formula>
10、 如权利要求8 所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的步骤(B)中的前述前置标签程序中更在前述主体 中标签与一第二预设标签群组相符时,删除前述相符标签。
11、 如权利要求10所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的第二预设标签群组具有一元素位置标签、 一颜色标签、 一字体标签及一字型标签。
12、 如权利要求10或11所述的使超文字标示语言网页转换成纯文字 的方法,其特征在于其中所述的第二预设标签群组具有一〈font〉、 一〈i〉、 一〈b〉、 "~■<">、 一<u>、 一〈strike〉、 一<sub>、 一〈sup〉、 一〈pre〉及一<em〉。
13、 如权利要求10所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述的超文字标示语言原始码具有多数个空白,前述步 骤(B)中的前述前置标签程序中更把前述主体中多个相邻空白转换成一个 空白。
14、 如权利要求1所述的使超文字标示语言网页转换成纯文字的方 法,其特征在于其中所述步骤(E)中前述被删除标签是一段落格式标签,前 述段落格式标签为〈br〉或一〈p〉和〈/p〉。
15、 一种纯文字转换系统,其特征在于其包含一前置标签处理模组,用以接收一超文字标示语言网页的超文字标示 语言原始码并执行一前置标签程序以取得前述超文字标示语言原始码中的 一部分,前述部分具有多数个字串及多数个位于前述字串间的标签;一区块分析模组,计算前述部分中前述字串的长度与位置,找出前述字串中长度为前第一预设值百分比的字串,及分析前述前第一预设值百分比 字串中各字串与其余字串间的一位置间隔,并在前述位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块,以找出一最大 区块;以及一后续标签处理模组,删除前述最大区块内前述字串间的标签以取得 一主要内容。
16、 如权利要求15所述的纯文字转换系统,其特征在于其中所述的超 文字标示语言网页是一简单联合供稿新闻网页或一文章网页。
17、 如权利要求15所述的纯文字转换系统,其特征在于其中所述的第 一预设值为3~15中的一整数,前述第二预设值为2~10中的一整数。
18、 如权利要求15所述的纯文字转换系统,其特征在于其中所述的前 置标签处理模组在前置标签程序中撷取前述超文字标示语言原始码的一主 体。
19、 如权利要求18所述的纯文字转换系统,其特征在于其中所述的超文字标示语言原始码具有多数个标签,前述前置标签处理模组在前述前置 标签程序中更在前述主体中标签与 一第 一预设标签群组相符时,删除前述 相符标签间字串与前述相符标签。
20、 如权利要求19所述的纯文字转换系统,其特征在于其中所述的前 置标签处理模组在前述前置标签程序中更在前述主体中标签与一第二预设 标签群组相符时,删除前述相符标签。
21、 如权利要求20所述的纯文字转换系统,其特征在于其中所述的超 文字标示语言原始码具有多数个空白,前述前置标签处理模组在前述前置 标签程序中更把前述主体中多个相邻空白转换成一个空白。
22、 如权利要求15所述的纯文字转换系统,其特征在于其中所述的后 续标签处理模组所删除的标签是一段落格式标签。
全文摘要
本发明是有关一种使超文字标示语言网页转换成纯文字的方法及其系统。该方法包含执行一前置标签程序以撷取超文字标示语言网页中超文字标示语言原始码中的一具有多数字串及多数位于前述字串间的标签的部分,再计算各字串长度与位置,找出前述字串中长度为前第一预设值百分比的字串,进而分析前第一预设值百分比字串中各字串与其余字串间的位置间隔,并在位置间隔不大于一第二预设值时标示与前述位置间隔对应字串为一同一个区块,以找出一最大区块,最后删除最大区块内字串间的标签以取得一纯文字的主要内容。本发明借由对超文字标示语言网页的超文字标示语言原始码中的标签处理及以字串长度与两字串间的位置间隔来判断主要内容位置,可达到精确取得纯文字主要内容功效。
文档编号G06F17/30GK101246481SQ20071008029
公开日2008年8月20日 申请日期2007年2月16日 优先权日2007年2月16日
发明者蔡弘扬, 黄子癸 申请人:易搜比控股公司