一种网页化文档生成交互式文档结构的方法

文档序号:6597245阅读:320来源:国知局
专利名称:一种网页化文档生成交互式文档结构的方法
技术领域
本发明属于电子计算机应用技术领域,涉及一种快速自动的将网页化文档变为交
互式文档结构的方法,特别是一种网页化文档生成交互式文档结构的方法。
背景技术
网页化文档也成为超文本标记语言(Hypertext Markup Language,简称HTML),采 用由特定字母组成的文字字符串或称为标签来界定正文内容的不同显示方式,是数据和显 示风格组合在一起的数据结构。随着计算机网络的普及应用,基于网页形式浏览大型文档 的情况越来越多,这类大型网页化文档的内容一般比较丰富,打印出来常常都在几十页,甚 至达数百页,这些文档阅读与使用起来费时费力,如果没有目录索引结构使用起来更是无 处下手。目前,如何提高这类大型网页化文档的使用效率成为本技术领域中正在探求的创 新型课题;在使用word查阅大型文档时其自带的"文档结构图"给使用者留下了深刻的印 象,这是一种基于标题目录层次关系创建的交互式文档结构,文档结构上的索引与关联的 对应内容随点随到。利用微软提供的生成文档结构的范例方法,可以生成交互式文档结构, 但是对于大型网页文档要花费的时间往往在几分钟以上,其等待时间之长让使用者难以让 人忍受。总结起来,现有的网页化文档生成交互式文档结构的技术还不成熟,已经实施的类 似方法也还存在着速度慢,生成结构复杂,使用方便性差等缺点。因此,寻求一种可以提高 大型网页化文档变为交互式文档结构的自动生成速度,不需要预先保存文档结构的计算机 应用方法满足使用需要,具有明显的实际应用价值。

发明内容
本发明的目的在于克服现有技术的不足,利用电子计算机技术的遍历算法为大型 网页化文档提供一种自动生成交互式文档结构的快速方法。 为了实现上述目的,本发明采用遍历算法遍历文档中的所有标签,对其中用于文 档结构的标签生成对应的交互锚点结构,并建立与之关联的交互式文档结构索引的关联, 在word查阅大型文档时使用文档结构图点击文档结构的索引,跳转显示相应的文档内容; 本发明方法能提高用遍历算法生成大型网页化文档对应的交互式文档结构的速度,縮短文 档结构的生成的等待时间,不需要预先生成与保存文档结构即可快速自动生成交互式文档 结构;为了实现遍历算法生成文档结构快速即时的目的,本发明采用快速获取标记文档结 构的专用标签集合,构建有效且縮小的标签集合的遍历方法。
本发明方法的主要步骤包括以下三个过程 步骤1 :将文档内的所有标签分类过滤,把能够体现文档结构的内容标题用特殊 标记和统一标识快速逐类进行标记; 步骤2 :根据统一标识的共同特征,快速获取已做过统一标识标记的标签集合,形 成与在文档中先后顺序一致的专用标记文档结构的标签集合; 步骤3 :在所形成的专用标记文档结构的标签集合中,用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构,同时建立与之关联的交互式文档结 构中的索引项。 本发明所述的用特殊标记和统一标识对文档结构标签进行标记是对文档结构标 签进行逐类快速地统一标识标记;所述的获取专用标记文档结构的标签集合和用遍历算法 进行生成交互式文档结构是根据统一标识的共同特征,快速获取已做过统一标识标记的标 签,形成专用的标记文档结构的标签集合;并基于已获取的专用标记文档结构的标签集合 进行生成交互式文档结构;对文档结构专用标签集合用遍历算法逐个在网页文档内容中生 成对应的交互锚点结构,再同时建立与之关联的交互式文档结构。 本发明的核心在于用尽可能快的速度获取最精准的标记标签集合,再由特定标记 标签集合快速地去组织生成文档结构;与现有技术相比,其生成交互式文档的速度快,实时 性强,灵活性好,节省时间和人力。


图1为本发明工作流程结构原理示意框图。
具体实施例方式
下面通过实施例并结合附图做进一步说明。
本实施例按下列步骤实施 1)把网页文档内的所有标签过滤分类,再把能够体现文档结构的内容或各级标
题,逐类分别用特殊的统一标识标记出来;采用的这种特殊的统一标识要利于下一步骤中
快速直接获取对应标签集合;具体是在HTML标签处理中,用document, all. tags(〃 HI")
按在文档中出现的先后顺序获取文档中所有一级标题的标签,并给每个标题指定ID为同
一标识,例如为"HI";用相同方法把组成文档结构的标签统一标识出来; 2)按这些标记标签在文档中的先后位置关系快速获取这些做过标记的标签
集合,构建一个用于文档结构的文中所有标题组成的遍历数组;具体是用document.
all(" HI")按在文档中出现的先后顺序获取获取文档中所有ID为"HI"标签; 3)用遍历算法在縮小的所选定的标签集合——遍历数组中,生成对应的交互式文
档结构中的各个索引项,实现文档结构内的索引标识与文档内容具体位置的关联浏览;具
体是指定document, all (〃 HI")的结果作为实现文档结构遍历标签的集合,进行充分必
要的标签遍历与索引的生成。 本实施例由于縮小了遍历的标签数量——为必要充分的用于文档结构的所有标 题标签集合,从而提高读写大型网页文档的速度,尤其是即时生成交互式文档结构的大型 网页文档的开档速度。 本实施例根据网页化文档内的所有标签进行分类过滤,把能够体现文档结构的内 容标题用特殊的标记快速逐类用统一标识进行标记;再根据统一标识的共同特征,快速获 取这些做过统一标识标记的标签集合,形成专用标记文档结构的标签集合;再基于专用标 记文档结构的标签集合,用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的 交互锚点结构,同时建立与之关联的交互式文档结构中的索引项。 本实施例所述的用特殊的标记对文档结构标签进行统一标识标记是对文档结构标签进行逐类快速地统一标识标记;所述的获取专用的标记文档结构的标签集合用遍历算 法进行生成交互式文档结构是根据统一标识的共同特征,快速获取这些做过统一标识标记 的标签,形成专用的标记文档结构的标签集合;再基于已获取的专用的标记文档结构的标 签集合进行生成交互式文档结构;本实施方式仅用于以说明本发明的技术方案而非对其限 制;对于非结构化网页文档,在内容长达数十页甚至数百页,编制、阅读与使用起来都比较 费时费力,采用微软范例算法生成文档结构,对于大型文档花费时间在几十秒钟甚至数分 钟以上,该方法即时快速自动生成类似word中的"文档结构图",对于含有过万个标记标签 的HTML文档,采用微软范例算法生成文档结构,平均需要1分钟以上;采用新算法,不超过 5秒钟,大大改善了文档结构生成时的响应速度;另外该方法不需要额外存放文档结构内 容,方便了网页正文的其他用途。
权利要求
一种网页化文档生成交互式文档结构的方法,其特征在于先将文档内的所有标签分类过滤,把能够体现文档结构的内容标题用特殊标记和统一标识快速逐类进行标记;再根据统一标识的共同特征,快速获取已做过统一标识标记的标签集合,形成与在文档中先后顺序一致的专用标记文档结构的标签集合;然后在所形成的专用标记文档结构的标签集合中,用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构,同时建立与之关联的交互式文档结构中的索引项。
全文摘要
本发明属于电子计算机应用技术领域,涉及一种快速自动的将网页化文档变为交互式文档结构的方法,特别是一种网页化文档生成交互式文档结构的方法,先将文档内的所有标签分类过滤,把能够体现文档结构的内容标题用特殊标记和统一标识快速逐类进行标记;再根据统一标识的共同特征,快速获取已做过统一标识标记的标签集合,形成与在文档中先后顺序一致的专用标记文档结构的标签集合;然后在所形成的专用标记文档结构的标签集合中,用遍历算法逐个在网页文档内容中对应的标题标签处生成对应的交互锚点结构,同时建立与之关联的交互式文档结构中的索引项;其生成交互式文档速度快,实时性强,灵活性好,节省时间和人力。
文档编号G06F17/30GK101727497SQ20101001188
公开日2010年6月9日 申请日期2010年1月13日 优先权日2010年1月13日
发明者张金石, 陈晨, 陈景亮 申请人:陈景亮
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1