一种文档内容的自动处理方法、自动处理装置及编辑器的制作方法

文档序号:7565865阅读:132来源:国知局
专利名称:一种文档内容的自动处理方法、自动处理装置及编辑器的制作方法
技术领域
本发明涉及文档处理技术领域,特别涉及一种文档内容的自动处理方法、自动处
理装置及编辑器。
背景技术
随着终端技术的不断发展,用户对终端功能的要求也越来越高,尤其在编辑文档 内容时,希望自己编辑的内容能够得到完美的呈现。但是现有技术中,不同的文档内容对应各种各样的格式标签,譬如HTML、JSP、ASP、 PHP 等。其中,HTML (Hyper Text Mark-up Language),即超文本标记语言或超文本链接标 示语言,是目前网络上应用最为广泛的语言,也是构成网页文档内容的主要语言。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、 声音、表格或者链接等。HTML的结构包括头部(Head)和主体(Body)两大部分,其中头部描 述浏览器所需的信息,主体包含所要说明的具体内容。HTML编辑器大体可以分为三种1)基本编辑软件,使用Windows自带的记事本或写字版都可以编写,当然,也可以 用WPS来编写。存盘时使用.htm或.html作为扩展名,这样浏览器就可以解释执行了。2)半所见即所得软件,这种软件能大大提高开发效率,可以在很短的时间内做出 Hom印age,且可以学习HTML,这种类型的软件主要有Hotdog,还有其他譬如软件网页作坊。3)所见即所得软件,使用最广泛的编辑器,完全可以一点不懂HTML的知识就可以 做出网页,这类软件主要有Frontpage等。HTML文档具有以下优点1、简易性,HTML版本升级采用超集方式,从而更加灵活方便。2、可扩展性,HTML语言的广泛应用带来了加强功能,增加标识符等要求,HTML采 取子类元素的方式,为系统扩展带来保证。3、平台无关性,虽然PC机大行其道,但使用MAC等其他机器的大有人在,HTML可 以使用在广泛的平台上。JSP(Java Server Pages),是由 Sun Microsystems 公司倡导、其他公司参与一起 建立的一种动态网页技术标准。JSP是在传统的网页HTML文件(*. htm,*, html)中插入Java程序段Gcriptlet) 和JSP标记(tag),从而形成JSP文件(*. jsp)。用JSP开发的Web应用是跨平台的,既能 在Linux下运行,也能在其他操作系统上运行。JSP技术使用Java编程语言编写类XML的tags和scriptlets,来封装产生动态网 页的处理逻辑。网页还能通过tags和scriptlets访问存在于服务端的资源的应用逻辑。 JSP将网页逻辑与网页设计和显示分离,支持可重用的基于组件的设计,使基于Web的应用 程序的开发变得迅速和容易。
Web服务器在遇到访问JSP网页的请求时,首先执行其中的程序段,然后将执行结 果连同JSP文件中的HTML代码一起返回给客户。插入的Java程序段可以操作数据库、重 新定向网页等,以实现建立动态网页所需要的功能。JSP与Java Servlet 一样,是在服务器 端执行的,通常返回给客户端的就是一个HTML文本,因此客户端只要有浏览器就能浏览。JSP具有以下优点1、一次编写,到处运行,除了系统之外,代码不用做任何更改。2、系统的多平台支持,基本上可以在所有平台上的任意环境中开发,在任意环境 中进行系统部署,在任意环境中扩展。3、强大的可伸缩性,从只有一个小的Jar文件就可以运行krvlet/JSP,到由多台 服务器进行集群和负载均衡,到多台Application进行事务处理,消息处理。4、多样化和功能强大的开发工具支持,Java已经有了许多非常优秀的开发工具, 而且许多可以免费得到,并且其中许多已经可以顺利的运行于多种平台之下。5、支持服务器端组件,web应用需要强大的服务器端组件来支持,开发人员需要利 用其他工具设计实现复杂功能的组件供web页面调用,以增强系统性能。ASP (Active Server I^age),即为动态服务器页面。ASP是微软公司开发的代替 CGI脚本程序的一种应用,它可以与数据库和其它程序进行交互,是一种简单、方便的编程 工具。ASP的网页文件的格式是.asp,现在常用于各种动态网站中,可以用来创建和运 行动态网页或Web应用程序。ASP网页可以包含HTML标记、普通文本、脚本命令等。利用 ASP可以向网页中添加交互式内容,也可以创建使用HTML网页作为用户界面的web应用程序。与HTML相比,ASP网页具有以下特点1)利用ASP可以实现突破静态网页的一些功能限制,实现动态网页技术。2) ASP文件是包含在HTML代码所组成的文件中的,易于修改和测试。3)服务器上的ASP解释程序会在服务器端执行ASP程序,并将结果以HTML格式传 送到客户端浏览器上,因此使用各种浏览器都可以正常浏览ASP所产生的网页。4) ASP提供了 一些内置对象,使用这些对象可以使服务器端脚本功能更强。例如可 以从web浏览器中获取用户通过HTML表单提交的信息,并在脚本中对这些信息进行处理, 然后向web浏览器发送信息。5)ASP可以使用服务器端ActiveX组件来执行各种各样的任务,例如存取数据库、 发送Email或访问文件系统等。6)由于服务器是将ASP程序执行的结果以HTML格式传回客户端浏览器,因此使用 者不会看到ASP所编写的原始程序代码,可防止ASP程序代码被窃取。PHP(Hypertext Pr印rocessor),即超级文本预处理语言。PHP是一种HTML内嵌式的语言,是一种在服务器端执行的嵌入HTML文档的脚本语 言,语言的风格有类似于C语言,被广泛的运用用PHP做出的动态页面与其他的编程语言相比,PHP是将程序嵌入到HTML文档中 去执行,执行效率比完全生成HTML标记的公共网关接口(CGI)要高许多;PHP还可以执行 编译后代码,编译可以达到加密和优化代码运行,使代码运行更快。PHP具有非常强大的功能,所有的CGI的功能PHP都能实现,而且支持几乎所有流行的数据库以及操作系统。其中,PHP具有以下优点1、开放的源代码,所有的PHP源代码事实上都可以得到。2、PHP是免费的,和其它技术相比,PHP本身免费。3、PHP的快捷性,程序开发快,运行快,技术本身学习快,而且可以嵌入HTML,因为 PHP可以嵌入HTML语言,它相对于其他语言,编辑简单,实用性强,更适合初学者。4、跨平台性强,由于PHP是运行在服务器端的脚本,可以运行在UNIX、LINUX、 WINDOWS 下。5、效率高,PHP消耗相当少的系统资源。由于不同的文档内容对应各种各样的格式标签,因此在对用户编辑的文档内容进 行处理时,基本上都是由系统固定的标签状态对文档内容进行处理,一旦用户编辑的文档 内容的格式标签不符合系统自带的标签状态,将自动过滤掉用户编辑的文档内容,给用户 的使用带来极大的不便。如何能够针对不同文档内容的格式标签对相应的文档内容进行自动处理,满足对 不同格式标签的文档内容的自动处理需求,是文档处理技术领域研究的方向之一。

发明内容本发明所要解决的技术问题是提供一种文档内容的自动处理方法,以能够针对不 同文档内容的格式标签对相应的文档内容进行自动处理,满足对不同格式标签的文档内容 的自动处理需求。本发明为解决技术问题而采用的技术方案是提供一种文档内容的自动处理方法, 所述方法包括以下步骤获取文档内容的格式标签;对所述文档内容的格式标签进行辨别,获取所述格式标签的类别;在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态,并根据匹 配到的标签状态对所述文档内容进行自动处理。根据本发明之一优选实施例,所述方法还包括以下步骤预先设置对应不同格式标签类别的标签状态,其中,不同的标签状态对应不同的 格式标签的类别。根据本发明之一优选实施例,所述对所述文档内容的格式标签进行辨别,获取所 述格式标签的类别的步骤具体包括对所述格式标签的统一标识进行判断,若符合统一标识,则判断与所述统一标识 相邻的下一标签元素;根据对与所述统一标识相邻的下一标签元素的判断结果获取所述格式标签的类 别。根据本发明之一优选实施例,所述格式标签包括<html>、<%...>、以及〈? php>,其中<html>表示Html标签,... >表示ASP或者JSP标签,< ? php>表示PHP标签。根据本发明之一优选实施例,所述格式标签的统一标识为“〈”,其中,“〈”为不同类别的格式标签都具有的开始标识符号,格式标签中的末尾还包括有标识符号“〉”。根据本发明之一优选实施例,若与统一标识“〈”相邻的下一标签元素为“/”,则处 理格式标签结束。根据本发明之一优选实施例,处理格式标签结束的步骤中进一步包括下述步骤之 一或其组合判断是否包含被删除的内容标签、判断是否未闭合内容标签。根据本发明之一优选实施例,若与统一标识“〈”相邻的下一标签元素为“ ? ”,则调 用预先存储的PHP标签状态对文档内容的数据进行处理。根据本发明之一优选实施例,若与统一标识“〈”相邻的下一标签元素为“ % ”,则 调用预先存储的JSP标签状态对文档内容的数据进行处理。根据本发明之一优选实施例,若与统一标识“〈”相邻的下一标签元素为“ ! ”,则进 行处理注释的步骤。根据本发明之一优选实施例,若与统一标识“〈”相邻的下一标签元素为不同于 “/”、“ ? ”、“ % ”、“ ! ”的其他元素,则处理所述格式标签起始。根据本发明之一优选实施例,处理所述格式标签起始的步骤中进一步包括下述步 骤之一或其组合判断是否属于内容删除、判断是否属于非法删除、判断是否属于嵌套规则 以及判断属性是否合法。根据本发明之一优选实施例,当判断属性合法时,则保留格式标签的起始标签。根据本发明之一优选实施例,所述标签状态为用户输入的标签状态。本发明为解决技术问题而采用的技术方案是提供一种文档内容的自动处理装置, 其特征在于,所述装置包括格式标签获取模块,用于获取文档内容的格式标签;类别获取模块,用于对所述文档内容的格式标签进行辨别,获取所述格式标签的 类别;处理模块,用于在预先存储的标签状态中匹配与所述格式标签的类别一致的标签 状态,并根据匹配到的标签状态对所述文档内容进行自动处理。根据本发明之一优选实施例,所述装置还包括设置模块,用于预先设置对应不同格式标签类别的标签状态,其中,不同的标签状 态对应不同的格式标签的类别。根据本发明之一优选实施例,所述类别获取模块具体包括判断模块,用于对所述格式标签的统一标识进行判断,若符合统一标识,则判断与 所述统一标识相邻的下一标签元素;执行模块,用于根据对与所述统一标识相邻的下一标签元素的判断结果获取所述 格式标签的类别。根据本发明之一优选实施例,所述标签状态为用户输入的标签状态。本发明为解决技术问题而采用的技术方案是提供一种编辑器,包括如上所述的文 档内容的自动处理装置。通过上述实施例,本发明能够对不同文档内容的格式标签对文档内容进行自动处 理,满足对不同格式标签的文档内容的自动处理需求。
图1是本发明实施例中的文档内容的自动处理方法的流程示意图;图2是本发明实施例中的数据库的结构示意图;图3是本发明实施例中文档内容的自动处理装置的结构示意图。
具体实施方式下面结合附图和实施例对本发明进行详细说明。本发明实施例提供了一种文档内容的自动处理方法,所述方法包括以下步骤获取文档内容的格式标签;对所述文档内容的格式标签进行辨别,获取所述格式标签的类别;在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态,并根据匹 配到的标签状态对所述文档内容进行自动处理。本发明实施例还提供了一种文档内容的自动处理装置,所述装置包括格式标签获取模块,用于获取文档内容的格式标签;类别获取模块,用于对所述文档内容的格式标签进行辨别,获取所述格式标签的 类别;处理模块,用于在预先存储的标签状态中匹配与所述格式标签的类别一致的标签 状态,并根据匹配到的标签状态对所述文档内容进行自动处理。本发明实施例还提供了一种编辑器,所述编辑器包括一文档内容的自动处理装 置,所述装置包括格式标签获取模块,用于获取文档内容的格式标签;类别获取模块,用于对所述文档内容的格式标签进行辨别,获取所述格式标签的 类别;处理模块,用于在预先存储的标签状态中匹配与所述格式标签的类别一致的标签 状态,并根据匹配到的标签状态对所述文档内容进行自动处理。图1示出了本发明实施例提供的文档内容的自动处理方法的流程。在步骤SlOl中,预先设置对应不同格式标签类别的标签状态。其中,不同的标签状态对应不同的格式标签的类别。在步骤S102中,获取文档内容的格式标签。在步骤S103中,对文档内容的格式标签进行辨别,获取格式标签的类别。譬如,数据标签的类别包括以下几种a)、Html :<html> ;b)、ASP 或者 JSP :<%.··> ;c)、PHP:〈? php> ;当然也不限于上述几种,此处不一一列举。在具体实施过程中,在对格式标签进行辨别处理时,首先对格式标签的统一标识 进行判断,若符合统一标识,则判断与统一标识相邻的下一标签元素,根据对与统一标识相 邻的下一标签元素的判断结果获取格式标签的类别。具体的辨别处理过程请参阅图2以及针对图2的详细描述。
在步骤S104中,在预先存储的标签状态中匹配与格式标签的类别一致的标签状 态,并根据匹配到的标签状态对文档内容进行处理。优选的,标签状态为用户输入的标签状态,当然也可以是系统自带的标签状态,此
处不一一列举。请参阅图2,图2示出了本发明实施例提供的对格式标签进行辨别处理的流程。在步骤S201中,对文档内容的格式标签进行扫描,扫描格式标签的统一标识。本发明实施例中,格式标签的统一标识为“〈”,其中,“〈”为不同类别的格式标签都 具有的开始标识符号,格式标签中的末尾还包括有标识符号“〉”。在具体实施过程中,对格式标签进行扫描时,还判断是否扫描到格式标签的末尾, 若是,则结束扫描,若没有,则判断数据是否为空。若数据不为空,则保留有效数据,并进行步骤S202,若数据为空,仍进行步骤 S202。在步骤S202中,对与统一标识“〈”相邻的下一标签元素进行判断。譬如,在ASP的格式标签中,其格式为<%...>,显然,与统一标识“〈”相邻的下 一标签元素为“ % ”,在判断到“ % ”后,则判定该格式标签的类别为JSP ;还譬如,在PHP的格式标签中,其格式为< ? php>,显然,与统一标识“〈”相邻的 下一标签元素为“ ? ”,在判断到“ ? ”后,则判定该格式标签的类别为PHP ;在步骤S203中,若与统一标识“〈”相邻的下一标签元素为“/”,则处理格式标签结 束ο在步骤S204中,若与统一标识“〈”相邻的下一标签元素为“? ”,则调用预先存储 的PHP标签状态对文档内容的数据进行处理。在步骤S205中,若与统一标识“〈”相邻的下一标签元素为“ % ”,则调用预先存储 的JSP标签状态对文档内容的数据进行处理。在步骤S206中,若与统一标识“〈”相邻的下一标签元素为“! ”,则进行处理注释 的步骤。在步骤S207中,若与统一标识“〈”相邻的下一标签元素为不同于“/”、“? ”、“%”、 “ !,,的其他元素,则处理所述格式标签起始。在步骤S208中,判断是否属于内容删除,若是,则进行步骤S216,否则进行步骤
5209。在步骤S209中,判断是否属于非法删除,若是,则进行步骤S216,否则进行步骤
5210。在步骤S210中,判断是否属于嵌套规则,若是,则进行步骤S211,否则进行步骤 S216。在步骤S211中,判断属性是否合法,若是,则进行步骤S212,否则进行步骤S216。在步骤S212中,保留格式标签的起始标签。在步骤S213中,判断是否包含被删除的内容标签,若是,则进行步骤S216,否则进 行步骤S214。在步骤S214中,判断是否未闭合内容标签,若是,则进行步骤S215,否则进行步骤 S216。
在步骤S215中,保留格式标签的尾标签。在步骤S216中,过滤删除。本发明实施例在处理用户编撰文档内容时,能够提供多格式的标签状态支持。譬如,以一个PHP文档内容为例,其格式为< ? phpnamespace Math{class Complex{//. . . code...function_construct (){print (" hey");}}}$m = new Math: :ComplexO ;? >首先对PHP文档内容的格式标签进行扫描,扫描格式标签的统一标识“〈”,以及标 签的末尾“〉”,判断数据不为空;之后,对与统一标识“〈”相邻的下一标签元素进行判断,显然,在PHP格式中,与统 一标识“〈”相邻的下一标签元素为“ ? ”,则调用预先存储的PHP标签状态对文档内容的数 据进行处理,处理完毕后,进行过滤删除。以一个ASP文档内容为例,其格式为<%currentDate = #8/4/99#newDate = DateAdd(〃 m〃,3, currentDate)response, write newDate% > <%currentDate = #12:34:45 PM#newDate = DateAdd(〃 h〃,3, currentDate)response, write newDate% >首先对ASP文档内容的格式标签进行扫描,扫描格式标签的统一标识“〈”,以及标 签的末尾“〉”,判断数据不为空;之后,对与统一标识“〈”相邻的下一标签元素进行判断,显然,在ASP格式中,与统 一标识“〈”相邻的下一标签元素为“ % ”,则调用预先存储的ASP标签状态对文档内容的数 据进行处理。最后,进行过滤删除。本发明实施例在处理用户编撰文档内容时,能够提供多格式的标签状态支持。
图3是本发明实施例提供的文档内容的自动处理装置的结构示意图,所述装置包 括设置模块31,格式标签获取模块32,类别获取模块33以及处理模块34。其中,设置模块31预先设置对应不同格式标签类别的标签状态。譬如,数据标签的类别包括以下几种a) > Html :<html> ;b)、ASP 或者 JSP :<%...> ;c)、PHP:〈? php>。格式标签获取模块32获取文档内容的格式标签。类别获取模块33对所述文档内容的格式标签进行辨别,获取所述格式标签的类 别。具体的格式标签的类别请参阅上文描述,此处不再赘述。优选的,类别获取模块33具体包括判断模块331以及执行模块332 判断模块331对格式标签的统一标识进行判断,若符合统一标识,则判断与统一 标识相邻的下一标签元素;执行模块332根据对与所述统一标识相邻的下一标签元素的判断结果获取格式 标签的类别。处理模块34在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状 态,并根据匹配到的标签状态对文档内容进行处理。优选的,标签状态为用户输入的标签状态,当然也可以是系统自带的标签状态,此
处不一一列举。本发明实施例还提供一种编辑器,所述编辑器包括本发明实施例提供的文档内容 的自动处理装置,鉴于该装置在上文已有详细的描述,此处不再赘述。本发明实施例能够对不同文档内容的格式标签对文档内容进行自动处理,满足了 对不同格式标签的文档内容的自动处理需求。在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人员在阅读本 专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。
权利要求
1.一种文档内容的自动处理方法,其特征在于,所述方法包括以下步骤获取文档内容的格式标签;对所述文档内容的格式标签进行辨别,获取所述格式标签的类别;在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态,并根据匹配到 的标签状态对所述文档内容进行自动处理。
2.如权利要求1所述的文档内容的自动处理方法,其特征在于,在获取文档内容的格 式标签的步骤之前,所述方法还包括以下步骤预先设置对应不同格式标签类别的标签状态,其中,不同的标签状态对应不同的格式 标签的类别。
3.如权利要求1所述的文档内容的自动处理方法,其特征在于,所述对所述文档内容 的格式标签进行辨别,获取所述格式标签的类别的步骤具体包括对所述格式标签的统一标识进行判断,若符合统一标识,则判断与所述统一标识相邻 的下一标签元素;根据对与所述统一标识相邻的下一标签元素的判断结果获取所述格式标签的类别。
4.如权利要求3所述的文档内容的自动处理方法,其特征在于,所述格式标签包括 <html>,<% ... >、以及 < ? php>,其中 <html> 表示 Html 标签,... > 表示 ASP 或者 JSP 标签,< ? php>表示PHP标签。
5.如权利要求4所述的文档内容的自动处理方法,其特征在于,所述格式标签的统一 标识为“〈”,其中,“〈”为不同类别的格式标签都具有的开始标识符号,格式标签中的末尾还 包括有标识符号“〉”。
6.如权利要求5所述的文档内容的自动处理方法,其特征在于,若与统一标识“〈”相邻 的下一标签元素为“/”,则处理格式标签结束。
7.如权利要求6所述的文档内容的自动处理方法,其特征在于,处理格式标签结束的 步骤中进一步包括下述步骤之一或其组合判断是否包含被删除的内容标签、判断是否未 闭合内容标签。
8.如权利要求5所述的文档内容的自动处理方法,其特征在于,若与统一标识“〈”相邻 的下一标签元素为“ ? ”,则调用预先存储的PHP标签状态对文档内容的数据进行处理。
9.如权利要求5所述的文档内容的自动处理方法,其特征在于,若与统一标识“〈”相邻 的下一标签元素为“ % ”,则调用预先存储的JSP标签状态对文档内容的数据进行处理。
10.如权利要求5所述的文档内容的自动处理方法,其特征在于,若与统一标识“〈”相 邻的下一标签元素为“ ! ”,则进行处理注释的步骤。
11.如权利要求5所述的文档内容的自动处理方法,其特征在于,若与统一标识“〈”相 邻的下一标签元素为不同于“/”、“?”、“%”、“ !,,的其他元素,则处理所述格式标签起始。
12.如权利要求11所述的文档内容的自动处理方法,其特征在于,处理所述格式标签 起始的步骤中进一步包括下述步骤之一或其组合判断是否属于内容删除、判断是否属于 非法删除、判断是否属于嵌套规则以及判断属性是否合法。
13.如权利要求12所述的文档内容的自动处理方法,其特征在于,当判断属性合法时, 则保留格式标签的起始标签。
14.如权利要求1所述的文档内容的自动处理方法,其特征在于,所述标签状态为用户输入的标签状态。
15.一种文档内容的自动处理装置,其特征在于,所述装置包括 格式标签获取模块,用于获取文档内容的格式标签;类别获取模块,用于对所述文档内容的格式标签进行辨别,获取所述格式标签的类别;处理模块,用于在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状 态,并根据匹配到的标签状态对所述文档内容进行处理。
16.如权利要求15所述的文档内容的自动处理装置,其特征在于,所述装置还包括 设置模块,用于预先设置对应不同格式标签类别的标签状态,其中,不同的标签状态对应不同的格式标签的类别。
17.如权利要求15所述的文档内容的自动处理装置,其特征在于,所述类别获取模块 具体包括判断模块,用于对所述格式标签的统一标识进行判断,若符合统一标识,则判断与所述 统一标识相邻的下一标签元素;执行模块,用于根据对与所述统一标识相邻的下一标签元素的判断结果获取所述格式 标签的类别。
18.如权利要求15所述的文档内容的自动处理装置,其特征在于,所述标签状态为用 户输入的标签状态。
19.一种编辑器,其特征在于,所述编辑器包括如权利要求1 5至权利要求18所述的文 档内容的自动处理装置。
全文摘要
本发明公开了一种文档内容的自动处理方法、自动处理装置及编辑器,所述方法包括获取文档内容的格式标签;对所述文档内容的格式标签进行辨别,获取所述格式标签的类别;在预先存储的标签状态中匹配与所述格式标签的类别一致的标签状态,并根据匹配到的标签状态对所述文档内容进行处理。本发明能够对不同文档内容的格式标签对文档内容进行自动处理,满足对不同格式标签的文档内容的自动处理需求。
文档编号H04L29/08GK102118439SQ20111002150
公开日2011年7月6日 申请日期2011年1月19日 优先权日2011年1月19日
发明者来瑾颖, 耿艳坤, 苏上海, 陈恭明, 陈浩然 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1