用于较小显示装置的网页内容译码系统和方法

文档序号:6376189阅读:141来源:国知局
专利名称:用于较小显示装置的网页内容译码系统和方法
技术领域
本发明涉及一种网页内容转换技术,并且具体地说涉及用于小型显示装置的网页内容译码(转换)系统和方法,在小型显示装置中,可以将预制的适合于通用桌面个人计算机的显示性能的网页文件转换为甚至可以在小型显示器上有效地显示的文件。
背景技术
最近,随着移动通信和小型装置技术的快速发展,将这些技术移植到因特网上,形成无线因特网环境并且开始满足人们希望在任何时候和任何地方使用网络的希望。然而,通过有线因特网,使产生的网络信息适合台式计算机的显示大小,并且通过小型显示装置进行浏览,现有的技术具有如下缺点由于它超出了小型显示装置的性能,因此不能很好地在小型显示装置上显示内容信息。
为了解决这个缺点,已经提出了多种内容转换方法。最初的方法的主流是简单的转换正文概要,以便支持蜂窝式电话系列装置或低性能PDA(个人数字助理)等等,不能较好的显示用户需要的大量信息。这是由于装置性能的限制造成的,主要使用具有简单的表示能力的无线因特网标记语言,例如文本或HDML(手持装置标志语言)、WML(无线标志语言)等等。
现有的转换具有如下缺点因为只提取和转换现有的网络信息内容的一部分,它很难精确地将当前的复杂结构的如具有同时表示的大量图像和信息的网页精确地进行转换。
之后,随着PDA、手提式个人电脑等等高性能装置的出现,为此不断地研究转换的方法。结果,出现了由IBM制造的在服务器中的转换工具,例如WebSphere Converting Publisher、Sypglass、Prism等等。转换工具使用了一种方法,在该方法中,网络服务器通过它的人工管理转换,以便更精确地转换网页内容。该转换工具具有如下缺点执行非自动的转换,且与在有线因特网上的大量文件相比转换的文件范围有限。
此外,作为装置中的一个运行的转换方法,有Smart View、Pad++等等用于提供缩小/放大功能。所述的Smart View、Pad++等等具有如下优点可以更精确地了解装置性能,可以容易地反映用户的要求,但是存在的问题在于,用图像检查在全部页面上的通用信息之后,再一次检查被缩小的内容,以便通过利用在页面上的每个内容的缩小界面了解到真实的内容。
此外,作为在代理服务器上运行的转换方法,有Top Gun Wingman和汇编器,其中Top Gun Wingman提供了用于掌上装置的浏览器的转换代理,而汇编器支持全部手持或蜂窝系列装置等等。汇编器根据多种启发式转换方法执行转换,所述的启发式转换方法是通过由人和恰当的应用规则直接执行的转换获得的。为了准确的转换,使用了大量复杂的算法,关于转换结果的信息被以概要、放大或页面划分等等表示。然而,缺点是用于基于有限的信息表示方法、复杂的分类结构、和大量超级链接索引的使用来产生的信息检索的界面是不方便的。
其它公知的现有技术在韩国专利公开号为2002 31691(申请号10 2000 0062342)、发明名称为“Real-time internet content convertingmethod and system(实时因特网内容转换方法和系统)”,和韩国专利公开号为2002 15223(申请号10 2000 0048415)的“Contentformulation system and method(内容处理系统和方法)”中进行了公开。这样,“Real-time internet content converting method and system(实时因特网内容转换方法和系统)”使用了预先确定的规则提取内容文件内容、划分页面或转换成其它的标志语言。仅执行了转换成为文件概要,没有详细公开文件分析方法和再表示方法。此外,“Contentformulation system and method(内容处理系统和方法)”仅引用了小型装置用户有线网页内容的转换系统的通用结构。
因此,现有的网页文件转换方法没有反映装置性能的快速发展的设备,并以某种仅提取具体的内容或内容概要、表示的复杂的分类结构、页面划分和连接关系的方式进行转换。不能为清楚地分析、转换和表示方法提供详细建议。也就是说,在大多数早期的研究中,执行的简单的文本概要转换是用于低性能蜂窝电话系列装置的。最近,已经出现了高性能掌上型的器材,但是用于内容简化的转换还是主流,所述的内容简化是例如内容概要、图像删除等等。或者,提供了页面划分和使用链接的页面链接的方法,但是如果链接深度加深,即使没有重要的内容概要,有这样一个困难即很难理解全部的内容,并且再次返回前一页。

发明内容
因此,本发明涉及根据要素解析多个文件的系统和方法,它基本上避免了由现有技术造成的限制和缺点所产生的一个或多个问题。
因此,本发明涉及用于小型显示装置的网页内容转换系统和方法,它基本上避免了由于现有技术造成的限制和缺点所产生的一个或多个问题。
本发明的目标是提供用于小型显示装置的网页内容转换系统和方法,其中考虑到用户装置的性能改进,包括很多复杂的信息的现有网页文件可以被转换成可以最大限度的反映原始文件的内容文件,同时具有适当的界面。
本发明的其它优点、目的和特征将在说明书中被部分地进行阐述,并且对本领域的普通技术人员来讲依据以下试验或通过对本发明的学习将变得显而易见。本发明的目的和其它优点可以通过说明书和权利要求书以及说明书附图的描述中指出的特定结构获得并且实现。
为了实现这些目标及其它优点并且根据本发明的目的,在此具体并且广泛地进行说明,在此提供了一网页内容转换系统,该内容转换系统将大显示屏幕的网页文件转换为小显示屏幕的网页文件,该系统包括预处理器,其用于标准化具有错误标记的非标准的网页文件,将该标准化网页文件以适合于分析的数据格式进行输出;用于提取和管理客户信息的客户个人文件分析器;结构分析器,用于接收在预处理器中的标准化网页文件,以根据文件分析算法将网页文件设定为内容单元块(成分(component));图像转换器,用于在图像编码/解码步骤提取信息和包括在网页文件中的图像大小;成分块析取器,用于通过使用内容单元块(成分)的属性值和客户性能信息,将设定内容单元块(成分)在不超过最大的宽度范围内分组为相似组;成分块分类器,用于根据内容特征,对由成分块析取器产生的每个成分块进行分类,分类为索引和正文体部分;索引产生器,用于提取图像上的信息或来自被分类为索引部分的成分块的文本索引,并且产生脚本文件和附加的标记集合,该附加的标记集合用于表示被提取的信息;语音标志产生器,用于将文本中心正文体内容块转换为语音标志语言,以便实现语音支持功能;和超级文本标志语言(HTML)产生器,用于根据文件模式重新布置和重新产生内容对象要素,以产生小型显示屏的网页文件。
在本发明的另一个特征中,提供了网页内容转换方法,用于将个大显示屏幕的网页文件转换为小显示屏幕的网页文件,该方法包括预处理步骤,用于标准化包括错误标记的非标准的网页文件,将该标准化网页文件以适合于分析的数据格式进行输出;网页文件分析步骤,用于接收标准化网页文件,并且根据文件分析算法分析标记,以将网页文件设定为内容单元块(成分);成分块设定步骤,用于通过使用内容单元块(成分)的属性值和客户性能信息,将设定内容单元块(成分)在不超过最大的宽度范围内分组为相似组;成分块分类步骤,用于根据内容特征,对由成分块析取器产生的每个成分块进行分类,分类成为索引和正文体部分;索引产生步骤,用于提取在图像上的信息,或来自被分类为索引部分的成分块的文本索引,并且产生脚本文件和附加的标记集合,该附加的标记集合用于表示被提取的信息;语音标志产生步骤,用于将文本中心正文体内容块转换为语音标志语言,以便实现语音支持功能;和超级文本标志语言(HTML)产生步骤,用于根据文件模式重新布置和重新产生的内容对象要素,以产生小型显示屏网页文件。
根据上述结构和方法,本发明提供了适当的界面,其中网页文件的特征是通过内容单元块的重排反映同时表示的很多现有复杂信息,而没有现有的信息提取和汇总方法,并且同时支持可见和声音表示,且不用通过索引生成和内容单元块的分类左右卷屏,并且将网页文件转化成语音支持的文件格式,而不使用没有更深的或页面划分的索引结构的现有方法。
因此,在本发明中,通过内容单元块的重排,不用左右卷屏就可以浏览全部网页文件,索引块的选择和多种索引产生的功能考虑了显示装置的屏幕大小,在文字中心内容正文体块的情况下,可以通过转化成语音支持的标志语言提供更方便的界面,通过适当地构造用于小屏幕大小的结构,最大限度地反映最初的网页文件的内容。
应当理解的是上述本发明的一般说明及其后的详细说明是示范性的和说明用的,并且为本发明的权利要求提供更进一步的说明。


附图是为了能进一步了解本发明而包含的,并且被纳入本说明书中构成本说明书的一部分,这些附图示出了一个或多个本发明的实施例,并用于与本说明书一起对本发明的原理进行说明。在相关的附图中图1是一个示范性的视图,示出了经由可见分类和分组的网页文件,该网页文件用于表示彼此不同的成分块;图2是一个概念上的视图,示出了根据本发明的优选实施例的用于小型显示装置的网页内容转换系统的模块结构;图3是一个视图,示出了表格标记的表示分类关系;图4是一个流程图,示出了根据本发明的优选实施例的用于小型显示装置的网页内容转换系统的操作步骤;图5是一个流程图,示出了图4的网页文件分析步骤的详细算法;图6是一个流程图,示出了图4的成分块设定步骤的详细算法;图7A和7B是示范性的视图,用于说明根据本发明的优选实施例的网页文件分析步骤和成分块提取步骤;图8是一个流程图,示出了图4的成分块分类步骤的详细算法;图9A和9B是示范性的视图,示出了根据本发明的优选实施例的网页内容的转换结果。
具体实施例方式
现在将对本发明的优选实施例作出详细地说明,其中的例子是在相关附图中示出的例子。只要可能,自始至终使用相同的附图标记表示相同或相似的内容。
图1是一个示范性的视图,示出了经由可见分类和分组的网页文件,该网页文件用于表示彼此不同的成分块。
参考图1,网页文件被使用版面和结构的标记设计为内容的可见分类,且所述的内容的可见分类具有有意义的差别,从而使HTML(超级文本标志语言)的生产商清楚地发送内容。大多数可见分类使用结构表示的标记,例如“表格”等等,并且相应地,该标记可以被分析,以便理解全部的结构。在这时候,认为标记集合的一些不明智的使用、结构中不清楚的分类和HTML本身的含义使用了标记的属性值,标记的数据特征和用于表示标记目标的数据信息的位置信息等等,以及结构的标记来用于进行分析。
通过网页文件的结构分析,设定了构成如图1所示的可见分类版面的最小的内容单元块101(称作“成分”),并且考虑到性能,特别是用户装置的显示性能,将内容单元块101分组,用内容单元块(称作“成分块”)102来表示。
根据内容的特征将内容单元块102分类为“索引”内容和“内容正文体”部分,并且分别以适当的形式再表示。以如图9A的121所示的向上选择框的格式再表示索引部分,这点将在稍后进行说明,仅对正文体部分进行重新布置,不用进行任何转化成图9A的122所示的主要的内容部分的步骤,或转化成图9B的123所示的语音可支持的文件格式来表示。
图2是一个概念上的视图,示出根据本发明的优选实施例的用于小型显示装置的网页内容转换系统的模块结构,图4是一个流程图,示出了根据本发明的优选实施例的用于小型显示装置的网页内容转换系统的操作步骤。
如图2所示,根据本发明的内容转换系统详细地包括模块201到209,其用于执行预处理步骤(S1)、网页文件分析步骤(S2)、网页文件转换步骤(S3)、网页文件产生步骤(S4)的操作。
在预处理器201和客户个人文件分析器202中执行预处理步骤(S1)。预处理器标准化包括错误标记的非标准的网页文件,将该标准化网页文件以适合于分析的数据格式进行输出;所述的客户个人文件分析器202执行接收客户信息的功能。所述的客户信息可以被包括在用于传输的超级文本传输协议HTTP报头字段中,或可以利用用于传输的具体的通信协议。此外,在所述的预处理步骤(S1)中执行和外部模块的输入/输出管理。
在网页文件分析步骤(S2)中,基于版面的结构分析器203接收在预处理步骤(S1)中标准化的网页文件,并且通过网页文件分析算法将网页文件设置为内容单元块(成分)。图像转换器204提取有关图像编码/解码操作和网页文件的图像大小的信息。
在网页文件转换步骤(S3)中,成分块析取器205在不超过一个屏幕的最大宽度(MAXWIDTH)的范围内,通过使用与客户性能和内容单元块(成分)的属性值相关的信息,将被定义的内容单元块(成分)分组为相似块。成分块分类器206根据内容的特征将每个成分块分类为“索引”和“正文体部分”内容。
网页文件产生步骤(S4)执行产生必要的内容对象的操作。索引产生器207从索引分类的成分块中提取图像或文本索引信息,并且产生用于表示提取的信息的正本文件和附加的标记集合。声音标志产生器208执行转换操作,将文本中心正文体内容块转换为标志语言,所述的标志语言是例如语音XML等等,以便执行声音支持的功能。在这时,浏览器应该提供将声音信息的网页文件变为声音的功能。最后,定制的HTML产生器209适当地进行重新布置,并且根据文件模式再构造在早期步骤中产生的内容对象要素,以产生定制的网页文件。
图4是一个流程图,用于说明图2的全部操作步骤。参考附图,输入最初的HTML文件以标准化HTML文件,然后输出具有HTMLDOM树格式的数据结构(401到403)。在图2的预处理器201模块中执行这些步骤。在网页文件分析(HTML标记分析)步骤404中,输入树数据,以便分析标记,在图2的结构分析器203和图像转换器204中执行这些操作。下面将参考图5的流程图详细说明网页文件分析步骤404的详细算法。
在标记分析步骤之后,在图2的成分块析取器205中执行成分块设定步骤405,在图2的成分块分类器206中执行下一个成分块步骤406。参考图6和8的流程图说明成分块设定步骤405和成分块分类步骤406的每一个算法。
首先,参考图5,对网页文件分析步骤404的详细算法进行说明。
本发明的分析算法将就如下情况进行说明,其中主要使用了例如<TABLE>、<TR>、<TD>、<IMG>等标记,具体的标记<TD>被定义为将被作为内容单元分析的最小单元使用的成分。
首先,输入HTML文件树数据结构,通过用户装置接收的最大屏幕宽度被定义为最大的宽度“MAX_WIDTH”(501,502)。在分析操作中,将表格1中的信息另外存储在标记节点<TD>中,且稍后用来提取成分块。
表格1

在步骤502的初始化全程变量结束之后,重复地执行以下操作(503)的过程中,以预先确定顺序的序列访问所有的标记节点。
在访问的节点是<TABLE>标记(504)的情况下,检查表格深度(Table_depth)(505),在大于临界值(例如3)情况下,<Table>标记和全部下级子节点被认为是用于仅执行宽度设定步骤(506)而不用任何进一步分析的通用内容。如果表格深度(Table_depth)没有超过临界值(例如3),表格深度(Table_depth)值加1(507)。
如果访问节点是<TR>标记(508),行号增加(Row_num)。然而,如果是套用表格的第一行,行号不增加。此外,如果是根表格的<TR标记>,将列号(Colnum)初始化为零。
如果访问节点是<TD>标记(510),确定是否包括内容(511),以便增加列号(Col_num)(512)。然而,不增加套用表格<TR>的第一<TD>。如果<TD>没有包括在版面表示中使用的内容,执行宽度设定步骤522,如果包括了内容,设定内容并且附加结构信息。
也就是说,该内容被定义为具有内容的<TD>标记块。如果包括<TABLE>标记作为内容之中的子节点(513),将套用内容设定为标记如表格1所示内容号码(Comp_num)的值(514),如果作为内容被包括的不是<TABLE>标记,设定通用成分,以便将内容号码(Comp_num)的变量定义为增加的序号(515)。
参考图3的<TABLE>标记的表示分类关系视图,可以对被包括在<TD>标记中的标记类型进行检查。参考附图,表格被分类为TR和CAPTION,TR被分类为TH和TD。
如果访问的节点是<IMG>(516),检查宽度然后改为(517,518)。如果改变了宽度,检查是否设定了图像映射。如果设定了图像映射,图像映射代码<AREA>的属性值COORDS表示使用520的公式修改的坐标值。在步骤518的宽度设定操作中,a%设定值被转换为像素,如果宽度超过最大的宽度(MAXWIDTH),用最大的宽度(MAX_WIDTH))代替宽度,并且如果没有设定宽度属性值,使用<TR>宽度、<TD>宽度的总和以及最大<IMG>宽度等等做出类比。
图7A和7B是示范性的视图,用于说明根据本发明的优选实施例的网页文件分析步骤和成分块提取步骤;通过图7A和7B的例子,检查从图5的算法中获得的结构信息。
在图7A中示出了结构标记的可见表示,示出了<TABLE>、<TR>、<TD>块,将内容设定为具有内容的<TD>标记块。在表格2中示出了附加信息。在图7B中以结构标记的树模型的形式表示了图7A中的标记集合,可以很容易地理解标记之间分类关系。
表格2

在上述表格2中,在图7A和7B中的(A)是内容号码(Comp_num)的第一个数字,假设最大的宽度(MAX_WIDTH)低于500像素。
接下来,成分块通过插入和用于生成的向上先辈<TABLE>相同的位置的分离<TABLE>标记的单一<TD>,参考成分单元捆绑了包括在其中的所有的标记集合。
参考图6和图7B,将接着说明成分块设定步骤(405)的详细算法。
首先,输入成分树(Component_tree),以便检查全部内容节点的最初宽度信息,然后当超过最大的宽度(MAX_WIDTH)的时候执行以下操作(601_604)。确定当前内容节点(A)是否有兄弟节点(siblingnode),然后,如果有兄弟节点,在不超过最大的宽度(MAX_WIDTH)范围内执行捆绑相似兄弟节点的分组操作。在图7B的例子中,可以将①、②、③的成分分组为(①)、(②)、(③)或(①③)、(②)。
在以下的数据表分块步骤(608)中,用以例如“<TABLE><TR>成分①、③</TR></TABLE>”的格式的一个数据表块来表示属于每一个组的全部标记集合。或,如果没有兄弟节点,仅在步骤608中执行成分节点的表格分块操作。
在步骤609的数据表块重新布置步骤中,在向上操作中重新产生的数据表块被作为(A)的祖父节点插入到<TABLE>节点(B)的前一个兄弟节点中。
如果(A)是(B)的最后<TD>节点(610)并且(B)是套用表格(611),执行下一步(612),否则,访问下一个节点,以便重复地执行步骤602中之前的操作。
当图7B的⑦、14、15是(A)的时候,也就是当前正在访问的成分是(A)的时候执行下一步。如果向上先辈<TD>具有作为子节点的(B),也就是说,(C)是套用成分,执行步骤609。换句话说,图7B的⑦、14和每一个(C)变成了⊙和⊙″。参考在(C)的子节点中包括(B)的子节点(图7B的701),在左右两端的兄弟节点通过每一个数据表块被捆绑在一起(图7B的702、703)。此外,产生包括(C)的数据表块(614),重复执行步骤609。
通过数据表块提取内容作为一个表示单元,被提取的内容被定义为成分块。每一个成分块具有根据该内容在树中的位置确定的布置序列,并且用数据表块的形状表示,取决于该序列从上到下。
继续参考图8,将说明成分块分类步骤406的详细算法。
比较成分块的内容模式时输入成分块树以便在访问全部成分块。在这时候,以下表格3列出了可用的可比较的变量。
表3

根据比较模式值是否超过某一临界值的结果,确定索引类型(INDEX类型)(804,805)。确定为索引(INDEX)的成分块分别根据内容的数据类型是图像还是文本,设置类型值为图像索引(INDEX_I)和文本索引(INDEX_T)(806_808)。
不是索引(INDEX)的块被分类为正文体(BODY),作为语音正文体(BODY_V)类型的分类转化成语音可支持的文件,作为其它通用成分块的通用正文体(BODY_G)根据对被包括的内容的相对重要性来处理。如果在步骤813中没有最后块,从步骤802开始为下一个块执行操作。
将参考图4示出的全部操作步骤说明分类操作之后的处理。
参考附图,将成分块分类之后(407_409,412),执行图4的步骤411、413、414,或根据每个成分块的类型较好地提取成分块(410)。全部成分块都执行这个操作(415),在最后步骤416适当地排列每一个块,以便产生新的HTML文件(417)。接下来说明通过成分块的类型的操作方法。
如果成分块的类型是语音正文体(BQDYY)(Type==BODY_V),执行语音文件产生步骤(411),以便产生语音支持文件,这个操作是在图2的语音标志产生器208模块中执行的,可以将全部文本内容作为块中的以下表格4的采样代码中的<prompt>值,将其添加到其中,以便产生简单的语音XML文件。将产生的文件作为分离文件存储,并且用链接连接到最初的HTML。
表格4< xml version=”1.0” >
<vxml version=”1.0”>
<form>
<block>
<prompt>
(将从被分类为BODY_V的块中提取的文本信息添加到值)</prompt>
<discount/>
</block>
</form>
</vxml>
在此,如果成分块的类型是通用的正文体(BODY_G)(Type=BODY_G),由于通用的内容要素可以很好地为重排进行提取。
如果成分块的类型是图像索引((INDEX_I)(Type==INDEXA_I),通过图像索引产生步骤(413)产生用Java脚本表示的图像索引(图像索引)。作为在以下表格5的采样代码的例子,自动地产生简单的脚本文件,并且该图像文件映射于它的实施例。
表格5//jayascnpt filled into HEAD<SCRIPT LANGUAGE=”JavaScript”>
<!-imagel=newImage();
imagel.src=″imagel.gif′;
image2=newImage();
image2.src=″image2.gif”;
image3=newImage();
image3.src=″image3.gif”;
image4=newImage();
image4.src=″image4.gif′;
links=new Array;
links
″LINK#1″;
links[1]=″LINK#2″;
links[2]=″LINK#3″;
links[3]=″LINK#4″;
function imgchange(){var imageNum=document.form.sellmage.selectedlndex+1;
fname=eval(″image″+imageNum+″.src″);
document.img.srcfname;
}functiongo(){location=links[document.form.selhnage.selectedIndex];
}function showlink(){window.status=links[document.fonn.sellmage.selectedIndex];
}//->
</SCRIPT>
//form tag filled into BODY<FROM name=”from”>
<SELECT NAME=”selImage”size=1 onchange=”imgchange();”>
<OPTION>Index1<OPTION>Index2<OPTION>Index3<OPTION>Index4</SELECT>
</FORM>
<a href=”” onClick=″go();returnfalse;”onMouseOver=”showlink();return true;”onMouseOut=window/status=”;retureture;”><IMGSRC=”imagel.gif”NAME=”img”border=0></a>
在此,成分块的类型是文本索引(INDEX_T)(类型=INDEX_T),索引信息表示为文本,并且通过文本索引产生步骤414使用如以下表格6所示的<select>标记进行再表示。在图2的索引产生器207模块中执行图像索引产生步骤(413)和文本索引产生步骤(414),并且可以以通用的方式提取索引信息。
表格6//java script filled into HEAD<script language=”JavaScript”>
<!-function change(form){var list=form.selectedIndex;
location type=form.options用会话密钥块保证电子交易中的保密性的方法借助相关联的图像来访问多媒体元素的方法和设备的制作方法用于分布式网络上的考试的系统和方法响应访问一应用服务的请求的方法和系统的制作方法.value;
//在下面中选择位置类型//-self.location.href:链接到属于自己的帧//-top.location.href:不顾帧改变所有屏幕//-parent.location.href:改变包括自己的父母帧//-parent.framename.location.href:链接到在父母帧中具有所选名称的子帧form.selectedlndex=0;
};
//->
</script>
//form tag filled into BODY<form name=”formname”method=”get”>
<select name=”form”onchange=”change(document.formname.from)”>
<option selected>index List</option>
<option value=”linke#1”>index 1</option>
<option value=”linke#2”>index 2</option>
<option value=linke#3”>index 3</option>
</select>
</form>
根据如上所述的内容特征用适当的方法表示每个成分块之后,通过在图2的HTML产生器209中执行的新的HTML构造和产生步骤416,排列并且产生内容对象。以下表格7的采样代码提供了全部的HTML的标记结构,和每个内容对象的简单的排列方法。
表格七<HTML>
<HEAD>
<TIILE></TITLE>
<SCRIPT>-->通过Java脚本产生器模块自动产生包装脚本文件。
如果产生了图像索引,添加这个.
</SCRIPT>
</HEAD>
<BODY>-->附加被分类为INDEX_T的成分块或BODY标记的BODY_G<SELECT>
<OPTION>-->产生和文本索引一样多的选择列表,并且利用选择标记排列相应的值。
</SELECT>
<TABLE>
<TR>
<TD>-->按照TABLE TD.的值将包括了被分类为BODY_G的每个成分块进行排列。在这时候,根据客户个人文件表示的显示性能信息确定全部重新产生的表格的宽度。
<IMG src=”speaker.gif”/><A href=***.xml”>listening to content(Title)</A>-->将连接BODY_V块转化成语音XML。
</TD>
</TR>
</TABLE>
</BODY>
</HTML>
如上所述的发明的内容转换系统可以增加三层网络服务器、客户、代理,分别根据它的环境具有优点和缺点。此外,成分和成分块的选择算法可以是多种方法,此外,用了几个具体化方法之一举例说明了索引产生和语音文件产生的方法。
图9A和9B是示范性的视图,示出了根据本发明的优选实施例的网页内容的转换结果。
图9A示出通过内容单元目标的重排和索引选择转换的网页文件的结果页面,图9B示出了一个结果页面,该结果页面表示了将语音支持标志创建功能添加到了图9A的结果页面的情况。
工业实用性如上所述,本发明提供了新的技术和系统,因此将适合于现有的通用台式机个人计算机的显示性能的制定的网页文件,转换成在小型显示装置的用户想通过连接无线因特网使用网络服务的情况下,即使在小型显示器上也可以有效显示的网页文件。根据本发明,通过分析结构标记信息将网页文件设置为内容单元块,并且捆绑相似的内容单元组,然后在用于重排的内容信息的基础上,将其分类为索引或正文体部分,使得浏览功能具有适当的界面,不用为了浏览全部网络页面而左右卷屏。此外,考虑了小型装置的特征,还提供了索引的选择和产生,和语音支持网页文件的转换,以便提供了多种网页文件的重建,和有效表示。此外,还可以获得为了进行有意义的输送而最大限度地保持原始文件的效果。
对本领域的普通技术人员来讲,对本发明的多种修改和变动都是显而易见。因此,本发明试图覆盖这些修改和变化,本发明提供的它们修改和变化都被归入所附的权利要求和它们的等效范围之内。
权利要求
1.一种网页内容转换系统,用于将大显示屏幕的网页文件转换为小显示屏幕的网页文件,所述的系统包括预处理器,其用于标准化具有错误标记的非标准的网页文件,以将该标准化网页文件以适合于分析的数据格式输出;客户个人文件分析器,其用于提取和管理客户信息;结构分析器,其用于接收在预处理器中标准化的网页文件,以根据文件分析算法将网页文件设定为内容单元块(成分);图像转换器,其用于提取关于图像编码/解码步骤的信息和包括在网页文件中的图像大小;成分块析取器,其用于通过使用内容单元块(成分)的属性值和客户性能信息,将设定的内容单元块(成分)在不超过最大宽度的范围内分组为相似组;成分块分类器,其用于根据内容特征将由成分块析取器产生的每个成分块进行分类,分类为索引和正文体部分;索引产生器,其用于从被分类为索引部分的成分块提取关于图像或文本索引的信息,并且产生脚本文件和附加的标记集合,该附加的标记集合用于表示被提取的信息;语音标志产生器,其用于将文本中心正文体内容块转换为语音标志语言以便实现语音支持功能;和超级文本标志语言HTML产生器,其用于根据文件模式重新布置和重新构造产生的内容对象要素,以产生小型显示屏的网页文件。
2.如权利要求1所述的网页内容转换系统,其中,该网页内容转换系统是被安装在网络服务器、客户和代理这三个层的任何一层上的。
3.一种网页内容转换方法,其用于将大显示屏幕的网页文件转换为小显示屏幕的网页文件,所述的方法包括预处理步骤,其用于标准化包括错误标记的非标准的网页文件,以将该标准化网页文件以适合于分析的数据格式输出;网页文件分析步骤,其用于接收标准化网页文件并且根据文件分析算法分析标记,以便将网页文件设定为内容单元块(成分);成分块设定步骤,其用于通过使用内容单元块(成分)的属性值和客户性能信息,将设定的内容单元块(内容)在不超过最大宽度的范围内分组为相似组;成分块分类步骤,其用于根据内容特征对由成分块析取器产生的每个成分块进行分类,分类为索引和正文体部分;索引产生步骤,其用于从被分类为索引部分的成分块提取关于图像或文本索引的信息,并且产生脚本文件和附加的标记集合,该附加的标记集合用于表示被提取的信息;语音标志产生步骤,其用于将文本中心正文体内容块转换为语音标志语言,以便实现语音支持功能;和超级文本标志语言HTML产生步骤,其用于根据文件模式重新布置和重新构造产生的内容对象要素,以产生小型显示屏网页文件。
4.如权利要求3所述的网页内容转换方法,其中,在该网页文件分析步骤中,主要分析例如<TABLE>、<TR>、<TD>、<IMG>等标记,且具体的标记<TD>被定义为用作内容单元分析的最小单元的成分。
5.如权利要求3所述的网页内容转换方法,其中,在该成分块设定步骤中,输入内容树以检查全部成分节点的最初宽度信息,并且检查当前成分节点是否存在兄弟节点,且如果存在兄弟节点,在不超过最大的宽度(MAXWIDTH)的范围内将相似的兄弟节点捆绑并分组。
6.如权利要求3所述的网页内容转换方法,其中,该成分块分类步骤包括如下步骤接收成分块树以当比较成分块的内容模式时访问全部成分块;如果模式比较的结果值超过了确定的临界值,则确定索引类型;根据内容的数据类型是图像或文本,设定确定的索引块的类型为图像索引INDEX_I或文本索引INDEX_T的每一个;和将不是索引的块分类为正文体,并且将用于执行转化的语音正文体BODY_V分类为语音支持文件,并且将通用正文体BODY_G处理为其它通用内容块。
全文摘要
本申请公开了用于将大显示屏幕的网页文件转换成为小显示屏幕的网页文件的网页内容转换系统和方法。该系统可以包括用于为了分析标准化网页文件的预处理器;用于提取和管理客户信息的客户个人文件分析器;结构分析器;和用于提取与图像编码/解码过程和图像大小有关的信息的图像转换器;成分块析取器,其用于在不超过最大宽度的范围内将内容单元块(成分)分组为相似的组;成分块分类器,其用于将每个组件块析取器分类为索引和正文体部分;索引产生器;声音标志产生器;和超级文本标志语言(HTML)产生器。
文档编号G06F17/30GK1732459SQ200380108132
公开日2006年2月8日 申请日期2003年10月31日 优先权日2002年11月1日
发明者申喜淑, 李东雨, 马萍洙, 金范镐, 赵秀善, 韩东原, 崔银净 申请人:Lg电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1