网络兼容电子装置、网页处理方法和程序的制作方法

文档序号:6473926阅读:121来源:国知局
专利名称:网络兼容电子装置、网页处理方法和程序的制作方法
技术领域
本发明涉及一种网络使能电子装置、网页处理方法和程序,其用于具有连接到网络的功能并处理网络上的内容用于最适合于其自身显示环境的显示的诸如PDA、便携式电话、电视机等的电子装置。
背景技术
一般来说,和个人计算机相比,用于嵌入程序、网络使能电子装置(例如PDA(个人数字(数据)助理)、便携式电话、电视机)的人机界面较差。另一方面,网络上的许多内容设计用于使用鼠标和高分辨率显示设备的个人计算机的浏览/显示。因此,当用户试图使用诸如上述的网络使能电子装置来浏览/显示网络上的内容时,用户无法避免地要遇到各种不便。
例如,大部分网络使能电子装置采用分辨率低于个人计算机的显示设备。如上所述,许多网页被设计用于个人计算机所用的高分辨率显示设备的浏览/显示。由此,例如,如图16所示,在许多情况下,诸如PDA的网络使能电子装置161所配备的低分辨率显示设备162一次只能显示整个网页163的一部分164,从而对用户操作造成了很大的负担,例如必须反复垂直和水平滚动以观看整个页面。
增加小屏幕上可显示的信息量的方法包括根据页面浏览器而省略图像、紧排、换行字符的方法,以及根据显示屏幕的表面面积而选择所显示字符字体的最优尺寸的技术(例如参看日本专利申请第2002-156957( 段,图15)。

发明内容
然而,不论如何,根据网络浏览器,即使省略了图像、进行紧排、换行字符,PDA等等的小屏幕一次也只能显示整个页面的一部分。另外,即使使用了根据显示屏幕的表面面积而选择所显示字符字体的最优尺寸的技术,也存在单个屏幕上可显示的字符数目的限制,并且进一步地,小字符可能引起使阅读困难的不良效果。
做出本发明以克服这些问题,并且目的在于,提供一种网络使能电子装置、网页处理方法和程序,其能够通过重构为适合于在低分辨率环境下浏览的页面来显示通过网络获取的网页,并且以低成本重构以各种类型的语言编写的网页。
为了达到上述目的,本发明的网络使能电子装置包括网页获取部件,用于获取至少包括标题行和与该标题行有关的故事主体的第一网页;以及网页重构部件,用于从所述由网页获取部件所获取的第一网页中提取所述故事主体以创建包括该故事主体的第二网页,并且从所述第一网页中提取所述标题行以创建包括该标题行并且具有至所述第二网页的链接的第三网页。
即,该网络使能电子装置通过分割为具有至故事主体的链接的标题行网页(第三网页)和故事主体网页(第二网页),使得能够在分离的屏幕上浏览经由网络获取并包括标题行和与该标题行有关的故事主体的第一网页。结果,可以在不用滚动或者少量滚动的情况下,在诸如PDA等的移动终端的较差(低分辨率)显示环境下高效地浏览设计用于个人计算机的高分辨率网页的整个部分的内容。
另外,在第一网页的标题行由标题行和子标题构成、并且其故事主体由标题行的故事主体和至属于子标题的文章的链接列表构成的情况下,创建标题行的故事主体的页面和提供至属于子标题的文章的链接的列表页面作为第三网页,并且创建包括具有至其故事主体的链接的标题行和具有至链接列表页面的链接的子标题的页面作为第二网页。结果,如果在第三网页上指定标题行,则可以显示该标题行的故事主体的页面,并且当指定子标题时,可以显示提供至属于该子标题的文章的链接的列表页面。由于以整体具有一定规律的方式提供每个网页,用户可以消除其在达到目标网页的操作中的尝试和错误,由此直接到网页内容本身的网络浏览成为可能。
另外,在本发明的网络使能电子装置中,网页重构部件包括显示元素位置判定部件,用于在内部描绘(depict)第一网页,并根据描绘的数据判定第一网页上各个显示元素的位置;群集(cluster)分类部件,用于根据判定的显示元素位置,将布局上密切相关的各个显示元素连接在一起,以分类为几个群集;特定群集区分部件,用于检测各个群集的布局特征,并且根据该特征检测的结果,将第一网页上的标题行的群集和故事主体的群集与其他群集区分开来;以及对于经过区分的标题行群集和故事主体群集,形成每个包括具有为显示元素的相同字符属性的群集的组、计算包括在每个组中的各个群集内的字符数目的平均值、并且将具有高平均值的组确定为故事主体以及将具有低平均值的组确定为标题行的部件。
虽然有各种类型的页面描述语言,例如HTML、XHTML、XML+CSS,但是根据本发明,只要网页是以可解释和可翻译的页面描述语言描述的,就可以重构网页,并且由此和涉及基于语义的标签分析的网页重构方法相比,可以减少页面重构所需的费用。
另外,在本发明的网络使能电子装置中,特定群集区分部件将页面上跨越最大数目显示元素的垂直线确定为重心线,使用确定的重心线作为基准,从左侧、右侧、中间的至少一个判定各个群集的布局特征,并且将其特征被判定为中间的群集与其他群集区分开来作为标题行群集和故事主体群集。
在大部分网页中,主要内容布局在页面水平轴的中间。可以将页面上跨越最大数目显示元素的垂直线当作页面水平轴上布局有主要内容的位置,并且如果从左侧、右侧、中间的至少一个判定各个群集的布局特征,则设置该垂直线作为重心线,并且使用该重心线作为基准,然后可以用高精度将其特征被判定为中间的群集与其他群集区分开来作为标题行群集和故事主体群集。
另外,根据本发明另一方面的网页处理方法是一种用于具有处理/计算部件和显示网页的显示部件的网络使能电子装置的网页处理方法,所述网页处理方法包括通过网络获取至少包括标题行和与标题行有关的故事主体的第一网页的步骤;通过处理/计算部件的处理/计算而从获取的第一网页中提取故事主体以创建包括该故事主体的第二网页的步骤;以及通过处理/计算部件的处理/计算而从第一网页中提取标题行以创建包括该标题行并具有至第二网页的链接的第三网页的步骤。
即,本发明的网页处理方法通过分割为具有至故事主体的链接的标题行网页(第三网页)和故事主体网页(第二网页),使得能够在分离的屏幕上浏览通过网络获取并包括标题行和与该标题行有关的故事主体的第一网页。结果,可能在不用滚动或者少量滚动的情况下,在诸如PDA等移动终端的较差(低分辨率)显示环境下高效地浏览设计用于个人计算机的高分辨率网页的整个部分的内容。
另外,在本发明的网页处理方法中,处理/计算部件被配置用于在内部描绘第一网页,并且根据该描绘数据判定第一网页上各个显示元素的位置,根据判定的显示元素位置将布局上密切相关的各个显示元素连接在一起以分类为几个群集,检测各个群集的布局特征,并且根据该特征检测的结果,将第一网页上标题行的群集和故事主体的群集与其他群集区分开来,对于经过区分的标题行群集和故事主体群集,形成每个包括具有为显示元素的相同字符属性的群集的组,计算包括在每个组中的各个群集内的字符数目的平均值,并且将具有高平均值的组确定为故事主体、具有低平均值的组确定为标题行。
因此,根据本发明,只要网页是以可解释和可翻译的页面描述语言描述的,就可以重构网页,并且由此与涉及基于语义的标签分析的网页重构方法相比,可以减少页面重构所需的费用。
另外,在本发明的网页处理方法中,处理/计算部件被配置用于将页面上跨越最大数目显示元素的垂直线确定为重心线,使用确定的重心线作为基准,从左侧、右侧、中间的至少一个判定各个群集的布局特征,并且将其特征被判定为中间的群集与其他群集区分开来作为标题行群集和故事主体群集。
可以将页面上跨越最大数目显示元素的垂直线当作上述页面上的水平轴上布局有主要内容的位置,并且如果从左侧、右侧、中间的至少一个判定各个群集的布局特征,则设置该垂直线作为重心线,并且使用该重心线作为基准,可以用高精确度将其特征被判定为中间的群集与其他群集区分开来作为标题行群集和故事主体群集。
另外,根据本发明的另一方面的程序使计算机作为以下部件网页获取部件,用于获取至少包括标题行和与该标题行有关的故事主体的第一网页;和网页重构部件,用于从网页获取部件所获取的第一网页中提取故事主体以创建包括该故事主体的第二网页,并且从第一网页中提取标题行以创建包括该标题行并具有至第二网页的链接的第三网页。
根据本发明的程序,通过分割为具有至故事主体的链接的标题行网页(第三网页)以及故事主体网页(第二网页),使得能够在分离的屏幕上浏览通过网络获取并包括标题行和与该标题行有关的故事主体的第一网页。结果,可能在不用滚动或者少量滚动的情况下,在诸如PDA等的移动终端的较差(低分辨率)显示环境下高效地浏览设计用于个人计算机的高分辨率网页的整个部分的内容。
另外,在本发明的程序中,网页重构部件使计算机作为以下部件显示元素位置判定部件,用于在内部描绘第一网页,并且根据该描绘数据判定第一网页上各个显示元素的位置;群集分类部件,用于根据判定的显示元素的位置将布局上密切相关的显示元素连接在一起以分类为几个群集;特定群集区分部件,用于检测各个群集的布局特征,并且根据该特征检测的结果,将第一网页上的标题行的群集和故事主体的群集与其他群集区分开来;以及对于经过区分的标题行群集和故事主体群集,形成每个包括具有为显示元素的相同字符属性的群集的组、计算包括在每个组中的各个群集内的字符数目的平均值并将具有高平均值的组确定为故事主体、将具有低平均值的组确定为标题行的部件。
根据本发明,只要网页是以可解释和可翻译的页面描述语言描述的,就可以重构网页,并且由此和涉及基于语义的标签分析的网页重构方法相比,可以减少页面重构所需的费用。
另外,在根据本发明的程序中,特定群集区分部件的特征在于使计算机作为具有以下功能的部件将页面上跨越最大数目显示元素的垂直线确定为重心线,使用所确定的重心线作为基准,从左侧、右侧、中间的至少一个判定各个群集的布局特征,并且将其特征被判定为中间的群集与其他群集区分开来作为标题行群集和故事主体群集。
根据本发明,可以用高精确度区分其特征被判定为中间的群集作为标题行群集和故事主体群集。


图1为示出根据本发明实施方式的网络使能电子装置的电子结构的方框图。
图2为示出页面重构程序的模块结构的图。
图3为示出页面重构程序的过程的流程图。
图4为示出在移动终端中附加了用于页面重构的标识符的URL的输入状态的图。
图5为示出原始网页的例子和通过群集该网页上的每个显示元素而获得的结果的图。
图6为示出通过根据群集在布局上的含义进行分类而获得的结果的图。
图7为示出用于分类群集的过程的流程图。
图8为示出在图7的用于分类群集的过程中确定重心线的过程的流程图。
图9为示出确定重心线的具体例子的图。
图10为示出在图7的分类群集的过程中,在“左侧”、“右侧”、“未使用”当中确定赋予群集的布局含意的过程的流程图。
图11为示出图10中确定赋予群集的布局含意的处理的具体例子的图。
图12为示出在图7的分类群集的过程中,在“标题行(包括子标题)”、“主体(包括至文章的链接)”当中确定赋予群集的布局含意的过程的流程图。
图13为示出重构的网页的例子的图。
图14为示出用于(在创建顶部页面133时)重构网页的过程的流程图。
图15为示出在网络上的服务器上重构网页的情况下的配置的方框图。
图16为示出在低分辨率的显示设备上显示普通网页的状态的图。
具体实施例方式
以下将参照附图描述本发明的实施方式。
图1为示出根据本发明实施方式的网络使能电子装置的电子结构的方框图。
如图所示,该网络使能电子装置100具有作为处理/计算部件的CPU(中央处理单元)1,主存储器2,程序/数据存储部件3,处理至诸如因特网的网络4的连接的网络接口部件5,可视地向用户提供信息的显示设备6,使用VRAM(视频RAM)7对显示设备6的屏幕执行绘制处理的图形控制器8,处理来自诸如微动盘(jog dial)的用户操作输入部件9的输入的用户接口控制器10,以及用于在上述部件之间传送信号的总线11。
根据例如程序/数据存储部件3中所存储的、由用户从操作输入部件9输入的程序和数据等,CPU 1使用主存储器2作为工作区域来执行各种计算处理和控制。主存储器2包括随机读写高速存储器,例如RAM(随机访问存储器)。程序/数据存储部件3是只读或可读/可写的非易失性存储设备,例如为ROM(只读存储器)、闪存ROM、磁盘驱动器等等。
具体地讲,显示设备6是CRT(阴极射线管)、LCD(液晶显示器)、PDP(等离子显示板)、OEL(有机电致发光)等等。具体地讲,用户的操作输入部件9为简单的键盘、IR(红外线)遥控器、微动盘、按钮等等。
网络接口部件5为例如模拟调制解调器、LAN(局域网)、ISDN(综合业务数字网)、ADSL(非对称数字用户线)、FTTH(光纤到户)、蓝牙或FOMA(W-CDMA)等等。
该网络使能电子装置100提供有以下功能将获取的网页重构为适合于诸如其自身显示设备的分辨率的显示环境的形式以显示和浏览。
程序/数据存储部件3存储有例如用于操作该网络使能电子装置100的OS(操作系统)的基本程序,以及在该基本程序下执行网页重构的页面重构程序,网络浏览器等等。这些程序被加载到主存储器2内由CPU 1解释、执行。
图2为示出上述页面重构程序的模块结构的图。如图所示,页面重构程序21包括适配代理31、适配引擎32和群集引擎33。
接着将描述该页面重构程序21的过程。图3为示出该页面重构程序21的过程的流程图。注意此处将诸如PDA的移动终端100当作网络使能电子装置100的例子。
首先,在该移动终端100中,由用户输入URL。此时,如图4所示,用于页面重构的标识符(例如”/??ID=index”)52被附加到URL(例如http//www.somewhere.com)51的尾部,然后输入页面浏览请求,由此将该请求给予页面重构程序作为页面重构的请求(ST301)。
响应于页面重构的请求,页面重构程序21启动适配代理31,并向其发送该URL。适配代理31根据URL经由因特网下载原始网页34,以传送到适配引擎32(ST302)。
适配引擎32在主存储器2中以DOM(文档对象模型,Document ObjectModel)树35的形式存储所获取的网页34的源代码,并且在内部绘制(不显示)该网页。接着,适配引擎32找到感兴趣的网页上诸如字符串和图像的显示元素的绘制位置,并且在主存储器中和标签结合存储该位置信息作为标签/位置信息36。注意,显示元素的绘制位置根据字符字体的大小、字符数目、图像大小而变化,并且因此对于字符考虑字符字体大小、字符数目等以及对于图像考虑图像大小等来找到绘制位置。
DOM树指其中整个页面的诸如标签、字符、图像等的元素被制成层次型,以便使人能够(例如)利用应用程序来搜索、编辑页面的树形结构。另外,DOM是访问作为树形结构内的一组节点对象的XML(可扩展标记语言)文档的API(应用程序编程接口,Application Programming Interface)。除了DOM之外,用于XML文档的API还包括SAX(用于XML的简单API)。
此后,适配引擎32将标签/位置信息36传送给群集引擎33以指令群集引擎33进行群集。通过根据标签/位置信息36将视觉上紧密相关(距离较近)的标签(显示元素)连接在一起,群集引擎33将网页上的标签(显示元素)分类为几个群集(ST304),并且在主存储器2中存储有关分类后的群集的信息作为群集列表37。
图5的标号70表示从原始网页60上进行的显示元素61a至611的群集获得的结果。标号71a至711表示各个群集71b表示网页上标题行61b的群集,71c表示该标题行的故事主体61c的群集;71f、71h、71j分别表示子标题61f、61h、61j的群集;71g、71i、71k分别表示属于子标题的文章列表部分61g、61i、61k的群集。因为和其他显示元素没有视觉上的相关,所以,标题行61b和子标题61f、61h、61j被分别生成为单独的群集71b、71f、71h、71j。另外,文章列表61g、61i、61k被分别生成为群集71g、71i、71k,其中对于每个属于单个子标题的集合提供一个列表。除此以外,获得某些显示信息作为群集71a、71d、71l。
群集技术包括在2D数据开采领域中公知的基于格栅的技术(参照http//www.cs.ualberta.ca/~zaiane/courses/cmput695-00/papers/wave.pdf)。
接着,群集引擎33从各个生成的群集71a至71l中提取布局特征,以赋予其布局上的含意。即,如图6所示,群集引擎33将各个群集71a至71l分类为五种类型的含意,即“左侧”(L)、“右侧”(R)、“标题行(包括子标题)”(H)、“主体(包括至文章的链接)”(B)、“未使用”(U)(ST305),并且将结果传送给适配引擎32。以后将详细描述该群集分类的细节。
返回图2,适配引擎32根据群集的分类结果重构网页(ST306),并且将重构的页面信息38存储在主存储器2中。此后,网络浏览器读取主存储器2中存储的重构的页面信息38以在显示设备6的屏幕上显示(ST307)。
接着,将描述分类群集的方法的细节。
图7为示出用于分类群集的过程的流程图;图8为在图7的用于分类群集的过程中确定重心线的过程;图9为确定重心线的具体例子;图10为在图7的分类群集的过程中从“左侧”、“右侧”、“未使用”当中确定赋予群集的布局含意的过程;图11为图10中确定赋予群集的布局含意的过程的具体例子;图12为在图7的分类群集的过程中从“标题行(包括子标题)”、“主体(包括至文章的链接)”当中确定赋予群集的布局含意的过程。
首先,在图7的ST701中,群集引擎33确定页面屏幕的重心线,其作为检测每个群集的布局特征的基准。重心线指在页面屏幕上沿其排列了最大数目的显示元素并沿Y轴延伸的线。
例如图8的过程和图9的具体例子所示,确定重心线的具体方法如下。首先,设置网格线82,其相等地将已经过群集的整个页面屏幕分割为例如16(4×4)个区域(ST801)。对于页面中间的4(2×2)个区域,对于从(X轴方向上)左或右端在预定间隔(Δd)处的Y轴方向上延伸的每条线,计数存在的显示元素(P)的数目(ST802),以确定获得最大计数Pmax的在Y轴方向上延伸的线作为重心线83(ST803-806)。
在以此方式确定重心线83之后,在图7的ST702,执行从“左侧”、“右侧”、“未使用”当中确定赋予各个群集的布局含意的处理。例如图10的过程和图11的具体例子所示,用于该处理的具体方法如下。首先,在跨越重心线83的群集71a、71b、71c、71f、71g、71h、71i、71j、71k的、由网格线82分割的16(4×4)个区域的上部12(4×3)个区域,将在Y轴方向上延伸的、具有最左侧投影群集(在该例子中为71c)的左端的X坐标(具有最小X坐标)的线121判定为左手边界线,将在Y轴方向上延伸的、具有最右侧投影群集(在该例子中为71i)的右端的X坐标(具有最大X坐标)的线122判定为右手边界线(ST1001)。结果,以左手和右手边界线121、122作为边界整个页面屏幕81被分割为三个区域。
此后,群集引擎33从群集列表37中得到有关单个群集的信息(ST1002)。该群集信息包括有关构成该群集的显示元素的信息(标签、位置信息)。群集引擎33根据该群集信息,如下所述,从“左侧”、“右侧”、“未使用”当中确定赋予群集的布局含意。
首先,如果群集延伸越过左手边界线121和右手边界线122两者(ST1003处为是),则群集引擎33将该群集归类为“未使用”群集(ST1007),并且将其从群集列表37中排除(ST1008)。
在群集完全包括在左手边界线121的左侧区域中的情况下(ST1004处为是),则群集引擎33将该群集归类为“左侧”群集(ST1009),在群集完全包括在右手边界线122的右侧区域中的情况下(ST1004处为是),则群集引擎33将该群集归类为“右侧”群集(ST1009),并且将其从群集列表37中排除(ST1010)。
另外,在群集未完全包括在左手边界线121的左侧区域(ST1004处为否)但是跨越边界线之一(左手边界线121或右手边界线122)(ST1005处为是)的情况下,则群集引擎33计算群集的重心线,并且根据该重心线距离左手边界线121或右手边界线122的远近而归类该群集,即,在该群集更靠近左手边界线121的情况下为“左侧”群集,或者在该群集更靠近右手边界线122的情况下为“右侧”群集(ST1012),并且将其从群集列表37中排除(ST1013)。
对于群集列表37中所登记的每个群集重复以上处理。
那些未被分类为“左侧”、“右侧”、“未使用”中的任一种的群集应该是“标题行(包括子标题)”和“故事主体(包括至文章的链接)”群集中的任一种。该群集分类例如由图12所示的过程执行。
首先,群集引擎33从群集列表37中获取有关群集的信息,并且在内部安排以在主存储器2上绘制(ST1201),然后扫描图11所示的左手边界线121和右手边界线122之间的区域(ST1202)。接着,群集引擎33确定具有诸如大小、颜色、字体风格或者背景颜色的共同显示属性的群集(此后称为“同类群集”)作为一组(ST1203)。
接着,群集引擎33从确定的组中选择每个都具有大量群集的两个组(ST1204),并且对于每个组计算其同类群集内的例如字符数目的信息量的平均值。结果,具有高信息量平均值(大量字符)的组被确定为“故事主体(包括至文章的链接)”,而具有低信息量平均值(少量字符)的组被确定为“标题行(包括子标题)”(ST1206)。
接着,将描述重构网页的细节。
例如,如图13所示,适配引擎32重构由标题行131和子标题132构成的顶部页面133、具有至属于子标题132的文章的一组链接134的至文章的链接列表页面135、由标题行131的故事主体和属于子标题132的文章构成的文章页面136、故事主体页面137、故事主体/文章页面136、137等等。
在顶部页面133中,在用户通过操作微动盘等等选择标题行131的情况下,设置用于标题行131的超链接将页面切换到显示故事主体/文章页面137的页面。另外,在顶部页面133中,在用户选择任意子标题132的情况下,设置用于选定子标题132的超链接显示属于该子标题132的至文章的链接列表页面135。另外,当用户在该至文章的链接列表页面135上选择了至任意文章的链接134时,显示其所链接的故事主体/文章页面136。在用户希望再次显示其他故事主体/文章页面的情况下,用户通过使用网络浏览器的返回按钮等等并重复类似的操作,可以返回到顶部页面133或者至文章的链接列表页面135。
针对移动终端的显示环境,例如其显示屏幕的大小、分辨率,预先最优地设置这些页面的布局。
图14为示出用于重构网页的过程的流程图(在创建顶部页面133时)。
首先,适配引擎32加载有关群集的分类数据(ST1401)。随后,适配引擎32按降序顺序从原始DOM树(图2的35)中读取标签(ST1402),根据有关群集的分类数据从原始DOM树中搜索标题行或子标题的标签(ST1404),并且将感兴趣的标签添加到重构页面的DOM树(ST1405)。如果在原始DOM树中存在下一个感兴趣的标签(ST1406处为是),则适配引擎32通过返回ST502来读取该标签,而如果下一个感兴趣的标签不是标题行的标签(其为子标题的标签)(ST1403处为否),则适配引擎32从原始DOM树中搜索子标题的标签(ST1404),并且将感兴趣的标签添加到重构页面的DOM树(ST1405)。通过这种方法,适配引擎32搜索标题和子标题的标签,以重构顶部页面133,并且将其添加到重构页面的DOM树以完成重构页面。
类似地,可以通过在ST1404,根据有关群集的分类数据,从原始DOM树中搜索至文章和故事主体/文章的链接,并且在ST1405将感兴趣的标签添加到重构页面的原始DOM树中,创建至文章的链接列表页面135和故事主体/文章页面136。并且通过设置按上述方式创建的每个重构页面所需的链接,可以实现如图13所示的从一个页面到另一页面的移动。
由此,根据本发明,可以通过转换为针对诸如PDA的移动终端显示环境而定做的设计而显示设计用于个人计算机的显示环境的网页。具体地,通过将网页重构为可在移动终端的显示屏幕上一次显示的大小(分辨率),可以在不滚动的情况下浏览整个网页。另外,主页面由标题行和子标题构成,并且例如,如果在顶部页面上指定标题行,则可以显示上述感兴趣的标题行的故事主体页面,并且如果指定子标题,则可以显示提供至属于上述感兴趣的子标题的文章的链接的列表页面。由此,以整体上具有一定规律性的方式提供每个网页,由此就可能提高用户的网络浏览效率。进一步讲,可以消除达到目标网页的操作中的尝试和错误,由此直接到内容本身的浏览成为可能。
另外,根据本发明,如果网页是以可以解释和翻译的页面描述语言编写的,则可以重构网页。即,虽然有各种类型的网页描述语言,例如HTML(超文本标记语言)、XHTML(可扩展超文本标记语言)、XML+CSS(层叠风格页面),但是本实施方式可以在相同逻辑下实现以这些各种描述语言创建的网页的重构。与此不同,涉及基于语义的标签分析的重构网页的方法将需要相应于每种页面描述语言的分析程序,并且还意味着大量的分析时间。和涉及基于语义的标签分析的重构网页的方法相比,本实施方式可以极大地减少页面重构所必需的费用。
另外,本实施方式使用原始网页的标签来创建重构的页面,由此具有以下优点可以直接使用现有的网络浏览器来浏览重构的网页。另外,可以在不依赖于语言类型(日语、英语等等)和场所的情况下重构网页。
注意,页面重构程序不仅可以通过并入网络使能电子装置100来使用,而且可以通过存储介质和通信介质,作为可以并入个人计算机以及用做服务器的计算机的程序而提供。
例如,如图15所示,可以如下配置,使得构成页面重构程序的模块-适配代理31、适配引擎32和群集引擎33预先并入网络151(例如LAN(局域网)或因特网)上存在的服务器152中,并使得服务器152响应于来自为网络使能电子装置(例如PDA)的客户端153的请求,从网站154获取由客户端153指定的网页,并且进行一系列处理以重构该网页,经由网络151向客户端153分发重构的网页。
另外,可替换地,可以如下配置,使得各组件,即适配代理、适配引擎、和群集引擎分布于多个服务器,以允许多个服务器以分布方式相互协同地进行重构网页所涉及的一系列处理。
注意,本发明不限于任何上述实施方式,并且可以在本发明的技术概念的范围内通过适当修改来实现。
工业实用性如上所述,根据本发明,可以在不用滚动或者借助少量滚动的前提下,在低分辨率显示环境下,高效地浏览设计用于个人计算机的高分辨率网页的整个部分的内容,并且以低成本重构以各种类型语言描述的网页。
权利要求
1.一种网络使能电子装置,其特征在于,包括网页获取部件,用于获取至少包括标题行和与该标题行有关的故事主体的第一网页;以及网页重构部件,用于从所述网页获取部件所获取的第一网页中提取所述故事主体以创建包括该故事主体的第二网页,并且从所述第一网页中提取所述标题行以创建包括该标题行并具有至所述第二网页的链接的第三网页。
2.如权利要求1所述的网络使能电子装置,其特征在于,所述网页重构部件包括显示元素位置判定部件,用于在内部描绘所述第一网页,并且根据该描绘的数据判定所述第一网页上各个显示元素的位置;群集分类部件,用于根据判定的所述显示元素的位置,将布局上密切相关的各个显示元素连接在一起,以分类为几个群集;特定群集区分部件,用于检测所述各个群集的布局特征,并且根据该特征检测的结果,将所述第一网页上所述标题行的群集和故事主体的群集与其他群集区分开来;以及对于所述经过区分的标题行群集和故事主体群集,形成每个包括具有相同字符属性的群集的组,计算包括在每个组中的各个群集内的字符数目的平均值,并且将具有高平均值的组确定为所述故事主体、将具有低平均值的组确定为所述标题行的部件,其中,所述字符属性为显示元素。
3.如权利要求1所述的网络使能电子装置,其特征在于,所述特定群集区分部件将页面上跨越最大数目显示元素的垂直线确定为重心线,使用所确定的重心线作为基准,从左侧、右侧、中间的至少一个判定各个群集的布局特征,并且将其特征被判定为中间的群集与其他群集区分开来作为所述标题行群集和故事主体群集。
4.如权利要求1所述的网络使能电子装置,其特征在于,所述故事主体包括至属于所述标题行的文章的链接列表。
5.一种用于网络使能电子装置的网页处理方法,所述网络使能电子装置具有处理/计算部件和显示网页的显示部件,所述网页处理方法包括通过网络获取至少包括标题行和与该标题行有关的故事主体的第一网页的步骤;通过所述处理/计算部件的处理/计算,从获取的第一网页中提取所述故事主体以创建包括该故事主体的第二网页的步骤;以及通过所述处理/计算部件的处理/计算,从所述第一网页中提取所述标题行以创建包括该标题行并具有至所述第二网页的链接的第三网页的步骤。
6.如权利要求5所述的网页处理方法,其特征在于,所述处理/计算部件在内部描绘所述第一网页,并且根据该描绘的数据判定所述第一网页上各个显示元素的位置,根据判定的所述显示元素的位置而将布局上密切相关的各个显示元素连接在一起以分类为几个群集,检测所述各个群集的布局特征,并且根据该特征检测的结果,将所述第一网页上所述标题行的群集和所述故事主体的群集与其他群集区分开来,对于所述经过区分的标题行群集和故事主体群集,形成每个都包括具有相同字符属性的群集的组,计算包括在每个组中的各个群集内的字符数目的平均值,并且将具有高平均值的组确定为所述故事主体、将具有低平均值的组确定为所述标题行,其中,所述字符属性为显示元素。
7.如权利要求5所述的网页处理方法,其特征在于,所述处理/计算部件将页面上跨越最大数目显示元素的垂直线确定为重心线,使用所确定的重心线作为基准,从左侧、右侧、中间的至少一个判定各个群集的布局特征,并且将其特征被判定为中间的群集与其他群集区分开来作为所述标题行群集和故事主体群集。
8.如权利要求5所述的网页处理方法,其特征在于,所述故事主体包括至属于所述标题行的文章的链接列表。
9.一种程序,其特征在于使计算机作为以下部件网页获取部件,用于获取至少包括标题行和与该标题行有关的故事主体的第一网页;以及网页重构部件,用于从所述网页获取部件所获取的第一网页中提取所述故事主体以创建包括该故事主体的第二网页,并且从所述第一网页中提取所述标题行以创建包括该标题行并具有至所述第二网页的链接的第三网页。
10.如权利要求9所述的网络使能电子装置,其特征在于,所述网页重构部件使计算机作为以下部件显示元素位置判定部件,用于在内部描绘所述第一网页,并且根据该描绘的数据判定所述第一网页上各个显示元素的位置;群集分类部件,用于根据判定的所述显示元素的位置,将布局上密切相关的显示元素连接在一起以分类为几个群集;特定群集区分部件,用于检测所述各个群集的布局特征,并且根据该特征检测的结果,将所述第一网页上所述标题行的群集和所述故事主体的群集与其他群集区分开来;以及对于经过区分的标题行群集和故事主体群集,形成每个包括具有相同字符属性的群集的组,计算包括在每个组中的各个群集内的字符数目的平均值,并且将具有高平均值的组确定为所述故事主体、将具有低平均值的组确定为所述标题行的部件,其中,所述字符属性为显示元素。
11.如权利要求10所述的程序,其特征在于,所述特定群集区分部件使计算机作为以下部件用于将页面上跨越最大数目显示元素的垂直线确定为重心线,使用所确定的重心线作为基准,从左侧、右侧、中间的至少一个判定各个群集的布局特征,并将其特征被判定为中间的群集与其他群集区分开来作为所述标题行群集和故事主体群集的部件。
12.如权利要求9所述的程序,其特征在于,所述故事主体包括至属于所述标题行的文章的链接列表。
全文摘要
一种网络兼容电子设备,获取包括标题行、其文本、子标题以及至属于子标题的文章的链接作为显示元素的网页,在内部绘制该网页并根据绘图数据计算每个显示元素的位置。根据计算的显示元素的位置,将显示元素分类为一些群集。检测每个群集的布局特征,并根据特征检测的结果来判定每个标题行/文本群集。接着,分组具有相同字符特征的标题行/文本群集。将具有包括于每个组中的群集中的高字符数目平均值的组确定为文本、将具有低平均值的组为标题行。创建文本/文章页面,并且创建包括排列有至文本/文章的链接的标题行和子标题的顶部页面。因此,将经由网络获取的网页重构为适合于低分辨率显示环境下的读取的网页并显示。
文档编号G06F17/30GK1698052SQ200480000570
公开日2005年11月16日 申请日期2004年5月21日 优先权日2003年5月27日
发明者中村雅之, 由谷哲夫, 永留和敏, 山中信太郎 申请人:索尼株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1