一种应用网页语义的方法和系统的制作方法

文档序号:6610008阅读:183来源:国知局
专利名称:一种应用网页语义的方法和系统的制作方法
技术领域
本发明涉及IT技术,尤其涉及一种提取并应用网页语义的方法,如加入 广告的方法。
背景技术
随着网络技术的不断发展,各种各样的基于网页的应用也越来越多。网 页通常是在网站的制作或维护过程中产生的,多数都是脚本(Script)形式的 网页,包括HTML/XML/ASP/JSP/PHP/PERL/CGI等各种各样的脚本格式,但 是其中还是以HTML的网页形式最多。随着互联网经济的不断发展,各种各样 的网站应运而生,现有的网站最主要的赢利手段之一就是广告。下面以广告 为例来谈谈现有的网页的应用。现阶段,广告商制定了多个策略,以求最大限度地提高广告的价值。一 种策略是,广告商使用常用的手段来提供交互媒体或服务,即通常是通过网 站的形式作为提供交互式媒体服务的渠道。通过这种策略,广告商可以将广 告指向一个比较集中的受众群体,从而为广告更好地寻找目标受众提供了可能性。例如,广告商可以将最新款的游戏消息通过新浪网站的游戏板块投放 给喜欢游戏的受众。另一种策略是广告商对一般性广告通过广泛传播,尽可 能地将广告推送给更多的受众,以期望更好的广告效果。不管采用哪一种策略,基于网站的广告,即Web广告,通常是以横幅广告 的形式呈现在网站浏览者(以下称为用户)面前。用户通过点击某一个横幅 广告,就会进入所述横幅链接的指向某个广告商的网站。用户点击的次数和 广告显示的次数之间的比率被称之为点击率。现在存在的问题是,虽然广告 商在大量网站广泛投放广告,但是广告的点击率并不高,因此广告商对广告 投资的汇报也并不满意。某些广告商试图通过跟踪用户的在线习惯来改善广 告的效率,但是这种做法往往会导致侵害用户隐私的行为发生。同样,网站的所有者(以下称为网站主),也会遇到需要提高广告收益 而又不能影响用户感受的难题。某些网站主选择了 一味扩大广告投放而忽视
用户感受的做法,导致大量网站用户流失。另一类是搜索引擎网站,例如google,这类网站能使广告商确定他们的广告目标,以便通过与广告相关的搜索页面与广告一起呈现给用户。虽然搜索 结果页面给广告商提供了将其广告指向搜索者的机会,但是搜索结果只是万 维网很小的一部分,并无法将所有需要投放的广告都针对这样的潜在客户(这 里指前面提到的搜索者)进行投放。由于大量的门户网站的出现,使得一些大型网站每天访问量突破千万, 而 一 些小型网站则无人问津。这使得一些小型网站的广告价值几乎没有办法体现,这也使得一些小型网站很难生存。相反,大型网站则可以根据其大量 的访问量,而收取高额的广告费用。但是这对于广告商来说,并没有把网站 的广告能量都发挥完全,怎么样利用分散而众多的小型网站投放高质量的广 告成为广告商所需要思考的问题。这里就存在一个问题,如何更好的使用互联网资源(如何使用网页)? 如何为网页添加广告?怎样在互联网上搜索信息或投放信息才是高效的?传统的网页,只有筒单的表现形式,如果需要完成一些特殊的功能,通常都是通过在原有网页源文件中加载Act iveX控件或在网页源文件中嵌入一 些控制节本语言,如,JavaScript/VBScript/, net的一些代码。这样不光使 网页看上去非常复杂,而且这种把内容和控制放在一起的啦支法,既不适合大 规模处理网页,也不适合对网页规范的完全控制,很难实现网页服务的个性 化。网页的语义化才是网页发展的方向。现有的所有网页基本上都是描述网 页的结构,作为网页内容的载体,并不能很好的说明网页中到底有什么。这 对网页的处理和使用带来了很大的困难。专利号CN200410057064.1,提出了 一种网页信息块提取装置和方法,该方法把网页分解成信息块,并进行处理, 但是仍然不能4艮好地表现出网页内容的语义。专利号200510109288.7,提供了 一种抽取网页信息的方法,但是并不能把每一个网页都结构化地进行处理。发明内容本发明提供了 一种应用网页语义的方法和系统,以解决现有技术中不能 很好地表现出网页内容的语义的缺陷。 本发明提供了一种真正使用网页语义的方法,把网页内容的语义通过关 键字的形式抽象出来,可以使用该方法方便地为网页内容加入辅助信息,该 方法除了可以有效地控制网页,还可以用于网络广告投放。本发明提供了对 网页的主动式和一皮动式两种处理方法,来分析网页语义,并通过对网页语义 的分析提供基于网页的服务和应用。所谓主动式,是指在不对现有网页做修 改的情况下,客户端运行一些程序或插件完成一些对网页语义的分析功能, 并根据语义完成某些特定的应用,例如,通过对网页语义分析,向网页提供 与网页内容相关的辅助信息(广告等)。所谓被动式,是指对网页要进行预先 的处理或者修改原有的网页脚本或者添加网页的内容描述文件、功能描述文 件等,用户侧客户端通过程序升级或安装插件等方法可以识别对网页文件的 修改或新增加的网页描述文件(包括,内容描述文件和功能描述文件)。被动 式或主动式的方法都可以实现对网页语义的分析,并可以通过脚本语言或预 设程序来控制网页浏览器的一些动作。也就是说浏览器的行为不完全是由用 户控制的,而是部分决定于网页本身的内容或网页预先设置好的脚本或其它 一些描述文件(在本专利中为内容描述文件和功能描述文件)。以主动式的分 析网页语义的方法并为用户提供基于网页内容的辅助信息为例,首先客户端从网站接收到的网页的内容(例如,HTML等脚本网页),通过本发明语义分析 系统(主动式)中的关键字匹配模块判断网页内容是否和一些预先定义好的 关键字相匹配,如果匹配,则根据所述关键字匹配模块中匹配成功的关键字 所对应的辅助信息的链接地址向服务端发起服务请求,获得需要的辅助信息。 其中辅助信息可以是关于网页中具体相关内容的介绍、分析、广告等相关信 息。在客户端维护的关键字匹配模块用于分析用户网页内容,并将获得的匹 配信息(包含被匹配成功的关键字对应的辅助信息的地址信息)发送到服务 端。例如,当用户打开一个体育网站,收看一段介绍足球比赛的网页,这时 关键字匹配模块会发现"足球"这是需要搜索的匹配信息,并且通过关键字 匹配模块可以得到关于"足球"两字的辅助信息的位置,比如一个具体的网 络上的URL地址(HTTP: 〃. . . /bootball. html )等,这个具体的URL通常都 在服务端上,这时候客户端就会向服务端发起一个服务请求,要求取回这个 URL地址的辅助信息。辅助信息包括视频、图像、声音、文字等所有媒体信息。 该方法可以主动地向用户推送网页内容相关的广告,既不会对用户浏览
网页造成不便,也可以大大改善网络广告投放的效果。当然该方法还可以用 于推送广告之外的其它辅助信息,例如,用户在网页上遇到一个数学公式, 类似地可以通过该方法向用户推送所述数学^^式的推导方法。对于被动式的 方式来处理网页,获取网页语义信息的过程就是生成网页内容描述文件的过程或生成新网页820的过程。以内容描述文件为例,内容描述文件即是浓缩后的网页,基本上能概括网页信息内容的主体,但却可能比网页本身节省更 多的存储空间。生成网页内容描述文件的方法也同样会用到关键字匹配这一个过程,在本发明中是网页源文件通过处理模块3000处理后生成的。在生成 了网页描述文件后,往往可以通过网页内容描述文件生成网页的功能描述文 件,当然也可以通过处理模块3000直接生成功能描述文件。本发明还可以通 过在描述文件(包括内容描述文件和功能描述文件)或网页源文件中加入网 页适合对象的信息的方法,来有针对性地投放网页或有限制地投放网页。 与现有技术相比,本发明具有以下优点本发明实施例中,把网页内容的语义通过关键字的形式抽象出来,可以 使用该方法方便地为网页内容加入辅助信息,该方法除了可以有效地控制网 页,还可以用于网络广告I5^文。


图l是本发明中主动式的一种系统结构示意图;图2是本发明中主动式的另一种系统结构示意图;图3是本发明中关键字匹配模块数据结构示意图;图4是本发明中主动式第一种网页信息处理过程的流程图;图5是本发明中主动式第二种网页信息处理过程的流程图;图6是本发明中主动式第三种网页信息处理过程的流程图;图7是本发明中为^R动式网页源文件添加指向辅助信息地址链接的流程图;图8是本发明中为被动式网页源文件添加指向辅助信息的系统结构图; 图9是本发明中分析网页内容并形成一才果^^t的示意图; 图10是本发明中被动式的生成内容描述文件和功能描述文件示意图; 图11是本发明中被动式的生成和使用功能描述文件的系统示意图12是本发明中被动式通过设定网页适合对象来投放网页的示意图。
具体实施方式
本发明是对现有的网页浏览方式以及网页的结构做了 一定的改进,使网 页本身具有更强的实用性和互动效果,能够在保留原有网页的基础上为网页增加大量的辅助信息,并且在本发明中还为网页增加了两种描述文件(profile ) 结构,大量丰富了网页的功能。本发明的核心围绕着这样一个主题根据网 页自身的内容,并结合关键字列表和网页本身的属性(网页的基本信息),提 取网页的语义信息,并根据网页的语义信息执行某些预定的操作逻辑。在对 网页的语义做分析时,有被动和主动两种方式。所谓主动式,是指在不对现 有网页做修改或不增加新文件的情况下,客户端运行一些程序或插件完成一 些对网页语义的分析功能,并根据语义完成某些特定的应用,例如,通过对 网页进行语义分析,找到存在含有与辅助信息对应的关键字的网页,并向网 页提供与网页内容相关的辅助信息(如,广告等)。所谓被动式,是指对网页 要进行预先的处理或者修改原有的网页脚本或者添加网页的内容描述文件、 功能描述文件等,用户侧客户端通过程序升级或安装插件等方法可以识别对 网页文件的修改或新增加的网页描述文件(包括,内容描述文件和功能描述本语言或预设程序来控制网页浏览器或浏览器外部程序的一些动作。也就是 说浏览器的行为不完全是由用户控制的,而是部分决定于网页本身的内容或 网页预先设置好的脚本或其它一些描述文件(在本专利中为内容描述文件和 功能描述文件)。 一般的相关领域的技术人员均很容易了解本发明的工作原理 和思想,根据本发明设计到的原理和思想,做出简单调整和改动的技术或系 统均在本发明保护范围之内。如图1所示,为本发明的主动式的一种系统结构示意图。主要分为两个 大的部分, 一部分是客户端,另一部分是服务端。客户端包括5个重要的模 块(次要或通用模块未在图例中画出),网页浏览模块120主要是解析网页并 在客户端显示,用户可以通过网页浏览模块120浏览请求网页。内容导入模 块130,主要作用是根据不同的应用提取出网页部分或全部内容,并把提取的 内容导入关键字匹配模块,例如,内容导入模块包括几种常见的内容导入方 式第一种,将用户请求的网页内容(即网页源文件)全部导入到关键字匹配模块;第二种,将用户正在显示的窗口内的网页内容或某一个框架(frame) 内的网页内容,即一部分网页内容导入到关键字匹配模块;第三种,将鼠标 周围或用户选定的区域内的网页内容导入到关键字匹配模块。在关键字匹配 模块150中,会维护一个可以被更新或编辑的关键字数据结构,如图3所示, 通常包含关键字列表310和对应辅助信息位置320,关键字匹配模块会寻找从 内容导入模块130导入的网页内容和关键字列表310之间的匹配关系,如果 发现匹配则通过通信模块140按照关键字对应辅助信息位置320向服务端发 起辅助信息请求。服务端170在通过服务端通信模块180接收到客户端110 发起的带有位置信息的请求后,会在辅助信息存储模块中找到相应的辅助信 息,并把辅助信息发送到客户端110,通过客户端IIO的辅助信息播放模块进 行播放。在图2中,即本发明中主动式的另一种系统结构示意图,和图1的区别 就在于,将关键字匹配模块从客户端移到了服务端。实际上也就是内容导入 模块和关键字匹配模块之间的通信,通过客户端110的通信模块140和服务 端170的通信模块180来完成,而不是像图1那样在客户端内部完成。这样 做的问题是可能减少由于关键字匹配模块中匹配运算给客户端带来的压力, 但是可能会增加客户端和服务端通信的压力。 一个比较适合图2系统的实施 例为,用户在浏览网页时,用鼠标指向一些需要进一步辅助信息的内容,比 如需要翻译鼠标指向的单词,内容导入模块130会将鼠标指向的单词通过客 户端110的通信模块140和服务端170的通信模块180发送到关键字匹配模 块150,关键字匹配模块150则会根据关键字对应的本地或网络地址取回辅助 信息(对所述单词的翻译信息),最终将辅助信息传送到客户端,并通过辅助 信息的播放模块进行播放。在图2中,辅助信息不一定和存储在关键字匹配 模块存储在同一个服务器上,有可能辅助信息存储模块保存在另一台关联服 务器上。为了说明问题,本发明只使用了比较简单的情况。图1和图2中,辅助信息播放模块160和内容导入模块130可以作为一 个插件或一段程序放在网页浏览器(如IE等)中执行,也可以作为一个单 独的程序放在网页浏览器之外运行,例如,辅助信息播放模块在播放辅助信 息的时候,可以在网页内的某一个位置播放,也可以在浏览器窗口外的某一
个位置播放。为了简单起见,内容导入模块通常是和网页浏览器有接口的, 这样可以在用户请求或浏览网页内容时,更灵活方便的获取网页内容。图3为本发明中关键字匹配模块数据结构示意图,在关键字匹配模块140中,通常至少会保留关键字列表310和对应辅助信息位置320这两项数据结 构,这样可以通过筒单的查表来确定所需要的辅助信息的位置。当然在数据 结构设计过程中可能还需要一些辅助的信息,例如,辅助信息播放的位置, 关键字优先级,客户端IP地址,服务端IP地址等,这些信息都是可选的,没 有在图3中——列出。关^t字列表既可以和辅助信息对应,又可以和辅助信 息地址对应,图3只画出了关键字列表和辅助信息地址对应的情况。关键字 和辅助信息或辅助信息地址的对应关系型可以是, 一个关键字对应多个辅助 信息或多个辅助信息地址,多个关键字对应一个辅助信息或一个辅助信息地 址, 一个关键字对应一个辅助信息或一个辅助信息地址。图4为本发明中第一种主动式网页信息处理过程的流程图,该处理过程 是图l的一个实例,具体包括410,客户端接收到网页,并由关键字匹配模 块搜索用户浏览网页内容,即搜索用户浏览网页的HTML或XML( extensible Markup Language ,扩展标记语言)文件;420 ,判断网页内容是否和关键字存 在匹配;430如果存在匹配,则按照关键字对应的地址取回辅助信息;440并 将取回的信息在客户端播放;如果不存在匹配,则返回到前一步继续搜索。 这样所述网页内容还可以是用户正在看的网页框架(frame)内的内容,或用 户浏览器窗口内显示部分的内容,这些内容采用JavaScript等本语言或才喿作系 统的一些API程序来提取。图5为本发明中第二种主动式网页信息处理过程的流程图,该处理过程 是图2的一个实例。在用户获得网页内容以后,可以伴随简单的操作,例如, 510,把鼠标或光标指向不明白的单词,这个时候,将鼠标或光标指向的网页 内容传回服务端;520并在判断服务端是否存在和网页内容匹配的关键字;530 如果存在,服务端则取回关键字对应的辅助信息或按找关键字对应的地址取 回辅助信息,服务器将关键字对应的辅助信息传回客户端;540最终在客户端 播放辅助信息。在抓取鼠标周围文字的时候,往往需要运用到JavaScript或其 它脚本技术,也可以根据不同的操作系统,调用一些底层API函数来实现,
例如在Windows系统中,可以调用钩子(Hook)来实现Windows屏幕取词。 图6为本发明中第三种主动式网页信息处理过程的流程图,这个过程和 图4以及图5有4艮大不同,是伴随着用户对网页的点击而发生的。610,用户 点击网页内具有超文本链接的文字条目,620,并判断文字条目是否和关键字 存在匹配;630如果存在匹配,则按照关4囊字对应的地址取回辅助信息;640 并将取回的信息在客户端播放。图7为本发明中为被动式网页源文件添加指向辅助信息地址链接的流程 图,这种方法的一个特点是必须在浏览网页之前就完成添加指向辅助信息地 址链接这一过程,而不像图4、图5、图6是在浏览网页的过程中直接通过关 键字匹配模块取回辅助信息。也就是说现有的网页文件在被浏览前,还要经 过处理,加入指向辅助信息地址链接。具体流程为,710,用户获取网页源文 件内容;720,判断网页源文件内容是否和关键字存在匹配;730,如果存在 匹配,为源文件中匹配的地方加入指向辅助信息地址的链接;740,将加入了 辅助信息链接的网页或形成新的辅助信息描述文件再发送给用户。在这种方 式下系统结构将做细微调整,如图8所示,为被动式网页源文件添加指向辅 助信息的系统结构图。这里将添加指向辅助信息链接前的网页称为旧网页, 将添加了辅助信息链接后的网页称为新网页。本专利主要针对但不限于处理 网页中文字信息,在旧网页中,如果不考虑网页中诸如注释、函数等辅助信 息,在所有的可显示的文字信息可以分为两种, 一种是带有链接信息的,一 种是没有带有链接信息的。在源文件中发现例如<a href二http:〃mp3.baidu.com^mp3〈/^格式的代码或类似代码,说明mp3本身是 带有链接信息的,并且链接的地址是http:〃mp3.baidu.com/。通常比较容易的 识别标志是〈a href二链接地址x/a〉,在HTML或XML (extensible Markup Language )语言中<a href-链接地址x/a〉表示链接结构。对于一些其它的结构, 如〈p〉…々p〉等,则不具有链接结构。在本发明中,将为存在链接结构的能够 关键字匹配的文字信息增加新的链接结构指向辅助信息,或为不存在链接结 构但是能和关键字匹配的结构增加新的链接结构以指向辅助信息。在HTML 或XML ( extensible Markup Language )这种互联网这种最基本的网页语言中, 却只有这一种链接结构,而且也只有一种激活方式,即通过鼠标点击这一种 激活方式。对于现有的互联网的越来越复杂的应用则必须产生一些新的链接
结构以及新的激活方式。为了专利的完整性,在加入辅助链接的时候则使用 了一些新的链接结构和激活方式。例如,在旧网页810中,存在这样一个4连接结构<a href=http:〃A.html>2008年8月8曰将在北京举办第29届奥运会开幕 式〈/a〉如果在关键字匹配模块150中存在关键字"2008""北京""奥运会"等 关4建字信息以及关键字对应的辅助信息的地址分别为http:〃2008.html 、 http://beijing.html、 http:〃01ympicgames.html,关4建字匹配模块在这里(图8 ) 的功能和图1到图6按照辅助信息的地址取回辅助信息不同,这里关键字匹 配模块还要负责将辅助信息的地址加入到旧网页被匹配上的位置中,形成新 网页820。匹配的方法有以下几种1、使用带优先级的链接结构,采用和原有优先级不同的标志字符,例如, 原有的标志字符是<&></&>,则可以增加新的优先级标志字符〈bx/b〉、 <c></c〉 等,可以定义a的优先级大于b, b的优先级大于c。根据上面的例子,可以 定义"北京,,和"奥运会"的优先级为b, "2008"的优先级为c,则得到以 下的新网页源文件内容〈ahref^http:〃A.htmlxchref:http:〃2008.html〉2008〈/c〉年8月8日将在〈b href=http:〃beijing.html> 北 京 </b> 举 办 第 29 届 <b href二http:〃01ympicgames.html〉奥运会〈/b〉开幕式〈/a〉当新网页820发送到客户端110后,可以采用不同的下划线方式或不同表优先级最高、红色次之、黄色的优先级比红色低等。用户可以通过以下方 式激活存在的辅助信息的链接(1)鼠标在文字上则取回并显示网页所带的 辅助信息;(2)鼠标在代用辅助信息链接的文字上做规定动作,如转圈画圆 等;(3)鼠标点击带有链接结构的网页条目,在打开时候,同时取回辅助信 息并显示;(4)浏览器识别优先级自动或按照时间取回并显示辅助信息。用 户可以通过以下方式来显示取回的辅助信息(l)打开一个新的网页,即#1 行新的浏览器线程或进程,来显示取回的辅助信息;(2)在原有的网页中通 过内部程序调用或执行JavaScript等脚本语言或执行ActiveX控件或调用浏览 器插件来显示取回的辅助信息;(3)在浏览器外部通过调用系统API或系统
设备或新的软硬件程序来显示取回的辅助信息的方法。2、 使用链接结构嵌套表达方式,在浏览器解析网页链接结构的时候,识 别出链接结构内部嵌套的链接结构,采用有条件的方式打开这些链接的辅助 信息。需要注意的是这也是本发明的一部分,因为在原有的^t连接结构中,并不支持这种嵌套的表达方式。在这种情况下,新网页的源文件内容为〈ahref二http:〃A.htmlxahref二http:〃2008,html〉2008〈/a〉年8月8日将在〈a href=http:〃beijing.html> 北 京 </a〉 举 办 第 29 届 <a href=http :〃01ympicgames.html〉奥运会〈/a〉开幕式〈/a〉当新网页820发送到客户端110后,可以采用不同的下划线方式或不同 的彩色文字或不同字体的方式来显示不同嵌套级别的链接结构,例如,蓝色 下划线代表最外层嵌套、红色下划线表示内层嵌套等等,这需要浏览器对多 层嵌套功能的支持。用户可以通过以下方式激活存在的辅助信息的链接(1) 鼠标在文字上则取回并显示网页所带的辅助信息;(2)鼠标在代用辅助信息 链接的文字上做规定动作,如转圏画圓等;(3)鼠标点击带有辅助信息链接 的文字;(4)浏览器识别嵌套层次自动或按照时间取回并显示辅助信息。用 户可以通过以下方式来显示取回的辅助信息(l)打开一个新的网页,即执 行新的浏览器线程或进程,来显示取回的辅助信息;(2)在原有的网页中通 过内部程序调用或执行JavaScript等脚本语言或执行ActiveX控件或调用浏览 器插件来显示取回的辅助信息;(3)在浏览器外部通过调用系统API或系统 设备或新的软硬件程序来显示取回的辅助信息的方法。3、 在原有的网页结构中增加新的逻辑控制语句,即在语义中取回辅助信 息的语法,这中语法结构类似"如果条件A成立,则执行B操作",表现在 C语言中为"if(A);B;",也可以表示为"当条件A成立时,才执行B操作", 表现在C语言中为"while(A)B"。这些带有语义的语法结构对于网页的灵活 应有具有很好的作用。因为语法结构千变万化,因此在本专利中不可能穷尽 所有新的语义表达方式。但是在网页中加入以上(但不限于以上)语义时, 均在本专利的保护范围之内。在传统的方法中一般是通过比较复杂的 JavaScript语言来看程序逻辑进行控制的。对于上面的例子可以表述为<i& <a href=http:〃A.html>2008年8月8日将在北京举办第29届奥运会 开幕式<&><a href=http:〃2008.html><a href=http:〃beijing.html><a href=http:〃01ympicgames.html>}或<while> <a href=http:〃A.html>2008年8月8日将在北京举办第29届奥运会开幕式</3><a href=http:〃2008.html><a href=http:〃beijing,html〉<a href=http:〃01ympicgames.html></while>这里还可以把用户的操作也规定到网页里面,例如用户有点击(click)、 鼠标移动到链接上(mouse on)等,这样上述代码可以修改为<while> (<a href=http:〃A.html>2008年8月8日将在北京举办第29届奥运 会开幕式</3> == click)<a href=http:〃2008.html><a href=http://beijing.html><a href=http:〃01ympicgames.html></while>对于网页的控制当然也可以诸如程序创建(create )、框架创建等各种程序 动作为发生。这种在网页内部嵌入逻辑控制语句的方法将为网页带来更多复杂的应 用。这也会对网页文件解析器(如IE、 Mozilla等)提出更高的要求,并且会 使网页的结构变得更加复杂。但确确实实给用户带来很多不一样的网页浏览 感受。需要注意的是在网页中加入逻辑控制语句的方法是一种区别现有网页表 达的技术,可能会有多种多样的嵌入方式以及各种各样的嵌入表达,例如, 可能会出现多种控制关键字(前面只列举了 if、 while等少量关键字),可能会 有多种的语言单位的标记(例如,语言结束标记,分割语言罗的标记等),可 能会在不同的位置插入控制关键字。所有以上的变化均是在本发明的所考虑 的范围之内,也均在本发明的保护范围之中。本发明中的控制关键字和语义 逻辑的分割都可以参考C语言或其它程序语言的控制关键字和语义划分的方 法。对于加入了程序控制结构的网页,需要专门的编:泽器,可以采用类似C语言的编译器,整个编译文件,也可以采用Matlab的对M语言的编译器,对 语言采用逐行编译的方法。除了可以在网页文件中加入语言控制逻辑结构,也可以在网页文件对应 的描述文件(例如本发明中的功能描述文件)中使用。但是使用的语法结构、 关4囊字种类、语义逻辑划分等都和把控制逻辑直接加入网页文件的方法类似。4、形成新的辅助信息描述文件,即釆用内容和控制分离的方法来实现对 网页的控制。以前由于网页内容十分简单,因此一些小的控制直接可以在网 页内部完成,采用VBScript、 JavaScript, Perl等脚本语言来控制网页内的对 象。随着网页功能越来越复杂还将控制和内容放在一起已经不是很好的选择 了。还有一些做法是利用Java等语言的远程调用来实现一些功能,但是这也 给使用和程序处理带来了很大难度。随着DOM ( Document Object Model,文 件目标模型)技术和Ajax (Asynchronous JavaScript and XML )等新技术的出 现和发展,使网页的脚本HTML变的越来越复杂。本发明为网页引入了一种 新的文件格式,描述文件(profile),以辅助信息描述文件为例,如果通过对 网页进行处理生成辅助信息描述文件,则可以很好地支持包括取回和播放辅 助信息等功能。需要指出的是,辅助信息描述文件实际上是功能描述文件的 一种。描述文件通常和网页是——对应的,在一些特殊情况,如为不同的用 户使用不同描述文件的时候,描述文件和网页的关系也可以是多个描述文件 对应同一个网页。为了能很好的生成功能描述文件,生成和功能描述文件对 应的内容描述文件往往也变得必不可少。这种概念和Web 3.0,即基于语义 (semantic)的Web,有很大的相似之处,也是对其的补充和发展。
对于语义的描述可以生成内容描述文件,生成的方法可以如下 构建一个带有矢量语义的关键字数据库,如,可口可乐>饮料>食物等,对于每一个关键字,都可以存在一个这样的矢量语义指向这个关键字,这种做法类似于搜索引擎对搜索关键字分类的处理方法,这搜索引擎包含google、 百度等。构建好这样一个矢量语义的数据库以后,在对网页进行分析,用过 现有的DOM技术或类似技术,把网页解析为一棵对象树,然后再把这棵对象 树下面的节点对应到所述关键字数据库上,通过这种对应可以建立一个这样 的文件,包含网页中每一个对象数据,以及所述对象数据调用句柄或对象ID, 以及对应的有关关键字描述。这个文件就叫做内容描述文件,该文件还可以 包含一些关于本网页的基本内容,如URL、时间信息等。分析网页并把网页元素对象化的方法除了 DOM方法之外,还有很多。在 本专利中只要能够将网页中显示的文字信息抽取出来并对象化就可以了 。对 于其它多媒体信息(例如视频、声音、图像等)对象化方法以及加入逻辑 控制的方法和文字相同。以上1-4方法都适用于视频、声音、图像等。例如, 对于3方法中的例子<if> <a href=http:〃A.html>2008年8月8日将在北京举办第29届奥运会开幕式</8><a href=http:〃2008.html><a href=http:〃beijing.html><a href=http:〃01ympicgames,html></if>如果A.html被替换成了 A.mp3 (—种语音压缩一各式),或2008.html被替 换成2008.jpg,方法3同样使用,该例子可重写为<if> <a href=http:〃A.mp3>2008年8月8日将在北京举办第29届奥运会开 幕式〈/a〉<a href=http:〃2008.jpg> <a href=http:〃beijing.html> <a href=http:〃01ympicgames,html></if>由此可见,本发明对网页源文件中控制或编辑的对象以及辅助信息的内 容,均包含所有媒体可是,例如,视频、音频、图像、文字等。如图9所示,为分析网页内容并形成一^^果树的示意图。现有^L术通常通 过DOM来分析网页并生成一棵树。DOM通过解析HTML或XML文档,为 XML文档在逻辑上建立一个树模型,树的节点是一个个的对象。这样通过操 作这4果树和这些对象就可以完成对HTML或XML文档的操作,为处理文档 的所有方面提供了一个很好的概念性框架。也为后来生成内容描述文件和/或功能描述文件做了前期准备。 如下HTML文档 <html> <head>《tle〉题目A</title></head><body><a href^,http:〃…"〉链接A</a> <a hrefy,http:从..,链接B</a> <tr> <td>,内容A</p> </td> <td>,内容B々p〉 </td> <td>〈p〉内容C〈/p〉 </td> </tr> 〈p〉内容D々p〉 </body> </html>DOM的结构表示如图9所示。每一个HTML文档都可以变成这样的一 棵树。而且为了便于控制,每一个元素节点可以分配一个ID或一个名称,这 样便于在进一步处理时调用元素本身。910为HTML文档,根元素就是〈html、 这样一步一步就形成了图9的样子。由于DOM " 一切都是节点(everything扁is-a-node ),,,树的每个文档 (Document )、元素(Element )、文本(Text)、属性(Attr)和注释(Comment) 都是DOM节点(Node)。常见的基本节点类型文档、元素、属性、文本 和注释XML中共有12种节点类型,其中最常见的节点类型有5种元素元素是XML的基本组成单元,描述XML的基本信息,在图9 中有根元素920、头元素930、文件体元素940、题目元素950、链接元素960、 标题元素970、表格元素980、表格项元素986、正文元素987。属性属性节点包含关于元素节点的信息,通常包含在元素里面,描述 元素的属性,图9中有962超链接属性和985表#~属性。文本包含许多文本信息或者只是空白,图9中有951、 961、 962、 971、 981、 982、 983、 984都是文本。并且为了方便表示,把所有的文本标记在900 文本框内,这样做也可以方便关键字匹配模块整体进行处理。文档文档节点是整个文档中所有其它节点的父节点。注释注释是对相关的信息进行描述、注释。为能方便快捷地控制各个元素(节点),为每一个元素节点都可以分配一 个ID号或一个名字,这样就不用在操作的时候遍历整棵树了,也为以后生成 内容描述文件或功能描述文件带来了便利。图IO为发明中被动式生成内容描述文件和功能描述文件示意图,就使用 不同的ID号来表示不同的元素,如,题目元素950用ID1来表示,由于对应 不同的文本961和962,链接元素960用ID2、 ID3表示,标题元素970用ID4 表示,同理三个正文元素987对应三个不同的文本,用ID5、 ID6、 ID7表示, 最后一个正文元素987用ID8表示。用900表示从网页文件中抽象出来的所
有文本内容,把这些文本内容输入到关键字匹配模块中150中,生成所述网页(HTML文件)的内容描述文件1000。这里的关键字匹配模块,虽然也会 维护一个关键字数据库,但是不一定同时具有辅助信息的链接地址。这样生 成的内容描述文件1000里面可能只包含一些关键字信息和网页基本信息。内 容描述文件1000包含以下几部分中至少一部分1、 指定网页元素的ID号或名称,方便再次处理或在用户端调用各种元 素,这要求在解析网页的时候要采用统一的方法来对网页元素编号,分配统 一的ID或一致的名称;2、 ID或名称对应的关4建字,如,ID1对应关4建字"北京",ID2对应关 键字"奥运"等;3、 网页的基本信息,比如网页的地址http:〃...,网页创建时间,网页适合 对象,网页发布的信息类型,以及一些网页的metadate等。这些信息对用户 了解网页信息非常有用,也可以方便对网页进行再次处理。基本信息中网页 适合对象(该信息也可以放入功能描述文件,但是多数时候是放在内容描述是所有网页都适合儿童观看,在一些网页的内容描述文件中加入网页用户的 信息或限制信息,可以防止一些网络不健康信息四处传播。这样也可以为网 页寻找到更适合的浏览人群。这需要浏览器能够确定用户身份,如果以后每 个人都有自己的浏览器,则这种身份确定将变为可能。如图12所示,内容描 述文件1000中含有网页适合对象,标明了该网页适合年龄超过16周岁的用 户,当个性化客户端需要主动获取该网页内容的时候,有以下几种方式进行 判断该网页是否适合该用户1、 用户获得内容描述文件,发现网页适合对象为16岁以上,个性化客 户端lll发现自己的用户信息不满足以上条件,则停止网页的请求过程;2、 用户获取内容描述文件的限制信息,比如大于16周岁,个性化客户 端111发现自己的用户信息不满足以上条件,则停止网页请求过程;3、 个性化客户端111向网站首先发送用户信息或加密的用户信息,网站 发现个性化客户端111的用户信息中年龄为10岁和用户所请求网页的内容描 述文件中的网页适合对象条件不相满足,则停止网页的请求过程。 网页(HTML或XML文件)定义一些操作逻辑,增加网页自身的功能。这样 就可以生成功能描述文件2000。这一个过程也可以先生成内容描述文件1000, 然后再通过其它功能模块处理内容描述文件1000,以生成功能描述文件2000。 功能描述文件通常包含以下几部分中至少一部分1、 指定网页元素的ID号或名称,方便再次处理或在用户端调用各种元 素,这要求在解析网页的时候要采用统一的方法来对网页元素编号,分配统 一的ID或一致的名称;2、 网页的基本信息,比如网页的地址http:〃...,网页创建时间,网页适合 对象,网页发布的信息类型,以及一些网页的metadate等等。这些信息对用 户了解网页信息非常有用,也可以方便对网页进行再次处理。3、 操作逻辑,即用户(客户端)在使用并浏览网页时,会主动或被动的 执行这些操作逻辑。所述主动执行是指,不需要用户操作,自动按照操作逻 辑执行某些具体的程序动作,如,打开/播放/关闭辅助信息、打开/关闭新的网 页、增加/删除网页中的对象等;所述被动执行是指,需要用户操作,并通过 用户的操作采用激活并执行的操作逻辑,如,用户在移动鼠标、或点击网页 时的一些操作逻辑,这些操作逻辑也包括打开/播放/关闭辅助信息、打开/关闭 新的网页、增加/删除网页中的对象等。如图10中的功能描述文件2000中的 记录"ID1: http:〃beijing.html : click : new window", 表示ID号为ID1的元素(题目元素)在被点击(click)之后,链接到"http:〃beijing.html",并把获得 的网页在豸斤的窗口 ( new window)内打开;同才羊,i己录"ID4 : http:〃pingpang.jpg : create : beside",表示ID号为ID4的元素在被创建"create"以后,就链接到"http:〃pingpang.jpg",并把获得的文件在原来网页的两边空白处进行播放;同 样,记录"ID5 : http:〃bootball.swf: mouse on : new layer",表示当鼠标运动到 ID号为ID5的元素之上时,就取回"http:〃bootball.swf,,并在创建的新层中 进行播放。操作逻辑可以多种多样,有时候可以根据实际需要采用更为复杂 的操作逻辑,这也需要更好的功能描述文件解析器的支持。例如,根据一些 复杂的操作逻辑,可能存在条件逻辑、并发逻辑、选择逻辑等高级语言中的 逻辑,这个时候可以釆用类似高级语言的方法在功能描述文件2000中加入if(then)语句、while语句、switch语句、for语句等比较复杂的逻辑控制结构, 操作逻辑描述也可以使用现有的计算机编程语言,例如C、 C++、 Java、 C弁或
任何一种脚本语言。。在图10中存在的两种新的文件结构,内容描述文件1000和功能描述文件2000,都是为了更好的发挥网页功能而设计的。内容描述文件1000的主要 作用在于从语义(semantic)的层面上了解网页的内容,而现有的HTML或 XML文件多数是基于语法的结构来描述网页的,也就是说现有的HTML或 XML文件只能告诉浏览器怎么把文件显示出来,以及文件内部的关系,而不 能表示现有的HTML或XML文件里面到底都是些什么内容,或大概是些什 么内容。有了这样一个基于语义的描述文件,就可以很方便的对海量的网页 数据进行复杂的分类和处理了 。而功能描述文件2000的主要作用则是描述网 页在被用户(客户端)使用的时候的一些主动或被动的操作逻辑,即为用户 定制的一些动作和功能的描述,例如,功能描述文件可以很好的完成为用户 提供辅助信息的功能,但决不限于此功能。用户可以通过随意点击网页上"天 气"两个字而获得今天的天气情况,用户可以通过功能描述文件将不认识的 单词发送给更专业的网页进行翻译,用户可以把网页和本地的一些应用程序 关联起来, 一同完成一些复杂的功能,这些在以往看来非常麻烦的工作,通 过功能描述文件可以很容易的进行解决和完成。对于内容描述文件和功能描述文件的编码格式可以采用纯文本的字符方式、也可以采用二进制格式。在内容描述文件和功能描述文件传输的过程中 可以采用加密或不加密的方式。如图ll所示,为被动式的生成和使用功能描述文件的系统示意图,服务 端170包含网页文件4000、处理模块3000、由处理才莫块3000生成的内容描 述文件1000以及由处理模块3000生成功能描述文件。网页文件4000包含所 有的类HTML或XML的脚本文件,首先网页文件被送到处理才莫块3000,处 理模块是一个抽象的模块感念,包含关键字匹配模块等多种模块概念,其功 能就是处理网页文件,生成功能描述文件2000或内容描述文件1000。这里内 容描述文件通常是不直接发给网页的最终浏览用户即客户端的,而只是作为 一种对所述网页文件进行处理的一种中间文件, 一般存储在网站。通常情况 下,只将网页文件4000和功能描述文件2000发送到客户端,即用户。客户 端的处理流程是这样的,客户端获取网页文件和网页对应的功能描述文件(可 以同时获得或有顺序获得),客户端通过网页浏览模块解析并打开网页,这个
时候也会通过功能描述文件解析器解析所述的功能描述文件,然后通过浏览 器或外部程序来执行功能文件中的操作逻辑,也可以通过感知用户的动作来 激活各种操作逻辑,例如,伴随用户点击的动作可能激活了关于点击对象的ID对应的取回某个广告信息的操作逻辑。功能描述文件可以由处理模块3000 直接生成,也可以先由处理模块生成内容描述文件1000,然后处理模块在处 理内容描述文件IOOO,最后生成功能描述文件2000。在客户端110,包含有 网页浏览模块120和功能描述文件解析器2100,所述网页浏览模块120可以 解析并显示网页文件4000,所述功能描述文件解析器2100可以解析功能描述 文件,并配合网页浏览模块一起完成在功能描述文件中预定义的操作逻辑。 这里功能描述文件解析器2100可以是一个单独的软件或是一个浏览器中的插 件,功能文件解析器是一个抽象的能够解析功能描述文件的模块,可以是目 前通用浏览器的软件功能升级,也可以是一个新的软件模块。这里的功能描述文件可以采用类似脚本文件(如,JavaScript、 XML)的 语言和控制结构,也可以采用类似的控制关键字。语言结构可以和在网页内 直接插入逻辑控制语句类似,不同的是,这里不需要再写出网页元素的内容, 而是用该元素的ID表示就可以了,这样会比较简单些。如已知<a href=http:〃A.html>2008年8月8日将在北京举办第29届奥运会开幕 式〈/a〉元素的ID是7卯410这在网页中直接插入逻辑控制语句的结构<while> (<a href=http:〃A.html>2008年8月8日将在北京举办第29届奥运 会开幕式<&> == click)<a href=http:〃2008,html><a href=http:〃beijing.html><a href=http:〃01ympicgames.html>}</while>可以转化成功能描述文件中的内容为 <while> (ID(790410) == click)<a href=http:〃2008.html><a href=http://beijing.html><a href=http:〃01ympicgames.html></while>需要注意的是在功能描述文件中的语言可能会有多种多样表达,例如, 可能会出现多种控制关键字(前面只列举了 if、 while等少量关键字),可能会 有多种的语言单位的标记(例如,语言结束标记,分割语言罗的标记等)。所 有以上的变化均是在本发明的所考虑的范围之内,也均在本发明的保护范围 之中。本发明中的控制关键字和语义逻辑的分割都可以参考C语言或其它程 序语言的控制关键字和语义划分的方法。对于功能描述文件,需要专门的编 译器-功能描述文件解析器,可以采用类似C语言的编译器,整个编译文件, 也可以采用Matlab的对M语言的编译器,对语言采用逐行编-泽的方法。由于使用了内容描述文件1000和功能描述文件2000, -使得网站《^网站 之间,以及网站《^个人《+网站之间,个人《~>网站《+个人之间的数据自 动交换成为了可能。网站与网站间或网站与用户是按如下方式完成对网页凝: 据的协同处理的首先一定有一方(网站或用户)生成网页文件,并且生成网页对应的内 容描述文件和/或功能描述文件,以下筒称为生成方; 一定还有一方(网站或 用户)处理"l妄收到的网页文件,以及和网页文件对应的内容描述文件和/或功 能描述文件,以下简称为处理方。然后,处理方根据接收到功能描述文件中 描述的操作逻辑来处理接收到的网页和/或网页对应的内容描述文件,处理的 方法包括修改数据、收集数据、生成报表、运算数据、分析数据、按要求 转发数据等各种操作。通过使用内容描述文件和功能描述文件,还可以衍生出大量的复杂应用。以下列举几个典型的应用来加以i兌明例l,网站和网站之间通过内容描述文件来进行数据交换。例如像google 这样的搜索引擎,明天需要用网络爬行机器人(crawler)搜索大量的复杂的 网页进行分析,但是如果有了内容描述文件以后,可能只需要获得各个网页 内容描述文件来进行分析就可以了 。还有些时候不得不对一些网站的内容进 行检索,如果检索并分析所有网页非常困难,则可以考虑分析网站中网页对 应的内容描述文件,这样会变得非常轻松。在搜索一个网站时,可以为该网 站建立一个网站树型索引,该树型索引按每个网页的URL层次关系建立,例J(口 , www.baidu.com为才艮节点,www.baidu.com/mp3为才艮节点的一级子节点, 而www. baidu.com/mp3/list为根节点的二级子节点。采用这种方式遍历所有网 页的内容描述文件,就可以很快的搜索整个网站的内容了 。例2,用户在使用网站时,有时候也不得不处理一些网站凄t据,来加深对 网站的理解,这时可以采用网页的功能描述文件来实现个人和多个网站之间 的数据交换。可以通过功能描述文件定义网页中内容和其它网站的接口,把 某一些特点的数据导入一些功能描述文件指定的网站,简单的例子是把一些 特殊词汇直接导入大型的搜索或百科全书网站,例如,在网页中看见"白垩 纪,,,可以通过鼠标操作(例如拖动或点击),把"白垩纪"词条发送到维基 百科网站(www.Wikipedia.com),然后自动取回"白垩纪,,词条的意思并显 示给用户。如图12所示,为本发明中被动式通过设定网页适合对象来才更放网页的示 意图。网页描述文件(包括内容描述文件1000和功能描述文件2000)中都可 以包含网页的基本信息,以网页的内容描述文件为例,网页的基本信息包括 网页的链接地址、创建时间、保存时间、网页的信息类型(包括,网页内容 分类,如娱乐、体育等)、网页语言(如中文、英文等)、网页采用的字 体(如GB2312等)、网页产生的地点(如地区名称或公司名称)、网页投 放地点(如地区等)、网页适合对象(如对网页使用对象的年龄、性别、 情趣爱好等方面的要求)。当然内容描述文件还应该包含网页内元素的名称或 ID,以及名称或ID对应的关键字信息。除了有网页描述文件还不能完成对网 页的个性化投放,用户还需要一个个性化的客户端111。个性化客户端是一个 包含用户信息的网页接收浏览设备。所述用户信息可以通过用户自己填写或 个性化客户端通过其它方式自己收集,所述用户信息包括用户的身份信息(用 户的姓名、地址、性别、年龄、邮件地址、身份ID等)、用户的兴趣爱好(例 如,用户喜欢汽车、音乐、股票等)。个性化客户端不光可以判断一个网页是 否适合该用户浏览,还有一个重要用途就是根据用户信息中的兴趣爱好为浏
览器推送个性化的广告信息,也可以包括以下步骤网站获得个性化客户端 的资料(包含用户信息中的兴趣爱好),根据网站资源和用户的兴趣爱好做匹 配,为用户推送个性化的信息(包含广告信息)。网页适合对象的信息在现有的网页结构中也是一种空缺结构,因此这部分同样可以被放入在现有的网页结构(如HTML文件)中, 一舶:放在网页的 头部〈head〉或meta date中,这样用户个性化浏览器在解析HTML文件时,可 以很快发现该网页是否适合该用户浏览。该网页的结构也在本专利保护范围 之内。本发明实施例所描述的技术可以用硬件、软件、或组合扭J亍。如果用软 件执行,则该技术可以直接指包含程序代码的计算机可读介质,该程序代码 在对视频序列进行编码的设备中执行。在该种情况下,计算才几可读介质可以 包4舌RAM (Random Access Memory,随才几存储器)、SDRAM ( Synchronous Dynamic RAM,同步动态随机存储器)、ROM (Read Only Memory,只读存 储器)、NVRAM ( non-volatile RAM非易失性随才几存储器)、EEPROM (Electrically-Erasable Programmable Read-Only Memory, 电可擦除只读存储 器)、FLASH (闪存)等。以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此, 任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
权利要求
1、一种主动式的根据网页内容加入辅助信息的方法,其特征在于,包括以下步骤客户端接收来自网站的网页;判断网页内容是否和关键字相匹配;如果发现所述网页内容和关键字相匹配,则取回关键字对应的辅助信息。
2、 如权利要求1所述主动式的根据网页内容加入辅助信息的方法,其特 征在于,所述关键字保存在关键字列表中,并且关键字和一个或多个辅助信 息或辅助信息的地址相对应。
3、 如权利要求1所述主动式的根据网页内容加入辅助信息的方法,其特 征在于,所述网页内容获取的方法包括釆用获取整个网页源代码的方法;采用获取客户端正在显示部分的网页内容的方法;采用获取鼠标附近内容的方法;釆用获取鼠标所点击对象的方法。
4、 一种主动式的根据网页内容加入辅助信息的系统,其特征在于,包括 客户端和服务端,所述服务端,根据客户端的请求把存储的辅助信息发送到客户端; 所述客户端,与所述服务端连接,具体包括关键字匹配模块,用于判断是否存在关键字和网页内容相匹配,如果发现所述网页内容和关键字相匹配,则取回所述关4建字对应的辅助信息。
5、 一种被动式的为网页内容加入和关键字相关的辅助信息链接的方法, 其特征在于,包括以下步骤打开网页源文件;判断所述网页源文件内容是否和关键字相匹配;如果发现所述源文件内 容中存在和关键字相匹配的字符或字符串,则在所述字符或字符串处加入和关键字对应的辅助信息的超链接;把被加入了和关键字相关的辅助信息地址超链接的网页源文件发送到用 户,并在用户端提取出所述的辅助信息。
6、 如权利要求5所述为网页内容加入新关键字链接的方法,其特征在于, 所述字符或字符串如果已经具有了超链接,则釆用的方法包括超链接递归的方法,即在所述已经具有的超链接内再使用超链接,且标 识才寻〈a〉不改变;使用带有不同优先级的方法,即在所述已经具有的超链接内使用带有不 同优先级的超链接;修改超链接属性的方法,即在所述已经具有的超链接的链接标志内增加 辅助信息超链接的内容。
7、 一种为网页源文件中添加逻辑控制语句的方法,其特征在于,包括以 下步骤打开网页源文件;设定网页的逻辑结构,在网页源文件中加入逻辑控制语句,并把带有逻 辑控制语句的网页发给用户;用户端解析网页文件,并根逻辑控制语句的触发条件,执行逻辑控制语 句中定义的操作。
8、 一种被动式的为网页生成网页内容描述文件的方法,其特征在于,包 括以下步骤获取网页内容源文件;把网页内可以显示的文本内容和关键字列表进行匹配,如果匹配成功则 在所述内容描述文件内保留所述匹配成功的关键字条目和网页内容的对应关 系。
9、 一种为网页选择或限制投放对象的方法,其特征在于,包括以下步骤 在网页源文件中或网页的描述文件中加入网页适合对象信息;用户在请求网页过程中,把用户本身的用户信息和所述网页适合对象信 息进行比较,如果所述用户信息满足网页适合对象信息的要求,则将网页投 放给用户,其中,所述网页描述文件包括网页的内容描述文件和功能描述文 件中至少一种。
10、 一种实现个性化网页浏览客户端的方法,其特征在于,包括以下步骤网页浏览器获得用户信息;浏览器在浏览网页时,加载所述用户信息,并根据所述用户信息的内容 和所述网页的服务端进行交互。
11、 如权利要求IO所述实现个性化网页浏览客户端的方法,其特征在于,所述网页服务端根据所述用户信息中的兴趣爱好向所述客户端推送广告信 自
12、 一种被动式的生成网页功能描述文件的方法,其特征在于,包括以 下步骤获得网页的源文件或网页的内容描述文件;为相关的网页元素设置操作逻辑,并形成记录保存到功能描述文件中; 所述操作逻辑是所述网页元素在某种情况下,浏览器需要执行对应的操作。
13、 一种被动式使用网页描述文件的系统,其特征在于,包括服务端和 客户端,所述服务端具体包括处理模块,用于处理网页文件,并在服务端内生成 网页的内容描述文件和/或功能描述文件;所述客户端具体包括网页浏览模块和功能文件解析器,所述网页浏览模块,用于解析并浏览网页源文件;所述功能描述文件解析器,用来解析功能描述文件,并且通过功能描述 文件和网页浏览模块一起完成功能描述文件中定义的操作逻辑;其中,所述操作逻辑是所述网页元素在某种情况下,浏览器需要执行对 应的操作。
14、 一种网站与网站或网站与用户的数据协同处理方法,其特征在于, 包括以下步骤处理方接收到来自生成方的网页文件,以及网页文件对应的功能描述文 件和/或内容描述文件; 处理方根据接收到功能描述文件中描述的操作逻辑来处理接收到的网页和/或网页对应的内容描述文件;所述生成方为生成网页文件,并且生成网页对应的内容描述文件和/或 功能描述文件的一方;所述处理方为处理接收到的网页文件,以及和网页 文件对应的内容描述文件和/或功能描述文件的 一方。
全文摘要
本发明公开了一种应用网页语义的方法和系统,该方案的主要用途之一就是提取网页中的语义内容,并加以分析和利用,例如可以通过语义的提取为网页加上与网页内容相关的广告。有被动式和主动式两种方法分析网页语义。主动式是在客户端,即网页浏览端,运行一个关键字匹配模块,分析并通过指定模式寻找网页中存在的关键字,当发现匹配的关键字时,则向服务端发起辅助信息请求,通常是广告信息请求,获得广告信息,并在适当的地方播放。被动式则是把网页进行预先处理,形成网页的内容描述文件或功能描述文件,然后把功能描述文件和网页一起发送给客户端,客户端按预定义的操作逻辑执行。
文档编号G06F17/30GK101154231SQ20071011852
公开日2008年4月2日 申请日期2007年7月9日 优先权日2007年7月9日
发明者孟智平 申请人:孟智平
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1