评价网页的装置和方法

文档序号:6442277阅读:208来源:国知局
专利名称:评价网页的装置和方法
技术领域
本发明涉及一种装置和方法,用于评价因特网的网页上传播的信息。
背景技术
一组网页一般包括一个首页以及以分层结构链接到该首页的多个网页,每个网页都包括传播信息。据说世界上有二十至四十亿个网页。为了在具有同样目的的企业和个人的领域中适当地传播信息,仅仅追求增加访问网页的频率或者简单地安排格式,是不能令人满意的。此外,由于使用关键字的检索技术广泛普及,在要检索的网页上适当地准备传播内容至关重要。
为了达到这一目的,有必要详细评价网页上传播的内容,并通过适当地反馈评价结果,而增加网页的价值和完善水平。
为了增加网页的完善水平,不仅需要向浏览者传播信息,而且需要有效地准备网页内容,以支持提取信息、归纳信息等技术开发过程中的技术发展,因为信息的提取和归纳是基于网页上传播的目标信息的每一片断。
在以下电子信息的介绍中,已经提出了主要是在说英语国家中的网页的若干评价准则。
J.Alexander and M.A.Tate,Evaluating Web Resources,1996.
http//www2.widener.edu/Wolfgram-Memorial-Library/webevaluation/webeval.htm通过对普通印刷品的评价项目增加网页的特性,获得了这些评价准则。例如,有一种‘使用检验列表及其效果的网页临界评价’,考虑了网页的当前状态,并产生了包括新观点的检验列表。另一方面,也能够通过打开该网页以观察到吸引最大可能数目的浏览者注意所需的时间,来计算网页的价值。不仅如此,通过请求大量的注册成员回答调查表来评价网页的尝试,实际上已经实现了。
不过,在上述的常规技术中,没有解释网页上说明的内容,主要是介绍了形式的评价和主观的评价。所以,存在着评价价值依赖于评价者的价值取向和当前状况的问题。

发明内容
本发明的一个目的是提供一种实际和客观评价网页的装置和方法。
依据本发明的网页评价装置包括一种存储设备、一种发生设备、一种评价设备和一种输出设备。
存储设备存放着因特网中多个域和多个评价项目之间的对应关系。发生设备引用存储设备中存放的对应关系,在多个评价项目中提取特定的域对应的评价项目,并产生由提取的评价项目形成的评价集。评价设备使用已产生的评价集中包含的评价项目,计算要评价网页的评价分数,而输出设备输出包括获得的评价分数的评价结果。
附图简要说明

图1显示了依据本发明的评价装置的配置;图2显示了处理流程;图3显示了学习单元的处理;图4显示了标签确定处理的目标数据;图5显示了一个网页的数据;图6显示了标签清除处理之后的数据;图7显示了目录信息;图8显示了一个评价集的视图(1);图9显示了一个评价集的视图(2);图10显示了一个评价集的视图(3);
图11显示了一个评价集的视图(4);图12显示了一个评价集的视图(5);图13显示了一个评价集的视图(6);图14显示了标签赋值过程之后的数据;图15显示了公司概况细化的过程;图16显示了产品信息细化的过程;图17是某个项目名称之本体论的显示视图(1);图18是某个项目名称之本体论的显示视图(2);图19是某个项目名称之本体论的显示视图(3);图20是某个精细的和调整后的评价集组的显示视图(1);图21是某个精细的和调整后的评价集组的显示视图(2);图22是某个精细的和调整后的评价集组的显示视图(3);图23是某个精细的和调整后的评价集组的显示视图(4);图24是某个精细的和调整后的评价集组的显示视图(5);图25是某个精细的和调整后的评价集组的显示视图(6);图26显示了发生单元的处理;图27是某个赋予了权值的指定域评价集的显示视图(1);图28是某个赋予了权值的指定域评价集的显示视图(2);图29是某个赋予了权值的指定域评价集的显示视图(3);图30是某个赋予了权值的指定域评价集的显示视图(4);图31是某个赋予了权值的指定域评价集的显示视图(5);图32是某个赋予了权值的指定域评价集的显示视图(6);图33显示了评价单元的处理;图34是某个信息传播项目评价的显示视图(1);图35是某个信息传播项目评价的显示视图(2);图36显示了详细的信息项目的评价;图37显示了结果处理单元的处理;图38显示了构造支持单元的处理;图39显示了信息处理设备的配置;以及图40显示了存储介质。
具体实施例方式
下面参考附图,详细介绍本发明的实施例。
依据本发明的网页评价装置包括一种存储设备、一种发生设备、一种评价设备和一种输出设备。
存储设备存放着因特网中多个域和多个评价项目之间的对应关系。发生设备引用存储设备中存放的对应关系,在多个评价项目中提取特定的域对应的评价项目,并产生由提取的评价项目形成的评价集。评价设备使用已产生的评价集中包含的评价项目,计算要评价网页的评价分数,而输出设备输出包含着获得的评价分数的评价结果。
通过事先存放某个域和某个评价项目之间的对应关系,某个用户指定某个任意域时,发生设备能够自动提取对应于该域的实际评价项目。因此,在要评价的同一网页中,对于某个指定的域就产生了一个不同的评价集,对于该指定域评价设备计算一个不同的评价分数。
仅仅通过指定某个域,用户就可以获得一个实际的评价结果,通过改变该域可以获得一个不同的评价结果。任何用户都能够使用该评价装置,并且如果指定了相同的域,会获得同样的评价结果。所以能够实际和客观地评价要评价的网页。
存储设备对应于例如后面参考图39介绍的外部存储设备185,域和评价项目之间的对应关系对应于例如后面参考图3介绍的精细的和调整后的评价集组96。发生设备和评价设备对应于例如后面参考图1介绍的发生单元22和评价单元23。输出设备对应于例如图39所示的输出设备184。
产生一个网页时,从发生器一方的便利、吸引用户的注意、适当的表达配置等观点,提供了一种工具和应用程序。
启动一个网页时,需要上述观点。不过,由于类似的网页很多以及网页的数目每天都在增加,为了传播信息而产生和维护网页时,这些工具和应用程序并不足以获得直接的效果。为了达到这个目的,需要一种与传播信息的内容有关的支持工具和应用程序。
为了详细考虑传播信息的内容,需要以下三种功能。
(a)详细安排要评价之域的内容涉及的评价项目。
(b)对于安排的评价项目,确定客观评价的分数。
(c)从传播者、浏览者等等的多种观点分析评价结果,并且易于满足他们的请求。
依据本实施例的、指定域的网页评价装置通过安排网页上传播信息的内容作为该域的一种评价集,进行一种依赖于评价集的网页咨询。该评价方法不是使用常规检验单、调查表等,对网页的总体评价(明显度、易理解性等),而是一种考虑每一条传播信息之内容的评价方法。结果下面介绍的是具有(a)至(c)功能的网页评价装置的配置和操作。
图1显示了上述评价装置的配置。图1所示的评价装置配置为使用一种信息处理设备(计算机),包括学习单元21、发生单元22、评价单元23、结果处理单元24和构造支持单元25。那么,它具有两种功能。一种是使用基于传播内容的指定域评价集来评价传播信息之网页的功能,另一种是根据评价结果改善该网页的功能。
学习单元21从因特网中的网页组学习评价项目。这时,对评价中所用的所有项目都进行提取和安排,以产生评价集组26。该评价集是每个网页之评价项目的一个集合,由信息传播项目和详细信息项目形成。这些评价项目涉及评价集内因特网中的某个域。
产生一个网页时,一个信息传播项目预先是作为要传播信息的一个基本项目集。通过分析不同于信息传播项目的内容信息,获得一个详细信息项目。作为一个评价集,可以仅仅使用信息传播项目,也可以同时使用信息传播项目和详细信息项目。作为信息传播项目,提取了例如网页中预先配备了标签的数据。
通过对文本表达的信息进行自然语言处理以及提取表达的详细信息而获得的单位信息,也用作一个详细信息项目。自然语言处理可以是例如在文本表示中使用模式匹配规则,赋予新标签的一种处理,以及从文本表示及其词性通过词法分析提取的词素的组合中,提取确定为名词的词素的一种处理。
从评价集组26中,发生单元22在用户指定的域中提取评价集,安排评价项目,并产生指定域的评价集27。收到要评价的网页之后,评价单元23使用指定域的评价集27评价其内容,并输出评价结果。结果处理单元24向用户表达评价结果,并根据该评价结果进行一种处理,以改善网页的内容。构造支持单元25使用指定域的评价集27支持新网页的构造。
利用上述配置,用户能够灵活地指定某个域,并且使用对于指定的域最优的评价集,实际和客观地评价网页。不仅如此,还能够平稳地执行表示评价结果和改善网页的处理。评价装置的用户能够为信息的传播者和浏览者。
图2是图1所示评价装置执行的处理流程。首先,从网页组学习了一个评价项目时,学习单元21使用网页清除技术、词法分析技术等,从网页中提取(31)信息传播项目,并且在数据库中把它们登记为一个评价集。因此,产生了网页组的评价集组26。
如果提取的信息传播项目是随意收集的,选择和使用信息传播项目时就会发生混乱。所以,按照安排系统的目录信息33,学习单元21对网页组系统(若干域的一个系统)中包含的每个类别的信息传播项目进行安排和排序(32),从而产生了一个评价集。
不过,仅仅使用信息传播项目,还不能进行考虑了内容的充分评价。所以,学习单元21把评价项目细化,使得通过使用信息的提取、信息的归纳等内容分析技术中要处理之内容的要素,上述内容能够详细地视为评价项目,从而产生了精细的评价集组(34)。
这时,学习单元21对信息传播项目的评价集组应用预先准备的内容分析技术比如信息提取规则(对于从文本提取信息)等,提取详细的信息项目,并扩充评价集组26。
在提取的信息传播项目和详细的信息项目中,对同一项目使用了多种表示,如此很难正确地评价数据。所以,学习单元21对于系统的每个类别使用本体论(同义词辞典)36,来消除表达中的变化(一致化),并恰当地安排评价项目(35)。例如,对于系统中安排的每个类别的信息传播项目,使用依赖于该类别的本体论36,使项目名称一致化和标准化,从而使评价集组26一致化和标准化。
然后,用户从预先系统地安排的多个类别中选择某些不必需的类别,从而指定一个域。发生单元22从评价集组26产生指定域的评价集27(41)。因此,根据预先系统地安排的系统,通过限制要评价的域,能够获得与域有关的评价结果。
不过,仅仅使用从实际网页中提取的评价项目,在某些情况下不能充分地执行域中传播信息的评价。所以,按照近期的趋势、新的倾向、申请等等,增加必要的项目,并通过提供各自的功能,对提取的项目进行改正(42)。
因此,用户能够对指定域的评价集27增加必要的项目(需要的和期望的)。增加的项目是作为新的项目,提取自例如该域的整个工业趋势、有关人员的调查表、感兴趣的客户等等。
也存在以下情况,对于每个类别,要改变指定域的评价集27中某个评价项目的评价加权。在这些情况下,提供了在每个类别中赋予权值的一种功能(43)。例如,通过为每个类别设置一个计算函数等等来赋予权值。
可能存在以下情况,在相同类别的域中,根据评价观点等等对每个评价项目改变评价权值。在这种情况下,为指定域的评价集27中每个评价项目提供一种赋予权值的函数(44)。
赋予权值的观点是例如供货企业方、客户方、企业使用方、信息采集方等等。根据这个观点,对每个项目确定重要性,并对每个项目调整权值。不仅如此,根据每个网页的级别,在高级别网页上,能够通过项目的公共部分赋予权值。在这种情况下的级别可以是依赖于链接的网页数目、公众声望级别等的重要性级别。
学习单元21和发生单元22执行上述处理时,实际上能够考虑传播信息的内容,详细安排在每个域中要评价的评价项目。
然后,评价单元23通过指定域的评价集27的评价项目,对要评价的网页进行评价(51)。由于对指定的域需要输出定量信息的评价结果,要计算一个评价分数。有若干分数计算方法,用户可以任意指定一种计算方法。
在简单的分数计算中,在要评价的网页上检验指定域的评价集27中的每个信息传播项目是否存在,仅仅从存在项目的数目也能够计算出评价分数(52)。
在包括URL(统一资源定位器)层次的分数计算中,为了在评价分数中体现用户便利的观点,对于包含每个信息传播项目有关信息的每个网页,计算评价分数时考虑了从首页开始的层次(链接)深度(53)。
在按项目次序进行的分数计算中,在要评价的网页上使用指定域的评价集27中评价项目的显示次序计算评价分数(54)。获得项目显示次序可以根据项目在菜单、弹出窗口等等中的位置,并以在指定域中计算的普通次序作为参考,计算评价分数。
在信息提取结果的分数计算中,在要评价的网页上检验指定域的评价集27中的每个详细信息项目是否存在,从存在项目的数目也能够计算出评价分数(55)。这时要通过实际分析要评价的网页上的内容,确定是否有对应的详细信息。
在包括提取结果说明扩展的分数计算中,对于一个详细信息项目,为了考虑用户便利的观点,对于包含每个详细信息项目有关信息的每个网页,计算评价分数时考虑了从首页开始的层次深度和内容分析中说明位置的扩展(56)。
通过评价单元23进行上述分数计算,对安排后的评价项目进行客观的分数确定。
然后,结果处理单元24在屏幕上显示计算出的评价分数,作为评价结果(61)。
如果在同一域中存在表达中的变化,用户就可能误解显示出的评价结果。所以,提供了一种支持功能(发出一种指示),用于每个网页使用的表达不同于相应域中的普通表达时(62)。
通过该功能,对于指定域的评价集27中每个类别的评价项目,结果处理单元24使用类别有关的本体论,表示了改正项目名称的建议。因此,用户可以恰当地改正项目名称。
不仅如此,结果处理单元24还能够启动自动进行改正的界面,而不是向用户表示建议。在这种情况下,按照系统的指令,主动地改正同一域中表达中的变化(63)。
虽然通过表示评价分数,在指定域中定量地获得了评价结果,用户(传播者)申请采取措施改善获得的评价时,必须认识到什么项目和内容具有问题。所以,为了在网页改善方法中使用,结果处理单元24表示了降低了分数的特定评价项目和内容(64)。
不仅如此,如果已知能够通过定量地改变哪个项目作为评价改善措施65,评价结果如何定量地改变,在认识到改善效果之后,就能够制定一个操作次序的计划。所以,结果处理单元24预测和表示每个项目对评价分数改善结果的影响程度(66)。例如,实际增加了某些信息传播项目时,计算一个新的评价分数,并表示该数值。
结果处理单元24不仅执行每个项目改善的仿真,而且实际启动输入界面,容许用户执行改善操作(增加必要的项目、改正传播内容的内容等等)(67)。在这种情况下,激活的输入界面为改善操作自动显示一种输入形式。
在网页内容的评价中,包含的(或者丢失的)要传播信息的容量表示为主要的评价结果。不过,是否存在对于要评价的网页独特的传播信息,在其它网页上没有发现,这对于网页的管理者是有用的信息。在评价过程中,这种信息能够作为副产品来采集。
结果处理单元24把不同于指定域的评价集27的评价项目的项目表示为特殊信息,并给出建议——它对应于某个奇异的项目、某个耗费能力的项目、某个浪费的项目等等(68)。
结果处理单元24执行上述处理时,可以从多种观点分析评价结果,比如传播者、浏览者等的观点,并且能够按照他们的申请容易地执行这项处理。
构造支持单元25支持用户构造对应于指定域的一个新网页(71)。
产生一个新网页时,需要支持采用某种项目安排、某种表达方法等等,实际上要使用许多发生支持工具。不过,在指定域中,目前没有提供指定传播信息内容等等的支持。
使用构造支持单元25,能够向需要在指定域中产生新网页的用户表示适当的项目和内容信息,使其使用产生的信息评价网页和传播信息。
这时,用户通过选择某个类别来指定某个域,构造支持单元25从指定域的评价集27产生信息传播有关的基本元信息,并向用户表达(72)。基本的元信息可以是标准的标签集、XML(可扩充的链接标示语言)的DTD(文档类型规定)等等。
不仅如此,构造支持单元25不仅表达基本的元信息,而且实际启动输入界面,容许用户执行信息输入操作,以便按照基本的元信息实际产生一个网页(73)。激活的输入界面为按照基本的元信息输入信息而自动显示一种输入形式。
构造支持单元25执行上述处理时,传播者能够高效地产生一个网页,包括指定域的评价项目对应的信息。
然后,参考图3至图38,解释图2所示每种处理的特定实例。
图3显示了学习单元21的处理。图3所示的学习单元21包括清除单元81、项目提取单元82、系统安排单元83、系统对应关系处理单元84、信息提取单元85和项目变化检验单元86,并且使用因特网中网页组的输入,输出某个精细的和调整后的评价集组96。学习单元21的重要功能是从网页提取评价项目,以及使提取的评价项目系统化。
首先,清除单元81执行网页清除,从网页上的信息中去除不需要的标签和垃圾。通过网页清除,能够去除网页上显示的不作为文本处理的部分,比如标题广告、动画/静止影像信息等等。
然后,项目提取单元82通过对清除后的信息执行标签确定处理、标签清除处理、词法处理、词性确定处理等等,提取加了标签的信息作为信息传播项目91。通过提取网页上显示的菜单项的标签,执行标签确定处理。例如,给出图4所示的数据时,就要提取img标签中使用的alt数据。不仅如此,标签清除处理还要从给出的数据中去除标签。
图5显示了某个假定企业的网页中包含的公司概况有关的说明。给出这种数据时,标签清除过程去除标签,比如TABLE、TR、TD、B等等。例如,在数据的101部分执行标签清除时,提取出图6所示的数据。
进行词法处理是通过对文本信息的部分应用一种词法分析——它是一种普通的自然语言处理工具——并利用划分单元为评价项目提取候选者作为目标。进行词性确定处理是通过例如确定词法处理中划分的单元信息的词性,并提取特定的词性作为评价项目的候选者。在这个实例中,视为名词并出现N(例如N=3)次或更多次的单元信息提取为候选者。
图3所示的系统安排单元83预先安排网页组的系统为目录信息33。目录信息33是通过对网页组的类别进行系统化而获得的,并用于安排评价集组93——它是学习的结果——的评价项目。
图7显示了目录信息33的一个实例。该目录信息具有6层的层次结构,由类别1至类别6形成,每个类别的下层有其它类别。例如,类别1的‘产业’对应于最高层,而类别6的‘公司M’等对应于最低层。不仅如此,‘第一产业’的类别为‘农业’、‘渔业’、‘畜牧业’、‘林业’和‘狩猎业’。
系统对应关系处理单元84检验目录信息33的系统中对应于提取项目的部分,产生系统化的信息传播项目92,作为每个项目与对应类别的组合,并将它存放在评价集组93中。
图8至图13显示了评价集组93的一个实例,它是通过从实际因特网的网页中提取评价项目(信息传播项目)而产生的。提取的信息传播项目可以划分为所有网页共有的一个公共项目、每个类别特定的一个特定项目和每个网页特定的个别项目。
图8显示了属于‘食品制造商’类别之企业的名称、URL和公共项目。图9显示了这些企业的特定项目和个别项目。图10显示了属于‘化妆品制造商’类别之企业的名称、URL和公共项目。图11显示了这些企业的特定项目和个别项目。另外,图12显示了属于‘汽车制造商’类别之企业的名称、URL和公共项目。图13显示了这些企业的特定项目和个别项目。
在图9、图11和图13中,特定项目和个别项目的说明次序对应于对应的图8、图10和图12中所示公司名称的说明次序。
然后,信息提取单元85根据预先存放的信息提取规则94,从网页上的信息中提取详细信息项目95,并将它加入评价集组93的信息传播项目中。在这个实例中,通过对网页上的信息赋予新标签来提取详细信息项目。
例如,根据信息提取规则赋予一个标签时,可以获得图14所示的数据。在图14中,annunciator organization information(通告组织信息)、foundation information(创建信息)、element1(要素1)、date of foundation(创建日期)、establishment information(成立信息)、date of establishment(成立日期)、uncertain organizationsupplementa ry information(不确定组织补充信息)、other information(其它信息)、president information(总裁信息)、capital information(资本信息)和employee information(雇员信息)的标签是新赋予的。在这项处理中,创建日期、成立日期、总裁信息、资本信息、雇员信息等提取为详细信息项目。
图15显示了通过详细介绍‘公司概况’的信息传播项目,获得的详细信息项目的实例。通过对‘公司概况’项目中传播的内容信息应用信息提取规则,提取详细信息项目,比如公司名称、地址、电话号码、法人代表(总裁)、资本、创建年份、成立年份、雇员数目等等。
图16显示了通过详细介绍‘产品信息’的信息传播项目,获得的详细信息项目的实例。在这个实例中,通过对‘产品信息’项目中传播的内容信息应用信息提取规则,提取详细信息项目,比如产品名称、类型信息、产品补充信息、制成产品信息、制造组织信息、制造组织补充信息等等。
因此,在信息提取过程中,通过详细介绍信息传播项目,使评价集组93的评价项目细化。
然后,项目变化检验单元86使用本体论36,执行名称一致化处理,去除项目名称中的变化。因此,对于每个类别,评价集组93的项目名称统一为一个典型项目名称,能够实现项目名称的标准化。
图17至图19显示了本体论36的实例。图17、图18和图19显示了属于‘食品制造商’、‘化妆品制造商’和‘汽车制造商’类别的各自项目的典型名称,以及对应的可能范围。选择典型名称可以使用例如每种项目名称的出现次数作为参考。
图20至图25显示了精细的和调整后的评价集组96的实例,它是作为某个评价集组的学习结果而产生的。在这些图中,列出了‘食品制造商’、‘化妆品制造商’和‘汽车制造商’各自类别的评价集,以及各自企业的评价集。不过在这个实例中,为了方便仅仅指出了信息传播项目。这些项目划分为公共顶级菜单表达、产业的特定项目和其它菜单。
图20显示了属于‘食品制造商’的企业名称、首页结构(最高结构)和公共顶级菜单的表达。图21显示了这些企业的产业特定项目和其它菜单。图22显示了属于‘化妆品制造商’的企业名称、首页结构和公共顶级菜单的表达。图23显示了这些企业的产业特定项目和其它菜单。图24显示了属于‘汽车制造商’的企业名称、首页结构和公共顶级菜单的表达。图25显示了这些企业的产业特定项目和其它菜单。
在图21、图23和图25中,产业特定项目和其它菜单的说明次序对应于对应的图20、图22和图24中企业名称的说明次序。
在图20、图22和图24中,在‘食品制造商’、‘化妆品制造商’和‘汽车制造商’的每种类别中增加典型项目名称比如‘新到货物’、‘发布’等。
不仅如此,在图21中,增加了典型项目名称比如‘工厂参观’、‘最高文本消息’等。在图23中,增加了典型项目名称比如‘美容术’、‘时尚’等。在图25中,增加了典型项目名称比如‘工厂参观’、‘召回’等。
然后,图26显示了发生单元22执行的处理。图26所示的发生单元22包括类别选择单元111、部分系统选择单元112、项目增加单元113、类别生成单元114、类别选择单元115、权值赋予单元116、项目选择单元117和权值赋予单元118。它接收精细的和调整后的评价集组96,输出赋予了权值的指定域评价集122。
为了从精细的和调整后的评价集组96中选择指定域的评价集121,指定某个域以及增加和改正某个项目的功能至关重要。用户指定某个域时,能够选择系统化的评价集的每个类别,并且通过使用部分系统选择单元112指定更高层中的某个类别,能够选择一组类别。每个类别对应于每个网页的URL,一组类别对应于多个网页的一个组。
使用类别选择单元111选择系统中最低层包含的一个或多个类别时,所有选定的类别都指定为一个域。如果由部分系统选择单元112指定了某个更高层的类别,那么指定的类别和它包含的更低层类别指定为一个域。所以,使用类别选择单元111和部分系统选择单元112,能够获得需要类别中的每一个,或者能够选择系统结构的某个部分,从而指定一个域。
然后,从精细的和调整后的评价集组96中提取对应于选定类别的评价项目,就产生了指定域的评价集121。
从现有网页提取的评价项目不足时,用户使用项目增加单元113和类别发生单元114,在指定域的评价集121的评价项目中增加某个项目和进行修改。这时,项目增加单元113把用户输入的项目增加到每个类别中。不仅如此,类别发生单元114还在类别内的项目中删除用户指定的项目,或者把类别名称改变为用户指定的名称。
为了按照赋予每个评价项目的重要性级别来处理指定域的评价集121的每个评价项目,类别加权处理和项目加权处理是重要的功能。在类别加权处理中,用户使用类别选择单元115来选择某个要赋予权值的类别,并使用权值赋予单元116指定要赋予的权值。在项目加权处理中,用户使用项目选择单元117来选择要赋予权值的项目,并使用权值赋予单元118指定要赋予的权值。因此,就产生了赋予了权值的指定域评价集122。
图27至图32显示了赋予了权值的指定域评价集122的实例。不过在这个实例中,假定图20至图25所示评价集组的所有类别都指定为一个域。
在图28、图30和图32中,产业特定项目和其它菜单的说明次序对应于对应的图27、图29和图31中企业名称的说明次序。
在图27、图29和图31中,对某个企业名称的每个类别都赋予类别的权值,对公共顶级菜单表达的每个项目都赋予项目的权值。不仅如此,在图28、图30和图32中,对每个产业特定项目也都赋予项目的权值。
在图20至图25所示评价集组中,若干类别中只有一部分指定为一个域时,仅仅提取指定部分的评价项目,并产生指定域的评价集121和赋予了权值的指定域评价集122。例如,指定‘食品制造商’为一个域时,由图27和图28所示的评价项目来配置赋予了权值的指定域评价集122。
然后,图33显示了评价单元23的处理。作为评价单元23的预处理,由图3所示的清除单元81和项目提取单元82从要评价的网页中提取信息传播项目131,由信息提取单元85从要评价的网页中提取提取详细信息项目132。然后,项目变化检验单元86统一项目的名称,并为要评价的网页准备要评价的安排项目。
图33所示的评价单元23包括项目检验单元141、层次检验单元142、提取内容检验单元143、扩展检验单元144和次序检验单元145。它接收赋予了权值的指定域评价集122、信息传播项目131和详细信息项目132,并输出网页评价结果151。
项目检验单元141和层次检验单元142执行信息传播项目级别的处理,提取内容检验单元143和扩展检验单元144执行详细信息项目级别的处理。另外,次序检验单元145执行与这两个项目有关的处理。
项目检验单元141检验信息传播项目的存在/不存在,并执行简单的分数计算。这时,检验从要评价的网页中提取的要评价的项目中,是否包含评价集122中的每个信息传播项目对应的内容信息。存在项目的项目检验值设置为1,而不存在项目的项目检验值设置为0。如果每个项目都赋予了权值,那么在计算每个项目的分数时要加以考虑。
例如,如图27至图32所示,使用1至10的整数赋予10个级别的权值时,通过把指示项目存在/不存在的项目检验值乘以(项目权值/10),计算分数。通过以下公式计算评价分数。
每个项目的分数=项目检验值*项目的权值/10评价分数=项目分数之和/项目数目图34和图35显示了使用‘食品制造商’作为指定域评价每个企业的网页时,信息传播项目的项目检验值的实例。图34显示了每个企业的网页上公共顶级菜单表达的项目检验值。图35显示了网页上产业特定项目的项目检验值。
层次检验单元142通过执行URL层次计算,检验要评价的网页上信息传播项目的层次位置,并根据该结果执行分数计算。这时,对于要评价的网页,假设首页的出现层数为1,计算出每个信息传播项目的出现层数(深度)。然后,项目检验值乘以出现层数的倒数,获得每个项目的分数。在这种情况下,通过以下公式计算评价分数。
每个项目的分数=项目检验值*(项目的权值/10)*(1/出现层数)评价分数=项目分数之和/项目数目提取内容检验单元143检验详细信息项目的存在/不存在,并执行包括提取结果的分数计算。这时,检验从要评价的网页中提取的要评价的项目中,是否包含指定域的评价集122中的每个详细信息项目对应的内容信息。然后,由项目检验单元141使用简单分数计算的算法,计算评价分数。
图36显示了图34所示的每个企业的网页上的详细信息项目的项目检验值实例。在这个实例中,对于‘企业名称’、‘资本’等每个项目,指出了一个项目检验值。
扩展检验单元144在执行分数计算之前,检验详细信息项目的位置和说明的扩展。这时,在要评价的网页上,计算多个详细信息项目组成的序列以及项目之间的分离程度。分离程度指示了在两个项目之间有多少个其它项目,没有其它项目存在时设置为1。然后,项目检验值乘以分离程度的倒数,计算每个项目的分数。在这种情况下,通过以下公式计算评价分数。
每个项目的分数=项目检验值*(项目的权值/10)*(1/分离程度)评价分数=项目分数之和/项目数目例如,如果提取‘邮政编码’和‘地址’作为详细信息项目,这些项目相互接近时评价分数就高,而它们相互分离时评价分数就低。
次序检验单元145检验信息传播项目和详细信息项目的显示次序,并执行分数计算。这时,它获得要评价的网页上指定域评价集122的评价项目的次序(菜单项的序列等等),将该次序与参考次序进行对比,并计算评价分数。例如,参考次序预先从指定域的网页上的项目计算。
如果在每个项目的分数计算中,对每个类别赋予了权值,那么分数计算要考虑该权值。在这种情况下,例如,项目检验值*(项目的权值/10)要乘以(类别的权值/10),从而计算每个项目的分数。
通过上述分数计算,能够计算三种类型的数值,也就是,信息传播项目级别的评价分数、详细信息项目级别的评价分数和按项目次序的评价分数。对信息传播项目级别和详细信息项目级别的评价分数,能够应用一种按照项目数目的平均处理。
图37显示了结果处理单元24的处理。图37所示的结果处理单元24包括传播项目评价单元161、提取内容评价单元162、项目次序评价单元163、项目名称评价单元164、改善处理单元165、改善结果预测单元166、改善操作支持单元167和特殊信息处理单元168。它使用网页评价结果151作为输入,向用户展示评价结果,并支持网页的改善操作。
传播项目评价单元161展示信息传播项目级别的评价分数和每个信息传播项目的分数。提取内容评价单元162展示详细信息项目级别的评价分数和每个详细信息项目的分数。项目次序评价单元163展示按项目次序的评价分数。
不仅展示评价分数,而且展示每个项目的分数,使得用户容易理解某个评价较低的项目,从而存取改善措施。例如,若是项目分数为0,对应的项目在网页上不存在。所以,通过将它加到网页上,就改善了网页。
项目名称评价单元164显示网页上某个项目名称表达中的变化,使用本体论获得适当的典型项目名称,并把它展示为修改候选者。因此,用户能够容易地将项目名称修改为展示的典型项目名称。此外,改善处理单元165启动一个界面,用于修改表达中的变化。激活的界面自动将项目名称修改为典型项目名称。
改善结果预测单元166预测并展示评价结果中包含的项目的改善结果。例如,若是某个信息传播项目的项目分数为0,改善结果预测单元166请求评价单元23虚拟地增加上述项目后执行分数计算,并向用户展示获得的评价结果。此外,改善操作支持单元167启动输入界面,以支持改善存在。激活的输入界面自动显示一个输入形式,并在网页上反映用户输入的变化。
特殊信息处理单元168执行信息差异计算,检验网页上是否变化不同于评价项目的项目(差异项目)。如果包含差异项目,那么它就显示为特殊信息。因此,用户可以认识到已经传播了在指定域没有获得的独特信息。
图38显示了构造支持单元25的处理。图38所示的构造支持单元25包括元信息提取单元171、元信息表达单元172和改善处理单元173。它支持使用赋予了权值的指定域评价集122作为输入,构造一个新的网页。
元信息提取单元171根据指定域的评价集122的评价项目,在指定域中产生元信息(标签集、DTD等等)。元信息表达单元172向用户展示提取的元信息。
改善处理单元173启动一个输入界面,激活的输入界面按照元信息自动显示输入形式,并重复包含用户输入信息的网页。
图1所示的评价设备配置为例如使用图39所示的信息处理设备(计算机)。图39所示的信息处理设备包括CPU(中央处理器)181、存储器182、输入设备183、输出设备184、外部存储设备185、介质驱动设备186和网络连接设备187。它们通过总线188相互连接。
存储器182包括例如ROM(只读存储器)、RAM(随机存取存储器)等等,存放着处理中所用的程序和数据。CPU181使用存储器182,通过执行程序进行必要的处理。在这种情况下,图1所示的学习单元21、发生单元22、评价单元23结果处理单元24和构造支持单元25对应于存储器182中存放的程序。
输入设备183可以是例如键盘、定点设备、触摸屏等等,用于从用户输入指令和信息。输出设备184可以是例如显示器、打印机、扬声器等等,用于向用户输出询问和处理结果(评价结果等等)。
外部存储设备185可以是例如磁盘设备、磁带设备等等。信息处理设备在外部存储设备185中存放上述程序和数据,加载到存储器182并按需使用它们。外部存储设备185也用作存放图2所示的目录信息33和本体论36的数据库,以及积累图2所示的精细的和调整后的评价集组96的数据库。
介质驱动设备186驱动便携存储介质189,并存取存放的内容。便携存储介质189可以是任意的计算机可读的存储介质,比如存储卡、软盘、CD-ROM(只读光盘存储器)、光盘、磁光盘等等。用户在便携存储介质189存放上述程序和数据,加载到存储器182并按需使用它们。
网络连接设备187连接到任意的通信网络,比如LAN(局域网)、因特网等等,并在通信期间转换数据。信息处理设备通过网络连接设备187接收上述程序和数据,加载到存储器182,并按需使用它们。
图40显示了能够为图39所示的信息处理设备提供程序和数据的计算机可读存储介质。在便携存储介质189中存放的程序和数据以及服务器190的数据库191,加载到存储器182。服务器190产生一个用于传播程序和数据的传播信号,并通过网络中任意的传输媒介,将它们传送到信息处理设备。CPU181执行使用该数据的程序,进行必要的处理。
网页的评价过去是浏览者的主观或者说常规评价。不过按照本发明,指定域的评价项目实现了可行的和客观的网页评价。
此外,不仅网页产生时预先设置的项目集能够用作要评价的项目,内容分析获得的项目也可以。所以,能够获得更详细的评价。另外,通过自由选择URL和系统结构有关的指定域,评价项目可以灵活地设置,并且能够以某些方法将权值赋予评价内容,从而获得适当的评价结果。
不仅如此,对某个网页评价积累的多种详细信息项目,能够用作基本数据,用于每个指定域本体论的构建。本体论的构建需要每个领域专家的高级技术。所以,本体论不可能容易地产生。此外,通过恰当地理解本体论随时间变化的趋势,对它进行维护也需要很大的成本。不过,使用本发明的技术,能够容易地实现这些基本操作。
产生一个新网页时,能够实现使用指定域中提取的详细信息项目,支持网页构建处理的功能,它不是浏览功能或者常规构建支持。提供最优的网页生成界面是绝对必要的,但是在增加网页数目的目前情况下,特别需要对详细信息项目的构建支持。
权利要求
1.一种网页评价方法,包括引用因特网中多个域和多个评价项目之间的对应关系;在多个评价项目中,提取对应于指定域的评价项目;产生包括提取的评价项目的评价集;使用该评价集包括的评价项目,计算要评价网页的评价分数;以及展示包括评价分数的评价结果。
2.根据权利要求1的方法,进一步包括通过从网页组中的信息预先提取信息传播项目集,学习所述多个域和多个评价项目之间的对应关系。
3.根据权利要求2的方法,其特征在于,所述学习从网页组中的信息预先提取赋予了标签的数据作为信息传播项目。
4.根据权利要求2的方法,其特征在于,所述计算检验要评价的网页中是否存在评价集内包括的每个信息传播项目,并计算评价分数。
5.根据权利要求2的方法,其特征在于,所述计算对评价集内包含的每个信息传播项目,获得从要评价的网页首页起的层次深度,并计算评价分数。
6.根据权利要求2的方法,其特征在于,所述学习分析信息传播项目的内容信息,从内容信息中提取详细信息项目,并将详细信息项目加入评价集内的评价项目中。
7.根据权利要求6的方法,其特征在于,所述学习分析要评价网页的内容信息,并从要评价的网页中提取详细信息项目,所述计算检验在要评价网页提取的详细信息项目中,是否存在评价集内包括的每个详细信息项目,并计算评价分数。
8.根据权利要求6的方法,其特征在于,所述计算检验在要评价的网页中,评价集内包括的和彼此相关的详细信息项目分离程度如何,并计算评价分数。
9.根据权利要求2的方法,其特征在于,所述学习引用指示网页组类别系统的目录信息,对目录信息包括的每个类别划分信息传播项目,从而学习多个域和多个评价项目之间的对应关系。
10.根据权利要求9的方法,其特征在于,所述学习使用目录信息的每个类别的本体论,统一评价项目的名称,并安排多个域和多个评价项目之间的对应关系。
11.根据权利要求9的方法,其特征在于,所述产生解释从目录信息包括的类别中选定的一个或多个类别作为指定域,提取属于选定类别的评价项目,并产生包括提取的评价项目和某个类别之间对应关系的评价集。
12.根据权利要求11的方法,其特征在于,所述产生对评价集包括的评价项目赋予每个类别的评价权值,所述计算使用赋予的权值计算评价分数。
13.根据权利要求11的方法,进一步包括对于评价集包括的每个类别,使用与评价项目对应类别相关的本体论,获得适当的典型项目名称;以及展示典型项目名称为修改候选者。
14.根据权利要求1的方法,其特征在于,所述产生对评价集包括的评价项目赋予每个评价项目的评价权值,所述计算使用赋予的权值计算评价分数。
15.根据权利要求1的方法,其特征在于,所述产生将用户指定的某个评价项目增加到评价集。
16.根据权利要求1的方法,其特征在于,所述计算获得要评价网页中评价集包括的评价项目的显示次序,并计算评价分数。
17.根据权利要求1的方法,其特征在于,所述展示展示包含降低评价分数的特定评价项目的评价结果。
18.根据权利要求1的方法,进一步包括要评价网页增加新的评价项目时,预测评价分数中的变化;以及展示预测的结果。
19.根据权利要求1的方法,进一步包括检验要评价的网页是否包括不同于评价集所包括的评价项目的项目;以及将不同于评价项目的项目展示为特殊信息。
20.根据权利要求1的方法,进一步包括使用评价集包括的评价项目,为产生一个指定域的新网页而产生元信息;以及展示元信息。
21.一种计算机可读的存储介质,存放着指示计算机执行一种处理所用的一个程序,该处理包括引用因特网中多个域和预先存放的多个评价项目之间的对应关系;在多个评价项目中,提取对应于指定域的评价项目;产生包括提取的评价项目的评价集;使用该评价集包括的评价项目,计算要评价网页的评价分数;以及输出包括评价分数的评价结果。
22.一种传播信号,用于向计算机传播指示计算机执行一种处理所用的一个程序,该处理包括引用因特网中多个域和预先存放的多个评价项目之间的对应关系;在多个评价项目中,提取对应于指定域的评价项目;产生包括提取的评价项目的评价集;使用该评价集包括的评价项目,计算要评价网页的评价分数;以及输出包括评价分数的评价结果。
23.一种网页评价装置,包括一种存储设备,存放着因特网中多个域和多个评价项目之间的对应关系;一种发生设备,引用多个域和多个差异项目之间的对应关系,提取对应于指定域的评价项目,产生包括提取的评价项目的评价集;一种评价设备,使用该评价集包括的评价项目,计算要评价网页的评价分数;以及一种输出设备,输出包括评价分数的评价结果。
24.一种网页评价装置,包括存储装置,用于存放因特网中多个域和多个评价项目之间的对应关系;发生装置,用于引用多个域和多个差异项目之间的对应关系,提取对应于指定域的评价项目,产生包括提取的评价项目的评价集;评价装置,用于使用该评价集包括的评价项目,计算要评价网页的评价分数;以及输出装置,用于输出包括评价分数的评价结果。
全文摘要
一种评价网页的装置和方法。从因特网中的网页组学习域和评价项目之间的对应关系,产生评价集组,并通过从该评价集组提取指定域对应的评价项目,产生指定域的评价集。然后,它根据指定域的评价集,评价要评价的网页。
文档编号G06Q50/10GK1442803SQ03106388
公开日2003年9月17日 申请日期2003年2月26日 优先权日2002年3月6日
发明者片山佳则, 古川淳子, 西野文人 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1