以使用者知识为基础的信息分类系统的制作方法

文档序号:6421328阅读:137来源:国知局
专利名称:以使用者知识为基础的信息分类系统的制作方法
技术领域
本发明提供一计算机网络系统,尤指一种网络使用者能依据接收到的信息,更新信息分类及过滤特性的计算机网络系统。
背景技术
在现今的网络环境中,有很多软件或硬件技术可用来分类及过滤信息,尤其对于电子邮件(电子邮件)的分类及过滤更是受到重视。电子邮件中有时会包含有一些恶性的指令,这些恶性的指令我们通常称的为“虫”(worm)或是“病毒”(virus)。而用来检测这些虫、病毒或其他恶性的指令的软件则被成为“防毒软件”。我们常用“病毒”这个名词来代表所有种类藏在文件中的恶性指令,以下我们使用“病毒”这个名词时皆以此种解释为依据。
在此请参考Chen等人提出的美国专利第5,832,208号,该专利公开一种现今常用于网络中的信息过滤器。Chen等人公开置于信息服务器上的防毒软件,该防毒软件在接到一信息时会先对其进行扫瞄,之后才会处理该信息。假如扫瞄发现一个电子邮件附加档中具有病毒,则有数种处理方式可能被执行,如马上删除该被病毒感染的附加档;或将该文件加上一警告旗标后,送至收信人,以使该收信人可在开启该被病毒感染的附加档前得到预先的警告。
请参阅图1,图1为公知技术一使用服务器端信息过滤器的区域网络10的简单方块图。一区域网络10包含有一服务器12及多个客户计算机14,客户计算机14使用服务器12以接收及传送电子邮件。因为区域网络10中所有的电子邮件皆须经过服务器12,因此服务器12是安装一防毒扫描器16的合理位置。当电子邮件从网际网络20送至区域网络10时,它们先被送至服务器12,由防毒扫描器16进行扫瞄。若该电子邮件未被感染,则可被传送至它们位于区域网络10中的目的地客户计算机14;若该电子邮件被发现已受感染,则服务器12则有数种过滤技术可以选择,用来处理该已受感染的电子邮件。一种较激烈的方式就是直接删除该已受感染的电子邮件,并通知该电子邮件的目的地客户计算机14“有一个具病毒的电子邮件已被服务器删除”;或者,也可以仅移除受感染的附加档,电子邮件中其他未受感染的部分则可送至目的地客户计算机;还有一种较不积极的方式,就是在被感染的电子邮件插入一首标,表示该电子邮件中可能具有病毒,客户计算机14的电子邮件程序14a必须能寻找这类的警告性首标,以提供使用者适当的警告信息。
图1所示的配置方式可有多种不同的变化,在此不多做叙述。然而,有一个共通点就是,不论防毒扫描器16安装在哪里,皆需要用到一病毒数据库16a,病毒数据库16a包含有多数个病毒签章,其中每一个病毒签章皆可识别单一个流通的病毒(亦即该病毒在网际网络20中流通着)。因此防毒扫描器16可以确认电子邮件的附加档中是否带有病毒。每一个病毒签章必须能够准确的识别出其所对应到的单一病毒,以将错误的扫瞄减至最少。病毒数据库16a与防毒扫描器16通常都是紧密的相关联的,是在一个由防毒扫描器16的制造者所决定的所有权的形式。换言之,不论是服务器12的管理者或是客户计算机14的使用者,皆无法编辑病毒数据库16a。如计算机使用者所熟知,不断有新病毒出现在计算机世界中,因此必须定期的更新该病毒数据库16a。通常更新的方式都是服务器12经由网际网络20与防毒扫描器制造商22连线,并下载最新版本病毒数据库22a,此最新版本病毒数据库22a由防毒扫描器制造商22负责更新与提供。最新版本病毒数据库22a被用来更新(或补强)病毒数据库16a。防毒扫描器制造商22的员工负责搜集、分析流通的病毒,并找出可识别出每个新的病毒的新的病毒签章,这些新的病毒签章就被加到最新版本病毒数据库22a之中。
上述的方式并不是没有缺点,请考虑以下情形一个所谓的黑客24持续研发新的病毒,并且大量寄送刚研发出的新病毒24a到该黑客可以知道的所有电子邮件位址。由于新病毒24a刚被制造出来,不论是服务器12的病毒数据库16a或是防毒扫描器制造商22的最新版本病毒数据库22a都还没有相对应的病毒签章可以识别出新病毒24a。或许要经过数天或数周的时间,防毒扫描器制造商22的员工才会收到新病毒24a的样本,才有办法更新最新版本病毒数据库22a,或许还要更多的时间,服务器12的管理者才会下载这更新过的最新版本病毒数据库22a,并更新自己的病毒数据库16a。这已经提供新病毒24a充裕的时间去感染服务器12的客户计算机14。更糟的是,被感染的客户计算机14无法自动通知该防毒扫描器16新的病毒已被发现。后续包含新病毒24a的邮件仍旧可以轻易地通过防毒扫描器16a,去感染另一个客户计算机14,即使已经有使用者知道新病毒24a的存在。
另一种需要被过滤电子邮件信息的就是所谓的“滥发”。滥发是不请自来的邮件,通常由一自动系统大量的送给数以千计的接收者,有些帐号中,滥发可以占掉所有电子邮件信息的百分之六十。除了扰人之外,滥发亦可具有主动的破坏性,因为它可以使电子邮件帐号的数据储存到达极限,因为空间已被滥发所占据,此时即可导致有用的信件遗失。虽然理论上是可行的,但是因为要追踪出滥发常是一件繁重的工作,所以防毒扫描器制造商22通常不会利用最新版本病毒数据库22a及病毒数据库16a来识别出滥发。故即使有防毒扫描器16的存在,滥发依旧可以自由的从网际网络20送至客户计算机14。
在此请参考Buskirk等人提出的美国专利第6,424,997号,该专利公开一以机器学习为基础的电子邮件系统。该系统使用一分类器,用来分类接收的信息,并依据信息被分类成的类别来对该信息执行不同的操作。请参阅图2,图2为公知技术一分类器的简单方块图。分类器30藉由对应n种类别中的每一类别产生一信任指数32,将一信息数据31分类为n种类别的其中一种,亦即得到最高信任指数的类别即为该信息被分类的类别。分类器30内的运作为熟知技术者所了解,在此不做赘述。
Buskirk等人提出的美国专利第6,424,997号,公开了机器学习分类的一些概念;John M.Patger提出的美国专利第6,003,027号,公开了在分类系统中,决定信任指数的方式;Ranjit Desai提出的美国专利第6,027,904号,公开了类似影像分类的影像恢复方式;John M.Patger提出的美国专利第5,943,670号,公开一物件的最佳类别为一已存在类别的组合的概念。以上只是众多现今使用技术中的几种。总括来说,几乎所有的技术都是使用定义类别的样本栏来执行分类。因此,分类器30包含有一类别数据库33,类别数据库33分成n个子数据库34a-34n,以定义n个类别。第一子数据库34a包含有多个样本栏35a,定义了该一第一类别的主要特征;同样地,第n子数据库34n包含有多个样本栏35n,定义了一第n类别的主要特征。藉由选择最佳的样本栏35a-35n来定义相对的类别,并依据样本栏35a-35n来建立分类的规则,以增加样本栏的方式来实现机器的学习的目的。通常,有越多的样本栏35a-35n,就会有更好的分类规则,且分类器30可做出更正确的分类。在此我们必须了解的是样本栏35a-35n的会依分类器的不同有而有不同的格式。
使用于先前技术的分类器30并不是没有任何的问题。实际上,类别数据库33通常会具有一种所有权的形式,因此增加或改变样本栏是无法实行的。除非是一个受过训练的使用者,使用具有所有权的软件,且具有特殊的存取权限,才可更动类别数据库33。没有一机制可以使一个平常的网络使用者提供数据作为类别数据库33中的样本栏35a-35n。因此网络上很多可以帮助信息分类的知识并没有被利用到。

发明内容
因此本发明的主要目的在于提供一种以以使用者知识交流为基础的信息分类及自我改善信息传送系统,以解决上述公知信息分类系统的问题。
根据本发明的权利要求范围,公开一种方法及相关的系统,用来分类及过滤一计算机网络中的信息。该计算机网络包含有一第一计算机;多个第二计算机,以网络连接的方式与该第一计算机相互通信。该方法包含有提供该第一计算机一分类器,该分类器可对一信息指定一分类信任指数,该信息对应于至少一类别;提供该第一计算机一类别数据库,该类别数据库包含有对应于每一类别的类别子数据库,其中该分类器使用该类别数据库指定该分类信任指数;提供每一个第二计算机一传送模块,该传送模块可从该第二计算机传送一信息至该第一计算机,并将该信息关联到该类别数据库中至少一类别,以及将该信息关联到一使用者信息。开始时,一第一信息被任何一个第二计算机接收到 利用接收到该第一信息的第二计算机的传送模块传送一第二信息至该第一计算机,该第二信息的内容根据该第一信息的内容决定,该第二信息被关联到一第一类别及该第二计算机的使用者信息以及依据该第二信息的内容及该第二计算机的使用者信息变更该类别数据库中一第一类别子数据库,其中该第一类别子数据库对应于该第一类别。该第一计算机收到一第三信息,利用该分类器,依据该变更过的第一类别子数据库,取得该第三信息对应于第一类别的第一分类信任指数,最后,依据该第一分类信任指数,对该第三信息执行一过滤技术。
本发明的一个优点在于,它使得一位于任一第二计算机的使用者可以传送一信息至该第一计算机,并且关联该信息使其成为一特定类别的范例。该第一计算机利用该分类器,对送入的信息指定该信息属于某一特定类别的信任等级。藉由使第二计算机具有增加该类别数据库的能力,该第一计算机便可以学习新的类别,并辨识送入信息是否包含有新的类别。简言之,第二计算机使用者的知识可以用来辨识并且滤除送入的信息。


图1为公知技术一使用服务器端信息过滤器的区域网络网络10的简单方块图。
图2为公知技术一分类器30的简单方块图。
图3为本发明第一实施例的区域网络40的简单方块图。
图4为本发明第二实施例的区域网络80的简单方块图。
图5为本发明第三实施例的区域网络120的简单方块6为本发明第四实施例的区域网络160的简单方块图。
图7为本发明更改一类别子数据库的方法的流程图。
附图符号说明10、40、80、120、160区域网络12 服务器14、140a-140j、180a-180j客户计算机14a 电子邮件程序16 防毒扫描器16a 病毒数据库20、70、110、150、190 网际网络22 防毒扫描器制造商22a 最新版本病毒数据库24 黑客24a 新病毒30、53、93、133、173分类器31 信息数据32、56、56a、56b、56c、56d、信任指数58、58a、58b、96a、96b、96c33、54、94、134、174类别数据库34a-34n 子数据库
35a-35n 样本栏42、82网络连接50、90第一计算机51、61中央处理单元52、62程序代码54a、94a 病毒子数据库55、65、95、130、170 信息服务器57、97信息过滤器57a、97a、301 阈值57b 通知信息60a-60n、100a、100b 第二计算机63、103、142、182 传送模块63a、105、142a、182a 更新信息63b 使用者信息64、104 信息读取程序74、75、111、151、191 送入信息74a、75a、105a、111a、115a主体部74b、74c 影像附加档74d、75b、105c、111c 可执行附加档94b、134b、174b 滥发子数据库95a 暂存的信息96病毒信任指数98、206a、207a滥发信任指数103b 使用者介面105b、111b超文件标示语言附加档105x、105y、105z 首标133a、173a测试栏134a 电子报子数据库142b、182b、404 使用者识别码200、201、200a、201a 病毒样本栏202、202a、202b、204、205、 滥发样本栏206、207203电子报样本栏203a、204a、205a 投票数203b、204b、205b、403a、403b、 使用者名单403c300a、300b 投票阈值400使用者信任数据库401a-401c 信任等级402a-402c 信任值具体实施方式
请参阅图3。图3为本发明第一实施例的区域网络40的简单方块图。区域网络40包含有一第一计算机50;多个第二计算机60a-60n,经由一网络连接42与第一计算机50相互通信。在此为了简单明了,只有第二计算机60a的内部构造被显示出来,实际上所有的第二计算机60a-60n皆具有如第二计算机60a的内部构造。计算机间的网络连接(即网络连接42)是公知技术者所熟知,因此在此不另说明。需要注意的是,配合本发明,网络连接42可以是一无线连接或一有线连接。第一计算机50包含有一中央处理单元51,一可执行的程序代码52。程序代码52包含有多个用来实行本发明方法的模块;相同的,每一第二计算机60a-60n皆包含有一中央处理单元61,一可执行的程序代码62。程序代码62包含有多个用来实行本发明方法的模块。阅读过以下的详细说明后,公知技术者即可了解如何产生及使用程序代码52及程序代码62中的多个模块。
简单地说,第一实施例的目的是要使第二计算机60a-60n有办法通报第一计算机50关于病毒攻击的信息。假设第一计算机50是一信息服务器,第二计算机60a-60n是信息服务器50的客户计算机。第一计算机50使用一分类器53来分析一送入信息74(可以是一电子邮件信息),并对送入信息74指定一分类信任指数,该分类信任指数表示送入信息74带有病毒的可能性。信息可能是来网际网络70,如送入信息74,亦可能来是自区域网络40中的其他计算机。分类器53使用一类别数据库54,以对送入信息74执行分类的分析。当一第二计算机(如第二计算机60a)通知第一计算机50一病毒攻击的消息,该第二计算机60a传送一包含该病毒的信息至第一计算机50。第一计算机50可以将此包含有该病毒的信息加入类别数据库54,因此所有后续的包含有该病毒的送入信息皆会归类成包含有该病毒,亦即它们会被指定高的分类信任指数,代表它们是包含有病毒的信息。至于第一计算机50是否把第二计算机60a送来的包含有该病毒的信息加入类别数据库54则取决于第二计算机60a所关联到的使者信息。
在第一实施例中,类别数据库54包含有一病毒子数据库54a,包含有多个病毒样本栏200,用来定义及识别多个的已知病毒类型。病毒子数据库54a的格式会受使用的分类器53所决定,不在本发明的讨论范围。不论分类器53的运作方法为何,其皆会使用病毒样本栏200以产生分类信任指数。藉由增加病毒子数据库54a中病毒样本栏200的数量,即可扩大第一计算机50的病毒搜捕能力,可达机器学习的功效。
当对送入信息74执行分析时,可以对整个信息的范围进行分析。然而,特别考虑到电子邮件时,较常用的作法则是对于该电子邮件信息74的每个附加文件进行分析,依据附加文件得到的最高信任指数,指定分类信任指数给电子邮件信息74。举例来说,一个为电子邮件的送入信息74可能包含有一主体部74a、两个影像附加档74b及74c、一个可执行附加档74d。分类器54可以先分析主体部74a,依据病毒子数据库54a以指定主体部一个指数,例如0.01;之后分类器可以对影像附加档74b及74c进行分析,假设分别产生了指数0.06、0.08;最后;分类器5 3分析可执行附加档74d,假设产生了指数0.88。由于显示该信息是否包含有病毒的整体的信任指数是由最高的指数所决定,因此对整体信息74就会产生一信任指数0.88。以上仅为一种对送入信息74指定信任指数的方法的例子,至于该如何设定分类器53,以指定分类信任指数,则需依信息内容及子数据库所决定,设计者可依需考虑的情况所决定设计方式。我们可能会希望让分类器53依据送入信息74中各不同的附加档形式来决定不同的处理方式。例如,分类器53可以对可执行附加档使用一种给定信任指数的系统;对影像附加档使用另一种给定信任指数的系统;对纯文字附加档再使用另一种给定信任指数的系统,如此即可增加对不同形式附加档进行分类的弹性,当然我们必须在分类器53中编入可以识别不同形式附加档的程序代码。另外,分类器53可以只对送入信息74的每一个附加档指定个别的信任指数,而不对整个送入信息74指定整体的信任指数,如此可以增加对送入信息74决定执行处理及过滤时的弹性。
第一计算机50包含有一信息服务器55,信息服务器55是初始接受送入信息的位置,简单邮件转移协定(Simple Mail Transfer Protocol,SMTP)的常驻程序即是这类信息服务器55的例子。信息服务器55可接收一送入信息74,使用分类器53对送入信息74执行分类分析,产生一信任指数56。如之前所叙述的,分类器53依据病毒子数据库53a中的病毒样本栏200以产生信任指数56。可以由信息服务器55对分类器53下达进行分类的要求,亦可以由一另外的控制程序来下达要求。以第一实施例而言,我们假设信任指数56中包含有信任指数56b、信任指数56c、信任指数56d,分别对应到附加档74b、74c、74d,以及一对应到主体部74a的信任指数56a。套用前一段的例子,56a、56b、56c、56d分别是0.01、0.06、0.08、0.88,其中0.88是相对最大值。整体信任指数56的值可以简单的给定为最大值0.88。当然,附加档的信任指数56b、56c等的数目是由送入信息74所带有的附加档数目所决定的,可以是零,也可以是一个正整数。
对于送入信息74得到信任指数56之后,一信息过滤器57被用来决定如何处理送入信息74。信息过滤器57依据信任指数56,采用数种过滤技术的其中一种。这类的的过滤技术并不在本发明范围内。比较激烈的过滤技术就是当信任指数56超过一阈值57a时,相关的送入信息74就会被删除掉。第一计算机50的操作者可以设定阈值57a。举例来说,假如阈值57a为0.80,而送入信息74的整体信任指数56为0.88,则送入信息74就会被删除掉。可以传送一邮件被删除的通知给送入信息74的预定接收者,结果就是送入信息74被一通知信息57b所取代了,而送给预定接收者。还有另一种作法就是仅删除信任指数超过阈值57a的附加档,以前述的例子为例,本体74a及影像附加档74b及74c不会被删除;可执行附加档74d则会被从送入信息74中删除,因为其相对的信任指数56d为0.88,已经超过阈值57a的值0.80。信息过滤器57可以选择性的插入一旗标在送入信息74的中,表示附加档74d被删除了。删除侵略性的附加档74d后,送入信息74以及被选择性插入的通知,才被送给预计接收者。另外,信息过滤器57可使用的最不积极的方式,则是对于任何可疑的附加档,仅在相对的送入信息中插入一警告信息,就送至预计接收者。该警告信息可以插入于首标中、或本体内,等等不同的地方,主要的目的是要让预计接收者在开启可疑的附加档之前,可以先知悉警告含有病毒的信息。
每一个第二计算机60a-60n皆具有一传送模块63。传送模块63与分类器53紧密相关联,且与分类器53具有网络相连。详细地说,就是传送模块63可以传送一更新信息63a至分类器53,并将更新信息63a与类别数据库中的一个类别建立关联。更新信息63a亦关联到产生更新信息63a的使用者。以第一实施例而言,因为类别数据库54中仅具一种类别,即病毒子数据库54a,因此不用特别的指示,更新信息63a即可被被关联到病毒子数据库54a。第二计算机60的一使用者自一送入信息中发现了病毒,因而送出了更新信息63a,将更新信息63a关联至哪一个使用者信息亦可以不用特别的指示,因为第二计算机60a-60n是服务器50的客户,只要有一登入的步骤即可很容易的将更新信息63a关联关联到正确的使用者信息。举例来说,要成为服务器50的客户,一第二计算机60a的使用者必须如公知技术者所熟知的方式,先登入第一计算机50。之后,服务器50从第二计算机60a收到的任一信息63a皆被认定为是由第二计算机60a登入服务器50的那位用者所送出。除此之外,信息63a亦可以明确的包含有送出信息63a的那位使用者的者信息63b。使用者信息数据63b通常为一使用者识别码(user idenfication code,ID)。使用者可以使用传送模块63传送一感染信息至分类器53,除了可以用整个被感染的信息来构成更新信息63a,亦以可以仅使用被感染的附加档来构成更新信息63a。由于更新信息63a关联到类别数据库54中的子数据库54a是不用特别指示的,因此更新信息63a不必包含相关的信息。通过网络连接42传送更新信息63a至分类器53。在接到更新信息63a时,在没有如此的病毒样本栏200a、且使用者信息信息63b显示出该使用是一个一可信赖的使用者的情况下,分类器53将更新信息63a加入到病毒子数据库54a以作为一新的病毒样本栏200a。请注意,加入新的病毒样本栏200a的操作视分类器63所使用的方法而定,举例来说,可以是整个更新信息被加入样本栏中,亦可以是更新信息中预设的一部份被加入样本栏中,至于明确的加入新样本栏的方法则是设计时依据分类器53的类型所做的设计选择。加入新样本栏的结果则是可使后续包含相同病毒的信息被指定高的信任指数,而使用者信息63b如何用于增加新样本栏的决定则在之后会有详细介绍。
为了加深了解,考虑一假设的情形。送入信息74,以及相关的附加档74b、74c和74d,被信息服务器55接收,预计接收者是第二计算机60a。如前述的,假设阈值57a是0.80,用来做病毒检测及消除;并假设附加档74d得到一指数56d值是0.62,其他的附加档74b及74c则得到如前述的指数。附加档74d得到的信任指数56d值0.62并不足以驱动信息过滤器57,因此附加档74d不会被删除,信息过滤器57可能仅对应信任指数56d插入一警告旗标,将加入该警告旗标的信息74送至预计接收者的第二计算机60(经由信息服务器55)。在第二计算机60,一信息服务器65接收了加入该警告旗标的送入信息74,稍后,使用者利用一信息读取程序64来读取送入信息74。在开启送入信息74的过程中,信息读取程序64发现了该警告旗标,例如“警告,附加档有62%的可能带有病毒”。此时使用者可以选择删除或开启附加档74d。假设使用者决定开启附加档74d,并且在附加档74d中发现了一病毒。为了使用上的便利,信息读取程序64与传送模块63可以具有一个介面,从使用者的角度而言,此两种程序可被视为单一的程序。传送模块63提供一使用者介面使得使用者可以传送具有攻击性的可执行附加档74d给第一计算机50。或者当使用者知道病毒包含在信息74中,但是不确定是哪一个附加档时,使用者可以传送整个送入信息74给第一计算机50。为了执行这个操作,传送模块63产生一更新信息63a(包含有可执行附加档74d,或整个送入信息74),并经由网络连接42传送更新信息63a至分类器53。分类器53关联更新信息63a至病毒子数据库54a(因为只有病毒这种类别),发现使用者信息63b显示使用者为一病毒数据的可靠来源,因此依据更新信息63a,产生一适当的样本栏。假如这样的样本栏,本来并不存在于病毒子数据库54a中,(例如“病毒X”样本栏200a),则在病毒子数据库54a中加入此一样本栏。
一段时间以后,可以是几秒、分钟或是几天,假设另一个送入信息75经由网际网络70送达,目的地是第二计算机60n。送入信息75是一个电子邮件,包含有一本体部分75a以及一可执行附加档75b,其中包含有于送入信息74的可执行附加档74d中发现的病毒。收到送入信息75以后,送入信息75被送至分类器53,而产生了一信任指数58。主体部75a所得到的指数58a假设是0.10。然而,由于可执行附加档75b很类似可执行附加档74d(已经成为病毒子数据库54a中的病毒样本栏200),因此可执行附加档75得到一相对的信任指数58b,其值是0.95,此一信任指数58b超过了阈值57a,因此驱动了信息过滤器57,信息过滤器57因而删除可执行附加档75b,并在送入信息75中插入一警告旗标,表示一附加文件被删除了,并将此一变更过的送入信息75传送给第二计算机60n。第二计算机60n上的信息服务器65接收了变更的送入信息75,稍后,当一使用者读取送入信息75时,信息读取程序64可以通知使用者关于可执行附加档75b被删除的消息,第二计算机60n的使用者因此免于受感染过第二计算机60a的病毒感染。请注意,第一计算机50被区域网络40中的任一个第二计算机警告了病毒的感染,之后区域网络40的中所有的第二计算机皆可免于该病毒的感染,因此,区域网络40中单一使用者关于新的病毒的知识可以用来帮助保护区域网络40中的所有使用者。
每一个第二计算机60a-60n使用一传送模块63以更新子数据库54a。因此关于一使用者受病毒感染的知识被用来保护所有的使用者,这种知识的利用是藉由分类器53所实现,而非藉由传统的病毒检测模块。传统的病毒检测模块较为单纯,仅辨别一文件是否包含有病毒,而答案仅能是有或没有,而分类器则较为模糊,可以提供表示感染机率的信任指数,然而,此种模糊则带来的较大的弹性。依据更新信息63a中包含的病毒数据,使用分类器53于病毒子数据库54a中产生一新的病毒样本栏200a,可以实现一种型式的机器学习,因此可以快速的加大并弹性化病毒的检测。众所周知,病毒常会伪装自己,或是产生一系列变形,然而,这一系列的病毒中可能包含有相同的特性存在,使得设计良好的分类器53可以很容易识别出这一系列的病毒变化。而且数据库的更新几乎是及时地,不需等待防毒软件制造商更新,系统即可自动更新,因而增加了防毒的效率。
使用分类器的另一个优点是分类器可以将一信息分类成一种或多种不同的类别,亦即,分类器并不只限于可以检测病毒,分类器亦可以用来检测滥发、色情图文、或是任何可以由子数据库样本栏所定义的类别。简言之,网络的使用者认定一信息包含有病毒、滥发或是色情图文,将此信息送至分类器,后续相同的信息就会被分类器识别出,并由信息过滤器处理。因此使用者的知识可以被用来检测病毒、滥发,甚至所有不被欢迎的信息,或者是信息中不被欢迎的附加档。
请参阅图4。图4为本发明第二实施例的区域网络80的简单方块图。。为了说明上的方便,第二实施例的区域网络80设计成可以检测两种不受欢迎信息的类别,这两种类别分别是病毒及滥发,当然,依据同样的理论可以将设计扩大成可以检测更多种类别。在操作上,第二实施例的区域网络80几乎与第一实施例的区域网络40相同,除了在该第一计算机90上类别数据库94扩大成具有两个子数据库一病毒子数据库94a及一滥发子数据库94b。分类器93可以将送入信息111依据两种类别作分类,一病毒类别,如病毒子数据库94a所定义,一滥发类别,如滥发子数据库94b所定义。对于每一个送入信息111,分类器93可以提供两个分类信任指数一病毒分类信任指数96用来表示送入信息111是病毒类别信息的机率,另一滥发分类信任指数98用来表示送入信息111是滥发类别信息的机率。分类器93的分类程序必须适当地对应到所分类的类别,举例来说,决定病毒分类信任指数96时,分类器可以仅考虑附加档而忽略邮件主体;决定滥发分类信任指数98时,分类器可以仅考虑邮件主体而忽略附加档,因此,分类器93在对不同类别执行分类时可有不同的分类程序,以更准确的进行分类。
另一个不同则在于第二计算机100a,100b的传送模块103。图4中只有第二计算机100a被详细描述,每一个第二计算机皆具有与第二计算机100a相同的功能。当经由网络连接82传送一更新信息105至第一计算机90时,传送模块103必须将更新信息105明确的关联至一种类别(亦即病毒子数据库94a或滥发子数据库94b)。如此一来,分类器93可以知道需要以更新信息105在病毒子数据库94a或滥发子数据库94b中需要建立一新样本栏201a或202a。传送模块103关联更新信息105至特定类别的方法则是设计时的选择,举例来说,更新信息105可以使用一首标来表示关联到的特定类别。
考虑以下的例子,信息服务器95接收到一送入信息111。送入信息111是一个电子邮件,包含有一本体111a,一超文件标示语言(hypertext markuplanguage,HTML)附加档111b及一可执行附加档111c。分类器93产生两个信任指数一病毒信任指数96及一滥发信任指数98。病毒信任指数96包含有属于本体111a的一信任指数96a,属于超文件标示语言附加档111b的一信任指数96b,属于可执行附加档111c的一信任指数96c。信任指数96a、96b以及96c是依据第一实施例中的方法所指定的,依据病毒子数据库94a中样本栏201(包含有任一新的样本栏201a)作为分类基准。滥发信任指数98在本例中为一单一的数字,其表示整体送入信息111是否被归类为滥发。欲产生滥发信任指数98,分类器93使用滥发子数据库94b中的样本栏202(包含有新的样本栏202a,202b)作为分类基准。举例来说,分类器93可以仅扫瞄本体111a以及超文件标示语言附加档111b以执行滥发分类分析。
信息过滤器97所执行的操作可依分类信任指数96、98的形式所决定。例如,在过滤信息111s中的附加档111b及111c中的病毒时,是依照病毒信任指数96中相对的信任指数96b及96c,当附加档111b及111c相对的信任指数96b及96c超过了阈值97a,信息过滤器97可以将附加档111b及111c予以删除。如此的积极操作可以确保区域网络80尽量不受病毒威胁,因为病毒攻击所造成的损失往往大于删除不带有病毒的附加档所造成的损失。然而,当过滤器考虑滥发时,是依照滥发分类信任指数98,若信息111的滥发分类信任指数98超过阈值97,则信息过滤器97可以选择插入一旗标至信息111中。如此一来可以保护有用的信息,不会因为被误认为滥发而被删除。请注意此处信息过滤器97如何依照分类信任指数96、98而执行过滤操作是设计的选择。
假设送入信息111原封不动的被送至第二计算机100a。在第二计算机100a,一使用者使用一信息读取程序104读取送入信息111,并发现送入信息111是一个恼人的滥发邮件且于可执行附加档111c中带有病毒。操作传送模块103具有使用者介面103b,其中使用者介面103b与信息读取程序104的使用者介面是相互连接的。使用者通知传送模块103说附加档111c包含有病毒,而且整个信息111是一个滥发。传送模块103据此产生一更新信息105,经由网络连接82送至分类器93。更新信息105包含有可执行附加档111c,其内容即为可执行档105c,并以一首标105x关联至病毒子数据库94a。更新信息105并包含有内容为本体105a的本体111a,以及内容为超文件标示语言附加档105b的超文件标示语言附加档111b,这两个部分皆被以首标105z、105y关联到滥发子数据库94b。在收到更新信息105时,分类器93更新类别数据库94。可执行附加档105c用来于病毒子数据库94a中产生一新的病毒样本栏201a。本体105a用来于滥发子数据库94b中产生新的滥发样本栏202a。相同的,超文件标示语言附加档105b用来于滥发子数据库94b中产生新的滥发样本栏202b。这些新的样本栏201a、202a、202b可以被利用来检测后续相类似的滥发或病毒。至于新的样本栏201a,202a,202b如何被用于后续的分类处理在之后会有讨论。
考虑以下状况,一个与前述信息相同的送入信息111自网际网络110发出,经由区域网络80欲送至第二计算机100b,并且所有新的样本栏201a,202a,202b已经开始被分类器93所使用。此时第二计算机100a的使用者的知识即可被用来保护其他的第二计算机100。利用子数据库94a及94b,送入信息111被指定分类信任指数96及98,可执行附加档的指数96c会变高(由于新的病毒样本栏201a加入的关系),同时滥发分类信任指数98亦会变高(由于新的滥发样本栏202a、202b加入的关系)。因此可执行附加档111c会被信息过滤器97删除,一旗标会被插入送入信息111中以表示送入信息111可能是滥发的机率(即滥发分类信任指数98)。当第二计算机100b的一使用者要读取送入信息111(已经被信息过滤器97加入了旗标),使用者将会得知到(1)信息111很可能是一滥发邮件(如送入信息111中加入的旗标所显示),(2)可执行附加档111c经过病毒检测后已经被删除了。
当类别数据库94已经加入新的且使用中的样本栏之后,所有信息服务器95中暂存的信息95a必需藉由更新过的类别数据库94,再经过一次分类及过滤的程序,以检测所有可能的滥发或包含病毒的信息(在类别数据库94更新前有的滥发及病毒可能可以逃过检测)。此处需注意的是,送入信息111可以被分类检测的类别数目是不定的,可以视分类器93的能力决定。每一个类别皆具有相对的子数据库,各个子数据库皆包含有定义用的样本栏以定义相对应类别的范围。因此,可以可以对送入信息111进行不同类别及不同标准的检测,再依照检测结果执行过滤。
在一大型的网络环境中,并不是所有的使用者皆会同意对一信息的分类标准。举例来说,有的使用者认为是滥发的邮件,可能会被其他使用者认为是有用的。如果没有依据使用者信息做良好的控制,区域网络40、80中的任何一个使用者,皆可导致一信息被过滤掉。这不一定的是所有网络使用者所乐见的。例如,一单一使用者,可能恶意的将一般电子邮件举发为滥发,仅为了破坏区域网络80的秩序,因此,以下是可行的解决方案。
第一种解决方案是,一子数据库中的一样本栏,只有在足够的使用者认为该样本栏的存在是适当的,才会变成分类时会利用到的现用样本栏。实际上,这就是一种一种投票的过程,一样本栏只有在得到一特定数目的使用者同意后,该样本栏才会成为分类时会利用到的现用样本栏。举例来说,在一个具有七个使用者的网络中,必须要四个使用者认定一信息是滥发以后,对应于该信息的样本栏才可加入滥发子数据库。
请参阅图5。图5为本发明第三实施例的区域网络120的简单方块图。本发明第三实施例中的区域网络120几乎与区域网络80相同,不同处仅在于区域网络120中多了一投票的过程,而且相对应的类别则有“滥发”以及“电子报”。请注意此处只有对于了解概念有用的部分才被显现于图5的中。区域网络120包含有一信息服务器130,用来执行本发明的分类及过滤技术,信息服务器130以网络与客户计算机140a-140j相连接。每一个客户计算机140a-140j皆包含有一本发明的传送模块142。每当产生更新信息142a时,传送模块142将该使用者的使用者识别码(user idenfication code)142b与更新信息142a一同提交给服务器130。此处将使用者信息明确的表示在更新信息142a中(以使用者识别码142b的形式),是为了简洁的缘故。不明确将使用者信息显示在更新信息142a中也是可行的,只要服务器130可以得知更新信息142a是由哪一位使用者送出的即可。
在类别数据库134中,每一个子数据库134a,134b皆具有一相对应的投票阈值300a,300b。在电子报子数据库134a中,每一个电子报样本栏203皆包含有一相对的投票数203a以及相对的使用者名单203b。分类器133只使用电子报子数据库134中投票数栏203a等于或大于阈值300a的样本栏203。亦即,如此的样本栏203才是现用样本栏。相同的,滥发子数据库134b中,每一个滥发样本栏204皆包含有一相对的投票数204a以及相对的使用者名单204b。分类器133只使用滥发子数据库134b中投票数栏204a等于或大于阈值300b的样本栏204,亦即,如此的样本栏204才是现用样本栏。
当传送模块142提交一更新信息142a给分类器133时,分类器133先针对更新信息142a中每一个部分产生一测试栏133a。对于每一个测试栏133a,分类器133会先检查测试栏133a是否已存在于子数据库134a,134b中的样本栏203,204中。假设测试栏133a并不存在,测试栏133a即被用来于子数据库134a或134b中建立一新的样本栏203或204。对于这个新的样本栏203或204,投票数被设为1,且使用者名单203b或204b被设为从更新信息142a中得到的使用者识别码142b。或是,假设测试栏133a已经存在于子数据库134a或134b中的相对应的样本栏203或204中,分类器133即检查样本栏203或204的使用者名单203b或204b中是否包含有使用者识别码142b,假如使用者识别码142b并不存在,则将使用者识别码142b加入使用者名单203b或204b,并将投票数203a或204a加1。然而,假如使用者识别码142b,已经存在使用者名单203b或204b中,则投票数203a或204a则不用加1。在这种状况下,可以防止一单一使用者对于一特定的样本栏203,204投下太多票。请注意此时投票数203a,204a不一定要存在,仅需计算使用者名单203b,204b中的使用者识别码数目即可。还有很多种投票或记票的方法,以上所述仅为举例。举例来说,投票数不一定要从0向上算到阈值、亦可以从阈值向下算到0。信息服务器130可以决定投票及记票的方法。例如,滥发的投票阈值300b可以设成是5,在这种状况下,至少要有五个客户计算机140a-140j中的使用者对认定一信息是滥发投下了票,(藉由提交更新信息142a),相对的样本栏204才会成为滥发子数据库134b中的现用样本栏。如此即可防止一单一使用者造成一信息无法传递至其他所有的使用者。实际上,投票的过程使得必须要有一预先决定数目的使用者同意,才会造成一信息被视为滥发而被阻挡。另一方面,假设电子报类别用来给服务器130过滤软件插入一“电子报”旗标于信息中,以通知使用者说信息是关于电子报的。在这种状况下,因为电子报是有益的,电子报的投票阈值300a可能被设为1,只要一使用者认定一信息是一“电子报”,则后续所有相同的信息都会被服务器130插入旗标。在以上的状况下,对于滥发以及电子报两种类别,加入新的样本栏203,204使得机器可以学习以增进分类器133的效能。
考虑一自网际网络150中一个产生大量滥发邮件的服务器发出的送入信息151,目的地是客户计算机140a,假设送入信息151产生低的电子报及滥发信任指数,因此被送至客户140a。读取送入信息151之后,客户140a认为信息151是滥发,因此使用传送模块142产生一适当的更新信息142a。更新信息142a包含有以送入信息151为内容的本体部151a,客户计算机140a使用者的使用者识别码142b,并且关联更新信息142a至滥发子数据库134b(可以藉由一首标)。更新信息142a即被送至分类器133。依照使用更新信息142a的本体151a,分类器133产生一测试栏133a。分类器133再扫瞄滥发子数据库134b看是否有任何样本栏204相同于测试栏133a。因为没有发现,分类器133产生一新的样本栏205,新的样本栏205包含有定义了本体151a的测试栏133a,一设定成1的投票数205a,以及一使用者名单205b包含有相对应于更新信息142a的使用者识别码142b。此时假设滥发投票阈值300b被设定为4,稍后,一相同的滥发信息151自网际网络150送来,此时目的地是第二客户计算机140b。分类器133实际上会忽略新样本栏205,除非投票数205b等于或超过预设投票阈值300b。因此新的样本栏205是非现用的。滥发信息151因此可以送至第二客户140b而不被过滤掉,跟第一次时一样,因为分类器133依据滥发子数据库134的过滤规则并没有变更。假设这个客户亦藉由传送模块142投票表示送入信息151是滥发。结果就是,投票数205a增加为2,同时使用者名单205b中加入了第一客户140a以及该第二客户140b的使用者识别码142b。最后,当区域网络120中有足够的使用者同意后,投票数205a等于了投票阈值300b。此新样本栏205及变成一现用样本栏250,因而改变了分类的规则。此时,服务器130中任何等待的信息皆须利用新的分类规则作新的分类程序。当另一个相同的滥发送入信息151抵达,目的地是客户140j,送入信息151将会因为新的现用样本栏205而产生高的指数,因而被过滤掉,简言的,本发明中的任一个子数据库皆可视为包含两个部分第一部分包含有现用样本栏,用来作为分类的规则以提供信任指数;第二部分包含有非现用样本栏,不用来决定信任指数,但是会等待使用者的投票,投票数等于或大于阈值以后才成为第一部分中的现用样本栏。
而第二种解决方案,则是网络的每一个使用者皆被指定信任等级,以决定提交的效力。这可以看成是一种加权投票,某些使用者(具有高的信任等级的使用者)的投票较其他使用者(具有低的信任等级的使用者)的投票更具效力。一随便提交栏位的使用者可以被指定低的信任等级,可信任的使用者可以被指定高的信任等级。
请参阅图6,图6为本发明第四实施例的区域网络160的简单方块图。一区域网络160相似于前述实施例。为了描述上的简单,此处只显示一子数据库,即滥发子数据库174b。如前述,一客户/服务器的关系如图所示,即一信息服务器170以网络与多个客户计算机180a-180j连接。除了一分类器173及一类别数据库174,信息服务器170还包含有一使用者信任数据库400,其中包含有多个信任等级401a-401c。信任等级401a-401c的数目,以及相对应的特性则可以被设定,举例来说,经由信息服务器170的管理者所设定。本例中显示了三种信任等级401a-401c,每一个信任等级401a-401c皆包含有一相对的信任值402a-402c,及一相对的使用者名单403a-403c。每一个使用者名单403a-403c包含有一个或多个使用者使用者识别码404。客户计算机180a-180j的一使用者若其使用者识别码182b包含在使用者名单403a-403c中即表示该使用者属于使用者名单403a-403c相对应的信任等级401a-401c。相关的信任值402a-402c表示对该使用者的信任程度。高的信任值402a-402c表示该使用者具有高的可信度。当使用者提交更新信息时,分类器173可以找到相对应的使用者名单403a-403c以取得相对应的信任值402a-402c。滥发子数据库174b中每一个样本栏206皆有一个信任指数206a。信任指数206a的值关系到样本栏206是否成为主动样本栏。具有信任指数206a大于或等于阈值301的样本栏206即为现用样本栏,会被用来作为分类的规则。具有信任指数206a低于阈值301的样本栏206即为非现用样本栏,不会被用来作为分类的规则。一般而言,每一个信任指数206a可被视为一向量,具有以下形式<(第一等级人数,第一等级信任值,第一等级人数比例),(第二等级人数,第二等级信任值,第二等级人数比例),…(第N等级人数,第N等级信任值,第N等级人数比例)>
其中“第N等级人数”表示于该第N等级中提交该样本栏的使用者数目。举例来说,对于一样本栏206,”第一等级人数”表示等级401a中提交样本栏206作为一滥发样本栏的使用者数目。而“第N等级信任值”为表示对应所述级的使用者的信任值。例如“第一等级信任值”为等级401a的信任值402a。至于“第N等级人数比例”则表示在所有提交样本栏206的使用者中,所述级使用者所占的比例。例如,“第一等级人数比例”表示等级401a中提交样本栏206的使用者占所有提交样本栏206的使用者的比例。而假设在客户信任数据库400中具有“i”种使用者等级,整体信任指数可由下列方程序求出 假如一样本栏206中信任指数206a算出的整体信任指数大于或等于阈值301,则样本栏206则成为一个现用样本栏206,并用来决定一信息经过分类器173时的分类规则。反的,样本栏206则成为一个非现用样本栏206,在一信息经过分类器173时并不利用此非现用样本栏206决定分类规则。
请参阅图7并同时参考图6。图7为本发明更改一类别子数据库的方法的流程图。以下将详述各个步骤410一客户180a-180j利用其传送模块182产生一更新信息182a,并提交更新信息182a至信息服务器170。更新信息182a包含了产生该更新信息182a的使用者的使用者识别码182b,以及表示更新信息182a需关联到的子数据库。在这里的情况中,滥发子数据库174b是要被关联到的子数据库。
411信息服务器170检视更新信息182a中的使用者识别码182b,并且于使用者名单403a-403c中的使用者识别码404内寻找是否有相同栏位。使用者识别码404中有存在使用者识别码182b的信任等级401a-401c即为该使用者所属的等级,然后即可得到相对的等级信任值402a-402c。根据更新信息182a的内容,分类器173产生一相对的测试栏173a,并于滥发子数据库174b中搜寻是否有相同的栏位,以本实施例而言,仅需搜寻非现用样本栏206即可。因此,可以将子数据库174b分成两部分一部份包含有现用样本栏,以及另一部分包含有非现用样本栏206。仅需搜寻非现用样本栏206的部分即可。虽然图6中所有样本栏206皆有一信任指数206a,实际上,在此实施例中,现用样本栏206并不需要信任指数206a,如此可以减少类别数据库174中记忆体的使用量。假设没有发现相同于测试栏173a的样本栏206,即可相对于测试栏173a产生一新样本栏207。新样本栏207的信任指数207a被设定为一预设值,如下所示<(0,第一等级信任值,0),(0,第二等级信任值,0),…(0,第N等级信任值,0)>
412依据步骤411所得到使用者等级401a-401c以及相关的信任值402a-402c,计算由步骤411所得(或建立)的信任指数206a/207a,此处可依据设计者的决定,使用不同的计算方法。
413依照上方的方程序计算步骤412算出的信任向量的整体信任指数。
414比较步骤413所得到的整体信任指数与该子数据库的阈值(亦即,滥发子数据库174b的阈值301)。若该整体信任指数到达或超过该阈值301时,则执行步骤414y,否则则执行步骤414n。
414n在步骤411所建立的样本栏206/207为非现用样本栏206/207,所以相关于子数据库174b的分类规则则保持不变。依据步骤412算出的值更新样本栏206/207的信任向量206a/207a。分类器173持续执行的分类工作,功能上并不受步骤410的更新信息182a所影响。
414y在步骤411所建立的样本栏206/207为现用样本栏206/207,并且进行更新子数据库174。举例来说,样本栏206/207即被转移至子数据库174b中的现用部分,此时其信任向量206a/207a即可被移除。此时相关于子数据库174b的分类规则必须进行更新的操作。步骤410的更新信息182a造成子数据库174b中样本栏206/207变成为现用样本栏,此时分类器173持续执行的分类工作则有了变动。所有信息服务器170中暂存的信息皆须对应子数据库174b重新进行分类。
为了要更加的了解以上的步骤412,考虑以下的特殊例子。假设有十位使用者,它们被归类为四种等级第一等级至第四等级,其等级值分别为(0.9,0.7,0.4,0.1)。当一新的信息来临,以下的步骤顺序发生,已决定该信息是否属于一特定类别,如滥发类别。此处假设该特定类别的阈值301是0.7。
步骤0新的信息初始的信任指数206a/207a是<(0,0.9,0),(0,0.7,0),(0,0.4,0),(0,0.1,0)>。
步骤1第一等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(1,0.9,1),(0,0.7,0),(0,0.4,0),(0,0.1,0)>。
步骤2第二等级者的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(1,0.9,1/2),(1,0.7,1/2),(0,0.4,0),(0,0.1,0)>。
步骤3第二等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(1,0.9,1/3),(2,0.7,2/3),(0,0.4,0),(0,0.1,0)>。
步骤4第四等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(1,0.9,1/4),(2,0.7,2/4),(0,0.4,0),(1,0.1,1/4)>。
步骤5第一等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(2,0.9,2/5),(2,0.7,2/5),(0,0.4,0),(1,0.1,1/5)>。
步骤6第二等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(2,0.9,2/6),(3,0.7,3/6),(0,0.4,0),(1,0.1,1/6)>。
步骤7第一等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(3,0.9,3/7),(3,0.7,3/7),(0,0.4,0),(1,0.1,1/7)>。
步骤8第四等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(3,0.9,3/8),(3,0.7,3/8),(0,0.4,0),(2,0.1,2/8)>。
步骤9第一等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(4,0.9,4/9),(3,0.7,2/9),(0,0.4,0),(2,0.1,2/9)>。
步骤10第三等级的一个使用者投票表示该信息属于该特定类别,该信息的信任指数206a/207a变成<(4,0.9,4/10),(3,0.7,3/10),(1,0.4,1/10),(2,0.1,2/10)>。
步骤10中整体信任指数206a/207a的值计算如下(0.9×0.4)+(0.7×0.3)+(0.4×0.1)+(0.1×0.2)=0.73。
步骤11比较计算出的信任指数值0.73与该类别的阈值310(0.7),系统决定新的信息属于该特定类别,该新信息关联到的样本栏成为一现用样本栏。
如第四实施例所述的信任分级,以及该第三实施例所述的普通投票方法,可以被选择性的实施在任一个子数据库。有的子数据库可以使用信任分级的方法,有的子数据库则可以使用普通投票方法。并且,也可以使用综合的方法,亦即,一样本栏必须在投票数超过一投票阈值,同时信任向量的整体信任指数亦超过一相关的阈值。相同的,信息过滤器亦可以使用多个阈值,信息过滤器可以对不同子数据库使用不同的阈值,而且每一个子数据库的阈值不一定限定为一单一值,阈值可以有大于一个值,每一个值可以表示一个分类信任指数的范围。每一个范围可以用不同的方式处理。举例来说,当过滤滥发时,一过滤阈值可以包含有一第一值0.5,表示从0.0到0.50的滥发分类信任值接受到不严格的过滤(例如,完全不对其进行过滤);一第二值0.9,表示从0.50到0.90的滥发分类信任值必须更严格的过滤(例如,插入一旗标至信息的中以警告接收者)。至于指数超过0.90的信息即被删除。
以上所用的方块图皆是简单的样式,用来表示各个组成元件间的相对功能关系,并不限制各元件的组成方式。举例来说,该类别数据库中可以不包含有所有的子数据库在单一的文件结构的中,相反的,类别数据库可以分别存在于不同文件的中,甚至存在于一经由网络相连的不同计算机上。
相较于公知技术,本发明提供一可以由网络中使用者更新的分类系统,此时,一信息分类器分类的能力可以由网络中使用者的知识加以增加。本发明提供使用者传送模块,用来传送一信息至其他计算机,以及关联该信息至一类别(例如滥发,病毒等等类别)。收到更新信息的计算机更新相对的类别子数据库,因此后续可以辨识出相同的信息。并且,本发明提供一些机制以防止使用者恶意的乱传更新信息至服务器,而影响分类的程序。这些机制包含有一投票机制以及使用者信任分级机制。在投票机制中,至少需一特定数目的使用者同意一特定信息属于一类别,该信息才会被承认属于该类别,以用来过滤后续类似的信息。至于使用者信任分级机制,每一个使用者皆被指定一信任指数以表示该使用者的可信度。子数据库中每一个样本栏皆有一信任指数表示所有提交该样本栏的使用者的信任指数。当超过一阈值,该样本栏则成为现用样本栏以执行分类分析。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求范围所做的等效变化与修改,皆应属于本发明的涵盖范围。
权利要求
1.一种利用使用者知识来分类计算机网络上信息的方法,该计算机网络包含有一第一计算机;多个第二计算机,以网络连接的方式与该第一计算机相互通信;其中该方法包含有提供该第一计算机一分类器,该分类器可对一信息指定一分类信任指数,该信息对应于至少一类别;提供该第一计算机一类别数据库,该类别数据库包含有对应于每一类别的类别子数据库,其中该分类器使用该类别数据库指定该分类信任指数;提供每一个第二计算机一传送模块,该传送模块可从该第二计算机传送一信息至该第一计算机,并将该信息关联到该类别数据库中至少一类别,以及将该信息关联到一使用者信息;于任何一个第二计算机接收一第一信息;利用接收到该第一信息的第二计算机的传送模块产生一第二信息并传送该第二信息至该第一计算机,该第二信息的内容根据该第一信息的内容决定,该第二信息关联到一第一类别及一第一使用者信息;以及依据该第二信息的内容及该第一使用者信息变更该类别数据库中一第一类别子数据库,其中该第一类别子数据库对应于该第一类别。
2.如权利要求1所述的方法,其中变更该第一类别子数据库的步骤包含有对应于该第二信息的内容,于该第一类别子数据库产生一信息样本栏。
3.如权利要求1所述的方法,其中变更该第一类别子数据库的步骤包含有依据该第一使用者信息变更该信息样本栏中的一记数栏,其中该记数栏代表由使用者所提交的内容对应于该第二信息的内容的使用者数目。
4.如权利要求3所述的方法,其还包含有于该第一计算机接收一第三信息;以及利用该分类器取得该第三信息的分类信任指数,其中该分类器仅利用一相对应的计数值达到一预设阈值的信息样本栏来执行分类分析。
5.如权利要求4所述的方法,其还包含有依据该分类信任指数对该第三信息执行一过滤操作。
6.如权利要求1所述的方法,其还包含有取得对应于该第二信息内容的信息样本栏的信任指数;依据该第一使用者信息变更该信任指数;以及依据变更过的信任指数与一阈值使该信息样本栏成为一现用样本栏。
7.如权利要求6所述的方法,其还包含有于该第一计算机接收一第三信息;以及利用该分类器取得该第三信息的分类信任指数,其中该分类器仅依据现用样本栏给定分类信任指数。
8.如权利要求7所述的方法,其还包含有依据该分类信任指数对该第三信息执行一过滤操作。
9.如权利要求1所述的方法,其还包含有于变更该分类数据库中的第一类别子数据库后,利用该分类器对该第一计算机内所有待传送的信息分别指定新的分类信任指数;以及依据各个新的分类信任指数对所有待传送的信息执行一过滤操作。
10.如权利要求1所述的方法,其中该第一计算机为一信息服务器,该第二计算机为该信息服务器的客户计算机。
11.一种计算机可读媒体,其具有可执行权利要求1所述的方法的程序代码。
12.一种计算机网络,其包含有一第一计算机;多个第二计算机,以网络连接的方式连接于该第一计算机;该第一计算机包含有一分类器,该分类器可对一信息指定一分类信任指数,该信息对应于至少一类别,而该类别由一类别数据库所定义,其中该类别数据库对应于每一类别皆包含一类别子数据库,该分类器可依据该类别数据库对该信息指定该分类信任指数;一种可从任一个第二计算机接收关联至一第一类别的更新信息的方法;以及一种可依据该更新信息与其所关联到的使用者信息来变更该类别数据库中一第一类别子料库的方法,其中该第一类别子数据库对应于该第一类别;以及每一个第二计算机包含有一种可接收一第一信息的方法;以及一种可传送一第二信息至该第一计算机,并将该第二信息与该类别数据库中至少一类别及一使用者信息建立关联的方法,其中该第二信息的内容根据该第一信息决定。
13.如权利要求12所述的计算机网络,其中改变该第一类别子数据库的方法可依据接收到的更新信息,在该第一类别子数据库建立一信息样本栏。
14.如权利要求12所述的计算机网络,其中改变该第一类别子数据库的方法可依据接收到的更新信息所关联到的使用者信息,变更对应于接收到的更新信息的计数栏,其中该计数栏代表由使用者所提交的内容乃对应于接收到的更新信息的内容的使用者数目。
15.如权利要求14所述的计算机网络,其中该第一计算机还包含有一种可从网络接收一第三信息的方法;一种可利用该分类器对该第三信息指定该分类信任指数的方法;其中该分类器仅利用具有一计数值到达一预定阈值的样本栏来执行分类分析。
16.如权利要求15所述的计算机网络,其中该第一计算机还包含有一种可依据该分类信任指数对该第三信息执行一过滤技术的方法。
17.如权利要求12所述的计算机网络,其中该第一计算机还包含有一种取得一信息样本栏的信任指数的方法,该信息样本栏对应于接收到的更新信息;一种依据接收到的更新信息所关联到的使用者信息来变更该信任指数的方法;以及一种依据变更后的信任指数与一阈值使该信息样本栏成为一现用样本栏的方法。
18.如权利要求17所述的计算机网络,其中该第一计算机还包含有一种自网络接收一第三信息的方法;以及一种利用该分类器取得该第三信息的信任指数的方法,该分类器仅利用现用样本栏。
19.如权利要求18所述的计算机网络,其中该第一计算机还包含有一种可依据该分类信任指数对该第三信息执行一过滤技术的方法。
20.如权利要求12所述的计算机网络,其中该第一计算机还包含有一种在依据接收到的更新信息变更该类别数据库中的第一类别子数据库后,利用该分类器对该第一计算机中所有待传送的信息分别指定新的分类信任指数的方法;以及一种可依据新的信任指数对所有待传送的信息执行一过滤技术的方法。
21.如权利要求12所述的计算机网络,其中该第一计算机为一信息服务器,所述第二计算机皆为该信息服务器的客户计算机。
全文摘要
一服务器,其具有一可对包含至少一类别的信息指定一分类信任指数的分类器。提供该服务器一类别数据库,其中包含对应于每一类别的类别子数据库。该分类器使用该类别数据库指定该分类信任指数。每一客户计算机皆具有一传送模块,该模块可传送一更新信息至该服务器,并将该信息关联到该类别数据库中至少一种类别及一使用者信息。该服务器依据客户计算机传送的更新信息变更该类别数据库中各子数据库的内容,再依据新的子数据库内容,对信息指定新的分类信任指数。最后,依据新的分类信任指数对信息执行一过滤操作。
文档编号G06F13/00GK1510588SQ20031012327
公开日2004年7月7日 申请日期2003年12月22日 优先权日2002年12月25日
发明者赵国仁, 蔡笃欣, 苏耿弘 申请人:龙卷风科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1