文本分类参数生成器和使用所生成参数的文本分类器的制作方法

文档序号:6574612阅读:185来源:国知局
专利名称:文本分类参数生成器和使用所生成参数的文本分类器的制作方法
技术领域
本发明总体涉及一种文本分类器,用于将给定文本分类到特定的一个或多个预定类别,具体来说,涉及一种用于生成和训练(或优化)这种文本分类器中所用参数的方法和系统。
背景技术
存储于某些基于计算机系统中的文本数据其数量和种类正日益增加。所存储的这种自然语言文本数据包括学术论文、专利文档、新闻文章等。为了使所存储文本数据作为信息有效地利用,必须将所存储文本数据的每个项目分类成为相应类别。为了该用途,至此已提出了各种类型的文本分类器。
本发明涉及一种文本分类技术,尤其涉及利用向量空间这种文本分类技术。基于向量空间的文本分类技术揭示于例如以下文献1997年9月23日授予J.A.Catlett等人、发明名称为“训练装置和方法”的美国专利U.S.Pat.No.5,671,333;2001年2月20日授予S.T.Dumais等人、发明名称为“用于文本分类和文本建立的方法和装置”的美国专利U.S.Pat.No.6,192,360,所介绍的多种分类技术包括支持向量机的理论和操作;N.Nomura的发明名称为“用于文档处理和存储媒体存储的设备和方法”的日本专利申请公开公报11-053394(1999);以及K.Mitobe等人的发明名称为“相似性显示设备、用相似性显示程序存储的存储媒体、文档处理器、用文档处理程序存储的存储媒体以及文档处理方法”的日本专利申请公开公报2000-194723(2000)。
在此通过引用上述全部参考文献作为参照。
基于向量空间的文本分类器中,通过由一向量集V1,V2,…,VM构成的基底形成M-维向量空间,所述一向量集V1,V2,…,VM与构成词典的M个字W1,W2,…,WM相对应。向量空间中的一个点表达要分类目标或文本。具体来说,要分类的文本或文档表达为一是基底(V1,V2,…,VM)的线性组合的特征向量(或文献向量)。给定文本特征向量的每一分量用与该分量相关联的字在给定文本中的出现频率来表达。目标文本分类为的类别集中每一类别由对该类别定义的基准向量来表达。同样,每一基准类别也按基底(V1,V2,…,VM)的线性组合表达。通过求出给定文本特征向量和类别基准向量的内积求出两个向量之间的距离,来计算给定文本相对于类或类别的接近程度。根据所计算的接近程度确定给定文本是否属于该类别。
对要分类文档集中的文档特征向量进行管理得到的文档-字矩阵通过奇异值分解应用较低等级近似法可降低特征向量的维数。目标文档的这种降低维数的特征向量其每个分量不是反映字本身频率,而是反映目标文档与一(加权)字集相关程度。这种情况下,诸如距离计算、内积计算这种算术运算按与原始向量空间情形相同方式是可行的。
基于向量空间的分类器根据与各个类别相关联的基准向量以及在该量值内文档便分类为特定类别的接近程度的量值(或阈值),来改变文档是否属于特定类别的结果或判定。将一类别集中所有类别的基准向量的分量以及接近程度的阈值称为“分类参数”。为了实现正确的分类,必须正确地确定或优化分类参数。
传统参数训练中,通过用具有粗略确定的初始分类参数的分类器对样本(即选定用于训练的文档)进行分类。复查分类结果,再修改分类参数。迭代这个试-错过程直到获得满意的分类。这种对分类参数的修改可通过操作员直接由其本人修改参数来实现,或通过操作员校正分类结果、分类器再通过基于操作员校正的机器学习重新计算参数来实现。
但直接修改方案中,操作员难以知道大量参数中要修改哪些参数以及如何修改所选定用于修改的一个或多个参数。而分类结果校正方案中,操作员则难以知道大量分类结果中要校正哪些分类结果。这些困难使得分类参数修改成为不一定生成所希望分类参数的费时任务。
所作出的本发明正是要克服该技术领域中的上述问题和其他问题。
所需要的是一种使操作员能够通过各种数据分析及选择工具交互并有效地训练分类参数的分类参数生成方法和系统。
所需要的是一种可用于将类别的每个基准向量视为指出的是统计分布点而非固定点这种情形的分类参数生成方法和系统。
所需要的是一种可对经过复查的样本计算命中率的分类参数生成方法和系统。该命中率是其CDOM与经评估CDOM就类别Cr而言互相相等的文档数目占其类别Cr的CDOM经过评估的文档数目的比例。
所需要的是一种具有样本集生成及扩展能力的分类参数生成方法和系统。
所需要的是一种用多个分类参数集的文本分类器。
所需要的是一种用于确定给定文本是否属于指定类别的文本分类器。

发明内容
根据本发明原理,提供一种用于确定给定文档是否属于多个预定类别中指定的一个类别的参数集生成系统。该系统包括一文档集,每个文档具有识别符(ID);包含每个文档记录的文档数据集,该记录包含该文档的文档ID以及在预定向量空间中表示该文档特征的特征向量;包含每个类别记录的类别数据集,该记录包含该类别的类别ID、类别名称以及参数集。该参数包括在预定向量空间中表示类别特征的基准向量以及对类别确定的阈值。本系统中,通过用文档的该特征向量、指定类别的该基准向量以及该指定类别的阈值,对每个文档计算隶属分数,该隶属分数表示文档是否属于该指定类别。评估样本选择屏使操作员能够交互输入用于选择要对所计算隶属分数进行评估的文档的各种命令参数。响应命令参数其中一个的输入,将对文档选择有用的信息以可视方式显示给操作员。评估值输入屏示出所选择文档,并允许操作员对每个显示的所选择文档输入一评估值。而且,所输入的评估值反映给指定类别的基准向量。
命令参数包括对选择准则其中一个以及该选择准则范围的指定。
可通过用预定概率分布函数其中所希望的一个对文档分布加权来选择评估样本。
可根据所选择评估样本进行进一步的样本选择。进一步选择可基于与用户所指定样本的相似程度。可通过从所选择评估样本当中提取关键字并用关键字进行搜索来执行进一步选择。
可通过在先前和当前计算结果之间比较得到评估样本选择。
由经计算的隶属程度(CDOM)(calculated degree of membership)中的命中率检查参数质量。
进一步提供一参数训练系统发明,其特征在于,基于向量分量方差分析的加权以及文档集和/或类别集的扩展。
一实施例中,从实际文档集当中选择合适文档数目(即,与样本集11相同的数目)的不同文档集用于每个训练周期的训练。这种情况下,给出每个基准向量作为分布函数。相似程度作为文档属于一区域的概率给出,该区域由预置阈值定义、处于类别基准向量的分布范围内。
还揭示一利用按本发明生成的参数集的文本分类器。


本发明特征、目的和优点将通过下面结合附图的详细说明变得更为清楚,其中图1是示意方框图,示出本发明的分类参数生成系统的配置;图2是流程图,示出图1的分类参数生成系统1的操作原理;图3是流程图,示出在DOS和CDOM计算器24(图1)的控制下在步骤24s(图2)中执行的操作;图4示出样本文档i=11934的特征向量D11934的例子;图5示出名称为“出轨训练”的类别的基准向量C234的例子;图6是一个表格,示出设定一阈值Tk用于根据相似程度求出隶属程度的示例方法;图7是根据本发明的图,示出评估目标选择条件-指定屏幕的例子;图8是示出显示基于距离的图表的评估样本选择屏幕的例子;图9是示出显示基于向量分量的图表的评估样本选择屏幕的另一个例子;图10是示意图,示出示例计算结果评估屏幕;图11是示意图,示出示例文档信息显示屏幕;图12是示意图,示出评估的CDOM表格的示例结构;图13是示意图,示出示例概率分布函数选择屏幕;图14是示意图,示出概率函数是如何应用于文档分布函数以从样本集11提取评估样本,所述文档分布函数诸如在图8或9中所示;图15是示意图,示出根据单击图13的OK按钮456显示的示例样本条件设定屏幕;图16是示意图,示出根据图14的概率分布函数计算样本数,所述样本是要从文档分布中指定范围中的每个样本部分或块提取的;图17是示意图,示出评估样本选择屏幕的另一个实施例,其中,对于CDOM的值1和0示出相应的图表;图18A和18B是示意图,示出计算结果评估显示之间的差异,所述计算结果评估显示是当通过使用左-加强分布函数(left-emphasized distribution function)选择评估目标和通过不使用任何分布函数选择评估目标时分别提供的;图19是示意图,示出通过单击按钮322,根据在图10的计算结果评估屏幕中发出的基于相似性程度的选择命令而显示的评估屏幕例子;图20是示意图,示出计算结果比较屏幕的例子;图21是示意图,示出计算结果比较屏幕的另一个例子;图22是流程图,示出通过使用在CDOM中的命中率将每个给定类别的参数质量提高到预定水平的操作;图23是示意方框图,示出根据本发明的第二示例实施例的分类参数生成系统的配置;图24是示意图,示出方差计算结果显示屏幕570的例子;图25是示意图,示出计算结果-显示屏幕590的另一个例子;图26是示意图,示出通过方差分析/加权子系统590显示的示例数据表格;图27是流程图,示出在根据本发明的第三实施例的样本选择器22的控制下执行的示例操作;图28是示意图,示出搜索条件输入屏幕的例子;图29是示意图,示出使存储在类别数据/分类参数表格14中的条件变窄的示例方法;图30是部分流程图,示出在图2中的步骤24s和26s之间插入的CDOM修改过程;图31是示意图,示出在第四实施例中的分布基准向量的概念以及基准向量和两个示例文档中的每一个之间的距离;图32示出图表A和图表B,其中图表A示出属于该类别的概率密度分布,而图表B则示出距中心向量Ck’的距离和属于该类别的确信度之间的关系;图33是示意方框图,示出一个系统的配置,所述系统用于通过使用根据本发明生成的分类参数计算指定类别的给定文档的隶属分数;图34是流程图,示出图33的系统的示例操作;图35是部分流程图,示出为了利用评估的CDOM表格430而必须添加到包括步骤804和806的流程部分的另外的步骤;图36是示意图,示出根据对于文档(所述文档属于用户指定的类别)的请求而显示分类结果显示屏幕840的例子;以及图37是示意图,示出允许带有较好保密性的用户评估最好使用的示例数据文件。
在所有的附图中,在多幅图中示出的相同单元用相同的标记作相应的识别。
具体实施例方式
1.实施例I具有固定的样本集图1是示意方框图,示出根据本发明的第一示例实施例的分类参数生成系统1的示例配置和操作原理。要注意,由于分类参数生成系统一般包括文本或文档分类器,所以可以说分类参数生成器或训练系统是带有分类参数生成器或训练子系统的文本或文档分类器。在这个意义上可以说,图1示出带有分类参数生成器的文本分类器。
在图1中,每个矩形表示一个数据或一数据集,而每个圆角矩形表示一个过程或程序。带有线画的头的箭头表示数据流,而带有填满黑色的三角形头的箭头表示通过相应箭头指出的数据的生成。1.1.准备必需的数据在图1中,系统1需要样本文档(或样本)集11,使用所述样本文档(或样本)集11在文本分类器中用于生成分类参数。如果要部分地进行分类的文档集10的维数小到足以用于训练分类参数,则实际上可以使用文档集作为样本集11。否则,从实际文档集10选择用于参数训练的样本文档11的合适数(N)22。以后详述样本选择22。
在分类参数生成之前,系统1的操作员或用户必须准备包含一字集的词典12,对于除了样本文档集11之外的每个类别,期望将所述字用于实际文档集10和类别数据/分类参数文件14中。
虽然在图1中,在列出数据名称处示出各种数据集、文件或表格,诸如11、12、14、16、18等,应该注意,这种数据集、文件和表格可以包含除清楚地示出的那些之外的任何合适的数据。还有,这种数据集、文件和表格的每一个不必定是单个集、文件或表格,可以作为彼此相关联的分立集、文件或表格来实施。
词典12包含字{Wjj=1,2,…,M}的M个记录,其中,M是字数,而j是字ID(识别符)或每个字的编号。
对于每个N样本文档11,存储样本ID或编号i(在这个特定例子中),文档的题目和其它著录项目数据,以及文档本身,致使样本ID与每个其它数据相关联即,如果文档11的维数相当小,则将它们存储在一个文件中,或存储在表格或文件的一个记录中。此外,操作员必须为每个样本生成一个特征向量Di。如上所述,假定将每个文档表达为在通过基底生成的M-维向量空间中的一个点,所述基底包括相应于M个字W1,W2,…,WM的向量集V1,V2,…,VM。在这个特定实施例中,在基底(V1,V2,…,VM)的线性组合形式中将给出样本文档i的特征的特征向量Di表达为Di=Σj=1Mai,jVj,---(1)]]>其中,系数ai,j是特征向量Di的第j分量,换言之,在第i文档中的字Wj出现频率fi,j的归一化表达式。即,将第j分量ai,j表达为ai,j=fi,jfi,12+fi,22+···+fi,M2---(2)]]>因此,与相应的样本Id相关联地存储样本文档的计算的特征向量D1,D2,…,DN。要注意,虽然示出将每个样本i、样本ID、特征向量Di、题目和其它著录项目数据以及文档本身存储在图1中的一个集中,但不是必须如此做。可以将这些数据分开存储,只要除了样本ID之外的数据与样本ID相关联。这对于类别数据文件14的数据也是真实的。
图4示出样本文档Di=11934的特征向量D11934的例子,所述样本文档是标题为“在Nemuro主线和Sannriku铁路上的火车出轨”的文件。在这个特定例子中,假定向量空间的维数(即,包含在词典12中的字数(M))是600。例如,将向量D11934表达为600-分量阵列(0.159713,0.004751,…,0.015522)。
再在图1中,操作员还必须准备一类别集,将实际文档集10的文档和样本文档集11分类到其中,并生成包含有关类别的各种数据的类别数据文件14。在准备阶段,类别数据文件14的每个记录包含类别识别符或数k,以及通过类别数k识别的类别Ck。
除了上述样本选择工具22之外,分类参数生成系统1包括人工界面20,通常人工界面20包括显示器、键盘、鼠标等;DOS和CDOM计算器24,用于计算表明样本文档与给定类别相似到何种程度的相似程度(DOS)以及表明样本文档属于该给定文档至何种程度的经计算隶属程度(CDOM);计算结果分析器/评估目标选择器26,用于使操作员能够交互地选择要评估的样本;交互评估器28,用于使操作员能够评估所选择样本的CDOM的正确度;以及参数更新器30,用于更新在以前的训练周期中已经用于DOS计算的基准向量。
可以实现这些部件作为在任何合适的硬件上执行的软件或程序,所述任何合适的硬件诸如各种计算机、包括CPU(中央处理单元)的基于计算机的系统等。为了这个原因,我们已经略去这种硬件、计算机、基于计算机的系统、CPU等的说明和附图。从这个观点,将本发明实施于任何形式的设备中,所述设备包括特定硬件、程序或存储在存储媒体中的程序包以及可通过传输媒体传递的数据集。
任何情况下,通过包括在硬件中的一个或多个CPU执行下述操作。为了这个原因,虽然未示出CPU,但是在下列说明中使用CPU这个表达。
一旦在如此配置的系统1中得到数据,我们可以进行到参数的生成。1.2.操作原理图2是流程图,示出分类参数生成系统1未示出的CPU执行的操作。在图2中,操作员在步骤200中输入要生成分类参数的类别。在这个特定的例子中,假定操作员输入类别Ck=“火车出轨”。
在步骤210中,生成输入类别Ck的初始分类参数。在本实施例中,用于类别Ck的分类参数是基准向量Ck和DOM-决定阈值,所述基准向量用于计算分到类别Ck的给定文档的相似程度,而所述DOM-决定阈值与所计算相似程度一起用于判断给定文档是否属于类别Ck。基本上,通过寻找一个平均向量而得到基准向量Ck,所述平均向量的每一个分量是属于类别Ck的特征向量的相应分量的平均,并且对平均向量进行归一化,致使平均向量的长度等于1,如下所述。图5示出已经对类别C234(“即,“火车出轨”)进行计算的基准向量C234的例子。要注意,不使用基准向量的平均向量而可以使用在基于向量空间的技术中使用的任何合适的量,包括每个特征向量和基准向量之间的内积。
由于通过迭代训练使初始基准向量Ck的正确度大大地提高,初始参考参数Ck不必须很正确。相应地,对于操作员判断是类别Ck的成员,样本文档集11的一部分或整体的平均向量等的某些样本可以使用特征向量作为初始基准向量Ck。
由于系统使用经计算的隶属程度作为分类输出,其中,1的CDOM表示隶属,而0的CDOM表示非隶属,所以将单个阈值用于DOM的计算。然而,可以按大于2的任何希望水平来表达给定样本属于特定类别的范围。这种情况下,用L-1DOM阈值来定义处于L级之间的L-1步骤。
将已经按如上所述地确定的初始基准向量Ck和初始DOM-决定阈值Tk存储在类别Ck的类别数据文件14中,例如,如在图1中所示。
还是在图2中,在训练步骤220中进行参数训练。在步骤24s中,DOS和CDOM计算器24计算类别Ck的每个样本i的DOS(此后称之为“量DOSi,k”),并通过使所计算DOS与类别Ck的阈值Tk相比较来确定DOM值。在图3中详细地示出这个过程。在图中,在步骤240中,计算器24计算类别Ck的每个特征向量Di和基准向量Ck之间的距离作为DOS。在这个特定例子中,例如,通过众知的向量Di和Ck之间的简单Euclidean距离来定义DOS,在这个特定例子中用di,k或量DOSi,k表示,即,DOSi,k=di,k=Σj=1M(ai,j-ck,j)2,---(3)]]>其中,ck,j是基准向量Ck=(ck,1,ck,2,…,ck,M)的第j分量。由于基准向量Ck是平均向量的归一化形式,所以它的每个分量是属于类别Ck的样本文档的特征向量{Db|b∈B}的相应分量的平均,如上所述,将第j分量ck,j表达为ck,j=μk,j/Σj=1Mμk,j2---(4)]]>其中,B是属于样本的样本文档ID集,而μk,j是上述平均向量的第j分量,并定义为μk,j=Σb∈Bab,j---(5)]]>通过使用公式(3),计算类别C234(=“火车出轨”)的样本文档11934(图4)的距离d11934.234如下d11934.234={(0.159713-0.435595)2+(0.004751-0.012305)2+…+(0.015522-0.000806)2}1/2=例如0.9(6)要注意,本实施例使用DOS的Euclidean距离,可以使用至此建议的任何一个合适的距离(例如,Mahalanobis距离)。
接着在步骤250中,计算器24通过使所计算DOS与上述L-1阈值所定义的L水平中最接近的一个近似计算DOM值(称为“经计算的DOM”或“CDOM”)。这个特定实施例中,最好利用单个阈值使DOS双值化以得到如上所述的经计算的隶属程度(CDOM)。具体来说,在步骤252中计算器24以DOS量值升序对计算结果进行分类;在步骤254中,对于落在分配阈值Tk定义的范围中的样本的CDOM值设定为1;在步骤256中,对于余留样本的CDOM值设定为0,完成DOM计算步骤250(即图2中步骤24s)。
图6示出设定DOM-决定阈值Tk的示例方法。如在图6中表格所示,(1)阈值Tk可以是DOS的可能值(例如每个特征向量Di和相关的基准向量Ck之间的距离)。这种情况下,将具有DOS等于或小于阈值Tk的样本设定为1;并将具有DOS大于阈值Tk的样本设定为0。
(2)如果阈值Tk是DOS的标准偏差σ(DOS),则将标准偏差σ(DOS)等于或小于阈值Tk的样本设定为1;而将标准偏差σ(DOS)大于阈值Tk的样本设定为0。
(3)如果阈值Tk是按DOS的量值的升序排列的样本列表中从第一样本开始计数的样本的数,则将列表的第一Tk样本设定为1;将余留的或接着的样本设定为0。
(4)可以将阈值Tk设定为属于有关类别Ck的样本对所有样本的比值。这种情况下,则将相应于Tk对所有样本的比值的一个数的第一样本(在按DOS的量值的升序排列的样本列表中)设定为1;将余留的或接着的样本设定为0。如果按百分比设定比值,则将列表的第一Tk%设定为1。然而,操作员一点不知道属于比值或属于样本的数(或甚至不知道每个样本是否属于类别Ck)。为了这个原因,操作员可以评估初始阈值Tk的属于比值作为他或她认为符合的,并接着当训练过程进行时通过校正属于比值而更新阈值Tk。
在上述Tk设定方案(1)中,如果将阈值Tk设定为0.8,则由于样本11934对类别C234(=“火车出轨”)的距离,即d11934,234,从计算(6)得到为0.9,计算器24判断CDOM11934,234的值为0,因为阈值Tk小于DOS11934,234。还有,在上述Tk设定方案(4)中,如果将阈值Tk设定为40%,而且在类别C234的分类中,如果在升序样本列表中第(40N/100)个样本具有0.91的DOS值,则这意味着样本11934比在升序样本列表中的第(40N/100)个样本出现得早,这导致计算器24判断CDOM11934,234为1。
DOS和CDOM计算器24将计算结果即,样本ID(Di)或样本数i、DOSi,k和CDOMi,k,存储在类别Ck的计算结果文件16中,如在图1中所示。应该注意,计算结果文件16每个记录最好有两个字段,用于存储2个CDOMi,k值即在以前训练周期(在图1中的单元24到30的处理构成的周期,或通过在图2中的步骤24s到28s、29和30s构成的周期)中计算的一个值CDOMi,k(n),以及在当前周期中刚计算的CDOMi,k(n+1)值。相应地,计算器24最好存储刚计算的CDOMi,k(n+1),以致导致保留以前的CDOMi,k(n),并与新的CDOMi,k(n+1)相区分。
完成步骤250或24s,通过对计算结果,以及如果需要,对在步骤26s中的上述计算结果应用多种可视分析工具,分类参数生成系统1使操作员能够交互地选择要评估其计算结果的评估目标样本。为了这个目的,操作员可以调用评估目标选择条件-指定屏幕来交互地选择要评估的合适样本,如在图7中所示。
在图7中,在评估目标选择条件指定屏幕260上部有菜单条262,在这个系统1中,这个菜单条对所有屏幕都是通用的,并具有在它的余留部分中显示的评估样本选择对话框264。(虽然始终显示菜单条262,但是在接着的附图中都将它省略了。)实际上,在菜单条262的评估菜单中选择样本选择命令(未示出)导致评估目标选择器显示评估样本选择对话框264,其中显示刚才执行DOS和CDOM计算24s的某些信息。例如,所述信息包括计算24s已经进行的类别Ck、分类阈值Tk的类型和值、分类Ck的成员文档的数和百分数、非成员文档的数以及总文档数。
评估目标选择器26还提供选择准则指定功能280,它首先使操作员能够选择准则之一,诸如(1)文档列表中升序排列的位置;(2)DOS或距离;(3)通过无线电按钮281可选择的向量分量的值;以及(4)在这种系统中可得到的确信度,其中,在每个训练周期处基准向量是随机地变化的(将在下面详述这种系统)。
在图6的例子中,在选择准则指定框280中选择距离。不管操作员对选择准则的(1)在列表中的位置,(2)距离,(3)向量分量以及(4)确信度中选择哪一个,操作员可以在选择范围指定框282中的三种方法中的一种方法中设定相对于所选择的选择准则的选择范围。特别,操作员可以选择文档(a)通过在以前周期中使用的DOM-决定阈值定中心的,通过数字输入列286或通过指定要选择的总数284的训练的硝化作用(nitration of train)和/或通过要从升序的样本列表的每个上游部分和下游部分选择的数(未示出);
(b)在通过数字输入列286指定的范围中;(c)通过使用多个图表其中一个,所述多个图表是根据选择准则指定功能280指定的选择准则自动地选择的。
根据下列选择策略评估计算结果(a)选择在DOM-决定阈值Tk的邻域中的文档不仅对基准向量Ck的训练有用,而且还对DOM-决定阈值Tk的训练有用。这在一个阶段中是特别真实的,在这个阶段中,已经对基准向量Ck训练到如此的程度而生成足以满足的样本正确度,所述样本的DOS对于DOM-决定阈值Tk不是很接近的。
在范围规格(b)的情况中,选择落在指定选择准则的范围内的文档供计算结果的评估。在范围规格(b)中,如果选择准则不同于在列表中的位置(1),则可以在框280中指定的物理量的行值中,或在行值的相应的标准偏差中,通过使用相应的无线电按钮指定范围。这种情况下,最好设定用于行值的按钮,所述行值是用户在准备预置输入的初始过程中选择的。
在基于图表的选择(c)的情况中,如果选择准则不同于在列表中的位置(1),则用户可以通过单击一个预定的按钮,即,在框282中的“选择函数”按钮288,使用如在图13中所示的各种分布函数中的一种分布函数进行样本选择。将在下面详述使用分布函数的样本选择。
还有,评估样本选择对话框264包括一组3个无线电按钮290,它使操作员能够确定应该对只有未评估的文档,所有文档或只有评估的文档中的哪一种进行接着的样本选择。评估样本选择对话框264进一步包括从其退出或不继续进行样本选择步骤26s的取消按钮296,以及一个OK(同意)按钮298,以执行在对话框264中至此指定的过程。
例如,如果操作员在框280中选择距离(或DOS)以及在框282中“使用一个图表”,并单击OK按钮298,则评估目标选择器26显示基于图表的选择屏幕330,它包括如在图8中所示的图表331。在图8中,图表331的水平轴是一个分度滑动开关332,它表示DOS(在这个特定例子中的距离),并具有一对光标334和336,用于指定选择评估目标样本的范围。图表331的垂直轴表示文档数(或文档计数),文档的DOS等于在水平轴332上的一个值。
基于距离的图表331中,通过垂直线340和包括阈值Tk的横向表示342示出在以前周期中使用的DOM-决定阈值Tk的位置。通过使用特殊垂直线、彩色、纹理图案或它们的任何组合等合适的加强技术还显示通过光标位置定义的范围。不但表示滑动光标334和446的位置,而且还可以在选择范围显示和输入框300中用两种方法输入它们的位置。特别,在光标位置表示器/输入字段302和在范围中心表示器/输入字段304两者中表示样本选择的范围;在范围间距(或宽度)表示器/输入字段306和文档计数表示器/输入字段308中显示和输入落在两个光标334和336之间范围内的文档号。最好联锁在选择范围框300中的字段302到308中的值以及光标334和336的位置。这使操作员通过操作光标334和336以及光标位置表示器/输入字段302中的任何两个,或通过在范围中心表示器/输入字段304中输入所需要的值以及在范围间距字段306或文档计数字段308中输入一个值,而能够输入指定评估样本选择范围。如此,评估目标选择器26在评估目标样本选择中提供较高的自由度。
如果选择标准偏差作为用于表达在图7的范围指定框282中的样本选择的范围,则水平轴332表示在图8的图表331中的DOS或距离的偏差。
图9是示意图,示出评估样本选择屏幕350的另一个例子,其中,显示基于向量分量的图表。当操作员选择向量分量作为选择准则,并在选择准则框280中输入所需要向量分量的ID或数时显示屏幕350;单击按钮“用图表”;并进一步单击在图7的评估样本选择器264中的OK按钮298。图9基本上与图8相同,除了已经将水平轴332改变成水平轴351以表示向量分量的值。最好如此地配置评估目标选择器26以允许操作员通过分量数表示器/输入字段352改变作为选择准则的向量分量的ID或数。
诸如在图8和9中示出的基于图表的评估样本选择屏幕具有返回按钮314,用于返回到评估样本选择对话框264,进行进一步的分析或重试分析。然而当然可能,通过菜单条262的评估菜单262引用对话框264,通过返回按钮314返回对话框264而使使用所选择样本的过程成为可能。
如果在基于图表的评估样本选择屏幕中单击评估按钮316,则未示出的系统CPU结束评估目标选择器26的过程(即,样本选择步骤26s),并开始处理交互评估器28。评估器28首先显示在图10中示出的评估屏幕,同时操作员启动在图2中的评估步骤28s。
在图10中,在评估输入屏幕400的上面部分显示类别;具有CDOM为1的文档的,具有CDOM为0的文档的,以及所有文档的文档计数;以及对话框402包括样本选择范围的信息,所选择用于评估的文档的数,以及选择应用于所有样本集,未评估样本子集和评估样本子集中的哪一个。评估数据显示表格410是每个所选择样本的记录。每个样本的记录包括文档ID以及样本的标题;系统-计算的DOS和CDOM,决定的CDOM 412(它是在过去评估时间已经人工地输入的评估值);以及评估值输入列414。
虽然从列402看到,已经选择了43个样本,但是在图10中只示出10个记录。通过操作滑动开关411可以显示其余的记录。如果为了正确地评估样本而用户希望检查样本的细节,则通过单击所需要样本的标题他/她可以得到详细的信息。
图11示出提供文档的详细信息的一个屏幕例子。在图11中,文档信息屏幕420包括用于显示指定文档本文的窗口422。最好屏幕420包括向量分量数输入字段424,以致显示指定向量分量的值。如果单击退出按钮426,则显示评估屏幕400。另一方面,在评估输入屏幕400上,包含在屏幕420中的文档信息可以显示在新建立的窗口中。
回到图10,在决定的CDOM字段412中的空白意味着操作员至少对在类别显示部分401中表示的特定类别尚未对样本进行评估。应该注意,术语“评估”意味着人类操作员将评估值1或0分配给自从经决定或经评估就认为是正确的CDOM或隶属值,当显示评估屏幕400时,最好已经在评估字段414中设定所决定的CDOM字段412中的值。通过如此进行,操作员只需要对评估字段414是空白的样本进行评估。
此外,系统提供覆盖设定功能,它以通过一组无线电按钮415到418的设定而指定的方式自动地填充空白评估字段414。例如,按钮集包括没有数据输入(或不做什么)的“没有”按钮415;“CDOM”按钮416用相应的计算的CDOM填充每个空白评估字段414;1-评估按钮417用1填充空白评估字段414;0-评估按钮417用0填充空白评估字段414;以及“清除”按钮419,用于删除在空白评估字段414中的所有数据。通过选择按钮415到418中的一个按钮对所有空白评估字段414进行覆盖设定之后,操作员只需要检查值的正确性,所述值是在每个未经评估的样本或“经决定的CDOM”字段412是空白的记录的空白评估字段414中的。要注意,可以使空白评估字段414仍保持空白,即,操作员不是必须填充所有评估字段。还有,操作员可以输入与经决定的CDOM字段412相反的值。因此,将在字段414中的评估值记录在图1中的评估数据集18中。在任何情况中,将在评估字段414中输入的值写在评估数据集18的相应字段中的已有值的上面,如果有已有值的话。
如果没有评估的必要,则操作员可以通过简单地单击退出按钮403而终止屏幕400显示。如果操作员希望重试样本选择而不评估当前在评估屏幕400中显示的样本,则用户将单击返回按钮404。
完成了在图2中的评估步骤28s,操作员在步骤29(图2)中进行检查,看系统提供的CDOM值是否满意。如果是满意的,则由于这意味着已经将基准向量Ck和DOM-决定阈值Tk训练到足够满意的程度,操作员通过简单地单击退出按钮403或通过按钮419清除评估字段414以及单击OK按钮406而结束参数训练过程2。否则,操作员单击OK按钮406将评估输入值反映给基准向量Ck。
根据OK按钮406的单击,将控制传递到参数更新器30,它在步骤30s(图2)中更新分类参数。特别,将在评估字段414中的值复制到在图430所示的经评估的CDOM表格中的相应存储单元。如从上述说明看到,要注意评估数据集18相应于在经评估的CDOM表格430的列或字段中的所有数据。经评估的CDOM表格430是经评估值的矩阵,其中,一个轴相应于类别数1到K,而另一个轴相应于文档号1到N(以及文档识别符IDi)。对于与空白存储单元相关联的的类别,空白存储单元表示尚未对与空白存储单元相关联的文档进行评估。根据更新经评估的CDOM表格430,参数更新器30根据公式(4)和(5)通过使用对于类别Ck尚未评估的样本的在表格430中的第k字段中经评估的CDOM值,在计算结果文件16中的CDOM值,以及存储在样本文档文件11中的特征向量来计算基准向量Ck。然后,参数更新器30将新基准向量写在在类别数据文件14中的老基准向量上,并结束更新步骤30s。
如上所述,根据本发明的原理,通过使用评估样本选择图对话框264,操作员可以有效地选择合适的评估目标样本,所述评估样本选择对话框264在选择参数设定方面提供高度灵活性,而各种图表提供决定选择范围的有用信息。还有,评估支持子系统28大大地促进计算结果的评估,所述评估支持子系统28提供图形用户界面400和覆盖设定功能415到419。
除了基于CDOM评估以及参数更新的参数训练能力以外,分类参数生成系统最好包括一允许用户直接编辑诸如基准向量分量、阈值、各种加权因数(后面详细说明)等的参数编辑器。
上述实施例中,完成评估处理(即激活图10中OK按钮406)后,参数更新器30立即更新了分类参数。作为替代,参数更新器30可组成为显示基于操作员刚完成评估的参数更新后将获得的相同类别的分类结果,让操作员查看分类结果,并响应对操作员同意的输入指示的接收实际更新参数。1.3.其它特征为了在说明的较早阶段介绍本发明的基本概念,我们已经省略了一些特征。下面详述这些省略的特征。1.3.1.根据分布函数的评估样本选择如果在图7的选择范围指定对话框282中操作分布函数选择按钮288,则评估目标选择器26显示如在图13中所示的分布函数选择屏幕。在图13中示出均匀分布函数442、左-加强分布函数444、右-加强分布函数446、两端-加强分布函数448、中心-加强分布函数450以及用户-可定义分布函数452。通过单击相应的按钮,用户可以选择这些分布中所需要的一种分布。如果用户选择用户-可定义分布函数452,则单击预定按钮454使操作员能够用图形编辑器确定他/她自己需要的分布特征的图表,或将已准备的图表修改成需要的形状。假定在图13中已经选择左-加强分布函数444,在选择需要函数之后,操作员单击OK按钮456以进行到下一个处理步骤。
图14是示意图,示出如何将概率分布函数施加到诸如在图8或9中所示的文档分布函数,以便从样本集11当中提取评估样本。如在图14中所示,将图8的文档分布331的用户-指定范围(从A到B)以及所选择概率函数444的域(从0到1)分成S个样本分段或块。然后,将在图表331中边界从a到b的S+1的值表达为dt=A+{(B-A)/S}·t(t=0,1,2,…,S)。相似地,将在图表444中边界从0到1的S+1的值表达为xt=t/S}(t=0,1,2,…,S)。
还有,在基于分布函数的样本方案中,根据指定分布函数444在文档分布331的指定范围(A~B)中从S分段提取样本文档的指定总数(TN)。因此,操作员必须设定样本范围A~B、分段的数S以及样本的总数TN作为样本条件。
为了这个目的,评估目标选择器26根据单击OK按钮456而显示样本条件设定屏幕。图15示出样本条件设定屏幕的例子。在图15中,以在图8的情况中的相同方法,操作员通过使用软件开关302到308和/或332到336确定范围A~B。操作员通过使用相应的输入列462和464进一步指定样本分段计数S和总数TN。在这个特定例子中,假定如此地设定样本范围A~B以致包括样本集11的所有126个文档,结果使A和B是0.625和1.125,以及将所要提取样本的分段计数S和总数TN两者设定为10。
设定值A~B、S和TN导致评估目标选择器26根据概率分布函数444立即将10个样本分布到10个分段,即,计算要从每个分段当中提取的样本的数Nt。计算Nt如下Nt=N(dt)·p(xt)Σt=1SN(dt)·p(xt)·TN---(7)]]>图16示出在上述假设情况中对于每个分段的提取样本计数计算的例子。因此,在图15中的样本计数计算结果显示部分466中立即显示对于10个分段的计算数N1,N2,…,,NS。如果操作员对计算结果N1,N2,…,,NS满意,则他/她单击预定的按钮468以评估S个样本,这导致显示如在图10中所示的提取样本评估屏幕。
还有,通过使用基于分布函数的评估目标样本方案可以如此地控制评估目标选择,使不断评估的文档的分布生成需要的曲线。特别,例如,当从当前标准来看,如果至今已经选择的经评估文档在较小DOS和距离一侧分布较密,则在当前训练周期的评估目标选择中,可以选择均匀分布函数作为概率分布函数(即选择更多较大DOS的文档),以致导致当在当前标准中观察时,添加文档整体,以均匀地分布,所述文档整体的文档是当前评估目标的文档。
图17是示意图,示出评估样本选择屏幕的另一个例子,其中,示出CDOM的两个值1和0的相应的图表。在图17中,将系统设定CDOM为1并且操作员评估CDOM也为1的文档标有“经评估的1”,并用斜线的条示出;将系统设定CDOM为0并且操作员评估CDOM也为0的文档标有“经评估的0”,并用黑色的条示出;将至今操作员从未评估的文档标有“尚未”,并用白色的条示出;以及将正选择用于评估的文档标有“在评估”,并用点子图案的条示出。还表示“在评估”的文档号。
图18部分地示出当在图17中单击“评估”按钮470时计算结果评估显示的两个例子(实际上象图10的方式那样显示这些表格)。图18A是当通过使用左-加强分布函数和将总样本数TN设定为10而完成评估数据采样时显示的表格。图18B是当通过从升序排列的样本列表当中检索前面10个样本或文档而完成评估数据选择时显示的表格。图10B只包括正确的答案,距离较短。然而,图10A不但包括距离较短的正确答案而且还包括距离较长的正确答案。
如从上述说明看到,对于稀少地评估宽范围或整个范围的排序的样本列表,基于概率分布函数的样本方案是很有用的。在这种意义上,在参数训练的较早阶段的计算结果评估中最好使用基于分布函数的样本。1.3.2.根据评估目标选择结果进一步选择根据从上述评估目标选择得到的一个或所有文档可以进行进一步的文档搜索。下面介绍两种另外的搜索方案。1.3.2.1.根据对一个种子文档的相似程度选择为了使操作员能够有效地利用这个功能,最好提供如图10所示的计算结果评估屏幕,所述屏幕具有列320,它通知操作员这个功能的可用性,并包括一种软件开关以确定操作员是否需要这个功能。如果操作员需要这个功能,则在列320中显示在表格410中选择的文档的文档ID。
如果单击OK按钮322,则系统1计算在所选择的或种子文档DI的特征向量DI和包含在图1的样本集11中的每个其它文档的特征向量Di(在这个情况中i≠I)之间的相似程度(在这个特定例子中是距离)。检查每个文档Di的经计算的隶属程度,系统1安排文档的隶属与种子文档相反,以便从最小相似度(或距离最小)的文档到种子文档作出相似度降序列表;而且还安排与种子文档具有相同CDOM的文档,以便从较大相似度(或距离最大)的文档到种子文档以作出相似度升序列表。
(应该注意,如在刚说明的情况中,当CDOM的值是必需的时,首先搜索上述评估CDOM表格得到该值。如果搜索成功,则使用所找到的值作为CDOM。否则,使用在计算结果数据集16中的相应的未评估CDOM值作为CDOM。)然后,系统1显示在相似性降序列表中包含第一文档的预定数的第一列表以及相似性升序中包含第一文档的预定数的第二列表。
图19示出包括第一和第二列表的示例评估屏幕500。评估屏幕500包括种子文档的信息,上述第一(或相似性降序列表)510以及上述第二(或相似性升序列表)520。
由于种子文档(在这个例子中文档ID=85590)具有为1的CDOM值,按最相似文档开始的顺序显示与种子文档相似性高、并且具有0的CDOM值的文档;按最不相似文档开始的顺序显示与种子文档相似性低、并且具有1的CDOM值的文档。
两个所显示列表的每一记录包含一串号、文档号以及每个文档的标题。此外,每个记录包含“经评估?”字段502,它存储一个值(例如,“Y”或“N”)表示对于类别Ck(在这个特定例子中为“火车出轨”)的文档的CDOM;以及一个标有“评估”的评估值输入字段504,操作员可以将需要的CDOM值输入其中。
对种子文档的相似性高但是CDOM不同的文档,或对种子文档的相似性低但是CDOM相同的文档可能具有错误的CDOM值。为了这个,复查在两个列表中的CDOM值对分类参数的有效改进有很大作用。
如果,使用属于类别并最接近DOM-决定阈值Tk的文档和/或不属于类别并最接近DOM-决定阈值Tk的文档作为种子文档,则根据DOS对种子文档而选择的文档的上述评估对于分类参数的评估是特别有用的。1.3.2.2.关键字提取和搜索最好如此地配置系统1,使操作员能够通过使用无线电按钮310和标有“取关键字”的执行按钮310在图7的任何评估目标选择条件指定屏幕中以及图8和9的评估样本选择屏幕中发出关键字提取/搜索命令。
如果在单击在图7中的OK按钮298或在图8或7中的“评估”按钮316之前操作“取关键字”按钮,则评估目标选择器26提取落在操作员输入的值确定的范围中的文档共有的一个或多个关键字,并显示所提取的关键字。这允许操作员通过使用所显示的关键字准备检索条件,并用所准备的检索条件执行检索以得到新评估目标文档集。这种情况的结果是使操作员评估新文档集来代替在图7、8或9中所选择的首先选择文档。
另一方面,在首先单击在图7中的OK按钮298或在图8和9中的评估按钮316对在图7到9的任何一图中选择的文档进行评估之后,操作员还可以评估提取的关键字和检索文档,然后在计算结果评估屏幕400中评估之后单击返回按钮404。这种情况下,对首先选择的文档和关键字搜索的文档进行评估,使分类参数更新过程的效率提高。
还要注意,可以使用关键字提取功能和基于向量分量的评估目标选择的组合,用于调整在加权的距离中使用的权。例如,表达距离(3)的权形式为DOSi,k=di,k=Σj=1Mwi·(ai,j-ck,j)2---(8)]]>具体来说,如在图9中所示的对于确定向量分量的基于向量分量的文档分布图表中,如果在较小DOS的第一峰值(即较小距离)和较大DOS的第二峰值(即较大距离)之间的间隔较长,则对于在第一和第二峰值的每一个的邻域中的文档集只执行关键字提取。然后,根据在分量轴上的位置和在该位置处的文档号对相应于所取得的每一个关键字的权进行调整。1.3.3.类别间CDOM耦合根据本发明的原理,在每个类别的记录中有可能包括内含列表(ICL)530,它包含类别的ID(在所述类别中包括该类别);和/或排他类别列表(ECL)540,它包括与该类别具有非兼容关系的类别ID。这使对于CDOM评估能够利用类别之间的内含关系和排他关系。
例如,如果在类别集14中有类别Cx(=“事故”)和Cy(=“火车出轨”),则由于在Cx中包括类别Cy,所以属于Cy的文档永远不会不属于Cx。这种情况下,类别数据集14的创作者(或操作员)便将包括性类别Cx的ID添加到所包括的类别Cy记录的ICL字段530。如此进行使下列操作成为可能。
如果在图2的评估步骤28s中已经评估类别k的样本i的CDOM为1,则系统1对通过类别ID识别的每个类别的样本i进行CDOM的评估,将它称为“基于内含关系的评估”,所述类别ID是包含在类别k到1的类别记录的ICL字段530中的。以及,递归地将基于内含关系的评估应用于类别中的每一个,对于所述类别,在最后的基于内含关系的评估中已经将CDOM设定为1。
还有,有可能,如果对于一个类别Ck样本i具有确定的CDOM值,则对于确定的另一个类别Cm样本i必须不具有相同的CDOM值,反之亦然。这种情况下,类别Ck和Cm具有不兼容的关系。类别数据集14的操作员分别将一个类别Ck或Cm的ID添加到另一个类别Cm或Ck记录的ECL字段540。如此进行使下列操作成为可能。
如果在图2的评估步骤28s中已经评估类别k的样本i的CDOM为两个值中之一,则系统1对通过类别ID识别的每个类别的样本i进行CDOM的评估,将它称为“基于不兼容关系的评估”,所述类别ID是包含在类别k到其它值的类别记录的ECL字段540中的。递归地将基于不兼容关系的评估应用于类别中的每一个,对于所述类别,在最后的基于内含关系的评估中已经将CDOM设定为其它值。1.3.4.以前CDOM值和当前CDOM值比较根据本发明的原理,DOS和CDOM计算器24保留在最后训练周期中计算的CDOM(n)值和在当前训练周期中计算的CDOM(n+1)值。这使操作员能够知道在分类参数更新之前(b)和之后(n+1)的计算结果之间的差异。
图20是示意图,示出计算结果比较屏幕的一个例子。在图20中,以实线标绘CDOM值为1的文档(即,CDOM(n)=1的的文档)的分布;并以虚线标绘CDOM值为0的文档(即,CDOM(n)=0的的文档)的分布。在参数更新之前和之后保持CDOM值为1的文档相应于标有“1→1”的图表部分和检查框。在参数更新之前和之后CDOM值已经从1变化0到的文档相应于标有“1→0”的图表部分和检查框。在参数更新之前和之后CDOM值已经从0变化到1的文档相应于标有“0→1”的图表部分和检查框。并且,在参数更新之前和之后保持CDOM值为0的文档相应于标有“0→0”的图表部分和检查框。用所需要的上述标记之一单击图表部分或检查框可以导致选择相关联的文档并使之显示在屏幕上。
该图表中,已经经受CDOM每种变化的文档(即标有1→0或0→1的文档)数目越小,分类参数的会聚程度越接近。
除了CDOM(n)值之外,保留在参数更新之前的DOS值(称之为“DOS(n)”)使之有可能显示如在图21中所示的另一个计算结果比较屏幕。图21的计算结果比较屏幕包括示出在参数更新之前的计算结果的图表(n)和示出在参数更新之后的计算结果的图表(n+1)。在两个图表中,每一实线表示所有文档的分布,每一小圆圈-连接线表示其CDOM值经过评估为1的文档分布,每一小x-连接线表示其CDOM值在最后一次训练周期经过评估为0的文档分布。
图20和21的上述比较屏幕对于决定分类阈值Tk的位置(或水平)以及终止训练的定时是有用的。1.3.5.按CDOM计算中的命中率检查参数质量图22是示出一种操作的流程图,所述操作用于通过使用在CDOM计算中的命中率使每个给定类别的参数的质量提高到预定水平。在图22中,在步骤550中,操作员对某些类别的参数训练到某种程度。在步骤522中,使当前类别为类别的一个Cr。然后,在步骤554中,系统1根据下列公式计算对于类别Cr的命中率HRr=HDNr/EDNr(9)其中,HDNr是对于类别Cr其CDOM和评估CDOM彼此相等的文档数目,而EDNr则是对于类别Cr其CDOM已经过评估的文档数目。
步骤556中,系统1进行测试来看命中率HRr是否等于或大于预设定目标-命中率THRr。如果不是,则由于认为对于类别Cr需要对参数进行更多的训练,所以在步骤558中系统1执行预定数目的训练周期,并返回步骤554。
如果在步骤556中测试结果是肯定的(YES),则由于认为对于类别Cr已经对参数进行了足够的训练,所以在步骤560中,系统1进行另一个测试,看是否已经用完类别。如果没有,则将控制传递到步骤552,如果在步骤560中已经用完类别,则系统1结束处理。
然而在步骤558中已经训练对于Cr的参数,如果可能,可以从类别集14中删除类别Cr。
如上所述,本发明的参数质量检查方案包括从所需要的训练类别集生成超-标准结果的类别,提高CDOM计算参数训练的效率,结果生成高-正确度CDOM计算参数。2.实施例II图23是示意方框图,示出根据本发明的第二实施例的示例分类参数生成系统2。在图23中,分类参数生成系统2与图1的分类参数生成系统相同,除了已经添加方差分析/加权子系统590。
根据本发明,系统2提供基于交互图表的方差分析器,用于交互地分析每个向量分量对CDOM的判定所起作用的程度。根据分析,操作员可以使用于计算CDOM的向量分量的范围变窄,并根据对CDOM判定的相应作用而对各个向量分量加权。为了这个目的,系统2提供各种信息段。
对于可能类别的每个Ck进行分析和加权。系统2首先搜索在图12的评估的CDOM表格430中的类别Ck的列,以得到评估的CDOM值为1的文档的第一子集以及评估的CDOM值为0的文档的第二子集。假定第一和第二子集分别包括N1个文档和N2个文档。由于相同地处理两个子集,所以我们只说明第一子集。通过特征向量{Dx|x=1,2,…,x,…,N1}表达第一子集N1个文档。第一子集的每个特征向量表达Dx=(ax,1,ax,2,…,ax,j,…,ax,M)。同样,将第二子集的每个特征向量表达Dy=(ay,1,ay,2,…,ay,j,…,ay,M)。
然后,系统2对于每个向量分量j(j=1,2,…,M)计算第一子集的N1文档的第j分量的平均值μ(1)j为μ(1)j=1N1·Σx=1N1ax,j---(10)]]>其中,μ(1)j的(1)表示是第一子集的平均值。
此外,系统2对于每个向量分量j计算第一子集的N1文档的第j分量的每个x(x=1,2,…,N1)的方差σ(1)j2为σ(1)j2=Σx=1N1(ax,j-μ(1)j)2---(11)]]>对于第二子集的相似计算生成 在参数训练的过程中,最好允许用户发出方差分析命令。表示响应,通过使用评估的CDOM表格430,在样本集11以及上述4个公式(10)~(12)中的特征向量Di(i=1~N),系统2对于M个向量分量的每一个计算CDOM=1的N1文档的平均值和方差,以及CDOM=0的N2文档的平均值和方差,如在图26中所示。
图24是示意图,示出方差计算结果显示屏幕570的例子。在图24中,屏幕570显示表格583和584以及图表581和582。在每个表格583或584中,按方差的升序显示成对的方差和向量分量号。表格583和图表581是用于评估的CDOM为1的文档的。表格584和图表582是用于评估的CDOM为0的文档的。每个图表的水平轴表示对于CDOM=1或0的文档的指定维数(在图24的例子中是477)的向量分量的方差。图表851和852具有附加的开关572,以致指定所需要的方差值。表格583和584具有附加的滑动开关574,以致指定所需要的分量号。屏幕570还包括向量分量号指定字段576,将它锁定到开关574。
图25是示意图,示出计算结果-显示屏幕590的另一个例子。屏幕590包括示出向量分量的分布的向量分量布局图。布局图的水平轴表示具有CDOM=1的文档的方差,所述方差是相对于指定的向量分量(在图25的例子中的第478分量)计算的。布局图的垂直轴表示具有CDOM=0的文档的方差,所述方差是相对于指定的向量分量计算的。通过光标592或数字输入字段594指定向量分量,它们是相互锁定的。示出对于CDOM=1和0的每个文档集的第j分量的方差。
从上述显示屏幕可以看到,有用的是用于方差的向量分量是较小的,以及评估的CDOM为1的文档的方差值和评估的CDOM为0的文档的方差值彼此重叠较少的。反之,要注意,导致评估的CDOM为1的文档的方差值和评估的CDOM为0的文档的方差值重叠的方差值是无效的。
还有,对于每个向量分量,系统2最好计算至少一类的权wj,如下所示。
wj=1/σ(1)j(13)wj=|μ(1)j-μ(0)j|/σ(1)j(14)wj=|μ(1)j-μ(0)j|/{σ(1)j+σ(0)j}(15)其中,σ(1)j是评估的CDOM为1的文档的第j分量的标准偏差;μ(1)j是评估的CDOM为1的文档的第j分量的平均值;而(0)表示是对于评估的CDOM为0的文档计算的量。
在表达式(13)中,只考虑对具有CDOM=1的文档的向量分量计算权。表达式(14)进一步包括具有CDOM=1的文档的平均值和具有CDOM=1的文档的平均值之间的差。表达式(15)进一步包括评估的CDOM为0的文档的分量的方差。要注意,上面介绍的权表达式只是使用平均值和/或标准偏差的可能的权表达式的3个例子。为了这个,可以使用除了上面列出的之外的任何合适的权表达式或公式。
系统2进一步对每个向量分量计算上述权,如在图26中所示。
用公式(14)计算的分量权适合于选择有效向量分量作为基准向量的准则。还有,通过公式(13)计算的分量权适合于在距离计算中使用。
在图26中,最好如此地配置包含计算的权值的最右面3列,使之对于单击敏感。特别,例如,如果操作员单击公式(14)的权值,将单击的权值放到相关联的向量分量(j),则系统2将单击的权施加到类别Ck的基准向量Ck=(ck,1,ck,2,…,ck,1,…,ck,M)的相应的分量ck,j。
通过将基准向量Ck的每一个分量乘以相应的权wi而得到加权的基准向量的计算,并对经相乘的基准向量进行归一化以致导致经相乘的基准向量的长度变成1。存储所使用的权作为分类参数的一部分。
还有,在计算文档的特征向量和给定类别的基准向量之间的距离中可以使用权。这是如此地得到的,将特征向量的每个分量乘以任何需要的权向量的相应分量,使乘以权的特征向量归一化,以致导致乘以权的特征向量的长度为1,并以通常方法计算加权的特征向量和上述加权的基准向量之间的距离。
如上所述,将较重的权加到参考的有效分量,而将较轻的0权加到无效分量能够生成高-正确度的DOS计算参数。若加权值小于图26表格中某一范围,最好用0作为加权值,替代用其本来的小加权值。
此外,分类参数生成系统1最好包括一加权调整功能。具体来说,操作员可发出一指定类别以及加权范围的预定命令。该系统1通过响应显示一表格,该表格与图26中的表格相类似,而且包含指定范围内经过加权的基准向量分量的记录。该显示屏中,操作员可自由改变各个所显示的加权值。这使得操作员能够知道那些分量经过相当大的加权、那些加权相当小,这有助于操作员根据对当前分量的加权值是否合适这一直觉判断调整所希望分量值。3.实施例III样本集11和类别集14的扩充根据本发明的第三实施例的分类参数生成系统或具有参数生成能力的文本分类器基本上与图1的系统相同,除了在本实施例中,通过如在图27中所示的操作的作用,样本选择器22具有样本集11扩充功能;以及在图2中的步骤24s和26s之间插入在图30中示出的CDOM修改过程。
在本分类参数生成系统中,允许操作员通过人工界面20发出扩充命令。表示响应,调用样本选择器22并启动图27的操作。在图27中,选择器22首先显示如在图28中所示的搜索条件输入屏幕以提示用户输入搜索条件,并在步骤600中接收操作员输入的数据。在图28中,操作员输入分类类别,例如,“程序中的故障”,以及用于搜索的关键字。如果操作员希望使用一个或多个关键字作为用于使DOS和CDOM计算器24的结果变窄的变窄条件,则他/她通过单击与每个所需要的关键字相关联的检查框而对需要的关键字作出标记。在这个特定的例子中,假定对词“故障”作出标记。
在步骤602中进行测试,看在步骤602中指定的类别是否存在于类别集14中。如果没有,则进行到步骤604,选择器22显示对这个结果的消息;询问操作员他/她是否希望将输入的类别添加到类别集14;以及根据他/她的答复,选择器22在预定的存储器存储单元中存储一个值,所述值表示是否应该将类别添加到类别集14。
然后,在步骤604中,选择器22通过使用关键字(在这个特定例子中是“故障”和“程序”)从文档集10当中检索文档,并将得到的文档添加到样本集11。在步骤608中,选择器22进行测试,看是否对任何关键字作出标记作为变窄条件。如果是,则在步骤610中,在类别数据集14的合适位置中记录作出标记的关键字,例如,“故障”,作为CDOM计算条件。图29示出存储在类别数据表格14中的变窄条件618的示例形式。在步骤612中,对是否应该将更多的文档添加到文档集11进行判定。如果是,则将控制传递到步骤600。否则,CPU结束选择器22的操作,并根据所存储的答复进行到图2的步骤220或210。特别,如果要将输入类别添加到类别集14,则将控制传递到步骤220。否则,将控制传递到步骤210。
如上所述,如果对于确定的类别扩充样本集11,以及如果给出任何关键字作为变窄条件,则保留关键字作为用于类别的变窄条件。
还要注意,本实施例的扩充功能不但可以扩充文档集11,而且还可以扩充类别集14。
在本实施例中,接着步骤24s将控制传递到步骤620,在该步骤中,CPU搜索变窄条件的样本集11,以收集和存储每个样本的统计数据。在步骤622中,CPU从统计数据确定每个样本是否在属于指定类别的样本集中,并存储确定结果作为隶属标志,当样本属于类别时,所述隶属标志取值1,当样本不属于类别时,所述隶属标志取值0。由于变窄条件,统计数据和确定方法相互有关,可以以许多方法来确定这些事件。最简单的方案是假定变窄条件是单个词;统计数据是词在每个样本中出现的次数;通过所述次数和预定阈值进行比较而确定每个样本是否属于指定类别。这个阈值可以是1,在这种情况下,统计数据可以是表示每个样本是否包括所述词的一段信息。
然后,在步骤624中,CPU用CDOM和隶属标志确定每个样本无法属于类别,并存储结果作为修改的CDOM。在该步骤中,以下面表格所定义的方法进行确定。


具体来说,给出修改的CDOM值作为在步骤24s中计算的CDOM和本实施例中的隶属标志值的逻辑和。
例如,如果将这个修改的CDOM判定规则应用于一个文档,在该文档中,通过使用词“软件(software)”代替词“程序(program)”来讨论“故障(bug)”定位,则这个文档当然在“程序”和“软件”之间有不同,但是与使用其它词相比差异不是太大,导致CDOM为1。由于隶属标志当然是1,所以修改的CDOM成为1。这相应于上述表格中的情况1。
在一种情况下,文档不包括词“故障”,但是对于其它词的出现,相似于当在文档关心软件问题而不是故障的情况中文档进行排除故障(debugging),由于通过搜索条件“故障”确定的隶属标志是0,即使CDOM是1,最终结果或修改的CDOM还是为0。这相应于上述表格中的情况2。
在一种情况中,文档包括词“故障”,所使用的词“故障”的意思是某种小虫,但是与在其它词的使用中文档关心的排除故障不同,由于已经通过使用包括“故障”和“程序”两者的文档建立分类参考,而CDOM是通过分类参考确定的,所以CDOM是0,导致修改的CDOM为0。这相应于上述表格中的情况3。
在上述表格的特定例子的情况中,可以看到,如果计算的CDOM是0,则隶属标志的值对于修改的CDOM没有影响。为了这个原因,只需在计算的CDOM为1的文档中对作出标记的关键字进行搜索。这种情况下,所搜索文档中只有包含变窄关键字“故障”的那些文档的修改的CDOM值为1。
根据本发明,通过提供搜索条件经过文档搜索,操作员可以得到对于类别的样本集。指定在搜索条件中的任何关键字导致将所指定的关键字自动地添加到CDOM计算参数作为变窄条件。
可以配置根据本实施例的分类参数生成系统,以致通过使用对于不同类别的各个搜索条件而得到对于每个类别的文档集,并且生成对于所有收集的文档集的文档的分类参数集。
在上述例子中,使用字符串。然而,可以使用任何合适的通常字符表达、著录项目数据等作为搜索条件。
还有可能配置分类参数生成系统,致使通过执行对于每个类别的相应搜索条件的多个(L)搜索而对于每个类别准备多个(L)文档集;生成分类参数的不同集,并对多个(L)文档集的每一个进行训练,并以分开的方式存储;以及在一个实际的CDOM计算中,使用从7个分类参数集计算的DOS中最大的一个DOS作为DOS。例如,可以如此地配置分类参数生成系统,以致对于类别“排除故障”保留从包括词“程序”的文档生成的分类参数集,和保留从包括词“软件”的文档生成的分类参数集,而且在实际分类中,通过使用各个参数集计算两个DOS值,并使用最大的DOS值作为计算的DOS。4.实施例IV基准向量统计变化情况上述实施例中,已经使用样本集11。这是限制在训练中使用的文档数。然而,实际上当使用现行的大的文档集时,通过使用相同的样本文档或有时是扩充的样本文档对参数进行训练,但是已经训练的参数不总是生成满意的结果。为了解决这个问题,考虑一种有用的方法,即从现行文档集选择合适数目(即,与样本集11有相同数目)的一个不同文档集,以在训练的每个周期处供训练使用。通过如此进行,可以在所有文档集上训练分类参数,而同时限制在每个训练迭代或周期中的文档数。
可以以任何合适的方法在每个训练迭代中进行不同文档集的选择。例如,可以将现行文档集分成预定数目的子集,并可以一个接一个顺序地使用子集。或从现行文档集随机地选择预定数目的文档。要注意,样本集11不是必需的;然而,事先必须对文档集10的每个文档计算特征向量。
我们讨论后面一种选择方案的情况。这种情况下,认为样本文档集(在每个周期中随机地选择的文档集)是在现行文档集的范围内变化的。相应地,从而考虑使每个类别Ck的基准向量围绕确定的中心分布。图31是示意图,示出在本实施例中的分布基准向量的概念以及基准向量和两个示例文档中的每一个文档之间的距离。为了简单起见,在图31中只考虑两维。图32示出的图表A和图表B用于说明若将确信度用作选择准则将如何选择评估目标文档。
图31中,假定类别Ck的基准向量在椭圆范围中均匀地分布。则,考虑基准向量的分布范围的中心Ck’是通过使用所有现行文档集寻找的类别的基准向量。将向量Ck’称为类别Ck的“中心向量”。点Da和Db分别表示文档A和B的特征向量。向量Da和中心向量Ck’之间的距离和向量Db和中心向量Ck’之间的距离都等于d1。在这个基准向量模型(或样本集模型)中,通过在分布范围内的区域确定文档Da属于类别Ck的概率,所述区域包含在通过Da指出的中心以及半径为dTH的一个圆中,其中,dTH是设定为类别Ck用DOM阈值的阈值距离。由于具有通过Da指出的中心以及半径为dTH的一个圆包括大部分分布范围,而具有通过Db指出的中心以及半径为dTH的一个圆只包括一半以上的分布范围,可以看到文档A属于类别Ck的概率大于文档b属于类别Ck的概率。r1和r2是中心向量Ck’分布范围的较短半径和较长半径。
图32中,图表A表示属于类别Ck的概率密度分布(由垂直轴表示)。图表B表示每一文档至中心向量Ck’的距离和处于距该向量Ck’为该距离的文档通过比较DOS和DOM阈值Tk(在特定例中=dTH)判定为属于类别Ck的文档的确信度两者之间的关系。图表A和图表B中,水平轴表示每一文档至中心向量Ck’的距离,标记为“A”和“B”的曲线分别是文档A和文档B的。图表B中,垂直轴表示上述确信度(DOC)。图表B的曲线A和曲线B是使图表B中的相应曲线A和B积分得到的。
图表B中,文档判定为属于其DOM阈值Tk为DTH的类别Ck的确信度由文档曲线和其d座标为dTH的垂直线之间交点的DOC座标所确定。若DOM阈值例如为4.5,接着由每一曲线A和B与d座标分别为0.72和0.65的4.5垂直线之间交点的DOC座标给出每一文档A(或B)判定为属于类别Ck的确信度。因此,若操作员在图7中评估样本选择屏内选择“确信度”作为选择准则,并将选择阈值设定为0.7,便对一评估目标选择文档A,不选择文档B。
注意,1减去CDOM=1的确信度等于判定该文档不属于类别Ck的确信度。
图32特定例中,概率是0.8。
分布基准向量模型能够生成正确的分类参数。本实施例中,可在图7中评估样本选择对话框264内选择确信度作为选择准则。注意,每当用式(4)计算基准向量Ck时,必须就其分布以所计算分量值为中心的基准向量的每一分量定义概率密度分布。当根据DOS和DOM阈值Tk计算CDOM时,还计算该CDOM的确信度。其他安排与第一实施例相同。5.实施例V文本分类器5.1.基本文本分类器图33是示出系统3的配置的示意方框图,所述系统3用于通过使用根据本发明生成的分类参数计算对于指定类别的给定文档的隶属分数。在图33中,系统3包括文档数据文件11a,它包括一实际文档集和相应的特征向量;类别数据文件14a,它包括一类别集和可以包括搜索条件的相应的参数;文档选择器22a;DOS(即,加权的距离)和CDOM计算器24,它与图1的DOS和CDOM计算器24相同;输出部分820;以及人工界面20。
图34是流程图,示出系统3的示例操作。如果操作员指定类别或类别ID和文档ID,则系统3的CPU开始图34的操作。在步骤800中,CPU首先进行测试,看在类别数据文件14a中与指定类别相关联的参数中是否包括任何搜索条件。如果没有,则将控制传递到步骤804。如果在步骤800中找到搜索条件,则在步骤802中,CPU在搜索条件方面搜索指定文档,看文档是否满足搜索条件。如果不满足,则在步骤810中,CPU将隶属分数设定为0。
(使用表达“隶属分数”,其意义与CDOM或隶属标志相同。)如果在步骤802中文档满足搜索条件,则在步骤804中,CPU计算DOS(例如,通过公式(8)定义的指定文档的基准向量和指定类别的基准向量之间的加权的距离)。然后,在步骤806中,CPU从DOS计算CDOM,并在步骤808中输出实际得到的隶属分数和CDOM作为结果,并终止操作。
通过执行图34的操作,对于在文档集11a中的每一个文档,得到属于指定类别的文档收集。
虽然上述文本分类器很简单,但是通过使用较好地训练的参数,它提供正确度提高的隶属分数。然而,由于文本分类器不具备参数生成和训练能力,所以文本分类器3不允许将新类别添加到类别集14a。为了解决新类别的添加,最好使文本分类器具备参数生成和训练能力。5.2.带有参数生成和训练能力的文本分类器这种类型的文本分类器的基本结构与分类参数生成系统1(图1)或2(图23)的文本分类器相同。在实际使用模式中和以§4之前部分和包括§4部分所述的方式在训练模式中,带有参数生成和训练能力的文本分类器基本上根据图34的流程图进行操作。
然而,由于提供图12的评估的CDOM表格430,所以最好利用。这是因为对于得到所需要的CDOM,表格查找操作所费的时间要比DOS和CDOM计算操作少。
图35是示出添加步骤的部分流程图,要将这些步骤添加到包括步骤804和806的流程部分,以便利用评估的CDOM表格430。在图35中,以粗线画出添加流程部分。在步骤802和804之间插入判定步骤830,在该步骤中进行测试,看在评估的CDOM表格430中是否找到对于指定类别的指定文档的评估的CDOM。如果找到,则将控制传递到步骤804。否则,将控制传递到另一个添加步骤832,在该步骤中,将找到的CDOM传递到输出部分820。
在本实施例中,表格430包含的评估的CDOM越多,CDOM计算就变得越有效。如果成功地利用文本分类器的用户的评估值,则将对增加在评估的CDOM表格430中的评估的CDOM的数目有贡献。图36是示意图,示出分类结果显示屏幕840的例子,所述分类结果显示屏幕840根据请求而显示属于用户指定的类别的文档。如在图36中所示,最好除了分类结果之外再提供消息842,鼓励用户通知分类器的管理员是否应该寻找任何文档的不相关;以及检查框844,将它附加到每个显示的文档上,要用于单击而报告不相关。
然而,这种情况下,普通用户和可信赖的用户(例如,运行文本分类器的组织的成员)最好相互区分。为了这个目的,创造性的分类器最好包括如在图37中所示的文件。特别,可以将从在有资格用户ID列表850中注册的可信赖用户来的评估报告直接反映给表430。然而,将从没有在有资格用户ID列表850中注册的普通用户来的评估报告一次存储在用户评估报告文件854中,以致以后操作员或管理员可以复查所存储的评估报告的CDOM值。用户评估报告文件854包括文档ID、类别、报告时间和日期、发送报告的用户的用户ID等。创造性的分类器进一步包括用户数据文件852,用于存储用户需要的信息。
做这些为降低不相关这种文档差错作出贡献,所述差错是当实际上CDOM应该是0时,错误地将CDOM设定为1。
可在不背离本发明的实质和范围的情况下构成本发明许多宽泛的不同实施例。应该理解,本发明不限于说明书中描述的特定实施例,而应由所附的权利要求书定义。
权利要求
1.一种参数集生成系统,用于确定给定文档是否属于多个预定类别中指定的一个类别,其特征在于,该系统包括文档集,每个文档具有识别符(ID);包含每个文档记录的文档数据集,所述记录包含所述文档的文档ID以及在预定向量空间中表示所述文档特征的特征向量;包含每个类别记录的类别数据集,所述记录包含所述类别的类别ID、类别名称以及所述参数集,所述参数包括在所述预定向量空间中表示所述类别特征的基准向量以及所述类别的阈值;用于通过用文档的所述特征向量、所述基准向量以及与所述指定类别相关联的所述阈值,对每个文档计算隶属分数的装置,所述隶属分数表示文档是否属于所述指定类别;支持操作员输入用于选择文档的各种命令参数、用于对所述选择文档评估所计算的隶属分数的装置;根据所述命令参数其中一个命令参数的输入,向所述操作员可视地显示对于文档的所述选择有用的信息的装置;用于显示所选择文档以及允许所述操作员评估每个显示的所选择文档的所述隶属分数,即对此设定一经过评估的隶属分数的评估装置;用于若对于每个所述预定类别的每个文档存在所述经过评估的隶属分数便存储所述经过评估的隶属分数的装置;以及用于通过利用所述存储装置中各个文档若有的所述经评估的隶属分数来更新所述指定类别的所述基准向量的装置,所述经计算的文档隶属分数未就所述指定类别以及所述文档数据集中包含的特征向量进行过评估。
2.如权利要求1所述的系统,其特征在于,用于计算隶属分数的所述装置包括用于计算每个文档的所述特征向量和所述指定类别的所述基准向量之间距离的装置;以及用于根据所述所计算距离和所述阈值计算所述隶属分数的装置。
3.如权利要求2所述的系统,其特征在于,所述阈值由所述距离的一可能值、所述距离的标准偏差的函数、按所述距离的升序排列的所述文档集中第一次出现的文档号以及属于所述类别的文档占全部文档的比值给出,所述比值包括百分数。
4.如权利要求2所述的系统,其特征在于,用于支持操作员的所述装置包括用于指定预定选择准则其中一个的装置;以及用于对所述所指定选择准则指定范围的装置。
5.如权利要求4所述的系统,其特征在于,所述用于指定一个选择准则的装置包括用于指定所述距离其中一个距离、按所述距离顺序排列的文档列表中一位置以及所述特征向量的分量中所希望的一个分量的装置。
6.如权利要求4所述的系统,其特征在于,所述用于指定范围的装置包括用于指定以所述阈值为中心的文档号中所希望的一个文档号、两个边界值和基于图表的规格选项的装置。
7.如权利要求5所述的系统,其特征在于,所述用于支持操作员的装置包括用于指定本该用于所述对所述距离指定范围的行值和所述行值偏差其中一个或所述特征向量的分量中所述所希望的一个分量的装置。
8.如权利要求1所述的系统,其特征在于,所述用于支持操作员的装置包括用于对未经评估的文档、所有文档以及经评估的文档中指定某一集合只应执行对所述选择文档的操作的装置。
9.如权利要求6所述的系统,其特征在于,所述用于可视地显示信息的装置包括响应对所述基于图表的说明选项的选择、用于显示文档分布图表用于使操作员能够交互指定其域按所述指定的选择准则定义的所述图表范围的装置。
10.如权利要求9所述的系统,其特征在于,所述用于显示文档分布图表的装置包括用于对表示所述范围的指示符进行显示和定位的装置;用于显示并输入确定所述范围的数字值的装置;以及用于使所述指示符和数字值的位置互锁的装置。
11.如权利要求9所述的系统,其特征在于,所述用于显示文档分布图表的装置包括用于显示其域按所述距离定义的所述文档分布图表的装置。
12.如权利要求9所述的系统,其特征在于,所述用于显示文档分布图表的装置包括用于显示其定义域按所述特征向量的分量其中一个分量定义的所述文档分布图表的装置;以及用于显示指定所述其中一个分量的装置。
13.如权利要求2所述的系统,其特征在于,所述评估装置按所计算的距离显示每一所述选定文档的记录,每个记录包括所述所计算距离、所述所确定的隶属分数、若有的话包括所述经评估的隶属分数、以及经评估的隶属分数设定列,如果存在,其中显示有所述经评估的隶属分数。
14.如权利要求13所述的系统,其特征在于,所述评估装置包括用于对全部所述选定文档的所述经评估的隶属分数设定列中的数值图进行空白设定的装置;以及用于对所述数值图的预定图选择其中一个的装置,所述预定图案包括对所述所计算隶属分数的复制、全0、全1以及清除。
15.如权利要求13所述的系统,其特征在于,所述评估装置包括用于响应对所选定文档其中一个的选择,显示包括所述文档本文在内的所述其中一个所述选定文档的具体信息的装置。
16.如权利要求5所述的系统,其特征在于,所述可视地显示信息的装置包括在所述预定选择准则是所述距离或所述特征向量的分量其中选定的一个分量的情况下可用于显示一函数选择屏幕,以允许操作员选择预定概率分布函数其中一个的装置;用于显示文档分布图表用于使操作员能够在所述图表的域中交互指定一操作员希望对其应用所述选定的概率分布函数的范围、操作员希望将所述范围分成的分段数以及操作员希望在所述范围所述分段中提取的样本总数的装置;以及用于通过响应根据所述选定概率分布函数从所述分段当中提取所述评估样本总数的装置。
17.如权利要求16所述的系统,其特征在于,所述用于显示函数选择屏幕的装置包括用于使操作员能够定义其自己分布函数的装置。
18.如权利要求9所述的系统,其特征在于,进一步包括响应操作员的预定操作用于从所述选定文档提取至少一个关键字的装置;用于显示所述至少一个关键字,并使操作员能够从所述至少一个关键字生成搜索条件的装置;以及用于进一步从所述文档集选择满足所述搜索条件的文档,以便能够对所述进一步选定的文档进行评估的装置。
19.如权利要求18所述的系统,其特征在于,所述用于提取至少一个关键字的装置包括用于在与所述用于指定所述所指定选择准则其范围的装置相同的显示屏上显示使所述预定操作成为可能的装置。
20.如权利要求18所述的系统,其特征在于,所述用于提取至少一个关键字的装置包括用于在与所述用于显示文档分布图表的装置相同的显示屏上显示使所述预定操作成为可能的装置。
21.如权利要求1所述的系统,其特征在于,进一步包括响应操作员选择所述文档集其中一个用于计算与所述集的每个其他文档的相似程度的装置;用于显示文档的第一列表和文档的第二列表,所述第一列表的文档其隶属分数按相似程度降序表示所述指定类别的非隶属关系,所述第二列表的文档其隶属分数按相似程度升序表示所述指定类别的隶属关系的装置。
22.如权利要求21所述的系统,其特征在于,所述用于计算相似程度的装置包括在与所述评估装置相同显示器上显示使用户能够选择所述所显示的选定文档其中一个的装置。
23.如权利要求21所述的系统,其特征在于,进一步包括用于对每个类别存储类别的类别ID的列表,如果评估每个类别的所述隶属分数为表示该类别隶属关系的1,则应该将所述类别的隶属分数设定为隶属分数可能值其中一个特定值的装置;以及在评估某些文档的隶属分数为1的情况中可操作,用于自动地将文档的隶属分数设定成所述特定值的装置,所述文档包含在与所述某些文档相关联的所述列表中。
24.如权利要求22所述的系统,其特征在于,所述类别数据集的每个记录包括所述隶属分数每个可能值的类别ID的列表。
25.如权利要求1所述的系统,其特征在于,进一步包括用于显示图表信息用于将所述所计算的隶属分数与先前训练周期中计算的先前隶属分数比较的装置。
26.如权利要求25所述的系统,其特征在于,所述用于显示图表信息的装置包括用于根据所述距离显示文档分布以便可知道先前和当前训练周期之间所述隶属分数变化的装置。
27.如权利要求25所述的系统,其特征在于,所述用于显示图表信息的装置包括用于分开显示根据先前计算的距离的第一文档分布图表和根据刚才计算的距离的第二文档分布图表,其中用可视区分的方式在所述第一和第二文档分布图表两者分别标绘当前隶属分数为1的属于文档和当前隶属分数为0的非属于文档的装置。
28.如权利要求1所述的系统,其特征在于,进一步包括用于计算一表示某个类别所计算的隶属分数其正确程度的数值的装置;以及用于将所述值用于对所述某个类别的所述参数的质量进行检查的装置。
29.如权利要求28所述的系统,其特征在于,所述用于计算一数值的装置包括用于通过将其所计算的隶属关系和所述经评估的隶属关系相互符合的文档其数目除以其所述某个类别的所计算的隶属关系经过评估的文档其数目来计算所述数值。
30.如权利要求1所述的系统,其特征在于,进一步包括分析装置,用于相对于指定维数、对于所述指定类别其经过评估的隶属分数为1的属于文档的特征向量的分量、以及对于所述指定类别其经过评估的隶属分数为0的不属于文档的特征向量的分量进行方差分析。
31.如权利要求30所述的系统,其特征在于,所述分析装置包括用于显示表示所述属于文档分布的第一图表和表示所述不属于文档分布的第二图表的装置,每个图表的域是分量值方差;以及用于显示并指定显示所述第一和第二图表的所述指定维数的装置。
32.如权利要求31所述的系统,其特征在于,所述分析装置包括用于显示分量布局图的装置,其中一个轴相应于所述属于文档的指定维数分量的方差,而另一个轴相应于所述不属于文档的指定维数分量的方差;用于在所述布局图上指出所需分量的指出装置;用于显示并指定通过所述指出装置指出的维数和分量数的装置;用于使所述指出装置和所述输入装置相互锁定的装置。
33.如权利要求30所述的系统,其特征在于,进一步包括响应操作员包括对类别指定在内的预定操作,用于显示数据表的装置,其中,对于每个分量给出有效性数据,表示该分量在决定属于所述类别的程度的有效性,以及根据所述有效性数据计算的至少一个权值;用于指定要加权的所需分量的装置;以及用于用所述与所希望分量相关联的至少一个加权值对所述基准向量的所述希望分量加权的装置。
34.如权利要求33所述的系统,其特征在于,所述有效性数据包括所述属于文档的所述特征向量第一平均值和第一方差,以及所述不属于文档的所述特征向量第二平均值和第二方差。
35.如权利要求33所述的系统,其特征在于,所述用于指定所需分量的装置包括可对因其所述至少一个权值小于预定值的分量进行操作、用于给予操作员一提议对所述分量应该用0作为权值的装置。
36.如权利要求1所述的系统,其特征在于,进一步包括实际使用的文档集;用于接收操作员的一搜索条件以及一类别的装置;用于利用所述搜索条件从所述实际使用的文档集检索文档,并将所述检索得到的文档加到所述文档集的装置。
37.如权利要求36所述的系统,其特征在于,所述用于接收搜索条件的装置包括用于将所述搜索条件中的关键字其中指定的一个关键字标记为窄条件的装置,所述系统进一步包括用于将所述指定关键字登记为所述类别数据集中所述类别的所述记录中所述窄条件的装置;以及用于对所述给定文档搜索所述指定关键字(窄条件)的装置;用于仅当所述所计算的隶属分数为1并且在所述给定文档中找到所述指定关键字时才将所述给定文档经修改的隶属分数设定为1的装置。
38.如权利要求36所述的系统,其特征在于,进一步包括在所述预定类别中没有找到所述所接收类别情况下可操作、用于询问操作员是否要将所述所接收类别加到所述预定类别的装置;以及响应操作员的确认答复、用于将所述所接收类别的记录加到所述类别数据集的装置。
39.如权利要求33所述的系统,其特征在于,还包括允许所述操作员直接编辑诸如基准向量分量、阈值、各种加权值等任何所述参数的装置。
40.如权利要求1所述的系统,其特征在于,还包括在所述基准向量的所述更新之前响应,用于显示其结果将在所述基准向量的所述更新之后获得以便让所述操作员复查所述分类结果的所述指定类别的分类结果的装置。
41.如权利要求34所述的系统,其特征在于,所述至少一个加权值根据至少所述第一方差计算得到。
42.如权利要求41所述的系统,其特征在于,所述第一平均值和所述第二平均值还用于对所述至少一个加权值的计算。
43.如权利要求33所述的系统,其特征在于,进一步包括响应包括对类别的指定以及加权范围在内的预定命令,用于显示一加权数据表的装置,该加权数据表仅包含在所述范围内进行相应加权的分量的记录,每一记录包括表示分量在决定对所述类别的属于程度方面有效性的有效数据和对该分量所加的加权值;以及用于使操作能够自由改变所述加权值的装置。
44.一种参数集生成系统,用于用户确定给定文档是否属于多个预定类别中指定的一个类别,其特征在于,该系统包括实际使用的文档集,每个文档具有一识别符(ID);包含每个文档记录的文档数据集,所述记录包含所述文档的文档ID以及在预定向量空间中表示所述文档特征的特征向量;用于每个训练周期中从所述实际使用的文档集当中随机选择合适数量的文档的装置;包含每个类别记录的类别数据集,所述记录包含所述类别的类别ID、类别名称以及所述参数集,所述参数包括表示所述预定向量空间中所述类别特征的中心向量、所述中心向量分布的数据表示以及用于确定文档是否属于该类别的阈值;用于通过用文档的特征向量、所述指定类别的中心向量以及对所述类别的阈值,对每个文档计算隶属分数的装置,所述隶属分数表示文档是否属于所述指定类别;支持操作员输入用于选择文档的各种命令参数、用于对所述选择文档评估所计算的隶属分数的装置;根据所述命令参数其中一个命令参数的输入,向所述操作员可视地显示对于文档的所述选择有用的信息的装置;用于显示所选择文档以及允许所述操作员评估每个显示的所选择文档的所述隶属分数,即对此设定一经过评估的隶属分数的评估装置;用于若对于每个所述预定类别的每个文档存在所述经过评估的隶属分数便存储所述经过评估的隶属分数的装置;用于通过利用所述存储装置中各个文档若有的所述经评估的隶属分数来更新所述指定类别的所述基准向量的装置,所述经计算的文档隶属分数未就所述指定类别以及所述文档数据集中包含的特征向量进行过评估;以及用于沿其分布以所计算的分量值为中心的基准向量的每一分量定义概率密度分布的装置。
45.如权利要求44所述的系统,其特征在于,用于计算隶属分数的所述装置包括用于计算每个文档的所述特征向量和所述指定类别的所述基准向量之间距离的装置;以及用于根据所述所计算距离和所述阈值计算所述隶属分数的装置;以及用于根据所述概率密度分布和所述阈值计算所述所计算的隶属分数的确信度的装置。
46.如权利要求45所述的系统,其特征在于,所述阈值作为所述距离的一可能值、所述距离的标准偏差的一可能值、按所述距离的顺序排列的文档列表中第一文档数以及属于所述类别的文档占全部文档的比值给出,所述比值包括百分数。
47.如权利要求44所述的系统,其特征在于,所述用于支持操作员的装置包括用于指定预定选择准则其中一个的装置;以及用于对所述所指定选择准则指定范围的装置。
48.如权利要求47所述的系统,其特征在于,所述用于指定一个选择准则的装置包括用于指定所述距离其中一个距离、按所述距离顺序排列的文档列表中一位置、所述特征向量的分量中所希望的一个分量以及所述确信度的装置。
49.一种具有参数训练能力用于确定给定文档是否属于多个预定类别中指定的一个类别的系统,其特征在于,该系统包括文档集,每个文档具有识别符(ID);包含每个文档记录的文档数据集,所述记录包含所述文档的文档ID以及在预定向量空间中表示所述文档特征的特征向量;包含每个类别记录的类别数据集,所述记录包含所述类别的类别ID、类别名称以及所述参数集,所述参数包括在所述预定向量空间中表示所述类别特征的基准向量以及对所述类别确定的阈值;用于通过用文档的特征向量、所述指定类别的基准向量以及对所述类别设定的阈值,对所传递的文档计算隶属分数的装置,所述隶属分数表示所传递的文档是否属于所述指定类别;支持操作员输入用于选择文档的各种命令参数、用于对所述选择文档评估所计算的隶属分数的装置;根据所述命令参数其中一个命令参数的输入,向所述操作员可视地显示对于文档的所述选择有用的信息的装置;用于显示所选择文档以及允许所述操作员评估每个显示的所选择文档的所述隶属分数,即对此设定一经过评估的隶属分数的评估装置;用于若对于每个所述预定类别的每个文档存在所述经过评估的隶属分数便存储所述经过评估的隶属分数的装置;以及用于通过利用所述存储装置中各个文档若有的所述经评估的隶属分数来更新所述指定类别的所述基准向量的装置,所述经计算的文档隶属分数未就所述指定类别以及所述文档数据集中包含的特征向量进行过评估。
50.如权利要求49所述的系统,其特征在于,进一步包括响应所述存储所述经评估的隶属分数的装置中找到所述指定类别的所述给定文档的经评估隶属分数这种判定,用于提供所述找到的经评估隶属分数作为输出的装置;用于仅当所述存储所述经评估的隶属分数的装置中没有找到所述类别的所述给定文档的经评估隶属分数时,才使所述给定文档传递至所述计算隶属分数的装置。
51.一种参数集生成方法,用于确定给定文档是否属于多个预定类别中指定的一个类别,其特征在于,该方法包括下列步骤准备一文档集,每个文档具有识别符(ID);准备一包含每个文档记录的文档数据集,所述记录包含所述文档的文档ID以及在预定向量空间中表示所述文档特征的特征向量;准备一包含每个类别记录的类别数据集,所述记录包含所述类别的类别ID、类别名称以及所述参数集,所述参数包括在所述预定向量空间中表示所述类别特征的基准向量以及对所述类别确定的阈值;通过用文档的特征向量、所述指定类别的基准向量以及对所述类别设定的阈值,对每个文档计算隶属分数,所述隶属分数表示文档是否属于所述指定类别;支持操作员输入用于选择文档的各种命令参数、用于对所述选择文档评估所计算的隶属分数;根据所述命令参数其中一个命令参数的输入,向所述操作员可视地显示对于文档的所述选择有用的信息;显示所选择文档以及允许所述操作员输入一评估值至每个显示的所选择文档;以及将所述所输入的评估值反映到所述指定类别的所述基准向量。
全文摘要
一种参数集生成方法及系统,用于确定给定文档是否属于多个预定类别中指定的一个类别。评估样本选择屏使操作员能够交互输入用于选择要对所计算隶属分数进行评估的文档的各种命令参数。响应命令参数其中一个的输入,将对文档选择有用的信息以可视方式显示给操作员。评估值输入屏示出所选择文档,并允许操作员对每个显示的所选择文档输入一评估值。所输入的评估值反映给指定类别的基准向量。
文档编号G06F3/048GK1363899SQ01145408
公开日2002年8月14日 申请日期2001年12月28日 优先权日2000年12月28日
发明者福重贵雄, 菅野祐司, 饭冢泰树, 玉利公一 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1