指数模型的自适应的制作方法

文档序号:6628264阅读:232来源:国知局
专利名称:指数模型的自适应的制作方法
技术领域
本发明涉及指数模型,尤其涉及使指数模型适应特定数据。
背景技术
指数概率模型包括诸如最大熵模型和条件随机场(CRF)模型等模型。在最大熵模型中,常见的是具有一组特征,它们是当特征在数据集中存在时具有值1,而当特征不存在时具有值0的指示函数。对特征的加权和取指数并归一化以形成最大熵概率。
通常,最大熵模型的权值在大训练数据集上训练。为避免过训练权值(模型),现有技术的至少一种技术应用平滑来为未看见的数据保存概率质量。
尽管使用大训练数据集令最大熵模型在大输入数据集上是有用的,然而它也产生了不对特定类型的输入数据最优的最大熵模型。
由此,期望的是能够使在大训练数据集上训练的最大熵模型适应特定的期望数据集,使得它们可用该期望数据来更好地执行。

发明内容
提供了用于适应指数概率模型的方法和装置。在第一阶段,通过基于一组背景数据为概率模型确定一组模型参数,从背景数据构建通用背景模型。然后使用背景模型参数来为尤其适合感兴趣的适应数据集的已适应概率模型的参数定义先验模型。适应数据集一般在大小上比背景数据集更小。然后基于该适应数据集和先验模型为已适应的概率模型确定第二组模型参数。


图1是其中可实施本发明的一个计算环境的框图。
图2是其中可实施本发明的一个替换计算环境的框图。
图3是识别文本串中的单词的大写化的方法的流程图。
图4是在本发明的一个实施例中适应最大熵模型的方法的流程图。
图5是在本发明的一个实施例中用于适应最大熵模型的元件的框图。
具体实施例方式
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有任何依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。
本发明可以在诸如由网络环境中的计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本发明被设计成在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机存储介质中。
参考图1,用于实现本发明的示例性系统包括计算机110形式的通用计算装置。计算机110的组件包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任一可用介质,包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失性和非易失性,可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它介质。通信介质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、红外和其它无线介质。上述任一的组合也应当包括在计算机可读介质的范围之内。
系统存储器130包括以易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作示例,图1示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器141、对可移动、非易失性磁盘152进行读写的磁盘驱动器151以及对可移动、非易失性光盘156,如CD ROM或其它光介质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
上文讨论并在图1示出的驱动器及其关联的计算机存储介质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162和定点设备161(通常指鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也可包括其它外围输出设备,如扬声器197和打印机196,它们通过输出外围接口195连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有相对于计算机110所描述的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,这里示出作为示例而非局限。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时,计算机110可包括调制解调器172或用于通过WAN 173,如因特网建立通信的其它装置。调制解调器172可以是内置或外置的,通过用户输入接口160或其它适当的机制连接至系统总线121。在网络化环境中,相对于计算机110所描述的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
图2是移动设备200的框图,它是一个示例性计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备通信的通信接口208。在一个实施例中,上述组件被耦合在一起用于通过合适的总线210彼此通信。
存储器204被实现为非易失性电子存储器,如具有电池备份模块(未示出)的随机存取存储器(RAM),使得当关闭移动设备200的总电源时,储存在存储器204中的信息也不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器,而存储器204的另一部分较佳地用于存储,如模拟盘驱动器上的存储。
存储器204包括操作系统212、应用程序214以及对象存储216。在操作期间,操作系统212较佳地由处理器202从存储器204执行。在一个较佳实施例中,操作系统212是可从微软公司购买的WINDOWSCE品牌的操作系统。操作系统212较佳地被设计成用于移动设备,并实现可由应用程序214通过一组展现的应用编程接口和方法来使用的数据库特征。对象存储216中的对象由应用程序214和操作系统212至少部分地响应于对所展现的应用编程接口和方法的调用来维护。
通信接口208表示允许移动设备200发送和接收信息的众多设备和技术。仅举几个例子,设备包括有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200也可直接耦合到计算机以与其交换数据。在这些情况下,通信接口208可以是红外收发器或串行或并行通信连接,它们所有都能够发送流信息。
输入/输出组件206包括各种输入设备,如触敏屏幕、按钮、滚轴和麦克风,以及各种输出设备,包括音频发生器、振动装置和显示屏。以上列出的设备作为示例,并不需要都在移动设备200上存在。另外,在本发明的范围内,其它输入/输出设备可被附加到移动设备200,或与移动设备200一起建造。
本发明解决了将句子的大写识别为序列标记问题的问题,其中,向单词序列分配指示要应用于单词的大写的类型或形式的大写标签序列。在一个实施例中,可能的大写标签包括LOC小写CAP大写MXC混合大小写;对于这类单词的大写不作进一步的猜测。一种可能性是使用训练数据中遇到的最频繁的那一个。
AUC所有大写PNC标点基于这一方法,本发明的一个实施例构造了一种马尔可夫模型,它向给定单词序列W=w1...wn的任一可能的标签序列T=t1...tn=T1n分配一概率p(T|W)。在一个实施例中,这一概率被确定为P(T|W)=Πi-1nP(ti|x‾i(W,T1i-1))]]>公式1其中,ti是对应于单词i的标签,而xi(W,T1i-1)是在其上构建概率模型的单词序列中的位置i处的条件或上下文信息。
在一个实施例中,上下文信息是可从单词序列中的前一单词、当前单词和下一单词以及先前的两个大写标签中确定的信息。由这些值提供的信息不仅包括单词和标签本身,还包括每一单词的各部分,以及从单词形成的二字母组和三字母组,和从标签形成的二字母组。
在本发明的一个实施例中,概率 使用最大熵模型来建模。该模型使用特征,它们是以下类型的指示函数 公式2其中,y替换ti使用,而x表示上下文信息 尽管特征被示出为具有值0或1,然而在其它实施例中,特征可以是任何实数值。
假定其基数为F一组特征F,概率分配依照以下公式作出pΛ(y|x‾)=Z-1(x‾,Λ)·exp[Σi=1Fλifi(x‾,y)]]]>公式3Z(x‾,Λ)=Σyexp[Σi=1Fλifi(x‾,y)]]]>公式4其中,Λ={λ1...λF}∈RF是实值模型参数集。由此,最大熵模型通过对指示函数的加权和取指数来计算。
图3提供了用于训练并使用最大熵概率来识别文本串的大写化的方法的流程图。在步骤300,从预定特征集中选择特征。这一选择使用简单的计数截止算法来执行,该算法对训练语料库中的每一特征的出现次数进行计数。其计数小于预先指定的阈值的那些特征被丢弃。这减少了必须训练的参数的数量。可任选地,通过将阈值设为0来保持预定集中的所有特征是可能的。
在步骤302,估算最大熵模型的权值。在一个实施例中,估算模型参数Λ={λ1...λF}∈RF,使得该模型向服从以零为中心的确保平滑的高斯先验的训练数据集分配最大对数似然函数。在其它实施例中,可使用不同的先验分布来平滑,如指数先验。在使用改进的迭代缩放来确定模型参数的一个实施例中,这导致对每一λ更新公式λi(t+1)=λi(t)+δi]]>公式5其中,δi满足
Σx‾,yp~(x‾,y)fi(x‾,y)-λiσi2=δiσi2+]]>Σx‾,yp~(x‾)pΛ(y|x‾)fi(x‾,y)exp(δif#(x‾,y))]]>公式6其中,f#(x,y)是触发事件x,y的特征的和。在公式6中, 是训练数据中上下文x和输出或标签y的共同出现的相对频率, 是训练数据中上下文的相对频率,而σi2是零均值高斯先验的方差。
尽管示出了用于改进的迭代缩放估算技术的更新公式,然而可使用其它技术通过最大化对数似然函数来估算模型参数,如广义迭代缩放、快速迭代缩放、梯度上升变体或任一其它已知的估算技术。
一旦已训练了最大熵模型的权值,在步骤304接收要大写化的文本串。在步骤306,使用训练的最大熵权值来找出用于文本串中的单词序列的大写形式序列,它最大化了条件概率的P(T|W)。最大化这一概率的大写序列被选中作为用于文本串的大写化。
对最大化条件概率的标签序列的搜索可使用任何可接受的搜索技术来执行。例如,可通过将串中的每一单词的可能大写形式表示为网格结构来执行维特比(Viterbi)搜索。在每一单词处,对从前一单词的大写形式到每一大写形式的每一可能路径确定得分。当计算这些得分时,从沿该路径找到的大写形式中取出在最大熵特征中使用的过去的大写形式。提供最高得分的成为大写形式的路径被选中作为该大写形式的路径。然后使用为当前单词的该大写形式确定的概率更新该路径的得分。在最后一个单词处,选择具有最高得分的路径,然后使用沿该路径的大写形式序列作为该单词序列的大写形式。
尽管上文使用了最大熵模型,然而在本发明的其它实施例中,可使用利用指数概率的其它模型来确定条件概率。例如,可使用条件随机场(CRF)。
在本发明的某些实施例中,在大背景数据集上训练最大熵模型,然后使其适应较小的特定数据集,使得该模型用较小的特定数据集中找到的类型的数据能够执行良好。图4提供了在本发明中使用最大熵模型的方法的流程图,图5提供了用于适应最大熵模型的元件的框图。
在步骤400,选择特征阈值计数。在步骤401,这一阈值计数由训练器502使用来基于背景训练数据504选择一组特征500。在一个实施例中,这涉及每次当在背景训练数据504中的一组预定特征506的每一个时对次数进行计数,然后仅选择出现次数比由阈值计数所表示的次数多的那些特征。
在步骤402,从一组可能的方差508中对每一权值选择先验高斯模型的方差。在步骤404,训练器502训练基于背景训练数据504训练的最大熵模型的权值,同时通过上述公式5和6使用平滑和所选择的方差。
注意,在上文的公式5和6中,使用了一种改进的迭代缩放技术来估算最大化对数似然函数的权值。步骤404不限于这一估算技术,也可使用其它估算技术,如广义迭代缩放、快速迭代缩放、梯度上升或任何其它估算技术来识别权值。
在步骤406,训练器502确定在方差组508中是否还有方差应当被评估。在本发明中,使用对每一组权值使用不同的方差组来训练多组权值。如果在步骤406还有方差组需要被评估,则过程返回到步骤402,并且在步骤404对该组方差训练一组权值之前选择一组新的方差。重复步骤402、404和406,直到不再有方差组要被评估。
当在步骤406不再有方差组要被评估时,过程在步骤407确定是否还有阈值计数要被评估。如果还有阈值计数,则在步骤400选择一新的阈值计数,然后对该新的阈值计数重复步骤401、402、404和406。通过使用不同的阈值计数,使用不同的特征集来构造不同的最大熵模型。
当在步骤407没有阈值计数要被评估时,产生了一组可能的模型510,其每一个具有其自己的权值组。选择单元512然后在步骤408选择提供背景开发数据514上的最佳大写准确性的模型。所选择的模型形成初始背景模型516。
在步骤409,再一次选择特征阈值计数,并且在步骤410,对一组适应训练数据518重复特征选择过程,以产生适应特征520。这可导致相同的组,虽然一般它将产生来自在步骤400所选择的那些的特征的超集。
在步骤412,再一次从方差集合508中为先验模型选择一组方差。使用所选择的一组方差、适应训练数据518和初始背景模型516的权值,自适应单元522在步骤414训练一组已适应的权值。在一个实施例中,权值的先验分布被模型化为高斯分布,使得自适应训练数据的对数似然函数变为L(Λ)=Σx‾,yp~(x‾,y)logpΛ(y|x‾)-Σi-1F(λi-λi0)22σi2+const(Λ)]]>公式7其中,公式7右边的第二项中的求和 表示给定具有等于初始背景模型516中的权值的均值以及在步骤412选择的方差的高斯先验时值的权值的概率。第二项中的求和被从通过在步骤400的特征选择步骤形成的所选择的特征500与通过步骤410的特征选择过程形成的自适应特征520的并操作中形成的所有特征取代。对于背景数据中不存在的特征,将先验均值设为0。在其它实施例中,不执行步骤409和410,并且在公式7中使用从背景数据识别的相同特征来适应该模型。
使用该先验模型以及改进的迭代缩放技术,用于在步骤414训练已适应权值的更新公式变为λit+1=λit+δi]]>公式8其中,δi满足Σx‾,yp~(x‾,y)fi(x‾,y)-(λi-λi0)σi2=δiσi2+]]>Σx‾,yp~(x‾)pΛ(y|x‾)fi(x‾,y)exp(δif#(x‾,y))]]>公式9其中, 是自适应训练数据518中上下文x和输出或标签y的共同出现的相对频率,而 是适应训练数据518中上下文的相对频率。
先验概率的效果是保持模型参数λi接近于从背景数据生成的模型参数。从初始模型参数中离开的成本由方差σi的量来指定,使得小方差将保持模型参数接近于初始模型参数,而大方差将令正则化的对数似然函数对初始模型参数不敏感,从而允许模型参数更好地符合自适应数据。
在特征不存在于自适应训练数据518而存在于背景训练数据504中的情况下,仍在步骤414更新该特征的权值。
在步骤416,该方法确定是否还有方差组要被评估。如果还有方差组要被评估,则过程返回到步骤412,并且选择一组新的方差。然后在步骤414使用该组新的方差和初始背景模型516的权值来适应另一权值组。重复步骤412、414和416,直到没有方差要被评估。
当在步骤416没有方差组要被评估时,该过程在步骤417确定是否还有特征阈值计数要被评估。如果还有特征计数,则在步骤409选择新的特征计数,并对新的阈值计数重复步骤410、412、414和416。
步骤412、414和416产生了一组可能的已适应模型524。在步骤418,使用公式7提供了自适应开发数据集526的最高对数似然函数的已自适应模型由选择单元528选中,作为最终的已自适应模型530。
尽管在以上描述中,在公式7的对数似然函数确定中使用了高斯先验分布,然而本领域的技术人员将认识到,可使用其它形式的先验分布。特别地,可使用指数先验概率来替代高斯先验。
尽管上文参考大写化讨论的自适应算法,然而它可以应用到使用最大熵模型的任何分类问题,诸如用于垃圾邮件过滤和语言建模的文本分类。
通过允许使模型权值自适应小的自适应数据集,对最大熵模型训练初始模型参数,并将那些模型参数放置在发货或发送给顾客的产品中是可能的。顾客然后可在顾客的系统中的特定数据上自适应最大熵模型。例如,顾客可具有诸如科学杂志文章等特定类型的文本的示例。使用本自适应算法中的这些项目,顾客能够自适应最大熵模型参数,因此它们能用科学杂志文章来更好地操作。
尽管参考特定实施例描述了本发明,然而本领域的技术人员将认识到,可以在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。
权利要求
1.一种形成已自适应的指数概率模型的方法,所述方法包括基于一背景数据集为背景概率模型确定一组模型参数;使用所述模型参数来为已自适应的概率模型的模型参数定义先验模型;以及基于一自适应数据集和所述先验模型为所述已自适应的概率模型确定第二组模型参数。
2.如权利要求1所述的方法,其特征在于,基于一背景数据集为所述背景概率模型确定一组模型参数包括选择为所述背景数据集提供最大似然函数的模型参数。
3.如权利要求2所述的方法,其特征在于,基于一背景数据集为所述背景概率模型确定一组模型数据还包括选择为服从平滑条件的背景数据集提供最大似然函数的模型参数。
4.如权利要求3所述的方法,其特征在于,所述平滑条件包括每一模型参数的先验概率。
5.如权利要求4所述的方法,其特征在于,所述平滑条件包括对每一模型参数具有零均值的先验概率。
6.如权利要求1所述的方法,其特征在于,使用所述模型参数来定义先验模型包括定义高斯先验模型。
7.如权利要求1所述的方法,其特征在于,使用所述模型参数来定义先验模型包括定义指数先验模型。
8.如权利要求1所述的方法,其特征在于,确定第二组模型参数包括选择最大化服从先验模型的自适应数据的似然函数的一组模型参数。
9.如权利要求1所述的方法,其特征在于,所述已自适应的概率模型是特征的加权和的指数函数。
10.如权利要求9所述的方法,其特征在于,还包括从所述背景数据中识别一特征集。
11.如权利要求10所述的方法,其特征在于,还包括从所述自适应数据中识别一特征集。
12.如权利要求11所述的方法,其特征在于,确定第二组模型参数包括使用来自所述背景数据的特征集和来自所述自适应数据的特征集。
13.如权利要求1所述的方法,其特征在于,所述指数概率模型包括最大熵模型。
14.如权利要求1所述的方法,其特征在于,所述指数概率模型包括对数线性模型。
15.如权利要求1所述的方法,其特征在于,所述指数概率模型包括特征的指数加权和,它被归一化使得它提供正确的概率分配。
16.一种具有用于执行以下步骤的计算机可执行指令的计算机可读介质确定最大化背景数据集的似然函数的一组初始权值,其中,所述似然函数基于指数概率模型;以及确定最大化自适应数据集的似然函数一组已自适应权值,其中,所述似然函数基于第二指数概率模型以及从所述初始权值组形成的先验模型。
17.如权利要求16所述的计算机可读介质,其特征在于,所述先验模型包括高斯模型。
18.如权利要求16所述的计算机可读介质,其特征在于,所述先验模型包括指数模型。
19.如权利要求16所述的计算机可读介质,其特征在于,所述指数概率模型使用特征集的加权和。
20.如权利要求19所述的计算机可读介质,其特征在于,所述第二指数概率模型使用第二特征集的加权和。
21.如权利要求20所述的计算机可读介质,其特征在于,所述特征集从所述背景数据中确定。
22.如权利要求21所述的计算机可读介质,其特征在于,所述第二特征集从所述背景数据和所述自适应数据中确定。
23.一种自适应概率模型的方法,所述方法包括从初始数据集中识别第一特征集;使用所述第一特征集来选择最大化所述初始数据集的初始模型参数组;从所述初始数据集和第二数据集中识别第二特征集;使用所述第二特征集来选择最大化所述第二数据集的似然函数的已自适应模型参数组,其中,所述似然函数部分地基于所述初始模型参数组。
24.如权利要求23所述的方法,其特征在于,还包括使用所述初始模型参数组来形成先验模型,并在确定所述第二数据集的似然函数时使用所述先验模型。
全文摘要
提供了一种用于自适应指数概率模型的方法和装置。在第一阶段,通过基于一背景数据集为概率模型确定一组模型参数来从背景数据构建通用背景模型。该背景模型参数然后用于为尤其对感兴趣的自适应数据集自适应的概率模型的参数定义一先验模型。该自适应数据集一般在大小上比背景数据集要小得多。然后基于该自适应数据集和先验模型为已自适应的概率模型确定第二组模型参数。
文档编号G06F17/21GK1725212SQ20051008235
公开日2006年1月25日 申请日期2005年6月21日 优先权日2004年7月21日
发明者A·阿塞罗, C·I·切尔巴 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1