自动检测文件中搭配错误的系统和方法

文档序号:6369236阅读:213来源:国知局
专利名称:自动检测文件中搭配错误的系统和方法
背景技术
本发明涉及机助写作系统和方法,特别涉及帮助用非本国语言写作的用户的系统和方法。
随着全球经济的不断增长和国际因特网迅速发展,世界各国人民越来越熟悉用非本国语言进行写作。令人遗憾的是,对文化和写作风格具有很大差异的的某些朋友来说,用某些非本国语言进行写作的能力是一直存在的缺陷。当用非本国语言(如英语)进行写作时,讲非本国语言的人(例如,讲中文、日语、朝鲜语和其它语言的人)常常会犯语言使用的错误。这种错误可以包括语法错误和不当搭配如动宾搭配、形容词名词搭配、副词动词搭配等的错误。
许多人具有能用正确语法使用非本国语言进行写作的能力,但是他们仍然可能与两词间的搭配的错误作斗争。其它人仍然要与语法错误和诸如两词间搭配的其它错误作斗争。虽然拼写校对和语法校对程序和系统对纠正语法错误是有用的,但是检测和/或纠正词间搭配错误会是困难的,尤其是这些困难可以是在语法上是正确的情况下。因此,语法检验程序通常对检测词间搭配错误只能提供很少的帮助,如果能的话,也是检测涉及词间搭配错误。在下面的讨论中,英语作为非本国语言的例子,但这些问题也会出现在其它语言中。
举例来说,考虑以下句子,其包含搭配错误,从而造成该句子即使在语法上正确也不是标准英语的状况。
1.Open the light(开灯)。
2.Everybody hates the crowded traffic on weekends(每个人讨厌周末的拥挤交通)。
3.This is a check of US $ 500(这是500美元的支票)。
4.I congratulate you for your success(我对您的成功表示祝贺)。
这些句子的标准英语应该如下1.Turn on light.
2.Everybody hates the heavy traffic on weekends.
3.This is a check for US $ 500.
4.I congratulate you on your success.
作为讲非本土英语的人所面临的困难的例子,我们来考虑中国用户的境况。由于文化、背景和思维习惯的原因,中国人常常写出符合语法但不是标准的英语句子。例如,中国人会把中文的主语直接翻译成英文的主语,并以同样的方法处理宾语和动词。当用英语写作时,中国人在处理动词和介词、形容词和名词、动词和名词等之间的搭配时,常常会有困难。而且,在特殊领域如商业领域,需要专门的写作技巧和风格。
普通辞典主要用来给非本国语言说话人作阅读之用(一种译码过程),但是这些辞典不能对写作提供足够的支持(一种编码过程)。它们只提供一单词的解释,而它们通常不提供解释相关词组和搭配的足够信息。而且,即使这些辞典提供了某些信息,也没有简便的方法来得到这种信息。另一方面,目前广泛使用的语法检验工具局限于检测容易发生的语法错误,但不能检测搭配的错误。
尽管上述问题是结合讲本土中文的人进行英文写作来说的,但是,这些问题,对用第一(非本国)语言进行写作,而讲第二(本国)语言的人来说,是共有的。针对这些问题,用来帮助讲非本国语言人没有搭配错误地准备文件的系统和方法,在这个领域将是一个很大的进步。进一步来说,供这种系统和方法使用的一种构筑搭配错误模式或样板的数据库的改良方法,也是个很大的进步。
发明概述本发明提供了一种可供应用第一种语言进行写作、但其本国语言为第二种语言的人使用的语言搭配错误模式数据库的构筑方法和计算机可读媒体。该方法包括获得一由第一语言句子和第二语言句子组成的双语语言资料库,从该语言资料库的第二语言句子中提取第二语言词对。对从语言资料库中提取的每个第二语言词对,从语言资料库中相应第一语言句子中提取相应的第一语言词对,为第二语言词对确定一正确的第一语言译文。同样,对从语言资料库中提取的每个第二语言词对,建立一组与第二语言词对相应的、由第一语言翻译词构成的组合。最后,对从语言资料库中提取的每个第二语言词对,从由第一语言翻译词构成的组合中去除正确的第一语言译文,使得该组合代表与第二语言词对相应的一组搭配错误的第一语言词对。
附图的简要说明

图1是可以实施本发明的一种计算环境的方框图。
图2是可以实施本发明的另一种计算环境的方框图。
图3是用于纠正搭配错误的错误模式或样板数据库的构筑方法的流程图。
图4是说明词调整的数据流程图。
图5是用来构筑搭配错误模式或样板数据库的一系统的方框图。
图6是用按照本发明建造的错误模式或样板数据库来纠正搭配错误的一系统的方框图。
实施例的详细说明本发明直接有关检测非本国语言人进行非本国语言写作时经常出现的典型语言用法错误的系统和方法。本发明包括用于此过程的构筑搭配错误数据库的系统和方法。本发明是结合其本国语言不是英语(如中文、日语、朝鲜语等),但用英语进行写作的人来介绍的。但是,本发明可应用于其它语言范围中所遇到的类似问题。这些错误包括诸如动词和宾语、形容词和名词、副词和动词等的不当搭配的使用。与在字处理系统中广泛使用的拼写校验和语法校验不同,本发明旨在检测两词间的搭配错误。这些错误可以是语法的,也可以是非语法的。
图1表示可以实施本发明的一合适的计算系统环境100的例子。该计算系统环境100仅是合适计算环境的一个例子,并不是用来限制本发明的使用范围或功能。也不能把计算环境100解释为对例示的操作环境100中任何组件或其组合有依赖关系或要求。
本发明可与许多其它通用或专用计算系统环境或配置一起运行。适用于本发明的众所周知的计算系统、环境和/或配置的例子,包括但不局限于个人计算机、服务器计算机、手持设备或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子品、网络PC、小型机、大型机、电话系统、包括上述系统和设备之一的分布式计算环境和类似的计算机。
本发明可以在计算机可执行指令诸如由计算机执行的程序模块的一般情况下进行描述。程序模块通常包括例行程序、程序、目标、组件、数据结构等,可执行特殊任务或实现特别抽象数据类型。本发明也可在分布式计算环境中实施,在该环境中,任务是由通过一通信网络与之相连的远程处理装置来执行的。在分布式计算环境中,程序模块可以设置在包括存储器存储装置在内的本地和远程的存储介质中。
参考图1,实施本发明的一示例系统包括以计算机110方式的通用计算装置。计算机110的组件可包括,但不局限于,处理单元120,系统存储器130,把各种系统组件包括系统存储器至处理单元120相连的系统总线121。该系统总线121可以是几种总线结构中的一种,包括存储器总线或存储器控制器,外围总线和使用多种总线结构中一种总线结构的本地总线。作为例子但不局限于此,这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强ISA(EISA)总线、视频电子产品标准协会(VESA)本地总线和被称为曼赞宁总线的外围部件互连(PCI)总线。
计算机110通常包括各种计算机可读媒体。计算机可读媒体可以是由计算机110存取的任何现有媒体,包括任何易失和非易失媒体,可擦除和不可擦除媒体。作为例子,但不局限于此,计算机可读媒体可包括计算机存储媒体和通信媒体。计算机存储媒体包括用任何方法或信息存储技术如计算机可读指令、数据结构、程序模块和其它数据可实现的任何易失和非易失媒体,可擦除和不可擦除媒体。计算机存储媒体包括,但不局限于此,RAM、ROM、EEPROM、快速存储器或其它存储技术、CD-ROM、数字通用磁盘(DVD)或其它光盘存储器、盒式磁带、磁带、磁盘存储器或其它磁性存储装置、或者其它可用来存储所需信息并可用计算机110存取的任何其它媒体。通信媒体通常包括计算机可读指令、数据结构、程序模块或其它以调制数据信号如载波或其它运载机制形式表示的数据,并包括任何信息传送媒体。所谓“经调制的数据信号”,指其一种或多种特性被设置或改变成可在信号中编码的信号。作为例子,但不局限于此,通信媒体包括有线媒体,例如有线网络或直接有线网络连接,和无线媒体,例如声的、射频的、红外的和其它无线媒体。所述的任何结合也应包括在计算机可读媒体的范围中。
系统存储器130包括以易失和/或非易失存储器方式的计算机存储媒体,如只读存储器(ROM)131和随机存取存储器(RAM)132。一基本输入/输出系统133(BIOS)包含可帮助在计算机110内部件间如在启动时传递信息的基本例行程序,通常储存在ROM 131中。RAM 132通常包含可即时对其存取和/或用处理单元120在其上面进行操作的数据模块和/或程序模块。作为例子,但不局限于此,图1用图说明操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可擦除/不可擦除、易失/非易失的计算机存储媒体。仅作为例子,图1示出了可对不可擦除、非易失磁性媒体进行读写的硬盘驱动器141、可对可擦除、非易失磁盘152进行读写的磁盘驱动器151和可对可擦除、非易失光盘156如CD ROM或其它光存储媒体进行读写的光盘驱动器155。其它可用于所示操作环境的可擦除/不可擦除、易失/非易失的计算机存储媒体包括,但不局限于此,盒式磁带、快速存储卡、数字多用途光盘、数据视频带、固态RAM、固态ROM等,或类似的计算机存储媒体。硬盘驱动器141通常,通过一不可擦除存储器接口如接口140,与系统总线121相连,磁盘驱动器151和光盘驱动器155通常,通过一可擦除存储器接口如接口150,与系统总线121相连。
上述讨论并示于图1中的这些驱动器及其相关的计算机存储媒体,为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的储存。例如,在图1中,硬盘驱动器141表示用来存储操作系统144、应用程序145、其它程序模块146和程序数据147。请注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。操作系统144、应用程序145、其它程序模块146和程序数据147在此给予不同的编号,至少说明它们是不同的复制品。
用户可通过输入设备如键盘162、话筒163和诸如鼠标、轨迹球或触摸板的指点器161,把指令和信息输入到计算机110。其它输入设备(未示出)可包括控制杆、游戏板、卫星盘、扫描器等,或类似的装置。这些和其它输入设备通常通过与系统总线相连的用户输入接口160,与处理单元120连接,但也可经由其它接口和总线结构,例如并行端口、游戏端口或通用串行总线(USB),进行连接。监示器191或其它类型的显示器也可通过诸如视频接口190接口连接到系统总线121。除监视器外,计算机也可包括其它外围输出装置,如扩音器197和打印器196,它们通过输出外围接口190相连。
计算机110利用与一个和几个远程计算机如远程计算机180的逻辑连接,可在一网络环境中运行。远程计算机180可以是个人计算机、手持装置、服务器、路由器、网络PC、同级设备或其它普通网络节点,一般包括上述与计算机110有关的许多或所有器件。图1中所所述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这种网络工作环境常见于办公室、全企业的计算机网络、局内网和国际互联网。
当应用于LAN网络环境时,计算机110通过网络接口或适配器170与LAN171相连。当应用于WAN网络环境时,计算机110一般包括调制解调器172或可在WAN173如国际互联网上建立通信的其它装置。可以是内部的也可以是外部的调制解调器172,通过用户输入接口160或其它合适的机制,可与系统总线121相连接。在网络环境中,与所述计算机110及其构成部分相关的程序模块,可储存在远程存储器存储装置中。作为例子,但不局限于此,图1说明远程应用程序185留驻在远程计算机180上。可以理解成,所示的网络连接是例示性质的,也可采用可在计算机之间建立通信链路的其它装置。
图2是作为示例的计算环境的移动设备200的方框图。移动设备200包括微处理器202、存储器204、输入/输出(I/O)器件206和用来与远程计算机或其它移动装置进行通信的通信接口208。在一实施例中,上述器件在一合适总线210互相进行通信相连。
存储器204可用诸如带电池后备模块(未示出)的随机存取存储器(RAM)的非易失电子存储器来实施,使储存在存储器204中的信息在移动设备200的总电源关闭时不会丢失。存储器204的一部分最好配置成程序执行用的可寻址存储器,而存储器204的另一部分最好用于储存,如模拟磁盘驱动器的储存。
存储器204包括一操作系统212、应用程序214和目标存储器216。在操作中,操作系统212最好由处理器202从存储器204来执行。在一较佳实施例中,操作系统212是来自微软公司的商用WINDOWSCE牌操作系统。操作系统212最好为移动设备设计的,提供数据库特点,该特点是通过一组外露应用编程接口和方法由应用程序214来使用。目标存储器216中目标由应用程序214和操作程序212来维持,至少部分地响应对外露应用编程接口和方法的呼叫。
通信接口208代表可使移动设备200发送和接收信息的许多设备和技术。这些设备包括有线和无线调制解调器、卫星接收器和广播调谐器等等。移动设备200也能直接和与其交换数据的计算机连接。在这种情况下,通信接口208可以是红外接收器或串行或并行通信连接,这些都能发送流式信息。
输入/输出器件206包括各种输入设备,如触敏屏幕、按钮、滚轮和话筒以及包括声音发生器、振动装置和显示器在内的各种输出设备。上述设备作为例子,并不需要全部出现在移动设备200上。此外,可附属在移动设备上或出现在移动设备上的其它输入/输出设备,都在本发明的范围中。
根据本发明的各种情况,提出申请的是可自动检测用第一语言(如英语)书写的文件中的搭配错误的系统和方法,该文件由其第一语言为非本国语言的用户(如中国用户,或更一般的由其本国语言为不同于第一语言的第二语言的用户)用第一语言书写的。本发明的一个方面揭示了构筑搭配错误的检测/推荐模式数据库的一改进方法。本发明的另一方面,使用匹配算法和数据库来检测书写文件中的搭配错误,并提供纠正搭配错误的建议。
1.构筑一检测/推荐模式数据库数据库的构筑或采集过程是用大型句子调整双语(本例为中文-英文)资料库的应用来支持的。对在双语资料库中的中文句子进行语法分析,以得到词间的依赖关系。对资料库中的中文词来说,词调整技术被用来从资料库中的相应英文句子中确定它们的正确的英文译文词。然后,抽取特殊依赖结构的词对及其相应的译文。例如,可以从资料库中抽取具有动-宾依赖关系和形容词-名词关系的所有词对及其相应的英文译文。一个例子示于表1中。
表1
用这种方法,可得到一描述中文词组及其正确译文的大型数据库。中文词对和其正确的英文译文的对应是附带注释的。然后,英文词由该相应中文词的各种可能的英文译文来替代。对每个有特定依赖结构的中文词对来说,英文译文词的所有可能的组合,除用句子和词调整标出的正确译文的相应组合外,被储存在错误模型数据库中。上面一般介绍的构筑搭配错误模式数据库的过程,用图3所示的流程图300作更详细的说明。错误模式数据库的构筑方法,不仅从种属上结合可帮助讲第二语言的本国人进行第一语言书写之用的数据库构筑,而且更具体地结合可帮助讲中文的本国人纠正用英文书写的搭配错误之用的数据库构筑,在图3中加以说明。
如在305所示,获得一句子已调整的双语资料库。一般来说,一大型双语资料库在产生搭配错误模式数据库方面,比一较小的资料库更有用。同样,双语资料库应进行句子调整,使两种语言的每个句子中包含的词和短语相关联。该句子调整双语资料库既可用现有技术来构筑,也可从其它来源来获得。
然后,词调整技术被用来调整第一种语言(如英文)的句子和第二种语言(如中文)的句子之间的词和短语,如310所示。只要构筑或获得了句子和词调整双语资料库,步骤305和210就可在各种实施例中结合起来。第一语言(如英语)中句子和第二语言(如汉语)中句子间的词调整,可使用多种词调整技术或手法来实现。通常,这些手法使第一语言中句子中的词或词组与在双语资料库中的第二语言中句子中相应的词或词组相互关联。结合图4,对词调整手法的例子进行简短讨论,但是,本发明的方法不是用来对任何特殊的词调整手法作限制。
现在参考图4,示出的是一数据流程图,说明应用于本发明中一些实施例中的词调整手法。图4表示在一词调整过程中,源语言输入句子350和研究中的例子360输入到作为双语辞典调整器362运行的第一调整组件。调整器362说明不同语言中二个词如何能相互被翻译。存在着多种不同方法来加以实施。评价这种翻译的一些尺度包括如在布朗等人在《Computational Linguistics》第19卷第2期第263-311页(1993年)上发表的“统计机器翻译的数学参数估计”文章中出现的翻译概率,如在克尔等人在在《Computational Linguistics》第23卷第2期第313-343页(1997年)上发表的“词调整的一种分类为基础方法”文章中出现的子系数,如在布朗等人在《COULING-88》第1卷第71-76页(1998年)上发表的“语言翻译的一种统计方法”文章中出现的交互信息,如在帕斯卡尔等人在《Computational Linguistics》第21卷第4期第226-233页(1995年)上发表的“从噪声平行资料库中寻找名词和正确名词译文的一种模式匹配方法”文章中出现的t-记分。
这样,双语辞典调整器362建立了高置信度单词锚点,它们是从源语言输入句子350到例子句子360的直接词翻译。这些可在以后的词组调整时使用。
下一步,在例子句子360为非分段语言(如中文)情况时,例子句子360进行词分段。这可用多种不同的公知方法来进行,本发明不局限于这些特殊的词分段手法。例子句子360的词分段在图4中用方框364表示。
然后,使用一失真模型调整器366。失真模型调整器366说明在源语言句子350中一个位置如何可被调整到目标语言例子句子360中的另一个位置。如同与双语辞典调整器362一样,存在着可实施的多种失真模型调整器366。某些这类模型包括绝对失真(如上述的布朗文章中)、相对偏移(如布朗文章中)、以隐式划线模型(HMM)为基础的系统和结构约束系统(也在布朗文章中)。
甚至在词调整和失真模型化后,仍然有可能存在一些输入句子的非调整部分。因此,访问一单语辞典,把字符合并成词,把词合并成短语。这在图4中用方框368来表示。换句话说,即使双语辞典非常大,因为语言的固有的复杂性其覆盖面仍然非常有限。使用一单语辞典,一些分离的词(本不应分离,因为它们是短语的一部分)可被标识为短语。因此,可实现短语合并。
同样,可使用任何已知的统计调整组件,来调整未调整的词。这用方框370表示。这种统计调整手法是已知的,仅配置一阈值来约束统计调整空间。
考虑所有这些项目,词调整结果372是词调整系统的输出。
虽然在图4所示的实施例中,词调整机制包括来自双语辞典调整器362的翻译信息、失真调整器模型366、短语合并组件368和统计调整组件370,也可以使用其它信息源。例如,上述的t-记分可用来作为上下文信息。总之,该词调整结果372可提供锚点,以反映源语言输入句子350和例子句子360之间的高置信度调整。这些锚点可在短语调整中使用。
现再参考图3,在获得或建立了一句子和词的调整双语资料库后,第二语言(如中文)中的句子进行依赖语法分析,以获得资料库的句子中词间依赖结构。这在图3中用步骤315表示。在资料库中第二语言(如中文)句子的词间依赖结构被标识后,从资料库中第二语言(如中文)句子中抽取具有特殊依赖结构(如动词-宾语、宾语-名词等)的词对。这在图3中表示为步骤320。对从双语资料库中第二语言(如中文)句子中抽取的词对,从双语资料库中第一语言(如英文)句子中抽取相应的翻译词。对一特殊的依赖结构,这产生了第一语言词对的数据库和它们正确的词对翻译。这在图3中表示在步骤325处。
为了构筑匹配错误模式数据库,对第二语言(如中文)的每个词对,必须标识一组相应的第一语言(如英文)匹配错误词对。这在图3中表示为步骤330处。为了实现这个目的,对具有一特殊依赖结构的每个第二语言的词对,把词对的每个词翻译成所有相应的第一语言的翻译词。这不是局限于步骤325中标识的来自正确翻译词对的翻译词,而应是把第一语言中词对的每个词单独翻译成其所有可能的翻译词。这可用例如一机读双语辞典来实现。
如果有第二语言(如中文)的一词对,相应的第一语言(如英文)的匹配错误词对集合,可通过建立来自该第二语言词对的词翻译组合的一集合来进行标识。例如,如果一中文词对的第一词有三个不同的英文翻译词,且该中文词对的第二词有四个不同的英文翻译词,则在该集合中包括十二个独立的来自该中文词对的词的翻译组合。
下一步,对与第二语言(如中文)中一词对相对应的第一语言(如英文)中词组翻译组合的每个集合,从该集合中去除步骤325中标识的正确的词对翻译,来建立该错误模式数据库。这在图3中在步骤335处表示。该数据库使中文(或第二语言)词对、正确的英文(或第一语言)翻译词对和匹配错误的英文(或第一语言)翻译词对相关联。
本发明也揭示了构筑错误模式数据库的系统。结合例子,图5所示的系统500说明了上述错误模式数据库的构筑方法。在此例中,该过程是针对动词-宾语关系来讨论的。但是,该过程也能重复用于其它依赖结构。
1.准备一大型中-英双语资料库如上结合图3讨论那样,可获得一句子调整双语资料库502。但是,可获得一还未进行句子调整的双语资料库,句子调整如果需要可在资料库上进行。
2.在双语资料库上进行句子调整和词调整如果该资料库已经进行句子调整,则仅需进行词调整。词调整组件504使用一调整工具506来调整资料库502中中文句子和其相应英文句子之间的词。该词调整组件可以是任何程序、子程序、模块等,它们利用如图4所述的调整工具来进行词调整。虽然介绍了一特定的调整工具,但可使用任何合适的手法进行词调整。
对本例来说,假定有双语句对中文他在教室里开灯。
英文He turned on the light in the classroom.
3.依赖语法分析中文句子利用一中文语法分析器508(或更一般的为第二语言语法分析器),在所示的步骤510处,对资料库中的中文句子(更一般的为第二语言句子)进行语法分析,以便获得句子内词间的依赖结构。在上述例示的句子中,依赖语法分析产生下列词对。
对中文句子的依赖语法分析(主语-动词,他,开)(副词-动词,在教室里,开)(动词-宾语,开,灯)4.从中文句子中,抽取具有动词-宾语关系的词对在上述的例子中,词对,他,开,在中文句子中有主语-动词关系。
他在教室里开灯。
(主语-动词,他,开)这对任何和所有的所需依赖结构词对(包括短语和词对)都能做的。
5.从英语句子中,抽取与主语-动词中文词对相对应的主语-动词的翻译词对翻译抽取器511是一程序、子程序、模块等,对双语资料库中的每个主语-动词的中文词对,从经调整的句子中抽取正确的主语-动词英文翻译词对。因此,翻译抽取器构筑或包括一动词-名词中文词对及其正确的英文词对翻译的数据库。例如,对本例所用的中文句子来说,其相应的英文依赖关系是(主语-动词,他,开)(主语-动词,he,turn on)(副词-动词,在教室里,开)
(副词-动词,in the classroom,turn on)(动词-宾语,开,灯)(动词-宾语,turn on,light)因此,在本例中,我们获得了正确的英文动词-名词匹配(动词-宾语,开,灯)(动词-宾语,turn on,light)抽取组件511同样能抽取其它依赖结构词对的翻译。
6.对每个动词-名词中文词对,构筑一组错误动词-名词英文词对如图5所示,一英文翻译替代组件512构筑一组错误英文词对,该组词对储存在错误模式数据库514中。此过程可结合图5所示的步骤330和335来加以说明。下面提供的是以伪代码格式的这些步骤的说明。对每个动词-名词中文词对,做6.1从一中英文辞典中,得到中文动词的前M个英文翻译(Ev1,Ev2,..Evm)和中文名词前M个英文翻译(En1,En2,..Enm).本例的英文动词和名词翻译如下所示开 灯open lightdrive lampturn onstart可以看出,如果小于M个翻译可用,只有可用的翻译将被找到。
6.2得到中文动词V翻译和中文名词N翻译的所有组合的集合QQ={(Evi,Enj)|1<=I,j<=n,}然后,我们得到集合Q{(open,light),(drive,light),(turn on,light),(start,light)(open,lamp),(drive,lamp),(turn on,lamp),(start,lamp)}由于在本例中开有四个英文翻译词或短语(open,drive,turn on,start),在本例中灯有二个英文翻译词或短语(light,lamp),所以有八种可能的组合。
6.3从集合Q中删除英文动词或动词短语和英文名词或名词短语的正确组合。正确词对(Vv,Nn)标识如本例的步骤5和图3所示步骤325中所讨论那样。
去除正确的词对(turn on,light),集合Q变成
{(open,light),(drive,light),(start,light),(open,lamp),(drive,lamp),(turn on,lamp),(start,lamp)}6.4对留在Q集合中每个词对或每个项(Vx,Ny),定义一模式模式种类动词-名词匹配错误说明(Vx,Ny)正确(Vv,Nn).
然后,我们可得到一系列的模式,例如模式种类动词-名词匹配错误说明(open,light)正确(turn on,light).
在构筑了搭配错误模式数据库后,用它可在书写过程中检测搭配错误并利用模式提供建议。结合图3-5在上述数据库构筑过程中获得的模式被很好地分类和组织,使它们被有效地使用。图6中给出了例示系统,该系统应用错误模式或模板数据库514来纠正书写英文(或更一般的是第一语言)文件过程中的搭配错误。
图6所示的系统600可以在如图1和图2中所示的计算环境中实施。如图6所示,虽然输入句子605输入到该系统。在本例中,该输入句子605是一个包含搭配错误的英文句子。该句子可用任何所需的手段,包括使用示于图1的键盘162或话筒163(和语音-文本转换程序),输入到该系统。输入的句子,也可用其它方法例如从其它系统转入或从存储器中检索句子,输入到系统中。
如在组件或步骤607处所示,英文语法分析器609被用来分析输入英文句子,以确定句子内的依赖结构。由于句子太复杂而不能进行整句语法分析时,可采用部分语法分析。英文语法分析器609可以是该领域中已知的多种语法分析器中任何一种。
然后,如在步骤611处所示,把具有在分析时所标识的依赖结构的词对或短语,与使用上述方法构筑的数据库514中的错误模式作比较。如在组件或步骤613处所示,如果一词对(包括短语)被发现与数据库中的搭配错误词对相匹配,被认为搭配错误的词对的区域,可用某种方式在书写句子中突出出来,同时把与数据库中的特定错误词对模式相关的正确搭配建议提供给用户。在一些实施例中,系统不会自动纠正翻译,但会给写作者提供供考虑的建议。使用用户接口615如键盘162、指点器161等,用户确认或接受建议,或拒绝建议并保留原来得体的句子。这示于614处。
对下述作为例子的具有动词-宾语关系依赖结构的(动词,名词)词对进行搭配错误的核对。此过程同样可用于其它依赖结构。
1.输入一英文句子;He opened the light in the classroom.
2.英文依赖关系语法分析(主语-动词,he,open)(副词-动词,in the classroom,turn on)(动词-宾语,open light)3.为具有(动词-宾语)关系的(动词,名词)词对(open,light)扫描句子例子(open,light)4.为被标识(动词-名词)词对(open,light)1和一错误模式集合之间的匹配查找错误模式数据库。如果一模式匹配,则突出英文句子中的(动词,名词),且从错误模式数据库中输出正确建议。
在此特殊的例子中,动词-名词搭配(open,light),被发现有以下匹配模式种类动词-名词搭配错误说明(open,light)正确 (turn on,light)因此,该系统会以某种方式突出搭配错误的区域,并建议正确的搭配。
虽然本发明是结合特定的实施例来加以说明的,但是,本行业的熟练技术人员认为,在不脱离本发明的精神和范围下,可以在形式和细节上进行变化。例如,结合讲中文的人进行英文书写的例子,对其本国语言为不同于第一语言的第二语言的人进行第一语言书写的情况,在理论上是可行的。同样,本发明介绍了对第二语言的一词标识和储存第一语言的翻译词,这种介绍也包括标识和储存与第二语言中词相对应的第一语言的短语,和标识和储存与第二语言中短语相对应的第一语言的词。
权利要求
1.一种构筑搭配错误模式数据库的方法,所述方法包括获得一具有第一语言句子和第二语言句子的双语资料库;从所述资料库中的第二语言句子中抽取第二语言词对;对从所述资料库中抽取的每个第二语言词对,从资料库中相应的第一语言句子中,抽取相应的第一语言词对,为所述第二语言词对确定正确的第一语言翻译;对从所述资料库中抽取的每个第二语言词对,建立与第二语言词对相对应的第一语言翻译词组合的一集合;对从所述资料库中抽取的每个第二语言词对,从所述第一语言翻译词组合的集合中,去除正确的第一语言翻译,使得所述组合的集合代表与第二语言词对相对应的搭配错误的第一语言词对的集合。
2.如权利要求1所述的方法,其特征在于,获得所述双语资料库进一步包括获得具有第一语言句子和第二语言句子的句子和词已调整的双语资料库。
3.如权利要求2所述的方法,其特征在于,获得一句子和词已调整的双语资料库进一步包括获得具有第一语言句子和第二语言句子的句子已调整的双语资料库;且在所述双语资料库上进行词调整,使第一语言中句子中的词与第二语言中相应句子中的词排成一行。
4.如权利要求2所述的方法,其特征在于,从所述资料库中第二语言句子中抽取第二语言词对进一步包括对所述资料库中第二语言句子进行语法分析,获得词间的依赖结构;从所述资料库中第二语言句子中抽取具有一特殊依赖结构的第二语言词对。
5.如权利要求4所述的方法,其特征在于,建立与每个第二语言词对相对应的第一语言翻译词组合的一集合进一步包括对每个从所述资料库中抽取的第二语言词对,单独把第二语言词对的每个词翻译成相应的第一语言翻译词;通过把第二语言词对的第一个词的每种翻译与第二语言词对的第二个词的每种翻译相结合的方法,建立与每个第二语言词对相对应第一语言翻译词的组合的集合。
6.如权利要求4所述的方法,其特征在于,对搭配错误第一语言词对的集合中每个搭配错误第一语言词对,进一步包括定义一模式,使搭配错误第一语言词对与相应的正确第一语言翻译相关联。
7.如权利要求6所述的方法,其特征在于,其中,所述模式进一步使搭配错误第一语言词对和相应的正确第一语言翻译与一模式种类相关联。
8.如权利要求1所述的方法,其特征在于,其中,第一语言是英语,第二语言是汉语。
9.一种计算机可读媒体,具有可执行步骤的计算机可执行指令,所述步骤包括从一双语资料库中第二语言句子中抽取第二语言词对;对从所述资料库中抽取的每个第二语言词对,从资料库中相应的第一语言句子中,抽取相应的第一语言词对,为所述第二语言词对确定正确的第一语言翻译;对从所述资料库中抽取的每个第二语言词对,建立与第二语言词对相对应的第一语言翻译词组合的一集合;对从所述资料库中抽取的每个第二语言词对,从所述第一语言翻译词组合的集合中,去除正确的第一语言翻译,使得所述组合的集合代表与第二语言词对相对应的搭配错误的第一语言词对的集合。
10.如权利要求9所述的计算机可读媒体,其特征在于,进一步具有计算机可执行指令,可执行获得所述双语资料库的步骤。
11.如权利要求10所述的计算机可读媒体,其特征在于,其中,获得所述双语资料库进一步包括获得一具有第一语言句子和第二语言句子的句子和词已调整的双语资料库。
12.如权利要求11所述的计算机可读媒体,其特征在于,其中,获得所述句子和词已调整的双语资料库进一步包括获得具有第一语言句子和第二语言句子的一句子已调整的双语资料库;在所述双语资料库上进行词调整,使第一语言中句子中的词与第二语言中相应句子中的词排成一行。
13.如权利要求9所述的计算机可读媒体,其特征在于,其中,从所述资料库中第二语言句子中抽取第二语言词对进一步包括对所述资料库中第二语言句子进行语法分析,获得词间的依赖结构;从所述资料库中第二语言句子中抽取具有一特殊依赖结构的第二语言词对。
14.如权利要求13所述的计算机可读媒体,其特征在于,建立与每个第二语言词对相对应的第一语言翻译词组合的一集合进一步包括对每个从所述资料库中抽取的第二语言词对,单独把第二语言词对的每个词翻译成相应的第一语言翻译词;通过把第二语言词对的第一个词的每种翻译与第二语言词对的第二个词的每种翻译相结合的方法,建立与每个第二语言词对相对应第一语言翻译词的组合的集合。
15.如权利要求13所述的计算机可读媒体,其特征在于,对搭配错误第一语言词对的集合中每个搭配错误第一语言词对,进一步包括定义一模式,使搭配错误第一语言词对与相应的正确第一语言翻译相关联。
16.如权利要求9所述的计算机可读媒体,其特征在于,其中,所述模式进一步使搭配错误第一语言词对和相应的正确第一语言翻译与一模式种类相关联。
17.如权利要求13所述的计算机可读媒体,其特征在于,其中,第一语言是英语,第二语言是汉语。
全文摘要
本发明提供了一种可供应用第一种语言进行写作、但其本国语言为第二种语言的人使用的语言搭配错误模式数据库的构筑方法和计算机可读媒体。该方法包括获得一由第一语言句子和第二语言句子组成的双语语言资料库,从该语言资料库的第二语言句子中提取第二语言词对。对从语言资料库中提取的每个第二语言词对,从语言资料库中相应第一语言句子中提取相应的第一语言词对,为第二语言词对确定一正确的第一语言译文。同样,对从语言资料库中提取的每个第二语言词对,建立一与第二语言词对相应的、由第一语言翻译词构成的集合。最后,对从语言资料库中提取的每个第二语言词对,从由第一语言翻译词构成的集合中去除正确的第一语言翻译,使得该集合代表与第二语言词对相应的搭配错误的第一语言词对的集合。
文档编号G06F17/27GK1471029SQ0314523
公开日2004年1月28日 申请日期2003年6月25日 优先权日2002年6月28日
发明者明 周, 周明, 刘挺 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1