检测带注释语料库中的分割错误的制作方法

文档序号:6569101阅读:265来源:国知局

专利名称::检测带注释语料库中的分割错误的制作方法检测带注释语料库中的分割错误扭旦冃牙、仅为一般的背景信息提供以下描述,而并非旨在用于帮助确定所要求保护的主题的范围。词语分割是指标识组成诸如文本等语言表达的各个词语的过程。词语分割对于拼写和语法检查、从文本合成语音以及执行自然语言分析和理解是有用的,这些都受益于各个词语的标识。对英语文本执行词语分割是相当简单的,因为空格和标点符号一般地为文本中的各个单词划定界限。考虑以下英语句子Themotionwasthentabled—thatis,removedindefinitelyfromconsideration.通过标识空格和/或标点符号的每个连续序列作为该序列之前单词的结束,上述的英语句子可以被如下地简单分割Themotionwasthentabled--thati^,removedindefinitelyfromconsideration.在诸如但不限于汉语的文本中,单词的边界是隐式而非显式的。考虑以下汉语句子,意思是"ThecommitteediscussedthisproblemyesterdayafternooninBuenosAires."。昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。尽管句子中没有标点和空格,但是汉语的读者会认识到上述句子由分别用下划线划出的词语组成昨天下午委员会在布宜诺斯艾利斯讨论工这土问题。提出了词语分割系统,用于自动分割诸如汉语等没有空格和标点的语言。此外,许多系统也会注释所得的经分割文本来包括有关句子中词语的信息。对文本中命名实体的识别和后续注释是常见且有用的。命名实体通常是句子或短语中的重要项,因为它们例如包括个人、地点、数量、日期和时间等。然而,当执行分割和注释时,不同的系统会遵循不同的规范或规则。例如,一系统可以将个人的全名作为单个命名实体来对待并接着对其注释,而另一系统会将个人的姓和名作为分开的命名实体来对待并由此对其注释。虽然可以认为每个系统的输出都是正确的,但是系统之间的比较是困难的。最近,提出了帮助在不同的系统之间作出比较的方法。一般地,方法包括拥有已知的训练数据和测试数据。训练数据用于训练每个系统,而可以针对测试数据运行实验,理论上接着可以比较其输出。然而由于在训练数据和测试数据之间存在不一致性,因此出现了问题。考虑到这些不一致性,不能作出系统之间的准确比较,因为不一致性会传播到系统的输出,给出假错,即不归因于系统而是归因于数据的错误。概述提供本概述以便用简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护的主题的关键或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。使用在带注释的语料库中找到的分割变化来检测分割错误候选。检测语料库中的分割错误确保语料库是准确且一致的,以减少错误向其他系统的传播。用于在带注释的语料库中定位分割错误的一种方法可以包括用计算机从语料库获取多字符词语的分割变化实例集。每个集合包括语料库中一词语的多于一个分割变化实例。用该计算机向语言分析程序呈现每个分割变化实例,以便标识该分割变化实例是否为分割错误。在另一方面中,可以计算带注释的语料库的分割错误率。具体地,使用计算机来处理带注释的语料库,以查明其中的分割变化。接着使用该计算机向语言分析程序示出或呈现分割变化,以便标识分割变化中的分割错误。接着基于分割错误的数目计算语料库的分割错误率。附图简述图1是计算环境的示例性实施例的框图。图2是标识语料库中的分割错误的方法的流程图。图3是用于标识一个或多个语料库中的分割错误的方法的更详细的流程图。图4是用于执行图2或3的方法的系统的框图。详细描述此处所描述的概念的一方面包括诸如在词语分割系统的评估时检测在词语分割中使用的训练和测试数据之间的不一致性的方法。然而,在描述其它方面之前,概括地描述其上可实现此处所描述的概念的合适的计算系统环境ioo的示例会是有用的。计算系统环境ioo仅为合适的计算环境的一个示例,并非对本发明的使用范围或功能提出任何限制。也不应将计算环境ioo解释为对示例性计算环境100中示出的任一组件或其组合有任何依赖性或要求。除了这里所提供的示例之外,其他众所周知的计算系统、环境和/或配置可以适用于此处所描述的概念。这样的系统包括但不限于,个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型计算机、包括任一上述系统或设备的分布式计算环境等等。此处描述的概念可以体现在诸如程序模块等由计算机执行的计算机可执行指令的一般上下文中。一般而言,程序模块包括执行特定的任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。本领域的技术人员可以将此处的描述和/或附图实现为可包含在以下讨论的任何形式的计算机可读介质上的计算机可执行指令。此处所描述的概念也可以在由通过通信网络链接的远程处理设备执行任务的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机存储介质中。参考图1,示例性系统包括计算机110形式的通用计算设备。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的任一种的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线、以及外围部件互连(PCI)总线(也称为背板(Mezzanine)总线)。计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机IIO访问的任一可用介质,且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失性和非易失性,可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机100访问的任一其它介质。通信介质通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送介质。术语"已调制数据信号"指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、光学和其它无线介质。上述的任一组合也应该包括在计算机可读介质的范围内。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,它通常储存在ROM131中。RAM132通常包含处理单元120可立即访问和/或当前正在操作的数据和/或程序模块。作为示例而非局限,图l示出了操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作示例,图l示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器141、对可移动、非易失性磁盘152进行读写的磁盘驱动器151,以及对可移动、非易失性光盘156,如CDROM、DVD或其它光介质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字通用盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。上文讨论并在图1示出的驱动器及其关联的计算机存储介质为计算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,硬盘驱动器141被示为储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。此处对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。用户可以通过输入设备,如键盘162、话筒163、以及定点设备161(诸如鼠标、跟踪球或触摸垫)向计算机100输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除了监视器外,计算机还可包括其它外围输出设备,如扬声器197和打印机196,它们通过输出外围接口190连接。计算机100可以使用到一个或多个远程计算机,如远程计算机180的逻辑连接在网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它常见的网络节点,并通常包括许多或所有相对于计算机IIO所描述的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这类联网环境常见于家庭、办公室、企业范围计算机网络、内联网以及因特网。当在LAN网络环境中使用时,计算机IIO通过网络接口或适配器170连接到LAN171。当在WAN网络环境中使用时,计算机IIO通常包括调制解调器172或用于通过WAN173,如因特网建立通信的其它装置。调制解调器172可以是内置或外置的,它通过用户输入接口160或其它适当的机制连接至系统总线121。在网络化环境中,相对于计算机110所描述的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它手段。应该注意此处所描述的概念可以在诸如参考图1描述的计算机系统上执行。然而,其他合适的系统包括服务器、专用于消息处理的计算机或者其中在分布式计算系统的不同部分上执行概念的不同部分的分布式系统。如上所述,一方面包括用于检测诸如但不限于汉语的带注释的语料库中的分割错误以改进其中数据的质量的方法。使用汉语作为示例,在语料库中出现一次以上的汉语字符串会被分配不同的分割。这些不同可以被认为是分割不一致性。但是为了提供对这些分割不同的更为清晰的描述,将使用新的术语"分割变化"来代替"分割不一致性",前者将在以下作更为详细地描述。参考图2,检测或发现带注释的语料库内的分割错误以提供错误率的方法200包括以下步骤(1)在步骤202处使用计算自动处理带注释的语料库,以便查明其中的分割变化,以及(2)在步骤204处使用计算机向语言分析程序呈现该分割变化,以便标识这些候选中的分割错误。在步骤206处,可以接着对在语料库中查明的错误数目计数,由此给出该语料库的分割错误率(错误数/语料库中的分割数),这是未以其他方式注解或记录的有价值信息。然而,已发现在带注释的语料库中找到的大多数分割不一致性结果都是组合多义串(CAS)的正确分割。因此,这不是评估带注释的语料库的质量的适当的技术项。此外,就"分割不一致性"的概念而言,难以区分带注释的语料库内不同的不一致性组分并最终精确地对分割错误的数目计数。相应地,将使用以下定义的新术语"分割变化"来代替"分割不一致性"。以下定义定义了"分割变化"、"变化实例"以及"错误实例"(即"分割错误")。定义1:在带注释或经预分割的语料库C(语料库C中分出词语的边界注释)中,将一集合f(『,C)定义为f(『,C)-(词语W在语料库C中所有可能的分割}。换言之,每个集合f包括语料库c中词语w的不同分割。例如,对于出现在语料库C中包括"February17,2005(2005年2月17日)"的词语W,由此集合f中语料库C中的其他分割可以是"February17(2月17日)"、"2005"(即两个语言符号)或"Feruary(2月)"、"17"、"2005"(即三个语言符号)。定义2在定义1之上构建并且规定定义2:Pf是关于C的"分割变化类型"(简称并且在下文中称为"分割变化")当且仅当lf(『,C)|>1。换言之,如果集合f的大小大于l,那么集合f被称为"分割变化"。定义3在定义2之上构建并且规定定义3:f(W,C)中词语的实例被称为分割变化实例("变化实例")。由此,"分割变化"包括语料库c中的两个或多个"变化实例"。此外,每个变化实例可以包括一个或一个以上的语言符号。定义4在定义3之上构建并且规定定义4:如果一变化实例是不正确的分割,那么称之为"错误实例"。语料库中分割变化的存在归因于以下两个原因之一1)多义性变化类型『在不同的合理上下文中具有多种可能的分割,或者2)错误『被错误地分割,这可以由给定的词典或字典来判断。"分割变化"、"变化实例"以及"错误实例"的定义清晰地区分出这些不一致性组分,由此可以精确地作出对分割错误数目的计数。应该进一步注意,由多义性引起的分割变化被称为"CAS变化"而由错误引起的分割变化称为"非CAS变化"。每种类型的分割变化可以包括错误实例。图3示出了用于执行找出并处理分割变化的方法300的流程图,而图4示意性地示出了用于执行方法300的系统400。如本领域的技术人员可以理解的,可以在如上所述的计算环境100或其他计算环境中实现系统300。此外,应该注意,系统400中存在的模块是为了理解的目的而提供的,其中就由所示模块执行的任务而言,可以使用其他模块来执行各个的任务或任务的组合。一般,方法300和系统400可以输出两个语料库404和406之间的分割变化的列表412、分割实例414的列表和分割错误418,或者单个语料库420的这样的列表。如所示的,方法300可以从步骤302开始,其中提取模块408依照以上定义1标识或定位集合f(WC)中参考语料库406中的所有多字符词语,即使集合仅具有一个实例。可以通过将它们各自的位置存储在参考语料库406中来完成该步骤。为了执行该步骤,提取模块408可以访问字典410,字典中标识了在参考语料库404和字典410中都找到的词语,而在字典410中没有找到的参考语料库406中的那些词语被认为是词汇以外(OOV)并且不作进一步处理。此时,对字典410的进一步描述会是有用的。字典410可以被认为具有两个部分。第一部分包括一闭集,可以被认为是诸如命名实体的通常接受的词语的列表。然而,由于诸如日期、数字等许多命名实体不是闭集而是开集的一部分,因此字典410的第二部分是定义不能用其他方式枚举的这些开集命名实体的规范或方针。包括在字典410中的特定的方针不是重要的,并且可以根据使用这种规范的分割系统变化。示例性方针包括ER-99:1999命名实体识别(ER)任务定义,版本1.3NIST(美国国家技术标准研究所),1999;MET-2:多语言实体任务识别(MET)定义,NIST,2000;以及ACE(自动内容提取)EDT任务EDT(实体检测与跟踪)以及转喻注释方针,版本2.5,2003年5月。此处也被例示为由提取模块408执行的步骤304包括如果相应的集合f(『,C)具有多于一个的实例,那么就如以上定义2中所述地标识分割变化。列表412表示无论是直接提取还或间接地通过简单地记录分割变化的位置来编译它们。在步骤306处,提取模块408使用列表412并为列表412中的每个分割变化编译每个变化实例。在一个实施例中,编译可以包括通常使用每个变化实例周围的相应上下文(或至少是邻近的上下文)从语料库404和406的每一个中直接提取,或者间接地通过简单地记录它们各自在语料库中的位置来提取。列表414表示步骤306的输出。在步骤308中,呈现模块416访问列表414并且将每个变化实例呈现给语言分析程序。语言分析程序确定变化实例是正确的还是不正确的(即定义4中规定的分割错误)。呈现模块416接收分析程序的判断并且为语料库404和406中的每一个编译与分割错误相关的信息,这在图4中被示为418。如果期望,呈现模块416可以如上所述地计算语料库的分割错误率。上述的方法300和系统400尤其适用于检查参考语料库406和第二语料库408之间的不一致性。例如,参考语料库406可以是分割系统的训练数据,而语料库408是分割系统的测试数据,如以上在背景部分中描述的。这样,列表418标识在测试数据和训练数据之间不一致地分割的字符串,这些字符串可以被进一步分类成训练数据中标识的己经在相应的测试数据中被分割成多个词语的词语,或者测试数据中标识的己经在相应的训练数据中被分割成多个词语的词语。否则,这些未知或未检测到的错误可以传播或者当评估系统时被认为是假执行错误。然而,应该理解,如果期望,方法300和系统400的模块也可用于检査单个语料库420中的一致性。例如方法300和系统400的模块可用于标识在测试数据或训练数据各自中已被不一致地分割或仅仅是不一致地出现的字符串。尽管以对结构特征和/或方法动作专用的语言描述了本主题,但是可以理解,所附权利要求书中定义的主题不必限于以上所描述的具体特征或动作。相反,以上描述的这些具体特征和动作是作为实现权利要求的示例形式来公开的。权利要求1.一种用于获取带注释的语料库的分割错误率的计算机实现的方法,所述方法包括使用计算机处理所述带注释的语料库,以便查明其中的分割变化;使用所述计算机将分割变化呈现给语言分析程序,以便标识所述分割变化中的分割错误;以及对分割错误的数目计数,并计算所述语料库的分割错误率。2.如权利要求1所述的计算机实现方法,其特征在于,呈现分割变化包括与某些邻近上下文一起呈现分割变化。3.如权利要求1所述的计算机实现方法,其特征在于,计算所述分割错误率包括基于所计数出的错误数目以及所述语料库中的分割数目的计算。4.一种用于在带注释的语料库中定位分割错误的计算机实现的方法,所述方法包括使用计算机从所述语料库获取多字符词语的分割变化实例的集合,每个集合包括所述语料库中一词语的一个以上的分割变化实例;使用所述计算机向语言分析程序呈现每个分割变化实例,以便标识所述分割变化实例是否为分割错误;以及接收所述分割变化实例是否是分割错误的指示。5.如权利要求1所述的计算机实现方法,其特征在于,呈现分割变化包括与某些邻近上下文一起呈现分割变化。6.如权利要求1所述的计算机实现方法,其特征在于,获取分割变化实例的集合包括为列表中的每个集合编译所述词语的列表。7.如权利要求6所述的计算机实现方法,其特征在于,还包括编译列表中的所述分割变化实例中的每一个。8.如权利要求7所述的计算机实现方法,其特征在于,还包括编译列表中的每个所述分割错误。9.一种用于定位带注释的语料库中的分割错误的系统,所述系统包括一提取模块,被配置成从所述语料库提取分割变化并且为对于给定词语具有两个或更多分割变化的每个分割变化编译分割变化实例的列表;一呈现模块,被配置成呈现每个分割变化实例并且从分析程序处接收关于所述分割变化实例是否是分割错误的指示。10.如权利要求9所述的系统,其特征在于,所述呈现模块被配置成与邻近上下文一起呈现每个分割变化实例。11.如权利要求IO所述的系统,其特征在于,所述呈现模块被配置成基于所标识的分割错误计算所述语料库的分割错误率。全文摘要使用在带注释的语料库中找到的分割变化来检测分割错误候选。文档编号G06F17/20GK101278284SQ200680036300公开日2008年10月1日申请日期2006年9月28日优先权日2005年9月30日发明者C-N·黄,M·李,高剑峰申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1