中文字分割的制作方法

文档序号:6446176阅读:578来源:国知局

专利名称::中文字分割的制作方法
背景技术
:本发明一般涉及自然语言处理领域。且特别是,本发明涉及文字分割。文字分割指的是对组成语言表达,例如文本的单独的文字进行识别的处理。文字分割在检查拼写和语法、分析文本的语言、和执行自然语言语法分析和理解时是非常有用的,所有上述好处都来自对单独文字的识别。执行对英文文本的文字分割是很直接的,因为空格和标点符号在文本中对单独的文字划界限。考虑下面表1中的英文句子。Themotionwasthentabled--thatis,removedindefinitelyfromconsideration.表1通过每一个相邻顺序的空格和/或标点符号,表1中的英语句子可以被直接象表2所示那样分割。Themotionwasthentabled--thatis,removedindefinitelyfromconsideration.表2在中文文本中,文字的界限是隐含的而非明白的。考虑下面表3中的句子,其意思表示“昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。”昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。表3不必考虑句中标点和空格的缺少,一个中文读者将会认识到表3中的句子是由下面表4中分别加了下划线的文字组成的。昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。表4已经设计很多方法和系统来提供对语言例如中文和日文的文字分割。在一些系统中,模型在分割文本的主体的基础上被训练。模型描述了在一个文本串中出现的多种分割的相似性并提供表示它们的输出。开发一个用来训练模型的主体耗用时间和费用。在很多情况下,组合文字的分割系统的输出质量取决于用来训练模型的主体的质量。因此,用于评价主体和开发主体的方法将有助于提供高质量的文字分割。发明概述本发明涉及一种用于在训练语言模型中使用的主体。所述主体包括多个字符和与多个字符的序列相组合的多个语法标记。所述多个语法标记指的是字符序列组合的语法类型和形成语法子类型的部分的联合。在另一方面,提供一种具有执行文字分割的指令的计算机可读介质。所述指令包括接收一个未分割文本的输入和访问一个语言模型来确定对所述文本的分割。语法导出文字在文本中检测并且提供表示分割文本的输出和表示形成语法导出文字的部分的联合。附图概述图1示出了一种本发明可在其中应用的一般计算环境图2示出了一种语言处理系统的结构图。图3示出了一种开发加注解主体的方法的流程。图4示出了用于创建语言模型和评价语言模型性能的流程。图5示出了语法导出文字的类型和子类型的结构图。发明详述在具体讨论本发明之前,首先讨论本发明能够在其中使用的示范性环境的一个实施方案。图1示出了一个在其中本发明能够实现的适合的计算系统环境100的实施例。所述计算环境100仅仅是合适的计算环境的一个实施例,并且不意味着建议对本发明的使用范围或功能做任何限制。计算环境100既不应被解释为具有依赖性也不需要涉及示范性操作环境100中示出的任一部件或部件组合。本发明在具有许多其他一般目的或者特殊目的计算系统环境或配置中是可操作的。可能适合本发明在其中应用的众所周知的计算系统、环境和/或配置的例子包括,但是并不限于,个人计算机、服务器、手持或便携式设备、多处理系统、基于微处理的系统、机顶盒、可编程用户电器、网络计算机、迷你计算机、大型计算机、包括任何上述系统或设备的分布式计算环境,及其相似物。所述发明可能被以计算机可执行指令的一般文本的方式来描述,例如计算机执行的程序模块。一般地,程序模块包括执行特殊任务或者实现特殊抽象数据类型的通用程序、程序、对象、部件、数据结构等。本领域普通技术人员能够将这里的说明和/或数字作为计算机可执行指令实现,所述计算机指令能嵌入下面所讨论的任何形式的计算机可读介质。所述发明也可以在任务通过以通信网络连接的远程处理设备来实现的分布式计算环境中应用。在分布式计算环境中,程序模块可以被设置在包括了存储设备的本地和远程计算机存储介质中。参考图1,用于实现所述发明的示范性系统包括以计算机110的形式表示的一般目的计算设备。计算机110的部件可以包括,但是不限于,处理单元120,系统存储器130,和连接多个系统部件包括从系统存储器到处理单元120的系统总线121。系统总线可以是包括存储器总线或存储控制器、外围设备总线、和使用任何总线结构的本地总线的几种总线结构的任意一种。通过举例的,但不限于此,包括工业标准结构(ISA)总线、微通道体系结构(MCA)总线、加强工业标准结构(EISA)总线、视频电子标准协会(VESA)本地总线、和外设部件互连(PCI)总线在内的结构也作为中间总线为人所知。计算机110典型包括多种计算机可读介质。计算机可读介质可以是计算机110能访问的任何可得介质,并包括易失性和非易失性介质,可移动和固定介质。通过举例,但不限于此,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质可包括以任何方法和技术实现信息存储的易失和非易失性介质、可移动和固定介质,例如计算机可读指令,数据结构、程序模块或其它数据。计算机存储介质包括,但不限于,随机存取存储器、只读存储器、电可擦可编程只读存储器、闪存或其他存储技术、CD-ROM、数字化视频光盘(DVD)或其它光盘存储器、盒式磁带、磁带、磁盘存储器或其它磁性存储设备,或者其它任何能用来存储目标信息并能被计算机110访问的介质。通信介质典型嵌入计算机可读指令、数据结构、程序模块或其它已调制数据信号例如载波或其它传输机制中的数据,并且包括任何信息发送介质。术语“已调制数据信号”指的是一个或者多个特征以关于信号编码信息的方式被设置或改变的信号。通过举例的方式,但不限于,通信介质包括无线介质例如无线网络或者单线连接,和例如声学的、射频、红外线的无线介质和其它无线介质。上述介质的组合也可以包括在计算机可读介质的范围之内。系统存储器130包括例如象只读存储器(ROM)131和随机存取存储器(RAM)132的易失性和/或非易失性存储器的形式的计算机存储介质。基本输入/输出系统133(BIOS),其包括帮助在计算机110内的元件间传输信息的基本通用程序,例如在启动时,所述基本输入/输出系统典型地存储在ROM131中。RAM132典型地包括能为处理单元120立刻获得和/或马上操作地数据和/或程序模块。通过举例的方式,但不限于,图1示出了操作系统134、应用程序135、其它程序模块136,和程序数据137。计算机110也可包括其它可移动的/固定的易失性/非易失性计算机存储介质。仅通过举例,图1示出了向固定的、非易失性磁介质读取或写入的硬盘驱动器141,向可移动的、非易失性磁盘152读取或写入的磁盘驱动器151,和向例如CDROM或其它光学介质的可移动的、非易失性的光盘156读取或写入的光盘驱动器155。其它能够在示范性操作环境中使用的可移动的/固定的、易失性/非易失性的计算机存储介质包括,但不限于,盒式磁带、闪存条、数字化视频光盘、视频数字带、固态RAM,固态ROM,及其相似物。硬盘驱动器141典型地通过固定存储器接口例如接口140连接到系统总线121上,并且磁盘驱动器151和光盘驱动器155典型地通过可移动存储器接口,例如接口150,连接到系统总线121上。上面讨论并在图1中示出的驱动器及与它们相结合的计算机存储介质,提供了对计算机可读指令、数据结构、程序模块和其它用在计算机110中的数据的存储。在图1中,例如,硬盘驱动器141被作为存储操作系统144、应用程序145、其它程序模块146、和程序数据147示出。应注意这些部件可以与操作系统134、应用程序135、其它程序模块136、和程序数据137既可相同也可相异。在这里给予操作系统144、应用程序145、其它程序模块146、和程序数据147不同的数字来表示,在最小值上,它们是不同的复本(ataminimum,theyaredifferentcopies)。用户可能通过输入设备例如键盘162、麦克风163、和点击设备161,如鼠标、光标球或触摸板,将命令和信息输入计算机110。其它输入设备(未示出)可能包括操纵杆、游戏板、圆盘式卫星电视天线、扫描仪,及其相似物。这些及其它输入设备通常通过连接到总线的用户输入接口160连接到处理单元120上,但也可能通过其它接口和总线结构,例如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也通过接口,例如视频接口190,连接到系统总线121。除监视器外,计算机也可能包括其它外围输出设备如扬声器197和打印机196,所述设备可能通过外围设备输出接口195连接。计算机110可能使用与一个或多个远程计算机如远程计算机180的逻辑连接在网络环境中操作。远程计算机180可以是个人计算机,手持设备,服务器,路由器,网络计算机,同位体设备或其它通用网络节点,并典型地包括上述与计算机110相关的多个或者全部元件。在图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。所述网络环境在办公室、企业计算机网络、企业内部互联网和国际互联网中是很常见的。当在局域网网络环境中使用时,计算机110通过网络接口或者适配器170连接到局域网171。当在广域网网络环境中使用时,计算机110典型包括用于在广域网173建立通信的调制解调器172或其它装置。调制解调器172,可以是内置的或外置的,可以通过用户输入接口160,或其它适当的机构,连接到系统总线121。在网络工作环境中,所述与计算机110相关的程序模块,或其一部分,可以存储在远程存储设备中。通过举例的方式,但不限于此,图1示出位于远程计算机180上的远程应用程序185。应当理解示出的网络连接是示范性的并且在计算机间建立通信连接的其它方法也可以使用。图2一般示出了接收语言输入202来提供语言输出204的语言处理系统200。例如,语言处理系统200可表示为文字分割系统或模块来接收语言输入202的未分割文本。语言处理系统200处理未分割文本并提供代表已分割文本和涉及已分割文本的附加信息的输出204。在处理时,语言处理系统200可以访问语言模型206以便确定对输入文本202的分割。语言模型206可从定义了多种字类型以及代表特殊类型的加注解主体上建立。本领域的普通技术人员可以理解,语言处理系统200可以在多种情况下很有用,例如拼写检查、语法检查、分析文本的语言、文本识别、信息检索和执行自然语言语法分析和理解以命名一些(tonameafew)时。另外,语言模型206可以在使用语言处理系统200的特殊应用程序的基础上开发。为了提供分割,系统200也提供对每个已分割文字的文字类型指示。在一个实施方案中,中文文字被定义为以下四种类型(1)已知词典中的条目(词典文字或下文LWs),(2)语法导出文字(MDWs),(3)仿真陈述例如日期、时间、百分率、钱,等等,和(4)已命名实体(NEs)例如人名(PNs)、地名(LNs)、和组织名称(ONs)。各种子类也可以定义。给定了这些文字类型的定义,系统200可以提供提供代表分割和文字类型的输出。例如,考虑下面表5中的未分割句子,意思是“朋友们十二点三十分高高兴兴到李俊生教授家吃饭”。朋友们十二点三十分高高兴兴到李俊生教授家吃饭表5系统200的示范性输出在下面表6中示出。方括号表示文字边界和“+”表示词边界。括号中提供标记以表示该句中的文字的多个类型和子类型。[十二点三十分12:30TIME][高兴MR_AABB][到][李俊生PN][教授][家][吃饭]表6为了提供分割,语言模型206检查输入文本202中的文字类型。对于词典文字,如果文字包括在词典中则文字边界被检查。对于语法导出字,语法模式被检查,例如朋友+们(表示friend+s)是通过将复数后缀们加到名词朋友(MA_S是表示加后缀模式的标记)上导出的,和高高兴兴(其表示happily)是表示加倍的高兴(happy)(MR_AABB是表示AABB后缀模式的标记)。就仿真陈述来说,它们的类型和格式化形式被检查,例如12:30是时间表达十二点三十分的格式化形式(TIME是表示时间表达的标记)。对于命名实体,检查子类,例如李俊生(LiJunsheng)是人名(PN是表示人名的标记)。语言模型206可以从加注解主体来创建。图3示出了用于为字分割系统,例如系统200的语言模型206,创建语言模型而开发加注解主体的方法。在步骤252中,字和规则属于已定义的字分割。例如,用于中文字分割的词典,设置为用于中文语法导出字的规则,关于中文仿真描述和命名实体和/或它们的结合的准则可能为了开发加注解的主体而定义。在步骤254中,提供一个大规模的主体,其包括大量文本以及多种不同文本。所述大规模主体可能从多种文本源例如报纸和杂志中被选出。下面,在步骤256中,与步骤252中所定义的字和规则相匹配的列表从大规模主体中提取以创建一个潜在词汇列表。在步骤258中,提取的列表可以主要被检查是否需要滤出列表中的任何噪声或错误。然后在步骤260中确定列表是否能足够覆盖定义的文字和规则。在一个实施方案中,列表可能与具有大量定义域和结构的平衡、独立测试主体相比较。例如,定义域和结构可能包括涉及文化、经济、文学、军事、政治、科学与技术、社会、体育、计算机和法律的文本,来nameafew。换言之,一个申请application指定主体可能被用于具有较广覆盖范围的特殊申请application。如果确定列表具有足够的覆盖范围,就在步骤262中对主体进行标记。对主体的标记可按照下面讨论的那样实现。在步骤264中,已标记主体被检查且任何错误都被更正。在步骤266中,结果主体被用作一个标记大量作为训练或测试主体的文本的种子主体。因此,开发出了可以用图4中的方法280来评价的加注解主体。图4示出了用于为提供增强的文字分割而创建和评价语言模型206性能的方法280。在步骤282中,开发一个加注解主体,所述过程已经参考图3在上面描述。已知given加注解主体,在步骤284中在加注解主体的基础上创建训练或测试模型model。在步骤286中,通过与预先定义的测试主体或其它模型比较来评价所述创建的模型。已知在步骤286中实现的评价,可以确定语言模型206的效能。为了评价语言模型,字分割系统的输出使用能与作为分割系统标准输出的标准加注解测试主体相比较的模型。为了达到可靠的评价,可以选择一个独立的、平衡的和具有合适大小的未加工的(未加注解的)测试主体。一个独立测试主体与用来训练语言模型的加注解主体具有较小的重叠。一个平衡主体包括具有大量定义域、类型和时间的文档。为了能足够大,测试主体的一个实施方案包括大约一百万中文字符。在开发测试主体后,所述主体主要被加注解以作为给定了测试主体的中文字分割系统的标准输出来使用。测试主体可以使用下述的标记规范或其它标记规范来加注解。已知了加注解测试主体,定量评价可以用来评价语言模型的性能。如果在标准测试集中的字符总数为“S”,则应用于测试集的字分割系统输出中的待评价字符总数为“E”以及输出中与标准测试集中的字符完全匹配的字符数为“M”,可以计算数量值来评价语言模型的性能。下面的方程式1-3表示准确度、查全率和F分值。精确度=M/E(1)查全率=M/S(2)F=2*精确度*查全率/(精确度+查全率)(3)此外,可以根据上述方程式1-3实现对多种子类型的评价。例如,人名性能评价可以在Spn为标准测试主体中人名字符总数时实施。Epn是待评价的子分割处理系统的输出中的人名字符总数,和Mpn是输出中的人名字符与标准测试集中的人名完全匹配的数量。因此,性能方程式为精确度pn=Mpn/Epn(4)查全率pn=Mpn/Spn(5)Fpn=2*精确度pn*查全率pn/(精确度pn+查全率pn)(6)更加有用的是在评价语言模型性能时与其它系统结果相比较。例如,非常有用的是比较不同的字分割系统的输出的多个部分,例如(1)人名,(2)地名,(3)组织名称,(4)重叠的重复字符串和(5)覆盖的重复字符串。仅仅通过评价分割系统的输出子集,一个更好的主意可以在分割中发生错误时产生。为了开发加注解主体,标记规范被用于一贯地标记上述给定中文字类型定义的主体。词典中的词典字通过括号划界而无需额外进行标记。其它类型如下面所述那样进行标记。图5示出了用于标记主体的语法类别的结构图。语法类别包括附加、重叠、拆分、合并和题目小品(headparticle)。每种语法类别或类型包括能在标记过程中被标记的多个子类型。图5中的格式表示类别,产生字和字的语言合成部分的那些部分。在图5的结构图中,“MP”代表语法前缀和“MS”代表语法后缀。“MR”是重叠,“ML”是拆分,“MM”代表合并及“MHP”是语法题目小品(headparticle)。在下划线(_)和(-)之间的部分是形成语法导出字的部分的结合。对于重叠和拆分而言,符号A,B和C代表中文符号。表5中的格式代表形态变化而且应当理解其它标记格式可以用来代表所述变化。附加包括子类别前缀和后缀,为其它符号串加上一个符号来从形式上改变用原始符号表达的字。前缀包括7种子类型和后缀包括13种子类型。在包括字符模式的原始字被转化为包括字符组合和包括30种不同子类型重叠的另一种字时发生重叠。重叠也包括一个“V”,其代表一个动词,“O”是一个宾语以及“l”、“le”和“liaozhi”是小品词particle。拆分包括在语法的层次上是独立词汇但是在语义层次上是单个字的表达的集合。例如,一个符号串ABC可以表示短语“已经吃了”,其中bi-符号字AC代表词汇“吃过”并且通过代表字“已经”的小品词particle符号B被拆分。拆分包括两个子类型。一个子类型包括在动词和宾语插入一个或多个符号,而另一个在短语“qilai”之间插入宾语。当一个包括两个符号的字和另一个包括两个字符的字联合起来形成一个单独的字并包括三个子类型时,发生合并。当动词符号和其它符号结合形成一个字时并包括结合了一个形容词及其说明和一个动词及其说明的两个字类型时,发生题目小品(headparticle)。用于已命名实体和仿真陈述的标记格式在下面表7种表示。格式-1包括简单标记用于多种类型和子类型的,来帮助便于快速和容易地由人进行标记。例如,用于人、地点和组织的名称实体被简单地相应标记为P,L和O。格式-2表示使用根据第二代多种语言实体任务评价(MET-2)的通用标记语言标准(SGML)的标记。可以预期,在格式-1和格式-2之间进行的转换可以通过合适的转换程序来实现。表7表7种的标记格式,主体中的已命名实体和仿真陈述可以被简单地标记,来提供加注解主体。以格式-1和格式-2进行标记的例子在下面提供。以格式-1标记例如onthemorningofOctober9th→onthe[timmorning]of[datOctober9th]格式-2的标记格式例如onthemorningofOctober9th→onthe<TIMEXTYPE=TIME>morning</TIMEX>of<TIMEXTYPE=DATA>October9th</TIMEX>在为主体加标记时提供通用规范来保证一贯性和准确度是很有用的。下述说明述提供了这些规范。通用规范(1)应该避免在原文中键入“enter”以获得新的行。(2)将在下文描述“-ms”标记。一个例子是[P-ms邓小平]“邓小平理论”。(3)一个字符串允许有多个标记。假如注解者没有足够的信息来确定这种字符串的主要标记,那么可以引入“/”来分隔不同的标记[L/O西昌卫星发射中心](4)OPT注解者在不确定有些字符串是否应该做标记的情况下,可以引入OPT,即这个标记有待讨论[P/OPT上帝]适用于所有已命名实体(人,地点,组织)的规范1.适合的名词是那些带有客观和特定意思的NEs,而不包括带有抽象和综合意义的NEs。比如表达,“老外Foreigner”,“姑娘girl”就是不适合的名词。2.对于适合的复杂名词,不允许嵌入标记。就是说,在使用具有最大数量字符的分割字时,使用最大化匹配途径。3.嵌入人名、地名和组织名称的时间、数字表达、度量表达和地址不需要标记。——正确标记[O北京[int四]中]——错误标记4.在实体表达中包括了一些中文和英文的字符串,而英文字符串与实体连为一体的情况下,则整个符号作为一个实体来标记。[OAmerican航空公司]5.在所有格结构中,所有人和被持有的NE字符子串应分开标记。在汉语拼写方式中,标志符“的”是表示这种所有格结构的符号。的[L纽约][L美国]的[P理查德本森]注意假如字符“的”不是作为表示所有格的指示词的话,也应该被认为是实体的一部分。如,[O美的电器集团]6.如果引用语记号出现在实体名字中,标记中应该包括引用语记号。假如引用语记号限定了实体名,标记中就不包括引用语记号。在汉语文本中,标题的标记也可以做类似的处理。《[O星岛日报]》的社论说7.不可分解的复合短语。假如复合表达式作为整体来说不是一个实体,而它本身包含了一个实体,那么这个实体应做上‘P-ms’、‘L-ms’或者‘O-ms’的标记。假如注解者不确定这个表达式是否可以分解,那么这个表达式就被当作可以分解来处理,包含在其中的实体要做上标记。比如说,[L-ms香港]脚“hongkongfoot”,亦可理解为运动员的脚。该表达式从整体而言是不可分解的。根据规范,“香港”这个词可以作为一个地名来做标记,即‘L-ms’。例如,“第四十六届太平洋亚洲旅行协会年会”的标记是[ord第四十六]届[O太平洋亚洲旅行协会]年会,在规范中,这个表达式是被作为可以分解来处理的‘太平洋洲旅行协会PacificAsiatravelAssociation’是被作为组织来标记的,而‘太平洋亚洲旅行协会年会PacificAsiatravelAssociationannualmeeting’不是一个组织。对于‘人名+思想(或者理论、法律和意识形态)’的表达式,整个表达式被标记为‘p-ms’。[P_ms马克思]主义“Marxideology”[P_ms毛泽东]思想“MaoZedongthought”[P_ms阿佛加罗]定律“Avogadro’slaw”8.对于‘军’(…army/…military…)的处理。主要的区别在于将‘军’作为一个形容词,类似于英语里的‘military’(即非民事的)来翻译和将‘军’作为一个‘组织指示词’来翻译。为了获得第一种翻译,找出军位于服务‘分支’指示词之前的例子(比如说在‘AirForce’中的空‘air’)。军飞机“U.S.militaryaircraft”[O斯里兰卡空军]“SRILankaairforce”总的说来,以部队“force”做结尾的短语不能当作组织来做标记。[L西非]维和部队“WestAfricapeacekeepingforce”,军事基地“militarybase”应作为地点而非组织来标记。又[L彼得森空军基地]“Petersonairmilitarybase”。9.对于姓名实体(人名,地名和组织名称),假如它是多媒体(电视、广播、电影和书刊)、产品和条约,应该加上“-ms”的标记。一片的播出“DengXiaoping(CL-for-film)’srelease,即电影“邓小平”一片的播出。由于‘邓小平DengXiaoPin’是一个电视节目的标题,根据规范,“DengXiaoPing”应做‘P-ms’标记。条约《[L_ms淮海]战役》这本书的出版10.对实体的别名、绰号和首字母缩写进行标记。“[O深蓝]”[OIBM][L沪][O北约]假如名字实体嵌入首字母缩写实体中,那么名字实体就不需做标记。如,[O中共中央政治局],‘中’意为‘中国’,不用对中做记号。只适用于人的规范1.人的头衔不能视为人名一部分的头衔和角色名。国务卿“Albrightstateminister”[L英国]女王[P伊丽莎白]“QueenElizabethofEngland”但是,传统的指示词“世”和“代”被视为人名的一部分。“fourteenthdalaitenzingyatso”[L英国]女王[P伊丽莎白二世]“England’squeenElizabethII”当一个人的头衔落在其姓和名之间时,要对头衔做标记。先生“LiChairmanDeng-huiMister”2.对姓氏的标记与对人名的相同。氏父子“theJiangfamily,fatherandson”[P西迪]兄弟“theXidibrothers”3.对动物名称的标记与人名的相同。4.对圣人、其他宗教人物和专有名称的标记与人名相同。[P释迦牟尼][P达赖]喇嘛5.对虚构形象的标记与人名相同。6.对虚拟动物和非人类形象的标记与人名相同。7.对特定人物头衔或者朝代名称的标记与人名相同。“KangXi,即康熙皇帝”[P秦始皇]“Qindynastyfirstemperor”[P老子]“Laozi”8、其它不可做标记的人名情形假如人名作为媒体界的头衔(电视、广播、电影和书刊)或者产品和条约中的标题出现,其名字应做上‘p_ms’的标记。如,《[P_ms蒙娜丽莎]》“MonaLisa”,作为一幅画(或者是一本书)的标题,应做上“p_ms”标记。在下面的五种情况中,这些合适的名称不能如人名那样做标记以人命名的法律和法律案件,天气状况,疾病/奖项。里氏六点二级---不能在‘里’上做标记;专家呼吁人们要注意沙氏杆菌---不能在‘沙’上做标记;[P_ms诺贝尔]奖--------用‘P_ms’对“诺贝尔Nobel”做标记。9、中文名字的一般规范一般的,人名由两部分组成姓氏(FN)和名字(GN)仅适用于地点的规范作为地点标记的字符串包括海洋,大陆,国家,省份,县,城市,地区,街道,村庄,城镇,机场,军事基地,公路,铁路,桥梁,河流,海,海峡,sounds,海湾,Straights,沙滩,湖泊,公园,山脉,平原,草原,矿山,展览中心,等等,虚构或杜撰的地点,和确定的建筑物,例如艾菲尔铁塔和林肯纪念碑。[L海淀区][L知春路49号]“Beijingcity,Haidiandistrict,Zhichunroadno.49”[L朝鲜]南北对话“Koreasouthandnorthdialogue”,在朝鲜上标记但不在南/北上标记阿[P以]冲突“conflictbetweenArabandIsrael”,在以色列上标记但不在阿拉伯上标记,因为它指的不是一个特定的国家前[L南]地区“formerYugoslaviaarea”震中位于[L北纬三十六点二零度,东经九十点二九度]“epicenterlocatedatnorth36.0degreeseast95.9degrees”1.对于嵌入在另一地点实体内的地点实体,整个实体都需要标记。“Americamilitarybase”,处理...地区“...district/...area”时没有对美国进行标记。如果地区指的是一个特定地区,则应作为地点的一部分标记;如果‘地区’一般指的是一些区域,则不需标记;如果地区的指向不清楚,则不需标记。[L临沂地区]现更名为[L临沂市]“LinYidistrictnowchangesitnameintoLinYicity”。对于嵌入在地点名称内的组织名称,组织名称不需标记。[L白宫玫瑰园]“whitehouserosegarden”,不用对白宫标记。2.方位指示符应作为地点的一部分被标记。“Marylandstate”[L约旦河]“JordanRiver”地名连续列出的复合表达应作为独立情况的地点来标记。[L吉林省][L延边朝鲜族自治州][L图们市]“JilinprovinceYanbianKoreanautonomousregionTumenmunicipality”。3,过渡性地点实体表达[L西非]国家领导人“westAfricacountryleader”[L亚太]”Asia&PacificRim”,标记为一个体[L西半球]国家“westernhemispherecountries”发展中国家,没有标记。地区名称[L华南]“SouthChina”[L西北五省区]‘Northwestfiveprovinces’使西南地区的客运“causingthesouthwestregion’spassengerservice...”,在“southwest“上没有标记,因为它和[L华南]地区“SouthChinaregion“不是固定说法,但SouthChina是固定说法。4,地点实体表达的时间修饰词语。具有重大历史意义的时间修饰语不包括在标记表述中。前[L南]地区‘theformerYugoslaviaregion’5,地点实体表达的空间修饰词语[L北爱尔兰]”NorthIreland”[L中西伯利亚]“centralSiberia”[L中][L南美]“centralandsouthAmerica”,该表述中包括“中美”和“南美”两个地点实体,因此要分开标记。6,其他不用标记的地点不要在以x-语,x-文等表示语言的形式中标记上地点标识,此处,x表示一地点名称。英语“EnglandLanguage,i.e.English’,在“英”字上不标记,中文‘Chineselanguage’,在“中”字上不标记。在以x-话等表示语言的形式中不能标记上地点标识,此处,x表示一地点名称。用[L四川]话“usingSichuanwords”,在地名“四川”上标记。7,不要在以族,裔结尾或少数民族的部分地区的地点名称中标记。目的是促进[L塞浦路斯]西族与土族的瓦解‘theintentwastopromotepeaceandunderstandingbetweenCyprusGreece-ethnic-groupandturkey-ethnic-group”表达“华裔”,“汉族”,“华”和“汉”中不标记为地点名称,而在表达“华人”,“华侨”,“华商”,“中医”,“中草药”,“中餐馆”的“华”和“中”则不标记为地点名称。8,常用地点名称形式与组织相关的规范标记为组织的专有名词包括股票交易,跨国组织,商业,电视或广播电台,政党,宗教组织,乐队,或音乐团体,协会,及其他命名为“会”或“下议院”,体育团队或军队(只有当由国家名称命名时,标记为地点名称),及虚构的组织名称。公司或组织指定者视为部分组织名称。标记地点的一个基本原则是运用最大化匹配方式前[O中国新华社香港分社社长[P许家屯]‘formerChinaXinhuaNewsHangKongbranchdirectorXuJiatun[O北京大学计算机系人工智能实验室]“PekingUniversityComputingScienceDepartmentArtificialintelligenceLab’常用组织形式1,国内(或国际)立法机关及部门或部委要标记为组织当选[O国会]议员[O内阁]改组将会在八月前完成在[O总统府]分别约见了多为[O国民党]中常委检察官[P刹瓦什]向[O宪政法庭]提出动议2,地点名称后接组织名称的处理。总的说来,地点名称和组织名称有两种关系一种为顺序排列,(如,法国航空航天局“Franceaviationandspaceflightbureau”),另一种为地点连结(如,北京大学BeijingUniversity)2.1对以地点名称开头的组织实体,如果消除的地点名称将涉及一个不特指的地点名称,则只要把消除的名称作为组织的部分予以标记。“BeijingUniversty“[O深圳大学]“ShenzhenUniversity”2.2上述组织名称中,如果其中有一个地点名称(或多于一个的名称)在前面,则把地点名称和组织名称分别标记。[O北京大学]”ChinaBeijingUniversity”[L中国][L广东][O深圳中学]”ChinaGuangdongProvinceShenzhenmiddleschool”2.3对以非地点名称开头的组织实体,(如,同济大学“TongjiUniversity”),如果其中有一个地点名称(或多于一个的名称)在前面,则只在地点名称前面标记,作为组织名称的一部分。“ShanghaiTongjiUniversity“[L中国][O上海同济大学]“ChinaShanghaiTongjiUniversity““HubeiprovinceWuGangNo.3middleschool”2.4如果一个组织实体以两个或以上并列的地点名称开头,则所有地点名称均作为组织名称的一部分予以标记,如果其它的地点名称已经包含在组织名称中,则地点名称和组织名称分别标记。[O亚太法律中心]“LosAngelesAsiaPacificlawscenter”[L香港[O中港贸易协会]“HongKong,China,HongKongCommercialAssociation”2.5在某些比较复杂的情况下,如果组织名称是否以一至两个地点名称开头不太明确,则依据2.1和2.2的规则确定标记地点。如洛杉矶台北经济文化办事处“LosAngelesTaipeiEconomics&CultureOffice”记为AsiaPacificlawscenter”[L洛杉矶][O台北经济文化办事处]还是[L洛杉矶台北经济文化办事处]这种情况下,第一种标记方法是错误的。2.6注解者不能完全确认组织名称是否以地点名称开头的情形如在表达“印度尼西亚莫巴蒂努山打腊航空公司”,注解者不确定莫巴蒂努山打腊是否为一地名。但是,可以确定的是,一旦把这行删除,则其左边的行就不再特指。因此,根据2.1,该表达应该标记为[L印度尼西亚][O莫巴蒂努山打腊航空公司]。2.7如果一组织名称紧接于一地点实体后,而且它们之间没有修饰关系,则分别标记两者。促进了[L中国][O东盟]的合作“havepromotedthecooperationbetweenChinaandSoutheastAsia”在[L日内瓦][O联合国]人权会议上”onGenevaUNhumanrightsconference”3.以“。。。会”结尾的短语(小型会议,大型会议。艺术博览会,体育运动会)表示冲答活动的,不能标记为组织名称。但制度机构本身—如筹划指导委员会-应该标记为组织。奥运会“Olympicsportsmeeting”[O奥运会组委会]“OlympicCommittee”如果短语“...会”指“协会”或“代表大会”,他们应当标记为组织。注意,“协会”或“代表大会”的历次会议不能标记为组织,因为他们是事件。八届五次会议将于听取和审议[O全国政协八届五次会议常务委员会]报告[O九届人大]一次会议第一人称代次“我”,“我们”作为修饰语置于组织实体前面的,该代词不能作为组织的一部分标记。我国[O共产党]“IcountryCommunistParty”我们[O清华大学]“WeTsinghuaUniversity”.5.使馆和领馆只有当使、领馆或其他外交机构所代表的国家和所在地都在表述中时,他们的名称应当标记为组织名称。后来调任[O美国驻洪都拉斯大使馆]“thentransferredtoU.S.stationedatHondurasembassy”.如果使馆的描述符和它所代表的国家,地区临近,则国家和地区名称作为组织名称的部分予以标记。前往[L香港]的[O洪都拉斯领事馆]“gotoHondurasEmbassyinHongKong’.如果使馆的描述符和它所代表的地点位置临近,则把地区名称单独标记,但使馆名称不作为组织名称标记。在通过驻[L金沙萨]大使馆和其他正常渠道“U.S.goingthroughstationedatKinshasaembassyandothernormalchannels”.6.制造品和产品在制造品和产品的名称中,制造品作为组织名称标记,而产品名称不标记。产品必须松散的定义以包括制造型产品(如,交通工具),使用计算机的产品(如,股票指数)和媒体产品(如,电视表演)。工业平均指数“DowJonesindustrialaverageindex’.7.将新闻来源(报纸、广播电台、电视台和新闻杂志)标记为组织。将出版人和出版物都标记为组织。注意电视台和电视节目不同,后者不作标记。海外版第三版“Peoples’dailyoverseaseditionpaythree”.这是[O中央台]报道的“thisiscentralstationreporting”.8、类似组织的名称不标记普通实体名称“政府”不标记。政府“Chinagovemment”[L新疆自治区]政府“XinjiangAutonomydistrictgovemment“[O中国公安部]门“Chinapublicsafetydepartment(s)”.不要把术语“中央”“center”作为组织名称标记,但“党中央”“partymember“作为组织名称标记。在中央的领导下“undertheleadershipofthecenter”.以[P江泽民]同志为核心的[O党中央]周围“partycenter,withcomradeJiangZemingasitsnucleus’.不要把“交易会””exchangefair”作为组织名称标记。[L天津]出口商品交易会“ChinaTianjinexportedcommodityexchangefair”.9、几个特定名称实体要标记[L人民大会堂]“theGreatWall”[O白宫]“WhiteHouse”[O克里姆林宫]表示Kremlinsays”如何标记时刻“时刻类型”(TIME)是指比天小的时间单位,如“秒、分钟、或小时”。“时间子类型”(DATE)是指天或比天长的时间单位,如“天、周、月、季、年、世纪等”。“持续子系统”(DURATION)指持续的时间。1.时刻系统对于字符串”前/头/下+持续时间“的形式,整个短语标记为dat-MET,因为持续时间包括在时间中,不必单独标记。“thefirstthreedays”[dat秋季]报告“autumnreport”[dat第四季度]“thefourthquarter”[dat十五世纪]“thefifteenthcentury”[dat春节]“thespringFestival”注意字符船“(上/中/下)旬thefirst/second/lasttendaysofonemonth”要标记,如[dat五月上旬]“thelasttendaysofMay”.修饰性的单词、短语,如“around”“about”不标记。大约[dat五月四日]“aroundMay4th”2.时间系统[tim凌晨三四点钟]“threetofouro’clockinthemorning”[tim北京时间5时59分]“Beijingtime5hourfiftynineminutes[tim_MET上午]、[tim_MET中午]、[tim_MET下午]、[tim_MET晚上]“morning,noon,afternoon,evening”“大约about/around“的处理[tim晚上大约七点]到达“intheeveningabout7hoursarrive”在该短语中,字符串“about”被两个时刻词限定,而且是不可分的,因此要标记。大约[tim七点]到达北京“September13thaboutseveno’clockarriveinBeijing.在该短语中,字符串“大约”分别被一个时间和一个时刻词限定,因此是、可分的,因此要标记。3、持续时间[dur10天]“10days”在水门丑闻[dur四分之一世纪]时发表的评论“inthequartercenturyofdiscussionssincetheWatergatescandal...”整整[dur十五年]“exactlyfifteenyears”[dur九点]整到达北京站“exactlyat9o’clockarriveatBeijingstation”十年九旱“nineyearsdroughtintenyears,i.e.oftensufferingdrought”,在数字九、十上不标记,因为他们是虚指。4、不标记的情形没有特别限定的时间范围的时间表述不标记,如“刚才,近来,自从谈判以来,一会儿”。在节日不是某固定日期的情形下,该节日不标记。国际电影节“Indiainternationalfilmfestival”[L中国]旅游年“YearofChinaTourism,referring1997”[L美国]的独立日“U.S.IndependenceDay”中,“独立日”不标记,因为其指代的是一事件。春联“Springcouplets”中的春“Spring“不标记。5、特别情形当两个时刻表达分属于不同子类型时,应该将其分别标记;如果这两个表达术语不可分的,则将其一起标记。[tim上午八点]“Feb.12am8o’clock”[dat星期一][tim8点]“Monday8o’clock”如果一个地点实体包括在时刻表达中,就要涉及MET-2规范中的标符“MET”。根据可选择的说明书,可使用”ER99”标记。类似“去年”、“昨天”、“今天上午”等表述要根据MET-2分别标记,因此要求注解者注意其他标记的区别和用法。][dat_MET今年[dat_ER99夏天]][dat_MET今年[dat_ER99三月一日]][dat_MET今年[dat_ER994月17日上半年]][tim_MET下午][dat_MET去年[dat_ER99春夏之交]][tim_MET昨天[tim_ER99夜里]][dat_MET今天[tim_ER99晚上]][tim_MET今早[tim_ER99六点]][tim早上六点]][dat_MET当日][tim_MET下午][dat_MET当日][tim下午16时30分]每日[tim_MET][tim_ER99上午11时]至[tim_er99深夜3时][tim_MET晨]练、[tim_MET晚]宴在表达“今早thismorning’时,ER-99将其作为一个关联的时间实体而不标记,而MET-2则对关联的时间实体标记。至[dat_ER9927日]]][dat_MET[dat_ER9911月24]至[dat_ER9927日]][tim_MET昨夜]迄[tim_MET今]后对于表达“数年quiteafewyears”,ER-99将其作为一段固定持续的时间予以标记,但对”多年manyyears”,是一段不固定的持续时间而不标记。表达“一年oneyear”作为持续时间要标记。新的[一年]即将开始入伍[dur一年]多的时间里硬是在地下室干了[dur一年]的公司一年创产值效益......一年便多收入......聘金为一年[mon900万美元]的价码表达“每年eachyear’/年annual,yearly’不标注,如年产值......每年创产值效益......每年收入......如何标记数字1、百分率[per百分之三十九]“thirtyninepercent”大约[per5%]“aboutfivepercent”[per九成]“ninetypercent”2、金额[mon四万五千块钱]“fortyfivethousandYuanmoney”RMB[mon四万五千人民币]“fortyfivethousandRMB”[mon人民币四万五千元]“RMBfortyfivethousandYuan”在同一笔金额用不同的货币单位表示时,应该将它们分别表示。包括在金额中的地点名称不必标记。“43.6billionUSD”字符“约about”没有确定的含义,不必予以标记。约[mon十万元]“aboutonehundredthousandYuan”多于[mon$90,000]“morethan$90,000”字符“几several”可能为确定的数字替换表达一个确定的含义,因此应当予以标记。“severalhundredthousandYuan”字符“余over”一般不标记,但在下列情况下,要标记因为整个短语时不可分的。“twenty-sevenhundredthousandoverYuan”本规范中,地点包括在货币名称中的,如果货币名称是缩写的就不标记,如果不是缩写的就标记为”-ms”.“2000SID”[mon2000[L_ms新加坡]元]“2000SingaporeDollasYuan”3、频率/整数/分数/小数/序数[fre26次][fre十多次][fre多次][fre3/4][fre四分之三][fre百万分之八][fre百万分之三百六十四][fre半][fre4倍半][dec3.14][dec三点一四][ord第二]故乡[ord1174号]文件[ord6路]汽车[ord第一]天[ord第二]年[int20名]杰出教师[int亿万]人民[int几千万盆]如果整数/分数/小数的数字作为修饰语,则数字也应标记在内。工厂”several‘jia’factories”一家[int5口]人“onefamilywithfive‘kou’persons”[int58倍]“58times”.4、特殊情况制表的数字不标记。一靠政策调动农民的积极性;二靠科技;三靠投入1、自卑的羞耻感。2、依赖的恐惧感。3、温饱即安的安全感。(1)加强爱国主义的宣传教育(2)加强正确的理想、信念、人生观、价值观的宣传教育(3)加强马克思主义的唯物辩证法的宣传教育一些习语种的数字,如“一会儿onemoment”“一起together”、“一流firstlevel”、“唯一onlyone”等,不标记。包括在人名、地名、组织名称中的数字不标记。“No.1middleschool”[L三明市]“SanMingcity”任队长的[O1205钻井队]字符“一”作为冠词时不标记;一倍中的“一”要标记,作为表示序数的部分时要标记。一座城市“acity“最大的企业之一”oneofthebiggestcompanies”[ord一等]奖”thefirstprize“我的收入是他的[int一倍]“myincomeisonetimeoverhis“.如何标记度量度量(MEASUREX)包括年纪,体重,身高,温度,角度,面积,容积,速度和比率。[age六十寿辰][age花甲]老人产量达到[wei数千万吨]开掘到[len一米六七]深度时高[len五米]宽[len一百米]积温高([tem2800度])钝角就是大于[ang90度]的角农田[are20万亩]运输量为[cap34个立方]一[cap两箩]谷子最高速度[spe360米每秒][wei二十万吨级]以上[tem零下5]到[tem6摄氏度]注意物理、化学领域的其他表示重量和测量的度量单位,应当标记为“mea”.”5.5watt”[mea1.5牛顿]“1.5Newton”如何标记地址地址(ADDRESS)包括电子邮件,电话,传真,电报,网址[emaexp@email.com.cn]Tel[pho86-10-66665555]电话[pho86-10-66665555]FAX[fax86-10-66665555]TELEX[tel86-10-66665555][wwwhttp----www.hotmai.com]对于电话或传真中的数字,只有当有“tel,电话”等指示词时才标记。尽管已经结合了特定的实施方案描述了本发明,本领域普通技术人员应当知道在形式和细节上的改变并不背离本发明的精神和范围。权利要求1.一种存储在计算机可读介质中的用于训练语言模型的主体,所述主体包括多个字符;和与多个字符的字符序列相结合的多个语法标记,所述多个语法标记指的是结合的字符序列的语法类型和形成语法子类型的部分的联合。2.根据权利要求1的主体,其中语法类型是附加、重叠、拆分、合并和题目小品(headparticle)中的一种。3.根据权利要求1的主体,其中语法类型是附加且部分联合包括一个字和前缀和后缀中的至少一个。4.根据权利要求1-3任一项的主体,其中部分的联合指的是字的语言的一部分。5.根据权利要求1任一项的主体,其中语法类型是重叠且部分联合包括字符格式(pattern)。6.根据权利要求1任一项的主体,其中语法类型是拆分且部分的联合包括字符格式(pattern)。7.根据权利要求1-6任一项的主体,进一步包括提供指明字符序列是否仿真陈述的多个仿真陈述标记。8.根据权利要求1-7任一项的主体,进一步包括提供指明字符序列是否已命名实体的多个已命名实体标记。9.根据权利要求1-8任一项的主体,进一步包括对字符序列是否包括在词典中的指明。10.一种具有用于执行字分割的指令的计算机可读介质,所述指令包括接收未分割文本的输入;访问语言模型来确定文本的分割;检查文本中的语法导出字;和提供分割文本的输出和表示形成语法导出字的部分的联合。11.根据权利要求10任一项的计算机可读介质,其中所述指令进一步包括指明语法导出字是附加、重叠、拆分、合并和题目小品(headparticle)的一种。12.根据权利要求10-11任一项的计算机可读介质,其中所述指令进一步包括检查文本中的词典。13.根据权利要求10-12任一项的计算机可读介质,其中所述指令进一步包括检查文本中的仿真陈述。14.根据权利要求10-13任一项的计算机可读介质,其中所述指令进一步包括检查文本中的已命名实体。15.根据权利要求10-14任一项的计算机可读介质,其中提供的输出进一步包括指出用于(for)部分联合文本的语言的一部分。16.根据权利要求10-15任一项的计算机可读介质,其中提供的输出进一步包括指出形成部分联合的字符模型(pattern)。17.一种开发用于训练语言模型的主体的方法,其包括从与定义的字和规则相匹配的主体中提取潜在词汇列表;确定所述列表中是否包括足够数量的已定义文字和规则;为主体加注解从而提供文字类型指示;和在表示字符联合序列和形成语法子类型的部分组合的语法类型的主体中提供语法标记。18.根据权利要求17任一项的方法,其中加注解进一步包括提供对所述字是否表示一个词典字、语法导出字、仿真描述和已命名实体。19.根据权利要求17或18的方法,其中语法类型是附加、重叠、拆分、合并和题目小品(headparticle)中的一种。20.根据权利要求17、18或19的方法,其中提供的语法标记进一步包括表示部分组合语言的部分。21.根据权利要求17-20任一项的方法,其中提供的语法标记进一步包括部分组合指明字符的模式。22.根据权利要求17-21任一项的方法进一步包括,在提供主体的语法标记后,使用所述主体来为大量的文本加注解。23.一种适于执行根据权利要求17-22任一项的方法的计算机系统。全文摘要本发明涉及一种用于在训练语言模型时使用的主体。所述主体包括多个字符和与多个字符序列结合的多个语法标记。所述语法标记指的是字符的结合序列的语法类型和形成语法子类的部分的结合。文档编号G06F17/28GK1661592SQ20041010238公开日2005年8月31日申请日期2004年9月15日优先权日2003年9月15日发明者黄昌宁,高剑峰,M·李,A·X·常申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1