文本中数字和特殊符号串的文字符号化处理方法及系统的制作方法

文档序号:6564240阅读:416来源:国知局

专利名称::文本中数字和特殊符号串的文字符号化处理方法及系统的制作方法
技术领域
:本发明涉及对自然语言文本中复杂形式的数字和特殊符号进行文字符号化的处理技术,具体的讲是一种文本中数字和特殊符号串的文字符号化处理方法及系统。
背景技术
:在自然语言文本中,数字和特殊符号(包括外来语符号,例如汉语中的英文字母)作为自然语言系统中的基本符号广泛且大量地存在着。以汉语为例,在人民日报1998年的语料中,大约25%的句子中存在着数字或特殊符号。在信息处理领域中,许多与自然语言处理技术相关的应用如自然语言理解、机器翻译、语音合成等,都需要能够对自然语言文本中可能存在的数字、特殊符号串进行准确的理解,在理解的基础上对其中的数字或特殊符号进行文字符号化处理,即将数字或特殊符号转换为与其等价的文字。在语音合成系统中,在对数字或特殊符号进行文字符号化处理的基础上,还要进行字转音的处理,并根据数字、特殊符号串的结构加上适当的词边界或者更高一级的韵律词边界,从而使得语音合成的声音更自然。因此,对于许多与自然语言处理技术相关的应用中,一个有效的数字、特殊符号文字符号化处理系统是必需的。数字和特殊符号由于广泛地存在于自然语言文本中,因此也形成了许多常用的固定格式。就数字而言,在不同的上下文语境中,或是在不同的习惯用法结构中,有两种可能的读法,一种是数值读法,另外一种是电报读法。以汉语为例,"130"用于描述数量例如"这台高速打印机一分钟可以打印130页纸"时,读作"一百三十",而在"130医院"或"130钻井队"这样的语境中读作"幺三零"。又如"70年",作为独立的语法单元,其本身就有歧义性,可以是"七零年"(表示1970年),也可以是"七十年"(表示时间段)。此时,往往需要在更广、更深的层次例如段落、篇章上下文分析或者语义理解的基础上来对其进行准确的文字符号化处理。特殊符号的语用形式更是多种多样,对于特殊符号的文字符号化,存在两方面的问题。一方面是其用法的多样性,另外一方面是由此带来的可能的歧义性。以汉语为例,"-"、"/"和""是三个常用的符号。由于它们可以作为不同的语用手段出现在很多固定格式中,因此它们也是很难被计算机正确理解的。这些特殊符号经常是伴随数字-一起出现的,更进一步,有的时候这些特殊符号、数字中间会夹杂着汉字一起出现,它们组合在一起构成一个大的语法单元。例如"2000元/月","16日一19日","3个月-6个月","波音-747","电话:6599223865993388—1826、1828"等。特殊符号的歧义性也是必须要解决的问题之一,例如""在下面三句话中起着不同的语用作用,在例句1和例句3中""应该文字符号化为"比",在例句2中应该文字符号化为"点"。例句l:实行6:2:2的结构工资制例句2:7月21日晚上19:30分例句3:她击败对手的比分为6:2、5:7和7:5关于自然语言文本中复杂形式的数字和特殊符号进行文字符号化的处理存在多篇现有文献,特将美国专利6,721,697(Duan;Lei;Franz;Alexander;Horiguchi;Keiko;April13,2004,Methodandsystemforreducinglexicalambiguity);美国专利6,266,642(Franz;AlexanderM.;Horiguchi;Keiko;July24,2001,Methodandportableapparatusforperformingspokenlanguagetranslation);美国专利6,826,568(Bernstein;PhilipA.;Madhavan;Jayant;November30,2004,Methodsandsystemformodelmatching);美国专禾lj5,930,756(Mackie;AndrewWilliam;Miller;CoreyAndrew;Karaali;Orhan;June23,1997,Method,deviceandsystemforamemory-efficientrandom-accesspronunciationlexiconfortext-to-speechsynthesis);美国专利6,182,028(Karaali;Orhan;Mackie;AndrewWilliam;November7,1997,Method,deviceandsystemforpart-of-speechdisambiguation);所公开的内容合并于此作为本发明申请的现有技术文献。一般来说,数字和特殊符号文字符号化系统是利用上下文知识,对于不同格式的数字、特殊符号串编写具有针对性的规则来实现的。如"这台高速打印机一分钟可以打印130页纸",通过对"130"数字串和下文量词"页"的考察,可以获得"130页"为"数词+量词"的理解,应用相应的文字符号化规则(数值读法),从而获得文字符号化结果为"这台高速打印机一分钟可以打印一百三十页纸"。现有技术中,数字和特殊符号文字符号化系统是通过顺序扫描输入文本,逐段抽取其中的数字和特殊符号串,然后对其进行模板匹配来实现的。这样的系统主要有下面两个缺点一是考察的范围往往小于语义单元的实际区间。这样,在有些情况下就不能做到完全的语义理解,甚至有的时候是错误的语义理解,因此获得错误的文字符号化结果。先前的系统往往顺序扫描输入文本,发现数字或特殊符号,随时判断其可否符号化,遇到特殊符号,则调用该特殊符号的处理规则。这种扫描机制的弱点就在于其考察范围的局部性。对于前面简单的"数值+量词"情况,一般没有问题。但是,对于稍微复杂的一些情况,有的时候考察的范围就显得比较孤立。譬如"1970年1月1日9:30分",可能就被划分成了四个区域"1970年"、"1月"、"1曰,,和"9:30分"分别进行处理。实际上,这四个区域组成了一个完整的语义单元,在自然语言理解后处理中应该被处理为一个语块,在语音合成应用相关的后处理中,还应该被看作是一个韵律短语。更甚之,在一些复杂的情况下,由于无法从全局考察整个语义单元,有的时候就不能解决一些歧义,尤其是特殊符号的歧义。下面是三个例句,只有在全局理解的基础上,才能实现对其正确的文字符号化处理。例句1:大多数新被艾滋病病毒感染的人是年龄在"岁的年轻人。例句2:电话659""S659^3^—7(^6、7&S。例句3:绥中i^L油田位于渤海辽东湾北部。另外,还有一类情况,也只有在全局理解的基础上,才能实现对其正确的文字符号化处理。下面是两个例句。例句4中的"1996"部分只有在考察完"1996、1997两年"后才能确定其语义(年),因此应该按照电报读法去文字符号化数字串"1996"。换句话说,"1996"的文字符号化规则继承了"1997"的文字符号化规则。因此,这里把这类问题归类为反向继承问题。当然,这种反向继承的使用需要很严格的限制。譬如,在下面这两个汉语例句中,标点符号顿号是反向继承的前提条件之一。例句4:仅1996、1997两年就繁殖成活10只。例句5:据排碱指挥部提供的资料1985、1986、1987年粮棉产量连年递增。可见,现有技术的通过顺序扫描输入文本,逐段抽取其中的数字和特殊符号串,然后对其进行模板匹配来实现的数字和特殊符号串处理,无法从全局考察整个语义单元,也没有以反向继承的方式去处理数字和特殊符号串,因此不能解决文本中的一些歧义,尤其是特殊符号的歧义。
发明内容本发明的目的在于,提供一种文本中数字和特殊符号串的文字符号化处理方法及系统,基于文本中数字和特殊符号的构成规律,对文本中数字、特殊符号串进行逐段模板识别的同时,考察当前数字、特殊符号串的上下文语境,即同时考察可能的前后相邻数字、特殊符号串的模板类型,对于复杂形式的数字、特殊符号串,能够发现其对应的完整语义单元,然后确定该语义单元所对应的精准模板,从而能够对复杂形式的数字、特殊符号串进行精准的文字符号化处理。本发明提供了一种自然语言文本中数字和符号串的文字符号化处理方法,所述的方法包括以下步骤输入自然语言文本;逐段抽取所述自然语言文本中的数字和符号串;将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;记录历史数字和符号串的模板类型及相关信息;根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理。在当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息中找到相关的上下文语境,则使当前数字和符号串与相邻的历史数字和符号串组合为一个语义单元,并生成该语义单元所对应的模板,记录该语义单元所对应的数字和符号串信息。对所述的语义单元进行应用所需的标记。所述的上下文语境包括模板类型、区间范围、文字符号化规则等。遍历历史数字和符号串的模板类型及相关信息,如果找到未被文字符号化处理的数字和符号串,则判断是否对该数字和符号串进行反向继承文字符号化规则,如果是则根据反向继承文字符号化规则对该数字和符号串进行处理。对在文字符号化处理中添加的新文字进行后处理。所述的符号是指非自然语言符号。本发明还提供了一种自然语言文本中数字和符号串的文字符号化处理系统,所述的系统包括输入部,用于输入自然语言文本;数字和符号串抽取部,用于逐段抽取所述自然语言文本中的数字和符号串;模板匹配部,用于将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;历史信息记录部,用于记录历史数字和符号串的模板类型及相关信息;文字符号化规则生成部,用于根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理,生成当前数字和符号串的文字符号化规则。所述的系统还包括上下文语境考察部,用于对当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息进行考察;语义单元确定部,如果在当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息中找到相关的上下文语境,则使当前数字和符号串与相邻的历史数字和符号串组合为一个语义单元,并生成该语义单元所对应的模板;所述的历史信息记录部记录该语义单元所对应的数字和符号串信息。所述的系统还包括语义单元标记部,用于对所述的语义单元进行应用所需的标记。所述的系统还包括反向继承部,用于遍历历史数字和符号串的模板类型及相关信息,如果找到未被文字符号化处理的数字和符号串,则判断是否对该数字和符号串进行反向继承文字符号化规则,如果是则根据反向继承文字符号化规则对该数字和符号串进行处理。所述的系统还包括后处理部,用于对文字符号化处理中添加的新文字进行后处理。本发明还提供了一种自然语言文本中数字和符号串的文字符号化处理程序,所述的程序包括输入自然语言文本;逐段抽取所述自然语言文本中的数字和符号串;将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;记录历史数字和符号串的模板类型及相关信息;根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理。本发明还提供了一种存储自然语言文本中数字和符号串的文字符号化处理程序的可读存储介质,所述的可读存储介质存储有以下程序输入自然语言文本;逐段抽取所述自然语言文本中的数字和符号串;将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;记录历史数字和符号串的模板类型及相关信息;根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理。本发明的有益效果在于,本发明基于文本中数字和特殊符号的构成规律,对文本中数字、特殊符号串进行逐段模板识别的同时,将考察当前数字、特殊符号串的上下文语境,即同时考察可能的前后相邻数字、特殊符号串的模板类型,对于复杂形式的数字、特殊符号串,能够发现其对应的完整语义单元,然后确定该语义单元所对应的精准模板,从而能够对复杂形式的数字、特殊符号串进行精准的文字符号化处理。与此同时,可以对大的语义单元进行应用所需的其他标记。譬如,在自然语言理解后处理中当前大的语义单元被标记为一个语块,或者在语音合成应用相关的后处理中,还应该被标记为一个韵律短语,其中又可能涉及到韵律词的划分等等。最后,该方法提供了一种反向继承的机制。提高了对文本中数字和特殊符号的识别精度和效率。图1、为本发明系统的结构框图2、为本发明系统实施例的流程框图3、为本发明的关联处理流程框图4、为本发明的反向继承流程框图5、为本发明具体实施方式的文字符号化处理流程框图6、为本发明具体实施方式的文字符号化处理反向继承的流程框图7、为本发明具体实施方式的模板语境考察知识库的示意图8、为本发明具体实施方式的数字/特殊符号串历史数据库示意图9、为本发明具体实施方式的其他标记知识库的示意图10、为本发明具体实施方式的模板文字符号化规则知识库示意图11、为本发明具体实施方式的模板反向继承知识库的示意图。具体实施例方式下面结合本发明的具体实施方式。如图1所示,本发明为一种自然语言文本中数字和符号串的文字符号化处理系统,所述的系统包括输入部,用于输入自然语言文本;数字和符号串抽取部,用于逐段抽取所述自然语言文本中的数字和符号串;模板匹配部,用于将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;历史信息记录部,用于记录历史数字和符号串的模板类型及相关信息;文字符号化规则生成部,用于根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理,生成当前数字和符号串的文字符号化规则。本发明系统可以基于计算机、服务器或服务器与终端构成的网络中实现,其中的输入部可以是键盘、鼠标、语音或通信接口等方式或其结合;输出可以是屏幕、打印机、通信接口或语音等方式或其结合。在自然文本中数字和特殊符号的文字符号化处理系统实施例的基本原则如图2所示。该系统中,模块IOI为输入的任意文本。文本预处理部(模块102)对输入文本进行归一化处理,其中包含标点符号的处理、语用符号的处理、其它语言文字的处理、编码格式的归一(在汉语的应用中,把全角字符转换为半角字符或者反之)等。数字/特殊符号串模板匹配部(模块103)逐段匹配输入文本中可能存在的数字/特殊符号串。在其中,该模块将顺序扫描输入文本,逐段抽取其中的数字/特殊符号串,然后将当前数字/特殊符号串与模板库中己定义的模板进行匹配,获得其所属模板类型。上下文语境处理部(模块104)即为本发明的主体部分。该模块将对当前数字/特殊符号串的上下文语境进行分析,从而能够在全局理解的基础上,实现对当前数字/特殊符号串的正确文字符号化处理。具体来说,上下文语境处理部(模块104)由两个子模块组成。一是关联处理部(模块1041),二是反向继承部(模块1042)。前者首先负责记录历史数字/特殊符号串相关信息如区间范围、匹配模板类型、文字符号化规则等,然后根据当前数字/特殊符号串的模板类型进行相应的语境考察,最终从全局的角度对当前数字/特殊符号串进行更精准的文字符号化处理。后者解决反向继承方面的问题。数字/特殊符号串文字符号化部(模块105)对数字/特殊符号串进行文字符号化处理。该模块根据当前数字/特殊符号串所属的模板类型,结合可能的上下文语境,对当前数字/特殊符号串进行文字符号化处理。模块106是后处理部,对在文字符号化过程中添加的新文字进行后处理。在自然语言处理中,可能是词边界、语块边界的引入等。在语音合成中,还包括对新文字进行注音以及添加边界韵律等级等。模块107为最终的分析结果。图3给出了关联处理部(模块1041)的详细描述。模块202是上下文语境考察部,它根据当前模板类型(由模块103数字/特殊符号串模板匹配部获得),调用模块201中模板语境考察知识库储存的相关语境考察知识,对当前数字/特殊符号串的上下文语境进行考察。当前数字/特殊符号串的上下文语境由模块203中储存的数字/特殊符号串历史数据库得到。模块204是精准模板生成部,即上述的语义单元确定部。它根据上下文语境考察部的考察结果,如发现有相关的上下文语境,也就是说发现了大的语义单元,即进行该大的语义单元所对应的精准模板的生成。新得到的精准模板类型存储在模块205中。模块206是数字/特殊符号串历史记录部,它负责记录数字/特殊符号串历史信息。如果在前述精准模板生成部中发现了大的语义单元,模块206还将更新之前的数字/特殊符号串历史信息,即以大的数字/特殊符号串语义单元覆盖之前的局部数字/特殊符号串信息。换句话说,记录对应于完整语义单元的数字/特殊符号串历史信息。模块208是其他标记部,它根据模块207中的其他标记知识库,负责对当前大的语义单元进行可能的其他标记。譬如,在自然语言理解后处理中当前大的语义单元被标记为一个语块,或者在语音合成应用相关的后处理中,还应该被标记为一个韵律短语,其中又可能涉及到韵律词的划分等等。模块210是文字符号化规则生成部,它负责调用模块209模板文字符号化规则知识库中储存的相关精准模板的文字符号化规则,生成当前数字/特殊符号串的文字符号化规则。分析结果储存在模块211文字符号化规则分析结果中。图4详细描述了反向继承部(模块1042)的处理流程。模块301负责遍历数字/特殊符号串历史记录。模块302负责检査数字/特殊符号串历史记录中有无尚未被文字符号化的数字/特殊字符符号串。如果发现所有数字/特殊字符符号串均已经被文字符号化,结束。如果发现有尚未被文字符号化的数字/特殊字符符号串,则转模块304反向继承检查部进行后续处理。模块304是反向继承检査部,它根据当前模板类型调用模块303中模板反向继承知识库储存的相关反向继承限制条件,对当前数字/特殊符号串可否反向继承文字符号化规则进行检查。如果不可继承,转模块301。如果可以继承,则填写当前数字/特殊符号串的文字符号化继承结果(模块305),然后转模块301。本发明对于复杂形式的数字、符号(特殊符号)串,能够发现其对应的完整语义单元,然后确定该语义单元所对应的精准模板,从而能够对复杂形式的数字、特殊符号串进行精准的文字符号化处理。在此基础上,可以对大的语义单元进行应用所需的其他标记。譬如,在自然语言理解后处理中当前大的语义单元被标记为一个语块,或者在语音合成应用相关的后处理中,还应该被标记为一个韵律短语,其中又可能涉及到韵律词的划分等等。并且提供了一种反向继承的机制。自然语言包括汉语、日语、英语等多种语言,现以汉语为实例,在语音合成系统中实现的一个对汉语文本中数字和特殊符号进行文字符号化的处理方法和装置,能够对文本中可能存在的数字、特殊符号串进行正确的文字符号化处理,尤其适合处理一些复杂的数字、特殊符号串例如电话号码、有特殊符号的数量区间等。图5给出了一个汉语文本中数字和特殊符号的文字符号化处理的具体例子。数字/特殊符号串模板匹配部(模块103)逐段匹配输入文本中可能存在的数字/特殊符号串。在其中,该模块将顺序扫描输入文本,逐段抽取其中的数字/特殊符号串,然后将当前数字/特殊符号串与模板库中己定义的模板进行匹配,获得其所属模板类型。这样,在这个例句文本中,有两个数字/特殊字符串,即"15"和"-44"。而实际上,"15岁-44岁"是一个完整的语义单元。在单纯的顺序扫描、逐段匹配的机制下,对数字/特殊符号串考察的范围往往小于语义单元的实际区间。这样,在类似本例句的情况下就不能做到完全的语义理解,甚至有的时候是错误的语义理解,并因此获得错误的文字符号化结果。在图5中,边框加黑的框内为模块103数字/特殊符号串模板匹配部顺序扫描、逐段匹配所获得的数字/特殊符号串。第一个数字/特殊符号串"15"的匹配模板为"一般正整数",结合后续的量词"岁",确定其文字符号化方法为数值读法。第二个数字/特殊符号串"-44"的匹配模板为"单减号领头的数",这个匹配模板交给模块1041关联处理部进行上下文语境的考察,结合后续的量词"岁"、前一数字/特殊符号串的模板类型,确定当前数字/特殊符号串应该和前一数字/特殊符号串组合为一个大的语义单元即"15岁一岁",其精准模板为数量区间,并因此确定其文字符号化方法为数量区间、数值读法。最终,输入文本"艾滋病己成为15岁一44岁青壮年人群死亡的首位原因。"被文字符号化为"艾滋病已成为十五岁至四十四岁青壮年人群死亡的首位原因。"。另外,在自然语言理解应用中,其他标记部可以将"十五岁至四十四岁"标记为一个完整的语块。在语音合成应用中,其他标记部可以将"十五岁"和"至四十四岁"标记为两个韵律词,并且可以考虑把"十五岁至四十四岁"标记为一个韵律短语。图6给出了一个文本中数字和特殊符号的文字符号化处理反向继承的具体例子。一般来说,数字/特殊符号串模板匹配部(模块103)逐段匹配输入文本中可能存在的数字/特殊符号串。在其中,该模块将顺序扫描输入文本,逐段抽取其中的数字/特殊符号串,然后将当前数字/特殊符号串与模板库中已定义的模板进行匹配,获得其所属模板类型。这样,在这个例句文本中,有三个数字/特殊字符串,即"1985"、"1986"和"1987"。在对"1985"或"1986"进行处理的时候,由于从左向右顺序分析,此时仅仅是局部的理解,因此,无法做出正确的文字符号化处理。只有在全局理解的基础上,即考察到"1987(年)"部分,经过本发明中的反向继承部处理后才能实现对全部三个数字/特殊符号串的正确文字符号化处理。在图6中,边框加黑的框内为模块103数字/特殊符号串模板匹配部顺序扫描、逐段匹配所获得的数字/特殊符号串。第一个数字/特殊符号串"1985"的匹配模板为"一般正整数(四位数)",由于未考察到任何的上下文关键词,无法确定其文字符号化方法,因此暂定为缺省。第二个数字/特殊符号串"1986"同前。第三个数字/特殊符号串"1987"的匹配模板为"一般正整数(四位数)",结合后续的特殊词"年",确定当前数字/特殊符号串的模板为"年日期",且"1987"的文字符号化方法为电报读法。然后,模块1042反向继承部检査有无反向继承的可能性。这样,数字/特殊符号串"1986"后的"、"和之前的"、"决定了"1986"反向继承其后数字/特殊符号串的文字符号化方法,即"年日期"模板的文字符号化方法。同理,数字/特殊符号串"1985"也反向继承。最终,输入文本"据排碱指挥部提供的资料1985、1986、1987年粮棉产量连年递增。"被文字符号化为"据排碱指挥部提供的资料一九八五、一九八六、一九八七年粮棉产量连年递增。"。图7是模板语境考察知识库(模块201)的具体实现示例。在图7中,给出了模板语境考察知识库的基本数据结构和一个例子。在模板语境考察知识库中至少存储当前数字/特殊符号串所属模板类型、前一个数字/特殊符号串模板类型、前一个数字/特殊符号串结束位置、前一个数字/特殊符号串扩展结束位置、前一个数字/特殊符号串关键词类型、当前数字/特殊符号串关键词类型和精准模板类型。图8是数字/特殊符号串历史数据库(模块203)的具体实现示例。在图8中,给出了数字/特殊符号串历史数据库的基本数据结构和一个例子(图5例句中的"15(岁)")。在数字/特殊符号串历史数据库中至少存储数字/特殊符号串所属模板类型、数字/特殊符号串开始位置、数字/特殊符号串结束位置、数字/特殊符号串扩展开始位置、数字/特殊符号串扩展结束位置、数字/特殊符号串关键词类型和数字/特殊符号串关键词内容。图9是其他标记知识库(模块207)的具体实现示例。在图9中,给出了其他标记知识库的基本数据结构和两个例子。在其他标记知识库中至少存储当前数字/特殊符号串所属模板类型、韵律词标记规则和韵律短语标记规则。图10是模板文字符号化规则知识库(模块209)的具体实现示例。在图10中,给出了模板文字符号化规则知识库的基本数据结构和两个例子。在模板文字符号化规则知识库中至少存储模板类型、上下文规则、关键词规则和符号化规则。图ll是模板反向继承知识库(模块303)的具体实现示例。在图11中,给出了模板反向继承知识库的基本数据结构和一个例子。在模板反向继承知识库中至少存储当前数字/特殊符号串所属模板类型、下一个数字/特殊符号串模板类型、下一个数字/特殊符号串幵始位置、当前数字/特殊符号串和下一个数字/特殊符号串之间的分隔符号、当前数字/特殊符号串关键词类型、当前数字/特殊符号串和下一个数字/特殊符号串之间的分隔汉字和反向继承规则。以上具体实施方式仅用于说明本发明,而非用于限定本发明。权利要求1.一种自然语言文本中数字和符号串的文字符号化处理方法,其特征是,所述的方法包括以下步骤输入自然语言文本;逐段抽取所述自然语言文本中的数字和符号串;将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;记录历史数字和符号串的模板类型及相关信息;根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理。2.根据权利要求1所述的方法,其特征是,在当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息中找到相关的上下文语境,则使当前数字和符号串与相邻的历史数字和符号串组合为一个语义单元,并生成该语义单元所对应的模板,记录该语义单元所对应的数字和符号串信息。3.根据权利要求2所述的方法,其特征是,对所述的语义单元进行应用所需的标记。4.根据权利要求2所述的方法,其特征是,所述的上下文语境包括模板类型、区间范围、文字符号化规则等。5.根据权利要求1所述的方法,其特征是,遍历历史数字和符号串的模板类型及相关信息,如果找到未被文字符号化处理的数字和符号串,则判断是否对该数字和符号串进行反向继承文字符号化规则,如果是则根据反向继承文字符号化规则对该数字和符号串进行处理。6.根据权利要求1所述的方法,其特征是,对在文字符号化处理中添加的新文字进行后处理。7.根据权利要求1所述的方法,其特征是,所述的符号是指非自然语言符号。8.—种自然语言文本中数字和符号串的文字符号化处理系统,其特征是,所述的系统包括输入部,用于输入自然语言文本;数字和符号串抽取部,用于逐段抽取所述自然语言文本中的数字和符号串;模板匹配部,用于将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;历史信息记录部,用于记录历史数字和符号串的模板类型及相关信息;文字符号化规则生成部,用于根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理,生成当前数字和符号串的文字符号化规9.根据权利要求8所述的系统,其特征是,所述的系统还包括上下文语境考察部,用于对当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息进行考察;语义单元确定部,如果在当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息中找到相关的上下文语境,则使当前数字和符号串与相邻的历史数字和符号串组合为一个语义单元,并生成该语义单元所对应的模板;所述的历史信息记录部记录该语义单元所对应的数字和符号串信息。10.根据权利要求9所述的系统,其特征是,所述的系统还包括语义单元标记部,用于对所述的语义单元进行应用所需的标记。11.根据权利要求9所述的系统,其特征是,所述的上下文语境包括-模板类型、区间范围、文字符号化规则等。12.根据权利要求8所述的系统,其特征是,所述的系统还包括反向继承部,用于遍历历史数字和符号串的模板类型及相关信息,如果找到未被文字符号化处理的数字和符号串,则判断是否对该数字和符号串进行反向继承文字符号化规则,如果是则根据反向继承文字符号化规则对该数字和符号串进行处理。13.根据权利要求8所述的系统,其特征是,所述的系统还包括后处理部,用于对文字符号化处理中添加的新文字进行后处理。14.一种自然语言文本中数字和符号串的文字符号化处理程序,其特征是,所述的程序包括输入自然语言文本;逐段抽取所述自然语言文本中的数字和符号串;将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;记录历史数字和符号串的模板类型及相关信息;根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理。15.—种存储自然语言文本中数字和符号串的文字符号化处理程序的可读存储介质,其特征是,所述的可读存储介质存储有以下程序输入自然语言文本;逐段抽取所述自然语言文本中的数字和符号串;将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;记录历史数字和符号串的模板类型及相关信息;根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理。全文摘要本发明为一种自然语言文本中数字和符号串的文字符号化处理方法及系统,所述的方法包括以下步骤输入自然语言文本;逐段抽取所述自然语言文本中的数字和符号串;将当前数字和符号串与预存储的模板进行匹配,获得当前数字和符号串所属的模板类型;记录历史数字和符号串的模板类型及相关信息;根据当前数字和符号串所属的模板类型以及当前数字和符号串相邻的历史数字和符号串的模板类型及相关信息对当前数字和符号串进行文字符号化处理。提高了对文本中数字和特殊符号的识别精度和效率。文档编号G06F17/28GK101196881SQ20061016563公开日2008年6月11日申请日期2006年12月8日优先权日2006年12月8日发明者片江伸之,庆郭申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1