快速字词识别方法

文档序号:6416329阅读:376来源:国知局
专利名称:快速字词识别方法
技术领域
本发明涉及一种快速字词识别的方法,特别涉及一种快速识别西班牙衍生字的方法,这种方法应用于程序化的电子装置(诸如电子字典)或软件(诸如文字处理程序或电脑字典)。本发明亦可用于进行拼字校正。
对于许多类型的电子字典或电脑字典,如果使用者输入的查询字词无法在既有的数据库中找到,使用者将会得到拒绝的回应,诸如“查无此字”,或是得到拼法或拼音最接近的字。然而,除了拼错以外,有时候查询字词可能是基本字词-即所谓的根词-的衍生字或复合字,而并未收录于数据库之中。因此,类似上述的回应似乎不妥而且毫无用处。
然而在诸如西班牙文和法文的欧洲语文中,每一个单词通常具有许多不同的衍生字;特别是西班牙文,一个动词可以有超过一百种变化型。在西班牙文中,字汇可以被分类为根词、复合字、衍生字及其组合。基本上,根词本身是基本的字词;复合字是由两个以上的根词所构成;而衍生字则是由改变根词的中词缀、或后词缀、或两者都改变而得。目前,通常的电子字典仅收录根词和它们一些常用的衍生字而已,这很明显地无法满足实际使用所需。
上述问题的一个简单的解决方法是将根词的所有衍生字都收入电子字典中。但是,这种方法需要大量的存储空间,将所有西班牙字汇储存起来。然而这样既不经济,又需要很多功夫来输入相关资料。因此,在诸如西班牙电子字典的电子装置或诸如西班牙文字处理程序的电脑软件中,如果可以提供一种需要较少存储空间,而更有效率的方法来识别、搜寻和校正字词,将会有极大的效益与实用价值。
有鉴于传统字词识别装置或软件的缺点,本发明提供一种快速的字词识别方法。
本发明的目的在于提供一种西班牙衍生字的快速搜寻方法。
再者,根据本发明,为电脑或文字处理软件提供一种西班牙衍生字快速搜寻的编码方法。
本发明也提供一种有效率的方法,检查西班牙字词拼法,并提供与查询字词拼法或拼音接近的候选字,作为拼错的查询字词的校正。
本发明所揭示的方法主要包含下列步骤
(1)收集并分类从西班牙根词得到衍生字的所有规则;(2)用一种编码方法编码这些规则;及(3)排序编码后的规则,并形成一个查询表。
此外,根据本发明,对每个查询字词的搜寻程序如下(1)先在根词数据库中查找该查询字词,如果找到,即输出关于该字的储存资料并停止;否则(2)在词缀查询表中捡查该字的词缀,如果找到任何根词,即输出关于该根词的储存资料并停止;否则(3)以提供与查询字词拼法或拼音接近的字的方式来校正拼法。
又,依据本发明,每一个可能的后词缀式衍生字的搜寻可以字词倒转的方式实施;其中先将查询字词的字母顺序颠倒,如此一来即可从倒转的字首开始取得所有可能的后词词,不过这些后词缀是次序颠倒的。接着从先前准备的查询表中,与已知的后词缀比较所得的后词缀。依照最大匹配原则,保留匹配的后词缀,找出对应的根词后词缀,并将之代换查词字词中的后词缀,得到可能的候选根词。最后,再继续查找这些候选根词是否存在基本数据库中。


图1为本发明中形成一个具有将西班牙衍生字还原成根词的规则查询表的程序图。
图2为本发明中西班牙电子字典典型字词搜寻程序的流程图。
图3为描述本发明中如何识别衍生字的子程序功能方块图。
图4A为搜寻查询字词的后词缀还原规则的子程序流程图。
图4B为搜寻查询字词的中词缀还原规则的子程序流程图。
图4C为从候选字中确认可能的根词的子程序流程图。
图5A、5B、5C和5D为从本产品-牛津电子字典-中撷取的屏幕,显示以“quiero”为例从输入、搜寻到输出的过程。
为解决识别西班牙衍生字的问题,所有西班牙字词的衍生字变化规则已经依照其词性分门别类。下列是各种词性约一些变化规则例子(1)名词--子音结尾的字词,复数+s--辅音结尾的字词,复数+es--不规则变化例“z”->“ces”;
Rubí-> Rubíes;Bistrí->bisturíes;Bambu->bambues;Jersey->jerseys;等等。
(2)形容词形容词有阴性、阳性之分,因此,例如每个以o结尾的形容词的词尾都可有四种形式,分别是+‘o’,+‘a’,+‘os’和+‘as’。而一些以辅音结尾的形容词除原形外还可有+‘a’,+‘as’,+‘es’的形式。
(3)副词西班牙文中有一类副词是由形容词变成阴性,再加‘mente’而来的,因此它们的词尾变化为,‘o’->‘amente’。
(4)动词这是最复杂的情形。西班牙文当中,每个动词都可以有一百多种变化形式。除去现代西班牙文中罕见不用的,也有将近六十种衍生字,而这些有很多是不规则的变化形式,不仅有词尾的不规则,也有词中的不规则。
表一列有本发明所收集的部分词缀变化规则。
表一
西班牙文中约有二千四百种这样的变化规则,其中包括词尾变化规则(后词缀的变化)、词中变化规则(中词缀的变化)和词尾、词中同时变化的规则。于是可以形成一种查询的表格,包括所有的还原规则,对于某一特定的衍生字的中词缀(或后词缀),可以找到原来字词的所有可能中词缀(或后词缀)(图1中的步骤2)。换言之对于每一个衍生字中词缀(或后词缀),将会有数个相关连的根词中词缀(或后词缀)。特别的是,查询表格中的后词缀字母顺序经过反转,而这些反转后的后词缀依照西班牙文字母顺序排列(步骤4)。中词缀也经过同样的字母排序(步骤6)。这样会大大地加速后续的搜寻程序。在本发明之一较佳实施例中,还以一种为经过字母排序后的衍生字后词缀编码的方式对这些规则进行编码(步骤8),而不只是简单地将这些规则汇集成一个大表格。于是,所形成的查询表格包括三个部分一个是为后词缀还原表所作的按字母顺序排列的索引表(如表二,其中列举了部分的索引规则),另一个是后词缀还原规则表(如表三,其中列举了部分的后词缀还原规则),而第三个是中词缀还原规则表(如表四,其中列举了部分的中词缀还原规则)。
表二
表三
表四
>
依据此表,对于西班牙文字典或电子字典的基本数据库中不能直接找到的特定字词,便可以应用表格还原规则中所给的所有可能中词缀(或后词缀)代换衍生字中词缀(或后词缀),建构该字的所有候选根词,并捡查是否这些候选字词中任何一个可以在基本的根词数据库中找到。
本发明也可以同样地应用在西班牙电子字典、西班牙文字处理软件或同类事物上;然而,为更加具体起见,本说明书为说明发明内容,将特别以西班牙电子字典作为例子进行说明。
图2为本发明中西班牙电子字典典型字词搜寻程序的流程图。首先,使用者将被要求输入一个查询字词。
(步骤10)收到查询字词后,电子字典将会查找它的基本数据库,寻求拼法相同的字词(步骤12),而该数据库通常包含根词及其常用衍生字。倘若数据库有该查询字词,则电子字典将直接输出关于该字的资料,然后终止搜寻程序并等待使用者的下一个指令(步骤22)。
倘若数据库没有该查询字词,衍生字识别子程序即开始运作(步骤14),如图3所示。首先,载入词缀查询表格(步骤26),接着后词缀与中词缀的搜寻比较将)顺序执行(步骤28和步骤30),其结果最后将与基本数据库相比较(步骤32)。
图4A和4B分别为中词缀式和后词缀式衍生字的搜寻程序流程图。根据本发明的较佳实拖例,查询字词的字母顺序将在搜寻后词缀式衍生字之前被反转(步骤36),因为这将方便后词缀的撷取。反转后的后词缀的第一个字母将用以定义查询表格中的搜寻区段(步骤38)。接着使用一种搜寻方法,在该搜寻区段中找出与反转的后词缀前n个字母相同的后词缀,其中n是从1开始顺序增加的自然数(步骤40和步骤44)。一旦没有相同的后词缀可在表格中找到,程序即终止(步骤42)。于是,如果找得到任何后词缀,便得到一组衍生字后词缀的还原规则;(步骤46)否则,查询字词便被视为没有后词缀变化(步骤52)。
但是,在这个和后续的程序中,最大匹配原则将被用于确定可能的词缀。此原则陈述如果查询字词在某类词缀(后词缀和中词缀)搜寻程序中,有数个可能的衍生字词缀在查询表格中被找到,只有具有最多字母的衍生字词缀被保留以提供还原规则。
因此,在上述的后词缀式的衍生字搜寻之后,如果有的话,仅会有一条变化规则留下,并且应用此规则将相关连的可能根词后词缀取代查询字词中的后词缀,形成一组可能的根词(步骤50)。
接着,根据图4B,从查询字词拿走第一个字母和后词缀(步骤54)。再次,对这些中词缀字母进行中词缀还原表的搜寻(步骤56和步骤60)。于是,如果有的话,将得到另一组变化规则(步骤62)。再次应用最大匹配原则,获得还原规则(步骤64),以代换先前找到的候选根词中的中词缀(步骤66)。否则,查询字词便被视为没有中词缀变化(步骤68)。
最后,结合上述两种搜寻(后词缀和中词缀)的结果,形成一组新的可能根词,以供进一步与基本数据库的比较。如图4C所示的,此比较从新一组的字词中挑出每一个候选字,在基本数据库中查找,直到所有的字词都已捡查(步骤70、72、74和76)。如果其中任何一个可以被识别,便输出该根词及其相关资料;如果找到数个,便将这些候选字都输出,供使用者选择(步骤80)。
否则,查询字词便被送至拼字校正子程序(步骤82),因为无法形成可能的根词,也就是找不到后词缀或中词缀的还原规则。拼法或拼音最接近的字将输出给使用者选择(步骤20)。
整个程序终结时输出查询字词相关资料,不论是可能的根词或拼字校正后的字词(步骤22)。
以下将以‘quiero’作为例子,解释本发明如何进行。
假设查询字词‘quiero’并未收录于字典的基本数据库,则该字词将暂时被视为可能的衍生字候选字,并进行下列的步骤。
开始时,将对查询字词进行后词缀搜寻(图4A)。根据本发明,‘quiero’将为后词缀搜寻而被反转成‘oreiup’(步骤36),所以现在的“后词缀”可能是‘o’、‘or’、‘ore’等等,他们是原来后词缀的反转。因为第一个字母是‘o’,所以,根据本发明之一较佳实施例,查询表格中介于还原规则第74和第96条之间的‘o-’区段将被选出(步骤38),以供相同“后词缀”进行快速的资料查找。
首先,反转字的第一个字母‘o’将被桃出,与查询表格中选出的区段比较(步骤40),因此便找到还原规则{‘o’->‘ar’,‘er’,‘ir’,‘r’}。接着下一个字母‘r’将被附加至‘o’形成‘or’(步骤44)以供进一步比较。但是,‘or’并无任何还原规则,此衍生字后词缀搜寻程序便停止(步骤43)。
因而,在此例子当中,根据最大匹配原则,‘o’是唯一可能的“后词缀”,这也就意味着‘o’是候选衍生字的可能后词缀。该程序接着将原查询字词中的后词缀‘o’的还原规则,替换为‘ar’,‘er’,‘ir’和‘r’。最后,即形成第一组可能的根词{quierar,quierer,quierir,quierr},与基本数据库做进一步比较(步骤50)。
下一个步骤是中词缀搜寻(图4B)。首先,去掉查询字词中的第一个字母和最大匹配的后词缀‘o’,取得中词缀‘uier’。此搜寻先拿‘u’进行匹配(步骤56),但是‘u’没有任何还原规则。于是,‘i’便被拿来比较(步骤58)并找到还原规则{‘i’->‘e’}(步骤56)。然而,此搜寻程序要继续执行到无法找到其它还原规则之时(步骤60)。做完所有比较之后,发现找到两条还原规则{‘i’…>‘e’}和{‘ie’…>‘i’,‘e’}(步骤62)。根据最大匹配原则,‘ie’才是最大匹配的中词缀。所以,只有还原规则{‘ie’…>‘i’,‘e’}被保留,提供后续代换之用(步骤64)。最后,便用‘i’和‘e’代换第一维的字词中的‘ie’形成第二组可能的根词(步骤66)。
现在,完整的可能根词集合是先前第一和第二组的可能根词的联合集,也就是{quierar,quierer,quierir,quierr,querar,querer,querir,querr,quirar,quirer,quirir,quirr}。
此新集合中的字词将一一的桃出(图4C中的步骤70),以进行基本数据库的查找(步骤72),直到所有的候选字词都被捡查过(步骤74)。在本例子中,只有找到‘querer’是‘quiero’合理的根词(步骤78),所以便将它输出络使用者(步骤80)。
图5A是当使用者用本产品-牛津西班牙电子字典-输入查询字词‘quiero’时,屏幕上所出现的图像。在其同时,电子字典列出拼法最接近的字词。图5B为输入结束的画面。图5C显示了电子字典正在搜寻时屏幕显示的信息。图5D显示了搜寻输出的结果。
藉由本发明的帮助,可以省下电子字典中许多的存储器。例如,牛津西班牙电子字典仅收录18361个字词,占161KB,即可识别500000个字词。否则,收录所有500000个字词将需要4MB的ROM,所节省的效益达到接近廿五倍。
虽然上文仅对一特定实施例提供完整的说明,但是,本发明的范围不应受其限制。由于本发明的精神在于词缀还原规则查询表格的建立,以及相搭配的搜寻方法,所以可以对该查询表格进行各种修改,而其它的搜寻方法也可拿来运用。本发明的范围应由所附权利要求书来界定。
权利要求
1.一种衍生字识别的方法,该方法至少包含建立词汇数据库;产生第一表格,所述第一表格包含多个衍生字后词缀,而所述衍生字后词缀都与数个代换的根词后词缀相关联;产生第二表格,所述第二表格包含多个衍生字中词缀,而所述衍生字中词缀都与数个代换的根词中词缀相关联;输入查询字词;从该查询字词中撷取与所述第一表格相匹配且具有最多字母的衍生字后词缀;选取与撷取的衍生字后词缀相关联的多个代换后词缀;将撷取的衍生字后词缀,置换成所述多个代换后词缀,以产生第一组字词;从所述查询字词中,撷取与所述第二表格相匹配且具有最多字母的衍生字中词缀;选取与撷取的衍生字中词缀相关联的多个代换中词缀;将撷取的衍生字中词缀,置换成所述多个代换中词缀,以产生第二组字词;结合所述第一组字词和所述第二组字词,以产生多个候选字词并从中产生根词;及输出该根词。
2.如权利要求1所述的方法,其特征在于,上述词汇数据库至少包含西班牙根词。
3.如权利要求1所述的方法,其特征在于,上述第一表格依照所述衍生字后词缀的字母顺序排序。
4.如权利要求3所述的方法,其特征在于,上述排序的衍生字后词缀还分成多个群组,并依照所述群组的分类加以编码。
5.如权利要求1所述的方法,其特征在于,上述第二表格依照所述衍生字中词缀的字母顺序排序。
6.如权利要求5所述的方法,其特征在于,上述排序的衍生字中词缀还分成多个群组,并依照所述群组的分类加以编码。
7.如权利要求1所述的方法,其特征在于,上述第一表格中的所述衍生字后词缀字母顺序被反转,而且该衍生字后词缀撷取时,其字母顺序也被反转。
8.如权利要求1所述的方法,其特征在于,所述撷取的衍生字后词缀的获得,是在所述第一表格中对所有衍生字后词缀进行查找之后,保留找到并具有最多字母。
9.如权利要求1所述的方法,其特征在于,所述撷取的衍生字中词缀的获得,是在所述第二表格中对所有衍生字中词缀进行查找之后,保留找到并具有最多字母。
10.一种衍生字识别的方法,该方法至少包含建立词汇数据库;产生第一表格,所述第一表格包含多个衍生字后词缀,而所述衍生字后词缀都与数个代换的根词后词缀相关联;产生第二表格,所述第二表格包含多个衍生字中词缀,而所述衍生字中词缀都与数个代换的根词中词缀相关联;输入查询字词;从所述查询字词中撷取与所述第二表格匹配且具有最多字母的衍生字中词缀;选取与撷取的衍生字中司缀相关联的数个代换中词缀;将撷取的衍生字中词缀,置换成所述多个代换中词缀,以产生第一组字词;从该查询字词中,撷取与所述第一表格相匹配且具有最多字母的衍生字后词缀;选取与撷取的衍生字后词缀相关联的多个代换后词缀;将撷取的衍生字后词缀,置换成所述多个代换后词缀,以产生第二组字词;结合所述第一组字词和所述第二组字词,以产生多个候选字词并从其中,产生根词;及输出该根词。
11.如权利要求10所述的方法,其特征在于,上述词汇数据库至少包含西班牙根词。
12.如权利要求10所述的方法,其特征在于,上述第一表格依照所述衍生字后词缀的字母顺序排序。
13.如权利要求12所述的方法,其特征在于,上述排序的衍生字后词缀还分成多个群组,并依照所述群组的分类加以编码。
14.如权利要求10所述的方法,其特征在于,上述第二表格依照所述衍生字中词缀的字母顺序排序。
15.如权利要求14所述的方法,其特征在于,上述排序的衍生字中词缀还分成多个群组,并依照所述群组的分类加以编码。
16.如权利要求1所述的方法,其特征在于,上述第一表格中的所述衍生字后词缀字母顺序被反转,而且所述共有的衍生字后词缀撷取时,其字母顺序也被反转。
17.如权利要求1所述的方法,其特征在于,所述撷取的共有的衍生字后词缀的获得,是在所述第一表格中对所有衍生字后词缀进行查找之后,保留找到并具有最多字母。
18.如权利要求1所述的方法,其特征在于,所述撷取的衍生字中词缀的获得,是在所述第二表格中对所有衍生字中词缀进行查找之后,保留找到并具有最多字母。
全文摘要
本发明提供一种快速字词识别的方法,尤其是用于西班牙衍生字的识别。本发明主要的特征在于提供一种快速识别衍生字,使得西班牙电子字典能在不增加存储器负担的情况下储存所有西班牙词汇(根调和衍生字)的方法。所有从根词到衍生字的转换规则均被收录、分类并反转,以给出还原规则。这些还原规则经过排序和编码,收录于一个搜寻用的查询表格。本发明也提供一种通用于该查询表格的快速搜寻方法。
文档编号G06F17/30GK1268712SQ9910418
公开日2000年10月4日 申请日期1999年3月24日 优先权日1999年3月24日
发明者何代水, 纪金东 申请人:英业达集团(上海)电子技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1