词汇式繁体中文与简体中文的转换系统及转换方法

文档序号:6652702阅读:566来源:国知局
专利名称:词汇式繁体中文与简体中文的转换系统及转换方法
技术领域
本发明涉及一种词汇式繁体中文与简体中文的转换系统,尤其是一种利用长词优先断词法进行词汇分割之后再予以转换汉字的词汇式繁体中文与简体中文的转换系统。本发明亦包括利用上述词汇式繁体中文与简体中文的转换系统进行简繁汉字转换的词汇式繁体中文与简体中文的转换方法。
目前世界上所使用的中文电脑系统中,通行的汉字系统分为两种一为繁体中文系统,如台湾以及香港所采用的汉字系统;另一为简体中文系统,如中国大陆及新加坡所采用者。由一种汉字系统所编辑出来的文字数据并不能直接由另一种汉字系统处理。也就是说,繁体中文系统不能处理简体中文文字数据;而简体中文系统则无法处理繁体中文文字数据。
为使电脑能同时处理二种中文数据,必须先利用简繁汉字转换系统,将电脑不能辨识的汉字转换成电脑可以辨识的汉字。如此,使用任何一种中文系统的电脑可以同时处理简/繁汉字,而不受所使用的中文系统限制。
现有的简繁汉字转换系统中,其简繁汉字的转换方法,均使用单字对应单字的转换运算。即,现有系统中的汉字转换法以每一个汉字单字为处理单位,由一简/繁单字对应表,进行单字对单字的对应运算,然后逐字地转换单字,使每一单字转换成电脑系统可辨识的汉字。
例如,图3(a)的现有简繁汉字转换系统所用的简繁汉字转换法步骤中,首先在数据接收步骤701中,将待转换中文文件70的一汉字取出;接着,在简繁汉字转换步骤702中,将所取出的汉字对照内建的单字对应表80,找出相对应的译字。如果汉字能在单字对应表80中具有相对应的译字,则将汉字进行转换,成为单字对应表80中所对应到的译字。将待转换中文文件70的每一个汉字逐一进行上述的对应及转换,使待转换中文文件所有可对应于单字对应表80的汉字均替换成所要的译字。最后,在输出步骤703中输出。藉此,待转换中文文件70被转换成电脑系统兼容的中文文件90,达成将简体中文文件转换成繁体中文文件或将繁体中文文件转换成简体中文文件的目的。
例如,所输入的待转换中文文件70为“馬鈴薯是一種植物”时,其中各个汉字71(图3(b))会逐一地转换成相对应的译字711(图3(c))。
然而,上述现有简繁汉字转换系统所用的汉字转换法,在实际的文字数据转换应用上存在有许多的缺点。因为在使用简繁汉字的人民中,某些同义的词汇,其用语并不相同,甚至用语字数不同。因此,现有简繁汉字转换系统的单字对应单字的转换方法,不能确实地将一汉字转换成所要的另一种汉字。
前述的例子中,英文中的potato,在台湾的民众会叫它为“馬鈴薯”或“洋芋”,然而,在中国大陆的人民则会叫它为“土豆”。故当繁体中文文件以单字对应单字的关系转换时,在繁体汉字中的词汇“馬鈴薯”并无法精确地转换成简体汉字中的词汇“土豆”,使大众不易理解被转换的文件。反之亦然,当简体汉字的词汇“土豆”以单字对应单字的方式转换时,其也无法转换成繁体汉字的词汇“馬鈴薯”或“洋芋”。故,有必要对此一缺点提出解决之道。
针对上述问题,本发明的一目的为提供一种能够确实地进行简繁汉字转换的词汇式繁体中文与简体中文的转换系统。
为完成本发明上述目的,词汇式繁体中文与简体中文的转换系统包括一数据接收模块、一断词处理模块、一简繁汉字转换模块、及一输出模块,其中断词处理模块能依照长词优先断词法对数据进行分割。
因为,断词处理模块依照长词优先断词法,对待转换数据中的所有文字进行词汇对应运算,而在该待转换数据中优先分割出符合断词处理模块内最长复合词的复合词,而成为待转换复合词,所以本发明的词汇式繁体中文与简体中文的转换系统,能够进行复合词的转换,使繁体及简体汉字之间的转换更加确实。本发明的另一目的为提供一种利用上述词汇式繁体中文与简体中文的转换系统进行简繁汉字转换的词汇式繁体中文与简体中文的转换方法。
附图的简单说明

图1为一示意图,显示依本发明较佳实施例的词汇式繁体中文与简体中文的转换系统。
图2(a)为一示意图,显示依本发明较佳实施例的词汇式繁体中文与简体中文的转换方法的步骤。
图2(b)为一示意图,显示依图2(a)的本发明较佳实施例的词汇式繁体中文与简体中文的转换方法的步骤所要处理的待转换数据。
图2(c)为一示意图,显示在依照图2(a)的本发明较佳实施例的词汇式繁体中文与简体中文的转换方法的断词处理步骤之后,待转换数据被切割成待转换复合词及待转换单字。
图2(d)为一示意图,显示在依照图2(a)的本发明较佳实施例的词汇式繁体中文与简体中文的转换方法的简繁汉字转换步骤的待转换复合词及待转换单字与相对应的复合词及单字的对应关系。
图2(e)为一示意图,显示在依照图2(a)的本发明较佳实施例的词汇式繁体中文与简体中文的转换方法后的已转换数据。
图3(a)为一示意图,显示现有的简繁汉字转换方法步骤。
图3(b)为一示意图,显示将要依照图3(a)的现有简繁汉字转换方法步骤进行简繁汉字转换的待转换中文文件。
图3(c)为一示意图,显示依照图3(a)的现有简繁汉字转换方法步骤进行简繁汉字转换的已转换中文文件。
以下将参照附图,说明依本发明较佳实施例的词汇式繁体中文与简体中文的转换系统1,其中相同的元件将以相同的参考符号加以说明。
参考图1、图2(a)-2(e),本发明的词汇式繁体中文与简体中文的转换系统1主要包括一数据接收模块10、一断词处理模块20、一简繁汉字转换模块30、及一输出模块40。
数据接收模块10用于接收一待转换数据50,使待转换数据50进入本发明的词汇式繁体中文与简体中文的转换系统1中。数据接收模块10的例子为利用互联网来接收任何简繁汉字数据的软硬件组合。待转换数据50的例子为显示在显示屏幕上的任何简繁汉字数据、信息、文件及相似之类等。
断词处理模块20依照长词优先断词法,对来自数据接收模块10的待转换数据50进行词汇分割,而分别形成待转换复合词51及待转换单字52。断词处理模块20包括一主电子词典22、以及一对应运算次模块24。
主电子词典22用于储存大量的简繁汉字复合词和单字。另外,对应运算次模块24可基于主电子词典22的数据,将所接收到的待转换数据50进行对应运算,而予以分割。
由数据接收模块10传送来的数据,基于主电子词典22中的词汇,由对应运算次模块24进行词汇对应运算而予以分割,其中词汇对应运算采取长词优先断词的方式进行。在本发明中,所谓的长词优先断词法是指,利用断词处理模块20对待转换数据50中的所有文字,基于主电子词典22中的词汇,进行词汇对应运算,而在待转换数据50中优先分割出符合断词处理模块20内最长复合词的复合词,而成为待转换复合词51。
例如,繁体汉字的待转换数据50的句子“馬鈴薯是一種植物”(图2(b)),“馬鈴薯”(图2(c))一词将优先分割成为待转换复合词51,而不会分割成“馬”、“鈴薯”或“馬鈴”、“薯”。接着分别分割其他待转换数据50,分别形成待转换复合词51“一種”、“植物”,最后留下待转换单字52“是”(图2(c))。
简繁汉字转换模块30包括,一简繁汉字词典32、一简繁对应运算次模块34、以及一转换运算次模块36。简繁汉字转换模块30用于分别依照复合词及单字的繁体/简体汉字对照关系,将来自断词处理模块20的待转换复合词51及待转换单字52的字体分别转换成所要的字体。
简繁汉字词典32包括储存有大量的简体汉字词汇及繁体汉字词汇的对照关系的简繁用语词典322、以及储存有大量的简体汉字单字及繁体汉字单字的对照关系的简繁汉字对应表324。
简繁对应运算次模块34能利用简繁汉字词典32内的数据,对来自断词处理模块24的待转换复合词51及待转换单字52分别进行对照运算。
例如,在图2(c)中,待转换复合词51“馬鈴薯”会对应至相对应复合词511“土豆”,待转换复合词51“一種”会对应至相对应复合词511“一种”,而待转换单字52“是”则对应至相对应单字521“是”。
转换运算次模块36可利用简繁对应运算次模块34的运算结果,分别依照复合词及单字的繁体/简体汉字对照关系,将待转换复合词51及待转换单字52的字体分别转换成所要的对应复合词511及对应单字521,因而将待转换数据50转换成所要的已转换数据60。例如,依照图2(d)的相对应关系,待转换复合词51“馬鈴薯”会转换成相对应复合词511“土豆”,待转换复合词51“一種”会转换成相对应复合词511“一种”,而待转换单字52“是”则被转换成相对应单字521“是”。
最后,在被分割的待转换数据50中,其他不存在于上述简繁对应运算次模块34的运算结果内的单字,并不经由转换运算次模块36的转换运算,而直接输出。其例子为一些标点符号(未示)。
输出模块40可为任何能够输出上述转换结果的软硬件组合,如一显示屏幕。如前述的例子,藉上述本发明的词汇式繁体中文与简体中文的转换系统1所处理的待转换数据50“馬鈴薯是一種植物”被转换成已转换数据60“土豆是一种植物”(图2(e))。
藉由上述本发明的词汇式繁体中文与简体中文的转换系统1,词汇对应运算采取长词优先断词的方式进行,使对应于断词处理模块20内最长复合词的复合词形成待转换复合词51。待转换复合词51再藉由简繁汉字转换模块30转换成为合适的用语。
如前述的例子,繁体汉字系统中的汉字数据句子“馬鈴薯是一種植物”中,用语“馬鈴薯”将被优先选出,再藉由简繁汉字转换模块30将用语“馬鈴薯”转换成合适的简体汉字系统用语“土豆”;接着选出“一種”、“植物”分别进行转换;然后进行单字对单字的转换,最后形成所要的已转换数据60“土豆是一种植物”。如此,整句繁体汉字系统中的各用语及单字都能确实地转换,在现有单字对单字转换系统中用语转换不良的问题,不会在本发明的词汇式繁体中文与简体中文的转换系统1中发生。
关于本发明的词汇式繁体中文与简体中文的转换方法,其利用上述词汇式繁体中文与简体中文的转换系统1进行简繁汉字的转换方法。配合图1、图2(a)-2(e),详细说明本发明的词汇式繁体中文及简体中文的转换方法如下。
本发明的词汇式繁体中文与简体中文的转换方法,主要包括以下步骤一数据接收步骤101、一断词处理步骤102、一简繁汉字转换步骤103、及一输出步骤104。
在数据接收步骤101中,其利用一数据接收模块10读取待转换数据50。如前文所述,数据接收模块10可为利用互联网来接收任何简繁汉字数据的软硬件组合。所接收的待转换数据50被送到下一个步骤进一步地处理。
接下来进行断词处理步骤102。其以一断词处理模块20,依照长词优先断词法,对来自数据接收模块10的待转换数据50进行词汇分割,而分别形成待转换复合词51及待转换单字52。所谓的长词优先断词法如前文所述,在此不再详加解释。
如前述的例子,繁体汉字的待转换数据50的句子“馬鈴薯是一種植物”(图2(b)),“馬鈴薯”(图2(c))一词将优先分割成为待转换复合词51,而不会分割成“馬”、“鈴薯”或“馬鈴”、“薯”。接着分别分割其他待转换数据50,分别形成待转换复合词51“一種”、“植物”,最后留下待转换单字52“是”(图2(c))。
其次,在简繁汉字转换步骤103中,以一简繁汉字转换模块30,分别依照复合词及单字的繁体/简体汉字对照关系(如前文所述使用简繁汉字词典32的简繁汉字用语词典322及简繁汉字对应表324来完成),将来自断词处理模块20的待转换复合词51及待转换单字52的字体分别转换成所要的字体(如前文所述,由转换运算次模块36完成)。
例如,在图2(d)中,待转换复合词51“馬鈴薯”会对应至相对应复合词511“土豆”,待转换复合词51“一種”会对应至相对应复合词511“一种”,而待转换单字52“是”则对应至相对应单字521“是”。接着,依照图2(d)的相对应关系,待转换复合词51“馬鈴薯”会转换成相对应复合词511“土豆”(图2(d)),待转换复合词51“一種”会转换成相对应复合词511“一种”(图2(d)),而待转换单字52“是”则被转换成相对应单字521“是”(图2(d))。
最后,在输出步骤104中,以一输出模块40,输出简繁汉字转换模块30的转换结果,并将待转换数据50中未经转换的文字直接输出。如此,则本发明的词汇式繁体中文与简体中文的转换方法已经完成。藉上述本发明的词汇式繁体中文与简体中文的转换方法所处理后,待转换数据50“馬鈴薯是一種植物”被转换成已转换数据60“土豆是一种植物”(图2(e))。
如前所述,由于本发明的词汇式繁体中文与简体中文的转换方法使用长词优先断词法,所以现有简繁汉字转换方法中的用语转换不良的问题,不会发生在本发明的方法中。
以上所述仅为举例性,而非为限制性者。任何未脱离本发明的精神与范畴而对其进行的等效修改或变更,均应包括于所附的权利要求中。
权利要求
1.一种词汇式繁体中文与简体中文的转换系统,包含一数据接收模块,用于接收待转换数据;一断词处理模块,依照一断词法,对来自该数据接收模块的待转换数据进行词汇分割,而分别形成待转换复合词及待转换单字;一简繁汉字转换模块,分别依照复合词及单字的繁体/简体汉字对照关系,将来自断词处理模块的待转换复合词及待转换单字的字体分别转换成所要的字体;及一输出模块,用于输出该简繁汉字转换模块的转换结果,并将该待转换数据中未经转换的文字直接输出。
2.如权利要求1所述的词汇式繁体中文与简体中文的转换系统,其中该断词法为长词优先断词法利用断词处理模块对该待转换数据中的所有文字进行词汇对应运算,而在该待转换数据中优先分割出符合断词处理模块内最长复合词的复合词,而成为待转换复合词。
3.如权利要求1所述的词汇式繁体中文与简体中文的转换系统,其中该断词处理模块包括一储存简繁汉字复合词和单字的主电子词典、以及一利用该主电子词典内的数据进行词汇对应运算的对应运算次模块。
4.如权利要求1所述的词汇式繁体中文与简体中文的转换系统,其中该简繁汉字转换模块包含一简繁汉字词典、一利用该简繁汉字词典内的数据对来自该断词处理模块的待转换复合词及待转换单字分别进行对应运算的简繁对应运算次模块、以及利用该简繁对应运算次模块的运算结果进行转换运算的转换运算次模块。
5.如权利要求4所述的词汇式繁体中文与简体中文的转换系统,其中该简繁汉字词典包含一简繁用语词典及一简繁汉字对应表。
6.如权利要求1所述的词汇式繁体中文与简体中文的转换系统,其中该数据接收模块利用互联网来接收数据。
7.如权利要求1所述的词汇式繁体中文与简体中文的转换系统,其中该输出模块为一显示屏幕。
8.一种词汇式繁体中文与简体中文的转换方法,其包含下列步骤一数据接收步骤,其利用一数据接收模块读取待转换数据;一断词处理步骤,以一断词处理模块,依照长词优先断词法,对来自该数据接收模块的待转换数据进行词汇分割,而分别形成待转换复合词及待转换单字;一简繁汉字转换步骤,以一简繁汉字转换模块,分别依照复合词及单字的繁体/简体汉字对照关系,将来自断词处理模块的待转换复合词及待转换单字的字体分别转换成所要的字体;以及一输出步骤,以一输出模块,输出该简繁汉字转换模块的转换结果,并将该待转换数据中未经转换的文字直接输出。
9.如权利要求8所述的词汇式繁体中文与简体中文的转换方法,其中该长词优先断词法利用断词处理模块对该待转换数据中的所有文字进行词汇对应运算,而在该待转换数据中优先分割出符合断词处理模块内最长复合词的复合词,而成为待转换复合词。
全文摘要
一种词汇式繁体中文与简体中文的转换系统,包括一数据接收模块、一断词处理模块、一简繁汉字转换模块、及一输出模块,其中断词处理模块依照长词优先断词法,对来自数据接收模块的待转换数据进行词汇分割,而分别形成待转换复合词及待转换单字。本发明亦包括利用上述词汇式繁体中文与简体中文的转换系统确实地进行简繁汉字转换的方法。
文档编号G06F17/28GK1369833SQ0110456
公开日2002年9月18日 申请日期2001年2月16日 优先权日2001年2月16日
发明者杨立伟 申请人:意蓝科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1