中文文字内码规范化智能转换方法

文档序号:6412321阅读:584来源:国知局
专利名称:中文文字内码规范化智能转换方法
技术领域
本发明涉及一种中文文字内码规范化智能转换方法,更具体地说,涉及一种中文国标码简化字与大五码繁体字之间的规范化智能转换方法。
目前中国大陆、新加坡等地使用中文简化字(主要为国标码,即GB2312-80,以下同),有6千多字;中国台湾、香港和海外华人社会使用中文繁体字(主要为大五码,即BIG5),有1万3千多字。因一种中文内码的一个字有时对应另一种中文内码的多个字(一对多),这是不同内码间转换中一个最大的难题。原有的中文文字内码转换方法,在处理这个问题时,通常采用转换为其中一个字的方法。因而在涉及到中文的计算机软件等领域中,国标码与大五码之间难以进行规范化的转换,并导致同一中文计算机软件有时出现简化字和繁体字两个版本。现阶段这种情况的存在造成许多人力、物力、财力的浪费。
本发明的目的是提供一种较为简便可行的办法,实现中文国标码简化字和大五码繁体字之间的规范化智能转换。
根据本发明的第1个方面,当一种内码的一个字对应另一种内码的多个字时,首先将其转换为另一内码中较常用的一个字;在另一内码环境中,再利用“转换词典”中词的搭配转换为另一内码中对应的其它次常用字。
根据本发明的第2个方面,首先将一种内码中能对应本发明的一个“转换词典”中次常用字词组的词,转为另一内码中“转换词典”所提供的规范化词组形式;在同一内码环境中将其余的字同时转为较常用字。“转换词典”中已提供的单字按此词典转换,其余的单字则按原中文内码转换方式转换。
根据本发明的第3个方面,在间接转换时,将一种中文内码按照与CJK码一一对应的关系全部转换为CJK码,以CJK码显示;在CJK码环境中按上述第2个方面的方案转为另一中文内码,转换后另一中文内码也以CJK码显示;然后按一一对应的关系将CJK码转换为另一中文内码储存。
本发明可使只懂一种中文内码的使用者,轻易就能制作出另一种中文内码的规范化文本。可使只熟悉一种中文内码及其相应输入法的打字员“打简出繁”或“打繁出简”。如一位只熟悉国标码的打字员,可用其熟悉的某一种国标码输入法打字,提示行可显示简化字,而正式的录入结果可为规范的繁体字文本。
下面结合附图对本发明的三个实施例进行详细描述。附图中

图1为本发明直接—异步转换法之流程图;图2为本发明直接—同步转换法之流程图;图3为本发明间接—同步转换法之流程图。
在转换方案的制定过程中,本发明既考虑到中文简化字和繁体字的规范,也考虑到其使用现状。当一种内码中的一个字对应另一内码中的多个字时,在转换词典中均给出明确的指引,以避免无所适从的情况出现。如简化字“周”对应繁体字“周、週”,“布”对应“布、佈”,但根据目前繁体字的使用现状,大部分报刊、图书等(包括台湾的出版物)已不再使用“週、佈”,故只使用“周、布”。如简化字“证”可对应繁体字“証”也可对应“證”,“證”使用较广泛,故取此字。有些字本来是一一对应的关系,如“闲”,考虑到目前繁体字的使用习惯,用“閒”而不用“閑”。在1936年商务印书馆出版的《國語詞典》(由汪一庵先生主持编纂)中,繁体字的“鋪”字作“商店”解释时可与“舖”通用。但现今的繁体字作以上解释时大多用“舖”而不用“鋪”。又如用“關係”不用“關繫”,用“聯繋”不用“聯係”。
对于繁体字,本发明综合考虑到各地的使用现状和习惯。如简化字的“沉默、污染、大炮”,繁体字有用作“沉默、污染、大炮”,也有用作“沈默、汙染、大砲”。对于这种情况本发明基本上采取从众的做法,力求转换结果既符合规范,又能为使用中文繁体字的各方接受。
由于中文文字的丰富性和复杂性(如中文姓名和外文的中文译名在使用中的随意性),及简化字与繁体字使用习惯的差异(如简化字的“计算机、英尺、英寸、报道、计划、指责”与繁体字的“電腦、呎、时、報導、計畫、指摘”)等原因,为了使转换尽量作到完美,本发明在转换词典的后面为用户留一个开放式的环境,方便用户自行将转换词典中未包括的极少数词组加入。
下面描述本发明的中文文字内码规范化智能转换方法的三个实施例。
一、直接—异步转换法二、直接—同步转换法三、间接—同步转换法实施例1直接—异步转换法当来源内码的一个字对应目的内码的多个字时,如图1所示,首先将其转换为目的内码中较常用的一个字;在目的内码环境中,再利用“转换词典”中词的搭配转换为目的内码中对应的其它字。其中第一步转换需要将来源内码中的全部字符“一对一”转换为目的内码的字符。“转换词典”中已提供的单字按此词典转换,其余的单字则按原有中文内码转换方式转换。然后用自动搜索替换功能将符合转换词典的词组全部转换为符合转换词典的规范形式。
如简化字的“愿”字,对应的繁体字有“愿、願”两个字,转换词典中有“謹愿、鄉愿”等词。简转繁异步转换时,先“一对一”将国标码的“愿”转为繁体字中较常用的“願”;然后在大五码的环境中,将符合转换词典的词组转换为词典中提供的规范形式,“謹願、鄉願”等词中的“願”即自动转换为大五码的“愿”。
由于不同内码的中文字转换时通常会面临三种情况一对一,多对一,一对多。其中“一对一”和“多对一”都不会有问题,习用的中文转换软件大部分都有繁简转换的功能,都能很容易的完成此“一对一”和“多对一”的转换。但转换中遇到一对多时,亦即来源内码文字对应目的内码的多个字时,原有的中文转换软件便无法正确的转换。
本发明之直接一异步转换法则依下列步骤完成转换第一步乃依照“转换词典”先转为较常用的一个字。所谓该较常用字是依据另一内码中文字在报刊和图书等出现的频度(即使用频度),以及多个字各自分别的组词能力,进行比较后所得出的结果。
如简化字的“愿”,对应繁体字的“愿、願”二字,在繁体字中“願”的使用频度和组词能力都比“愿”高,所以第一步先将简化字的“愿”全部转换成繁体字的“願”,这样做可以减少转换词典的词汇量,使转换变得简单快速。
所以转换的第一步可简单地归纳为“单字转换转多不转少”。
这一步实际上是把整篇或整部中文文稿全部转换为另一内码,涉及到“一对多”的单字按转换词典的指引,其它单字按原有中文文字内码转换方式转换。
第二步是在另一内码环境中依照转换词典中次常用字的“词”进行自动搜索替换,因为这时已不能再用“单字”转换,不然全都替换成了次常用字。在转换词典“愿”的词条下只有“謹愿、鄉愿”两个词,所以接上例第二步在大五码的环境中搜索时,只要文章中有“謹願、鄉願”都替换成“謹愿、鄉愿”。
第二步可归纳为“词的转换转少不转多”。
转换完成后,除了在大五码环境中“謹願、鄉願”两词(假如文稿中有这些词)中的次常用字转成了“愿”,其它的该字已直接从国标码的环境转换成了大五码的“願”,这样也就达到了规范化的目的。即较常用字以“单字”方式转换,次常用字以“词组”(与前后其它字的搭配)方式加以“区别”(识别)转换。这种“词”并不完全等同于中文语法意义的词,乃是为方便转换时识别次常用字而设立的,在能识别、与其它字词不矛盾的情况下,尽量做到简化和包容面广。例如“齣戲”就不是语法意义的词。如果设定为“一齣”,那么在转换时“太阳一出闪金光”中的“出”字就会出现转换错误。
上述转换如果反过来(即采用违反转换词典设定原则的方式),单字转换为大五码不常用的“愿”,而常用的“願”以词组搭配的方式转换,转换词典中就会增加许多词条。并且由于繁体字的“願”字组词搭配时的随意性很强,如“愿生命之树常青”、“愿社会昌明”之类的句子比比皆是,所以会导致转换时的难度和差错率增大。
以上当然是一个较简单的例子,因为在繁体字的规范化文本里“愿”字出现的几率极小。有时也有不容易处理的情况,尤其是中文姓名和外文译名的用字。如在繁体字中“裡、餘”使用特别广泛;但外文译名用“里”,中文姓氏用“余”,组词搭配时随意性强。综合考量在单字转换时用前者。还有些相同搭配的情况,如“編制、編製,老薑、老姜”等,只能转换为使用较广的一种。
实施例2直接一同步转换法如图2所示,首先将一种内码中能对应“转换词典”中次常用字词组的词,转为另一内码中“转换词典”所提供的规范化词组形式;在同一内码环境中将其余的字同时转为较常用字。“转换词典”中已提供的单字按此词典转换,其余的单字则按原有的中文内码转换方式转换。
例如,在国标码环境中将“謹愿、乡愿”等词中的“愿”字转为大五码的“愿”,其余的则在国标码环境中转为繁体字中较常用的“願”。
直接一同步转换法可用于计算机网络和各种计算机软件的线上转换。
实施例3间接—同步转换法CJK码(即中日韩统一码,East Asian Character Codes)由联合国教科文组织制定,包括了中文简化字、中文繁体字、日文和韩文的全部字符。以CJK为中介,可做到中文简化字和繁体字共存,并且能对照显示于计算机屏幕上。
间接一同步转换时,如图3所示,将一种中文内码按照与CJK码一一对应的关系全部转换为CJK码,以CJK码显示。在CJK码环境中按上述直接一同步转换法的方案转为另一中文内码,转换后另一中文内码也以CJK码显示。然后按一一对应的关系将CJK码转换为另一中文内码储存。
上述的三种转换方案均利用转换词典为转换媒介,而词典中收录了;1.“字”的对照;2.“词”的对照。
其中收录原则乃转换时有“一个来源内码对应多个目的内码”的字才列入“字”的对照中,且该多个目的内码的字系取其中一个出现频率最大的字作为对照;又若干次常用字,则以词的型态(配合前后其他字)收录在“词”的对照中。同时转换词典中亦提供一“用户开放区”,可供使用者随时增加“字”的对照与“词”的对照。
借助上述转换词典的特性,当间接转换前,用户可把极少数的必要特殊用词输入用户开放区,可在文稿校对前转换;而直接转换时通过转换词典的增补和调整把转换差错率降至最低。
转换词典里列入的字和词需尽量不重复,不矛盾,并且只考虑字形不管其发音。如“鞦韆”在“秋”字条下出现,就不在“千”字条下出现。为节省篇幅,“一对一”和“多对一”的单字都未列入转换词典,仍按原有中文文字内码转换方式转换。
兹举若干实例,比较说明原有的中文文字内码转换方法与本发明智能转换方法间的差异。
如以下简化字例句1.游客们有的在游泳。
2.除了余先生,其余的人都到了。
3.古人云学海无涯,云程有路。
4.博物馆里陈列了一尊万里长城的雕塑品。
5.尽管条件有限,他们还是力争做到人尽其才。
6.只要有一只小船,我们就可以渡河。
7.几名职员把写字楼收拾得窗明几净。
8.这项计划从经济上考量是否划算还是个未知数,因而该计划中产品的制造受到了限制。
9.皇后公园的后面有一家美容发型学院,我发现范小姐正在为学生作示范表演。
10.学生们正为期末考试作准备。复习中有时遇上复杂的问题,老师准许他们在课堂上讨论。
利用原有的中文文字内码转换方法通常只能转换为以下结果的繁体字例句1.游客們有的在游泳。
2.除了余先生,其余的人都到了。
3.古人雲學海無涯,雲程有路。
4.博物館裡陳列了一尊萬裡長城的雕塑品。
5.盍管條件有限,他们還是力爭做到人盍其才。
6.只要有一只小船,我们就可以渡河。
7.幾名職员把寫字楼收拾得窗明幾淨。
8.這項計劃從經濟上考量是否劃算還是個未知数,因而該計劃中產品的制造受到了限制。
9.皇后公園的后面有一家美容發型学院,我發現範小姐正在焉学生作示範表演。
1O.学生们正為期末考試作准俻。復習中有時遇上復雜的問題,老師准許他們在課堂上討論。
应用本发明中文文字内码规范化智能转换方法,可以转换为以下规范的繁体字1.遊客們有的在游泳。
2.除了余先生,其餘的人都到了。
3.古人云黉海無涯,雲程有路。
4.博物館裡陳列了一尊萬里長城的雕塑品。
5.儘管條件有限,他們還是力爭做到人盡其才。
6.只要有一隻小船,我們就可以渡河。
7.幾名職員把寫字楼收拾得窗明几淨。
8.這項計劃從經濟上考量是否划算還是個未知数,因而該計劃中產品的製造受到了限制。
9.皇后公園的後面有一家美容鬟型黉院,我發現范小姐正在為学生作示範表演。
10.学生們正為期末考試作準備。復習中有時遇上複雜的問题,老师准許他們在課堂上討論。
再如以下的大五码繁体字例句1.清朝乾隆年間發生遇乾旱。
2.將軍下令出征前並未徵求参謀部意見。
3.想去借錢卻找不到藉口。
4.謮著這部著作她深有感觸。
利用原有的中文文字内码转换方法通常只能转换为以下结果的简化字例句1.清朝乾隆年间发生过乾旱。
2.将军下令出征前并未徵求参谋部意见。
3.想去借钱却找不到藉口。
4.读著这部著作她深有感触。
应用本发明中文文字内码规范化智能转换方法,可以转换为以下规范的简化字1.清朝乾隆年间发生过干旱。
2.将军下令出征前并未徵求参谋部意见。
3.想去借钱却找不到借口。
4.读着这部著作她深有感触。
本发明可应用于涉及到中文的计算机软件、文字识别软件(OCR)、翻译软件、校对软件、电子字典、国际计算机网络等领域中的中文文字内码规范化智能转换,可促使同一中文计算机软件的简化字和繁体字两个版本合二为一,亦可应用于中文简、繁体字与中国方言(如广东话)文字、少数民族语言文字,及与日文、韩文等其它亚洲语言文字之间的转换。
另,转换词典是本发明重要的一部分,既包括较常用字的“字”,也包括次常用字的“词”。词典中“—”前为来源码中文之单字, “—”后为目的码中文较常用字之单字,单字条目下如有词组,即为次常用字的词组。有些单字条目下没有词组,即表示全部转换成对应的其中一个较常用字,不转换成其它次常用字。
以上概略地对本发明作了描述。本技术领域内的熟练人员可以不经创造性劳动就能对本发明作出各种各样的修改和改进。发明人认为这种修改和改进都属于后面的权利要求书所定义的范围之内。
附中文文字内码规范化智能转换词典中文文字内码规范化智能转换词典一、国标码转大五码说明1.“—”前的单字为国标码,其后的单字为大五码较常用字。为节省篇幅,“—”下的次常用字词组均为大五码,所对应的国标码词组从略。2.凡未列出的字仍按原中文文字内码转换方式转换。3.“里、隻”等字前的“#”号表示阿拉伯数字0~9和中文数字○~九,十、百、千、万、亿等。4.中文的姓氏,用“范、朴、涂、咸、游、余、占、鍾、党”等字,不用“範、樸、塗、鹹、遊、餘、佔、鐘、黨”等字。5.外文的中文译名,用“里、于、松、托、斗、采、舍”等字,不用“裡、於、鬆、託、鬥、採、捨”等字。
暗—暗 并—並庵—庵 合併,併案,併命,併發症,併糧,鳌—鳌 併合,併發,併力,併吞,裁併,歸摆—擺 併,火併,兼併,吞併,一併,兼容衣襬,下襬,底襬併包,兼收併蓄板—板 驳—駁老闆 卜—卜抱—抱籮蔔范小雞,范窩 布—布杯—杯 擦—擦世界盃,國際盃,亞洲盃,城運盃,農運 才—才盃,海華盃 采—採背—背 風采,神采,興高采烈,無精打采,揹帶,揹起,揹包,揹囊,揹子,揹負,采地,采邑揹債,揹黑鍋,揹榜 彩—彩辟—闢 剪綵,結綵,扎綵復辟,大辟,徵辟,辟引,辟邪 草—草箄—箄 騲雞,騲驢辫—辮 叉—叉表—表 扠腰,扠魚錶鍊,錶盤,錶针,掛錶,懷錶,坤錶, 铲—剷馬錶,秒錶,跑錶,手錶,停錶,鐘錶, 尝—嘗名錶嚐新,嚐膽,嚐藥,嚐草,嚐嚐,品嚐憋—彆 沉—沉澄—澄 雕—雕吃—吃老鵰,坐山鵰,一箭雙鵰,鵰悍,鵰扇,冲—衝鵰鶚,射鵰,神鵰沖默,沖昧,沖犯,沖服,沖淡,沖天, 吊—吊沖退,沖年,沖齡,沖和,沖襟,沖喜, 弔喪,弔古,弔客,弔文,弔孝,弔唁,沖銷,沖霄,沖虚,沖沖,沖人,沖弱, 弔民伐罪,哀弔,開弔,陪弔,憑弔,形沖操,沖退,氣沖霄漢,怒髪沖冠,沖影相弔茶,沖劑,沖賬,沖田,折沖,山沖, 丁—丁脈沖 冬—冬丑—醜鼕鼕小丑,丑時,丑角,文丑,武丑 斗—鬥出—出斗車,斗笠,斗蓬,斗子,笆斗,漏斗,齣戲,齣劇,齣電影濾斗,煙斗,北斗,泰斗,斗膽,市斗,蹰—躕斗轉,斗門,斗室,木斗,車斗,斗量,棰—棰南斗,星斗,斗箕,斗酒,斗方,斗拱,锤—鎚斗渠,阿斗,掛斗,殼斗,觔斗捶—捶 豆—豆村—村 渎—瀆唇—唇 杜—杜担—擔 端—端掸—撢 炖—燉啖—啖 讹—訛当—當 恶—惡叮噹,啷噹噁心党—黨 厄—厄党参 險阨,阻阨,阨窮,阨塞姓党,党先生,党小姐,党女士,党太 儿—兒荡—盪 发—發放蕩,淫蕩,浪蕩,水蕩,蘆花蕩,蘆葦 頭髪,髪夾,髮妻,髪蠟,髪型,髪油,蕩,黄天蕩,坦蕩 白髪,理髪,脱髪,燙髪,金髪,毛髪,呆—呆蓄髪,結髪,落髪,毫髪,鶴髪,散髪,捣—搗駁髪,剪髮堤—堤 翻—翻抵—抵 范—範牴觸,牴牾姓范,范先生,范生,范小姐,范女士,坻—坻范太,老范,小范淀—澱 泛—泛白洋淀氾濫,黄氾區仿—仿 构—構彷彿谷—谷扉—扉 毂子,毂物,五毂,百毂,包毂,稻毂,丰—豐 毂草,毂倉丰采,丰滿,丰潤,丰盈,丰腴,丰韻,雇—雇丰姿,丰神 刮—刮夫—夫 颳風,颳倒桴—桴 挂—掛俯—俯 拐—拐斧—斧 柺棍,柺杖复—復 圭—圭複本,複比,複壁,複方,複根,複合,管—管複句,複利,複式,複數,複線,複姓,柜—櫃複鹽,複眼,複葉,複音,複雜,複述,果—果複寫,複選,複意,複韻,複印,複製,哈—哈複種,複分數,周而複始 捍—捍覆命,覆信,覆文,覆照,賜覆,答覆,焊—銲回覆,敬覆,批覆,覆盆子呵—呵干—乾 核—核幹活,幹勁,白幹,大幹,單幹,公幹,合—合苦幹,蠻幹,巧幹,傻幹,實幹,死幹, 闔家,闔府,闔城,闔村,闔户,闔口幹流,幹道,幹路,幹渠,幹線,詞幹,恒—恆骨幹,基幹,軀幹,樹幹,枝幹,主幹,哄—哄能幹,幹將,幹才,幹練,才幹,精幹,轰—轟強幹,幹部,幹校,幹群,幹事,幹麼,后—後幹著 后妃,皇后,太后,王后,后王,后土干礙,干連,干涉,干系,何干,無干,呼—呼相干,—干,干犯,干擾,干預,干進,胡—胡干祿,干城,干戈,河干,江于,干支, 鬍鬚,鬍子,鬍匪,腮鬍,鬢鬍若干糊—糊赶—趧 冱—冱杠—槓 哗—譁槁—槁 花—花睾—睪 划—劃格—格 划船,划槳,划子,划算,划不來,划个—個 得來,划拳箇中滋味,箇中辛酸,箇中秘密,箇化—化中原委 怀—懷坏—壞 姜—姜徊—徊薑湯,薑液,閩薑,生薑,鮮薑,紫薑,欢—歡薑黄,薑芋,洋薑,薑末,薑片洹—洹 僵—殭辉—輝閙僵,僵持,僵局回—回 犟—強迴避,迴腸,迴盪,迴環,迴廊,迴剿—剿翔,迴旋,迴形针,低迴,旋迴,巡揭—揭迴,縈迴,迂迴 桔—桔毁—毁 借—借焚燬,燒燬,銷燬 藉以,藉重,藉助,藉刀殺人,背城藉譭謗,譭譽,詆譭 一,藉端,藉故,藉口,藉喻,假藉,汇—匯藉古,藉題彙編,詞彙,語彙,字彙,總彙筋—筋伙—夥 尽—盡伙房,伙夫,包伙,搭伙,開伙,起伙, 儘夠,儘管,儘快,儘力,儘量,儘讓,入伙,退伙儘先,儘自,儘北邊,儘底下,儘前頭获—獲 径—逕收穫 半徑,孔徑,口徑,圓徑,直徑几—幾 惊—驚茶几,條几,窗明几淨局—局饥—飢侷促,侷限饑饉,饑飽,饑溺,饑歡 巨—巨机—機 据—據虮—蟣 卷—卷迹—跡捲進,捲入,捲起,捲逃,捲揚,捲土,急—急漫捲,蓆捲,風捲,龍捲風,煙捲,行李绩—績捲,紙捲极—極 眷—眷家—家 撅—撅傢具,傢伙 濬—濬夹—夾 咯—咯价—價 慨—慨奸—奸 考—考姦夫,姦婦,姦情,姦污,姦淫,雞姦, 克—克強姦,通姦,誘姦,捉姦,輪姦,姦殺 坑—坑茧—繭 扣—扣鉴—鑑 釦襻,摁釦,紐釦,衣釦,子母釦,釦兒夸—誇瞭解,瞭然,瞭如指掌,明瞭夸毗,夸誕,夸容 磷—磷馈—饋 淋—淋昆—昆 菱—菱崑崙 棂—櫺捆—捆 岭—嶺困—困 溜—溜睏了,睏覺 笼—籠拉—拉 胧—朧蜡—蠟 楼—樓腊—臘 炉—爐琅—琅 卤—鹵累—累 橹—橹纍纍 罗—羅厘—釐 麻—麻里—裡 么—麽#里,里程,方里,公里,海里,華里, 霉—黴市里,英里,里弄,鄰里,閭里,統里, 蒙—蒙新德里,斯里蘭卡,阿里,里根,華里沙 濛濛,濛氾,濛鴻,濛鬆狸—狸 矇騙,矇住,矇事历—歷 眯—眯曆本,曆法,曆書,公曆,黄曆,回曆, 弥—彌舊曆,年曆,農曆,日曆,台曆,西曆, 瀰漫夏曆,陽曆,陰曆,月曆,藏曆,天文曆 猕—獼痢—痢 秘—秘栗—栗 面—面慄然,戰慄,顫慄,不寒而慄 麵包,麵粉,麵茶,麵食,麵糰,麵坊,漓—漓 麵糊,麵肥,麵人,麵條,麵湯,麵粥,篱—籬 米麵,洋麵,磨麵,豆麵,拉麵,壽麵,璃—璃 雜麵,炒麵,湯麵,掛麵,切麵,陽春帘—簾 麵,刀削麵,玉米麵,甜麵炼—煉 渺—渺梁—梁 蔑—蔑房樑,樑上,大樑,棟樑,横樑,跳樑, 谬—謬屋樑,懸樑,正樑,主樑,頂樑柱,雕 愍—愍樑,偷樑,鼻樑,脊樑,山樑,提樑 莫—莫聊—聊模—模了—了 乃—乃奶—奶 棋—棋你—你 旗—旗暱—暱 启—啟捻—撚 气—氣念—念 千—千唸白,唸叨,唸書,唸大學,唸中學,唸 签—簽小學,唸佛,唸經,唸咒,唸珠籤註,標籤,浮籤,路籤,瑞籤,書籤,娘—娘 題籤,籤筒,掣籤,抽籤,求籤,中籤,舞孃籤子,牙籤,竹籤酿—釀 钳—鉗袅—裊 枪—槍宁—寧 强—強啮—齧 襁—襁暖—暖 锹—鍬盘—盤 勤—勤刨—刨 丘—丘炮—炮 秋—秋佩—佩 鞦韆玉珮 球—球碰—碰 曲—曲匹—匹 麴黴,大麴,紅麴,酒麴辟—闢 榷—榷大辟,復辟 蜷—蜷剽—剽 确—確慓悍 绕—繞朴—樸 篛—篛朴刀,朴樹,朴硝,厚朴 洒—灑姓朴,朴先生,朴生,朴小姐,朴女上, 叁—参朴太,老朴,小朴 伞—傘仆—僕 丧—喪前仆後繼 鞝—鞝扑—撲 膻—羶铺—鋪 扇—扇舖子,店舖,舖户,當舖,舖家,飯舖, 讪—訕肉舖,藥舖,床舖,卧舖,通舖,舖位, 劭—劭地舖,舖板,吊舖,十里舖,窩舖 晒—曬凄—淒 舍—舍戚—戚 捨得,捨命,捨棄,捨身,捨本逐末,捨己,捨近求遠,捨生,割捨,取捨,四捨 沓—沓五入,用捨行藏,不捨,施捨 坛—壇参—参 叹—嘆什—什 趟—趟甚麽,傢俬 糖—糖沈—沈 醣原,單醣,多醣,二醣,肝醣,果醣,瀋陽 核醣,醛醣,乳醣,雙醣,血醣,葡萄醣升—升 藤—藤圣—聖 体—體剩—剩 眺—眺尸—屍 偷—偷尸位 涂—塗湿—濕 姓涂,涂先生,涂生,涂小姐,涂女士,虱—虱 涂太,老涂,小涂适—適 团—圑疏—疏 糰子,躄糰,麵糰,湯糰,飯糰薯—薯 脱—脱摔—摔 砣—砣松—鬆 秤鉈松貂,松果,松虎,松雞,松林,松明, 托—託松木,松球,松鼠,松仁,松樹,松濤,托盤,托葉,茶托,花托,槍托,襯松香,松针,松脂,松子,赤松,紅松,托,烘托,烘雲托月,托馬斯,托羅,托海松,青松,油松,倉松,白皮松,馬尾爾斯泰松,松茂,尼克松,松下 洼—窪搜—搜 崴—崴苏—蘇 玩—玩甦醒,復甦 挽—挽囉囌,嚕囌 輓詞,輓歌,輓聯,輓幛,敬輓嗉—嗉 万—萬术—術 万—俟白术 网—網穗—穗 唯—惟蓑—蓑 唯心,唯物,唯是,唯親,唯賢,唯唯台—台 諾諾檯布,櫃檯,企檯,寫字檯,檯球,檯 喂—喂子,鏡檯,檯球,梳洗檯 餵奶,餵小孩,餵孩子,餵飬,餵牲口颳風 瓮—甕它—它 呜—嗚污—污 修—修杌—杌 锈—鏽嘻—嘻 须—須溪—溪鬚根,鬚子,觸鬚,花鬚,鯨鬚,卷鬚,席—席蝦鬚,龍鬚,鬚瘡,鬚髪,鬚眉,蓆箔,蓆篾,蓆棚,蓆子,篾蓆,割蓆, 鬚生,虯鬚,蓄鬚,溜鬚炕蓆,涼蓆,蘆蓆,衽蓆,葦蓆,擇蓆, 恤—卹枕蓆,竹蓆 勖—勗系—系 薛—薛係詞,干係,關係,所係,確係 暄—暄繋馬,繋鈴,繋上,繋獄,拘繋,繋奱, 炫—炫繋念 旋—旋泻—潟镟床,镟工,镟子辖—辖 璇—璇纤—纖 勋—勳拉縴,縴繩 埙—壎闲—閒 熏—熏娴—嫻 丫—椏鹇—鷳丫把,丫頭,丫環,丫子弦—弦 烟—煙咸—鹹 淹—淹咸受,咸宜,咸寧,咸陽,咸豊 腌—醃姓咸,咸先生,咸生,咸小姐,咸女士, 岩—岩咸太,老咸,小咸 檐—簷衔—銜 演—演镶—镶 宴—宴向—向 咽—嚥嚮明,嚮導,嚮晦,嚮晨,嚮邇 艳—豔筱—篠 焰—燄效—效 扬—掦仿傚,傚法,傚仿,傚颦,傚尢,下傚 痒—癢邪—邪 肴—餚泄—洩 药—藥欣—欣 耀—耀幸—幸 迤—迆凶—兇 喑—喑凶服,凶事,凶信,凶宅,凶兆,凶多吉 殷—殷少,吉凶,凶年 慇懃淫—淫云—雲荫—蔭 云云,詩云,子云,云乎,云爾,人云,佣—傭 亦云,所云佣金,經紀佣,佣錢芸—芸墉—墉赞—讚踊—踴 贊成,贊禮,贊同,贊助,参贊涌—湧脏—臟优—優 髒土,髒像,髒字,骯髒游—遊灾—災游禽,游水,游泳,游魚,暢游,浮游, 咱—咱回游,洄游,卧游,魚游,上游,下游, 噪—噪中游 扎—扎姓游,游先生,游生,游小姐,游女士, 札—札游太 榨—榨佑—佑占—佔于—於 占卜,占卦,占課,占萝,占星姓于,于先生,于生,于小姐,于女士, 姓占,占先生,占生,占小姐,占女士,于太,老于,小于 占太,老占,小占余—餘沾—沾姓余,余先生,余生,余小姐,余女土, 帐—賬余太,老余,小余 帳頂,帳鉤,青紗帳,帳幕,帳篷,帳与—與 子,虎帳,幔帳,升帳,蚊帳,管帳欲—欲照—照慾念,慾壑,禁慾,情慾,肉慾,食慾, 着—著嗜欲,獸慾,私慾,性慾,縱慾,利慾, 棹—棹慾望,求知慾 折—折郁—鬰 摺尺,摺疊,摺扇,摺紙,摺子,存摺,愈—愈 奏摺痊癒,病癒,癒合,治癒仄—仄逾—逾鸩—鴆御—禦征—徵吁—籲 征麈,征程,征帆,征夫,征途,征衣,長吁,吁吁 長征,遠征,征伐,征服,征討,征戰,愿—願 出征,從征,親征,東征,西征,南征,謹愿,鄉愿 北征岳—岳症—症山嶽,五嶽证—證钥—鑰只—只#隻,單隻,隻隻,隻身,隻眼,隻字, 咨—諮形單影隻,船隻 咨文,咨議,咨嗟致—致 鬃—鬃緻密,工緻,精緻,密緻,細緻 “—「制—制 ”—」製版,製備,製表,製革,製劑,製件,‘ —『製冷,製品,製糖,製圖,製藥,製造, ’—』製作,採製,仿製,縫製,複製,繪製,機製,監製,精製,拉製,煉製,炮製, ◇用户输入区◇配製,攝製,試製,特製,提製,熏製,研製,預製,軋製,粗製志—志碑誌,方誌,府誌,日誌,省誌,縣誌,雜誌,地方誌,誌哀,誌喜,永誌不忘,標誌跖—蹠钟—鐘鍾愛,鍾情,鍾靈,鍾酒姓鍾,鍾先生,鍾生,鍾小姐,鍾女士,鍾太,老鍾,小鍾种—種姓种,种先生,种生,种小姐,种女土,种太,老种,小种冡—塚周—周胄—胄朱—朱殊紅,殊砂,殊墨注—注註解,註腳,註釋,註疏,備註,附註,集註,夾註,批註,小註,註明,註音,評註,簽註,轉註,註册,註失,註銷筑—築庄—莊妆—妝准—準准許,准予,核准,獲准,批准,邀准,允准,照准,准將,准尉,准平原二、大五码转国标码说明1.“—”前的单字为大五码,其后的单字为国标码较常用字。为节省篇幅,“—”下的次常用字词组均为国标码,所对应的大五码词组从略。2.凡未列出的字仍按原中文文字内码转换方式转换。
斑—斑 獲—获癍病 劐地,劐开扁—扁 藉—借鳊鱼 枕藉,蕴藉,慰藉,狼藉檗—檗 姓藉,藉先生,藉小姐,藉女士,藉太,萌蘖,分蘖 老藉,小藉怵—怵 鉅—巨憷场,憷头,发憷褲—裤吊—吊 纨绔钌铞樑—梁夫—夫 溜—溜呋喃 熘肉片乾—干 眉—眉乾道,乾图,乾网,乾坤,乾象,乾宅,麽—么乾造,乾曜,乾元,乾隆,乾县 幺麽橋—桥 你—你鞍鞒劈—劈甘—甘 噼啪,噼里啪啦糖苷平—平槁—槁 鲆鱼,斑鲆,牙鲆藁城譙—谯呱—呱 噍类,倒噍哌嗪佘—佘滾—滾 畲族石磙,磙子,磙地沈—沈後—后 墨渖呼—呼 嘶—嘶唿扇,唿哨 咝咝糊—糊 退—退烤煳,烧煳,煳了 煺猪,煺鸡,煺毛夥—伙 沱—沱淡沲惟—唯啞—哑於—于餘—余皂—皂番枧著—着著称,著名,较著,显著,昭著,卓著,知著,著录,著书,著述,著文,著者,著作,编著,合著,撰著,巨著,论著,名著,遗著,原著,专著,拙著摺—折徵—征角徵羽鍾—钟諮—咨「—“」—”『—‘』—’◇用户输入区◇
权利要求
1.一种中文文字内码规范化智能转换方法,其特征在于当进行不同内码间的文字转换时,如一种内码的一个字对应另一种内码的多个字时,首先将其转换为另一内码中较常用的一个字,在另一内码环境中,再利用“转换词典”中已预设或自订词的搭配转换为另一内码中对应的其它字;其中第一步转换需要将一种内码中的全部字符“一对一”转换为另一种内码的字符,“转换词典”中已提供的单字按此词典转换,其余的单字则按原有的中文内码转换方式转换,然后用自动搜索替换功能,将符合转换词典的词组全部转换为符合转换词典的规范形式。
2.一种中文文字内码规范化智能转换方法,其特征在于当进行不同内码间的文字转换时,将一种内码中能对应“转换词典”次常用字词组的词,转为另一内码中“转换词典”所提供的规范化词组形式;在同一内码环境中将其余的字同时转为较常用字,“转换词典”中已提供的单字按此词典转换,其余的单字则按原有的中文内码转换方式转换。
3.一种中文文字内码规范化智能转换方法,其特征在于当进行不同内码间的文字转换时,将一种中文内码按照与CJK码一一对应的关系全部转换为CJK码,以CJK码显示;在CJK码环境中按上述权利要求2中的转换。方案转为另一中文内码,转换后另一中文内码也以CJK码显示,然后按一一对应的关系将CJK码转换为另一中文内码储存。
4.如权利要求1、2或3中所述之中文文字内码规范化智能转换方法,其中转换词典中预设有不同内码间之来源码单字与目的码较常用字单字对照及目的码之次常用字词组,且所述来源码单字与目的码较常用字单字对照及目的码之次常用字词组可以随时增删。
全文摘要
本发明为一种中文文字内码规范化智能转换方法,用于在中文文字内码转换过程中,当一种内码的一个字对应另一种内码的多个字时,将其转换为另一内码中较常用的一个字;利用词的搭配加以识别,转换为另一内码中其它的字。这种转换可为同步转换,也可为异步转换。转换同时兼顾不同内码中文文字的规范和使用现状。本发明可有效地用于涉及到中文的计算机软件、文字识别软件(OCR)、翻译软件、校对软件、电子字典、国际计算机网络等领域中。
文档编号G06F1/00GK1177760SQ9711767
公开日1998年4月1日 申请日期1997年8月26日 优先权日1997年8月26日
发明者龚学胜 申请人:龚学胜
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1