一种基于中文汉字和日文汉字的映射方法及其应用的制作方法

文档序号:6466984阅读:198来源:国知局
专利名称:一种基于中文汉字和日文汉字的映射方法及其应用的制作方法
技术领域
本发明涉及通讯技术领域的文字转化技术,尤其一种基于中文汉字和日文 汉字的映射方法及该方法在手机短信交流中应用。
背景技术
中国和日本两国一衣带水,有悠久的交流历史。随着两国关系回暖,来往
于两国的人员也迅速增长,从2005年至2007年,两国的旅游从404万人次至 突破500万人次。在日本的中国工作人员、留学生、实习生、长期居住的人员 共有100万以上(《日本外务省白皮书2007》);根据日本外务省的统计资料,2006 年常住中国的日本人已经超过11万。这些人伴随着两国间的探亲和商务往来。 同时随着两国人民思想的开放,跨国婚姻交流的数量也明显增加。以上各种情 况极大的带动了两国人员间的交流需求。
短信是最常用的手机服务之一,其快速、价廉、方便等特点,深受中国和 曰本两国人民的喜爱。2000年至2007年,我国短信业务量分别为10亿、189 亿、900亿、1371亿、2177亿、3046亿、4296亿、5921亿,2007年短信日均 发送17亿。而日本85%的人拥有手机,其短信使用量占全球之首。沟通中国和 日本的手机短信,能给两国的交流提供更加方便的途径。
而平常短信的运行流程为发送方编写短信内容向目的地号码处提交,经基 站转送到运营商的短信息业务中心(SMSC),短信息业务中心再根据短信的目 的地号码进行派发,最终发送给接收者进行解码,得到短信内容。该过程只是 对信息进行转发,并不对通讯内容进行处理,这适用于同一国家内进行的交流, 能有效的保护通讯自由和通讯隐私。但是当进行跨国短信进行时,由于两国的 运营商和手机优先支持和处理本国文字,而对他国文字支持不充分,如果依旧 按照同一国家内的短信运行流程传送短信,容易使接收者得到的短信残缺或完 全无法显示,无法获取短信所表达的意思,使本次短信交流失效,并给接收者 带来困惑。不仅在本国的手机上无法显示对方的文字,而且也无法在本国的手 机上编写对方国家的文字。通常在中文手机上无法输入日文,相同地在日文手机上也无法输入中文。
鉴于此问题困扰了两国的文字交流,各种社会团体都在想方设法解决或减 少这种情况的发生,产生了多种方法。主要有翻译、拼音法、拆字法等。上 述方法值得借鉴,但都存在不足
跨国短信交流其基本的要求是短信能快速的被传递、能被成功的接收、能 让对方读懂内容。让对方读懂短信内容,并不是指对方接收到的短信文字必须 与发送方发出的短信文字完全相同,而是可以把短信转化成其他适合的形式, 让对方通过这种形式理解短信内容的含义。只有把本国文字转化成对方国家的 文字,即把中文转化成日文中存在的文字或把日文转化成中文中存在的文字, 该本问题就能得到缓解。
翻译常被用于跨国交流。由于其是把一国文字按照文字的含义转换成另一 国文字,期间已经实现了文字的转化,于是避免了在接收方手机中显示原文方 文字乱码的问题。由于现有机器翻译工具的翻译准确率不高,目前并未获取广 泛的应用。常用的机器翻译工具不过是一本自动的大词典,只是简单的对文字
逐个翻译,然后按顺序拼接成文章。而目前能用到的最先进的翻译工具Google
翻译,需要先存储数十亿字词的文字内容,然后应用统计学的学习技术构建翻 译模型,其翻译质量也无法达到一个人讲母语时的流利程度,也无法与专业译
员的技能相媲美(《Google翻译常见问题解答》)。当前翻译工作大多由人工完成。
但是翻译工作人员无法充分了解沟通双方的语境,易受工作情绪的影响,无法 保证翻译结果的准确度和可靠性。另外人工翻译需要接触交流双方的原文,交 流双方的隐私无法得到保障。上述原因也使的人工翻译未在短信交流上开展。
由于现有的手机和运营商都支持字母和数字字符,拼音法(中文汉字的罗 马拼音和日文汉字的罗马拼音)能很快的解决两国交流中的乱码问题,不需要 经过文字转换,这是解决乱码问题最容易想到的方法。由于拼音和文字的映射 具有一音多字的问题,某些常用字的一音多字现象会给文章的正确理解带来严
重的干扰,比如中文中拼音为"shanxi",就对应"山西"和"陕西"两个词组, 日文中拼音为"kenkou",就对应"健康","建工","兼行"等8个词组,所以 采用拼音法,需要根据上下文意思来判断目前该拼音指代哪个汉字,而更可怕 的是,提供依据的上下文也存在选择汉字的问题。所以使用拼音法书写的语句, 容易被误解,准确率偏低。
针对拼音一音多字的问题(主要存在于中文汉字拼音中),人们对拼音法进 行改进,出现注调拼音法,就是在拼音字母用添加数字表示声调,"0"表示轻 声,"1"表示阴平,"2"表示阳平,"3"表示上声,"4"表示去声,如"ni"、"nT"、 "m'"、 "n〖"、"ni"可以表示为"niO"、 "nil"、 "ni2"、 "ni3"、 "ni4",使 用注调拼音法能降低一音多字的概率,但不能完全避免。再用"ni"的注调表示
"ni2"为例,就至少对应"泥"、"倪"、"霓"等字。
由于中文拼音存在前鼻音、后鼻音,日文拼音存在清音、浊音,容易导致 在书写时,遗漏或增加了不该存在的字符,如中文中"shanliang"(善良),容易 被写出"shangliang";日文中"kakkou"(恰好),容易被写出"kakou"(加工)。 另外由于中国南北在发音上的区别,"N", "H",就容易被读成"L", "F", 影响信息的书写和识别,如"wozaihuzhoudengni"(我在湖州等你),被写成
"wozaifiizhoudengni"(我在福州等标),差之毫厘,谬以千里。
由于拼音是一种书写读音的体系,通常只用于汉字的学习,无法取代汉字 使用。完全用拼音写出来的文章很难懂。它不是一种正式的书写方式,而只是 一种阅读的帮助。
拼音由字母组成,多数汉字的拼音需要3个或以上字母组成,占用空间比 二字节汉字多,导致在有限空间内传达的信息量比汉字少。
而另外的方法是采用拆字法,就是把一些无法在对方字库中显示的汉字进 行拆分,能以最简单的字根组合形式显示在对方的字库中。如中文的"你"字, 按照此方法,被拆分为'M "、"尔"。此方法适用于左右结构的汉字,而对于上 下结构、半包围结构、全包围结构和复合结构的汉字,这种拆分方式难以让人 直观的识别拆分前的字。这种方法是对文字的破坏,是为了汉字而汉字的拼凑 方法。
使用汉字交流是中国人民和日本人民的生活习惯,具有优先的认同感,是 写书和阅读首选。汉字属于表意文字书写系统的词素音节文字,以字表意是其 重要的特点之一。具有汉字储备的人更喜欢使用汉字来传达信息。在阅读一篇 文章时,通过阅读汉字,能直接得到字面意思,而不需要像阅读拼音一样,需 要经过二次转换,增加获取信息的花费长度。实践证明,使用汉字比使用拼音 更能正确的传达所要表示的含义,汉字的识别率比拼音高。
观察中国常用的汉字(属于GB2312字符集,GB2312字符集全称《信息交 换用汉字编码字符集 基本集》,是一个中国大陆简体字国家标准)和日本常用 的汉字(属于Shift—JIS字符集,Shift一JIS字符集是日本一个常用的文字编码集), 首先可以发现其中的许多汉字是在字形上是相同或相似的,其次一些汉字在字 形上可以用中国的繁体字进行对应,对应于UNICODE码,剩余汉字就存在明 显区别,需要其他的方式进行关联。就此可以对这些汉字进行整理,建立中文 汉字和日文汉字的映射表。然后使用映射表从事两国文字的映射。从GB2312中文映射为Shift—JIS日文或从Shift—JIS日文映射为GB2312中文。

发明内容
本发明的目的是针对现有技术的不足,提供一种基于中文汉字和日文汉字 的映射方法及其应用。
本发明的目的是通过以下技术方案来实现的 一种基于中文汉字和日文汉 字的映射方法,该方法首先生成映射表,然后根据映射表进行中文汉字和曰文
汉字的相互映射。其中,所述映射表通过以下步骤来生成
(1) 获取并整理GB2312字库和ShiftjIS字库;
(2) 进行字形相同映射;
(3) 进行UNICODE码映射;
(4) 进行字形相似映射;
(5) 进行读音映射。
进一步地,所述步骤(2)具体为按照字形相同的条件,比照GB2312和 Shift—JIS字库文本文件中的GB2312字和Shift—JIS字列,以GB2312文本文件 的GB2312字为参照物,用Shift一JIS文本文件的Shift—JIS字来匹配GB2312文 本文件中的汉字,使用穷举法,把双方字库表中的汉字字形逐个比对,当出现 字形相同的比对时,提取本对映射,放入映射表。剩余的中文汉字重新归档为 中文字库表GB2312-A文本文件。
进一步地,所述步骤(3)具体为把中文字库表GB2312-A文本文件的 GB2312字列中的汉字和日文字库表Shift—JIS文本文件的Shift—JIS字列中汉字 进行比较,当条件符合时,提取本对映射,合并入字形相同过程生成的映射表 中。剩余的中文汉字重新归档为中文字库表GB2312-B文本文件。
进一步地,所述步骤(4)具体为先提取需要映射的GB2312-B文本文件 中的GB2312字列中的汉字,分析汉字部首组成和笔画顺序,给汉字打分,确定 汉字的分值,再从Shift—JIS文本文件的ShiftjIS字列中寻找通过相同方法得到 的分值相近的汉字,当得到的候选汉字个数大于1个时,选择最合适的比对, 加入到映射表。剩余的中文汉字重新归档为中文字库表GB2312-C文本文件。
进一步地,所述步骤(5)具体为提取需要映射的GB2312-C文本文件中 的GB2312字列中的汉字,获取汉字读音,当该字为多音字时,选择最为常用的 读音,然后从Shift—JIS文本文件的ShiftjIS字列中寻找通过相同方法得到的读 音相同或相似的汉字,当得到的候选汉字个数大于1时,从候选汉字中选择最合适的比对,最终加入映射表。
上述基于中文汉字和日文汉字的映射方法在手机短信交流中的应用。具体 为发送方编写短信内容和目的地号码,经基站转送到运营商的短信息业务中 心,短信息业务中心把短信派发到映射表处,映射表处获取短信的内容和目的 地号码,对短信内容运用映射表进行映射,得到经过映射的目标短信内容,然 后把目标短信内容向目的地号码处提交。
本发明与背景技术相比,具有的有益效果是
基于中文汉字和日文汉字的映射方法,揭示了中日汉字的固有关系中文 汉字和日文汉字起源于中国古汉字,在字形和字义上共通。中国和日本同属于 汉字文化圈,在思考方式和使用习惯上存在相似性,都适应和喜欢书写和阅读 汉字。
虽然中文和日文汉字起源相同,但由于各自的汉字演化过程和程度不同, 存在某些汉字无法直接映射。为避免短信交流中出现文字缺失,对这些汉字采 用特殊方式,当成"通假字"处理。实际生活中偶尔在文章中出现"通假字", 交流双方能根据语法习惯、社会常识和交流场景判断出这个"通假字"的原型, 而此判断的准确率高于拼音书写的文章。
本发明不同于翻译过程,不对短信内容所体现的含义进行解析,而仅对短 信文字进行一一映射。其过程完全能由程序实现,避免了人工参与,有效的保 护用户通信的隐私。
依本方法建立的映射表汉字全、条数多。可以采用把映射表导入内存,在 内存中进行映射计算。同时可以运行在对称多处理(SMP)技术的硬件平台上, 采用并行映射,提高映射速度。


图1是基于中文汉字和日文汉字的映射方法的流程图; 图2是进行字形相同映射框图3是进行UNICODE码映射框图; 图4是进行字形相近映射框图; 图5是进行发音相近映射框图6是中文汉字通过映射表映射为日文汉字示意图; 图7是日文汉字通过映射表映射为中文汉字示意图。
具体实施例方式
下面结合附图对本发明作进一步说明。
如图l所示,本发明的基于中文汉字和日文汉字的映射方法分成两个步骤: 一、生成映射表,二、根据映射表进行中文汉字和日文汉字的相互映射。
基于中文汉字和日文汉字的映射方法的映射表建立过程,包括以下步骤
1. 获取并整理GB2312字库和Shift—JIS字库;
2. 进行字形相同映射;
3 .进行UNICODE码映射; 、
4. 进行字形相似映射;
5. 进行读音映射。
以从中文汉字映射到日文汉字为例。以中文汉字为参照物,使用日文汉字 满足对参照物进行比对。
从Internet上获取中文GB2312编码表,把编码表中以区块形式的对应改造 成编码对,每一编码对由一个GB2312编码、分隔符和与该编码对应的一个字符 组成,如C9A1伞、B8F1格。从Unicode的官方网站获取CP936.txt (CP936 为 GB2312 的编码页别名 ,
http:〃www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/cp93 6.txt),其组织格式为列1为CP936编码(16进制,0xXXXX),列2为Unicode 编码(16进制,0xYYYY),列3为Unicode对应的名称或字符。以GB2312表 中的GB2312编码和Unicode表CP936中的CP936编码为连接,得到含有 UNICODE码的GB2312的字库表,存放于文本文件中,命名为GB2312。其格 式为Unicode码、GB2312码、GB2312字,以分隔符分害ij。如其中两列"4FlE C9A1 伞"和"683CB8F1格"(不含双引号)。此排列约有8000项,加入部分不属于 GB2312表,但属于GBK表的常用中文汉字后,约有8995项。
从Internet上获取日文Shift—JIS编码表,把编码表中以区块形式的对应改造 成编码对,每一编码对由一个Shift—JIS编码、分隔符和与该编码对应的一个字 符组成,如8948羽、90B3正。从Unicode的官方网站获取CP932.txt (CP932 为 Shift—JIS 的编码页别名 ,
http:〃www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/cp93 2.txt),其组织格式为歹U 1为CP932编码(16进帝lj, 0xXXXX),列2为Unicode 编码(16进制,0xYYYY),列3为Unicode对应的名称或字符。以Shift一JIS表 中的ShiftjIS编码和Unicode表CP932中的CP932编码为连接,得到含有UNICODE码的Shift—JIS的字库表,存放于文本文件中,命名为Shift一JIS。其 格式为Unicode码、Shift—JIS码、Shift—JIS字,以分隔符分割。如其中两列"7FBD 8948羽"和"6B63 90B3正"(不含双引号)。此排列约有9000项,加入部分 不属于Shift—JIS表,但属于JIS表的常用日文汉字后,约有9397项。
首先对条数最多,且最方便的部分,即字形相同部分进行映射,如图2所 示。按照字形相同的条件,比照GB2312和Shift一JIS文本文件中的GB2312字 和Shift一JIS字列,以GB2312文本文件的GB2312字为参照物,用Shift—JIS文 本文件的Shift—JIS字来匹配GB2312文本文件中的汉字,使用穷举法,把双方 字库表中的汉字字形逐个比对,当出现字形相同的比对时,提取本对映射,放 入映射表,映射表的结构为UNICODE码、GB2312码、GB2312字、Shift—JIS 码、Shift—JIS字和分割符。剩余的中文汉字重新归档为中文字库表GB2312-A 文本文件,用于下一映射方法。此过程能解决GB2312表的60%, Shift一JIS表 的57%。
由于中文和日文中都包含数字、字母以及符号。所以这些文字按照字形相 同的方式进行处理。日文中的平片假名,也使用该方法处理。
图3所示即是用于处理Unicode码映射的方法,此过程主要处理中文和日文 存在简繁体对应或字义相同的对应。Unicode组织在进行字库设计时,已经考虑 到中日韩CJK的对应,所以我们可以利用这种便利来为映射表服务。同字形相 同映射过程相似,此步过程是把剩余中文字库表GB2312-A文本文件的GB2312 字列中的汉字和日文字库表ShiftjIS文本文件的Shift一JIS字列中汉字进行比 较,当条件符合时,提取本对映射,合并入字形相同过程生成的映射表中。剩 余的中文汉字重新归档为中文字库表GB2312-B文本文件,用于下一映射方法。 此过程能解决GB2312表的28%, Shift—JIS表的27%。
经过以上二次对应所形成的映射表,己经包含绝大多数常用汉字,能满足 普通日常交流。
剩余少量汉字,由于没有明显的规律可寻,于是采用复杂方法进行映射, 人工进行校正,此映射可以根据日常使用习惯进行调整。
图4所示为字形相似的比较,字形相似和字形相同的区别在于构成汉字的 多个部首中存在一个或多个部首存在书写的不同。生活中的这些字常被误认成 另一个"白字",虽然在读音上容易被人误认,但是在字形上还是被清晰区分开。 此步过程先提取需要映射的GB2312-B文本文件中的GB2312字列中的汉字,分 析汉字部首组成和笔画顺序,给汉字打分,确定汉字的分值,再从Shift—JIS文 本文件的Shift—JIS字列中寻找通过相同方法得到的分值相近的汉字,当得到的候选汉字个数大于1个时,需要人工选择最合适的比对,最终加入到映射表。
剩余的中文汉字重新归档为中文字库表GB2312-C文本文件,用于下一映射方 法。此过程能解决GB2312表的9。/。, Shift—JIS表的8°/。。
当参考汉字分值得到的另一个汉字分值偏移较大时,认为两个汉字不适合 匹配,用汉字的读音对其进行匹配。如图5所示。提取需要映射的GB2312-C 文本文件中的GB2312字列中的汉字,获取汉字读音(不涉及声调),当该字为 多音字时,那么选择最为常用的读音,然后从Shift—JIS文本文件的Shift一JIS字 列中寻找通过相同方法得到的读音相同或相似(不涉及声调)的汉字,当得到 的候选汉字个数大于1时,需要人工从候选汉字中选择最合适的比对,最终加 入映射表。此过程能解决GB2312表的约2n/。, Shift—JIS表的约2%。
极少数剩余的汉字,由于无法对应,暂时空余。此汉字量不足映射表的1%。 日常使用中遇到的几率极低。
统计映射表,由于日文汉字原始条目多于中文汉字原始条目,并且存在一 个日文汉字对应不同的多个中文汉字的现象,所以约有6%日文汉字不参于从中 文对应日文的映射。
用同样的过程建立从日文汉字映射到中文汉字的映射表。
由于日常交流中,信息的内容有多个汉字组成,又由于映射表条目多,势 必影响映射速度。需要对映射表进行优化1、对汉字的出现顺序进行重新排列, 把常用汉字放置于优先位置,提高命中率,减少大幅度偏移的査询;2、使用内 存数据库,把整个映射表加载到内存,由于访问内存的速度比硬盘等存储设备 快,能减少査询映射表的时间;3、采用对称多处理架构(SMP)的硬件平台, 由于短信交流天生的时间分割,能让我们轻松的使用对称多处理架构(SMP) 的硬件平台。
映射表建立完成后,可以被放置于数据库表或加载到内存,用于中国和曰 本间短信交流,从事汉字映射工作。
用于中国和日本间短信交流的映射方法种类繁多,但从文字处理方法所使 用的机理上,可归纳为基于翻译、基于拼音、基于字根、基于编码。本发明 基于中文汉字和日文汉字映射的方法,舍弃了拼音一音多字、字根无法拆分和 翻译需要人工参与的缺点,结合编码的发展而来。这种方法具有,交流双方书 写短信方便,到达短信无乱码,阅读识别率高等特点。为目前的中日短信交流 提供了最为准确的方法。
本发明基于中文汉字和日文汉字的映射方法,首先通过组合中文汉字 (GB2312字库)和日文汉字(ShifLJIS字库),依据字形、UNICODE码和读音等特点,采用比照字形相同、相似,UNICODE码相同,读音相同、相似等顺序,
建立中日文汉字映射表。
然后对获取的短信内容逐字利用映射表进行中日文映射,转化为目标短信
内容。可以使从中文手机发送的GB2312编码的中文汉字短信,变成Shift—JIS 编码的日文汉字短信,使其显示在日文手机中;也可以使从日文手机发送的 Shift—JIS编码的日文汉字短信,变成GB2312编码的中文汉字短息,使其能显示 在中文手机中。
基于本发明的方法,短信的流程变成发送方编写短信内容和目的地号码, 经基站转送到运营商的短信息业务中心;短信息业务中心把短信派发到映射表 处,映射表处获取短信的内容和目的地号码,对短信内容运用映射表进行映射, 得到经过映射的目标短信内容,然后把目标短信内容向目的地号码处提交,最 终发送给接收者进行解码,得到目标短信内容。
下面以放置于数据库为例,介绍映射表的应用。
以映射表建立映射表的MS SQL SERVER数据库表,表名为HanCode,,并
映射表导入向该表中。表结构为
CREATE TABLE [HanCode]( [char] (4) COLLATE Chinese—PRC_CI_AS NOT NULL , [FROM—CODE] [char] (4) COLLATE Chinese—PRC一CI一AS NULL , [FROM—TEXT] [varchar] (2) COLLATE Chinese—PRC—CI—AS NULL , [DEST—CODE] [char] (4) COLLATE Chinese—PRC—CI—AS NULL , [DEST—TEXT] [varchar] (2) COLLATE Chinese—PRC—CI一AS NULL, CONSTRAINT [PK—HanCode] PRIMARY KEY CLUSTERED
( )ON [PRIMARY] )ON [PRIMARY]
接收到短信后,对短信内容逐字进行分割,得到一个短信内容的字符串。 按顺序取得字符串中的一个文字(属于汉字、符号、数字和字母),用这个文字 的字形作为查询条件,使用査询语句从映射表中查找目标文字,得到目标文字 的字形,然后把这个目标文字添加入目标短信中。依次顺序处理完所有文字, 组织成目标短信,发送给接收者。
查询语句为
select DEST—CODE,DEST一TEXTfrom HanCode
where FROM—TEXT^〈被映射的文字〉' 实施例1
从中文手机发送的GB2312编码的中文汉字短信,经过映射表中文汉字到日 文汉字映射,变成Shift一JIS编码的日文汉字短信,使其显示在日文手机中。如 "你们短信业务方便吗"9个中文汉字,其中4个汉字"短信方便"是依据字形 相同;2个汉字"业务"是依据UNICODE码相同;2个汉字"你们"是依据字 形相似;最后1个汉字"吗"是依据读音相似。这几个中文汉字经过映射表映 射完成后,得到"祢門短信業務方便嘛^ 9个日文汉字。映射过程如图6所示。
实施例2
从日文手机发送的Shift—JIS编码的日文汉字短信,经过映射表日文汉字到 中文汉字映射,变成GB2312编码的中文汉字短息,使其能显示在中文手机中。 如"祢門短信業務方便嘛"9个日文汉字,其中5个汉字"短信方便嘛"是依 据字形相同;3个汉字"业务门"是依据UNICODE码相同;1个汉字"你"是 依据字形相似;0个汉字是依据读音相似。这几个中文汉字经过映射表映射完成 后,得到"你门短信业务方便嘛"9个中文汉字。映射过程如图7所示。
权利要求
1. 一种基于中文汉字和日文汉字的映射方法,其特征在于,该方法首先生成映射表,然后根据映射表进行中文汉字和日文汉字的相互映射。其中,所述映射表通过以下步骤来生成(1)获取并整理GB2312字库和Shift_JIS字库。(2)进行字形相同映射。(3)进行UNICODE码映射。(4)进行字形相似映射。(5)进行读音映射。
2. 根据权利要求1所述的映射方法,其特征在于,所述步骤(2)具体为按照 字形相同的条件,比照GB2312和Shift—JIS字库文本文件中的GB2312字和 Shift—JIS字列,以GB2312文本文件的GB2312字为参照物,用Shift—JIS文本 文件的Shift一JIS字来匹配GB2312文本文件中的汉字,使用穷举法,把双方字 库表中的汉字字形逐个比对,当出现字形相同的比对时,提取本对映射,放入 映射表。剩余的中文汉字重新归档为中文字库表GB2312-A文本文件。
3. 根据权利要求1所述的映射方法,其特征在于,所述步骤(3)具体为把中 文字库表GB2312-A文本文件的GB2312字列中的汉字和日文字库表Shift一JIS 文本文件的SWft一JIS字列中汉字进行比较,当条件符合时,提取本对映射,合 并入字形相同过程生成的映射表中。剩余的中文汉字重新归档为中文字库表 GB2312-B文本文件。
4. 根据权利要求1所述的映射方法,其特征在于,所述步骤(4)具体为先提 取需要映射的GB2312-B文本文件中的GB2312字列中的汉字,分析汉字部首组 成和笔画顺序,给汉字打分,确定汉字的分值,再从Shift一JIS文本文件的Shift_JIS 字列中寻找通过相同方法得到的分值相近的汉字,当得到的候选汉字个数大于1 个时,选择最合适的比对,加入到映射表。剩余的中文汉字重新归档为中文字 库表GB2312-C文本文件。
5. 根据权利要求1所述的映射方法,其特征在于,所述步骤(5)具体为提取 需要映射的GB2312-C文本文件中的GB2312字列中的汉字,获取汉字读音,当 该字为多音字时,选择最为常用的读音,然后从Shift—JIS文本文件的ShiftjIS 字列中寻找通过相同方法得到的读音相同或相似的汉字,当得到的候选汉字个 数大于1时,从候选汉字中选择最合适的比对,最终加入映射表。
6. —种权利要求1所述基于中文汉字和日文汉字的映射方法在手机短信交流中的应用。
7.根据权利要求6所述的应用,其特征在于,该应用具体为发送方编写短信内 容和目的地号码,经基站转送到运营商的短信息业务中心,短信息业务中心把 短信派发到映射表处,映射表处获取短信的内容和目的地号码,对短信内容运 用映射表进行映射,得到经过映射的目标短信内容,然后把目标短信内容向目 的地号码处提交。
全文摘要
本发明公开了一种基于中文汉字和日文汉字的映射方法及其应用,它以中国和日本同属汉字文化圈,都有使用汉字的习惯,且中文汉字和日文汉字具有共通性、相似性为切入点,通过依次比较字形、UNICODE码和发音等步骤来对应中文汉字和日文汉字,建立中文汉字和日文汉字映射表,以一国文字表示另一国文字,用来对中国和日本两国间跨国短信中的文字逐一进行映射,使得经过映射的短信文字能被对方正确接收并保持原意。此发明有效的解决了中国和日本两国间短信交流中存在的乱码和文字空缺问题。本方法中的映射表具有汉字映射数量多、查找速度快、可扩展等特点,不仅方便两国短信间的交流,而且适用于中日两国其他需要用一国文字表示另一国家文字的环境。
文档编号G06F17/28GK101458682SQ20081016315
公开日2009年6月17日 申请日期2008年12月18日 优先权日2008年12月18日
发明者孙宝乐, 磊 陈, 勤 黄 申请人:杭州方捷信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1