以句子为输入单位的计算机汉字编码及输入方法

文档序号:6409214阅读:170来源:国知局
专利名称:以句子为输入单位的计算机汉字编码及输入方法
技术领域
本发明涉及一种以句子为输入单位的计算机汉字编码及输入技术。
目前,国内外汉字编码法从第一代以单个汉字为单元的拼音或拼形汉字编码输入、第二代以字为基础,词为主导音形结合,字词一体高频先见智能处理发展到第三代利用前后文章的相关联系,智能处理地输入方法,不下几百种。其中真正推广开来的有五笔字型和自然码。自然码是采用声韵编码方式,五笔字型是按被编码的汉字字型结构和书写顺序作为编码依据,把汉字定义为五种笔划拼型而成。以上两种编码主要以字词为输入单位。
现有技术的不足之处在于五笔字型采用纯形编码法,拆字难,易出错误,必须要记忆许多规则和特殊汉字的编码,增加了记忆量,解决重码只能高频先见,二级简码难记忆,三级简码利用率低。自然码采取声韵方法,虽增加了智能处理,降低了重码率,但二级简码(声声)和原编码思想(声韵)不一致,三级简码利用率低。两种编码共同存在着的缺陷是减少记忆量,则重码增加,若减少重码则编码规则多。不适应以句子为单位的汉字输入,不利于计算机的普及推广使用。
本发明的目的是针对以上问题,本编码突破众多的四位码长编码思路,以四码库作引句(基本库),通过计算机系统的处理以六码库作为组句。即计算机系统自动地将第一个字或词的声母字符,代入第二个字词的字符中,组成六个关联的声母字符在六码库(智能库)中组词匹配,然后截取前一个字四个连续声母字符代入下一个字词的声母字符组词匹配。直到句子结束为止。从而可以达到以句子输入为主,以字词输入为辅的目的。
在四码库的引声识形基础上,将四码库内容代入并和下一个字词的两个字符组成六位码,经过计算机系统自动处理,用六码库(智能库)中大容量的字词编码,进行逻辑匹配组句。利用本技术编码的27000个字、词、难字在四码库内混打组词,其静态重码率仪为0.2%,动态重码率为零。在六码库中可容纳(23×23×23×23×23×23)=14803万个编码。因此,以句子为单位输入的技术方案是可以达到的。本方法分为两个过程第一阶段为输入引句信息阶段,第二阶段为输入组句信息阶段。输入一个句子,只要第一个字、词的字符键入计算机后,以后的字、词均由智能库将前一字、词代入或截取四个字符和后一字、词的两个字符,进行逻辑匹配。如此循环下去,直到句子结束。第一个阶段只是开始时使用,以后均为第二阶段运行。本发明的引句信息规则是将国标GB2312-80《信息交换用汉字编码字符集基本集》的全部部首217个按“形部首”、“音部首”分为两类。详见图一。对每个音部首,其代表符就是它的读音声母,如金(J)、火(H)、士(T)。对每个形部首,其代表符是用对应的在形状上与部首读音、笔画读音、字母相象的作代表符。如攵(W)、丨(S)、廴(Z)、丿(/)。全部汉字的声母,有23个对应键盘英文字母,Zh、Z、Ch、C、Sh、S分别用V、C、S符代替。“;”、“,”、“.”、“/”作为字的组合结构识别码。6763个通用汉字的编码方法和操作方法是字声母+首笔码+第二笔码+末笔码,不足四码的加打上下(;)、左右(,)、内外(.)、杂合型(/)的字符进行识别。不认识的字声母不打,直接(或按?键)取码,第一码如是在“;”、“,”、“.”、“/”字符键位上时,由“Z”代替第一码。
双字词第一音节声母+第二音节声母+第一音节首笔码+第二音节首笔码;
对前后字相同的双字词第一音节声母+第二音节声母+第一音节首笔码+第一音节第二笔码;
三字词第一音节声母+第二音节声母+第三音节声母+单引号;
四字词以上依次取第一、二、三音节声母+末音节声母;
本编码规则同样适用五笔字型编码,只是在要输入句子的汉字编码识别码处,换成五笔字型编码的字根识别码,用相应的键输入,同样可以完成以句为单位的计算机输入。第二阶段组句信息的规则是建立23个声母词库,与计算机键盘一一对应。输入句子的时候,第一个字、词的代表符按引句信息(四码库)的规则输入计算机后,计算机系统自动将其四个字符代入到第二个字、词(六码库字词),和第二个字、词的字符组成匹配词组,如此循环下去直到句子结束。
输入一个汉字的过程就是系统自动将上一汉字字符代入截取,只需向计算机输入其声母+部首;
双字词系统自动将上一汉字词组全码(四码)代入,此时只需键入第一音节声母+第二音节声母;
三字词将三字词看作词组+单字的组合,按照“词组”第一音节声母+第二音节声母,“单字”第一音节声母+首笔码的规则输入;
句子输入过程中遇到“高频字+空格”,“三字词+单引号”字符时,系统自动回到四码库,将高频字、三字词代入。如果智能库发生重码,系统则可采取上下文关联关系处理。即发生重码时,继续输入下一字词编码,计算机将其重码编码+下一字词编码到重码处理库查找,使关联词与库内关联词相匹配。如果重码处理库没有查到所需的此编码时,系统提示是否将此编码加入。如果单字、词是简码,智能库自动将其尾部空格用“*”,补充,一级简码用“***”、二级简码用“**”、三级简码用“*”。
本发明的特征是将GB2312-80《信息交换用汉字编码字符集基本集》的全部部首,按119个“形部首”和98个“音部首”分类。“形部首”的代表符是其对应的在形状上与部首读音、笔画读音、字母相象的作代码;“音部首”的代表符是它的读音的声母,将全部汉字的声母和键盘英文字母相对应,Zh、Z、Ch、C、Sh、S,用V、C、S代替,“;”、“,”、“.”、“/”作为上下、左右、内外,杂合型字结构的识别符号。编码方法和操作是这样的句子输入分两阶段。第一阶段为引句信息阶段,句子的第一个字词的字符按以上规则编码,单字声母+首笔码+第二笔码+末笔码,不足四码的打单字结构识别码。不认识的字声母不打,直接(或按?键)取码,第一码如是在“;”、“,”、“.”、“/”字符键位时用“Z”代替取第一码。
双字词第一音节声母+第二音节声母+第一音节首笔码+第二音节首笔码;
前后字相同的双字词第一音节声母+第二音节声母+第一音节首笔码+第一音节二笔码;
三字词第一音节声母+第二音节声母+第三音节声母+单引号;
四字词以上依次取第一、二、三音节声母+末音节声母;
按照上边的编码规则编码并输入计算机内,句子的输入即进入第二阶段,即组句信息阶段,句子输入是单字时,计算机系统自动将上一个汉字词的字符代入或截取和该字的声母+部首组成六位码,句子输入是双字词则输入第一音节声母+第二音节声母,句子输入是三字词则将三字词看作两字词和单字的编码输入。依此循环下去直至句子输完。


图1为本发明217个汉码,23个声母与英文键盘对应表;
图2为217个汉码划分为119个“形部首”、98个“音部首”分类表。
下面结合实施例对本发明进一步加以说明对照本编码规则,及具体键码位置可参看附图1,附图2。下列字在引句信息阶段是这样编码和输入的(字)国G K WD
(第一声母+首笔码+第二笔码+末笔码)
(不足四码)中 VKS /
(第一声母+首笔码+第二笔码+识别码)(双字词)中国
V G K K(第一音节声母+第二音节声母+第一音节首笔码+第二音节首笔码)(前后字相同的双字词)恰恰
Q Q XR(第一音节声母+第二音节声母+第一音节首笔码+第一音节二笔码)(三字词)现代化 X D H/
(第一音节声母+第二音节声母+第三音节声母+单引号)(四字词以上)五笔字型
WB VX
(第一音节声母+第二音节声母+第三音节声母+末音节声母)
中华人民共和国
VH R G
(第一音节声母+第二音节声母+第三音节声母+末音节声母)
将第一字、词的字符键入计算机后,句子输入进入第二阶段即组句阶段,计算机系统自动将四码库的字符截取代入和下一字、词的字符组成六位码以显示。
希望 这种 编码 方案 的 提出 能够 XWC; XWC;VV XWVVBM VVBMFABMFADB FADBTCDBTCNG 对 提高 计算 机 汉字 输入 技术TCNGDYNGDYTGDYTGJS TGJSJMJSJMHV JMHVSRHVSRJS 的 质量 和 消除 社会 上 计算SRJSDB JSDBVL DBVLHH VLHHXC HHXCSH XCSHSP SHSPJS 机 编码 的 混乱 状况 起到 积极SPJSJM JSJMBM JMBMDB BMDBHL DBHLVK HLVKQD VKQDJJ作用QDJJVY
下划线上的字符为系统自动截取代入的上一字、词的字符,后两个字符为当前输入的音形代码。故50个汉字只用了60键就完成了句子的输入。
五笔字型编码使用本规则输入句子的例子希望 这种 编码 方案 的提出 能够XWQYXWQYVV XWVVBM VVBMFA BMFADR FADRTC DRTCNG对提高 计算 机汉字 输入 技术TCNGDC NGDCTG DCTGJS TGJSJS JSJSHV JSHVSR HVSRJS的质量 和消除 社会 上计算SRJSDR JSDRVL DRVLHT VLHTXC HTXCSH XCSHSH SHSHJS机编码 的混乱 状况 起到 积极SHJSJS JSJSBM JSBMDR BMDRHL DRHLVK HLVKQD VKQDJJ作用QDJJVY
下划线上的字符为系统自动截取代入的上一字、词的字符,后两个字符为当前输入的音形代码。故50个汉字只用了60键就完成了句子的输入。
本发明和现有技术相比较,具有减少码长(平均1.4码)降低重码率(27000个字、词混打四码库中静态重码度仅为0.2%)的优点,有效地解决了以句为主,词为辅的汉字输入问题。本码以句子为单位输入的方法同样适用现已广泛使用的五笔字型编码。
权利要求
1、一种以句子为输入单位的计算机汉字编码及输入方法,其特征在于
①将国标GB2312-80《信息交换用汉字编码字符集基本集》的部首分别定义为119个形部首、98个音部首
音部首白、贝、比、匕、厂、车、次、臣、虫、寸、大、歹、丁、刀、耳、二、儿、缶、父、风、方、丰、工、弓、骨、艮、革、广、戈、禾、火、户、黑、己、金、臼、九、几、巾、斤、口、立、龙、力、木、母、麻、米、门、牛、女、鱼、爿、片、皮、疋、其、气、且、七、七、人、三、矢、尸、巳、山、四、石、手、身、土、田、子、止、执、竹、隹、舟、走、足、爪、王、韦、文、血、西、夕、小、穴、心、已、又、酉、由、雨、明、羊
形部首一、宀、冖、
丶、灬、
ク、
卩、阝、扌、

弋、、刂、川、巛、
幺、
纟、髟、钅、匚、冂、口、凵、

马、
日、
肀、
彐、
、
犭、、目、月、
亻、
八、
、饣、衤、
皿、士、十、丷、
廿、
艹、廾、豸、豕、
爫、攵、夊、彳、忄、
衤、
廴、厶、乙、辶、
讠、亠、言、冫、
丬、疒水、
氵、、彡
②Zh、Z、Ch、C、Sh、S用V、C、S字符代替
③″;″、″,″、″.″、″/″作为识别码,它们分别是“;”即上下,“,”左右,“.”内外,“/”杂合;
④119个形部首、98个音部首、23个声母与英文键盘的对应位置是
⑤引句信息阶段编码的规则
单字声母+首笔码+第二笔码+末笔码不足四码的字加打识别码;不认识的字声母不打,直接(或接?键)取码第一码在″;″、″,″、″.″、″/″字符键位上时,由″Z″代替第一码
双字词第一音节声母+第二音节声母+第一音节首笔码+第二音节首笔码;
前后字相同的双字词第一音节声母+第二音节声母+第一音节首笔码+第一音节第二笔码;
三字词第一音节声母+第二音节声母+第三音节声母+单引号;
四字词以上第一音节声母+第二音节声母+第三音节声母+末音节声母;
⑥组句信息阶段的编码规定
单字上一汉字字符代入+声母+部首;
双字词上一汉字字符代入+第一音节声母+第二音节声母;
三字词将三字词看作词组+单字的组合,按词组声声、单字声形输入。
全文摘要
本发明涉及一种以句子为输入单位的计算机汉字编码及输入方法,现有的编码以字、词为输入单位,其法则记忆量大,重码率高。本发明将国标码定义为119个“形部首”、98个“音部首”,23个声母对应于英文键盘。输入句子时,第一个字、词按一定规则输入后,系统自动将上一字词的字符代入下一字词按一定规则组成六位码,循环到句子结束。本发明平均码为长1.4键,连续输入码长50码以上。本码以句子为单位的输入方法,同样适用五笔字型编码。
文档编号G06F3/023GK1152735SQ95111179
公开日1997年6月25日 申请日期1995年8月31日 优先权日1995年8月31日
发明者李建设 申请人:李建设
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1