网络(因特网)汉语输入技术的制作方法

文档序号:6342922阅读:627来源:国知局
专利名称:网络(因特网)汉语输入技术的制作方法
技术领域
本发明涉及一种建立在因特网应用全面中文化基础上的汉语输入技术。前者指因特网在中国实现网址中文化、电邮地址中文化、引擎搜索中文化、网络内容中文化等全面中文化。具体地说,该发明是一种供在因特网领域使用的、简单而高效的汉语语句式输入技术,也可扩展到其它须进行汉字处理地场合使用。
因特网是从20世纪60代美国阿帕网(ARPANET)演变发展而来的,阿帕网是美国国防部高级研究计划局的一个项目,这个项目的设计目标是在发生大规模战争时,能够方便地把不同规格型号的计算机或计算机系统连接起来形成网络。总之,因特网是在计算机技术发展到一定历史阶段的必然产物,它彻底改变了人类的传统社会生活方式,广泛应用于信息传递、商业贸易、远程教学、休闲娱乐等社会生活的方方面面,高效性、即时性、交互性是其区别于传统模式的最大特色。因特网在世界范围内蓬勃兴起,1999年全球有近3亿人上网;因特网在我国亦有长足的发展,据统计,中国截止1999年底网民约900万,企业上网数量也大幅上升。
网络的应用均离不开人类交流所需的基础工具--语言文字。过去汉字的输入和处理问题曾制约了计算机在我国的普及和发展,“五笔字型”等一些汉字输入法较好地解决了这一“瓶颈”问题,但在易学性和普及性方面还存在着严重不足;中文手写输入也无法达到满意的输入速度。特别是在跨入网络信息时代的今天,网络应用的高效性与汉语输入的低效率已成为一对十分尖锐的矛盾,当前网上中文信息较少与此不无关系。只要你进入因特网,就会发现满目都是英文,这使非英语国家的人感到一种文化侵占的味道。据有关统计表明,在因特网上的英语内容约占90%,法语占5%,西班牙语占2%,而中文在网上的比例则微乎其微。
到目前为止,国内尚未见提到“因特网应用全面中文化”的概念,亦没有任何一种专业用于因特网的汉语输入技术出现。
本发明的目的在于,通过比较汉、英两种体系的语言文字,尝试制定一种构架在现有因特网标准之上的、适应汉语自身特点的并适合中国人使用习惯的中文网址、中文电邮地址、中文引擎搜索等应用层面的新标准;同时,为最大方便中文在网上的输入,真正实现因特网全面中文化,从而提出一种专供在因特网上使用的,针对因特网上不同输入类型而调用相应的“汉语语句库”来进行输入的,以汉语拼音为基础并截取其有效部分来进行编码的,操作高效而简单易学的,极易在因特网上普及的汉语语句式输入方法。
本发明通过以下步骤来实施并达到上述目的。
一.因特网全面中文化
因特网源于美国,所以构建INTERNET的协议和技术标准都是基于英语语言和美国文化背景的,符合他们的语法、思维和使用习惯。如果仅从因特网技术层面来看,处于底层(或内层)的成熟的协议和技术标准仍具有其重要的意义、价值和不可动摇的基础地位,或者说,如果要通过更改因特网底层(或内层)的技术和标准来适应本土化和中文化的要求,那将付出不必要的代价。但从因特网上层(或外层)的应用来看,它并不符合绝大多数中国人的习惯,比如,现有的网址和电邮地址等,就不符合我们的使用习惯。总之,因特网应用的中文化、本土化工作只能是在坚持国际标准、不破坏现有的技术标准的前提下的再创造。
1.网址中文化
①网址中文化的
背景技术
检索浏览信息(BROWSING)是因特网最重要的功能之一,通过因特网检
索浏览信息即我们常说的网络访问。早期的网络访问是通过IP地址实现的。根据
“TCP/IP”网络协议,INTERNET上的每台计算机(服务器)都有唯一的IP地
址,IP地址由一串类似180.175.26.10这样的数字组成。显然,这种以数字表示“网
络地址”的方法,很不直观,难以记忆。为解决这一问题,又出现了“域名”,
域名由具有一定意义的英文单词或英文缩写组成,中间以“.”隔开。例如,
http://ww.bol.com.cn中的“bol.com.cn.”。
有的在域名之下还有目录结构,它指出了某个页面的路径。例如
“Http://www.163.com/it/index-category/0,1182,13,00.html”中的“/it/index-
category/0,1182,13,00.html”。IP地址、域名和目录结构等几个部分组成了一个完
整的“网址”(URL)。
但是,英文域名要求使用者具有一定的英文基础,否则,26个英文字母的排列组合比10个十进制数字更难记忆。
CNNIC(中国域名管理中心)为中文网站提供了本土化的中文域名注册服务。CNNIC作为世界域名管理中心在中国的分支机构,必须按先前的英文域名的标准和规范,来制定中文域名的登记注册标准,于是就出现了类似“主页.北京在线.公司.中国”令国人费解的中文域名。
中文域名与英文域名实际是一个技术层面上的东西,既可单独注册中文域名或英文域名,也可两者一一对应注册,而且中文域名是完全按英文域名“克隆”出来的,并不遵循中文的习惯。中文域名、英文域名和IP地址三者的关系如下所示
②网址中文化的目的
A.解决网上“文化侵略”的问题,增强中文在因特网上的影响力,并最终实现“文化输出”。
B.促进因特网在中国的发展,为中国大众上网提供有利条件。③网址中文化的要求
A.遵循现有的互联网国际标准。互联网的技术标准虽然是从美国照搬过来的,但经过多年的应用和实践,已成为世界公认的事实标准。
B.在IP地址、域名(包括中英、文域名)两个层次上,构建符合汉语习惯的,方便我国大众上网使用的,且具有一定标准的第三个层次即中文网址层次。这三个层次的关系如下图
④网址中文化的标准
要在因特网现有层次上搭建新的层次,提出新的应用技术,就应该符合事物的客观规律,且具备一定的规范和标准。
为了提出网址中文化的新标准,必须比较研究中、英两种文字和语言的不同特点。
A.英文是典型的拼音文字,它以a~z 26个字母拼写单词,再由单词组成句子,表达完整的语意。英文单词相当于中文的字或词。语句中单词与单词之间以空格分开。
而汉字是典型的表形文字,每个字均有一定的意义,再由字组成词,汉语是以字、词为单位组合在一起表达完整语义的。语句中的字与字或词、词与字或词之间均没有空格或其它符合隔开。汉语的特点是文字简炼,字形优美,极易从语句中识断字、词之间的相互关系。
英文域名中的“.”既可看作英文单词之间的分隔符,也可看作“.”前单词的缩略号。中文网址则不必使用这一符号。
B.其次,英语中对通常意义的地址的表示与中文有很大区别。英语是将地名从小到大排列,而汉语是将地名从大到小排列。例如,汉语的“中国江苏南京珠江路260号”在英文中则成了“No.260,Zhujiang Road,Nanjing,China”。网址中文化必须立足汉语的表达习惯。
因此,从以上分析可归纳出中文网址的标准为
(国家名)(省、市名)(市、县名)(……)机构名/(目标路径)
例如,中国江苏南京亿迪电子商务有限公司
括号中的限定名可全部或部分省略,但为了减少网址名在国内和国外产生重复现象,最好保留部分限定语。例如,“中国南京亿迪电子商务有限公司”和“江苏南京亿迪电子商务有限公司”等。
2.电邮地址中文化
因特网的另一大用途是传递电子邮件(E-mail)。现代人的名片上不仅印有城市、街道、门牌、邮编、电话、传真、传呼、手机等,很多还印上了电子邮件的地址,这已成为一种时尚。
但我们不难发现,电邮地址几乎全是由英文表示的。例如,
cgm@publicl.ptt.is.cn
wang.cheng@rayoner.com
@为电子邮件的专用符号,其前面为单位名或个人名,后面为邮件服务器的名称。显然,这种电邮地址的表示方式,同样不便我们汉语国家的人们记忆和使用。所以本技术提出中文电邮地址的标准模式为
邮件服务器中文名
中文的单位名或人名例如
中国江苏公众信息网
陈恭明
中国易得商务网
亿迪公司
3.引擎搜索中文化
本技术提出引擎搜索中文化的标准模式
A.单字或词搜索
B.多字或词逻辑搜索
中文逻辑字有“与”和“或”。中文字或词与逻辑字之间以空格隔开。
二.网络(因特网)汉语输入技术
网络应用中文化解决了网上文化之争,方便了中国大众上网,但随之而来的是,汉字的输入难问题反过来成为网络中文化的障碍。可以说,因特网全面中文化呼唤优秀的网络输入法出现。
1.因特网领域的汉字输入特点和不同输入类型
因特网领域的汉字输入与传统领域的汉字输入有很大区别。因特网上文字处
理总的趋势是,愈来愈专业化、个性化。例如,在输入“英文网址”时,通常会
键入“http://www”、“.com”、“.org”“.cn”、等文字或符号(“http”是网络协议的
一种即“超文本协议”,类似的还有“ftp”即“文件传输协议”和“telnet”即“远
程登录协议”;“wwww”是子域名,表示“world wide web即万维网”,常见的还有
“home”、“news”;“org”表示“组织”;“com”表示“公司”;“cn”是“中国”
英文的缩写);输入“英文电邮地址”时,内容都含有“@”这一符号,而且其前面是单位名或人名,后面是邮件服务器的名称;输入电邮“收件人姓名”时,则从与你常通邮的朋友或熟人等姓名中选择,如此等等。因特网中文化后也存在着与此相似的特点。
从上可以看出,网上汉字输入在不同地方有不同的要求和用途,我们称之为不同的输入类型,例如中文网址输入类型、中文电邮地址输入类型、中文姓名输入类型、中文内容输入类型,等等。
2.语句库的建立和输入状态的转换方式
针对因特网上汉语输入的不同类型,分别建立各自独立的语句库。本发明将汉语的字、词、句分成两大类型普通库和专业库。普通库存储一、二级汉字和常用词语,作一般输入之用;专业库可分为中文网址库、中文电邮地址库、中文姓名库、修辞用语库、个人习惯用语库等,作特殊输入用。
建立几个独立语句库的目的在于,避免因使用一个字、词、语句库导致词汇、语句量过大,而造成重码率过高,输入效率过低的弊端。
所有专业语句库均可通过网上下载或人工删添更新,以保证各专业语句库的开放性,也可利用因特网的优势建立在线动态语句库。
在网上进行文字输入具体操作时,随着网上输入类型的变化,输入状态也随之变化,而且不同的输入状态调用不同的语句库。这里引进一个“输入状态指针”的概念,输入状态指针总是指向相应的输入类型,而且,输入状态是随着输入类型自动转换的。例如
当光标提示符进入中文网址输入框时,输入状态指针指向网址输入类型,用简单高效的编码方法便可从相关的网址库中输出所需的中文网址名;当光标提示符进入中文电邮地址输入框时,输入状态指针指向电邮地址输入类型,便可从电邮地址库中输出所需电邮地址名;当光标提示符进入电邮内容书写框时,输入状态指针又指向普通文字输入类型,则可从普通语句库中输出所要文字。
3.汉语字、词、句的编码输入规则
本发明选择汉语拼音方案为基础来进行编码输入。这是因为
a.在标准键盘上,汉语拼音与英文字母的联系最直接和自然,勿需人为定义难学难记的新规则。
b.中国人从小学即开始学习汉语拼音,可以得到我国广大网络用户的认可。
但拼音码的缺点是重码极多,甚至要翻几屏去寻找所需要的汉字,词组输入相对单个汉字而言重码率略低,但击键次数过多,严重影响输入速度。本发明为发扬拼音码的优越性而克服其缺陷,提出了以下编码输入规则
①单个汉字编码输入规则原则拼音前四个字母(不够四个字母的则取全部拼音)+汉字笔划读音首字母
(按笔划顺序),但总码长不超过8个。
本发明按常规将汉字笔划分为6种、(点)、一(横)、丨(竖)、丿(撇)、(捺)、乙(折)。“一”可衍生出
(提)”;“丨”可衍生出“亅(钩)”;“乙”又有“”、“乛”、“”、
等几种形式。
本发明以6种笔划为主,兼容
(提)”和“亅(钩)”。笔划读音首字母表单字输入举例
因--(YIN)SZHPN 网--WANG)SZPN
大--(DA)HPN 机--(JI)HSPDPZ
中--(ZHON)SZHS 国--(GUO)SZHHS
亿--(YI)PSZ 迪--(DI)SZHSHD以上括号内为截取单字读音的拼音字母
②两字词的编码输入规则原则每字各取拼音的前两个字母(若汉字拼音只有一个字母,则仅取一个)+
每字首笔划读音的第一字母。两字词输入举例
中国--ZHGUSS因为--YIWESD
输入--SHRUHP技术--JISHHH
计算--JISUDP 机器--JIQIHS
阿妈--AMAZZ文字--WEZIDD
③三字词编码输入规则原则前两字各取拼音的第一个字母,最后一字取拼音前两
个字母(若最后一字拼音只有一个字母,则仅取一个)。三字词输入举例
因特网--YTWA南京市--NJSH
解放军--JFJU计算机--JSJI
自动化--ZDHU胆小鬼--DXGU
④四字词及四字词以上的词组和语句的编码输入规则原则每字各取拼音的首字母。四字词及四字词以上的词组和语句输入举例
信息社会--XXSH
有限公司--YXGS
输入技术--SRJS
四个现代化--SGXDH
我是中国人--WSZGR
中华人民共和国--ZHRMGHG
南京亿迪电子商务有限公司--NJYDDZSWYXGS
从上可以看出,单字、两字词、四字词和四字以上的词或语句之间,不存在编码重复现象。单字虽然编码较长,但采用简码技术(最少为一级简码)后,平均击键次数为3~4次;二字词通过采用简码技术(最少为二级简码)后,平均击键次数为2~3次,重码率极低,三字词采用简码技术(最少为三级简码)后,平均击键次数为3~4次,几乎没有重码;四字次或四字以上的词或语句,码长与字数相等,不易产生重码现象。
总之,本技术更适合词组和语句的输入,对于单字的输入速度也比拼音码有很大的提高,重码率较低,易学易用,非常适合在因特网等专业领域使用。
权利要求
1.一种网络(因特网)汉语语句式输入技术,其特征在于
a.根据因特网上的文字使用特点、针对网上不同的输入类型而调用各自独立的“汉语语句库”来进行输入;
b.以汉语拼音为基础并截取其有效部分来进行编码,并以汉字笔划读音的拼音首字母为补充码,易学易用,输入高效;
本技术将汉字笔划分为6种、(点)、一(横)、丨(竖)、丿(撇)、(捺)、乙(折)。“一”可衍生出
提”;“可衍生出”亅(钩)”;“乙”又有“”“乛”、“”、
等几种形式。本发明以6种笔划为主,兼容
(提)”和“(钩)”;笔划读音首字母表
c.这种输入法也可在其它须进行汉字处理的场合使用。
2.按权利要求书1所述的网络(因特网)汉语输入技术,其特征在于
a.汉语语句库分普通库和专业库两大类型;
b.所有专业语句库均可通过网上下载或人工增删更新,以保证各专业语句库的开放性,也可利用因特网的优势建立在线动态语句库;
c.在网上进行文字输入具体操作时,随着网上输入类型的变化,输入状态也随之变化,不同的输入状态调用不同的语句库,而且输入状态总是随着输入类型自动转换的。
3.按权利要求书2所述的网络(因特网)汉语输入技术,其特征在于专业库分为中文网址库、中文电邮地址库、中文姓名库、修辞用语库、个人习惯用语库,通过这几个专业库搭建因特网的中文平台库,以确保实现因特网应用的中文化。
4.按权利要求书1所述的网络(因特网)汉语输入技术,其特征在于单字的编码输入规则为拼音前四个字母(不够四个字母的则取全部拼音)+汉字笔划读音首字母(按笔划顺序),但总码长不超过8个。
5.按权利要求书1所述的网络(因特网)汉语输入技术,其特征在于两字词的编码输入规则为每字各取拼音的前两个字母(若汉字拼音只有一个字母,则仅取一个)+每字首笔划读音的第一字母。
6.按权利要求书1所述的网络(因特网)汉语输入技术,其特征在于三字词的编码输入规则则为前两字各取拼音的第一个字母,最后一字取拼音前两个字母(若最后一字拼音只有一个字母,则仅取一个)。
7.按权利要求书1所述的网络(因特网)汉语输入技术,其特征在于四字词及四字词以上的词组和语句的编码输入规则为每字各取拼音的首字母。
全文摘要
本发明是建立在因特网应用全面中文化基础上,根据因特网上的文字使用特点,针对网上不同的输入类型而调用搭建于因特网中文平台库中的各自独立的“汉语语句库”来进行输入的汉语语句式输入技术。它以汉语拼音为基础并截取其有效部分来进行编码,以汉字笔划读音的拼音首字母为补充码,输入高效而易学易用。
文档编号G06F17/30GK1313565SQ0011213
公开日2001年9月19日 申请日期2000年3月13日 优先权日2000年3月13日
发明者陈恭明 申请人:南京亿迪电子商务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1