面向词的中文文字处理输入装置的制作方法

文档序号:6407670阅读:138来源:国知局
专利名称:面向词的中文文字处理输入装置的制作方法
技术领域
本发明是一种带有语法和语义分析处理、面向词(特别是四字词、三字词、二字词)的中文文字处理输入装置。
随着计算机技术的飞速发展和微型计算机应用的普及,计算机、特别是微型计算机越来越多的被用于作文字处理工作,而不再局限于做科学计算。近年来,专门用于文字处理的微型计算机更是得到了极大的发展。例如,在国内四通2401、2402、文豪、卡西欧等中英文打字机的知名度几乎已经是家喻户晓。
但是,无论是用于文字处理的通用微型计算机,还是专门用于文字处理的电脑打字机,当用于做中文的文字处理时,都无一例外的遇到了一个“瓶颈”问题,即中文的输入问题。
为了解决中文汉字输入的“瓶颈”问题,不少中外科学工作者充分的发挥了他们的聪明才智,提出了难以数计的解决方案。
早期,有人仿照中文机械打字机的原理设计了专用的中文大键盘,后来又有人设计出了规模较小的中型中文键盘,但都因无法很好的解决与计算机、特别是与通用微型计算机的接口,而逐渐的被人们淡忘了。
目前比较流行的解决方案都是建立在通用计算机(特别是微型计算机)键盘上的汉字编码方案。这些汉字编码方案大多以汉“字”为编码单元,一些编码方案(如五笔字型等)在汉“字”的编码间隙中插入“词”的编码,作为提高输入速度的一种辅助手段。
现有中文输入技术存在下列缺点1.汉字编码以“字”为主,不符合一般人以“词”为主的习惯。就目前各种文章,特别是报刊文章来看,文章中95%以上的字都是以词的形式出现的,而不是以单个字的形式出现;
2.符合一般人“语句→读音→汉字”思维习惯的汉语拼音或同一类型的汉字编码方案,码位长、重码率高,输入速度低。例如,用全拼汉字编码方案输入汉字,一般人每分钟只能输入约30个以字;
3.无重码的流水码(电报码、国标码等),汉字的编码与汉字的读音和字形均无直接的联系,一般人难以记忆和使用;
4.重码率低的字型码等编码方案使用“语句→汉字→编码”的思维方式,不符合一般人“语句→读音→汉字”的思维习惯,而且构成汉字编码的各个“字根”及组字规则均为设计者的个人思维习惯,不符合大多数人的习惯,记忆信息多,需经过学习和专门的训练才能掌握和使用;
5.有重码的汉字编码方案在遇到重码时必须由操作人员控制选择,因而大大降低了输入的速度;
6.现有的汉字编码方案输入时的编码(外码)一般都在3个以上,而汉字的机内表示码(内码)仅有两个字节;与机内仅有一个字节表示、输入时的编码也仅有1个的西文相比,输入时的码位过长,因而汉字的输入速度远远的低于西文的输入速度。
本发明的目的,在于采用符合一般人“语句→读音→汉字”思维习惯的汉语拼音编码方案,特别是一种简便易学的汉语拼音编码方案,以词为主,兼顾词词、词字、字词、字字的组合体,及单个汉字,由代码转换器(程序)自动完成拼音编码(外码)到汉字内码的转换、并依据语法和语义分析自动完成重码处理,大大提高中文的输入效率,解决中文汉字输入的“瓶颈”问题。
本发明在代码转换器中设置代码表、四字词库、三字词库、二字词库、字库、语法规则数据、语义数据、代码检查器、字词检索器、语法语义分析器、操作员选择器、掩码递归处理器。
字库,由字库索引和字库体构成,字库体由汉字的内码构成,字库索引由汉语拼音编码和该汉语拼音编码对应的汉字在字库体中的起始地址指针构成;
由词库索引和词库体构成的四字词库、三字词库、二字词库,词库体由构成词的各个汉字的内码及词的词性构成,词库索引由词的编码和该编码对应的词在词库中的起始地址指针构成,词的编码由构成词的各个汉字的编码构成;
语法规则数据由词的接续关系构成;语义数据由多意字用例构成。
在使用时,代码检查器查找代码表,检查由编码结束字符标明的编码串中各编码的合法性;字词检索器依四字词库、三字词库、二字词库、字库的优先级次序查询词库或字库;字词检索器没有从词库和字库中找到词和字时,掩码递归处理器掩去编码串中最后一个汉字的编码,用剩余的部分作为新的编码串递归调用代码转换器(不包括代码检查器),直至找到词或字,而后检查是否有被掩去的编码,如果有则以被掩去的编码作为新的编码串递归调用代码转换器(不包括代码检查器),直至所有的编码均被转换;字词检索器找到重码时,语法语义分析器依语法规则数据分析处理重码词或字,如果还有重码,依语义数据分析处理重码;经过语法语义分析仍有重码时,操作员选择器将各重码词或字提交操作员选择。如果是第一个重码词或字,操作员无需选择,继续后面的输入,由操作员选择器自动完成选择。
此外,本发明采用汉语拼音的首字母和末字母构成一种仅有两个字母的简化的汉语拼音编码,以缩短码长,方便记忆,提高输入速度。
本发明具有下列显著优点1.以词为主,兼顾词词、词字、字词、字字组合体及单个汉字,符合一般人以词为主的习惯,便于记忆;
2.采用汉语拼音编码方案,符合一般人“语句→读音→汉字”的思维方式,易被一般人接受和使用;
3.通过语法和语义分析自动进行重码处理,降低了操作员人工选择的工作量,极大的提高了中文的输入速度;
4.采用双字母简化汉语拼音编码,使汉字的输入编码的码长与机内表示的码长一致,大大缩短了汉字的输入码长,同时有利于平卷舌音掌握不好的使用者(特别是南方人)掌握和使用,提高了中文的输入效率。
附图
是本发明实施例的代码转换器程序流程图。
下面结合附图的实施例对本发明作进一步详细的说明。
(一).输入键盘上制有与汉语拼音声母字母和韵母字母对应的字母键及编码结束字符键(如空格键、回车键等);
(二).汉字的汉语拼音编码由汉语拼音的首字母和汉语拼音的末字母构成,汉语拼音‘a’、‘e'、‘o’的汉语拼音编码为‘aa’、‘ee’、‘oo’;
A.汉语拼音的首字母包括a,b,c,d,e,f,g,h,j,k,l,m,n,o,p,q,r,s,t,w,x,y,z,共23个;
B.汉语拼音的末字母包括a,e,g,i,n,o,r,u,共8个;
(三).代码转换器包括A.代码表,由汉语拼音的首字母和汉语拼音的末字母构成;
B.字库,由字库索引和字库体构成,字库体由汉字的内码构成,字库索引由汉语拼音编码和该汉语拼音编码对应的汉字在字库体中的起始地址指针构成;
C.由词库索引和词库体构成的四字词库、三字词库、二字词库,词库体由构成词的各个汉字的内码及词的词性构成,词库索引由词的编码和该编码对应的词在词库中的起始地址指针构成,词的编码由构成词的各个汉字的编码构成;
D.语法规则数据,由词的接续关系构成;
E.语义数据,由多意字的用例构成;
F.代码检查器、字词检索器、语法语义分析器、操作员选择器、掩码递归处理器;
(四).在使用状态A.代码检查器查找代码表,检查由编码结束字符标明的编码串中各编码的合法性,遇到非法代码,报警后结束代码转换器的工作;
B.字词检索器依四字词库、三字词库、二字词库、字库的优先级次序查询词库或字库,找到唯一的字或词,则返回该字或词的内码;
C.字词检索器没有从词库和字库中找到词和字时,掩码递归处理器掩去编码串中最后一个汉字的编码,用剩余的部分作为新的编码串递归调用代码转换器(不包括代码检查器),直至找到词或字;
而后检查是否有被掩去的编码,如果有则以被掩去的全部编码作为新的编码串递归调用代码转换器(不包括代码检查器),直至所有的编码均被转换;
D.字词检索器找到重码时,语法语义分析器依语法规则数据分析处理重码词或字;如果还有重码,依语义数据分析处理重码;找到唯一的词或字,则返回该词或字的内码;
E.语法语义分析器处理后仍有重码时,操作员选择器将各重码词或字提交操作员选择,操作员选定则返回该词或字的内码,否则中止代码转换器的工作。如果是第一个重码词或字,操作员无需选择,继续进行后面的输入,而由操作员选择器自动进行选择。
为了提高中文的输入速度,减少代码转换器的时间消耗,本发明的代码转换器还可以包括词库和字库重排器,代码转换器每完成一个词或字的代码转换时,词库和字库重排器将该词或字移到词库或字库中同码词或字的首位。
此外,在该实施例中,(一).词的词性包括普通名词,人物名词,时间名词,地点名词,人称代词,指示代词,数词,量词,动词,形容词,副词,介词,叹词,其它;
(二).语法规则数据的词的接续关系包括A.普通名词后续动词、形容词、普通名词、或副词;
B.人物名词和人称代词后续动词、形容词、副词;
C.指示代词后续动词、形容词、副词、量词;
D.数词后续量词、数词、时间名词;
E.动词后续普通名词、人物名词、地点名词、人称代词;
F.形容词后续普通名词、人物名词;
G.副词后续动词、形容词、副词;
H.介词后续各类名词、各类代词;
I.叹词不在两个汉字的中间;
在本实施例中,语义数据采用了高频多意字的用例。多意字的词性很复杂,只用上述语法规则难以适当地选取,同时高频多意字又具有影响效果大的特点,因而需采取专门的方法。有了高频多意字的用例,就可以根据它来指定这些字除了由它们的词性所限定的常规接续关系外,还可以同哪些词性的字词接续,从而实现正确的选取。在本实施例中,给出了下列高频多意字的用例爱、把、便、被、边、成、出、大、得、的、对、到、多、发、该、给、个、敢、过、后、会、好、进、将、开、肯、了、来、里、老、能、起、请、前、去、让、人、上、所、下、想、完、小、一、愿、要、于、欲、着。
高频多意字的用例数据由这些字的非常规接续关系构成。上述多意字的用例如下爱+动词、数词+把、便+动词、被+动词、动词+边、动词+成、动词+出、大+形容词、大+动词、得+动词、动词+得、得+形容词、代词+的、动词+的、的+名词、名词+的、形容词+的、数词+对、动词+到、数词+多、多+形容词、多+量词、多+动词、数词+发、发+形容词、该+动词、给+动词、动词+给、动词+个、敢+动词、动词+过、动词+后、会+动词、好+动词、动词+好、动词+进、将+动词、动词+开、肯+动词、动词+了、形容词+了、来+动词、数词+来、来+量词、名词+里、老+动词、能+动词、数词+起、动词+起、请+动词、动词+前、动词+去、去+动词、让+动词、数词+人、动词+上、名词+上、所+动词、数词+所、数词+下、动词+下、名词+下、想+动词、动词+完、小+动词、一+名词、一+动词、愿+动词、要+动词、形容词+于、动词+于、欲+动词、动词+着、数词+着。
权利要求
1.面向词的中文文字处理输入装置,包括输入键盘和代码转换器,其特征在于(一).输入键盘上制有与汉语拼音声母字母和韵母字母对应的字母键及编码结束字符键;(二).汉字的汉语拼音编码由汉语拼音的首字母和汉语拼音的末字母构成,汉语拼音‘a’、‘e’、‘o’的汉语拼音编码为‘aa’、‘ee’、‘oo’;A.汉语拼音的首字母包括a,b,c,d,e,f,g,h,j,k,l,m,n,o,p,q,r,s,t,w,x,y,z,共23个;B.汉语拼音的末字母包括a,e,g,i,n,o,r,u,共8个;(三).代码转换器包括A.代码表,由汉语拼音的首字母和汉语拼音的末字母构成;B.字库,由字库索引和字库体构成,字库体由汉字的内码构成,字库索引由汉语拼音编码和该汉语拼音编码对应的汉字在字库体中的起始地址指针构成;C.由词库索引和词库体构成的四字词库、三字词库、二字词库,词库体由构成词的各个汉字的内码及词的词性构成,词库索引由词的编码和该编码对应的词在词库中的起始地址指针构成,词的编码由构成词的各个汉字的编码构成;D.语法规则数据,由词的接续关系构成;E.语义数据,由多意字的用例构成;F.代码检查器、字词检索器、语法语义分析器、操作员选择器、掩码递归处理器;(四).在使用状态A.代码检查器查找代码表,检查由编码结束字符标明的编码串中各编码的合法性,遇到非法代码,报警后结束代码转换器的工作;B.字词检索器依四字词库、三字词库、二字词库、字库的优先级次序查询词库或字库,找到唯一的字或词,则返回该字或词的内码;C.字词检索器没有从词库和字库中找到词和字时,掩码递归处理器掩去编码串中最后一个汉字的编码,用剩余的部分作为新的编码串递归调用代码转换器(不包括代码检查器),直至找到词或字;而后检查是否有被掩去的编码,如果有则以被掩去的全部编码作为新的编码串递归调用代码转换器(不包括代码检查器),直至所有的编码均被转换;D.字词检索器找到重码时,语法语义分析器依语法规则数据分析处理重码词或字;如果还有重码,依语义数据分析处理重码;找到唯一的词或字,则返回该词或字的内码;E.语法语义分析器处理后仍有重码时,操作员选择器将各重码词或字提交操作员选择,操作员选定则返回该词或字的内码,否则中止代码转换器的工作。
2.如权利要求1所述的面向词的中文文字处理输入装置,其特征在于(一).词的词性包括普通名词,人物名词,时间名词,地点名词,人称代词,指示代词,数词,量词,动词,形容词,副词,介词,叹词,其它;(二).语法规则数据的词的接续关系包括A.普通名词后续动词、形容词、普通名词、或副词;B.人物名词和人称代词后续动词、形容词、副词;C.指示代词后续动词、形容词、副词、量词;D.数词后续量词、数词、时间名词;E.动词后续普通名词、人物名词、地点名词、人称代词;F.形容词后续普通名词、人物名词;G.副词后续动词、形容词、副词;H.介词后续各类名词、各类代词;I.叹词不在两个汉字的中间。
3.如权利要求1或2所述的面向词的中文文字处理输入装置,其特征在于代码转换器还包括词库和字库重排器,代码转换器每完成一个词或字的代码转换时,词库和字库重排器将该词或字移到词库或字库中同码词或字的首位。
全文摘要
本发明是一种带有语法和语义分析处理、面向词(特别是四字词、三字词、二字词)的中文文字处理输入装置。在代码转换器中设置代码表、四字词库、三字词库、二字词库、字库、语法规则数据、语义数据、代码检查器、字词检索器、语法语义分析器、操作员选择器、掩码递归处理器。汉语拼音编码由汉语拼音的首字母和末字母构成;语法规则数据由词的接续关系构成;语义数据由多意字用例构成。本发明大大提高了中文输入效率、简便易学。
文档编号G06F3/023GK1101439SQ9410057
公开日1995年4月12日 申请日期1994年1月26日 优先权日1994年1月26日
发明者郭军, 蔺志青 申请人:郭军
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1