基于声母韵母的中文输入法

文档序号:8257541阅读:1216来源:国知局
基于声母韵母的中文输入法
【专利说明】
所属技术领域
[0001]本发明涉及一种应用于计算机的基于声母韵母的中文输入法,尤其是一种以句子为输入单位、以词语为输入粒度、输入的同时对中文语句进行分词的输入法。
[0002]背景知识
[0003]汉语是一门优秀的语言,同时又是最复杂的语言之一。汉语语音丰满、音节丰富,音节分为声母和韵母,声母包括:b、p、m、f、d、t、η、1、g、k、h、j、q、X、z、C、S、zh、ch、sh、r、y、w,韵母包括:a、o、e、1、u、U、a1、ao、an、e1、er、en、ie、in、iu、ou、u1、un、Ue、ang、eng、ing、ong、iao、ian、iang、1ng、ua1、uan、uang、ia、uo、uaD 汉语由象形文字发展而来,會泛反映出中国的文化繁荣与历史底蕴。计算机的蓬勃发展离不开人机交互的进步,计算机的中文输入法技术历经近30年的发展,已趋于成熟。总体来说,现在施行的中文输入法技术可分为三类:第一类是以现代汉语拼音方案为编码基础的拼音输入法,第二类是以汉字的字形特征为编码基础的字形输入法,第三类是以汉字的字音字形相结合的特征为基础的音形输入法。然而由于汉字本身的复杂性,现存的中文输入法总要面对两个问题:拼写困难和重码率高。

【发明内容】

[0004]为了提高现存中文输入法的输入简易度,为了降低重码率进而提高中文的输入速度,本发明提出一种基于声母韵母的中文输入法。该输入法不仅实现了正确打出每个汉字的平均击键次数小于二次,而且输入计算机的中文都是经过分词处理过的,有利于后期的数据挖掘和大数据处理。
[0005]本发明解决其技术问题所采用的技术方案是:当切换到中文输入法时,利用软件对大键盘上的按键进行重新编码。第一步把中文音节分为两类并分配到键盘的按键上,第一类是 a、O、e、1、U、U、b、p、m、f、d、t、η、1、g、k、h、j、q、X、z、C、S、r、y、w,除去 ii 这个音节编码到V键上,其他音节分配到对应拉丁字母所在键上;第二类分为十组:第I组:a1、ao、an,第 2 组:e1、er、en,第 3 组 ie、in、iu,第 4 组:ou,第 5 组:u1、un、iie,第 6 组:ang、eng、ing、ong,第 7 组:iao、ian、iang、1ng,第 8 组:ua1、uan、uang,第 9 组:ia、uo、ua,第10组:zh、ch、sh,第一到第十组的音节分别分配到大键盘数字键1-9、0上。为了便于使用,请按照这个方法记忆:字母键,全不变;一二三四五,a、e、1、O、u ;六是嗯(ng),七八哎呦(1、u);九是组,十是合(h)。第二步首先在汉字编码中添加一个编码:分词码,该码为非打印编码,起到中文分词标记的作用,然后对tab键和空格键重新编码,因为数字键在第一步被编码过了,所以编码tab在输入法中作用是选中下一个重码对象,由于中文不可能输入空格,所以把空格键编码为分词码。该输入法技术有两种输入方法:全输和非全输,全输需要敲击一次声母加上敲击一次韵母,或者只敲击一次韵母,非全输只需要敲击声母组合。第三步规定词语是有属性的,本发明的输入法技术,以词语为最小输入粒度,而汉语中词语是有属性的,比如说:什么词性、用来修饰什么的、近义词有哪些、同音词有哪些、在语句中经常出现的位置等等。规定词语是有属性的是有必要的,因为中文里可能同一个读音的有多个词语,同一个词语在不同的场合也有多彩的意义,规定词语的属性,可以大大降低重码率,而且也是计算机读懂汉语的一大进步。第四步规定输入法以语句为输入单位,以词语为输入粒度,利用汉字组合词语时的习惯、词语构成句子时的属性来排除汉语重码冗余。比如读音为“zhi”或“Shi”的汉字非常多,但是读音为“zhishi”的词语就很少了 ;比如读音为“faxian”的词语有“发现”、“法线”,但是“发现”是动词属性,“法线”是名词属性,在组成句子的时候,可以分析语句成分,进一步排除冗余对象。
[0006]本发明的有益效果是,简单易推广,能够实现每个汉字平均击键次数小于二次,准确率比现行的输入法要高,以语句为输入单位,输入效率比现行的输入法都要高,现存的中文输入法主要使用键盘的三层字母键,本输入法主要使用键盘的三层字母键和大键盘数字键,输入时必须手腕腾空,有利于养成正确的输入姿势,保护手腕。输入的中文是经过分词处理过的,有利于后期的数据挖掘、大数据处理、网络搜索引擎搜索等的实施。
【附图说明】
[0007]图1是本发明的输入法对大键盘数字键的重新编码对照图
[0008]图2是基于声母韵母的中文输入法第一个具体实施例的分析图
[0009]具体实施案例
[0010]如图2所示,使用本发明的基于声母韵母的中文输入法输入“诚实是一种品质”的过程,第一步敲击 ‘0 键’、‘6 键’、‘0 键’、‘i 键’,输出为 “chengsh1、changsh1、shangsh1、shengshi” ;第二步敲击‘空格键’,输出为“chengshi”,此时直接选择第一个对象,有个空格在转换成中文时编码成分词码;第三步敲击‘0键’、‘i键’,输出为“chengshi shi,chengshi zh1、chengshi chi”,这里解释一下为什么总是第一个对象就是我们需要的呢,第一步中采用了使用频率排行技术,这在现有的输入法中已经使用,第三步中使用了词语的属性分析,一句话中的第二个词语一般是动词,而且判断动词最有可能。第四步敲击‘空格键’,直接选取第一个对象,输出为“chengshi shi”;第五步敲击‘y键’、‘i键’、‘0键’、‘6键,,此时输出为“chengshi shi yichang、chengshi shi yizhong、chengshi shi yichong,,;第六步敲击‘tab键’,选择上一步输出的第二个对象,“chengshi shi yizhong” ;第七步敲击‘空格键’,输出“chengshi shi yizhong”,第八步敲击‘p键’、‘3键’、‘0键’、‘i键’,此时输出为“chengshi shi yizhong pinzhi”,为什么这次没有冗余对象呢,因为汉字在组字的时候,声母‘P’开头的只能跟韵母‘in’,而不能跟‘iu’或者‘ie’,在组词的时候,发音为‘pin’的汉字只能和发音为‘zhi’的汉字组合,而不能和‘chi’或者‘shi’结合;第九步敲击‘。键’,输出为“诚实是一种品质。”,在这里因为输入法探测到标点符号,知道一句话已经输入完,所以把拼音翻译成中文。为什么不是“城市是一种品质。”或者“诚实是一种品质。”呢?因为‘城市’和‘诚实’具有不同的词语属性,在一个判断语句中,很容易就把第一种给排除掉了 ;又因为汉语中是不存在空格输出的,我们只是把空格编码为一种分词码,所以虽然输出的中文是包含空格这个编码的,但是不会显示出来。第十步敲击‘空格键’,把“诚实是一种品质。”输入到电脑文件中,输入一句话结束。
【主权项】
1.一种计算机设备的基于声母韵母的中文输入法,所有韵母均可以一键敲出,声母和韵母组合拼出一个汉字,以句子为输出单元,以词语为输入粒度,本输入法利用了中文无空格,以及中文很少输入阿拉伯数字的特点,重新对空格键和数字键进行编码,首先为中文添加一个编码:分词码,这个编码对应着键盘空格键的输入,为非打印编码,主要作用是切分输入语句中的词语,接着把中文音节分为两类,第一类包括:a、O、e、1、U、U、b、P、m、f、d、t、n、1、g、k、h、1、q、x、z、c、s、r、y、w,这些音节分配到各自对应的键盘的拉丁字母按键上,第二类分十组,第一组:a1、ao、an,第二组:e1、er、en,第三组ie、in、iu,第四组:ou,第五组:u1、un、iie,第六组:ang、eng、ing、ong,第七组:iao、ian、iang、1ng,第八组:ua1、uan、uang,第九组:ia、uo、ua,第十组:zh、ch、sh,第一到第十组的音节分别分配到数字键1_9、O上,为了便于使用,请按照这个方法记忆:字母键,全不变;一二三四五,&、6、1、0、11;六是嗯(ng),七八哎呦(1、u);九是组,十是合(h)。
2.如权利要求1所示,其特征是输入句子时用空格键对词语进行分词,同时利用汉字组成词语的习惯、词语构成句子时的属性来排除汉语重码冗余,利用tab键进行重码冗余筛选。
3.如权利要求1所示,其特征是作为输入的粒度,每个词语都是有属性的,比如说:什么词性、用来修饰什么的、近义词有哪些、同音词有哪些、在语句中经常出现的位置等等。
【专利摘要】一种用于计算机设备的基于声母韵母的中文输入法。它是以声母+韵母进行输入、以语句为输入单位、词语为输入粒度、兼带分词功能的中文输入技术。该输入技术首先对键盘按键重新编码,每输入一个汉字只需最多两次击键,对空格键编码实现中文分词的功能,赋予了词语以属性,利用组词习惯以及词语的属性对重码汉字进行排除。
【IPC分类】G06F3-023
【公开号】CN104571573
【申请号】CN201310479509
【发明人】杜亚博, 刘玉红, 王艳培
【申请人】杜亚博, 刘玉红, 王艳培
【公开日】2015年4月29日
【申请日】2013年10月15日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1