中文输入的自动分隔方式的制作方法

文档序号:2651阅读:480来源:国知局
专利名称:中文输入的自动分隔方式的制作方法
本发明是关于对汉语文字(以下简称中文)的输入自动进行分隔的,特别是在中文输入装置上对一连串的中文进行分隔。
在处理中文的信息处理系统上,必须有中文输入装置。作为这样的中文输入装置的输入方式,一般来说,是根据汉字的字型或读音、或者字型和读音二者结合起来进行编码以进行输入。
作为表示汉语读法的表音文字,有着两种方法,一种是由中国政府制定的拼音字母,另一种是拼音字母制定之前的注音字母。现在中国以拼音字母为主流,而注音字母只限于台湾等部分地区使用。
根据上述拼音的记述进行中文输入,一般来说,按一次声母键和一次韵母键,也就键入了一个中文音节(亦即一个汉字)。根据此种方法,就可以通过重复单纯的操作来键入拼音,但是,设置将拼音字母串分隔为单词或者有意义的词组的手段是十分必要的。也就是说,中文输入装置以拼音字母串中的分隔符作为单位,把拼音字母转换为汉字。
过去,作为上面所述的分隔符,采用着句号和逗号(中文中称为标点符号)。作为变换的分隔符,只用句号和逗号是不够的,因为只使用标点时,分隔间距过长的情况很多,将拼音字母串转换为汉字串(例如整体词组转换)时,在两个分隔符之间,其前面部分所发生的词汇的分隔错误,会顺次地波及到后面部分,于是又使分隔错误进一步增加。这样也使转换处理时间变长,不能期待得到高效的中文输入,这是其缺点。
为了补救上述缺点,在标点以外的任意音节上设置分隔键,以便用它来指出分节。但是,使用此法,操作员必须经常地意识到分隔键的操作,因此,按拼音进行的一系列键入会被弄乱,成为效率低下的原因。
本发明的目的在于,把分隔中文词组的频度非常高的音节作为自动分隔音节而特设,从而就可以把由这样的音节、或者标点符号、或者根据中文的接续关系在标点符号以外的地方所键入的手工分隔指定等所分隔后的拼音字母串,作为转换为汉字串的单位,就可以克服前述的缺点,提供一种中文输入的自动分隔方法。
根据本发明而进行的中文输入自动转换方式,在把键入的中文表音字符串转换为汉字串的中文输入装置上,作为在这种装置上面的中文输入自动分隔方式。它具有检出手段和转换手段,检出手段检出予先确定了的特定音节的表音字母串,把它们作为自动分隔音节,而变换手段则将键入的直到前述的自动分隔音节为止的所有表音字符串一起变换为汉字串。这样,在顺次键入前述表音文字串时,在上述的表音字符串中,每当遇到前述自动分隔音节、标点符号,或每当揿下手工分隔指定键时,就可以实现表音字符串到汉字字串的依次转换。
根据本发明的中文输入自动分隔方式,因为把分隔中文词组的频度非常高的音节作为自动分隔音节,每当这个音节被键入,它们就把前面的中文字串作为变换的单位进行转换,因此,操作员不必意识是什么词或词组,就可以根据拼音顺畅地进行键入,其效果是使键入的效率大大提高。
图1是根据本发明而进行的中文输入自动分隔方式的一个实施例的方框图;图2是根据中文输入自动分隔方式而进行的中文输入处理动作步骤的流程图。
以下,参照附图来说明根据本发明所提出的中文输入自动分隔方式。
图1是本发明的一个实施例的方框图。在该图中,具有键入拼音功能的输入部1;对拼音字母串进行检查并将其中的分隔音节检出的分隔检出部2;把拼音字母串临时保存起来的缓冲部3;把拼音字母串变为汉字串的变换部4;具有拼音和中文对照表的转换字典部5;以及对键入的拼音或者转换3的中文进行显示的显示部6,依靠这些部分,来实现中文输入的自动分隔。
输入部1,对应于操作员的操作,发送包含有拼音字母串的输入数据100。
分隔检出部2则输入数据100,在输出拼音字母串101的同时,当输入数据100中存在有予先规定的特定音节的拼音字母串、标点符号或者是手工分隔指定符时,就输出控制信号102。
缓冲部3把上述的拼音字母串101输入进来并暂时加以保存,并把它作为音节信号103而输出。
变换部4根据变换控制信号102,输入音节信号103,与具有拼音和中文对照表的变换字典部5之间相互传送检索信号104,同时把拼音转换为汉字,输出显示信号105。
表示部6输入上述显示信号105进行显示,使操作员能够进行观察确认。
表1中,表示出为了由上述分隔检出部检知并输出控制信号102而予先确定的特定音节的实例。同一表中,当根据拼音文字键入所示音节时,拼音字母串被作为变换的单位而被分隔。这些音节虽然其自身是个单音节的词,而它们作为多音节词的末尾音节的频度非常高。进而,因其使用频度甚高,故在单词或词组的末尾,具有很强的更精细地对中文字串进行分隔的能力。我们就把这样的音节叫作自动分隔音节。
图2是根据上述中文输入自动分隔方式而进行的中文输入处理动作步骤的流程图。该图中,处理11是键入拼音的操作,处理12则是为了确认键入的拼音所进行的显示。
处理13,14,和15,分别判别输入进来的数据是标点、自动分隔音节或由分隔键产生的数据,如果这些都不是,则返回处理11,继续键入。如果是标点、自动分隔音节或由分隔键产生的代码,则转到处理16。
处理16把上述分隔了的拼音字母串转换为汉字字符串。这时要参照把拼音和汉字对应起来的转换字典文件17。
处理18,把键入的拼音字母串置换成汉字字符串而予以显示。处理19对中文的输入是否已经结束进行判断,如果未结束,则返回处理11。
表2中,给出了关于前述自动分隔音节的分隔率、分隔间距和评价系数的计算示例。该表中的分隔率表示了该音节把汉字字符串分隔为有意义的分隔音节的比例。计算是对中国的从小学到高中的十年间的语文教科书中所出现的全体词汇进行的(专有名词除外)。而且,是对一字词和二字词进行计算,由于超过三字的词组出现的频度极低,因而忽略不计。此外,在上述统计中的分隔间距表示了该音节出现的间距的平均值,用字数来表示。而评价系数乃是具有该音节的一字词以及把该音节作为词尾的二字词对全音节总数之比。该表示就是按评价系数的大小顺序列出了各分隔音节。
把上述这样的音节作为自动分隔音节,就可以把汉语序列自动地进行有意义的分隔。
第3表(a)
第3表(b)
表3(a)和(b)是利用上述中文输入自动分隔方式而进行的中文输入的例子。该表中的(A)栏是键入的拼音字母串(声母用大写字母,韵母用小写字母表示)。同栏中的符号“V”是根据中文朗读的语流,在标点符号以外的暂停处键入的分隔指定符。
(B)栏是从(A)栏中抽出的所有分隔。也就是,“ш ”是根据标点符号的键入而自动进行的分隔;“De|”或“He|”等,是根据上述自动分隔音节的键入而产生的自动分隔;“‖”是对应于朗读时的停顿而键入的手动分隔。
栏(C)是以栏(B)中的每个分隔为单位,把栏(A)中的拼音字母串转换为汉字字符串的结果。变换法是反复采用所谓最长一致法而进行的整体词组变换。同栏中的“/”是整体词组变换时自动进行的单词分隔。此外,当有同音词时则采用这些词的出现频度统计中最大的那个词。
栏(D)是相当于上述中文字符串的日语汉字。
表3的(a)和(b)的中文内,共59个音节(汉字字数)被6个标点符号和9个自动分隔音节以及上述的停顿而作的手工分隔指定等划分为19个分区。而每区相当的音节数平均为3(最大6,最小1),作为整体词组转换的分隔区间的长度,由于自动分隔音节的采用而显著地缩短了。
上述的例句是光明日报(1986年8月14日刊载)的钱学森博士的论文的一部分。从拼音到中文的转换正确率达100%。但是在中文输入时,与日语输入时相同,对同音词的处理并非十全十美,基于上述自动分隔音节的分隔能力并非百分之百。通常作为办公自动化对象的实际业务文章的转换正确率约为95%,文学作品的正确率约为85%。因此,必须再设置对输入的中文作订正处理例如可以音节为单位对所输入的中文进行。
并且,现在中国对“什么是词?”“应当在句中的什么地方进行分隔,以将它们划分为一个个的单词?”等问题,还没有明确的结论。根据本发明而进行的中文输入自动分隔方式,对每个单词的分隔,并不依赖于操作员的判断,而是根据系统内的基本定义被统一起来,这样就解除了上述障碍。
权利要求
一中文输入自动分隔方式,其特征在于键入汉语的表音文字串,并将其转换为汉字字符串的中文输入装置上的中文输入自动分隔方式,它具有把对应于予先确定的特定音节的表音文字串作为自动分隔音节加以检出的检出手段;以及把直到上述自动分隔音节为止所键入并显示的表音字符串整体地转换为中文字符串的转换手段;当前述表音文字串被顺次键入时,每当上述表音文字串中存在有前述自动分隔音节、标点符号、或者当揿下手动分隔指定键时,便将表音文字串顺次转换为汉字字符串。
专利摘要
本发明是关于按拼音从键盘上输入汉字时,以一些出现频度很高的音节作为自动分隔音节,来提高输入的效率。
文档编号G06F17/21GK87108006SQ87108006
公开日1988年6月8日 申请日期1987年11月26日
发明者伊藤英俊, 楠井健 申请人:日本电气株式会社导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1