中文断词编排方法

文档序号:6330419阅读:629来源:国知局
专利名称:中文断词编排方法
技术领域
本发明涉及一种中文断词编排方法。
汉字历史渊远流长,几经变革,从最初的象形文字发展到如今以表形、表声、表义为主的2万余单字。我国古文在编排时是通篇无句读的(参见《说文解字》,许慎撰,中华书局,1963年第一版),阅读时极易产生歧义。如“下雨天留客天天留我不留”便是典型一例。近代白话文始有标点符号,但因一般一句一断,连字不断词成句,仍存在以下缺陷1.出现歧义著名例句“已结婚的和尚未结婚的青年”可解读为“已结婚的和尚、未结婚的青年”与“已结婚的和尚未结婚的青年”两种。
又如“薛伟荣获一等奖”也可以析为“薛伟荣获一等奖”以及“薛伟荣获一等奖”。
2.不断词编排,词法不发达,增加了学习难度。
3.因为多字连续编排,长句可达几十字,从而降低了阅读、纠错效率。如“让人在不断燃起对清官意识的期盼的同时让人不丧失对民主法制意识的追求”(2000.12.18《南方周末》年度特刊文《我为什么要投这一票》)。
4.外国人学习、交流困难,影响了汉字作为国际化语言在世界的推广。
鉴于上述,本发明的目的就是要提出一种不容易产生阅读歧义、可提高阅读效率、也便于外国人学习交流的中文断词编排方法。
为实现上述目的,本发明采用以下技术方案一种中文断词编排方法,其步骤如下依照稿件,顺序录入或置入每个汉字和字符,形成文稿;于上述过程进行中或过程结束后,依照稿件中所作的断词标记,在文稿的每个中文词和其它中文字词之间加入断词符;将经如上加入断词符编排后的文稿输出到记录载体上。所述断词符可为空格或 形符号。
对于不连续的多字词,在其断续部分加入一对前后呼应的断词符。
该一对断词符可为“→”和“←”,也可为“…”和“…”。
本发明具有以下优点1.一般不会再产生歧义,因而有利于作者与读者的正确交流,提高文字表达与判断的准确程度,使中文书面语更为严谨周密。
2.提高作者与读者的语法、词法水平,推动中文的语法与词法发展。
3.因为细分为“词”,增强了句子结构分析研究,故学习中文将较以前容易,特别是对外国人。
4.便于对中文至外文的人工翻译和机器翻译,有利于中文走出玄奥,真正成为世界语言。
5.因为一般是以词为基本单位,故可提高计算机等的输入效率,节省内存。
6.由于词与词之间有断词符间隔,故可大大提高中文的判断与阅读效率。
以下结合实施例对本发明作详细说明。
本发明是一种在报纸、杂志、书籍、说明书、文件等的编辑、排版、印刷、出版,或计算机文字的输入输出中使用的中文断词编排方法,其步骤为依照编排稿的作者提供的稿件,在输入设备上顺序录入或置入每个汉字和字符,形成文稿;于上述过程进行中或过程结束后,依照稿件中所作的断词标记,在文稿的每个“中文词”和其它中文字词之间加入断词符,该断词符为空格;将经如上加入断词符编排后的文稿输出到记录载体上。
上述的断词符还可为 形符号或其它符号,总之,以不会造成阅读歧义的符号为宜。
这样,本发明便将句分为词,词与词间有间隔,句与句间仍以占一格的标点符号分隔。如原来的一段文字“我们是中国人,我们爱中国。”,经本发明方法断词编排后,便成为“我们是中国人,我们爱中国。”。
在以上步骤中,输入设备可以是键盘、扫描仪,或磁盘驱动器、光盘驱动器等电子文档读取设备,文稿由“录入”所形成。若以键盘“录入”原稿,则在“录入”过程中或“录入”结束后均可加入断词符,若用其它输入设备,则在“录入”结束后加入断词符。
输入设备也可以是传统的“铅与火”铅字排版中使用的铅字版,文稿由“置入”铅字模所形成。
而在何处加入断词符,即划定“中文词”的原则,则主要依据编排稿的作者(并非原作者)在原稿件中所作的标记,其可能是一标准的词,也可能是几个字词的组合。因此本发明所称的“中文词”,并非狭义的中文的词或词组,而是中文的词、词组、字词组合。
将经断词编排后的文稿输出到记录载体,至少包括两种情况一种是传统有纸出版物的印刷过程,所使用的记录载体包括纸、帛、塑料等材质,该类载体上记录的信息不易消失,且可被人直接阅读。该类载体一般不能重复使用。
另一种是电子出版物的存储、显示过程,所使用的记录载体包括光盘、磁盘、半导体存储器等,该类载体上记录的信息必须借助视频装置才能重现而被人阅读,该类载体上记录的信息很容易更新,载体一般都能重复使用。
此外,对于一些不连续的多字词,还可在其断续部分加入一对前后呼应的断词符。该一对断词符可为“→”和“←”,或为“…”和“…”。
如“展开一片海边碧绿的沙地来”(鲁迅《故乡》中句)中的“展开来”属不连续的三字词,在“展开”和“来”之间夹着许多字词,因此可在“展开”后加入“→”或“…”,并在“来”前加入“←”或“…”,使前后照应。
下面是对鲁迅《故乡》最后一段用本发明断词编排的例子原编排“我在朦胧中,眼前展开一片海边碧绿的沙地来,上面深蓝色的天空中,挂着一轮金黄的圆月。我想希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便成了路。”本发明断词编排“我在朦胧中,眼前展开…一片海边碧绿的沙地…来,上面深蓝色的天空中,挂着一轮金黄的圆月。我想希望是本无所谓有,无所谓无的。这正如地上的路;其实地上本没有路,走的人多了,也便成了路。”对于熟知的书名(如《三国演义》、《而已集》)、剧目名(如《群英会》、《林冲夜奔》)仍沿袭连写。
对于成语等一些熟语亦连写,即如“围魏救赵”直写不变,而不写成“围魏救赵”。
本发明至少可应用于以下范围1.信函、文件、文稿等的写作和翻译;2.报纸、杂志、书籍、说明书、文件等的编辑、排版、印刷、出版;3.计算机文字的输入输出。
权利要求
1.一种中文断词编排方法,其步骤如下依照稿件,顺序录入或置入每个汉字和字符,形成文稿;于上述过程进行中或过程结束后,依照稿件中所作的断词标记,在文稿的每个中文词和其它中文字词之间加入断词符;将经如上加入断词符编排后的文稿输出到记录载体上。
2.如权利要求1所述的中文断词编排方法,其特征在于所述断词符为空格。
3.如权利要求1所述的中文断词编排方法,其特征在于所述断词符为 形符号。
4.如权利要求1所述的中文断词编排方法,其特征在于对于不连续的多字词,在其断续部分加入一对前后呼应的断词符。
5.如权利要求4所述的中文断词编排方法,其特征在于所述一对断词符为“→”、“←”。
6.如权利要求4所述的中文断词编排方法,其特征在于所述一对断词符为“…”、“…”。
全文摘要
一种中文断词编排方法,其步骤为:依照稿件,顺序录入或置入每个汉字和字符,形成文稿;于上述过程进行中或过程结束后,依照稿件中所作的断词标记,在文稿的每个中文词和其它中文字词之间加入断词符;将经如上加入断词符编排后的文稿输出到记录载体上。按本发明方法编排的文章不容易产生阅读歧义,可大大提高判断与阅读效率,便于外国人学习与交流,便于人工翻译和机器翻译,可提高计算机等的输入效率和节省内存。
文档编号G06F3/023GK1312499SQ01109140
公开日2001年9月12日 申请日期2001年3月12日 优先权日2001年3月12日
发明者石胜文 申请人:石胜文
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1