意群输入、编辑和字词语码的制作方法

文档序号:6407997阅读:284来源:国知局
专利名称:意群输入、编辑和字词语码的制作方法
技术领域
本发明是一种以意群为单元的汉字输入、显示和记录的方法;它属于电子计算机汉字处理领域。
迄今为止的汉字输入,其编码方法有数百种之多,但它们之来由仅是对汉字所取音、形之编码信息不同,如何拆字的不同。其它都一样,一样以字为基本输入单位,一样以字为基础兼输有限词组,一样以高频先见设置简码等方法提高输入速度。例如CN-85100837A,CN-87105289,CN-88202931等等。它们都是从句子上依次地取下一个汉字,拆分后编码输入;仅当记得取下的某个汉字是机内已经备有的一条词组之词首时,才将它们按词组编码输入,要不就得一个字,一个字地输下去。如果用户想增加词条,不但要中止当前工作,去做专为加词之操作,而且操作麻烦,加入数量非常有限,还得等到重新启动系统后才能调用。输入之后的屏幕显示,文件校改也是一个字一个字地进行;最后完成的文本文件,也是以字为单位,以高位置1的双字节汉字内码作记录,形成磁盘文件。如果要将这个磁盘文件打印输出,还需要在文件中人工地一个一个地插入排版控制命令,一但要将这个文件利用另一个排版系统打印输出,还得重复这个工作。这就是现有技术各种输入方法、汉字编辑、排版系统的一个通式。这个通式直至1991年才受到冲击,91年3月公开了一项《思维模式词语处理系统,CN-1049728A》,它完全改变了上述的传统做法,利用汉语分词技术使阅读理解中的意群停顿明确化规范化,把句子分成一串串的单词或复词,以单词、复词为单元编码输入。这一条条的单词、复词就是一个个意群,这样一来,汉字输入就变成与人类思维一致的,(词组化)意群输入了。这是汉字输入的一个重大突破。在这当中,如何保证和实现词组化意群输入的进行,如何从汉字输入开始到文本编辑、磁盘文件形成,即在运算、传输、贮存等中文信息处理的全过程中都实现以意群为单元进行等方面还有待完善与发展。
本发明的目的是在上述方法与设备专利(CN-1049728A)的基础上,提供自动组词、校改组词、选重删词、正文选重、单词分库、字词语码、意群显示与编辑、多向款式自动排版等方法,用以实现(词组化)意群输入,并在中文信息处理的全过程中,运算、传输、贮存都以意群为元素进行的一套新型汉字处理系统。
本发明的目的可以通过以下措施来达到人类的思维是以意群为单元进行的,可是①始于古国,来到现代,汉字已经不再与意群相匹配,与意群相匹配的是词、语。②汉语之词与词之间,词语之间在形式上都没有明显的分界,并且词、语之概念抽象,缺乏字数特征,不易被人们掌握应用。连带专利(CN-1049728A)提出了根码汉语分词法,它引出词语的字数特征,把含2~4个字,语义明确,可以单用的一个基本语义块定义为单词,二条或二条以上的单词组成更大的语义块定义为复词,单词、复词都与意群相匹配。然而,利用人们阅读理解时的意群停顿,加上一条简单易行,以3、2、4、1为序的优先分词规则,把语句流切分成一串串的单词或复词,以它们为单位编码输入。这就为意群输入奠定了坚实的基础,在这个坚实基础之上,本发明提供如下与之配套的一些方法①自组单词,如果系统缺少某单词,势必使人们以字为单位输入,这时系统可以自动地以字组词,自动地加入词库,立即让用户调用。
②自组复词,如果用户以复词的编码方法,想输入一条复词而扑空时,系统自动地根据后随输入的单词组合成这条复词,将其有关信息纳入复词合成管理部。系统就等于加入了这条复词。
③校改组词,不管是写作还是录入,人们都要对文本进行校阅,并且人们都是以意群为单元进行阅读理解的。这时让人们随手加入一些复词或单词,非常方便融合。
④选重删词,当用户认为某条单词或复词他用不上,可以象重码选取一样,随手将它删除而不影响当前的输入或编辑工作。
⑤正文选重,传统的做法重码都在系统提示行等待用户选重。本系统让单复词之重码全部进入文件正文,在写作和汉字录入之时进行词组化意群输入好似无重,可实现词组化意群章节输入之盲打,非常有利于行文写作。然而重码可以留待校改时给以多种形式的处理。
⑥单词分库,中文单词有多少,据不完全统计,少则有百万之多。将这么一个大的单词库提供给用户;完全没有必要。因为人们都是在一定的行业环境内工作、学习和生活,它们的词汇也就局限在某个范围之内,通常有4~10万,他就可以进行词组化意群输入了。然而,据此将中文单词库划分为若干单词分库,以这些单词分库做成各种行业版本,提供给各界用户。
⑦字词语码,中文的字词语概念比较含糊,我们把它落实到汉字、单词和复词,并加上字数特征,不但概念明确,而且易于掌握应用。正如上述,汉字输入做到了意群输入,意群变成汉字输入的基本单位,这是非常可贵之举,切不可又使用以字为单位的汉字机内码形成文本,又将这种宝贵的词间间隔信息丢掉。然而本发明提供字词语码,把汉字、单词、复词、ASCⅡ码以及其它控制代码都利用2字节数字空间进行编码,这样,一个意群对应一个字词语码,在机内运算,传输和存贮的全过程中都能以意群为单位进行了。
⑧意群显示与编辑,人们阅读任何文件,都是眼睛一个字、一个字地扫描,而思维祛把它们按意群分开,分完了一句、一段,就是懂了、理解了;要不就得重复这个过程,直至理解。所以,既是意群输入,屏幕显示也应与之相应。系统自动在单词、复词之间加显一个空格,组成复词的单词之间以“-”相联。这样的文本显示就省去了人们阅读理解中的上述切分过程,能使阅读理解变得简单、快捷。编辑文本时,移动光标、插入、删除、块操作都以意群为单元进行,不但附合人类思维,而且使文本编辑事半功倍。
⑨多向自动款式排版,系统提供各种文件款式,也可让用户自作新款式,系统通过学习,加入款式库。这些款式规定了各种文件格式下有关版面、标题和正文排版方法与规格。同时让计算机对文件标题,段落等有关部分进行识别,再按款式中的有关信息和要求在文件中适当位置插入排版控制命令。如果日后用户又想通过另一种排版系统排版打印,用户只要换一个排版系统的参数,计算机据此自动进行多向转换,用户通过极简单的操作便可达到目的。


图1.自组单词框2.自组复词框图下面结合实施例和附图将本发明的技术内容详述如下人类的思维是以意群为单元进行的,从方块汉字形成开始,到近代的文言文时代,汉字大致上与意群是相匹配的,白话文开始,这种不匹配现象越来越严重。现在,一到各种专业上去,一个字代表一个意群,表示一个事物、概念的情况太少了。不但意群与汉字的不匹配,就是现有的语法书也分词过细,一字词、二字词占比例过大,也出现与人们实际使用时的意群不相匹配的情况。显然,汉字已经不再与意群相匹配,而词组,一般都能与意群相匹配,可是,中文词与词之间,词与语之间在形式上没有明显的分界,这给中文信息处理造成了巨大的障碍。然而,要做到意群输入,首先要解决的是汉语分词,接下来就是以意群为单元编码输入,显示,校改,并且以意群为元素记录,形成具有词间间隔的文本文件。连带专利(CN-1049728A)提出了根码汉语分词技术,它利用人们阅读理解时的意群停顿,加上一条简单易行,以3、2、4、1为序的优先分词规则,把语句流切分成一串串的单词或复词;以它们为单元编码输入。已经为意群输入奠定了基础。在这个基础之上,本发明在提供如下配套技术。
意群输入,不但要有足够多的词汇,而且还要具备自动组词能力,才能适应各种用户,千变万化的用户情况,才能实现和保证意群输入的顺利进行。自动组词包括两部分,一是自动以字组成单词;一是以单词组成复词,下文称它们为自组单词和自组复词,并分别给以阐述。
(一)自组单词,系统含有自组单词部,当用户以汉字为单位,连续输入2~4个字时即开始工作,它把这2~4个字串成若干条单词,生成它们的输入编码,将它们置于环形缓存区,立即响应用户的编码输入,并可追随用户意志,有选择地将它们保留或复盖。
自组单词之根据是①系统(见连带专利CN-1049728A)发明并应用汉语分词方法于汉字输入,把单词定义为含2~4个字,语义明确,可以单用的基本语义块。由于单词的字数特征,然而反过来我们可以把连续输入的2~4个字组成单词。②由于本系统是词组化意群输入,仅当缺少某词条时,才出现连续以字为单位进行输入的情况(这是意群输入与现有汉字输入技术根本性的区别)。
设置自组单词部来承担和完成自组单词工作。自组单词部设有自组单词缓存区,自动组成的单词缓存于此。缓存于此的单词至少含有输入码,词条和频度3个部分。缓存区呈环形设置,并设有当前记录指针。刚组成的单词,置于当前指针所指向之处,然后指针后移一记录长度。当某单词存入缓存区最后一记录空间时,指针移到缓存区之首。此后新组成之词则根据频度,将未经使用之单词复盖。缓存区的容量仅受内存所限,但以不大于1000词条为宜。
当系统和装置(见连带专利CN-1049728A)响应用户输入编码击键,需查找并给出单词时,在系统内查找各字数单词库的同时查找该缓存区,将查到的单词给出,并将其频度加一。所以,自动所组之词,用户是当即能够调用的。如果在缓存区查到的单词与系统原各字数单词库查出的单词相重,说明用户为初学者之操作,系统给以提示信息,并删除缓存区内相重的单词。
当缓存区没有空间不能存入新词时,系统给出提示,或者用户认为需要,可让用户利用功能键(例如定义为Alt+F8)查看缓存区内的单词,将单词分批显示于屏幕提示行,可让用户利用数字键进行选删。当用户认为需要存盘时,让其再击功能键,这时系统将缓存区内所有经用户使用认可的单词,分别纳入系统原2~4字数单词库,缓存区清零,有关数据存盘,永久保存。
缓存区内自动所组成的单词,也可以不必用户干预,自动纳入2~4字数单词库,并且自动存盘。这些可以这样实现,把缓存区没有空间存入新词作为启动条件,这时让系统将缓存区单词分别纳入2~4字数单词库,缓存区清零。当用户做过文本编辑,启动文本编辑的文件存盘功能时,一并将自动组词、加词以及有关的数据存盘,永久保存。
自组单词部是这样进行工作的当用户连续以字为单元输入时,它记忆字次(字数计数器)以及字的输入编码。并根据字次以排列的方式进行串词。如图1所示,当用户输入第二个汉字时,把字1+字2组成单词1,把单词1的输入编码(根据编码规则由字码组成),词条送缓存区,并把缓存区该单词的频度置1(初始态),同时查找缓存区,如果发现已有相同单词,将刚存入者作删除标志,等于没有加入。当用户输入第三个汉字时,自组单词部把字2+字3组成单词2,把字1+字2+字3组成单词3,生成它们的输入编码,依次把单词2、单词3及输入码送缓存区,判重否,作相应处理。当用户输入第四个汉字时,自组单词部把字3+字4组成单词4,字2+字3+字4组成单词5,字1+字2+字3+字4组成单词6,依次生成它们的输入编码,将它们送缓存区,判重否,作相应处理,同时将字数计数器清零。在自组单词的过程中,如果发现自动所组之单词在缓存区内有重,或者用户输入第五个汉字,都说明用户为初学者之操作,系统给以提示信息,例如“根码能词组化意群输入,仅当无词时输字”。
生成它们的输入编码如此动作,当用户以字为单位编码输入时,系统记下它们的输入编码,将2~4个连续输入的汉字以排列的方式串成数条单词的同时,也根据编码规则(参连带专利CN-1049728A),根据字的编码自动生成单词的输入编码,例如曾对一条3字单词,依次取三个字的第一码,加上第三个字的第二码便生成了这条单词的输入编码。
自组单词部按字次之排列进行组词,难免会组出一些非词之词,这些非词之词一般不会影响用户操作,因为我们使用的是词组化意群输入,非词之词不是意群,所以用户是不会对非词之词进行编码输入的,这些非词之词很快会被新词自动复盖。另一方面,系统将缓存区内单词纳入原系统2~4字数单词库时,是以经过用户使用,亦即是得到用户认可的词才纳入。这样,自组单词部就能追随用户意志,有选择地将一部分自动所组之词保留,将另一部分自动所组之词复盖或屏弃。
非词之词,仅当一种情况,它有机可剩,那就是用户所需之词没有,并且这条没有的词之编码正好与非词之词相同,这条非词之词可以进入屏幕正文。这时用户往往使用回退键将该词从屏幕删去,系统再赋给回退键一个功能,将该词从缓存区内删除。
(二)自组复词,系统含有自组复词部,当输入某条复词而扑空时,自动把后继单词组成这条复词,有关信息纳入系统的复词合成管理部(详见连带专利CN-1049728A),立即响应用户编码输入。
当人们对一个意群以复词的形式编码输入时,如果系统还不具备这条复词时,用户的操作就扑空了。扑空之后只好改用单词的形式编码输入。我们就利用这个现象来启动自组复词。为叙述方便,这现象称复词扑空,设FPK=1来表示。FPK=1自组复词部开始工作。如图2所示,它首先记忆这条扑空复词之编码,下文简称扑空码。然后对后随输入的单词进行考测①当后随输入第一条单词时,记忆这条单词以及它的输入编码。
②当后随输入第二条单词时,记忆这条单词以及它的输入编码;分别取这两条单词的前2个音码生成一条考测码(为考测它是不是要组复词之输入码而称之,后同),跳下述⑤条。
③当后随输入第三条单词时,记忆这条单词以及它的输入编码;分别取这三条单词的第1个音码和最后单词的第2个音码,生成一条考测码,跳下述⑤条。
④当后随输入第四条单词,或者大于第四条单词时,记忆这条单词以及它的输入编码;分别取前3条单词的第1个音码和最后那条单词的第1个音码生成一个考测码,跳下述⑤条。
⑤续上面②③④条所述,先判一下,如果后随输入的单词条数已经达到最大数(定为7为宜)时。放弃本次工作,将复词扑空标志清零,FPK=0;释放前述对各后随输入单词的记忆,返回上层。如果后随输入的单词条数小于最大数续下。
⑥将扑空码与考测码进行比较,如果不等,返回上层,继续运行。如果相等,说明用户扑空时就是为了输入这条复词,续下。
⑦把扑空码作为这条新复词的输入编码,将这条输入编码以及这条复词的各成员,各单词所处相应单词库的位置信息纳入复词合成管理部。如果某成员单词还处于自组单词的环形缓存区时,将它纳入单词库,以它在单词库的位置信息参加这条新复词纳入复词合成管理部。
⑧然后将扑空标志清零,释放对后随输入单词的记忆,完成这条复词的自动组词工作,返回上层,继续运行。
自组单词首先要将组成的单词置于自组单词环形缓存区;当被用户使用认可后才纳入系统单词库。自组复词不必置环形缓存区,而直接纳入系统的复词合成管理部,立即响应用户的编码输入。这是因为自组复词启动于用户扑空之后,然而当考测码等于扑空码时,证明所组成的复词是符合用户意愿的,所以可以直接纳入系统。
如果用户扑空是因为编错码,这时,系统不会组出符合错码之词。因为后随输入的单词正好符合这个出错编码之概率是可以忽略不计的。
如果后随输入之单词既没有达到最大条数之限又不符合扑空码时,用户便输入另一条复词,或是ASCⅡ码字符等等,也说明用户编错码,这时都将扑空标志清零,释放对后随输入单词的记忆。
(三)校改组词,系统含有校改组词部,在文本编辑的校改状态,当用户把光标移到某词首,响应用户敲击组词功能键(例如Alt+Z),然后将光标后的两条词(包括字)组合成一条新词;也响应连续敲击组词功能键,将光标后若干词条组合成一条新词;这些新词和系统原有词条一样,可以即刻被用户编码输入。
本系统已经做到了词组化意群输入,意群显示。人们不管是写作还是录入,都要对文本进行校阅,在校阅过程中,人们都是以意群为单元进行阅读理解的。虽然我们做到了意群显示,但是用户这时或许会觉得某些单词还可组成复词,有些单词应把其前面或后面的那个字也包括进去。校改组词功能,就是应用户这种需要而设计的。
校改组词功能由校改组词部实现。当用户把光标移到某词条之首,按下一个功能键(例如Alt+Z),这就启动了校改组词部的工作,它把光标后的两条词汇组成一条词汇,当用户连按功能键,校改组词部就把后随的若干词条组成一条词汇。
校改组词部被启动后,按下列步骤工作1.判别光标后是两条什么词汇,根据汉语分词规则(参连带专利CN-1049728A),有如下数种情况①两条都是单词,那么两条单词相加,肯定组成一条复词。②一条单词加一条复词或者一条复词加一条单词,它们的结果是组成一条更大的复词。③两条都是复词,它们的结果也是组成一条更大的复词。④一条单词和一个字,其结果是组成多一个字的单词。
2.在屏幕上首先将它们按组后的新词形式排列,例如两条单词相加,组成一条复词,那么就把它们之间的空格换成连词符。
3.当用户移走光标时,用户想组成一条什么词汇才可以确定(例如属上述数种校改组词的某一种情况),校改组词部开始下一步工作。
4.根据上述校改组词的数种情况,首先确定由几个成员组成一条新词,再根据编码规则(参连带专利CN-1049728A),自动生成这条新词的输入编码。
自动生成输入编码有如下三种方法①根据屏幕显示,按编码规则取参加编码那几个字,查出这几个字的编码,然后根据这几个字的编码合成新词的编码。例如对两条单词合成一条复词的编码,只要将它们各自前面二个字的音码取出,即等于所合成复词的4个编码。本法容易实现,但是,如果遇上多音字,就需要用户干预才行。②本法实现比较麻烦,但无需用户干预,它采用中断方式,利用字词语码查出其输入编码,然后组合成新词编码。③利用第一种方法,如果遇上多音字,取屏幕这个多音字所在的单词,以多音字与其它字合成的这条单词可能的数种输入编码,以这数种编码查找,取查找到这条单词的那个编码去合成新词的编码。
5.将所组新词的输入编码,词条分别纳入原系统2~4字数单词库,如果是复词,还得将有关信息纳入复词合成管理部。
(四)选重删词,系统含有选重删词部,它把单词或复词重码显示于系统提示行,能响应用户敲击删词功能键(如Alt+1~0键)将某词库的词条删除。
重码是不受人们欢迎的,尤其在重码之中,有些词,对某具体用户,可能根本不用,这位用户巴不得立即将它抹去。在无重码的词汇里,也会有某具体用户根本不用之词,但是它不那么使人讨厌。因为某用户既然不用,它就不会出来。仅当某用户对另一条所需而没有之词条编码输入,编码碰巧相同时,它才可能剩机跑出来。但是,用户所需而没有的那条词汇马上就有了,这条不受欢迎的词也是以重码身份出现。这就是我们把删除词条设计成如同选取重码那样之机理。
选重删词工作由选重删词部承担。当重码出现在系统提示行,等待用户选取时,我们仍然是利用数字键选取某重码词条;另一方面,我们可以利用Alt+某个数字键来删除相应的词条(我们事先把选重删词功能键定义成Alt+1~0数字键作为删除相应词条的功能键)。
当用户按下了选重删词功能键后,选重删词部将该词条相应删除记忆区作上标志,当下次系统查找词汇时将这条作有删除标志的词弃去。不管是单词、复词,还是在自组单词缓存区内的词条,都可以这样做。
自组单词、自组复词、校改组词所组的新词以及选重删词的有关信息,都缓存于内存并且与原有词汇一道被系统访问,可立即响应用户的击键操作,也可自动或半自动地存盘;下次又在这个基础上更新,用户越用越适合自我。
(五)正文选重,系统含有正文选重部,它工作时,所有单复词重码当作不重,全部进入文件正文;它利用字词语码记忆和辨识重码,不管文件有多长,并在当前屏幕上,将重码反向显示;当用户要处理重码时,响应用户即时选重,批选重码,校改选重,隐含自动选重等多种选重操作。
汉字输入之重码在所难免,传统的做法都把重码放在系统提示行等待用户击数字键选重。本系统让单复词之重码全部进入文件正文,在写作和汉字录入之时进行词组化意群输入好似无重,可实现词组化意群章节输入之盲打,非常有利于行文写作。人们的思想闪光,灵感来到,非常宝贵,同步地祥尽无遗地把思维变成文字,这是人们梦寐以求的的事。正文选重正是为此而作,它把重码留待校改时给以多种形式的处理;使输入和写作时不由重码干扰思维,校改时顺便处理重码,轻松快捷。正文选重部包括两部分1.重码控制部,系统至少具有录入和校改两种状态,这两种状态系统自动切换,当输入工作是在文件尾部使文件不断加长时为录入态;当光标移入文件,那怕只一个字,就自动切换成校改态;当系统处于校改状态时,本部控制所有重码,全部进入文件正文,同时做好重码标志(参字词语码下的重码标),在当前屏幕上,把重码作反向显示,以示区别。在录入和校改这两种状态下,用户都可以处理重码,但方法不同,这部分工作由选重管理部完成。
2.选重管理部,当用户认为需要,可以随时处理重码,至少有如下数种形式①即时选重,当系统处于录入态时,如果刚输入的是一条重码,响应用户用数字键选取,如果敲击的数字大于重码词条数,则将本重码所有词条删除。
②批选重码,当用户想对当前屏幕或者整个文件的重码进行处理,响应用户敲击相应功能键成批地处理重码。功能键1,如定义为F4,它从文件尾部开始自动找出重码,光标依次落在一条条重码上,等待用户利用数字键选取。功能键2,如定义为F3,它从文首开始,找到第一条重码,并从这里开始显示,光标依次落在一条条重码上,等待用户选取。可以一口气处理完整个文件的所有重码,也响应用户半途中止(重按F3或F4键),去做其它工作。批选重码时,如果用户敲击的数字大于重码条数,也将本重码全部删除。
③校改选重,校改选重简单方便,当进入校改态时,重码和单复词一样,也是一个元素,当光标落在其首时,响应用户利用数字键选重,不选同样可以移走,也可利用大于重码之数字将重码全部删除。
④隐含自动选重,隐含保留第一条重码,将后面重码全部删除,本工作让正文选重部自动完成。本功能与校改选重配合使用,非常方便。例如先作校改选重,仅对非第一条的进行处理,是第一条的不作处理,留待正文选重部自动作隐含自动处理。
(六)单词分库,系统内含2~4字数的单词分库,复词由复词管理合成部利用单词合成;单复词各有公有和私有两部分,公有部分由厂家提供,来源于收集某行业、环境内工作、学习和生活着的人们之大众化用词,私有部分借助于自动组词,校改组词等技术在用户应用中随机纳入;单词分库以6~10万为度,它是整个中文单词库的一个子集,使用不同的子集就产生不同的行业版本。
向不同的人们以不同的行业版本形式提供不同的单词分库,其机理是中文单词数量很大,据不完全统计,至少有百万之多。将这么一个大的单词库提供给用户,①当代普通的计算机,时间和空间都难以胜任,还有码元、码长很难做到实用。②也完全没有必要,因为人们都是在一定的行业环境内工作、学习和生活,它们的词汇也就局限在某个范围之内,通常是6~10万,换句话说,达到这个数字就可以实现词组化意群输入了,并且当代普通计算机都可实现。
向不同的人们以不同的行业版本形式提供不同的单词分库。复词不用库,由复词管理合成部利用单词合成。这些单复词又分公有、私有两部分。公有部分由厂家提供,来源于收集某行业、环境内工作、学习、生活着的人们之用词,其中数量,以56000左右为宜(参字词语码)。私有部分可纳入0~50000,但通常在0~1万左右,换句话说,私有部分大了,说明相应行业范围太大,应当再它们再分成两个子集。
单词分库公有部分,来源于收集某行业、环境内工作、学习、生活着的人们之大众化用词。具体方法是①实施本发明初期,在这个范围内,取一批有代表性的文字资料,进行汉语分词处理,然后统计它们的使用频度,从频度高的一端开始,取56000左右条单词建成这个单词分库。②在人们使用本发明所产生的汉字输入系统的过程中,回收人们各种文件附本,进行统计学处理,找出该行业人们的实用词频,从而产生高质量的单词分库,并通过多次反复,使其达到最佳适应的程度。
上述单词分库的私有部分,通过自动组词、校改组词充实;自动组词、校改组词都是在用户编码输入的同时进行,所组的新词以及选重删词的有关信息,都缓存于内存并且与原有词汇一道被系统查询,可立即响应用户的击键操作,也可自动或半自动地存盘;下次又在这个基础上更新,用户越用越适合自我。
(七)字词语码,系统含有字词语码管理部,它响应用户编码击键,在系统给出相应单词、复词、字、ASCⅡ字符等之后,生成它们的字词语码,以字词语码的形式进行运算、传输和贮存;当直接传输输出或读贮存文件输出时,字词语码管理部又将它们转换成相应的输出信息,送各种输出设备。
字词语码与单词分库配套,面向某行业环境内的人们,将ASCⅡ码、汉字、单词、复词以及其它代码等五部分共用一个字的数据空间对它们进行编码;它们之间的段界可因行业版本的不同而挪动;在存贮器内可以把字的首字节置于奇地址,次字节置于偶地址来加强判读的准确性。
字词语码和单词分库的不同就产生了不同的行业版本,不同行业版本所生产的各种磁盘文件利用统一格式标示是那个行业版本的文件。例如文本文件,可以带一个文件头,将有关版本信息记录于文件头。
用一个字(16进制2字节)的数据空间对ASCⅡ码、字、单词、复词以及其它代码编码,实施例之一是①把0~OFFH分配给ASCⅡ码(包括各种ASCⅡ码),它们的高位字节=0,低位字节等于原ASCⅡ码值;②把100H~2383H分配给汉字,和区位码一样,1~16区分配给各种符号和多种外文字符,16~87区分配给GB 2312-80字库,88~94区分配给该行业GB 2312-80外的高频字;③把2384H~OE6D3H分配给单词,其中再按2字单词、3字单词、4字单词分成三段,或者按词义分若干段;④把OE6D4H~OFFDCH分配给复词;⑤把OFFDDH~OFFFEH分配给其它代码,其它代码中,把OFFDDH定义为重码标,OFFDEH定义为2字单词标,OFFDFH定义为3字单词标,OFFE0H定义为4字单词标,OFFE1H定义为复词标,0FFE2H定义为排版标识符,OFFE3H定义为表格标等等。
上述五个部分之中,如果有相应库的,它们的编码与在具体库中序数位置相对应。例如“啊”字,它的字词语码=255+94X15+1,相应处点陈字库第94X15+1个位置。
其它代码段的重码标、复词标、表格标配对使用,分别用于将它们各自的成员括起来;例如前后两个重码标把重码括在里面,这就使得正文选重部对重码具有记忆和识别能力。排版标识符和2~4字单词标单用,表示后随的是它们的成员,其中排版标识符后随一字为排版命令码。其它空码留待后扩。上述2~4单词标,复词标用于标识私有部分单复词。
对于主要因单词分库不同配以相应字词语码,从而产生不同的行业版本。对于不同行业之行业版本,它的两部分单复词使用字词语码表示;作记录的形式有所不同。单复词的公有部分直接使用字词语码表示,作记录;而私有部分不能直接使用字词语码作记录,而是使用2~4字的单词标,后随它的汉字的字词语码。例如用3字单词标OFFDFH,后随这3个汉字的字词语码。复词则使用2个复词标OFFE1H,一前一后地将它的成员包括在里面,里面可以是直接以字词语码标注的单词,也可以是某字数单词标后随汉字的字词语码串,或者是两者的混合形式。
据词组化意群输入测算,占文章总字数94%的字都能以单词、复词的形式进入计算机,所以字词语码所含信息量很大,文本文件比现有技术使用机内码要缩短2~5倍;利用字词语码进行运算、传输和贮存其效率比使用现有技术要提高2~5倍。除在计算机系统内利用字词语码进行传输外,还可用于通讯设备与系统。字词语码特别适合于中文和以中文为主的混合文种文书。
字词语码除了在运算、传输、贮存方面的高效率以外,更大的意义是与意群相匹配,也就是实现了以意群为单位进行运算、传输和贮存,在自然语言理解、机器翻译等方面,将产生积极的作用。
字词语码可完全代替机内码使用;也可和机内码配合使用,如显示或输出,仍用机内码以便与非在本系统下开发的软件兼容。对于汉字,字词语码、机内码、区位码、国标码相互关系如下机内码=字词语码-OFFH+OAOAOH,字词语码=机内码-OAOAOH+OFFH字词语码-OFFH=区位码,区位码+OFFH=字词语码字词语码-OFFH=区位码,区位码+OFFH=字词语码字词语码-OFFH+2020H=国标码,字词语码=国标码+OFFH-2020H以多种版本的形式,面向工作、学习、生活在各种不同行业、环境内的人们,这是意群输入的必然结果,也是本发明区别于现有技术特点之一。收集某行业、环境内工作、学习和生活着的人们之用词而产生单词分库,作相应的字词语码编码,产生该行业版本,面向这一行业环境内的人们;用相同方法可产生多种行业版本,面向各行各业的人们;各行业版本单复词数量可以不一,字词语码当中成员的次序、段界也可以不一。
(八)意群显示与编辑,系统含有意群显示编辑部,它的工作使屏幕显示,文本编辑过程中的移动光标、插入、删除和块操作都能以意群为单元进行;在意群之间(如单词,复词,以及单用字、数字串、外文串等)自动加显空格,复词中各构成成份之间加显联词符(例如“-”);它使光标只能从一个意群移到另一个意群,并都落在某意群之首;它把单词、复词,或单用字都作为一个不可分割的元素来响应用户插入、删除和块操作等键盘操作。
意群显示与编辑的机理是,人们不管阅读什么文件,都是眼睛一个字、一个字地扫描,而思维祛把它们按意群分开,分完了一句、一段,就是懂了、理解了;要不就得重复这个过程,直至理解。屏幕显示时也以意群分开,就省去了人们阅读理解中的切分过程。在文本编辑过程中,让移动光标、插入和删除也以意群为单元进行,不但文本编辑可以事半功倍;而且能使阅读理解变得简单、快捷。
已如上述,我们已经能够响应人们与思维一致的意群输入,然而屏幕显示也以意群为单元进行,形成具有词间间隔,复词中有联词符将各构成成份相联的意群显示形式,并且让文本编辑过程中的移动光标、插入、删除、块操作等都以意群为单元进行。意群显示与编辑的实现,是通过机内意群显示编辑部来实现1.意群之量的单位主要是单词与复词。因而当系统响应用户之编码击键后,并在系统库内找出相应单词和复词时,也以单词、复词为单位提交给意群显示编辑部。意群显示编辑部在接收到这些信息后,不但将它们转换成屏幕显示的有关信息,并在它们(包括少数单用字、标点符号等)之间自动加显一个空格,在组成复词的单词之间加显一个联词符(如“-”)。
2.在读入文本文件进行显示时,由于文本文件也是以意群为单元记录的(参阅字词语码部分),然而也以意群为单元送往意群显示部进行意群显示。
3.在整个系统中,意群就是输入、显示、插入和删除的一个元素,它在这些操作当中是不可分的。所以编辑过程中的移动光标,也只是在意群之间移动,光标由一个意群跳到另一个意群,每次都落在某个意群之首字节(包括汉字、符号以及数字串及外文串)。
4.在文本编辑的过程中,使光标移动、插入、删除、块操作等都以意群为单元进行。实现的技术关键有二。一是如何判别一个意群单位,我们可以从3个方面入手。①系统本身的输出是以单词、复词(以及ASCⅡ码)为单元的,这是一个可以利用的判别点。②在机内形成机内文本是利用字词语码(见后),字词语码本身就代表一个意群。③屏幕已以意群为单元显示,然而它们之间的空格也是一个判别标志。关键技术之二是使屏幕光标和机内文本某点相应,每当移动光标、插入、删除、块操作时,都使它们处在一个相对应的点上。
(九)多向自动款式排版,系统含有自动排版控制部,它首先对文章标题、各标题之间的层次隶属关系,自然段的起止,是否插有图表,特征串等等进行判别。然后根据款式库的有关信息,在文章的适当地方自动插入某种排版系统的排版控制命令。款式之款是针对文书种类,式是在某文书种类下的若干规格要求。款式库不但包含各种款式,还贮存①各种款式的版面控制、字形、字号、字体等信息;和②按相同功能逻列的多种排版系统的排版打印控制命令。根据上述之逆原理,自动排版控制部还可阅读用户文件,自动学习新款式,并纳入款式库。
自动排版控制部对文章标题以及标题间的层次隶属关系进行判断,其依据有①回车后,不满一行文字又见回车的可能是标题。②正文如是顶格,标题必右缩,可见标题与回车间还有大于4字节的空格;如果标题顶格,正文必是右缩。③标题与正文相交替出现,标题不超过一行,正文都大于2行。④标题大都冠以数字或表示数字概念的词语。⑤标题间的层次与隶属关系,可以根据标题前的数字或表示数字概念的词语来确定。⑥回车后有4字节空格的是自然段的起点,标题或下一个自然段的开始是本自然段的结束。⑦两个表格标之间的内容是表格。⑧除上述判别外,还可以对一些特征串进行自动判别,例如用X??将X后的1~2个数字作为上标处理等等。
在判别时,如果有两可情况,给出提示,让用户干预。判别的同时一屏屏地显示,把标题、特征串以不同颜色显示或仅作反向显示,在题后加显一个数字,用以表示标题的级别,便于用户校阅,用户可以利用相应的键盘命令进行干预,也可以在需要特殊处理处手工加上排版控制命令,例如要对某个字进行修装释。
判别完成之后,就可以自动地在相应适当处加入排版控制命令,排版控制命令是根据用户选定用什么系统排版打印,在取相应系统的相应命令内码加上(不一定在本系统下能显示)。如果用户日后改变注意,要用另一种排版系统打印时,只要重新点一下用什么系统打印输出就可以了。
用户要设定一个新款式,只要用手工的方法对某文件加入排版控制命令,完事后,敲击自动学习命令,让系统进行自动学习。这项工作道理很简单,也容易实现。只是上述的逆过程,判别后将有关控制命令,连同标题等信息纳入款式库。
根据本发明的构思,上述意群显示与编辑、自动组词、校改组词、选重删词、正文选重、单词分库、字词语码、多向款式自动排版除用于连带专利(CN-1049728A)所公开的专用输入装置外,还可用于大、中、小、微型电子计算机,电传机,电脑打字机,终端及通讯系统上。
根据本发明的构思,字词语码还可用于自然语言理解,机器翻译等方面。
本发明对比现有技术有如下优点1.自动组词和校改组词,自动组词无需用户顾问,自动地以字组单词,或者以单词组复词,将用户缺少之单词、复词加入系统;校改组词将单词组成复词,或者把短复词串成更长的复词,并且是在校改状态时通过极简单的操作就能实现。它们所组之词,范围广,数量大,是词组化意群输入的重要一环。现有技术没有达到词组化意群输入的这个高层次;仅处以字为主,兼输少数高频词组的低级阶段。它们的词组加入①操作麻烦,往往要用户停下输入,去做复杂的专门加词工作。②加入的词汇往往要重新启动系统后才能输入。③多数系统还得用户定义输入编码。④用户能加入的词汇数量非常有限,有的甚至只能加入数百条词汇。
2.选重删词,现有技术不能删除系统提供的词汇。少数现有技术仅可以删除用户加入的那个小小范围内的词条。本发明如同选重操作那样简单的操作就可以删除系统词库内的词条,非常简捷,效率高。这是现有技术所不可比拟的。
3.正文选重,现有技术出现重码,都在系统提示行显示,等待用户选重,这种操作严重地干扰思维,并使输入速度减慢。本发明的正文选重,在输入时不必处理重码,不但输入速度快,而且不干扰思维。把重码留待校改阅读正文时处理,符合人们校改是为校正改错之习惯;并且随校阅而顺手操作,自然方便。
4.单词分库,现有技术都是一个版本酬天下,大家都可以使用,但是大家都不称心,大家都得不到高效率。本发明将中文单词库,面向不同行业、环境里工作、学习、生活着的人们,分成许多单词分库,提供各种行业版本,可使人们进行词组化意群输入,获得高效率。
5.字词语码,利用字词语码进行运算、传输和贮存其效率比使用现有技术汉字机内码要提高2~5倍。此外,更具重大意义的是字词语码与意群相匹配,可以实现以意群为单位进行运算、传输和贮存,在自然语言理解、机器翻译等领域,将产生积极的作用。
6.意群显示与编辑,现有技术的文本显示,意群之间是没有间隔的,人们阅读理解时,必须通过眼睛一个字一个字地扫描,思维再将它们按意群一条一条地分开,直至理解。①本发明以意群为单元显示,节省了人们阅读理解时的这个过程,从而使阅读理解变得简单快捷。②意群显示使文意表达更加准确,不会出现二义性语句。③意群显示,使文本编辑也可以以意群为单元进行,然而也使文本编辑适应思维,变得简单快捷。
7.多向款式自动排版,本项技术与现有技术相比,优点有①简化了人们在文件里加入控制命令的操作,提高了工作效率。②当人们须要改用另一种排版打印系统输出时,不必重新手工排版文件,通过改变一个打印参数就可实现。③现有技术排版系统很多,各自为政,各用各的控制命令,用户如果想使用另一套系统,必须重新学习。这个麻烦也可免除了。
上述第五部分,结合实施例和附图详细阐述本发明技术内容时,已将本发明实施的最好方式给以阐述。这里仅对字词语码做些补充说明。
字词语码当中五个成员排列次序,自然可以改变成其它任何排列次序。汉字、单词、复词之数量亦可以适当增减,所以它们之间的段界也可以随之改变。这样就可以产生多种实施例。多种实施例当中,还是以第五部分所述实施例为最佳实施例。
深信,本发明实施后,将产生很大的社会和经济效益。
权利要求
1.一种用于计算机或电脑打字机等设备基于汉语分词以意群为单元进行输入、运算、传输、贮存的汉字处理系统,其特征在于a.系统设有当用户以汉字为单位,连续输入2~4个字时即开始工作,自动把这2~4个字按排列的方式串成若干条单词,生成它们的输入编码,将它们置于环形缓存区,立即响应用户的编码输入,并将经用户使用认可的保留、纳入原词库,将未经用户使用认可的复盖的自组单词部;b.系统设有当输入某条复词而扑空时,自动把后继单词组成这条复词,有关信息纳入系统的复词合成管理部,立即响应用户编码输入的自组复词部;c.系统设有在文本编辑的校改状态,当用户把光标移到某词首,响应用户敲击组词功能键,自动将光标后的两条词(包括字)组合成一条新词,也响应连续敲击组词功能键,自动将光标后若干词条组合成一条新词,这些新词能立即响应用户编码输入的校改组词部;d.系统设有使所有单复词重码全部进入文件正文,借助于字词语码记忆和辩识重码,并在当前屏幕上,将重码反向显示,响应用户敲击键盘的多种选重操作的正文选重部;e.系统设有把单词或复词重码显示于系统提示行,响应用户敲击删词功能键将某词库的词条删除的选重删词部;f.系统设有含4~10万单词,并用它拼合复词的单词分库;这个单词分库的单词以及由它所拼合的复词由公有和私有两部分组成,公有部分来源于收集某行业、环境内工作、学习和生活着的人们之大众化用词,私有部分借助于自动组词,校改组词技术在用户使用中纳入;g.系统设有把ASCⅡ码、汉字、单词、复词以及其它代码等五部分归纳到一个字的数据空间并与单词分库配套,面向某行业环境内的人们的字词语码;这一个字的数据空间是把0~0FFH分配给ASCⅡ码,把100H~2383H分配给汉字,把2384H~0E6D3H分配给单词,把0E6D4H~0FFDCH分配给复词,把0FFDDH~0FFFEH分配给其它代码,这五个部分,如果有相应库的,它们的编码与在具体库中序数位置相对应;h.系统设有在意群之间自动加显空格,复词中各构成成份之间加显联词符,使光标只能从一个意群移到另一个意群,并都落在某意群之首,它把单词、复词、或单用字都作为一个不可分割的元素来响应用户插入、删除和块操作等键盘操作的意群显示编辑部;i.系统设有能对文章标题、各标题之间的层次隶属关系、自然段的起止、是否插有图表、特征串等等进行判别,然后根据款式库的有关信息,在文章的适当地方自动插入用户指定的排版系统的排版控制命令,它还可阅读用户文件,自动学习新款式,将有关信息纳入款式库的自动排版控制部。
2.根据权利要求1所述系统,其特征在于自动组词、校改组词所组的新词以及选重删词的有关信息,都缓存于内存并且与原有词汇一道被系统访问,可立即响应用户的击键操作,也可自动或半自动地存盘;下次又在这个基础上更新,用户越用越适合自我。
3.根据权利要求1所述系统的正文选重,其特征在于响应用户敲击键盘的选重操作,至少有如下四种型式①即时选重,当刚刚输入的是一条重码,响应用户立即用数字键选重;②批选重码,响应用户敲击相应功能键,成批地处理重码,它可以从文件尾部开始,也可以从文件头部开始,它自动找出重码,光标依次落在一条条重码上,响应用户利用数字键选重,可以一口气处理完整个文件的重码,也可半途停止;③校改选重,校改时,当光标移到重码首,响应用户利用数字键选重,也可不选而移走光标;④隐含自动选重,隐含保留第一条重码,自动将后面重码全部删除;在这四种型式中,如果用户敲击的数字大于重码词条数,便将本重码全部删除;
4.根码权利要求1所述系统的字词语码,其特征在于系统还设有字词语码管理部,它响应用户编码击键,在系统给出相应单词、复词、字、ASCⅡ字符等之后,生成它们的字词语码,以字词语码的形式进行运算、传输和贮存,当直接传输输出或读贮存文件输出时,字词语码管理部又将它们转换成相应的输出信息,送各种输出设备。
5.根据权利要求1、4所述系统的单词分库与字词语码,其特征在于收集某行业、环境内工作、学习和生活着的人们之用词而产生单词分库,作相应的字词语码编码,产生该行业版本,面向这一行业环境内的人们;用相同方法可产生多种行业版本,面向各行各业的人们;各行业版本单复词数量可以不一,字词语码当中成员的次序、段界也可以不一。
6.根据权利要求1、4~5所述系统,其特征是字词语码还可用于自然语言理解、机器翻译等方面。
7.根据权利要求1所述系统自动排版控制的款式库,其特征是款式库贮存多种款式,款针对文书种类、式针对某文书种类下的数种规格、要求,各种款式下至少含有版面控制、字形、字号、字体和按相同功能逻列的多种排版系统的排版打印控制命令等信息。
8.根据权利要求1~7所述系统,其特征是本系统可用在电子计算机、电脑打字机、电传机、终端和通讯设备上。
全文摘要
意群输入、编辑和字词语码属于电子计算机汉字处理的技术领域。本发明提供了一套与人类思维相一致,能进行意群输入,并以意群为单元显示、运算、传输、记录的方法。主要特征是以汉语分词为基础,有自动组词、校改组词、选重删词、正文选重、单词分库、意群显示编辑等功能部件用以实现和保证词组化意群输入的进行;同时具有把ASCII码、汉字、单词、复词和其它代码五个部分共置一个字的数据空间的字词语码,从而使显示、运算、传输、形成文本文件等都能以意群为单元进行。
文档编号G06F3/023GK1114066SQ94112998
公开日1995年12月27日 申请日期1994年12月13日 优先权日1994年5月8日
发明者刘树根 申请人:刘树根
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1