汉语神经网络输入技术的制作方法

文档序号:6410395阅读:167来源:国知局
专利名称:汉语神经网络输入技术的制作方法
技术领域
本发明涉及一种汉字输入方法,属于计算机中文信息处理技术领域。
研究汉字编码的人很多,其输入方法已近千种。目前人们已认识到,仅从单字上下功夫是远远不够的,因此近年来很多人又把研究方向转到了词和句子上,人们建立了具有大量词汇的词典库,规定了各种特殊词语的定义方法,在词语输入系列中又大多加入了容错校正的功能,把一字三、四键提高到一字一、二键。输入效率大有改观,输入难度大大下降,输入方法也日趋成熟。尽管如此,现有的方法也还存在一些问题1.现在流行的智能化ABC和语句输入法系列,都是以输码的方式来实现词输入和句输入的。但因为码和字毕竟是不同的,所以尽管再怎么自动识别也只能解决一般性问题,对于特殊的人名、地名、专业名词,大多数时候都校正得不十分正确,甚至是完全错误的。
2.现有的输入法大多把注意力集中在词内和句内。这样就产生了一个连续性差的问题,词组或句子太短则效率较低,如太长又难以重复使用。
3.现有的输入法,击键效率偏低,最好的也要在1.0键/字以上,只有一些特殊编码的词组才能突破1.0键/字这一大关,但是也只能用于特殊情况。
在91101492号“中文智能化输入技术”专利申请中,明显存在击键次数太多和击键效率太低的缺点。在其范例中,14个汉字“全拼”用了46键,击键效率为3.3键/字,“速拼”用了20键,击键效率为1.4键/字。为了处理特殊情况,该技术加进了14个功能键,这样就需要了解各种情况,选用各个功能键来解决各种特殊问题,同时也给用户增加了许多麻烦。
随着计算机应用在我国的普及和发展,非计算机专业操作人员大量增加,特别是计算机已迈进了千家万户,对于广大用户来说,需要更简便更快捷的中文输入方法。
本发明的目的是针对上述存在的问题,提供一种可完全解决容错出错、连续性差、击键效率低等问题的高智能化的中文计算机输入技术,使用中只要根据屏幕提示就可实现字联词、词联句、句联句的连续性输入。
本发明是一种汉语神经网络输入技术,其方法为1.建立网络库;2.在屏幕上开提示窗口,窗口中设记忆区和提示区;3.对输入的汉字连续记忆,其过程为将输入内容送记忆区并输出;
经断词后切分成词语;将词语作为节点加入网络库;4.用网络联想输入,其过程为输入一个汉字;将网络库中的词语链放入提示区展开;按选词输出、所选词语入网、将网络库中所选词语的下层词语链放入提示区展开的顺序连续操作,直至不选词或无词可选为止。
本发明借助现有的汉字输入方法,将曾经输入过的离散的字或词组进行连续记忆,然后根据断词原则,将连续记忆的内容切分成汉语神经元,并将汉语神经元编织成汉语神经网络。
下面结合实施例对本发明进行详细描述。


图1是本发明方法的流程图;图2是本发明的网络形成过程图。
汉语神经网络是一种多层结构的神经网络,它的层次分为汉字索引层、词语链路层、网络递归层三个层次。
在汉字输入过程中,一个句子通过断词操作被切分成若干汉字串,这样的每一汉字串均称为一个词语,该词语被称为网络中的汉语神经元,即节点。此处所说的词语可以是单字、词组或短语,如″我″、″喜欢″、″幽静的环境″等都可由用户定义成词语。
在汉字输入过程中,不断产生新的词语,对于词语层来说,所有首字相同的词语为同层词语,它们之间按它们产生时的顺序用层内指针连接成词语链。
在汉字输入过程中,不断使用词语输入,对于本网络来说,使用过程中的每一词语都是后一词语的前节点,它们之间用层间指针连接,前节点的地址则用专门单元予以记录。而在多次使用过程中,同一词语的所有后一词,即与同一词语曾经相连的词语,称为网络层中的同层词语,它们之间按使用的先后顺序用层内指针连成网络链。
索引层中相应节点指向词语层中该节点的词语链首地址,词语层中层间指针指向网络层中该节点的网络链首地址,网络层中层间指针指向词语层中的该词语地址。这样各节点便由层内指针和层间指针连接成一个神经网络。
本发明采用神经网络技术输入汉字,它使用通用键盘和计算机。其方法分为连续学习记忆和联想使用两部分。连续学习记忆部分的步骤为输入汉字→断词→词语入网,联想使用部分的步骤为输入一个汉字后提示网络中该汉字的词语,然后不断地进行选词输出→所选词语入网→提示网络中该词语的下层词语这样的循环操作,直至不选词或无词可选为止。下面详细介绍。
一.建立网络库网络库包括索引层、词语层、网络层三部分。其中索引层用于存放词语层中各词语链的首节点在网络库中的地址指针,它是根据现有汉字数量预先留出的定长并列表,每个汉字占两个字节,以256进制计算,最大长度可以表示64K指针。其初始状态为空表,当有某汉字节点产生时,它的地址将被写入该汉字的索引表中。由于在维护时要调整节点在链路中的位置,所以索引表指针是一个可调整的活动指针。在应用时可以根据汉字码计算出它在索引表中的位置,再根据索引表中的指针直接找到该节点在网络库中的位置。采用此技术可以避免库容量和不相关内容对查寻速度的影响,不论网络库有多大,它都能从库中直接取出所需内容。
词语层和网络层均包括节点内容、连接属性、层内指针、层间指针四个字段。其中节点内容用于存放词语,其长度为七个汉字14字节;连接属性用于存放词语在使用过程中的常用性和近期性,长度为2字节;层内指针长2字节,其作用是把同层词语串联成链;层间指针长2字节,其作用是建立两个节点层之间的联系。
二.在屏幕上开提示窗口,窗口中设记忆区和提示区。
在屏幕上开四行长的弹出式可移动提示窗口,窗口第一行的左上角为记忆区,窗口的其余部分为提示区。记忆区长度为7个汉字,提示区用36个提示符,第一行为6个字母U-Z,第二行为10个字母K-T,第三行为10个字母A-J,第四行为10个数字1-0。
三.断词处理在汉字输入过程中,若遇断词符、或遇词组、或遇记忆区满时,便将输入内容切断,切断前的汉字串便作为一个新的词语加入网络库中。断词符包括标点符号、控制符、非汉字符号、空格键。词组断词法是指,当从键盘输入一个词组或从库中联想输入一个词组时,该词组便将输入内容切断。而记忆区满的方式就是使用记忆区长度的定长断词法。
以下结合附图1说明本发明的学习记忆和联想使用方法。
四.学习记忆方法步骤如下1.从键盘输入一个汉字或其它字符。若不是汉字则将其输出文本区,然后转键盘输入步骤1;若是汉字则将其送窗口记忆区并输出文本区,继续检查索引指针步骤2。
2.检查索引层中该汉字的索引指针是否空。为空则表示词语层中没有以该字起首的词语,提示区显示空链,转断词判断步骤3;若不空则按指针跳到词语层中该词语链首,即词语层中以该汉字起首的词语链的首节点,并将此链放在窗口的提示区中按层内指针展开显示,以供选词用,继续断词判断步骤3。
3.断词判断。若不断词亦不选择提示区中的词语则转键盘输入步骤1;若断词则记忆区中的汉字串被定义为词语,继续新词语入网步骤4。
4.新词语入网。其过程是首先将新词语接入词语层,然后将新词语接入网络层,最后将本节点置为前节点。
(1).新词语接入词语层。检查本层链内是否有该词语,若有则调整其连接属性并进入网络联想,若无则将该词语加入库尾并接入本层链尾,当该词语为本层链首时,将其接入索引层的索引指针。继续步骤(2)。
(2).新词语接入网络层。将该词语加入库尾并接入网络链尾,当该词语为本层链首时,将其接入前节点的层间指针,再使网络层中的层间指针指向词语层中该词语。继续步骤(3)。
(3).将本节点置为前节点。
5.清除记忆区后转键盘输入步骤1。
通过如此学习记忆,键盘输入汉字过程中产生的新词语都被加入网内。
在断词判断中若不断词但选择提示区中的词语,表示要用网络中的词语输入,这时就要用到联想使用方法。
五.联想使用方法步骤如下1.选词判断。若不选词则转学习记忆方法中的键盘输入步骤1;否则将所选词语输出文本区并调整其连接属性,继续词语接入网络层步骤2。
2.词语接入网络层。检查网络链内是否有该词语,若有则调整其连接属性后继续步骤3,若无则将该词语加入库尾并接入网络链尾,再使使网络层中的层间指针指向词语层中本词语。继续步骤3。
3.将本节点置为前节点。继续检查所选词语的层间指针步骤4。
4.检查所选词语的层间指针是否空。为空则表示无词可选,提示区显示空链,转学习记忆方法中的键盘输入步骤1;若不空则按层间指针跳到下层链首,并将下层链放在窗口的提示区中按层内指针展开显示。转选词判断步骤1。
通过如此学习记忆和联想使用,网络中的索引层、词语层、网络层逐渐充实,各节点便会以层内指针和层间指针共同编织成一个节点网络。
六.网络库维护对网络库中的节点,每使用一次便修改其连接属性,然后根据节点的连接属性值调整该节点在层内链路中的位置,并决定是否显示。
连接属性的前字节表示节点的常用性,每用一次加1,后字节表示节点的近期性,每用一次置255,同时将层内其它节点的后字节减1,当减至0时,将该词遗忘。两字节相加之后的值为节点连接属性值,在网络库维护时用作判别节点连接属性的强弱的依据。
为了便于理解,下面仅以输入″中华人民共和国″和″中国人民解放军″为例,说明本发明。设网络库中没有″中华″、″人民″、″共和国″、″中国″、″解放军″这些词语。过程请参见图2。
从键盘输入一个″中″字入记忆区和文本区,由于库中原无以″中″字开头的词语,故索引层中该字的索引指针为空,窗口提示空。此时不断词也无词可选。
接着再输入″华″字,此后记忆区中有″中华″二字,可以作为词语,按下空格键对其进行断词后,″中华″这个词语便形成了。由于它是词语层中没有的词语,故将其加入库尾,又因它是该词语链的首节点,故使索引层中对应此词语首字的汉字″中″的索引指针1,指向词语层中″中华″这个词语的地址。由于它也是网络层中没有的词语,故将其加入库尾,又因它是该网络链的首节点,故将其接在前节点的层间指针2,再使网络层中的层间指针3指向词语层中该词语。最后再将本节点置为前节点。
这样″中华″这个词语便作为新的汉语神经元(即节点)加入网络,″中华″两字从窗口消失。
若不以断词符断词,而继续以词组方式输入″人民″二字,则表示要用词组断词法断词,这同样将″中华″两字加入网络库。
到此时,前节点为″中华″。
接下来再输入″人民″和″共和国″,方法同上。这样″中华人民共和国″便输完了,并且网络中已有″中华″、″人民″、″共和国″三个词语,它们之间均有层间指针相连。
若在输入过程中,不想断词,则各字均应以单字方式输入。但当″中华人民共和国″七字都输入后,由于记忆区已满,故按″记忆区满断词法″,″中华人民共和国″将作为一个词语加入网络。
再看输入″中国人民解放军″的过程。
从键盘输入一个″中″字,由于库中有″中″字开头的词语″中华″,故按索引层内″中″字的索引指针1找到词语链节点″中华″,并将其放入窗口提示。由于不选择该词语,故继续从键盘输入″国″字,将其断词后形成词语″中国″入网。由于″中国″和″中华″都是以″中″字起首的词语,故两者属于词语层中的同层节点,且″中国″接在″中华″的层内指针上。又由于″中国″的前节点是″共和国″,因此将″中国″的地址写入″共和国″的层间指针10。
再输入″人″时,按索引层内″人″字的索引指针4找到节点″人民″,并将其放入窗口提示。由于″人民″是网络中已有的词语,故不用断词,而是用联想使用方法选词输入,选词输入后,调整词语链中″人民″的连接属性,并将″人民″接入网络层。由于在此次使用之前,网络中原有的″人民″节点是″中华″的下层节点,原有的″中国″节点还没有下层节点,故此次使用的″人民″的上层链为空链,应将该词语加入库尾并接入上层链尾,再使层间指针12指向词语层中本词语。
由″人民″的层间指针8,窗口又显示″共和国″,此时不选,继续从键盘输入″解放军″并断词入网。由于″解放军″和″共和国″在输入过程中都是″人民″的后一节点,故它们属于网络层中的同层词语,并按使用的先后顺序用层内指针连成网络链。
现在各节点已初步形成一个网络。下次再从″中″字输入时,便可依据指针不断地选词输入。如可选中华-人民-共和国,或中国-人民-解放军,或中国-人民-共和国,或中华-人民-解放军。
综上所述,本发明是借助现有的汉字输入方法,将曾经输入过的离散的字或词组进行连续记忆,然后根据断词原则,将连续记忆的内容切分成汉语神经元,并将汉语神经元编织成汉语神经网络。
本发明的优点1.采用断词符、词组、记忆区满等方法断词,尤其是空格键断词,具有断词方便自然的优点,可解决定义带来的烦恼。
2.采用可移动大窗口36键提示,可解决输码造成的失误。
3.采用有机的汉语神经网络,可充分解决词间、句间的关系问题。
4.采用实时入网的学习记忆方法,解决了非通用性内容入网的问题。
5.输入汉字时,通过窗口提示来连续选取内容,不必每字或每词都要以编码输入,可大大提高击键效率,如选一字时为1.0键/字,选二字时为0.5键/字,选四字时为0.25键/字,选七字时为0.14键/字,一般情况下为0.5键/字。
6.具有很强的学习和自动造词功能,可以在输入过程中自动生成网络,它不需事先定义词组,很好地解决了基本库与专业库之间的矛盾,可适应各类用户的不同需要。
7.具有简便的选词提示窗口,用户不需专门学习就可轻松自如、快速准确地输入汉字。
8.本发明连续选词的输入方式不仅符合人们的语言思维方式,而且能在输入过程中消除因容错校正而产生的错误。
权利要求
1.一种使用通用键盘和通用计算机输入汉字的汉语神经网络输入技术,其方法为一.建立网络库;二.在屏幕上开提示窗口,窗口中设记忆区和提示区;三.对输入的汉字连续记忆,其过程为将输入内容送记忆区并输出;经断词后切分成词语;将词语作为节点加入网络库;四.用网络联想输入,其过程为输入一个汉字;将网络库中的词语链放入提示区展开;按选词输出、所选词语入网、将网络库中所选词语的下层词语链放入提示区展开的顺序连续操作,直至不选词或无词可选为止。
2.如权利要求1所述的汉语神经网络输入技术,其特征在于对网络库中的节点,每使用一次便修改其连接属性,然后根据节点的连接属性值调整该节点在层内链路中的位置,并决定是否显示。
3.如权利要求1所述的汉语神经网络输入技术,其特征在于所述网络库包括索引层、词语层、网络层三部分,其中索引层用于存放词语层中各词语链的首节点在网络库中的地址指针,它是根据现有汉字数量预先留出的定长并列表,每个汉字占两个字节;词语层和网络层均包括节点内容、连接属性、层内指针、层间指针四个字段。
4.如权利要求1所述的汉语神经网络输入技术,其特征在于所述提示窗口为四行长的弹出式可移动窗口,窗口第一行的左上角为记忆区,窗口的其余部分为提示区,记忆区长度为7个汉字,提示区用36个提示符,第一行为6个字母U-Z,第二行为10个字母K-T,第三行为10个字母A-J,第四行为10个数字1-0。
5.如权利要求1所述的汉语神经网络输入技术,其特征在于用断词符、词组、定长法进行断词,断词符包括标点符号、控制符、非汉字符号、空格键。
6.如权利要求1所述的汉语神经网络输入技术,其特征在于在对输入的汉字连续记忆方法中,将新词语加入网络库的过程是首先将新词语接入词语层,然后将新词语接入网络层,最后将本节点置为前节点,在用网络联想输入的方法中,将所选词语入网的过程是将所选词语接入网络层。
7. 如权利要求6所述的汉语神经网络输入技术,其特征在于所述将新词语接入词语层的过程是检查本层链内是否有该词语,若有则调整其连接属性并进入网络联想;若无则将该词语加入库尾并接入本层链尾,当该词语为本层链首时,将其接入索引层的索引指针;所述将新词语接入网络层的过程是将该词语加入库尾并接入网络链尾,当该词语为本层链首时,将其接入前节点的层间指针,再使层间指针指向词语层中该词语;所述将所选词语接入网络层的过程是检查网络链内是否有该词语,若有则调整其连接属性,若无则将该词语加入库尾并接入网络链尾,再使层间指针指向词语层中本词语。
全文摘要
汉语神经网络输入技术的方法为1.建立网络库;2.在屏幕上开提示窗口,窗口中设记忆区和提示区;3.对输入的汉字连续记忆,其过程为将输入内容送记忆区;经断词后切分成词语;将词语作为节点加入网络库;4.用网络联想输入,其过程为输入一个汉字;将网络库中的词语链放入提示区展开;按选词输出、所选词语入网、将网络库中所选词语的下层词语链放入提示区展开的顺序连续操作,直至不选词或无词可选为止。本发明可记忆曾经输入过的离散内容,使用中只要根据屏幕提示就可实现字联词、词联句、句联句的连续性输入。
文档编号G06F3/023GK1148204SQ9610978
公开日1997年4月23日 申请日期1996年9月10日 优先权日1996年9月10日
发明者吴森 申请人:吴森
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1