一种用于输入和检索的汉字数字化编码技术方法与流程

文档序号:32662546发布日期:2022-12-24 00:03阅读:72来源:国知局
一种用于输入和检索的汉字数字化编码技术方法与流程

1.本发明属于汉字字形数字化的编码技术方法,能够应用于汉字电子键盘输入和汉字检索。


背景技术:

2.目前汉字编码主要有音码、音形码和形码三大类。
3.音码包括全拼、双拼和简拼,其难以解决的主要问题是辨识度低、重码率高,不适用于汉字大字集的编码。音形码技术比音码技术有所改进,但没有根本性的改变。
4.形码的主要类型有字根码、笔画码,还有少量用数字指代具体笔形、字根、笔画的数字码(如四角号码)。笔画码难以解决的主要问题是效率极低。字根码难以解决的主要问题是码元完全束缚于汉字原形、无概括性,字根虽多犹缺、难记易忘。数字码难以解决的主要问题是数字化限定在表象层面,所用数字只是笔形、字根、笔画的编号,增多一重影射关系,既失直观又更繁琐。


技术实现要素:

5.与以往“笔形编号”“字根编号”“拼笔编号”等数字编码技术方法不同,本发明分别使用10个和26组数字作为码元,对汉字进行数值模式和数符模式的编码,主要特征是以汉字笔画赋值为基础,用独创的提值方法计提出各种汉字形状隐含的抽象量值,直观显化提值组件的笔画载量及彼此量差,摆脱了汉字具体外形的束缚,有效解决了既往各种汉字编码方法难以解决的系列难题,从字形维度真正地而非表象地实现了汉字数字化;所用技术方法具有高度的概括性、辨识性和效率性,码元极少、规则简明、重码率低,适应汉字大小字集和词库的编码,能够广泛应用于汉字输入和检索。
6.本发明的提值操作由使用者自主进行,相当于自定编码;而且对不熟悉组件的提值可以自行即时解决,既不需要事先过多的死记硬背,也不需要临时查找字根分布图等作为辅助。
7.本发明的数值模式编码,可视为基础版编码;数符模式编码,可视为升级版编码。
8.对基本笔画赋值,是本发明最关键的技术点,也是汉字数字化最适当的切入点。
9.对汉字基本笔画赋值,相当于给提值组件注入了“显影剂”,使组件隐含的抽象数量要素得以显现。
10.汉字的横笔、提笔,可称为平展笔画,是最基本的笔画,赋予最小的量值。
11.汉字的点笔和与点配对的撇笔,可称为点状笔画,赋予最小的量值。
12.汉字的竖笔、撇笔和与撇配对的点笔以及捺笔,可称为纵伸笔画,赋予较大的量值。
13.汉字的折笔,可称为折连笔画,实际由多个笔画连接构成,赋予最大的量值。
14.本发明对特殊笔画加值,主要是为了增强辨识度、消除重码。主要有:

对底短横(如“士”“末”)、框内半短横(如“曰”“汩”),加值1;

对盖压捺笔的配对撇笔(如“人”),加值
1;对盖压撇笔的配对捺笔(如“入”),加值2;

全封框折笔(如“巳”),加值1;半封框折笔(如“已”),加值2。
15.整一组件,指不可再细拆为其他组件的组件。
16.散聚组件,指由若干笔画松散聚合构成的组件(如“上下止正”)。
17.空框组件,指由若干散笔聚合构成的、边框规整且内件固定为空的环闭组件(如“口”)。
18.笔串组件,指全部由笔画组成且全部串织在一起的组件(如“十丰又力”)。
19.块合组件,指可分为两个部分的组件。
20.框串组件,指四面闭包或三面环罩的框体有串笔穿出或穿过、且没有其他附挂笔画的组件(如“巾中弗由甲申事聿”)。
21.字串组件,指由一个贯通的长笔画将一个成字与其他成字或组件串连在一起的组件。对其切分举例说明如下:

将“果”切分为“田木”,

将“里”切分为“田土”,

将“重”切分为“千田土”,

将“我”切分为两列,

将“羲
⇣”
的b层切为两个列块,

将“戊”切分为“厂戈”两列(相关的例字有“咸威减臧藏”)。
22.串附组件,指在串块的上下或内部有附挂笔画的组件(如“土士木”、“干王五玉戈手”“内再两西雨弟甫臾丹舟母毋”)。
23.闭包组件,指外体是四面全封闭的框体的组件(如“日目田”)。
24.侧罩组件,指外件从两面或三面罩夹内件的组件(如“仄这建灰龙发”“左右石”“月同风”“贝见”“小水少心禾乖乘米鼎”)。
25.笔组包括从一个或多个组件中按一定顺序和一定数量择取的笔画组合(包括简缩后的笔画组合),以及这些笔画与另一个组件的组合。
26.视为分层的粘接组合,主要有:

在上部或下部的串附组件,与散聚组件或框体粘接的块合组件(如“立辛关羊矢古”),

在上部的散聚组件,与框体或者横起的折笔粘接的块合组件(如“尚学党商”)。这些组合组件分离后,基本符合直观习惯。
27.两个以上单横笔纵向排列构成的组件及单字(如“二”“三”)和两个以上单撇笔、单竖笔横向组成的组件及单字(如“川”),视为散聚组件和整一字(但“州”则视为分列字)。
28.一码对应两个以上列块或层块的例字:“辨辩辫器操瓤”。
29.一个层件或层块分为三个列块的例字:“樊攀率摔燕嬴羸

赢蠃
䇔”。
30.两码对应两个列块或层块的例字:“故郑短颃智禁繁”;两码对应三个层块的例字:“郭摸搞”;两码对应四个层块的例字:“攘瓤镶彀停”;两码对应五个层块的例字:“疆馕”。
31.不同词长的词语,其具体码额配置如下:

二字词,四码=

第一字2码+

第二字2码,五码=

第一字2码+

第二字3码;

三字词,四码=

第一字2码+

第二字1码+

第三字1码,五码=

第一字2码+

第二字2码+

第三字1码;

四字词,四码=

第一字1码+

第二字1码+

第三字1码+

第四字1码,五码=

第一字2码+

第二字1码+

第三字1码+

第四字1码;

五字以上词,四码=

第一字1码+

第二字1码+

第三字1码+

末一字1码,五码=

第一字1码+

第二字1码+

第三字1码+

第四字1码+

末一字1码。
32.数值模式编码和数符模式编码,在输入和检索应用上各有优长。数值模式编码码长短、占位少,无须转换即可用于汉字辞书检索和网页汉字搜索以及手机汉字输入。数符模式编码确定性强,更适合用于电脑键盘汉字输入。
33.数值模式编码和数符模式编码的键盘叠加布局,是本发明的独特技术。叠加之后,两种模式编码即能直通交互使用,可以综合发挥各自优长。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1