生僻字解码方法、装置、电子设备及存储介质与流程

文档序号:36531320发布日期:2023-12-29 21:54阅读:21来源:国知局
生僻字解码方法与流程

本发明涉及信息处理,尤其涉及一种生僻字解码方法、装置、电子设备及存储介质。


背景技术:

1、按照日常应用场景中的使用频率,可以将汉字分为常用汉字和生僻汉字,生僻汉字可以理解为人们不常用、不常见或不熟悉的汉字,可简称为生僻字。

2、虽然,一般情况下用户较少使用生僻字,但在一些特定的应用场景中,用户还是需要输入或输出一些生僻字。例如,中文的诗歌古籍或医学古籍中存在大量的生僻字,将古籍中的内容录入计算机或网络时,就需要输入生僻字。

3、向电子设备输入汉字时,需通过设备中的输入法对用户输入的字符进行解码,得到字符对应的多个候选汉字,用户需从候选汉字中进一步选择出输入汉字。而现有的输入法在对输入的字符进行解码时,会将解码得到的常用汉字和生僻字均向用户展示,用户需从混合展示的多个常用汉字和生僻字中进行选择,以确定输入汉字。将常用汉字和生僻字均作为候选汉字向用户展示,导致展示的内容较为复杂,不简洁。


技术实现思路

1、本发明提供一种生僻字解码方法、装置、电子设备及存储介质,用以解决现有技术中将常用汉字和生僻字均作为候选汉字向用户展示,导致展示的内容较为复杂的缺陷,实现简洁展示候选汉字的目的。

2、本发明提供一种生僻字解码方法,包括:

3、获取用户输入的目标字符信息;

4、基于目标字符信息,确定目标字符信息对应的解码方式;

5、基于解码方式,在生僻字库中确定目标字符信息对应的至少一个目标生僻字;

6、输出各目标生僻字。

7、根据本发明提供的一种生僻字解码方法,基于目标字符信息,确定目标字符信息对应的解码方式,包括:

8、在目标字符信息包括笔画信息的情况下,将笔画信息对应的笔画解码方式确定为目标字符信息对应的解码方式;

9、在目标字符信息包括拼音信息的情况下,将拼音信息对应的拼音解码方式确定为目标字符信息对应的解码方式;

10、在目标字符信息包括笔画信息和拼音信息的情况下,将笔画信息对应的笔画解码方式和拼音信息对应的拼音解码方式确定为目标字符信息对应的解码方式。

11、根据本发明提供的一种生僻字解码方法,基于解码方式,在生僻字库中确定目标字符信息对应的至少一个目标生僻字,包括:

12、在解码方式为笔画解码方式和拼音解码方式的情况下,确定与目标字符信息中的笔画信息对应的第一笔画标识,并确定第二笔画标识,第二笔画标识包括与目标字符信息中的拼音信息对应的笔画标识或对拼音信息进行补全后的拼音信息对应的笔画标识;

13、基于第一笔画标识确定第一目标文字,并基于第二笔画标识确定第二目标文字,第一目标文字包括第一笔画标识对应的第一文字或第一文字的同音字,第二目标文字包括第二笔画标识对应的第二文字;

14、基于第一目标文字和第二目标文字在生僻字库中确定目标字符信息对应的至少一个目标生僻字。

15、根据本发明提供的一种生僻字解码方法,基于第一目标文字和第二目标文字在生僻字库中确定目标字符信息对应的至少一个目标生僻字,包括:

16、将第一目标文字和第二目标文字进行组合,得到组合文字;

17、在生僻字库中包括组合文字的情况下,将组合文字确定为目标生僻字。

18、根据本发明提供的一种生僻字解码方法,输出各目标生僻字,包括:

19、基于目标字符信息,确定各目标生僻字的属性信息,属性信息用于表征目标生僻字为目标字符信息对应的生僻字或者对目标字符信息进行补全后确定出的生僻字;

20、基于各属性信息,确定对应目标生僻字的得分,并基于各目标生僻字的得分对各目标生僻字进行排序,得到排序后的目标生僻字;

21、输出排序后的目标生僻字。

22、根据本发明提供的一种生僻字解码方法,基于各属性信息,确定对应目标生僻字的得分,包括:

23、将各目标生僻字输入预先训练的分数确定模型中,得到各目标生僻字的初始得分,分数确定模型为基于字符信息样本对初始分数确定模型进行训练得到的;

24、基于属性信息,对目标字符信息对应的目标生僻字的初始得分进行激励,得到目标字符信息对应的目标生僻字的激励分数,并对目标字符信息的补全信息对应的目标生僻字的打分进行惩罚,得到补全信息对应的目标生僻字的惩罚分数;

25、将目标字符信息对应的目标生僻字的激励分数确定为目标字符信息对应的目标生僻字的得分,并将补全信息对应的目标生僻字的惩罚分数确定为补全信息对应的目标生僻字的得分。

26、根据本发明提供的一种生僻字解码方法,基于各目标生僻字的得分对各目标生僻字进行排序,得到排序后的目标生僻字,包括:

27、基于激励分数,对目标字符信息对应的目标生僻字进行排序,得到第一排序结果;

28、基于惩罚分数,对补全信息对应的目标生僻字进行排序,得到第二排序结果;

29、将第一排序结果排在第二排序结果之前,得到排序后的目标生僻字。

30、本发明还提供一种生僻字解码装置,包括:

31、获取模块,用于获取用户输入的目标字符信息;

32、第一确定模块,用于基于目标字符信息,确定目标字符信息对应的解码方式;

33、第二确定模块,用于基于解码方式,在生僻字库中确定目标字符信息对应的至少一个目标生僻字;

34、输出模块,用于输出各目标生僻字。

35、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上述任一种生僻字解码方法。

36、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一种生僻字解码方法。

37、本发明还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上述任一种生僻字解码方法。

38、本发明提供一种生僻字解码方法、装置、电子设备及存储介质,该方法基于用户输入的目标字符信息,在进行解码时先确定目标字符信息对应的解码方式,以适合该目标字符信息的解码方式对目标字符信息进行解码,提高了解码方式的灵活度,灵活地解码出更符合用户预期的候选汉字。基于确定的解码方式,在生僻字库中确定目标字符信息对应的至少一个目标生僻字时,因生僻字库中的汉字均为生僻字,可以排除常用汉字的干扰,使候选汉字中不会出现常用汉字和生僻字混合输出的情况,达到简洁展示候选汉字的效果。



技术特征:

1.一种生僻字解码方法,其特征在于,包括:

2.根据权利要求1所述的生僻字解码方法,其特征在于,所述基于所述目标字符信息,确定所述目标字符信息对应的解码方式,包括:

3.根据权利要求2所述的生僻字解码方法,其特征在于,所述基于所述解码方式,在生僻字库中确定所述目标字符信息对应的至少一个目标生僻字,包括:

4.根据权利要求3所述的生僻字解码方法,其特征在于,所述基于所述第一目标文字和所述第二目标文字在所述生僻字库中确定所述目标字符信息对应的至少一个目标生僻字,包括:

5.根据权利要求1-4任一项所述的生僻字解码方法,其特征在于,所述输出各所述目标生僻字,包括:

6.根据权利要求5所述的生僻字解码方法,其特征在于,所述基于各所述属性信息,确定对应目标生僻字的得分,包括:

7.根据权利要求6所述的生僻字解码方法,其特征在于,所述基于各目标生僻字的得分对各所述目标生僻字进行排序,得到排序后的目标生僻字,包括:

8.一种生僻字解码装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述生僻字解码方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述生僻字解码方法。


技术总结
本发明提供一种生僻字解码方法、装置、电子设备及存储介质,涉及信息处理技术领域,该方法包括:获取用户输入的目标字符信息;基于目标字符信息,确定目标字符信息对应的解码方式;基于解码方式,在生僻字库中确定目标字符信息对应的至少一个目标生僻字;输出各目标生僻字。该方法基于用户输入的目标字符信息确定对应的解码方式,提高了确定解码方式的灵活度,灵活解码可得到更符合用户预期的候选汉字;同时,在生僻字库中确定出的至少一个目标生僻字,并输出目标生僻字,可以避免候选汉字中常用汉字和生僻字混合输出的情况,排除常用汉字的干扰,使得生僻字的显示方式更加简洁。

技术研发人员:薛定龙,丁克玉
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1