文字编码和译码方法、装置及电子设备的制造方法

文档序号:9766018阅读:332来源:国知局
文字编码和译码方法、装置及电子设备的制造方法
【技术领域】
[0001]本发明涉及计算机应用技术领域,特别是涉及文字编码和译码方法、装置及电子设备。
【背景技术】
[0002]随着科学技术的发展,人们在纸上撰写文章并保留文章的情况越来越少,人们更多的使用计算机来撰写文章并存储文章。
[0003]在计算机中,对于长篇幅的文本而言,在进行存储时会占用较多存储空间。对于中文而言,现有的方法用二进制编码来表示中文,每个中文至少占双字节。例如:中华人民共和国,每个中文用双字节编码,需要占用14字节。可见,这种方法占用存储空间较多。当然,其他文字,如日文、韩文的编码方式也存在占用存储空间较多的情况。

【发明内容】

[0004]本发明实施例的目的在于提供文字编码和译码方法、装置及电子设备,将分词转换为预设长度的编码,减少占用的存储空间。具体技术方案如下:
[0005]本发明实施例提供的一种文字编码方法,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述方法包括:
[0006]获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
[0007]在所述分词编码库中找到根节点为当前分词首字的树;
[0008]在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
[0009]在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
[0010]如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
[0011 ]可选的,所述方法还包括:
[0012]如果在所述根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词首字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤。
[0013]可选的,所述预设长度为3字节。
[0014]可选的,所述文字为英文、中文、韩文或日文。
[0015]本发明实施例提供的一种文字译码方法,用于对本发明实施例中任一种文字编码方法中所述编码文件进行处理,所述方法应用于电子设备中,所述电子设备中存储有分词译码库,所述分词译码库是根据所述分词编码库设置的,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述方法包括:
[0016]获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
[0017]在所述分词译码库中查找所述当前编码对应的分词;
[0018]将所述当前编码转换为查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,返回执行所述在所述分词译码库中查找所述当前编码对应的分词的步骤,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
[0019]本发明实施例提供了一种文字编码装置,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述装置包括:
[0020]第一获得模块,用于获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
[0021]第一查找模块,用于在所述分词编码库中找到根节点为当前分词首字的树;
[0022]确定模块,用于在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
[0023]第二查找模块,用于在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
[0024]第一编码模块,用于第二查找模块如果找到,则将该下一个字作为当前分词尾字,触发第二查找模块;第二查找模块如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,触发第一查找模块,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
[0025]可选的,所述装置还包括:
[0026]第二编码模块,用于确定模块如果在所述根节点的子节点中未找到当前分词首字的下一个字所在的节点,将当前分词首字转换为对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词首字的下一个字确定为当前分词首字,触发第一查找模块。
[0027]可选的,所述预设长度为3字节。
[0028]可选的,所述文字为英文、中文、韩文或日文。
[0029]本发明实施例提供了一种文字译码装置,用于对本发明实施例提供的任一种文字编码装置中所述编码文件进行处理,所述装置应用于电子设备中,所述电子设备中存储有分词译码库,所述分词译码库是根据所述分词编码库设置的,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述装置包括:
[0030]第二获得模块,用于获得所述编码文件中的当前编码,其中,在开始对所述编码文件中的编码进行转换时,所述当前编码为所述编码文件中的首个预设长度的编码;
[0031]第三查找模块,用于在所述分词译码库中查找所述当前编码对应的分词;
[0032]译码模块,用于将所述当前编码转换为第三查找模块查找到的分词,将转换后得到的分词存储到文本中,并将已转换的当前编码的下一个预设长度的编码确定为当前编码,触发第三查找模块,其中,各预设长度的编码转换后得到的分词在所述文本中的排列顺序与各预设长度的编码在所述编码文件中的存储顺序一致。
[0033]本发明实施例提供的一种电子设备,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述电子设备包括:
[0034]壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
[0035]获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;
[0036]在所述分词编码库中找到根节点为当前分词首字的树;
[0037]在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;
[0038]在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点;
[0039]如果找到,则将该下一个字作为当前分词尾字,返回执行所述在确定的当前分词尾字的子节点中查找当前分词尾字的下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的文本中的分词转换为当前分词尾字对应的预设长度的编码,将转换后得到的编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行所述在所述分词编码库中找到根节点为当前分词首字的树的步骤,其中,各分词转换后得到的编码在所述编码文件中的存储顺序与各分词在所述待转换文本中的排列顺序一致。
[0040]本发明实施例提供的一种电子设备,所述电子设备中存储有分词译码库,所述分词译码库是根据分词编码库设置的,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述分词译码库中对应存储有所述分词编码库中的所有预设分词及预设长度的编码,所述电子设备包括:
[0041]壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
[0042]获得编码文件中的当前编码,其中,所述编码文件为待转换文本根据所述分词编码库编码得到的文件,在开始对所述编码文件
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1