一种字符的转换方法及装置的制造方法

文档序号:10594088阅读:207来源:国知局
一种字符的转换方法及装置的制造方法
【专利摘要】本发明是关于一种字符的转换方法及装置,该方法包括:接收待转换文本;在三叉搜索树中确定与所述待转换文本对应的目标节点,所述三叉搜索树的节点中预先存储有词语与拼音的对应关系;在所述目标节点中提取所述待转换文本对应的词语或拼音;输出所述待转换文本对应的词语或拼音。在三叉搜索树中确定与待转换文本对应的目标节点的过程中,在三叉搜索树中每查找一次待转换文本对应的节点,均能减少一半的查询工作量,所以本发明提供的方案可以快速的查询到待转换文本对应的目标节点,并在该目标节点中得到待转换文本对应的词语或拼音,从而提高了查询效率。
【专利说明】
-种字符的转换方法及装置
技术领域
[0001] 本发明实施例设及通信技术领域,更具体的说,设及字符的转换方法及装置。
【背景技术】
[0002] 目前,为了实现拼音与词语的相互转换,通常需要预先建立一个强大的词库,在词 库中需要记录所有的词语与拼音的对应关系。其中,词语至少包括两个汉字。
[0003] 在用户输入一组拼音时,服务器需要从头到尾遍历整个词库来查询该拼音对应的 词语,所W服务器可能需要消耗较长时间才能够查询到该拼音对应的词语。同理,在用户输 入词语时,服务器需要从头到尾遍历整个词库来查询该词语对应的拼音,所W服务器同样 需要消耗较长时间才能够查询到该词语对应的拼音。所W上述利用词库的方式进行词语与 拼音的转换,其查询效率非常低。
[0004] 因此,如何提高拼音与词语相互转换的查询效率,成为目前亟需解决的技术问题。

【发明内容】

[0005] 本发明提供一种字符的转换方法及装置,W提高查询的效率。
[0006] 根据本发明实施例的第一方面,提供一种字符的转换方法,包括:
[0007] 接收待转换文本,所述待转换文本为拼音或词语;
[000引在=叉捜索树中确定与所述待转换文本对应的目标节点,所述=叉捜索树的节点 中预先存储有词语与拼音的对应关系;
[0009] 在所述目标节点中提取所述待转换文本对应的词语或拼音;
[0010] 输出所述待转换文本对应的词语或拼音。
[0011] 可选的,在所述接收待转换文本的步骤之后,所述方法还包括:
[0012] 判断所述待转换文本是否可W被拆分成分词;
[0013] 在所述待转换文本可W被拆分成分词时,利用分词算法对所述待转换文本进行拆 分得到分词结果,在所述=叉捜索树中确定与所述分词结果中的分词对应的第一指定节 点,提取所述第一指定节点中所述分词对应的词语或拼音,输出所述分词对应的词语或拼 首;
[0014] 在所述待转换文本不可被拆分成分词时,触发所述在=叉捜索树中确定与所述待 转换文本对应的目标节点的步骤。
[0015] 可选的,所述在=叉捜索树中确定与所述待转换文本对应的目标节点的步骤包 括:
[0016] 在所述待转换文本为一个词语时,在词语=叉捜索树的根节点和所述根节点的兄 弟节点中确定与所述待转换文本中的首个汉字的Ascn码值相同的第二指定节点;
[0017] 在所述第二指定节点的子节点中确定与所述待转换文本中的其余汉字的Ascn码 值相同的第=指定节点;
[0018] 将所述第=指定节点确定为目标节点,所述一个词语至少包括两个汉字。
[0019] 可选的,所述在=叉捜索树中确定与所述待转换文本对应的目标节点的步骤包 括:
[0020] 在所述待转换文本为至少两组拼音时,在拼音=叉捜索树的根节点和所述根节点 的兄弟节点中确定与所述待转换文本中的首组拼音相同的第四指定节点;
[0021] 在所述第四指定节点的子节点中确定与所述待转换文本中的其余组拼音相同的 第五指定节点;
[0022] 将所述第五指定节点确定为目标节点,所述至少两组拼音中的每组拼音均对应一 个汉字。
[0023] 可选的,所述在=叉捜索树中确定与所述待转换文本对应的目标节点的步骤之 前,所述方法还包括:
[0024] 确定与标准词库中每个词语对应的Ascn码值;
[0025] 根据Ascn码值的大小将所述标准词库中每个词语的首个汉字添加到所述S叉捜 索树的根节点和所述根节点的兄弟节点中;
[0026] 将所述标准词库中每个词语的非首个汉字和拼音添加到所述=叉捜索树的所述 根节点的子节点中,W及所述根节点的兄弟节点的子节点中。
[0027] 可选的,所述在=叉捜索树中确定与所述待转换文本对应的目标节点的步骤之 前,所述方法还包括:
[0028] 确定标准词库中每对拼音的首字母,其中,每组拼音至少包括一个拼音,每对拼音 至少包括两组拼音,一组拼音对应一个汉字,一对拼音对应一个词语;
[0029] 根据首字母的顺序将所述标准词库中每对拼音的首组拼音添加到所述=叉捜索 树的根节点和所述根节点的兄弟节点中;
[0030] 将所述标准词库中每对拼音的非首组拼音和每对拼音对应的词语添加到所述= 叉捜索树的所述根节点的子节点中,W及所述根节点的兄弟节点的子节点中。
[0031] 根据本发明实施例的第二方面,提供一种字符的转换装置,包括:
[0032] 接收模块,用于接收待转换文本,所述待转换文本为拼音或词语;
[0033] 第一确定模块,用于在=叉捜索树中确定与所述待转换文本对应的目标节点,所 述=叉捜索树的节点中预先存储有词语与拼音的对应关系;
[0034] 提取模块,用于在所述目标节点中提取所述待转换文本对应的词语或拼音;
[0035] 输出模块,用于输出所述待转换文本对应的词语或拼音。
[0036] 可选的,所述装置还包括:
[0037] 判断模块,用于判断所述待转换文本是否可W被拆分成分词;
[0038] 第一执行模块,用于在所述待转换文本可W被拆分成分词时,利用分词算法对所 述待转换文本进行拆分得到分词结果,在所述=叉捜索树中确定与所述分词结果中的分词 对应的第一指定节点,提取所述第一指定节点中所述分词对应的词语或拼音,输出所述分 词对应的词语或拼音;
[0039] 第二执行模块,用于在所述待转换文本不可被拆分成分词时,触发所述第一确定 模块。
[0040] 可选的,所述第一确定模块包括:
[0041] 第一确定子模块,用于在所述待转换文本为一个词语时,在词语=叉捜索树的根 节点和所述根节点的兄弟节点中确定与所述待转换文本中的首个汉字的ASCII码值相同的 第二指定节点;
[0042] 第二确定子模块,用于在所述第二指定节点的子节点中确定与所述待转换文本中 的其余汉字的Ascn码值相同的第S指定节点;
[0043] 第=确定子模块,用于将所述第=指定节点确定为目标节点,所述一个词语至少 包括两个汉字。
[0044] 可选的,所述第一确定模块包括:
[0045] 第四确定子模块,用于在所述待转换文本为至少两组拼音时,在拼音=叉捜索树 的根节点和所述根节点的兄弟节点中确定与所述待转换文本中的首组拼音相同的第四指 定节点;
[0046] 第五确定子模块,用于在所述第四指定节点的子节点中确定与所述待转换文本中 的其余组拼音相同的第五指定节点;
[0047] 第六确定子模块,用于将所述第五指定节点确定为目标节点,所述至少两组拼音 中的每组拼音均对应一个汉字。
[004引可选的,所述装置还包括:
[0049] 第二确定模块,用于确定与标准词库中每个词语对应的Ascn码值;
[0050] 第一添加模块,用于根据ASCII码值的大小将所述标准词库中每个词语的首个汉 字添加到所述=叉捜索树的根节点和所述根节点的兄弟节点中;
[0051] 第二添加模块,用于将所述标准词库中每个词语的非首个汉字和拼音添加到所述 =叉捜索树的所述根节点的子节点中,W及所述根节点的兄弟节点的子节点中。
[0化2] 可选的,所述装置还包括:
[0053] 第=确定模块,用于确定标准词库中每对拼音的首字母,其中,每组拼音至少包括 一个拼音,每对拼音至少包括两组拼音,一组拼音对应一个汉字,一对拼音对应一个词语;
[0054] 第=添加模块,用于根据首字母的顺序将所述标准词库中每对拼音的首组拼音添 加到所述=叉捜索树的根节点和所述根节点的兄弟节点中;
[0055] 第四添加模块,用于将所述标准词库中每对拼音的非首组拼音和每对拼音对应的 词语添加到所述=叉捜索树的所述根节点的子节点中,W及所述根节点的兄弟节点的子节 点中。
[0056] 与现有技术相比,本实施例提供的技术方案具有W下优点和特点:
[0057] 在本发明提供的方案中,在=叉捜索树的节点中会预先存储有词语与拼音的对应 关系,在接收到待转换文本后,可W在=叉捜索树中确定与待转换文本对应的目标节点。如 果待转换文本为拼音,那么可W在目标节点中提取与拼音对应的词语;如果待转换文本为 词语,那么可W在目标节点中提取与词语对应的拼音,所W使得拼音与词语可W相互转换。 在=叉捜索树中确定与待转换文本对应的目标节点的过程中,在=叉捜索树中每查找一次 待转换文本对应的节点,均能减少一半的查询工作量,所W本发明提供的方案可W快速的 查询到待转换文本对应的目标节点,并在该目标节点中得到待转换文本对应的词语或拼 音,从而提高了查询效率。
【附图说明】
[0058] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据运些附图获 得其他的附图。
[0059] 图1为本发明实施例提供的一种字符的转换方法的流程图。
[0060] 图2为本发明实施例提供的词典S叉捜索树的示意图。
[0061 ]图3为本发明实施例提供的拼音=叉捜索树的示意图。
[0062] 图4为本发明实施例提供的另一种字符的转换方法的流程图。
[0063] 图5为本发明实施例提供的一种字符的转换装置的示意图。
【具体实施方式】
[0064] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0065] 图1为本发明实施例提供的一种字符的转换方法的流程图。本发明实施例提供的 字符的转换方法可W快速的在=叉捜索树中查询到待转换文本对应的目标节点,并在该目 标节点中得到待转换文本对应的词语或拼音,从而提高了查询效率。该方法包括W下步骤。
[0066] 步骤S11、接收待转换文本。
[0067] 其中,本发明实施例提供的方法可W应用于可安装应用软件的终端内,终端可W 为智能手机、平板电脑、笔记本电脑或台式电脑等设备。
[0068] 本发明实施例适用的应用场景非常多。例如,本发明实施例可W应用在电子书内, 用于对电子书内的拼音或词语进行相互转换;又如,本发明实施例可W应用在捜索引擎内, 用于对捜索引擎的输入框内的拼音或词语进行相互转换。
[0069] 当然,本发明实施例并不局限于上述提到的场景中,还可W应用在其他需要拼音 或词语进行相互转换的场景中。
[0070] 待转换文本既可W为词语的拼音的首字母,也可W为词语的拼音的全拼,还可W 为一个词语。其中,一个词语至少包括两个汉字。
[0071] 步骤S12、在=叉捜索树中确定与待转换文本对应的目标节点。
[0072] 其中,在执行步骤S12之前,为了将词语转换为拼音,本发明实施例需要建立词语 =叉捜索树,并将标准词库中的词语和与词语对应的拼音添加到词语=叉捜索树的节点 中。同理,为了将拼音转换为词语,本发明实施例还需要建立拼音=叉捜索树,并将标准词 库中的拼音和与拼音对应的词语添加到拼音=叉捜索树的节点中。
[0073] 下面介绍建立词语=叉捜索树的方式。
[0074] 建立词语=叉捜索树的方式包括W下步骤:首先,确定与标准词库中每个词语对 应的ASCII码值;然后,根据ASCII码值的大小将标准词库中每个词语的首个汉字添加到词 语=叉捜索树的根节点和根节点的兄弟节点中;最后,将标准词库中每个词语的非首个汉 字和拼音添加到词语=叉捜索树的根节点的子节点中,W及根节点的兄弟节点的子节点 中。
[0075] 其中,词语=叉捜索树的根节点存储标准词库中每个词语的首个汉字的ASCII码 值居中的汉字,小于该ASCII码值的首个汉字位于根节点的左侧分支,大于该ASCII码值的 首个汉字位于根节点的右侧分支。
[0076] 为了形象的说明上述建立词语=叉捜索树的过程,下面通过举例说明。
[0077] 请参见表1所示,表1所示的为标准词库中存储的词语、该词语的拼音首字母和该 词语的拼音全拼。
[007引
[0079] 表 1
[0080] 例如,请参见图2所示,并结合表1所示,假设标准词库中存储词语"中国"、"民族"、 "社会"、"群体"和"风格",W及运些词语的拼音首字母和拼音全拼。假设标准词库中每个词 语的首个汉字的Ascn码值由大到小的顺序为"群"、"风"、"中"、"社"和"民",将标准词库的 词语中首个汉字的Ascn码值居中的汉字"中"添加到词语S叉捜索树的根节点中,并将 ASCII码值大于"中"的"群"和"风"添加到根节点的右侧分支,由于"群"的ASCII码值大于 "风"的ASCII码值,所W将"群"添加到"风"所在节点的右侧分支。再将ASCII码值小于"中" 的"民"和"社"添加到根节点的左侧分支,由于"社"的ASCII码值大于"民"的ASCII码值,所 W将"社"添加到"民"所在节点的右侧分支。最后,将标准词库中每个词语的非首个汉字和 拼音''国,z邑,zhon邑邑UO''、"族,mz'minzu''、''格,f邑,fen邑邑e''、''体,qt'qunti''和''会,sh, shehui"分别添加到词语S叉捜索树的根节点的子节点中,W及根节点的兄弟节点的子节 点中。
[0081] 下面介绍建立拼音=叉捜索树的方式。
[0082] 建立拼音=叉捜索树的方式包括W下步骤:首先,确定标准词库中每对拼音的首 字母,其中,每组拼音至少包括一个拼音,每对拼音至少包括两组拼音,一组拼音对应一个 汉字,一对拼音对应一个词语;然后,根据首字母的顺序将标准词库中每对拼音的首组拼音 添加到拼音=叉捜索树的根节点和根节点的兄弟节点中;最后,将标准词库中每对拼音的 非首组拼音和每对拼音对应的词语添加到拼音=叉捜索树的根节点的子节点中,W及根节 点的兄弟节点的子节点中。
[0083] 其中,拼音=叉捜索树的根节点存储标准词库中首字母居中的一对拼音的首组拼 音,字母顺序小于该根节点存储的首字母的其他对拼音的首组拼音位于根节点的左侧分 支,字母顺序大于该根节点存储的首字母的其他对拼音的首组拼音位于根节点的右侧分 支。
[0084] 为了形象的说明上述建立拼音=叉捜索树的过程,下面通过举例说明。
[0085] 例如,请参见图3所示,并结合表1所示,假设标准词库中存储词语"中国"、"民族"、 "社会"、"群体"和"风格",W及运些词语的拼音首字母和拼音全拼。由于标准词库中每对拼 音的首字母由大到小的顺序为V'、V'、V'、V'和T',所W将首字母居中的V'对应的一 对拼音Vnti"的首组拼音Vn"添加到拼音S叉捜索树的根节点中,由于"zhong"的首字 母的字母顺序大于"she"的首字母的字母顺序,所W将"zhong"添加到"she"所在节点的右 侧分支。由于"min"的首字母的字母顺序大于吁eng"的首字母的字母顺序,所W将"min"添 加到"feng"所在节点的右侧分支。最后,将标准词库中每对拼音的非首组拼音和每对拼音 对应的词语"guo,zg,中国"、"hui,sh,社会'、"ti,qt,群体"、"zu,mz,民族'和"ge,fg,风格' 添加到拼音=叉捜索树的根节点的子节点中,W及根节点的兄弟节点的子节点中。
[0086] 由于标准词库通常包括5至6千个词语及其拼音,上述例子仅为说明本发明实施例 的原理,所W未将标准词库中5至6千个词语及其拼音全部写出来。
[0087] 在=叉捜索树建立完成W后,便可W在=叉捜索树中确定与待转换文本对应的目 标节点。下面简要介绍一下在=叉捜索树中确定与待转换文本对应的目标节点的过程。
[0088] 如果待转换文本为一个词语,那么需要利用上述提到的词语=叉捜索树进行确 定,在词语=叉捜索树中确定与待转换文本对应的目标节点的步骤为:首先,在待转换文本 为一个词语时,在词语=叉捜索树的根节点和根节点的兄弟节点中确定与待转换文本中的 首个汉字的Ascn码值相同的第二指定节点。然后,在第二指定节点的子节点中确定与待转 换文本中的其余汉字的ASCII码值相同的第S指定节点。最后,将第S指定节点确定为目标 节点,一个词语至少包括两个汉字。
[0089] 为了形象的说明上述在词语=叉捜索树中确定与待转换文本对应的目标节点的 过程,下面通过举例说明。
[0090] 例如,请参见图2所示,并结合表1所示,已经预先建立好词语=叉捜索树,标准词 库中每个词语的首个汉字的Ascn码值由大到小的顺序为"群"、"风"、"中"、"社"和"民"。假 设待转换文本为词语"风格",那么先比较"风"的Ascn码值与词语S叉捜索树的根节点存 储的"中"的ASCII码值,由于"风"的ASCII码值大于"中"的ASCII码值,所W继续向根节点的 右兄弟节点进行比较。由于待转换文本中的首个汉字"风"的ASCII码值与根节点的右兄弟 节点存储的"风"的Ascn码值相同,所W继续比较待转换文本中的第二个汉字"格"的ASCII 码值与根节点的右兄弟节点的子节点存储的"格"的ASCII码值是否相同。由于待转换文本 中的第二个汉字"格"的ASCII码值与根节点的右兄弟节点的子节点存储的"格"的ASCII码 值相同,所W便可W将根节点的右兄弟节点的子节点确定为目标节点,W便于可W从目标 节点中提取待转换文本"风格"对应的拼音全拼吁engge"和拼音首字母吁g"。
[0091] 如果待转换文本为一个拼音,那么需要利用上述提到的拼音=叉捜索树进行确 定,在拼音=叉捜索树中确定与待转换文本对应的目标节点的步骤为:首先,在待转换文本 为至少两组拼音时,在拼音=叉捜索树的根节点和根节点的兄弟节点中确定与待转换文本 中的首组拼音相同的第四指定节点。在第四指定节点的子节点中确定与待转换文本中的其 余组拼音相同的第五指定节点。将第五指定节点确定为目标节点,至少两组拼音中的每组 拼音均对应一个汉字。
[0092] 为了形象的说明上述在拼音=叉捜索树中确定与待转换文本对应的目标节点的 过程,下面通过举例说明。
[0093] 例如,请参见图3所示,并结合表1所示,已经预先建立好拼音=叉捜索树,标准词 库中每对拼音的首字母由大到小的顺序为V'、V'、V'、V'和T'。假设待转换文本为拼音 吁engge",那么先比较待转换文本中的首组拼音的首字母吁"与拼音S叉捜索树的根节点 存储的拼音首字母V'的字母顺序,由于T'的字母顺序小于V'的字母顺序,所W继续向根 节点的左兄弟节点进行比较。由于待转换文本中的首组拼音的首字母吁"与根节点的左兄 弟节点存储的拼音首字母"r的字母顺序相同,所W继续比较待转换文本中的首组拼音 "feng"与根节点的左兄弟节点存储的拼音"feng"是否相同。由于相同,所W继续比较较待 转换文本中的第二组拼音"ge"与根节点的左兄弟节点的子节点存储的拼音是否相同。由于 相同,所W便可W将根节点的左兄弟节点的子节点确定为目标节点,W便于可W从目标节 点中提取待转换文本吁engge"对应的词语"风格"和拼音首字母吁g"。
[0094] 步骤S13、在目标节点中提取待转换文本对应的词语或拼音。
[0095] 其中,在=叉捜索树中确定与待转换文本对应的目标节点W后,便可W在目标节 点中提取待转换文本对应的词语或拼音。如果待转换文本为词语,那么便可W在目标节点 中提取待转换文本对应的拼音;如果待转换文本为拼音,那么便可W在目标节点中提取待 转换文本对应的词语。
[0096] 如果待转换文本为拼音,而且该拼音可W对应多个词语,那么需要使用W下步骤 在目标节点中提取待转换文本对应的词语:首先,在目标节点中含有至少两组词语时,确定 目标节点中的每个词语的使用频率。然后,按照使用频率对目标节点中的每个词语进行排 序,得到排序结果。最后,提取排序结果中的每个词语。
[0097] 其中,如果目标节点中含有至少两组词语,那么需要确定出运些词语的使用频率, 并根据使用频率来排序,最终提取出排序后的词语,从而使得用户可W看到运些词语按照 使用频率由高到低进行排序后的效果,所W用户可W快速的定位到使用频率高的词语。
[0098] 如果待转换文本为词语,而且该词语可W对应至少两组拼音,那么需要使用W下 步骤在目标节点中提取待转换文本对应的拼音:首先,在目标节点中含有至少两组拼音时, 确定目标节点中的每组拼音的使用频率,至少两组拼音中的每组拼音均对应一个汉字。然 后,按照使用频率对目标节点中的每组拼音进行排序,得到排序结果。最后,提取排序结果 中的每组拼音。
[0099] 其中,如果目标节点中含有至少两组拼音,那么需要确定出每组拼音的使用频率, 并根据使用频率来排序,最终提取出排序后的每组拼音,从而使得用户可W看到运些组拼 音按照使用频率由高到低进行排序后的效果,所W用户可W快速的定位到使用频率高的拼 音。
[0100] 步骤S14、输出待转换文本对应的词语或拼音。
[0101] 其中,在目标节点中提取待转换文本对应的词语或拼音W后,便可W输出待转换 文本对应的词语或拼音,W便于用户能够看到待转换文本对应的词语或拼音。
[0102] 在图1所示的实施例中,在=叉捜索树的节点中会预先存储有词语与拼音的对应 关系,在接收到待转换文本后,可W在=叉捜索树中确定与待转换文本对应的目标节点。如 果待转换文本为拼音,那么可W在目标节点中提取与拼音对应的词语;如果待转换文本为 词语,那么可W在目标节点中提取与词语对应的拼音,所W使得拼音与词语可W相互转换。 在=叉捜索树中确定与待转换文本对应的目标节点的过程中,在=叉捜索树中每查找一次 待转换文本对应的节点,均能减少一半的查询工作量,所W本发明提供的方案可W快速的 查询到待转换文本对应的目标节点,并在该目标节点中得到待转换文本对应的词语或拼 音,从而提高了查询效率。
[0103] 请参见图4所示,在本发明的另一些实施例中,本发明实施例提供的方法还可W包 括W下步骤:
[0104] 步骤S15、判断待转换文本是否可W被拆分成分词。在待转换文本可W被拆分成分 词时,触发步骤S16;在待转换文本不可被拆分成分词时,触发步骤S12。
[0105] 步骤S16、利用分词算法对待转换文本进行拆分得到分词结果,在=叉捜索树中确 定与分词结果中的分词对应的第一指定节点,提取第一指定节点中分词对应的词语或拼 音,输出分词对应的词语或拼音。
[0106] 其中,分词算法存在很多种,例如,分词算法可W为逆向最大匹配,分词算法还可 W为正向最大减字,当然,也可W为其他的分词算法,本发明并不局限分词算法的种类。
[0107] 在某些情况下,待转换文本中的词语或句子可能会非常的长,如果在=叉捜索树 中确定待转换文本对应的目标节点,那么会导致查询效率低下。所W需要利用分词算法将 较长的词语或一句话拆分成不可再分的分词,从而提高在=叉捜索树中确定到与待转换文 本对应的目标节点的效率。
[0108] 在获取到待转换文本W后,需要判断待转换文本是否为可W被拆分成分词。如果 待转换文本为可W被拆分的词语,那么便可W利用分词算法对待转换文本进行拆分得到分 词结果,并在=叉捜索树中确定与分词结果中的分词对应的第一指定节点,提取第一指定 节点中分词对应的拼音,输出分词对应的拼音。如果待转换文本为不可W被拆分的词语,那 么便可W触发步骤S12,直接在=叉捜索树中确定与分词结果中的分词对应的第一指定节 点。
[0109] 同理,如果待转换文本为可W被拆分的拼音,那么便可W利用分词算法对待转换 文本进行拆分得到分词结果,并在=叉捜索树中确定与分词结果中的分词对应的第一指定 节点,提取第一指定节点中分词对应的词语,最后输出分词对应的词语。
[0110] 图5为本发明实施例提供的一种字符的转换装置的示意图。参照图5,该装置包括 接收模块11、第一确定模块12、提取模块13和输出模块14,其中:
[0111] 接收模块11,用于接收待转换文本,待转换文本为拼音或词语。
[0112] 第一确定模块12,用于在=叉捜索树中确定与待转换文本对应的目标节点,=叉 捜索树的节点中预先存储有词语与拼音的对应关系。
[0113] 提取模块13,用于在目标节点中提取待转换文本对应的词语或拼音。
[0114] 输出模块14,用于输出待转换文本对应的词语或拼音。
[0115] 可选的,本发明实施例提供的字符的转换装置还可W包括W下模块:判断模块,用 于判断待转换文本是否可W被拆分成分词。第一执行模块,用于在待转换文本可W被拆分 成分词时,利用分词算法对待转换文本进行拆分得到分词结果,在=叉捜索树中确定与分 词结果中的分词对应的第一指定节点,提取第一指定节点中分词对应的词语或拼音,输出 分词对应的词语或拼音。第二执行模块,用于在待转换文本不可被拆分成分词时,触发第一 确定模块12。
[0116] 可选的,上述第一确定模块12还可W包括W下子模块:第一确定子模块,用于在待 转换文本为一个词语时,在=叉捜索树的根节点和根节点的兄弟节点中确定与待转换文本 中的首个汉字的Ascn码值相同的第二指定节点。第二确定子模块,用于在第二指定节点的 子节点中确定与待转换文本中的其余汉字的ASCII码值相同的第S指定节点。第S确定子 模块,用于将第=指定节点确定为目标节点,一个词语至少包括两个汉字。
[0117] 可选的,上述第一确定模块12还可W包括W下子模块:第四确定子模块,用于在待 转换文本为至少两组拼音时,在=叉捜索树的根节点和根节点的兄弟节点中确定与待转换 文本中的首组拼音相同的第四指定节点。第五确定子模块,用于在第四指定节点的子节点 中确定与待转换文本中的其余组拼音相同的第五指定节点。第六确定子模块,用于将第五 指定节点确定为目标节点,至少两组拼音中的每组拼音均对应一个汉字。
[0118] 可选的,本发明实施例提供的字符的转换装置还可W包括W下模块:第二确定模 块,用于确定与标准词库中每个词语对应的ASCII码值。第一添加模块,用于根据ASCII码值 的大小将标准词库中每个词语的首个汉字添加到=叉捜索树的根节点和根节点的兄弟节 点中。第二添加模块,用于将标准词库中每个词语的非首个汉字和拼音添加到=叉捜索树 的根节点的子节点中,W及根节点的兄弟节点的子节点中。
[0119] 可选的,本发明实施例提供的字符的转换装置还可W包括W下模块:第=确定模 块,用于确定标准词库中每对拼音的首字母,其中,每组拼音至少包括一个拼音,每对拼音 至少包括两组拼音,一组拼音对应一个汉字,一对拼音对应一个词语。第=添加模块,用于 根据首字母的顺序将标准词库中每对拼音的首组拼音添加到=叉捜索树的根节点和根节 点的兄弟节点中。第四添加模块,用于将标准词库中每对拼音的非首组拼音和每对拼音对 应的词语添加到=叉捜索树的根节点的子节点中,W及根节点的兄弟节点的子节点中。
[0120] 关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法 的实施例中进行了详细描述,此处将不做详细阐述说明。
[0121] W上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明掲露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应所述W权利要求的保护范围为准。
【主权项】
1. 一种字符的转换方法,其特征在于,包括: 接收待转换文本,所述待转换文本为拼音或词语; 在三叉搜索树中确定与所述待转换文本对应的目标节点,所述三叉搜索树的节点中预 先存储有词语与拼音的对应关系; 在所述目标节点中提取所述待转换文本对应的词语或拼音; 输出所述待转换文本对应的词语或拼音。2. 根据权利要求1所述的字符的转换方法,其特征在于,在所述接收待转换文本的步骤 之后,所述方法还包括: 判断所述待转换文本是否可以被拆分成分词; 在所述待转换文本可以被拆分成分词时,利用分词算法对所述待转换文本进行拆分得 到分词结果,在所述三叉搜索树中确定与所述分词结果中的分词对应的第一指定节点,提 取所述第一指定节点中所述分词对应的词语或拼音,输出所述分词对应的词语或拼音; 在所述待转换文本不可被拆分成分词时,触发所述在三叉搜索树中确定与所述待转换 文本对应的目标节点的步骤。3. 根据权利要求1所述的字符的转换方法,其特征在于,所述在三叉搜索树中确定与所 述待转换文本对应的目标节点的步骤包括: 在所述待转换文本为一个词语时,在词语三叉搜索树的根节点和所述根节点的兄弟节 点中确定与所述待转换文本中的首个汉字的ASCII码值相同的第二指定节点; 在所述第二指定节点的子节点中确定与所述待转换文本中的其余汉字的ASCII码值相 同的第三指定节点; 将所述第三指定节点确定为目标节点,所述一个词语至少包括两个汉字。4. 根据权利要求1所述的字符的转换方法,其特征在于,所述在三叉搜索树中确定与所 述待转换文本对应的目标节点的步骤包括: 在所述待转换文本为至少两组拼音时,在拼音三叉搜索树的根节点和所述根节点的兄 弟节点中确定与所述待转换文本中的首组拼音相同的第四指定节点; 在所述第四指定节点的子节点中确定与所述待转换文本中的其余组拼音相同的第五 指定节点; 将所述第五指定节点确定为目标节点,所述至少两组拼音中的每组拼音均对应一个汉 字。5. 根据权利要求1所述的字符的转换方法,其特征在于,所述在三叉搜索树中确定与所 述待转换文本对应的目标节点的步骤之前,所述方法还包括: 确定与标准词库中每个词语对应的ASCII码值; 根据ASCII码值的大小将所述标准词库中每个词语的首个汉字添加到所述三叉搜索树 的根节点和所述根节点的兄弟节点中; 将所述标准词库中每个词语的非首个汉字和拼音添加到所述三叉搜索树的所述根节 点的子节点中,以及所述根节点的兄弟节点的子节点中。6. 根据权利要求1所述的字符的转换方法,其特征在于,所述在三叉搜索树中确定与所 述待转换文本对应的目标节点的步骤之前,所述方法还包括: 确定标准词库中每对拼音的首字母,其中,每组拼音至少包括一个拼音,每对拼音至少 包括两组拼音,一组拼音对应一个汉字,一对拼音对应一个词语; 根据首字母的顺序将所述标准词库中每对拼音的首组拼音添加到所述三叉搜索树的 根节点和所述根节点的兄弟节点中; 将所述标准词库中每对拼音的非首组拼音和每对拼音对应的词语添加到所述三叉搜 索树的所述根节点的子节点中,以及所述根节点的兄弟节点的子节点中。7. -种字符的转换装置,其特征在于,包括: 接收模块,用于接收待转换文本,所述待转换文本为拼音或词语; 第一确定模块,用于在三叉搜索树中确定与所述待转换文本对应的目标节点,所述三 叉搜索树的节点中预先存储有词语与拼音的对应关系; 提取模块,用于在所述目标节点中提取所述待转换文本对应的词语或拼音; 输出模块,用于输出所述待转换文本对应的词语或拼音。8. 根据权利要求7所述的字符的转换装置,其特征在于,所述装置还包括: 判断模块,用于判断所述待转换文本是否可以被拆分成分词; 第一执行模块,用于在所述待转换文本可以被拆分成分词时,利用分词算法对所述待 转换文本进行拆分得到分词结果,在所述三叉搜索树中确定与所述分词结果中的分词对应 的第一指定节点,提取所述第一指定节点中所述分词对应的词语或拼音,输出所述分词对 应的词语或拼音; 第二执行模块,用于在所述待转换文本不可被拆分成分词时,触发所述第一确定模块。9. 根据权利要求7所述的字符的转换装置,其特征在于,所述第一确定模块包括:第一 确定子模块,用于在所述待转换文本为一个词语时,在词语三叉搜索树的根节点和所述根 节点的兄弟节点中确定与所述待转换文本中的首个汉字的ASCII码值相同的第二指定节 占. 第二确定子模块,用于在所述第二指定节点的子节点中确定与所述待转换文本中的其 余汉字的ASCII码值相同的第三指定节点; 第三确定子模块,用于将所述第三指定节点确定为目标节点,所述一个词语至少包括 两个汉字。10. 根据权利要求7所述的字符的转换装置,其特征在于,所述第一确定模块包括: 第四确定子模块,用于在所述待转换文本为至少两组拼音时,在拼音三叉搜索树的根 节点和所述根节点的兄弟节点中确定与所述待转换文本中的首组拼音相同的第四指定节 占. 第五确定子模块,用于在所述第四指定节点的子节点中确定与所述待转换文本中的其 余组拼音相同的第五指定节点; 第六确定子模块,用于将所述第五指定节点确定为目标节点,所述至少两组拼音中的 每组拼音均对应一个汉字。11. 根据权利要求7所述的字符的转换装置,其特征在于,所述装置还包括: 第二确定模块,用于确定与标准词库中每个词语对应的ASCII码值; 第一添加模块,用于根据ASCII码值的大小将所述标准词库中每个词语的首个汉字添 加到所述三叉搜索树的根节点和所述根节点的兄弟节点中; 第二添加模块,用于将所述标准词库中每个词语的非首个汉字和拼音添加到所述三叉 搜索树的所述根节点的子节点中,以及所述根节点的兄弟节点的子节点中。12.根据权利要求7所述的字符的转换装置,其特征在于,所述装置还包括: 第三确定模块,用于确定标准词库中每对拼音的首字母,其中,每组拼音至少包括一个 拼音,每对拼音至少包括两组拼音,一组拼音对应一个汉字,一对拼音对应一个词语; 第三添加模块,用于根据首字母的顺序将所述标准词库中每对拼音的首组拼音添加到 所述三叉搜索树的根节点和所述根节点的兄弟节点中; 第四添加模块,用于将所述标准词库中每对拼音的非首组拼音和每对拼音对应的词语 添加到所述三叉搜索树的所述根节点的子节点中,以及所述根节点的兄弟节点的子节点 中。
【文档编号】G06F17/30GK105955986SQ201610243297
【公开日】2016年9月21日
【申请日】2016年4月18日
【发明人】谢晓静
【申请人】乐视控股(北京)有限公司, 乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1