一种信息处理方法及装置制造方法

文档序号:6491257阅读:166来源:国知局
一种信息处理方法及装置制造方法
【专利摘要】本发明实施例公开了一种信息处理方法及装置,用于据用户输入的汉语拼音在大容量词库中快速查询到该拼音对应的词语。本发明实施例方法包括:根据拼音音节及拼音ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量,接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列,在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语,输出查找到的词语。
【专利说明】一种信息处理方法及装置
【技术领域】
[0001]本发明涉及通信【技术领域】,尤其涉及一种信息处理方法及装置。
【背景技术】
[0002]随着计算机硬件性能的不断提升和软件智能性的不断提高,人们越来越期望计算机能够提供更加自然的人机交互方式,例如:(1)提供更加智能的汉语输入法;(2)提供更加精确的语音识别功能。而这些交互方式的实现,底层都需要有大而全的拼音词库的支持,所以,大规模拼音词库的查询效率直接影响着上述人机交互软件的执行速度,从而也就决定了它们的优劣。以拼音输入法为例,毫无疑问,准确和快速是它的生命线,为了提高准确率,目前的输入法系统都采用了超大规模的词库,用户进行输入时,程序需要根据输入的拼音进行大频繁的词库查询,从而提供准确的候选词语。
[0003]现有技术中,现有的拼音词库系统大都使用基于拼音和词长分组的存储查询方法,即对词库按照词长和词语的前N个拼音进行了索引,对于给定的一个拼音串,先获取其前N个音节及词长,到词库中对应词长的拼音分组表,找到该音节对应的分组,遍历该分组中的所有词语,返回拼音与要查找的拼音串相匹配的词语。
[0004]但在上述现有技术中,词库查询效率低,需要遍历同一分组中的所有词语,且词库扩容性能较差,当词库不断增大时,查询耗时将成倍增加,导致软件无法正常工作。

【发明内容】

[0005]本发明实施例提供了一种信息处理方法及装置,用以实现在拼音词库中,根据用户输入的拼音字符快速查找对应的词语。
[0006]本发明实施例提供的信息处理方法,包括:根据拼音音节及拼音身份标识号码ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量;接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语;输出查找到的词语。
[0007]优选地,所述根据拼音音节及拼音ID的对应关系生成双数组字典树之前包括:设置拼音ID与拼音音节的对应关系。
[0008]进一步地,所述在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语包括:从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语;若所述拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。
[0009]进一步地,所述从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语之后包括:若所述拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等;若是,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。
[0010]进一步地,所述接收需要查询的拼音ID串之前包括:将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。
[0011]本发明实施例提供的信息处理装置,包括:生成单元,根据拼音音节及拼音身份标识号码ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量;接收单元,用于接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;查找单元,用于在拼音词库中根据所述双数组字典树查找所述接收单元接收的所述拼音ID串对应的词语;输出单元,用于输出所述查找单元查找到的词语。
[0012]优选地,所述装置还包括:设置单元,用于设置拼音ID与拼音音节的对应关系。
[0013]进一步地,所述查找单元,还用于从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语;
[0014]所述输出单元,还用于若所述拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。
[0015]进一步地,所述装置还包括:判断单元,用于若所述拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等;
[0016]所述查找单元,还用于若是,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。
[0017]进一步地,所述装置还包括:转换单元,用于将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。
[0018]从以上技术方案可以看出,本发明实施例具有以下优点:由于根据拼音音节及拼音ID生成双数组字典树,在查找用户需要查找的拼音字符时,可以根据拼音音节在双数组字典树中的一个分支上进行查找,而不需要遍历拼音分组中的所有词语,查询工作量小,查询速度更快。
【专利附图】

【附图说明】
[0019]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为汉字的词组字典树示意图;
[0021]图2为本发明实施例中的信息处理方法的一个实施例示意图;
[0022]图3为本发明实施例中的信息处理方法的另一个实施例示意图;
[0023]图4为本发明实施例中生成双数组字典树结构的一个实例示意图;
[0024]图5为本发明实施例中的信息处理方法中查询词语流程图;
[0025]图6为本发明实施例中的信息处理方法的一个实例示意图;
[0026]图7为本发明实施例中的信息处理装置的一个实施例示意图;
[0027]图8为本发明实施例中的信息处理装置的另一个实施例示意图。【具体实施方式】
[0028]下面结合附图和具体实施例进一步说明本发明实施例的技术方案,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029]本发明实施例提供了一种信息处理方法及装置,用于根据用户输入的汉语拼音在大容量词库中快速查询到该拼音对应的词或词组。
[0030]Trie树是搜索树的一种,可以建立有效的数据检索组织结构,实现词库中的查找词语的算法。它本质上是一个确定的有限状态自动机(DFA, Deterministic FiniteAutomaton),每个节点代表自动机的一个状态。在词典中这种状态包括“词前缀”,“已成词”
坐寸ο
[0031]双数组字典树(Double Array Trie)是trie树的一个简单而有效的实现,由两个整数数组构成,设数组下标为i,i为大于等于I的整数,则双数组的一个数组是基值数组base[i],另一个数组是校验数组check [i],其各分支就是从某个状态遇到特定字符后到达另一个状态的一个状态转换。如,对于状态s遇到字符c到达状态t的一个状态转换,在双数组中有:
[0032]check [base [s]+c] =S
[0033]base [s] +c=t
[0034]本实施例中,词库查询的目的是根据给定的已切分拼音,提供相应的词语候选。首先要做的就是给词库加上字典树索引。字典树的分支以音节为单位,音节是读音的基本单位,为读音中不可再切分的最小单位。假设现在词库只有三个词:中国、中国人、和谐。为该词库建立的字典树索引如图1所示。为了避免出现某个词是另一个词的前缀,如“中国”之于“中国人”,我们给每个词语加入一个结束符“ $ ”。这样,每一个有词语数据的节点都是单独的叶节点。由于字典树每个节点的各个分支都是唯一的,查找时只需要根据分支依次查找,查找比较次数为词语的长度。如果找到某个音节没有分支则表示词库中没有该词。
[0035]下面介绍本发明实施例中的信息处理方法,请参阅图2,本发明实施例中的信息处理方法的一个实施例包括:
[0036]101、根据拼音音节及拼音ID的对应关系生成双数组字典树,所述双数组字典树包括基值数组和校验数组;
[0037]本发明实施例中,根据词库中拼音音节及拼音身份标识号码(ID,IDentity)的对应关系生成的双数组字典树,该双数组字典树的基值(base)数组和校验(check)数组的元素是一一对应的,基值数组中的每一个元素相当于双数组字典树的一个节点,其值用作状态转移的基值,校验数组中相应位置的值相当于校验值,用于检验转移后的状态是否存在。
[0038]双数组字典树中的状态转移量,从一个状态转移到另一个状态的偏移量,即从一个节点转移到下一个节点的偏移量。状态转移量根据双数组字典树的实际需要确定。本实施例中,拼音ID即为双数组字典树的状态转移量。
[0039]102、接收需要查找的拼音ID串;
[0040]该拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;
[0041]103、在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语;[0042]在拼音词库中包括词语列表和所述双数组字典树,根据需要查找的拼音ID串,在拼音词库中利用所述双数组字典树中查找词语列表中该拼音ID串对应的词语,所查找到的词语可能是一个字构成的单词,也可能是两个字以上组成的词语。
[0043]104、输出查找到的词语。
[0044]通过外设设备输出查找到的词语。
[0045]本发明实施例中,由于根据拼音音节及拼音ID生成双数组字典树,在查找用户需要查找的拼音字符时,可以根据拼音音节在双数组字典树中的一个分支上进行查找,而不需要遍历拼音分组中的所有词语,查询工作量小,查询速度更快,并且,需要扩容词库时,由于在此种结构的双数组字典树基础上添加音节及对应的词语较易操作,因此词库扩容工作简单效率高。
[0046]为便于理解,下面以另一实施例详细描述本发明实施例中的信息处理方法,请参阅图3,本发明实施例中的信息处理方法的另一个实施例包括:
[0047]201、设置拼音音节与拼音ID的对应关系;
[0048]设置拼音ID与拼音音节的对应关系,拼音ID即为双数组字典树的状态转移量。
[0049]需要说明的是,由于对于状态s遇到字符c (本实施例中,c即为拼音ID)到达状态t的一个状态转换,在双数组字典树中有:
[0050]check [base [s]+c] =S
[0051]base [s] +c=t
[0052]那么,对于base[s]的选取,则根据系统查询词典具体情况选取,base[s]过大可能会造成base数组过于稀疏,base[s]过小可能会造成碰撞较多,其中碰撞是指执行next [base [s]+c]=t后,base [base [s]+c]不为空,这是需要重新选取base[s],当发生碰撞时,要选择合适的base [s]使得以这个状态为当前状态的所有下一状态都能找到base中的空位子。本发明实施例中,以base[s] = I为例,具体base[s]的选取根据实际应用过程选取,此处不作具体限定。
[0053]请参阅图4,本实施例中的双数组字典树,采用拼音ID表示拼音音节,该拼音ID为一个整数,依然参照前例,拼音ID与拼音音节具有下列对应关系:
[0054]1:结束符 “$,,, 2:zhong, 3:guo, 4:ren, 5:he, 6:xie。
[0055]那么,前述图1所示实例所生成的双数组字典树结构如图4所示。
[0056]202、根据拼音音节及拼音ID的对应关系生成双数组字典树,所述双数组字典树包括基值数组和校验数组;
[0057]由于双数组字典树的base[s]和c的值已确定,根据拼音音节及拼音ID的对应关系可生成双数组字典树,其中,双数组中校验数组首个元素,即check[0],表示双数组的元素个数,基值数组首个元素,即base [O],SDAT为数据块的标识,其数值为ASCII编码的字符串“SDAT”,共4个字符,占用4个字节。当双数组的基值数组元素首个比特位为O时表示基值,为I时表示一个词语组,接下来的22位为该组首个词语在词语列表中的状态转移量,最后的9位可以表示该组的词组数。
[0058]词语列表的首个元素,表示该词语列表的元素个数,该数据结构可支持400多万(222-1 )个词语,同音词数最大可达511 (29-1)个。
[0059]按照前述步骤201中的例子,所生成的双数组字典树为图4所示,PG_1、PG_2及PG_3为每个分支的叶子节点所表示的词语。
[0060]203、将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串;
[0061]通过外设设备接收用户输入的拼音字符,该外设设备可以为键盘、触摸屏、语音输入装置等。将所述拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。
[0062]204、接收需要查找的拼音ID串;
[0063]所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列。例如,参照前述步骤201中拼音ID与拼音音节的对应关系,若用户输入的拼音字符为hexie,则切分后对应的拼音ID为5、6,那么,组成的拼音ID串为561,其中I代表结束符“$”。
[0064]205、从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语;
[0065]例如,需要查找的拼音ID串为561,则按照前述图4所示双数组字典树,分别按照
5、6、1,以及在基值数组中对应的的值查找拼音ID串“561”对应的词语,获得的词语可能为“和谐”或“河蟹”,由用户根据输出结果选择所需词语。
[0066]206、所述需要查找的拼音ID串中的拼音ID对应的是结束符,且所述双数组trie的当前base数组元素首个比特位为1,则输出当前查找到的词语;
[0067]当拼音需要查找的拼音ID串中的ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则表明当前查找到的结果是一个词语组,输出该词语组中包含的词语。
[0068]207、若所述拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等;
[0069]若所述拼音ID对应的不是结束符,表明当前查找并未结束,通过校验数组的当前校验值判断当前查找是否正确,具体是判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等,例如,参照前述步骤201中图4所示双数组字典树,校验数组中第5个值为“3”,对应的节点编号为4,上一个节点,即其转移状态前的节点编号为“3”,则当前查找方向正确,再如,校验数组中第8个值为“6”,对应的节点编号为7,上一个节点,即其转移状态前的节点编号为“3”,则当前查找方向正确,反之则不正确。
[0070]208、若当前校验数组的值与当前查找节点序列中转移状态前的节点的编号相等,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。
[0071]若当前校验数组的值与当前查找节点序列中转移状态前的节点的编号不相等,则说明双数组字典树中不存在此分支,即该拼音对应的词语不存在。
[0072]具体地,请参阅图5,从双数组字典树的根节点i开始,i为根节点编号,本例中,i=lo根据要查询的拼音音节,跳转到编号为j的节点,j = base[i]+c,其中,c为状态转移量,即拼音ID,判断拼音ID是否为1,拼音ID中“I”对应结束符,即判断状态转移量c是否为结束符,若c是结束符,则判断当前基值数组首位字符是否为1,若是,则表示查找到匹配的词语,输出此时词语;若否,则表示未查找到匹配的词语,若c不是结束符,则判断当前校验数组的值是否与当前查询节点的上一个节点编号相等,即判断check[j]是否等于i,若否,则说明双数组字典树中不存在此分支,即该拼音对应的词语不存在,若是,则继续向下查询下个音节,直至查询到C为结束符,并且当前基值数组首位字符为1,则表示查找到匹配的词语。
[0073]为便于理解,下面以在词库中查找“zhongguo”为例详细描述本发明实施例中的信息处理方法,请参阅图6,双数组字典树仍以前述示例为例,以base=l为基础,第一次状态转移量为2,继续以base=l为基础,第二次状态转移量为3,继续以base=l为基础,第三次状态转移量为I,状态转移量为I对应结束符,且在check数组中,check [4] =3,此时可判断已查询到“zhongguo”,从词语列表中输出“中国”、“中过”、“种过”,以供用户选择。
[0074]需要说明的是,本发明实施例中的信息处理方法,可以应用于语音识别系统、拼音输入法执行模块中,可提高处理信息的速度,并且,本发明实施例中的信息处理方法可应用于所有依赖大规模词库的信息技术产品,提高产品的信息处理效率。
[0075]本发明实施例中,设置拼音音节及拼音ID的对应关系生成双数组字典树,从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语,当该拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首位比特位为1,则输出当前查找到的词语,提高在大容量拼音词库中的查询词组速度。需要扩容词库时,由于在此种结构的双数组字典树基础上添加音节及对应的词语较易操作,因此词库扩容工作简单效率高。
[0076]下面介绍本发明实施例中的信息处理装置,请参阅图7,本发明实施例中的数据处理装置的一个实施例包括:
[0077]生成单元301,用于根据拼音音节及拼音ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量;
[0078]接收单元302,用于接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;
[0079]查找单元303,用于在拼音词库中根据所述双数组字典树查找所述接收单元302接收的所述拼音ID串对应的词语;
[0080]输出单元304,用于输出所述查找单元303查找到的词语。
[0081]本发明实施例中的信息处理装置中各单元实现功能的具体过程,请见前述图2所示实施例中的各步骤具体描述内容,此处不再赘述。
[0082]本发明实施例中,由于根据拼音音节及拼音ID生成双数组字典树,在查找用户需要查找的拼音字符时,可以根据拼音音节在双数组字典树中的一个分支上进行查找,而不需要遍历拼音分组中的所有词语,查询工作量小,查询速度更快,并且,需要扩容词库时,由于在此种结构的双数组字典树基础上添加音节及对应的词语较易操作,因此词库扩容工作简单效率高。
[0083]为便于理解,下面以另一实施例详细描述本发明实施例中的信息处理装置,请参阅图8,本发明实施例中的信息处理装置的另一个实施例包括:
[0084]生成单元401,用于根据拼音音节及拼音ID身份标识号码的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量;
[0085]接收单元402,用于接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列;
[0086]查找单元403,用于在拼音词库中根据所述双数组字典树查找所述接收单元402接收的所述拼音ID串对应的词语;
[0087]输出单元404,用于输出所述查找单元403查找到的词语。
[0088]需要说明的是,本发明实施例中的信息处理装置还可以进一步包括:
[0089]设置单元405,用于设置拼音ID与拼音音节的对应关系。
[0090]进一步地,查找单元403,还用于从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语;
[0091]输出单元404,还用于若所述需要查找的拼音ID串中的拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。
[0092]本发明实施例中的信息处理装置还可以进一步包括:
[0093]判断单元406,用于若所述拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等;
[0094]进一步地,查找单元403,还用于若当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号相等,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。
[0095]本发明实施例中的信息处理装置还可以进一步包括:
[0096]转换单元407,用于将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。
[0097]本发明实施例中的信息处理装置中各单元实现功能的具体过程,请见前述图2及图3所示实施例中的各步骤具体描述内容,此处不再赘述。
[0098]本发明实施例中,设置拼音音节及拼音ID的对应关系生成双数组字典树,从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语,当该拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首位比特位为1,则输出当前查找到的词语,提高在大容量拼音词库中的查询词组速度。需要扩容词库时,由于在此种结构的双数组字典树基础上添加音节及对应的词语较易操作,因此词库扩容工作简单效率高。
[0099]本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0100]以上对本发明所提供的一种信息处理方法及装置进行了详细介绍,对于本领域的技术人员,依据本发明实施例的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种信息处理方法,其特征在于,包括: 根据拼音音节及拼音身份标识号码ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量; 接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列; 在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语; 输出查找到的词语。
2.根据权利要求1所述的方法,其特征在于,所述根据拼音音节及拼音ID的对应关系生成双数组字典树之前包括: 设置所述拼音ID与所述拼音音节的对应关系。
3.根据权利要求1或2所述的方法,其特征在于,所述在拼音词库中根据所述双数组字典树查找所述拼音ID串对应的词语包括: 从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语; 若所述需要查找的拼音ID串中的拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。
4.根据权利要求3 所述的方法,其特征在于,所述从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语之后包括: 若所述需要查找的拼音ID串中的拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等; 若是,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。
5.根据权利要求1所述的方法,其特征在于,所述接收需要查询的拼音ID串之前包括: 将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。
6.一种信息处理装置,其特征在于,包括: 生成单元,根据拼音音节及拼音身份标识号码ID的对应关系生成双数组字典树,所述双数组字典树包括:基值数组和校验数组,所述拼音ID为所述双数组字典树的状态转移量; 接收单元,用于接收需要查找的拼音ID串,所述拼音ID串为用户输入的拼音字符切分后对应的拼音ID构成的序列; 查找单元,用于在拼音词库中根据所述双数组字典树查找所述接收单元接收的所述拼音ID串对应的词语; 输出单元,用于输出所述查找单元查找到的词语。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括: 设置单元,用于设置所述拼音ID与所述拼音音节的对应关系。
8.根据权利要求6或7所述的装置,其特征在于, 所述查找单元,还用于从所述双数组字典树的根节点开始,按照所述需要查找的拼音ID串中的拼音ID和所述基值数组的值查找所述拼音ID串对应的词语; 所述输出单元,还用于若所述需要查找的拼音ID串中的拼音ID对应的是结束符,且所述双数组字典树的当前基值数组元素首个比特位为1,则输出当前查找到的词语。
9.根据权利要求8所述的装置,其特征在于, 所述装置还包括: 判断单元,用于若所述需要查找的拼音ID串中的拼音ID对应的不是结束符,则判断当前校验数组的值是否与当前查找节点序列中转移状态前的节点的编号是否相等; 所述查找单元,还用于若是,则按照所述需要查找的拼音ID串中的下一个拼音ID和当前基值数组的值之和继续查找下一个节点。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括: 转换单元,用于将所述用户输入的拼音字符切分为音节,并将所述音节顺序连接为所述拼音ID串。`
【文档编号】G06F17/30GK103823814SQ201210468061
【公开日】2014年5月28日 申请日期:2012年11月19日 优先权日:2012年11月19日
【发明者】李鑫, 李东华, 刘廷超 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1