汉字查询方法和系统的制作方法

文档序号:9350102阅读:530来源:国知局
汉字查询方法和系统的制作方法
【技术领域】
[0001]本发明涉及信息搜索技术领域,尤其涉及一种汉字查询方法和系统。
【背景技术】
[0002]汉字的字型结构和字根组合是传统汉语学习和文字游戏中的重要参与元素。互联网搜索引擎出现后,文字输入方式是用户获取信息的主要方式,当用户遇到生僻字时用户可能根据字根和结构特征进行输入,比如“三个火念什么”,“两点水一个马念什么”,“ 口里一个女字猜一字”。另外,用户还会经常查询“五行属木的字”,“带有犬字的字有哪些”等。
[0003]现在技术中对这类查询依然采用的是通用的搜索方式,向用户提供的是自然搜索结果,但是,自然搜索结果不论在准确度以及覆盖度等方面都存在问题,难以很好满足用户需求。

【发明内容】

[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本发明的一个目的在于提出一种汉字查询方法,该方法可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
[0006]本发明的另一个目的在于提出一种汉字查询系统。
[0007]为达到上述目的,本发明第一方面实施例提出的汉字查询方法,包括:获取查询词,所述查询词中包含待查询的汉字的结构类信息;将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息;根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字;将确定的汉字作为查询结果展示给用户。
[0008]本发明第一方面实施例提出的汉字查询方法,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
[0009]为达到上述目的,本发明第二方面实施例提出的汉字查询系统,包括:获取模块,用于获取查询词,所述查询词中包含待查询的汉字的结构类信息;转换模块,用于将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息;查询模块,用于根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字;展示模块,用于将确定的汉字作为查询结果展示给用户。
[0010]本发明第二方面实施例提出的汉字查询系统,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
[0011]本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0013]图1是本发明一实施例提出的汉字查询方法的流程示意图;
[0014]图2是本发明另一实施例提出的汉字查询方法的流程示意图;
[0015]图3是本发明另一实施例提出的汉字查询系统的结构示意图;
[0016]图4是本发明另一实施例提出的汉字查询系统的结构示意图。
【具体实施方式】
[0017]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0018]图1是本发明一实施例提出的汉字查询方法的流程示意图,该方法包括:
[0019]Sll:获取查询词,所述查询词中包含待查询的汉字的结构类信息。
[0020]其中,用户可以以文本、语音或者图像等方式输入查询词(query)。
[0021]汉字的结构类信息例如待查询的汉字的字根、字型结构等信息,如查询词是:“三个火念什么”、“带有犬字的字有哪些”。
[0022]S12:将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息。
[0023]例如,预设格式的请求具有如下格式:{{字根1、字根I的结构位置、字根I的数量}、{字根2、字根2的结构位置、字根2的数量}、…}。
[0024]当获取到查询词后,可以从查询词中提取字根和数量以及字型结构信息,再根据这些信息组成上述格式。
[0025]例如,查询词是“上X下Y(X和Y都是字根)”,则可以转换为:{{X、上、1}、{Y、下、
I}}。
[0026]S13:根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字。
[0027]其中,汉字的结构类信息例如包括:汉字的字根和字型结构。
[0028]汉字与汉字的结构类信息之间的对应关系可以根据预先收集的样本汉字确定。例如,预先收集大量的汉字作为样本汉字,对应每个样本汉字进行拆分得到字根,并确定字型结构,之后可以建立该样本汉字与其字根、字型结构之间的对应关系,其余样本汉字也可以采用相同的方式建立相应的对应关系,从而多个样本汉字可以组成汉字与汉字的结构类信息之间的对应关系。
[0029]在获取该对应关系后,可以匹配三元组信息与对应关系中的结构类信息,从而确定出相应的汉字。例如,该对应关系中包括:汉字A对应汉字A的结构类信息(汉字A的字根和字型结构)、汉字B对应汉字B的结构类信息(汉字B的字根和字型结构)等,如果三元组信息与汉字A的结构类信息一致(或部分一致),则可以确定与该三元组信息对应的汉字是汉字A。
[0030]S14:将确定出的汉字作为查询结果展示给用户。
[0031]例如,将汉字A展示给用户。
[0032]另外,用户可能不知道汉字怎么读,因此还可能需要拼音,因此,在确定汉字后,还可以获取汉字的拼音,并在展示汉字的同时将汉字的拼音也作为查询结果一起展示。在获取汉字的拼音时,例如还可以建立汉字与拼音的对应关系,从而根据汉字获取相应的拼音。
[0033]例如,查询词是“三个火念什么”,返回的查询结果是“炎[ydm]”,可以理解的是,还可以返回其他信息,如字义。
[0034]本实施例中,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
[0035]图2是本发明另一实施例提出的汉字查询方法的流程示意图,该方法包括:
[0036]S21:收集样本汉字。
[0037]例如,可以收集大量的汉字作为样本汉字,以提高覆盖率。
[0038]S22:获取样本汉字的字根和字型结构。
[0039]其中,每个字根是可打印可输入的独立汉字。
[0040]在拆分时,可以将样本汉字按照每个基本单元直接拆分为每个字根。例如,“赢”拆分为“亡、口、月、贝、凡”。
[0041]如果基本单元不能作为独立汉字,则可以对基本单元进行同义替换,用同义的汉字作为字根。例如,“衷”字拆分为“1、中、衣”,“衣”属于同义替换。
[0042]另外,同一个汉字可以采用不同的拆分方式,从而得到不同的字根。例如,“想”字,可以拆分为“相、心”,也可以拆分为“木、目、心”。相应地,在后续流程记录对应关系时,同一个汉字可以对应多种字根。
[0043]另外,还可以确定汉字的字型结构,字型结构例如包括:左右结构(包括左中右)、上下结构(包括上中下)、包围结构(包括半包围)、独立结构(包括嵌套结构)。
[0044]S23:将多个样本汉字与样本汉字的字根和字型结构之间的对应关系组成汉字与汉字的结构类信息之间的对应关系。之后,可以将该对应关系保存在特征库中。
[0045]其中,多个样本汉字与其结构类信息可以组成一个集合,该集合可以称为汉字与汉字的结构类信息之间的对应关系
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1