基于笔画输入进行搜索的方法及装置制造方法

文档序号:6623033阅读:202来源:国知局
基于笔画输入进行搜索的方法及装置制造方法
【专利摘要】本申请公开了基于笔画输入进行搜索的方法及装置,所述方法包括提取出搜索词中每个字符的首笔画标识,按照搜索词中每个字符的排列顺序,将每个字符的首笔画标识组成所述搜索词的首笔画标识;将所有搜索词中首笔画标识的前缀相同的搜索词分为一搜索组,所述前缀为该搜索组的首笔画标识;其中,所述前缀包括至少一字符的首笔画标识;根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词;提取待搜索的首笔画标识,在所述字典树中查找到与待搜索的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。本申请简化用户输入步骤、提高输入效率和提高搜索准确性。
【专利说明】基于笔画输入进行搜索的方法及装置

【技术领域】
[0001]本申请涉及人机交互【技术领域】,具体涉及一种基于笔画输入进行搜索的方法及装置。

【背景技术】
[0002]传统电视和互联网的结合造就了智能电视的产生。智能电视具有主控芯片和全开放式软件平台,搭载了操作系统,可以自行安装和卸载软件、游戏等第三方服务商提供的程序,通过此类程序来不断对电视的功能进行扩充,并可以通过网线、无线网络来实现上网冲浪,从而实现电视的“需求定制化”、“电视娱乐化”。
[0003]相比于传统电视,智能电视由于具备了上网功能,实时接入互联网,可以在线网络游戏、在线音乐欣赏、适时天气查询、适时股票查询、新闻快报等;而在进行上述查询时,需要输入搜索词完成搜索,而目前的智能电视的输入系统主要是拼音输入、手写板输入等等,一方面输入的信息的复杂性较大,为输入本身带来了不便;另一方面,智能电视的输入设备主要是遥控器,使用遥控器进行上述较为复杂输入的难度可想而知。
[0004]而对于智能电视支持的可选输入方式一般是拼音输入、手写板输入。对于拼音输入这种方式,要求对于拼音拼写的掌握具有一定基础才可以使用,而对于讲南方方言的用户,本身掌握拼音存在困难,使用拼音输入就不是很方便,而对于港澳台地区的用户,往往完全没有拼音基础,使用拼音输入就变得更加困难;而对于手写板输入,往往需要用户写出完整的文字才可以进行识别,输入的难度和复杂度较高,而且识别本身也存在较大的误差,进一步增加了输入的难度;而且对于港澳台地区的用户,其平时使用的文字是繁体字,这样就还需要增加系统识别繁体字的功能,进一步增加了系统设计的难度。
[0005]因此,如何提供简化用户输入步骤、提高输入效率和提高搜索准确性就成为了亟待解决的技术问题。


【发明内容】

[0006]本申请所要解决的技术问题在于提供一种基于笔画输入进行搜索的方法及装置,简化用户输入步骤、提高输入效率和提高搜索准确性,进一步提升搜索效果与用户体验。
[0007]为了解决上述问题,本申请揭示了基于笔画输入进行搜索的方法,包括:提取出搜索词中每个字符的首笔画标识,按照搜索词中每个字符的排列顺序,将每个字符的首笔画标识组成所述搜索词的首笔画标识;将所有搜索词中首笔画标识的前缀相同的搜索词分为一个搜索组,所述前缀为该搜索组的首笔画标识;其中,所述前缀包括至少一个字符的首笔画标识;根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词;提取待搜索的首笔画标识,在所述字典树中查找到与待搜索的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
[0008]进一步地,根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词,包括:建立含有多个子树的字典树,根据任一搜索组的首笔画标识中每个字符的首笔画标识的排列顺序,将每个字符的首笔画标识依次设置在同一个子树的相应结点上,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,从同一个子树的根结点到后续任一结点所依次经历的全部结点组成一个首笔画标识,所述后续任一结点存放与所组成的首笔画标识对应的搜索组中热度值最高的若干搜索词。
[0009]进一步地,根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词,包括:建立含有多个子树的字典树,所述子树的结点存放每个搜索组的首笔画标识以及与所述首笔画标识对应的搜索组中热度值最高的若干搜索词,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,父节点存放的首笔画标识为子节点存放的首笔画标识的前缀。
[0010]进一步地,提取出搜索词中每个字符的首笔画标识,包括:当所述字符为数字和/或字母时,所述字符的首笔画标识为所述数字和/或字母本身;当所述字符为汉字时,所提取的字符的首笔画为所述汉字的首笔画,根据预先建立的笔画和首笔画标识的对应关系,确定所述汉字的首笔画对应的首笔画标识。
[0011]进一步地,提取待搜索的首笔画标识,包括:提供一交互平台,所述交互平台具有笔画、数字和/或字母的输入入口 ;接收通过所述交互平台依次输入的笔画、数字和/或字母,并获得所述输入的笔画、数字和/或字母对应的首笔画标识,依次将所得到的首笔画标识进行组合,得到待搜索的首笔画标识。
[0012]进一步地,周期或者实时依据每个搜索组内的搜索词的热度值对搜索词进行排序;周期或者实时更新在所述结点存放的与所述首笔画标识对应的搜索组中热度值最高的若干搜索词。
[0013]进一步地,输出在所述结点处存放的若干搜索词之后,还包括:针对在所述结点处存放的若干搜索词中的每一个,还设置有对应的一组搜索结果,该组搜索结果中包括若干视频资源,所述若干视频资源的名称均包含对应的搜索词;接收对所输出的搜索词的触发,调取与所触发的搜索词对应的一组搜索结果,输出该组搜索结果中的视频资源。
[0014]进一步地,输出在所述结点处存放的若干搜索词,还包括:将通过所述交互平台依次输入的笔画、数字和/或字母,与在所述结点处存放的搜索词一并进行输出;输出在所述结点处存放的若干搜索词之后,还包括:接收对通过所述交互平台依次输入的笔画、数字和/或字母的触发,获取通过所述交互平台依次输入的笔画、数字和/或字母的首笔画标识,调取与所述笔画、数字和/或字母的首笔画标识对应的搜索组,输出该搜索组中的每个搜索词。
[0015]为了解决上述问题,本申请还揭示了基于笔画输入进行搜索的装置,包括:提取模块,用于提取出搜索词中每个字符的首笔画标识,按照搜索词中每个字符的排列顺序,将每个字符的首笔画标识组成所述搜索词的首笔画标识;分组模块,用于将所有搜索词中首笔画标识的前缀相同的搜索词分为一个搜索组,所述前缀为该搜索组的首笔画标识;其中,所述前缀包括至少一个字符的首笔画标识;构建模块,用于根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词;搜索模块,用于提取输入的首笔画标识,在所述字典树中查找到与输入的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
[0016]进一步地,所述构建模块,用于建立含有多个子树的字典树,根据任一搜索组的首笔画标识中每个字符的首笔画标识的排列顺序,将每个字符的首笔画标识依次设置在同一个子树的相应结点上,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,从同一个子树的根结点到后续任一结点所依次经历的全部结点组成一个首笔画标识,所述后续任一结点存放与所组成的首笔画标识对应的搜索组中热度值最高的若干搜索词。
[0017]进一步地,所述构建模块,用于建立含有多个子树的字典树,所述子树的结点存放每个搜索组的首笔画标识以及与所述首笔画标识对应的搜索组中热度值最高的若干搜索词,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,父节点存放的首笔画标识为子节点存放的首笔画标识的前缀。
[0018]进一步地,所述提取模块,包括:提取单元,用于当所述字符为数字和/或字母时,所述字符的首笔画标识为所述数字和/或字母本身;当所述字符为汉字时,所提取的字符的首笔画为所述汉字的首笔画;映射单元,用于根据预先建立的笔画和首笔画标识的对应关系,确定所述汉字的首笔画对应的首笔画标识。
[0019]进一步地,所述搜索模块,包括:交互平台,具有笔画、数字和/或字母的输入入口 ;组合单元,用于接收通过所述交互平台依次输入的笔画、数字和/或字母,并获得所述输入的笔画、数字和/或字母对应的首笔画标识,依次将所得到的首笔画标识进行组合,得到待搜索的首笔画标识;检索单元,用于在所述字典树中查找到与待搜索的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
[0020]进一步地,所述分组模块,还用于实时依据每个搜索组内的搜索词的热度值对搜索词进行排序;所述构建模块,还用于期或者实时更新在所述结点存放的与所述首笔画标识对应的搜索组中热度值最高的若干搜索词。
[0021]与现有技术相比,本申请可以获得包括以下技术效果:
[0022]I)用户通过遥控器等输入设备输入首笔画,可以是直接在遥控器等输入设备上设置专门的笔画按键,也可以是在显示屏幕上显示笔画选项,通过操纵遥控器或者其他方式来选择确认。因为输入的是首笔画,每个字只需要输入一笔,输入难度大大降低,而且采集到的笔画一共就是5-6种,远远小于拼音字母的数量,这也大大降低了输入的难度。
[0023]2)收集的搜索词有可能在不停的变化中,可能会随时新增搜索词;另外,现有搜索词的热度也是随着用户的搜索状况在不断变化的,本申请支持对搜索词和分组情况以及组内排序进行不断的更新,也即对字典树进行更新。
[0024]3)支持用户通过操作选中目标搜索词进行下一步的搜索,在收到用户触发的目标搜索词后,就会调取于目标所搜词对应的倒排索引,这个倒排索引中的视频资源就是搜索结果,当然,这里也可以将倒排索引中的视频资源按热度值排序,在显示时按热度值得高低顺序将视频资源全部显示,或者只显示热度值高的若干视频资源。
[0025]4)当没有用户的目标搜索词时,说明仅显示搜索热词是不足够的,支持用户进一步触发所显示的首笔画代码,从而显示更多的搜索词。
[0026]当然,以上技术效果并不一定要同时达成。

【专利附图】

【附图说明】
[0027]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0028]图1为本申请实施例一的方法流程示意图;
[0029]图2a为本申请实施例的字典树的示意图;
[0030]图2b为本申请实施例的字典树的又一示意图;
[0031]图3为本申请实施例二的方法流程示意图;
[0032]图4为本申请实施例二的方法流程不意图;
[0033]图5为本申请实施例四的方法流程示意图;
[0034]图6为本申请实施例五的装置示意图;
[0035]图7为本申请实施例六的装置示意图;
[0036]图8为本申请实施例七的装置示意图。

【具体实施方式】
[0037]以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
[0038]如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
[0039]还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
[0040]因此,本领域普通技术人员在本申请下述实施例的启发下,无须创造性劳动,即可将本申请的上述核心思想应用到其他外置音频输入输出设备与智能电视连接的场合,详细不再赘述。
[0041]实施例一
[0042]图1为本申请实施例一的方法流程示意图,包括:
[0043]S100,提取出搜索词中每个字符的首笔画标识,按照搜索词中每个字符的排列顺序,将每个字符的首笔画标识组成所述搜索词的首笔画标识。
[0044]第一步,对笔画符号进行配置。获取汉字中的所有笔画并进行分类,将相似的笔画分为一类,对同一类笔画设置统一的笔画符号,所述笔画符号为区别于所述数字和/或字母的任一标识。
[0045]下面用一个应用实例来解释第一步。例如,汉字的基本组成笔画包括五个:(横)“一”、(竖)“ I ”、(撇)“)”、(点)“、”、(折)“1”,可以形成不同的汉字。
[0046]为了减少输入的复杂度,优选的,将所有汉字的基本笔画划分为五类进行输入,为此,需要预先建立的笔画类别和首笔画标识的对应关系。
[0047]优选的,本实施例以将所有汉字的基本笔画划分为:“一”(横)、“|”(竖)、“ i ”(撇)、“、”(点)、“ι”(折)五类为例进行阐述。对于汉字的基本笔画,根据与“一”(横)、“ I ”(竖)”(撇)、“、”(点)、“1”(折)的相似度进行分类,得到五个笔画类别,并用五个笔画符号分别标识获得的五个笔画类别,所述笔画符号为区别于所述数字和/或字母的任一符号。
[0048]例如笔画符号“一”表示(横)“一”,笔画符号“I”表示的是(竖)“I”和(竖钩)“ j ”,笔画符号“\”表示的是(点)“、”和(捺)笔画符号“/”表示的是(撇)“ J ”,笔画符号“ ~ ”表示的是(横钩)“I”和(横折)“ Π ”、(撇折)“〈”等,当然,本申请并不限于以上划分方法。显然,这些笔画符号不同于所述数字和/或字母,而且这些笔画符号是键盘上的常用标识,一般键盘上都会有,对于采用遥控器或者键盘的用户,也非常易于输入,且机器可读。
[0049]第二步,提取任一搜索词中每个字符的首笔画,提取任一搜索词中每个字符的首笔画,当所述字符为数字和/或字母时,所述字符的首笔画标识为所述数字和/或字母本身;当所述字符为汉字时,所提取的字符的首笔画为所述汉字的首笔画,根据预先建立的笔画和首笔画标识的对应关系,确定所述汉字的首笔画对应的首笔画标识。
[0050]第三步,按照所述任一搜索词中每个字符的排列顺序将相应笔画和/或数字和/或字母对应的首笔画标识组成所述任一搜索词的首笔画标识,从而得到所有搜索词的首笔画标识。一般搜索词是从搜索日志中提取或从数据库中提取等。
[0051]下面用一个应用实例来解释第二步和第三步。
[0052]对于搜索词全是汉字的情况,如“三国演义”,分别提取每个字的首笔画为“一” “ j ” “、” “、”,根据预先建立的笔画和首笔画标识的对应关系,将所述首笔画映射为每个字相应的首笔画标识得到“一” “ I ” “\” “\”,再按照“三国演义”的顺序排列每个字的首笔画标识,就可以得到“三国演义”的首笔画标识“一 I \\”。
[0053]如“101次求婚”,分别提取每个字符的首笔画为“I” “O” “I” “、” “一” “ < ”,数字的首笔画标识就是“I” “O” “1”,根据预先建立的笔画和首笔画标识的对应关系,将所述汉字的首笔画“、” “一” “ < ”映射为每个汉字相应的首笔画标识得到“\” “一” 按照“101次求婚”的顺序排列数字和汉字的首笔画标识,就可以得到“101次求婚”的首笔画标识 “101\—~”。
[0054]还如“stb超级教师”,分别提取每个字的首笔画为“s”“t”“b”“一”“ < ”“一”“ I ”,字母的首笔画标识就是“s” “t” “b”,根据预先建立的笔画和首笔画标识的对应关系,将所述汉字的首笔画“一” “ < ” “一” “ I ”映射为每个汉字相应的首笔画标识得到“一” “一” “ I ”,并按照“Stb超级教师”的顺序排列数字和汉字的首笔画标识,就可以得到“stb超级教师”的首笔画标识“Stb—.'一 I ”。
[0055]通过类似这样的方式就可以将所有的搜索词都转化为首笔画标识,所述首笔画标识可以是汉字的首笔画标识、数字、字母中一种或多种的组合。
[0056]S102,将所有搜索词中首笔画标识的前缀相同的搜索词分为一个搜索组,所述前缀为该搜索组的首笔画标识;其中,所述前缀包括至少一个字符的首笔画标识。
[0057]所述首笔画标识的前缀相同,包括:搜索词的首笔画标识中第一个字符的首笔画标识相同、搜索词的首笔画标识中由第一个字符开始顺次排列在前的若干字符的首笔画标识相同;或者搜索词的首笔画标识相同。
[0058]下面用一个应用实例来解释本步骤。
[0059]例如,在步骤SlOO中,已经得到了所有搜索词的首笔画标识,并维护了一个搜索词到首笔画标识的映射库,如三国演义(首笔画标识“一|\\”)、三国演义电视剧(首笔画标识“一 I \\ I V”)、三国演义电影(首笔画标识“一 IW11 ”)、三生有幸(首笔画标识“一/ ”)、二心二意(首笔画标识“一/一\”)、二国(一 I)、天路(一 I)、转山(一 I)、雨果(—I)等。
[0060]在本步骤S102中,就可以结合映射库,对所有搜索词进行分组,并得到每个搜索组的首笔画标识,从而得到每个搜索组和其相应首笔画标识的数据表。
[0061]例如,根据“一”分得一个搜索组,包括:三国演义(首笔画标识“一 I \\”)、三国演义电视剧(首笔画标识“一 |\\|\~”)、三国演义电影(首笔画标识“一 |\\| I”)、三生有幸(首笔画标识“一/—”)、三心二意(首笔画标识“一/一\”)等,显然,这个搜索组内搜索词的首笔画标识,都具有相同的前缀“一”,因此这个搜索组的首笔画标识就是“一”。
[0062]再例如,根据“一I \\”分得一个搜索组,包括:三国演义(一 I \\)、三国演义电视剧(一|\\|\~)、三国演义电影(一|\\||)等,显然,这个搜索组内搜索词的首笔画标识,都具有相同的前缀“一 I \\”,因此这个搜索组的首笔画标识就是“一 I W”。
[0063]还例如,根据“一 I”分得一个搜索组,包括:三国(一 I)、天路(一 I)、转山(—I)、雨果(一I)等,显然,这个搜索组内搜索词的首笔画标识都是“一I”,因此这个搜索组的首笔画标识就是“一 I”。
[0064]通过上述操作就得到了每个搜索组的首笔画标识,另外,在得到若干搜索组后,还依据每个搜索组内搜索词的热度值对搜索词进行排序。这个热度值是搜索词在近一段时间内以及历史时期内的搜索次数或者播放次数,这样可以相对客观的认定每个搜索组中哪些为搜索热词,这些搜索热词排在每个搜索组的前列。这种搜索热词的排序一般要经常更新,周期或者实时依据每个搜索组内的搜索词的热度值对搜索词进行排序。
[0065]S104,根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词。
[0066]字典树的建立有两种实现方式。
[0067]I)建立含有多个子树的字典树,根据任一搜索组的首笔画标识中每个字符的首笔画标识的排列顺序,将每个字符的首笔画标识依次设置在同一个子树的相应结点上,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,从同一个子树的根结点到后续任一结点所依次经历的全部结点组成一个首笔画标识,所述后续任一结点存放与所组成的首笔画标识对应的搜索组中热度值最高的若干搜索词;
[0068]每个子树共用所述字典树的根结点,所述字典树的根结点上不配置任何首笔画标识。子树的根结点用于存放这些首笔画标识中第一个字符的首笔画标识,子树的其他不同深度的结点用于依次存放后续字符的首笔画标识。同一个子树中存放的若干搜索组相应的首笔画标识,这些首笔画标识中第一个字符的首笔画标识是相同的。这个子树中,每个结点必然会存放首笔画标识,但是这个结点与之前的结点依次连接得到的一个首笔画标识,这个首笔画标识不一定会对应到一个搜索组,因此对于这类结点,其存在的意思就是为了构建字典树,使子树的分支不中断,让后面连接的存放有若干搜索词的子结点能够被找到。
[0069]下面用一个应用实例来解释本步骤。
[0070]特别地,参见图2a所示。O为字典树的根结点,A为字典树包含的一个双叉子树的根结点,在这个子树的两个分支上,都存放着许多搜索组的首笔画标识,这些搜索组的首笔画标识中第一个字符的首笔画标识都是“一”,这个第一个字符的首笔画标识“一”就存放在根结点A上,A上也存放着步骤S102整理得到的数据表中首笔画标识为“一”的搜索组中热度值最高的若干搜索词。
[0071]在A-B-C-D这条分支上,比A深度稍高的B存放首笔画标识“ I ”,由根结点A出发到B就组成了首笔画标识“一 I ”,所以B还存放着与首笔画标识“一 I ”对应的搜索组中热度值最高的若干搜索词。
[0072]类似的,C存放首笔画标识“\”,由根结点A出发到C就组成了首笔画标识“一 I \”,所以C还存放着与首笔画标识“一 I\”对应的搜索组中热度值最高的若干搜索词。D存放首笔画标识“\”,由根结点A出发到D就组成了首笔画标识“一 I \\”,所以D还存放着与首笔画标识“一 I \\”对应的搜索组中热度值最高的若干搜索词。
[0073]2)建立含有多个子树的字典树,所述子树的结点存放每个搜索组的首笔画标识以及与所述首笔画标识对应的搜索组中热度值最高的若干搜索词,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,父节点存放的首笔画标识为子节点存放的首笔画标识的前缀。
[0074]每个子树共用所述字典树的根结点,所述字典树的根结点上不配置任何首笔画标识。每个子树,用来存储一类具有共同前缀的搜索组的首笔画标识,子树的根结点用于存放这个共同前缀。字典树中除去根结点,其他结点的总数和搜索组的总数是相等的。
[0075]下面用一个应用实例来解释本步骤。
[0076]特别地,参见图2b所示。O为字典树的根结点,A为字典树包含的一个双叉子树的根结点,在这个子树的两个分支上,都存放着许多搜索组的首笔画标识,其中有一个搜索组的首笔画标识是“一”,而其他搜索组的首笔画标识中第一个字符的首笔画标识都是“一”,因此那个搜索组的首笔画标识“一”就存放在根结点A上,A上也存放着步骤S102整理得到的数据表中首笔画标识为“一”的搜索组中热度值最高的若干搜索词。
[0077]还有三个搜索组的首笔画标识分别是“一 I ” “一 I \” “一 I \\”。对这三个搜索组来说,在A-B-C-D这条分支上,比A深度稍高的B存放首笔画标识“一 I ”,所以B还存放着与首笔画标识“一 I ”对应的搜索组中热度值最高的若干搜索词。
[0078]类似的,C存放首笔画标识“一 I \”,以及与首笔画标识“一 I \”对应的搜索组中热度值最高的若干搜索词。D存放首笔画标识“\”,以及与首笔画标识“一 I \\”对应的搜索组中热度值最高的若干搜索词。
[0079]无论是上述I)还是2)的情况,与首笔画标识对应的搜索组中的搜索词数量往往非常庞大,可能达到几十甚至几百个,而考虑智能电视等终端的显示空间的限制,同一时间内无法将所有的搜索词都显示出来,考虑不同的终端屏幕的显示面积,可以显示相应数量的搜索词,因此,一般会设置一个显示数量,例如10个或者20个,而为了更好地满足用户的搜索需求,往往这10到20个的显示空间用来显示搜索组中热度值最高的搜索热词。
[0080]为了保证搜索的准确性,如前所述,步骤S102会周期或者实时依据每个搜索组内的搜索词的热度值对搜索词进行排序;在本步骤S104中,周期或者实时更新在所述任一结点存放的与所述首笔画标识对应的搜索组中热度值最高的若干搜索词。
[0081]为了提高搜索的效率,字典树的根节点O下面的每一个子树分别存储以不同笔画标识开始的搜索组的笔画标识和搜索词。
[0082]S106,提取待搜索的首笔画标识,在所述字典树中查找到与待搜索的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
[0083]在实际应用中,可以提供一交互平台,所述交互平台具有笔画、数字和/或字母的输入入口 ;这里说的具有输入入口的笔画优选五个基本组成笔画,当然本申请并不限于此,也可以是所有的笔画;接收通过所述交互平台依次输入的笔画、数字和/或字母,并获得所述输入的笔画、数字和/或字母对应的首笔画标识,依次将所得到的首笔画标识进行组合,得到待搜索的首笔画标识。
[0084]交互平台一般可以是用户通过遥控器、触摸屏等输入设备输入笔画,可以是直接在遥控器等输入设备上设置专门的笔画按键,也可以是在显示屏幕上显示笔画选项,通过操纵遥控器或者体感手势、触摸等其他方式来选择确认。因为输入的是笔画,每个字只需要输入一笔,输入难度大大降低,而且输入的笔画可以归为五个基本组成笔画,远远小于拼音字母的数量,这也大大降低了输入的难度。
[0085]搜索字典项目的方法为:
[0086]对于I)的字典树,从子树的根结点开始,取得待搜索的首笔画标识中的第N个字符(N从I开始取,N大于等于I且小于等于的待搜索的首笔画标识中字符的个数),根据第N个字符从根结点开始查找各子树的结点,从所找到结点开始,根据第N+1个字符查找下级结点直到待搜索的首笔画标识的最后一个字符与一结点完全对应,则读取附在该最终结点上存放的若干搜索词,将若干搜索词输出即完成查找。
[0087]例如,从子树的根结点开始一次搜索,取得待搜索的首笔画标识中的第一个字符,并根据该第一个字符查找各子树的根结点,选择对应的子树并转到该子树继续进行检索;在相应的子树上,取得待搜索的首笔画标识中的第二个字符,并根据该第二个字符查找这个子树的根结点的子结点,选择子树的分支;后面再根据第三个字符、第四个字符……迭代查找,直到在某个结点处,待搜索的首笔画标识的所有字符都已被取出,则读取附在该最终结点上存放的若干搜索词,将若干搜索词输出即完成查找。
[0088]例如,参考图2a,用户希望查找“三国演义”,就输入首笔画为“一” “ I ” “、” “、”,
电视自动识别后构成首笔画标识“一 I \\”,首先根据“一”去字典树查询匹配,找到根结点A,从A出发,根据“ I ”去字典树查询匹配,找到A的下级结点B...直至找到结点D,调取在所述结点D处存放的若干搜索词进行显示。
[0089]对于2)的字典树,从子树的根结点开始,取得待搜索的首笔画标识中的前N个字符(N从I开始取,N大于等于I且小于等于的待搜索的首笔画标识中字符的个数),根据前N个字符从根结点开始查找各子树的结点,从所找到结点开始,根据前N+1个字符查找下级结点直到待搜索的首笔画标识的所有字符与一结点完全对应,则读取附在该最终结点上存放的若干搜索词,将若干搜索词输出即完成查找。
[0090]例如,从子树的根结点开始一次搜索,取得待搜索的首笔画标识中的第一个字符,并根据该第一个字符查找各子树的根结点,选择对应的子树并转到该子树继续进行检索;在相应的子树上,取得待搜索的首笔画标识中的前两个字符,并根据该前两个字符查找这个子树的根结点的子结点,选择子树的分支(如果找不到,就继续取前三个字符查找,以此类推,直到找到子树的分支);选择到分支后,后面再根据前三个字符……直到在某个结点处,待搜索的首笔画标识的所有字符与该结点完全对应,则读取附在该最终结点上存放的若干搜索词,将若干搜索词输出即完成查找。
[0091]例如,参考图2b,用户希望查找“三国演义”,就输入首笔画为“一”“ I ”“、,,‘‘、”,
电视自动识别后构成首笔画标识“一 I \\”,首先根据“一”去字典树查询匹配,找到根结点A,从A出发,根据“一 I ”去字典树查询匹配,找到A的下级结点B…直至找到结点D,调取在所述结点D处存放的若干搜索词进行显示。在这一过程中,如果从结点A出发,依照“一 I”找不到下级结点B,则依照“一 I \”继续查找,如果还找不到,就依照“一 I \\”继续查找,如果通过完整输入的首笔画标识还找不到,就说明字典树中没有存储与完整输入的首笔画标识对应的搜索词。
[0092]实施例二
[0093]因为网络热词的变化是非常快,因此收集的搜索词有可能在不停的变化中,可能会随时新增搜索词;另外,现有搜索词的热度也是随着用户的搜索状况在不断变化的,因此需要对搜索词和分组情况以及组内排序进行不断的更新,也即对字典树进行更新。
[0094]图3为本申请实施例二的方法流程示意图,描述对搜索词和分组情况以及组内排序进行不断的更新的过程,包括:
[0095]步骤S300,周期或者实时提取新增搜索词中每个字符的首笔画标识,按照新增搜索词中每个字符的排列顺序,将每个字符的首笔画标识组成所述新增搜索词的首笔画标识;
[0096]步骤S302,周期或者实时对所有搜索词进行更新,包括:针对新增搜索词新分搜索组、针对新增搜索词或者针对原有搜索词更新现有每个搜索组内的搜索词以及相应的热度值,并依据每个搜索组内的搜索词的热度值进行排序;
[0097]出现新增搜索词,有可能会出现新分的搜索组,这样针对新分的搜索组就会有新的首笔画标识出现,字典树不仅是根据变化的热度更新每个结点的存放的搜索词,还要根据新分的搜索组的首笔画标识新增加分支。
[0098]步骤S304,周期或者实时根据更新的每个搜索组,对所述任一结点中存放的对应搜索组中热度值最高的若干搜索词进行更新。
[0099]当然,除了上述的更新方式外,还可以通过步骤S300找出新增搜索词后,根据所有的搜索词(包括新增的),再次执行步骤SlOO至S104重新生成字典树,这也是一种更新方式。
[0100]实施例三
[0101]图4为本申请实施例二的方法流程不意图;如图4所不,在图1实施例一的基础上,增加了对显示的搜索词进行触发搜索的步骤,有关步骤S400-406请参见图1记载的步骤S100-S106的有关内容,详细在此不再重复。
[0102]具体地,新增步骤的其详细过程可以包括:
[0103]步骤S408,针对在所述结点处存放的若干搜索词中的每一个,还设置有对应的一组搜索结果,该组搜索结果中包括若干视频资源,所述若干视频资源的名称均包含对应的搜索词。
[0104]对服务器中所有视频资源的名称,按照字段进行分词处理,得到若干分词;针对每个分词建立倒排索引,每个分词的倒排索引中收集有名称中包含该分词的所有视频资源。
[0105]步骤S410,接收对所输出的搜索词的触发,调取与所触发的搜索词对应的一组搜索结果,输出该组搜索结果中的视频资源。
[0106]在步骤S406中会显示在所述结点处存放的若干搜索词,如果其中有用户的目标搜索词,用户通过操作选中目标搜索词进行步骤S408-S410的搜索。
[0107]智能电视等终端收到用户触发的目标搜索词,就会调取于目标所搜词对应的倒排索引,这个倒排索引中的视频资源就是搜索结果,当然,这里也可以将倒排索引中的视频资源按热度值排序,在显示时按热度值得高低顺序将视频资源全部显示,或者只显示热度值高的若干视频资源,本申请并不限于此。
[0108]实施例四
[0109]图5为本申请实施例四的方法流程示意图;如图5所示,在图1实施例一的基础上,增加了对显示的首笔画代码进行触发搜索的步骤,有关步骤S500-504请参见图1记载的步骤S100-S104的有关内容,详细在此不再重复。
[0110]具体地,新增步骤的其详细过程可以包括:
[0111]步骤S506,提取输入的首笔画标识,在所述字典树中查找到与输入的首笔画标识相匹配的结点,将通过所述交互平台依次输入的笔画、数字和/或字母,与在所述结点处存放的搜索词一并进行输出。
[0112]在步骤S506中会显示在所述结点处存放的若干搜索词,如果其中有用户的目标搜索词,用户通过操作选中目标搜索词进行下一步的搜索,但是当其中没有用户的目标搜索词时,说明仅仅显示搜索热词是不足够的,用户会触发所显示的笔画、数字和/或字母,从而显示更多的搜索词。
[0113]步骤S508,接收对通过所述交互平台依次输入的笔画、数字和/或字母的触发,获取通过所述交互平台依次输入的笔画、数字和/或字母的首笔画标识,调取与所述笔画、数字和/或字母的首笔画标识对应的搜索组,输出该搜索组中的每个搜索词。
[0114]输出该搜索组中的每个搜索词供用户选择,如果其中有用户的目标搜索词,在用户触发后,将执行如步骤S408和S410的操作。
[0115]实施例五
[0116]图6为本申请实施例六的装置示意图,其具体可以包括:依次耦接的提取模块60、分组模块62、构建模块64和搜索模块66。
[0117]提取模块60,用于提取出搜索词中每个字符的首笔画标识,按照搜索词中每个字符的排列顺序,将每个字符的首笔画标识组成所述搜索词的首笔画标识。
[0118]分组模块62,用于将所有搜索词中首笔画标识的前缀相同的搜索词分为一个搜索组,所述前缀为该搜索组的首笔画标识;其中,所述前缀包括至少一个字符的首笔画标识。
[0119]构建模块64,用于根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词。
[0120]搜索模块66,用于提取输入的首笔画标识,在所述字典树中查找到与输入的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
[0121]具体来说,所述构建模块64,进一步用于建立含有多个子树的字典树,根据任一搜索组的首笔画标识中每个字符的首笔画标识的排列顺序,将每个字符的首笔画标识依次设置在同一个子树的相应结点上,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,从同一个子树的根结点到后续任一结点所依次经历的全部结点组成一个首笔画标识,所述后续任一结点存放与所组成的首笔画标识对应的搜索组中热度值最高的若干搜索词;或者,进一步用于建立含有多个子树的字典树,所述子树的结点存放每个搜索组的首笔画标识以及与所述首笔画标识对应的搜索组中热度值最高的若干搜索词,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,父节点存放的首笔画标识为子节点存放的首笔画标识的前缀。
[0122]构建模块64,还用于针对在所述结点处存放的若干搜索词中的每一个,还设置有对应的一组搜索结果,该组搜索结果中包括若干视频资源,所述若干视频资源的名称均包含对应的搜索词;
[0123]搜索模块66,还用于接收对所输出的搜索词的触发,调取与所触发的搜索词对应的一组搜索结果,输出该组搜索结果中的视频资源。
[0124]搜索模块66,还用于将通过所述交互平台依次输入的笔画、数字和/或字母,与在所述结点处存放的搜索词一并进行输出;接收对通过所述交互平台依次输入的笔画、数字和/或字母的触发,获取通过所述交互平台依次输入的笔画、数字和/或字母的首笔画标识,调取与所述笔画、数字和/或字母的首笔画标识对应的搜索组,输出该搜索组中的每个搜索词。
[0125]分组模块62,还用于周期或者实时依据每个搜索组内的搜索词的热度值对搜索词进行排序;
[0126]构建模块64,还用于周期或者实时更新在所述任一结点存放的与所述首笔画标识对应的搜索组中热度值最高的若干搜索词。
[0127]不足之处,参见实施例一至四。
[0128]实施例六
[0129]图7为本申请实施例六的装置示意图,基于图6所示的装置,其中提取模块60具体可以包括:依次耦接的提取单元600和映射单元602。
[0130]提取单元600,用于当所述字符为数字和/或字母时,所述字符的首笔画标识为所述数字和/或字母本身;当所述字符为汉字时,所提取的字符的首笔画为所述汉字的首笔画;
[0131]映射单元602,用于根据预先建立的笔画和首笔画标识的对应关系,确定所述汉字的首笔画对应的首笔画标识,输出给分组模块62。
[0132]本实施例中通过获取所有汉字笔画并进行分类,将相似的汉字笔画分为一类,对同一类汉字笔画设置统一的笔画符号,预先建立的笔画和首笔画标识的对应关系。所述笔画符号为区别于所述数字和/或字母的任一标识。
[0133]不足之处,参见实施例一至五。
[0134]实施例七
[0135]图8为本申请实施例七的装置示意图,基于图6所示的装置,其中搜索模块66具体可以包括:依次耦接的交互平台660、组合单元662和检索单元664。
[0136]交互平台660,具有笔画、数字和/或字母的输入入口 ;
[0137]组合单元662,用于接收通过所述交互平台660依次输入的笔画、数字和/或字母,并获得所述输入的笔画、数字和/或字母对应的首笔画标识,依次将所得到的首笔画标识进行组合,得到待搜索的首笔画标识;
[0138]检索单元664,用于在所述字典树中查找到与待搜索的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
[0139]不足之处,参见实施例一至五。
[0140]上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。
【权利要求】
1.一种基于笔画输入进行搜索的方法,其特征在于,包括: 提取出搜索词中每个字符的首笔画标识,按照搜索词中每个字符的排列顺序,将每个字符的首笔画标识组成所述搜索词的首笔画标识; 将所有搜索词中首笔画标识的前缀相同的搜索词分为一个搜索组,所述前缀为该搜索组的首笔画标识;其中,所述前缀包括至少一个字符的首笔画标识; 根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词; 提取待搜索的首笔画标识,在所述字典树中查找到与待搜索的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
2.根据权利要求1所述的方法,其特征在于,根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词,进一步包括: 建立含有多个子树的字典树,根据任一搜索组的首笔画标识中每个字符的首笔画标识的排列顺序,将每个字符的首笔画标识依次设置在同一个子树的相应结点上,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,从同一个子树的根结点到后续任一结点所依次经历的全部结点组成一个首笔画标识,所述后续任一结点存放与所组成的首笔画标识对应的搜索组中热度值最高的若干搜索词。
3.根据权利要求1所述的方法,其特征在于,根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词,进一步包括: 建立含有多个子树的字典树,所述子树的结点存放每个搜索组的首笔画标识以及与所述首笔画标识对应的搜索组中热度值最高的若干搜索词,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,父节点存放的首笔画标识为子节点存放的首笔画标识的前缀。
4.根据权利要求2或3所述的方法,其特征在于,提取出搜索词中每个字符的首笔画标识,进一步包括: 当所述字符为数字和/或字母时,所述字符的首笔画标识为所述数字和/或字母本身;当所述字符为汉字时,所提取的字符的首笔画为所述汉字的首笔画,根据预先建立的笔画和首笔画标识的对应关系,确定所述汉字的首笔画对应的首笔画标识。
5.根据权利要求4所述的方法,其特征在于,提取待搜索的首笔画标识,进一步包括: 提供一交互平台,所述交互平台具有笔画、数字和/或字母的输入入口 ; 接收通过所述交互平台依次输入的笔画、数字和/或字母,并获得所述输入的笔画、数字和/或字母对应的首笔画标识,依次将所得到的首笔画标识进行组合,得到待搜索的首笔画标识。
6.根据权利要求1所述的方法,其特征在于, 周期或者实时依据每个搜索组内的搜索词的热度值对搜索词进行排序; 周期或者实时更新在所述结点存放的与所述首笔画标识对应的搜索组中热度值最高的若干搜索词。
7.根据权利要求5所述的方法,其特征在于,输出在所述结点处存放的若干搜索词之后,还包括: 针对在所述结点处存放的若干搜索词中的每一个,还设置有对应的一组搜索结果,该组搜索结果中包括若干视频资源,所述若干视频资源的名称均包含对应的搜索词; 接收对所输出的搜索词的触发,调取与所触发的搜索词对应的一组搜索结果,输出该组搜索结果中的视频资源。
8.根据权利要求5所述的方法,其特征在于, 输出在所述结点处存放的若干搜索词,还包括:将通过所述交互平台依次输入的笔画、数字和/或字母,与在所述结点处存放的搜索词一并进行输出; 输出在所述结点处存放的若干搜索词之后,还包括:接收对通过所述交互平台依次输入的笔画、数字和/或字母的触发,获取通过所述交互平台依次输入的笔画、数字和/或字母的首笔画标识,调取与所述笔画、数字和/或字母的首笔画标识对应的搜索组,输出该搜索组中的每个搜索词。
9.一种基于笔画输入进行搜索的装置,其特征在于,包括: 提取模块,用于提取出搜索词中每个字符的首笔画标识,按照搜索词中每个字符的排列顺序,将每个字符的首笔画标识组成所述搜索词的首笔画标识; 分组模块,用于将所有搜索词中首笔画标识的前缀相同的搜索词分为一个搜索组,所述前缀为该搜索组的首笔画标识;其中,所述前缀包括至少一个字符的首笔画标识; 构建模块,用于根据所有搜索组的首笔画标识建立字典树,所述字典树的相应结点用于存放搜索组的首笔画标识以及所述搜索组中热度值最高的若干搜索词; 搜索模块,用于提取输入的首笔画标识,在所述字典树中查找到与输入的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
10.根据权利要求9所述的装置,其特征在于, 所述构建模块,进一步用于建立含有多个子树的字典树,根据任一搜索组的首笔画标识中每个字符的首笔画标识的排列顺序,将每个字符的首笔画标识依次设置在同一个子树的相应结点上,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,从同一个子树的根结点到后续任一结点所依次经历的全部结点组成一个首笔画标识,所述后续任一结点存放与所组成的首笔画标识对应的搜索组中热度值最高的若干搜索词。
11.根据权利要求9所述的装置,其特征在于, 所述构建模块,进一步用于建立含有多个子树的字典树,所述子树的结点存放每个搜索组的首笔画标识以及与所述首笔画标识对应的搜索组中热度值最高的若干搜索词,每个子树中不同的子结点共用相同的父节点,同一个父节点的所有子节点各不相同,父节点存放的首笔画标识为子节点存放的首笔画标识的前缀。
12.根据权利要求10或11所述的装置,其特征在于,所述提取模块,进一步包括: 提取单元,用于当所述字符为数字和/或字母时,所述字符的首笔画标识为所述数字和/或字母本身;当所述字符为汉字时,所提取的字符的首笔画为所述汉字的首笔画; 映射单元,用于根据预先建立的笔画和首笔画标识的对应关系,确定所述汉字的首笔画对应的首笔画标识。
13.根据权利要求12述的装置,其特征在于,所述搜索模块,进一步包括: 交互平台,具有笔画、数字和/或字母的输入入口 ; 组合单元,用于接收通过所述交互平台依次输入的笔画、数字和/或字母,并获得所述输入的笔画、数字和/或字母对应的首笔画标识,依次将所得到的首笔画标识进行组合,得到待搜索的首笔画标识; 检索单元,用于在所述字典树中查找到与待搜索的首笔画标识相匹配的结点,输出在所述结点处存放的若干搜索词。
14.根据权利要求9述的装置,其特征在于, 所述分组模块,还用于实时依据每个搜索组内的搜索词的热度值对搜索词进行排序;所述构建模块,还用于期或者实时更新在所述结点存放的与所述首笔画标识对应的搜索组中热度值最高的若干搜索词。
【文档编号】G06F3/01GK104199541SQ201410390625
【公开日】2014年12月10日 申请日期:2014年8月8日 优先权日:2014年8月8日
【发明者】关涛, 焦伟, 于立柱 申请人:乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1