一种关键词的确定方法及装置的制造方法

文档序号:8223643阅读:154来源:国知局
一种关键词的确定方法及装置的制造方法
【技术领域】
[0001]本发明实施例涉及关键词领域,特别涉及一种关键词的确定方法及装置。
【背景技术】
[0002]随着大数据的增加,用户对处理大数据方法的要求也越来越高。在实际应用中,经常会有一种需求,就是确定用户的待搜索词条与给定的词包中存在的相同的词条,以下将这些相同的词条称为关键词,确定出的关键词可以被用来分析用户的行为特点、向用户推荐信息等。
[0003]现有的确定关键词的方法有以下两种:
[0004]第一,通过循环给定的词包中的子词条的方式在用户的待搜索词条中查找相同的子词条,进而将查找到的相同的子词条确定为关键词,例如:一个用户的待搜索词条为“名字是李明明”,词包中有1000个词条,那么就需要将词包中的每个子词条都在待搜索词条中进行查找,这样,就查找了 1000次,这只是对于一条待搜索词条,对于多条待搜索词条来说,查找的次数会更多,查找次数的增多使得查找算法繁杂度增加,查找时间增长使得数据处理速度变慢。
[0005]第二,通过循环待搜索词条分词后的子词条的方式在给定的词包中查找相同的子词条,进而将查找到的相同的子词条确定为关键词,分词时是依据由语料训练得到的语料库中的词条分割待搜索词条,如上面的例子,语料库中可能有“名字”、“是”、“李明明”等词条,“名字是李明明”分词后可以为“名字”、“是”、“李明明”,此方法是“名字”、“是”、“李明明”这三个子词条分别在词包中查找是否存在相同的子词条,只需要查找三次,与第一种方法相比,查找次数的明显减少使得算法繁杂度降低,查找时间的缩短使得数据处理速度变快,但是现有的分词受语料库中的词条的限制,往往会出现一些分词后的子词条不符合原待搜索词条的词意的情况,如果语料库中没有“李明明”,而有“李明”、“明”等词条,上述的“名字是李明明”分词后可以为“名字”、“是”、“李明” “明”,这样给定的词包中如果有“李明”,则“李明”将会被确定为关键词,显然,“李明”与原待搜索词条中的“李明明”的词意不同,这样就直接影响确定的关键词的准确性。
[0006]综上所述,如何快速且准确的确定关键词成为一个亟待解决的问题。

【发明内容】

[0007]基于上述问题,本发明实施例公开了一种关键词的确定方法及装置,能够快速且准确的确定关键词。技术方案如下:
[0008]第一方面,本发明实施例提供了一种关键词的确定方法,包括:
[0009]获得待搜索词条;
[0010]根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合;其中,所述待搜索子词条集合中包括至少一个待搜索子词条,且所述待搜索子词条为所述待搜索词条中的部分内容或全部内容;[0011 ] 在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条;
[0012]在查找到所述相同的目标子词条后,将查找到的所述相同的目标子词条确定为所述待搜索词条所对应的关键词。
[0013]可选的,所述在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条,包括:
[0014]在预先存储于哈希表的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条。
[0015]可选的,所述目标词包中最长的目标子词条的长度通过max-length表示,所述目标词包中最短的目标子词条的长度通过min-length表示;
[0016]则所述根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合之后,且所述在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条之前,还包括:
[0017]统计所得到的待搜索子词条集合中的每个待搜索子词条的长度;
[0018]将统计的待搜索子词条的长度大于max-length和小于min-length的待搜索子词条从所述待搜索子词条集合中去除;
[0019]则所述在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条,包括:
[0020]在预先存储的至少包括一个目标子词条的目标词包中,查找与去除后得到的待搜索子词条集合中的待搜索子词条相同的目标子词条。
[0021]可选的,所述目标词包中包括至少一个目标子词包,其中,所述目标子词包包括单一长度的目标子词条,不同目标子词包括中的目标子词条的长度不同;
[0022]则所述根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合之后,且所述在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条之前,还包括:
[0023]统计所得到的待搜索子词条集合中的每个待搜索子词条的长度;
[0024]将具有相同长度的待搜索子词条归到一个等长待搜索子词条集合中,以使得每个等长待搜索子词条集合中都包括单一长度的待搜索子词条;
[0025]则在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条,包括:
[0026]在预先存储的每个目标子词包中分别查找与对应的具有相同长度的等长待搜索子词条集合中的待搜索子词条相同的目标子词条。
[0027]可选的,还包括:将所确定的关键词突出显示。
[0028]可选的,还包括:向用户推送与所述关键词相关的信息。
[0029]第二方面,本发明实施例还提供了一种关键词的确定装置,包括:
[0030]获得单元,用于获得待搜索词条;
[0031]分割单元,用于根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合;其中,所述待搜索子词条集合中包括至少一个待搜索子词条,且所述待搜索子词条为所述待搜索词条中的部分内容或全部内容;
[0032]查找单元,用于在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条;
[0033]确定单元,用于在查找到所述相同的目标子词条后,将查找到的所述相同的目标子词条确定为所述待搜索词条所对应的关键词。
[0034]可选的,所述查找单元,具体用于:
[0035]在预先存储于哈希表的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条。
[0036]可选的,所述目标词包中最长的目标子词条的长度通过max-length表示,所述目标词包中最短的目标子词条的长度通过min-length表示;
[0037]则所述分割单元触发后,且查找单元触发前,还包括:
[0038]统计单元,用于统计所得到的待搜索子词条集合中的每个待搜索子词条的长度;
[0039]去除单元,用于将统计的待搜索子词条的长度大于max-length和小于min-length的待搜索子词条从所述待搜索子词条集合中去除;
[0040]则所述查找单元,具体用于:在预先存储的至少包括一个目标子词条的目标词包中,查找与去除后得到的待搜索子词条集合中的待搜索子词条相同的目标子词条。
[0041]可选的,所述目标词包中包括至少一个目标子词包,其中,所述目标子词包包括单一长度的目标子词条,不同目标子词包括中的目标子词条的长度不同;
[0042]则所述分割单元触发后,且查找单元触发前,还包括:
[0043]统计单元,统计所得到的待搜索子词条集合中的每个待搜索子词条的长度;
[0044]归类单元,用于将具有相同长度的待搜索子词条归到一个等长待搜索子词条集合中,以使得每个等长待搜索子词条集合中都包括单一长度的待搜索子词条;
[0045]则所述查找单元,具体用于:在预先存储的每个目标子词包中分别查找与对应的具有相同长度的等长待搜索子词条集合中的待搜索子词条相同的目标子词条。
[0046]可选的,还包括:显示单元,用于将所确定的关键词突出显示。
[0047]可选的,还包括:推送单元,用于向用户推送与所述关键词相关的信息。
[0048]本发明实施例根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,然后遍历分割后的每个待搜索子词条,在目标词包中查找是否存在与待搜索词条分割后的待搜索子词条相同的目标子词条,当查找到后,将查找到的相同的目标子词条确定为关键词。这样,在整个过程中,查找的次数即为待搜索词条分割后的待搜索子词条的数量,在实际应用中,待搜索子词条的数量会远远小于目标词包中的目标子词条的数量,因此,相比现有第一种技术,查找次数明显减少,算法繁杂度和时间消耗度降低,数据处理速度变快;相比现有第二种技术,顺序字符分割后的待搜索子词条包括了待搜索词条分割后的所有情况,查找结果准确度会更高,相应的,确定的关键词准确度也变高,就准确度增加的程度而言,增加的查找次数带来的对数据处理速度的影响可
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1