一种连续字符串的切分方法和装置制造方法

文档序号:6490000阅读:341来源:国知局
一种连续字符串的切分方法和装置制造方法
【专利摘要】本发明公开了一种连续字符串的切分方法和装置,属于网络通信领域。方法包括:接收用户输入的连续字符串;获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。装置包括:接收模块、获取模块和切分模块。本发明解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
【专利说明】一种连续字符串的切分方法和装置
【技术领域】
[0001]本发明涉及网络通信领域,特别涉及一种连续字符串的切分方法和装置。
【背景技术】
[0002]随着网络技术的飞速发展,用户越来越依赖于搜索引擎来搜索所需要的信息,在使用搜索引擎时,用户经常会输入连续字符串,这就需要对输入的连续字符串进行切分,以便更好的搜索到用户需要的信息。
[0003]目前对连续字符串的切分方法,主要是对连续英文串以及连续英文数字组合串利用固定的英文词典,对输入的连续英文串以及连续英文数字组合串进行匹配,然后得到切分结果,例如,输入“gohome”,“go”和“home”在词典中存在那么进行匹配,得到这个英文串是由“go”和“home”两个单词构成,那么切分结果为“go home”。
[0004]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005]现有对连续字符串中的连续英文串以及连续英文数字组合串利用英文词典进行切分的方法,一方面,由于互联网的网络上的新词不断更新,对于用户输入的这些新词时无法找到固定的词表来匹配,例如:win7, gaga等;另一方面,根据英文词典对连续英文串以及连续英文数字组合串进行匹配切分,会存在很大切分歧义,从而导致切分错误。

【发明内容】

[0006]为了解决现有技术的问题,本发明实施例提供了一种连续字符串的切分方法和装置。所述技术方案如下:
[0007]一方面,提供了一种连续字符串的切分方法,所述方法包括:
[0008]接收用户输入的连续字符串;
[0009]获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;
[0010]根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。
[0011]具体地,所述获取所述连续字符串的切分资源,包括:
[0012]从搜索引擎的查询日志中获取所述连续字符串的切分资源;
[0013]和/ 或,
[0014]从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源。
[0015]进一步地,所述从所述搜索引擎的查询日志中获取所述连续字符串的切分资源,具体包括:
[0016]在所述搜索引擎中获取预设时间内的查询日志,所述查询日志包括所有用户在搜索引擎中的查询记录;
[0017]从所述查询日志中查找与所述连续字符串相匹配的至少一个切分查询结果,并获取所述切分查询结果的查询次数以及所述连续字符串的查询次数;
[0018]当所述切分查询结果的查询次数大于所述连续字符串的查询次数时,从查询次数大于所述连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为所述连续字符串的切分资源。
[0019]进一步地,所述从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源,具体包括:
[0020]在所述搜索引擎中获取保存的所述用户的会话日志,所述会话日志为根据预设的时间阈值进行划分的会话日志;
[0021]从所述用户的会话日志中查找与所述连续字符串相匹配的至少一个会话查询结果,并获取所述会话查询结果的修改次数;所述会话查询结果为所述用户在所述会话日志中对所述连续字符串进行改写且改写后被所述用户点击的字符串;
[0022]从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
[0023]进一步地,所述从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源,具体包括:
[0024]从所述搜索引擎中获取所述会话查询结果的检索次数和所述会话查询结果的点击次数,并获取所述连续字符串的检索次数和所述连续字符串的点击次数;
[0025]当所述会话查询结果的检索次数大于所述连续字符串的检索次数且所述会话查询结果的点击次数大于所述连续字符串的点击次数时,从检索次数和点击次数分别都大于所述连续字符串的检索次数和点击次数的所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
[0026]具体地,所述根据获取的所述连续字符串的切分资源对所述连续字符串进行切分之后,还包括:
[0027]在所述搜索引擎中显示所述连续字符串的切分结果。
[0028]另一方面,提供了一种连续字符串的切分装置,所述装置包括:
[0029]接收模块,用于接收用户输入的连续字符串;
[0030]获取模块,用于获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;
[0031]切分模块,用于根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。
[0032]具体地,所述获取模块,包括:
[0033]第一获取单元,用于从搜索引擎的查询日志中获取所述连续字符串的切分资源;
[0034]第二获取单元,用于从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源。
[0035]进一步地,所述第一获取单元,具体包括:
[0036]查询日志子单元,用于在所述搜索引擎中获取预设时间内的查询日志,所述查询日志包括所有用户在搜索引擎中的查询记录;
[0037]切分查询结果子单元,用于从所述查询日志中查找与所述连续字符串相匹配的至少一个切分查询结果,并获取所述切分查询结果的查询次数以及所述连续字符串的查询次数;[0038]选择切分查询子单元,用于当所述切分查询结果的查询次数大于所述连续字符串的查询次数时,从查询次数大于所述连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为所述连续字符串的切分资源。
[0039]进一步地,所述第二获取单元,具体包括:
[0040]会话日志子单元,用于在所述搜索引擎中获取保存的所述用户的会话日志,所述会话日志为根据预设的时间阈值进行划分的会话日志;
[0041]会话查询结果子单元,用于从所述用户的会话日志中查找与所述连续字符串相匹配的至少一个会话查询结果,并获取所述会话查询结果的修改次数;所述会话查询结果为所述用户在所述会话日志中对所述连续字符串进行改写且改写后被所述用户点击的字符串;
[0042]选择会话查询子单元,用于从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
[0043]进一步地,所述选择会话查询子单元,具体用于从所述搜索引擎中获取所述会话查询结果的检索次数和所述会话查询结果的点击次数,并获取所述连续字符串的检索次数和所述连续字符串的点击次数;
[0044]当所述会话查询结果的检索次数大于所述连续字符串的检索次数且所述会话查询结果的点击次数大于所述连续字符串的点击次数时,从检索次数和点击次数分别都大于所述连续字符串的检索次数和点击次数的所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
[0045]具体地,所述装置还包括:
[0046]显示模块,用于所述切分模块根据获取的所述连续字符串的切分资源对所述连续字符串进行切分之后,在所述搜索引擎中显示所述连续字符串的切分结果。
[0047]本发明实施例提供的技术方案带来的有益效果是:
[0048]通过获取用户在搜索引擎中输入的连续字符串的切分资源,根据从搜索引擎中获取的连续字符串的切分资源对连续字符串进行匹配切分,解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
【专利附图】

【附图说明】
[0049]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050]图1是本发明实施例一提供的连续字符串的切分方法流程图;
[0051]图2是本发明实施例二提供的连续字符串的切分方法流程图;
[0052]图3是本发明实施例三提供的连续字符串的切分方法流程图;
[0053]图4是本发明实施例四提供的连续字符串的切分方法流程图;
[0054]图5是本发明实施例五提供的连续字符串的切分装置第一种结构示意图;
[0055]图6是本发明实施例五提供的连续字符串的切分装置第二种结构示意图;
[0056]图7是本发明实施例五提供的连续字符串的切分装置第三种结构示意图。【具体实施方式】
[0057]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0058]实施例一
[0059]参见图1,本发明实施例提供了一种连续字符串的切分方法,该方法包括:
[0060]101、接收用户输入的连续字符串;
[0061]102、获取连续字符串的切分资源;该切分资源为与连续字符串相匹配且查询次数最多的字符串和/或与连续字符串相匹配且用户修改次数最多的字符串;
[0062]103、根据获取的连续字符串的切分资源对连续字符串进行切分。
[0063]具体地,获取连续字符串的切分资源,包括:
[0064]从搜索引擎的查询日志中获取连续字符串的切分资源;
[0065]和/ 或,
[0066]从搜索引擎中用户的会话日志中获取连续字符串的切分资源。
[0067]进一步地,从搜索引擎的查询日志中获取连续字符串的切分资源,具体包括:
[0068]在搜索引擎中获取预设时间内的查询日志,查询日志包括所有用户在搜索引擎中的查询记录;
[0069]从查询日志中查找与连续字符串相匹配的至少一个切分查询结果,并获取切分查询结果的查询次数以及连续字符串的查询次数;
[0070]当切分查询结果的查询次数大于连续字符串的查询次数时,从查询次数大于连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为连续字符串的切分资源。
[0071]进一步地,从搜索引擎中用户的会话日志中获取连续字符串的切分资源,具体包括:
[0072]在搜索引擎中获取保存的用户的会话日志,会话日志为根据预设的时间阈值进行划分的会话日志;
[0073]从用户的会话日志中查找与连续字符串相匹配的至少一个会话查询结果,并获取会话查询结果的修改次数;该会话查询结果为用户在会话日志中对连续字符串进行改写且改写后被用户点击的字符串;
[0074]从获取的至少一个会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源。
[0075]进一步地,从获取的至少一个会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源,具体包括:
[0076]从搜索引擎中获取会话查询结果的检索次数和会话查询结果的点击次数,并获取连续字符串的检索次数和连续字符串的点击次数;
[0077]当会话查询结果的检索次数大于连续字符串的检索次数且会话查询结果的点击次数大于连续字符串的点击次数时,从检索次数和点击次数分别都大于连续字符串的检索次数和点击次数的会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源。[0078]具体地,根据获取的连续字符串的切分资源对连续字符串进行切分之后,还包括:
[0079]在搜索引擎中显示连续字符串的切分结果。
[0080]本发明实施例提供的方法,通过获取用户在搜索引擎中输入的连续字符串的切分资源,根据从搜索引擎中获取的连续字符串的切分资源对连续字符串进行匹配切分,解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
[0081]实施例二
[0082]参见图2,本发明实施例提供了一种连续字符串的切分方法,该方法包括:
[0083]201、接收用户输入的连续字符串;
[0084]具体地,用户在搜索引擎中输入连续字符串,也可以为连续字符串和中文的组合,只需对其中的连续字符串处理即可;其中,本发明实施例中的连续数字英文数字串,可以是纯英文数字串如f Iashgetdownload,也可以是英文和数字的组合串,如win7。
[0085]202、从搜索引擎的查询日志中获取连续字符串的切分资源;该切分资源为与连续字符串相匹配且查询次数最多的字符串;
[0086]具体地,首先,在搜索引擎中获取预设时间内的查询日志,查询日志包括所有用户在搜索引擎中的查询记录;其中,预设时间可以根据情况灵活设置,比如可以设置90天;所获取的查询日志中包括所有的用户在搜索引擎中的查询记录,不仅仅是用户本身。
[0087]其次,从查询日志中查找与连续字符串相匹配的至少一个切分查询结果,并获取切分查询结果的查询次数以及连续字符串的查询次数;其中,本发明实施例中与连续字符串相匹配的切分查询结果是指与连续字符串只差空格的切分查询结果,该切分查询结果可能为一个也可能为多个;如表1所示:连续字符串dreamhigh2的查询次数为7181,在查询日志中的切分查询结果dream high2的查询次数为40062、切分查询结果dream high 2的查询次数为10000。
[0088]表1
[0089]
【权利要求】
1.一种连续字符串的切分方法,其特征在于,所述方法包括: 接收用户输入的连续字符串; 获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。
2.根据权利要求1所述的方法,其特征在于,所述获取所述连续字符串的切分资源,包括: 从搜索引擎的查询日志中获取所述连续字符串的切分资源; 和/或, 从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源。
3.根据权利要求2所述的方法,其特征在于,所述从所述搜索引擎的查询日志中获取所述连续字符串的切分资源,具体包括: 在所述搜索引擎中获取预设时间内的查询日志,所述查询日志包括所有用户在搜索引擎中的查询记录; 从所述查询日志中查找与所述连续字符串相匹配的至少一个切分查询结果,并获取所述切分查询结果的查询次数以及所述连续字符串的查询次数; 当所述切分查询结果的查询次数大于所述连续字符串的查询次数时,从查询次数大于所述连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为所述连续字符串的切分资源。
4.根据权利要求2所述的方法,其特征在于,所述从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源,具体包括: 在所述搜索引擎中获取保存的所述用户的会话日志,所述会话日志为根据预设的时间阈值进行划分的会话日志; 从所述用户的会话日志中查找与所述连续字符串相匹配的至少一个会话查询结果,并获取所述会话查询结果的修改次数;所述会话查询结果为所述用户在所述会话日志中对所述连续字符串进行改写且改写后被所述用户点击的字符串; 从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
5.根据权利要求4所述的方法,其特征在于,所述从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源,具体包括: 从所述搜索引擎中获取所述会话查询结果的检索次数和所述会话查询结果的点击次数,并获取所述连续字符串的检索次数和所述连续字符串的点击次数; 当所述会话查询结果的检索次数大于所述连续字符串的检索次数且所述会话查询结果的点击次数大于所述连续字符串的点击次数时,从检索次数和点击次数分别都大于所述连续字符串的检索次数和点击次数的所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
6.根据权利要求4所述的方法,其特征在于,所述根据获取的所述连续字符串的切分资源对所述连续字符串进行切分之后,还包括: 在所述搜索引擎中显示所述连续字符串的切分结果。
7.—种连续字符串的切分装置,其特征在于,所述装置包括: 接收模块,用于接收用户输入的连续字符串; 获取模块,用于获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串; 切分模块,用于根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,包括: 第一获取单元,用于从搜索引擎的查询日志中获取所述连续字符串的切分资源; 第二获取单元,用于从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源。
9.根据权利要求8所述的装置,其特征在于,所述第一获取单元,具体包括: 查询日志子单元,用于在所述搜索引擎中获取预设时间内的查询日志,所述查询日志包括所有用户在搜索引擎中的查询记录; 切分查询结果子单元,用于从所述查询日志中查找与所述连续字符串相匹配的至少一个切分查询结果,并获取所述切分查询结果的查询次数以及所述连续字符串的查询次数; 选择切分查询子单元,用于当所述切分查询结果的查询次数大于所述连续字符串的查询次数时,从查询次数大于所述连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为所述连续字符串的切分资源。
10.根据权利要求8所述的装置,其特征在于,所述第二获取单元,具体包括: 会话日志子单元,用于在所述搜索引擎中获取保存的所述用户的会话日志,所述会话日志为根据预设的时间阈值进行划分的会话日志; 会话查询结果子单元,用于从所述用户的会话日志中查找与所述连续字符串相匹配的至少一个会话查询结果,并获取所述会话查询结果的修改次数;所述会话查询结果为所述用户在所述会话日志中对所述连续字符串进行改写且改写后被所述用户点击的字符串; 选择会话查询子单元,用于从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
11.根据权利要求10所述的装置,其特征在于,所述选择会话查询子单元,具体用于从所述搜索引擎中获取所述会话查询结果的检索次数和所述会话查询结果的点击次数,并获取所述连续字符串的检索次数和所述连续字符串的点击次数; 当所述会话查询结果的检索次数大于所述连续字符串的检索次数且所述会话查询结果的点击次数大于所述连续字符串的点击次数时,从检索次数和点击次数分别都大于所述连续字符串的检索次数和点击次数的所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
12.根 据权利要求7所述的装置,其特征在于,所述装置还包括: 显示模块,用于所述切分模块根据获取的所述连续字符串的切分资源对所述连续字符串进行切分之后,在所述搜索引擎中显示所述连续字符串的切分结果。
【文档编号】G06F17/30GK103778138SQ201210401107
【公开日】2014年5月7日 申请日期:2012年10月19日 优先权日:2012年10月19日
【发明者】李超, 宋国龙, 李磊 申请人:深圳市世纪光速信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1