一种对搜索关键词进行语义分析的方法和系统的制作方法_2

文档序号:9417344阅读:来源:国知局
于对评分后的匹配结果进行格式化组合。
[0041] 上述对搜索关键词进行语义分析的系统,还可以包括词典索引库,用于存储停用 词典、基础词典、正向词典、反向词典和核心词典。停用词典,用于存储停用词。停用词用来 辅助分词工具切分词语,被人工预存进停用词表中,一般无实际意义,多为语气助词、连词 或介词,例如也、啊、又、比、与、但。基础词典,用于存储商品名词。商品名词包括品牌名词、 型号名词和/或类别名词。当商品为移动终端时,商品名称可以为苹果、iphone、iphone4s、 三星、华为、荣耀6、nokiall0。正向词典,用于存储语义正向的辅助词语,例如多少钱、价格、 报价、合约、新功能、实体店。反向词典,用于存储语义反向的辅助词语,例如花屏、进水、不 亮、怎么用、教程。核心词典选用分词工具IKAnalyzer的核心词典,停用词典、基础词典、 正向词典和反向词典中的词语也被添加进核心词典。
[0042] 预设算法包括核心算法。核心算法包括关键词检索算法、正向检索算法和反向检 索算法。关键词检索算法为,在基础词典中对关键词语组中的每个目标关键词语进行逐一 匹配。正向检索算法为,在正向词典中对关键词语组中的每个目标关键词语进行逐一匹配。 反向检索算法为,利用反向词典中对关键词语组中的非目标关键词语进行过滤。
[0043] 预设算法还包括辅助算法。辅助算法包括整体匹配算法、循环匹配算法、循环叠加 匹配算法和语义结果校正匹配算法,整体匹配算法为,利用基础词典对用户输入的搜索词 进行全量不拆分匹配。循环匹配算法为,利用基础词典对关键词语组中的每个关键词语进 行循环匹配。循环叠加匹配算法为,对关键词语组中的每个关键字依照先后顺序进行逐步 组合,每步组合得到一个组合词语,将组合词语逐步在基础词典中进行循环匹配。语义结果 校正匹配算法为,如果对用户输入的搜索词进行全量不拆分匹配时没有在核心词典中命中 匹配目标,而对搜索词分词后的关键词语组匹配时在基础词典中命中匹配目标,则检测关 键词语与命中的匹配目标是否有业务跨越行为,如果是则抛弃当次匹配结果,如果否则保 留当次匹配结果。
[0044] 评估模块对匹配结果进行评分包括相似度评分、业务关联度评分、域名评分和语 义得分校正。
[0045] 相似度评分为,计算搜索词与词典索引库中的词语的匹配率。例如,用户输入的搜 索词的字数为5个,其中只有3个字得到了匹配,因此,其匹配率为60%,即相似度评分为 6〇
[0046] 业务关联度评分,将搜索词与基础词库中的模糊性词条进行匹配,模糊性词条预 先赋值业务关联分数,搜索词与模糊性词条匹配成功后,拷贝对应的模糊性词条的业务关 联分数,没有匹配成功模糊词条的搜索条目给予高于业务关联分数的预定分数。
[0047] 域名评分为,对用户输入的搜索词的来源域名进行评分,评分过程为,将来源域名 与域名表中的预定域名进行匹配,在域名表中预先存储预定域名的预定分数,来源域名与 预定域名匹配成功,则来源域名拷贝预定域名所对应的预定分数。
[0048] 域名表例如:
[0049] t aobao. com +5 分 tma I I. com +5:.分 jd. com +5分 me.i.tuan. €:棚 +3 分
[0050] 语义得分校正,对相似度评分、业务关联度评分和域名评分的综合分数进行校正, 校正过程为,将分数超过第一预定分数的匹配结果赋值为第一预定分数,将分数低于第二 预定分数的匹配结果抛弃。
[0051] 如图2所示,本发明还提供一种对搜索关键词进行语义分析的方法,包括以下步 骤,
[0052] 接收用户输入的搜索词。
[0053] 对搜索词进行中文分词和去除停用词得到关键词语组。
[0054] 通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配, 得到匹配结果。
[0055] 通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分。
[0056] 对评分后的匹配结果进行格式化组合。
[0057] 词典索引库,用于存储停用词典、基础词典、正向词典、反向词典和核心词典。停用 词典,用于存储停用词。基础词典,用于存储商品名词。商品名词包括品牌名词、型号名词 和/或类别名词。正向词典,用于存储语义正向的辅助词语。反向词典,用于存储语义反向 的辅助词语。核心词典选用分词工具IKAnalyzer的核心词典。
[0058] -种对搜索关键词进行语义分析的方法,预设算法包括核心算法。核心算法包括 关键词检索算法、正向检索算法和反向检索算法。关键词检索算法为,在基础词典中对关键 词语组中的每个目标关键词语进行逐一匹配。正向检索算法为,在正向词典中对关键词语 组中的每个目标关键词语进行逐一匹配。反向检索算法为,利用反向词典中对关键词语组 中的非目标关键词语进行过滤。
[0059] 预设算法还包括辅助算法。辅助算法包括整体匹配算法、循环匹配算法、循环叠 加匹配算法和语义结果校正匹配算法,整体匹配算法为,利用基础词典对用户输入的搜索 词进行全量不拆分匹配。循环匹配算法为,利用基础词典对关键词语组中的每个关键词语 进行循环匹配。循环叠加匹配算法为,对关键词语组中的每个关键字依照先后顺序进行逐 步组合,每步组合得到一个组合词语,将组合词语逐步在基础词典中进行循环匹配。例如 "12345"被拆分为"1"、"2"、"3"、"4"、"5",检索过程为:先对"1"进行检索,然后进行叠加 操作得到" 12",然后对其进行检索;再然后继续叠加得到" 123",再对其进行检索,后同略。 语义结果校正匹配算法为,如果对用户输入的搜索词进行全量不拆分匹配时没有在核心词 典中命中匹配目标,而对搜索词分词后的关键词语组匹配时在基础词典中命中匹配目标, 则检测关键词语与命中的匹配目标是否有业务跨越行为,如果是则抛弃当次匹配结果,如 果否则保留当次匹配结果。例如,用户搜索"T1列车",分词工具拆分为"T1"、"列车"。其中 "T1"识别为终端机型,"列车"识别为歌曲。本次搜索有业务跨越行为,应当抛弃。
[0060] 对匹配结果进行评分包括相似度评分、业务关联度评分、域名评分和语义得分校 正。相似度评分为,计算搜索词与词典索引库中的词语的匹配率。业务关联度评分,将搜索 词与基础词库中的模糊性词条进行匹配,模糊性词条例如"手机"、"4G手机"等。模糊性词 条预先赋值业务关联分数,搜索词与模糊性词条匹配成功后,拷贝对应的模糊性词条的业 务关联分数,没有匹配成功模糊词条的搜索条目应当给予稍高的预定分数。域名评分为,对 用户输入的搜索词的来源域名进行评分,评分过程为,将来源域名与域名表中的预定域名 进行匹配,在域名表中预先存储预定域名的预定分数,来源域名与预定域名匹配成功,则来 源域名拷贝预定域名所对应的预定分数。
[0061] 语义得分校正,对相似度评分、业务关联度评分和域名评分的综合分数进行校正, 校正过程为,将分数超过第一预定分数的匹配结果赋值为第一预定分数,将分数低于第二 预定分数的匹配结果抛弃。
[0062] 实施例一
[0063] 本实施例以用户输入搜索词"lumia810报价"。
[0064] 步骤01,搜索词接收模块接收搜索词"lumiaSlO报价",执行步骤02。
[0065] 步骤02,分词工具将" IumiaSlO报价"拆分为:"lumia"、"810"、"报价",执行步骤 03〇
[0066] 步骤03,匹配引擎调取反向词典,分别对"1111^&"、"810"、"报价"进行反向匹配, 最终未匹配成功,执行步骤04。
[0067] 步骤04,匹配引擎调取基础词典,分别对" Iumia"、" 810 "、"报价"进行基础匹配, 最终"lumia"匹配成功"诺基亚"、"nokia"、"lumia"、"怒米亚"、"卢米亚"、"诺基亚非凡系 列",执行步骤05;
[0068] 步骤05,匹配引擎分别将"lumia"、"810"、"报价"进行正向匹配,最终"报价"匹 配成功,进行加分操作,执行步骤06 ;
[0069] 步骤06,域名打分服务将"m. taobao. com"进行深度分析打分,经过拆解最终同 "taobao. com"匹配成功,进行加分操作,执行步骤07 ;
[0070] 步骤07,语义评估器对步骤04、05、06的得分结果进行综合评分,产生该次搜索行 为的最终得分,执行步骤08 ;
[0071] 步骤08,结果组装器对产生的结果和任务信息进行格式化,最终返回并保存类似 以下的
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1