一种对搜索关键词进行语义分析的方法和系统的制作方法_3

文档序号：9417344阅读：来源：国知局

结果。
[0072]
[0073] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种对搜索关键词进行语义分析的系统，其特征在于，包括搜索词接收模块、词典索引库、分词模块、语义分析模块、评估模块和结果组装模块；所述搜索词接收模块，用于接收用户输入的搜索词，并将所述搜索词发送至分词模块；词典索引库，用于预先存储预定词语，并响应匹配引擎的调取；所述分词模块，用于通过匹配引擎调取词典索引库中的词语，对搜索词进行中文分词和去除停用词得到关键词语组，并将所述关键词语组发送至语义分析模块；所述语义分析模块，用于接收关键词语组，并通过匹配引擎调取词典索引库中的词语，采用预设算法对关键词语组进行匹配，得到匹配结果；所述评估模块，用于通过匹配引擎再次调取词典索引库中的词语，对匹配结果进行评分；所述结果组装模块，用于对评分后的匹配结果进行格式化组合。2. 根据权利要求1所述一种对搜索关键词进行语义分析的系统，其特征在于，所述预定词语，包括停用词、商品名词、语义正向词和语义反向词，所述词典索引库，存储停用词典、基础词典、正向词典、反向词典和核心词典；所述停用词典，用于存储停用词；所述基础词典，用于存储商品名词；所述商品名词包括品牌名词、型号名词和/或类别名词；所述正向词典，用于存储语义正向的辅助词语；所述反向词典，用于存储语义反向的辅助词语；核心词典选用分词工具IKAnalyzer的核心词典，所述停用词典、基础词典、正向词典和反向词典被添加进分词工具IKAnalyzer的核心词典中。3. 根据权利要求2所述一种对搜索关键词进行语义分析的系统，其特征在于，所述预设算法包括核心算法和语义结果校正匹配算法；所述核心算法为，利用词典索引库，对关键词语组中的目标关键词进行逐一匹配，并过滤掉关键词语组中的非目标关键词；所述语义结果校正匹配算法为，在核心算法中，如果对用户输入的搜索词进行全量不拆分匹配时没有在核心词典中命中匹配目标，而对搜索词分词后的关键词语组匹配时在基础词典中命中匹配目标，则检测关键词语与命中的匹配目标是否有业务跨越行为，如果是则抛弃当次匹配结果，如果否则保留当次匹配结果。4. 根据权利要求3所述一种对搜索关键词进行语义分析的系统，其特征在于，所述核心算法包括关键词检索算法、正向检索算法、反向检索算法、整体匹配算法、循环匹配算法和循环叠加匹配算法；所述关键词检索算法为，在基础词典中对关键词语组中的每个目标关键词语进行逐一匹配；所述正向检索算法为，在正向词典中对关键词语组中的每个目标关键词语进行逐一匹配；所述反向检索算法为，利用反向词典中对关键词语组中的非目标关键词语进行过滤；所述整体匹配算法为，利用基础词典对用户输入的搜索词进行全量不拆分匹配；所述循环匹配算法为，利用基础词典对关键词语组中的每个关键词语进行循环匹配；所述循环叠加匹配算法为，对关键词语组中的每个关键字依照先后顺序进行逐步组合，每步组合得到一个组合词语，将组合词语逐步在基础词典中进行循环匹配。5. 根据权利要求1所述一种对搜索关键词进行语义分析的系统，其特征在于，所述评估模块对匹配结果进行评分包括相似度评分、业务关联度评分、域名评分和语义得分校正；所述相似度评分为，计算搜索词与词典索引库中的词语的匹配率；所述业务关联度评分，将搜索词与基础词库中的模糊性词条进行匹配，所述模糊性词条预先赋值业务关联分数，搜索词与所述模糊性词条匹配成功后，拷贝对应的模糊性词条的业务关联分数，没有匹配成功模糊词条的搜索条目给予高于业务关联分数的预定分数；所述域名评分为，对用户输入的搜索词的来源域名进行评分，评分过程为，将来源域名与域名表中的预定域名进行匹配，在域名表中预先存储预定域名的预定分数，来源域名与预定域名匹配成功，则来源域名拷贝预定域名所对应的预定分数；所述语义得分校正，对相似度评分、业务关联度评分和域名评分的综合分数进行校正，校正过程为，将分数超过第一预定分数的匹配结果赋值为第一预定分数，将分数低于第二预定分数的匹配结果抛弃。6. -种对搜索关键词进行语义分析的方法，其特征在于，包括以下步骤，接收用户输入的搜索词；对搜索词进行中文分词和去除停用词得到关键词语组；通过匹配引擎调取词典索引库中的词语，采用预设算法对关键词语组进行匹配，得到匹配结果；通过匹配引擎再次调取词典索引库中的词语，对匹配结果进行评分；对评分后的匹配结果进行格式化组合。7. 根据权利要求6所述一种对搜索关键词进行语义分析的方法，其特征在于，所述预定词语，包括停用词、商品名词、语义正向词和语义反向词，所述词典索引库，存储停用词典、基础词典、正向词典、反向词典和核心词典；所述停用词典，用于存储停用词；所述基础词典，用于存储商品名词；所述商品名词包括品牌名词、型号名词和/或类别名词；所述正向词典，用于存储语义正向的辅助词语；所述反向词典，用于存储语义反向的辅助词语；核心词典选用分词工具IKAnalyzer的核心词典。8. 根据权利要求6所述一种对搜索关键词进行语义分析的方法，其特征在于，所述预设算法包括核心算法和语义结果校正匹配算法；所述核心算法为，利用词典索引库，对关键词语组中的目标关键词进行逐一匹配，并过滤掉关键词语组中的非目标关键词所述语义结果校正匹配算法为，在核心算法中，如果对用户输入的搜索词进行全量不拆分匹配时没有在核心词典中命中匹配目标，而对搜索词分词后的关键词语组匹配时在基础词典中命中匹配目标，则检测关键词语与命中的匹配目标是否有业务跨越行为，如果是则抛弃当次匹配结果，如果否则保留当次匹配结果。9. 根据权利要求8所述一种对搜索关键词进行语义分析的方法，其特征在于，所述核心算法包括关键词检索算法、正向检索算法、反向检索算法整体匹配算法、循环匹配算法和循环叠加匹配算法；所述关键词检索算法为，在基础词典中对关键词语组中的每个目标关键词语进行逐一匹配；所述正向检索算法为，在正向词典中对关键词语组中的每个目标关键词语进行逐一匹配；所述反向检索算法为，利用反向词典中对关键词语组中的非目标关键词语进行过滤；所述整体匹配算法为，利用基础词典对用户输入的搜索词进行全量不拆分匹配；所述循环匹配算法为，利用基础词典对关键词语组中的每个关键词语进行循环匹配；所述循环叠加匹配算法为，对关键词语组中的每个关键字依照先后顺序进行逐步组合，每步组合得到一个组合词语，将组合词语逐步在基础词典中进行循环匹配。10. 根据权利要求6所述一种对搜索关键词进行语义分析的方法，其特征在于，所述对匹配结果进行评分包括相似度评分、业务关联度评分、域名评分和语义得分校正；所述相似度评分为，计算搜索词与词典索引库中的词语的匹配率；所述业务关联度评分，将搜索词与基础词库中的模糊性词条进行匹配，所述模糊性词条预先赋值业务关联分数，搜索词与所述模糊性词条匹配成功后，拷贝对应的模糊性词条的业务关联分数，没有匹配成功模糊词条的搜索条目应当给予稍高的预定分数；所述域名评分为，对用户输入的搜索词的来源域名进行评分，评分过程为，将来源域名与域名表中的预定域名进行匹配，在域名表中预先存储预定域名的预定分数，来源域名与预定域名匹配成功，则来源域名拷贝预定域名所对应的预定分数；所述语义得分校正，对相似度评分、业务关联度评分和域名评分的综合分数进行校正，校正过程为，将分数超过第一预定分数的匹配结果赋值为第一预定分数，将分数低于第二预定分数的匹配结果抛弃。
【专利摘要】本发明涉及一种对搜索关键词进行语义分析的方法和系统。包括搜索词接收模块、分词模块、语义分析模块、评估模块和结果组装模块；搜索词接收模块接收用户输入的搜索词，并将搜索词发送至分词模块；分词模块对搜索词进行中文分词和去除停用词得到关键词语组，并将关键词语组发送至语义分析模块；语义分析模块接收关键词语组，并通过匹配引擎调取词典索引库中的词语，采用预设算法对关键词语组进行匹配，得到匹配结果；评估模块通过匹配引擎再次调取词典索引库中的词语，对匹配结果进行评分；结果组装模块对评分后的匹配结果进行格式化组合。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105138511
【申请号】CN201510487571
【发明人】石川
【申请人】北京思特奇信息技术股份有限公司
【公开日】2015年12月9日
【申请日】2015年8月10日

完整全部详细技术资料下载

当前第3页1 2 3