一种对搜索关键词进行语义分析的方法和系统的制作方法

文档序号:9417344阅读:566来源:国知局
一种对搜索关键词进行语义分析的方法和系统的制作方法
【技术领域】
[0001] 本发明涉及信息检索技术,尤其涉及一种对搜索关键词进行语义分析的方法和系 统。
【背景技术】
[0002] 计算机科学领域的一个重要分支就是"人工智能",它企图了解智能的实质,并生 产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、 语言识别、图像识别、自然语言处理和专家系统等。
[0003] 在自然语言处理方面,如何让计算机识别和理解人类的语言,并且模拟人类思维 方式去思考、推理问题,是完成"人工智能"这个人类伟大理想的重要举措。不管是中文,英 文语言环境中,除了"你""我""他"等这类个别的例外以外,词组才是人类表达语义的最小 单位。
[0004] 中文由于其深厚而且博大精深的文化底蕴,"长字符串"形式的书写方式使得计算 机在理解中文方面远比理解英文要困难很多。因为英文本身就是以"词"为最小的存在单 位,书写方式是以空格区分每个词分割,所以计算机能通过空格来很好的识别英文的一个 最小语义表达。
[0005] 中文的复杂程度、表达语义的能力远远高于英文,同样一个词在不同的语用、语境 下表达的意思是完全不同的。比如"乒乓球拍卖完了",可以理解为"乒乓球_拍卖完了"、也 可以是"乒乓球拍_卖完了",再比如"XXX行贿中国石油公司"和"中国石油公司行贿XXX"。 同样的内容不同的分割、不同的顺序,表达的意思就完全不一样。所以若想让计算机识别中 文文本,第一步要做的就是告诉计算机在一句话中,哪几个字是一个词组。而这就是分词的 过程。而由于中文具有非常强的歧义性,所以准确分词技术是一项非常复杂和具有挑战性 的工作。
[0006] 常见的中文歧义类型有:
[0007] 1、组合歧义:在分词过程中是最常遇到的,比如:"美国花旗银行"中的"国花", "苏联想从边境撤军"中的"联想","技术和服务"中的"和服"等等非常多。
[0008] 2、人名歧义:"宁静"、"杨柳"、"黎明"等等,语境歧义
[0009] 3、语用歧义:"牦牛肉不好吃",其中的"好"有两种意思,a) "味道不好吃"的意思; b) "不容易吃"的意思;
[0010] 4、语境歧义:两米二六个头的姚明。并不是说姚明有"26个脑袋"
[0011] 5、真歧义:真歧义是最难以区分的,包括我们人类若没有上下文语境的判断和知 识积累,也很难正确的分词。例如"武汉市长江大桥"就可以分为"武汉_市长_江大桥"或 者"武汉市_长江大桥"。
[0012] 6、分词颗粒问题:"中国人民解放军"可以是一个词,也可以是"中国人民解放军" 在不同的应用情景下,分词颗粒度是完全不同的。分词颗粒度的不同,造成语义的完全不 同。
[0013] 7、分词具有领域性:在医药、化工领域的中文表达方式和文字特点与其他领域完 全不同,互联网网友的用词方式跟其他领域完全不同。
[0014] 这类歧义在中文中还有更多更多,若不能正确的分词,计算机就无法正确识别中 文文本的内容。但能正确的分词仅仅是中文语义识别的第一步,必须还要能准确的对词义 进行解析,让计算机"懂得"词的意义。
[0015] 现有技术方案中的关键字检索运用最常见的地方是基于关键字检索的客户 问答系统,在很多门户网站上均部署有此类机器问答系统,其实此类系统就是传统 FAQ(Frequently Asked Questions)的升级,当FAQ过多时用户可能不方便查找自己关心的 信息,于是有了这种升级和改进,专注于用户"问什么,答什么"。例如,用户提问:密码忘了 怎么办?机器人回复:
[0016] 尊敬的用户早上好!
[0017] 如果您忘记了密码可使用保密邮箱重置密码,请点击以下链接并输入您注册时填 写的保密邮箱地址:
[0018] www. XXX. com/pass ? type = rest
[0019] 上述例子中,系统接收到问本"密码忘了怎么办?",首先将文本拆分为:"密码"、 "忘了"、"怎么办? ",然后对拆分后的词进行关键字检索,最后判断出用户是想知道忘记密 码后怎么登陆系统,于是就将预先准备好的回复语返回给客户。
[0020] 这种识别方法比较简单,成本低见效快,但是准确度不高。如果用户提问为"我的 密码是什么?",系统估计就识别不出来是什么意思了。为了解决这类问题可以使用海量词 库来解决。
[0021] 当根据根据搜到词识别用户意图时,遇到的麻烦更多,见以下场景:l、"iph〇ne5 什么时候降价"2、"iphone6什么时候上市"3、"三星合约机"〇6"5、"安卓手机数据线"6、 "苹果5手机壳"7、"荣耀6白屏"。
[0022] 在场景1中,不仅是要识别出用户对iphone5感兴趣,更要识别出用户希望以优惠 的价格购机。在场景2中,用户表现出了对iphone6的关心,但是用户不一定想购买。在场 景3中,用户表现出了对三星手机的兴趣,但是必须是合约机。在场景4中,用户究竟是搜 索"Ipv6(Internet Protocol Version 6)"还是iphone6。在场景5中,用户是想购买安卓 手机的数据线而不是手机。在场景6中,用户是想买iphone5的手机壳而不是手机。在场 景7中,用户的荣耀6手机发生了白屏故障,而不是想买白色的荣耀6。因此单单使用传统 的关键字检索技术是无法满足要求的。

【发明内容】

[0023] 本发明所要解决的技术问题是提供一种通过综合语义判断,识别用户搜索意愿的 语义分析方法和系统。
[0024] 本发明解决上述技术问题的技术方案如下:一种对搜索关键词进行语义分析的 系统,包括搜索词接收模块、词典索引库、分词模块、语义分析模块、评估模块和结果组装模 块;
[0025] 所述搜索词接收模块,用于接收用户输入的搜索词,并将所述搜索词发送至分词 模块;
[0026] 所述词典索引库,用于存储停用词典、基础词典、正向词典、反向词典和核心词 血. ,、,
[0027] 所述分词模块,用于通过匹配引擎调取词典索引库中的词语,对搜索词进行中文 分词和去除停用词得到关键词语组,并将所述关键词语组发送至语义分析模块;
[0028] 所述语义分析模块,用于接收关键词语组,并通过匹配引擎调取词典索引库中的 词语,采用预设算法对关键词语组进行匹配,得到匹配结果;
[0029] 所述评估模块,用于通过匹配引擎再次调取词典索引库中的词语,对匹配结果进 行评分;
[0030] 所述结果组装模块,用于对评分后的匹配结果进行格式化组合。
[0031] 本发明的有益效果是:本发明对关键字检索切分成三个部分:关键检索、正向检 索、反向检索,并辅以语义算法和评分体系,进行综合语义判断,有效识别用户搜索意愿,从 而为有效的指导终端营销。
[0032] 本发明还提供一种对搜索关键词进行语义分析的方法,包括以下步骤,接收用户 输入的搜索词;
[0033] 对搜索词进行中文分词和去除停用词得到关键词语组;
[0034] 通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配, 得到匹配结果;
[0035] 通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分;
[0036] 对评分后的匹配结果进行格式化组合。
【附图说明】
[0037] 图1为本发明一种对搜索关键词进行语义分析的系统模块关系示意图;
[0038] 图2为本发明一种对搜索关键词进行语义分析的方法步骤流程图。
【具体实施方式】
[0039] 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[0040] 如图1所示,一种对搜索关键词进行语义分析的系统,包括搜索词接收模块、分词 模块、语义分析模块、评估模块和结果组装模块。搜索词接收模块,用于接收用户输入的搜 索词,并将搜索词发送至分词模块。分词模块,用于对搜索词进行中文分词和去除停用词得 到关键词语组,并将关键词语组发送至语义分析模块。本发明的分词模块选用了开源的分 词工具IKAnalyzer对搜索词进行分词,得到分词结果。语义分析模块,用于接收关键词语 组,并通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配,得到 匹配结果。评估模块,用于通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评 分。结果组装模块,用
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1