智能问答的方法、装置及系统的制作方法

文档序号:10624812阅读:259来源:国知局
智能问答的方法、装置及系统的制作方法
【专利摘要】本申请实施例提供了一种智能问答的方法、装置及系统,其中所述方法包括:接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多个第一分词;基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;计算所述一个或多个第一分词的权重;依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似度;将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。本申请实施例可以提升智能问答过程中的结果推荐准确率。
【专利说明】
智能问答的方法、装置及系统
技术领域
[0001] 本申请涉及信息推荐技术领域,特别是涉及一种智能问答的方法,W及,一种智能 问答的装置,W及,一种智能问答系统。
【背景技术】
[0002] 随着互联网服务的日益发展,越来越多的互联网企业需要提供在线客户服务(简 称在线客服)来解决客户的问题。很显然,通过人工客服的方式不能应对海量的用户问答 请求,送就需要一种智能问答系统来通过自动回复的方式来解决用户的诉求。智能问答系 统一种为了解决用户的问答需求的系统,其系统底层是一个排序系统,通过理解用户的提 问来为用户推荐比较合适的问题答案。
[0003] 现有的智能问答系统的基本流程为:
[0004] 1.通过用户的问答如ery (关键词)来检索知识库;
[0005] 2.计算问答如e巧与知识库中知识点title的相似度;
[0006] 3.将相似度值最大的结果返回给用户。
[0007] 其中在计算相似度时,涉及到对问答如ery进行分词得到分词Term, W及每个分 词Term的权重的问题。对于分词Term的权重,现有的方法有:
[0008] 方法一,不特殊设置权重,每个分词Term的权重相同;
[0009] 方法二,通过规则的方法,为不同类型的分词Term设置不同的权重。
[0010] 然而,目前的两种分词权重设置方式存在如下缺陷:
[0011] (1)方法一不能把不同分词Term有效区分开,使相似度计算结果区分度不够高, 实际应用效果不理想;
[0012] (2)方法二中的人工设置权重的方法不方便进行系统调优,需要经过多轮迭代才 能找到合适的权重设置规则,构建成本高;
[0013] (3)方法二中,给不同类型Term设置不同权重,送种权重设置需要人工的先验知 识,不能随着系统的演进进行调整,维护成本高。
[0014] W上Η种缺陷都有可能影响相似度的计算结果,进而影响到智能问答系统最终的 推荐效果。
[0015] 因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提供一种智能问 答机制,W提升智能问答过程中的结果推荐准确率。

【发明内容】

[0016] 本申请实施例所要解决的技术问题是提供一种智能问答的方法,W提升智能问答 过程中的结果推荐准确率。
[0017] 相应的,本申请实施例还提供了一种智能问答的装置及一种智能问答系统,用W 保证上述方法的实现及应用。
[001引为了解决上述问题,本申请公开了一种智能问答的方法,所述方法包括:
[0019] 接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多 个第一分词;
[0020] 基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集 合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;
[0021] 计算所述一个或多个第一分词的权重;
[0022] 依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相 似度;
[0023] 将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。
[0024] 优选地,所述依据所述一个或多个第一分词的权重,计算所述提问关键词与各候 选建议词的相似度的步骤包括:
[00巧]对所述候选建议词的集合中的候选建议词进行分词处理,得到对应的一个或多个 第二分词;
[0026] 计算所述一个或多个第二分词的权重;
[0027] 将所述一个或多个第一分词的权重,组织成所述提问关键词的向量信息;
[0028] 将每个候选建议词对应的一个或多个第二分词的权重,组织成对应的候选建议词 的向量信息;
[0029] 采用所述提问关键词的向量信息与各候选建议词的向量信息,计算所述提问关键 词与各候选建议词的相似度。
[0030] 优选地,所述计算所述一个或多个第一分词的权重的步骤包括:
[0031] 分别提取所述第一分词的多个特征信息;
[0032] 获取所述多个特征信息的权重;
[0033] 汇总所述多个特征信息的权重,得到所述第一分词的权重。
[0034] 优选地,所述获取所述多个特征信息的权重的步骤为:
[0035] 加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权 重的映射关系;
[0036] 在所述权重计算模型中查询所述特征信息的权重。
[0037] 优选地,所述权重计算模型按照如下方式生成:
[0038] 查询日志记录,获取在先提问关键词及对应的建议词,其中,所述建议词为预设数 据库中包含所述在先提问关键词的一个或多个分词的词;
[0039] 依据所述在先提问关键词及对应的建议词,构建所述在先提问关键词与所述建议 词的组合;
[0040] 基于所述在先提问关键词与所述建议词的组合,映射出分词组合,所述分词组合 为对所述在先提问关键词进行分词处理及对所述建议词进行分词处理后,得到的分词的组 合;
[0041] 针对所说分词组合中的每个分词,分别提取预置的多个特征信息,形成特征信息 组合;
[0042] 对所述特征信息组合进行模型训练,得到权重计算模型。
[0043] 优选地,所述基于所述在先提问关键词与所述建议词的组合,映射出分词组合的 步骤包括:
[0044] 基于所述在先提问关键词与所述建议词的组合,分别对所述在先提问关键词及所 述建议词进行分词处理,得到分词列表;
[0045] 基于所述分词列表,获得相同分词列表及不同分词列表,并定义相同分词与不同 分词列表的关系为;相同分词列表〉不同分词列表;
[0046] 结合所述相同分词列表与所述不同分词列表的关系,构建分词组合。
[0047] 优选地,所述对所述特征信息组合进行模型训练,得到权重计算模型的步骤包 括:
[0048] 将所述特征信息组合转换为特定样本格式的特征信息组合;
[0049] 通过排序向量空间模型算法RankSVM对所述特定样本格式的特征信息组合进行 建模,获得权重计算模型。
[0050] 优选地,所述特征信息至少包括如下信息:词频TF、逆文档频率IDF、TF*IDF、 BM25、分词长度LEN、类目信息、词性信息。
[0051] 优选地,在所述对所述特征信息组合进行模型训练,得到权重计算模型的步骤之 后,还包括:
[0052] 依据所述日志记录更新所述权重计算模型。
[0053] 优选地,所述将所述相似度符合预设规则的候选建议词及对应的答案信息返回所 述客户端的步骤包括:
[0054] 将所述相似度排序在前的N个候选建议词及对应的答案信息返回所述客户端,其 中N为正整数;
[00财 或者,
[0056] 将所述相似度大于预设阔值的候选建议词及对应的答案信息返回所述客户端。
[0057] 本申请还公开了一种智能问答的装置,所述装置包括:
[0058] 第一分词模块,用于接收客户端发送的提问关键词,将所述提问关键词进行分词 处理,得到一个或多个第一分词;
[0059] 候选建议词获取模块,用于基于所述一个或多个第一分词,获取与所述提问关键 词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分 词的词;
[0060] 第一权重计算模块,用于计算所述一个或多个第一分词的权重;
[0061] 相似度计算模块,用于依据所述一个或多个第一分词的权重,计算所述提问关键 词与各候选建议词的相似度;
[0062] 信息返回模块,用于将所述相似度符合预设规则的候选建议词及对应的答案信息 返回所述客户端。
[0063] 优选地,所述相似度计算模块包括:
[0064] 第二分词子模块,用于对所述候选建议词的集合中的候选建议词进行分词处理, 得到对应的一个或多个第二分词;
[0065] 第二权重计算子模块,用于计算所述一个或多个第二分词的权重;
[0066] 第一向量组织子模块,用于将所述一个或多个第一分词的权重,组织成所述提问 关键词的向量信息;
[0067] 第二向量组织子模块,用于将每个候选建议词对应的一个或多个第二分词的权 重,组织成对应的候选建议词的向量信息;
[0068] 计算子模块,用于采用所述提问关键词的向量信息与各候选建议词的向量信息, 计算所述提问关键词与各候选建议词的相似度。
[0069] 优选地,所述第一权重计算模块包括:
[0070] 特征提取子模块,用于分别提取所述第一分词的多个特征信息;
[0071] 特征权重获取子模块,用于获取所述多个特征信息的权重;
[0072] 汇总子模块,用于汇总所述多个特征信息的权重,得到所述第一分词的权重。
[0073] 优选地,所述特征权重获取子模块还用于:
[0074] 加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权 重的映射关系;
[00巧]在所述权重计算模型中查询所述特征信息的权重。
[0076] 优选地,所述装置还包括:
[0077] 信息提取模块,用于查询日志记录,获取在先提问关键词及对应的建议词,其中, 所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词;
[0078] 第一组合构建模块,用于依据所述在先提问关键词及对应的建议词,构建所述在 先提问关键词与所述建议词的组合;
[0079] 第二组合构建模块,用于基于所述在先提问关键词与所述建议词的组合,映射出 分词组合,所述分词组合为对所述在先提问关键词进行分词处理及对所述建议词进行分词 处理后,得到的分词的组合;
[0080] 第Η组合构建模块,用于针对所说分词组合中的每个分词,分别提取预置的多个 特征信息,形成特征信息组合;
[0081] 模型训练模块,用于对所述特征信息组合进行模型训练,得到权重计算模型。
[0082] 优选地,所述第二组合构建模块包括:
[0083] 分词列表获取子模块,用于基于所述在先提问关键词与所述建议词的组合,分别 对所述在先提问关键词及所述建议词进行分词处理,得到分词列表;
[0084] 关系定义子模块,用于基于所述分词列表,获得相同分词列表及不同分词列表,并 定义相同分词与不同分词列表的关系为;相同分词列表〉不同分词列表;
[0085] 构建子模块,用于结合所述相同分词列表与所述不同分词列表的关系,构建分词 组合。
[0086] 优选地,所述模型训练模块包括:
[0087] 格式转换子模块,用于将所述特征信息组合转换为特定样本格式的特征信息组 合;
[0088] 训练子模块,用于通过排序向量空间模型算法RankSVM对所述特定样本格式的特 征信息组合进行建模,获得权重计算模型。
[008引优选地,所述特征信息至少包括如下信息:词频TF、逆文档频率IDF、TF*IDF、 BM25、分词长度LEN、类目信息、词性信息。
[0090] 优选地,所述装置还包括:
[0091] 更新模块,用于依据所述日志记录更新所述权重计算模型。
[0092] 优选地,所述信息返回模块包括:
[0093] 第一返回子模块,用于将所述相似度排序在前的N个候选建议词及对应的答案信 息返回所述客户端,其中N为正整数;
[0094] 或者,
[0095] 第二返回子模块,用于将所述相似度大于预设阔值的候选建议词及对应的答案信 息返回所述客户端。
[0096] 本申请实施例还公开了一种智能问答系统,所述系统包括客户端和服务器,其中,
[0097] 所述客户端包括:
[0098] 信息发送模块,用于向所述服务器发送提问关键词;
[0099] 信息展现模块,用于接收所述服务器返回的候选建议词及对应的答案信息,并展 现所述候选建议词及对应的答案信息;
[0100] 所述服务器包括:
[0101] 第一分词模块,用于接收客户端发送的提问关键词,将所述提问关键词进行分词 处理,得到一个或多个第一分词;
[0102] 候选建议词获取模块,用于基于所述一个或多个第一分词,获取与所述提问关键 词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分 词的词;
[0103] 第一权重计算模块,用于计算所述一个或多个第一分词的权重;
[0104] 相似度计算模块,用于依据所述一个或多个第一分词的权重,计算所述提问关键 词与各候选建议词的相似度;
[0105] 信息返回模块,用于将所述相似度符合预设规则的候选建议词及对应的答案信息 返回所述客户端。
[0106] 与【背景技术】相比,本申请实施例包括W下优点:
[0107] 在本申请实施例中,当接收到提问关键词W后,可W对该提问关键词进行分词,得 到一个或多个第一分词,进而获取与提问关键词匹配的候选建议词的集合,并计算每个第 一分词的权重,然后依据该一个或多个第一分词的权重,计算提问关键词与各候选建议词 的相似度,展现相似度符合预设规则的候选建议词及对应的答案信息。本申请实施例针对 不同的第一分词,分别计算其权重,能有效的将不同的第一分词区分开,进而提高相似度计 算结果的区分度,提高了建议词推荐的准确率。
[010引另外,本申请实施例通过查询日志记录中用户行为的记录,获取在先提问关键词 与对应的建议词,基于在先提问关键词与对应的建议词构建在先提问关键词与建议词的组 合,并通过分词处理得到分词组合,W及,对分词组合进行特征信息提取,得到特征信息组 合,W特征信息组合作为训练样本进行模型训练,避免了人工构建采集样本并人工根据样 本进行模型训练的麻烦,减少了人工参与的成本,自动化样本采集的过程及模型训练过程 还提升了模型训练效率和准确率。
[0109] 进一步的,本申请实施例可W通过预先建立的权重计算模型获得第一分词的权 重,权重计算模型因日志记录的更新而更新,无需人工的先验知识,方便系统调优的同时, 节省了人工成本及构建维护成本。
【附图说明】
[0110] 图1是本申请的一种智能问答的方法实施例一的步骤流程图;
[0111] 图2是本申请的一种权重计算模型建立方法实施例的步骤流程图;
[0112] 图3是本申请的一种智能问答的方法实施例二的步骤流程图;
[0113] 图4是本申请的一种智能问答的装置实施例的结构框图;
[0114] 图5是本申请的一种智能问答系统实施例的结构框图。
【具体实施方式】
[0115] 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本申请作进一步详细的说明。
[0116] 本申请实施例可W应用于在线智能问答的场景,例如,应用于智能问答系统 (如estion Answering System, QA)中。智能问答系统W-问一答形式,精确的定位用户所 需要的提问知识,通过与用户进行交互,为用户提供个性化的信息服务,节约人力资源,提 高信息处理的自动性,提高信息处理效率。
[0117] 参照图1,示出了本申请的一种智能问答的方法实施例一的步骤流程图,具体可W 包括如下步骤:
[0118] 步骤101,接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到 一个或多个第一分词;
[0119] 步骤102,基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议 词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的词;
[0120] 步骤103,计算所述一个或多个第一分词的权重;
[0121] 步骤104,依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建 议词的相似度;
[0122] 步骤105,将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述 客户端。
[0123] 在本申请实施例中,当接收到客户端发送的提问关键词W后,可W对该提问关键 词进行分词,得到一个或多个第一分词,进而基于该一个或多个第一分词获取与提问关键 词匹配的候选建议词的集合,其中,候选建议词为预设数据库中包含所述一个或多个第一 分词的词。计算每个第一分词的权重,然后依据该一个或多个第一分词的权重,计算提问关 键词与各候选建议词的相似度,并将相似度符合预设规则的候选建议词及对应的答案信息 返回客户端,W在客户端中进行展现。本申请实施例针对不同的第一分词,分别计算其权 重,能有效的将不同的第一分词区分开,进而提高相似度计算结果的区分度,提高了建议词 推荐的准确率。
[0124] W下先对本申请的权重计算模型建立过程进行说明。参照图2,示出了本申请的一 种权重计算模型建立方法实施例的步骤流程图,具体可W包括如下步骤:
[01巧]步骤201,查询日志记录,获取在先提问关键词及对应的建议词;
[0126] 在具体实现中,日志记录可W是本申请的服务器中存储的访问日志记录和/或点 击日志记录,该访问日志记录是记录用户在服务器中的预设时间段内的访问行为的历史数 据,该点击日志记录是记录用户在服务器中预设时间段内的点击行为的历史数据。
[0127] 可W通过查询日志记录来获得服务器中所有的在先提问关键词如ery及对应的 建议词。其中,日志记录除了包含在先提问关键词及对应的建议词w外,还可w包括提问时 间、提问用户标识等信息。
[012引所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词。具 体来说,建议词是服务器根据在先提问关键词匹配出的与在先提问关键词对应的推荐词或 关联词,可W是包含在先提问关键词的部分或全部分词的词,该建议词是预先存储在预设 数据库中的,具有关联的答案信息。
[0129] 例如,在先提问关键词是"余额宝提现",则建议词可W是"余额宝提现失败"、"余 额宝如何提现"、"余额宝定期提现如何设置"等等。
[0130] 步骤202,依据所述在先提问关键词及对应的建议词,构建所述在先提问关键词与 所述建议词的组合;
[0131] 在本申请实施例中,可W依据用户对建议词的点击行为来构建在先提问关键词与 对应的建议词的组合。具体来说,建议词可W具有关联的入口信息,点击该入口信息可W引 导用户进入答案信息的页面,在获得建议词W后,可W将该入口信息W及建议词的组合W 列表的形式展现给用户,用户对某个入口信息的点击便产生了点击行为。
[0132] 在获得在先提问关键词W及对应的多个建议词W后,统计出对于一个在先提问关 键词,它对应的建议词是否被点击,若被点击,则构建在先提问关键词与建议词的组合,送 种组合简称如ery的pair对。
[0133] 例如,对于在先提问关键词如ery A,它对应的建议词可W包括A、B、C Η个,如果 建议词A被点击,建议词Β及建议词C未被点击,则得到的在先提问关键词与对应的建议词 的组合(如ery的pair对)可W为;在先提问关键词如ery A〉建议词A〉建议词B&&建议 词C。
[0134] 步骤203,基于所述在先提问关键词与所述建议词的组合,映射出分词组合;
[0135] 其中,所述分词组合为对上述的如ery的pair对中的在先提问关键词进行分词处 理及对各个建议词进行分词处理后,得到的分词的组合。具体而言,在本申请实施例的一种 优选实施方式中,步骤203可W包括如下过程:
[0136] (1)基于在先提问关键词与建议词的组合,分别对在先提问关键词及建议词进行 分词处理,得到分词列表;
[0137] 例如,针对上例的pair对;在先提问关键词如ery A〉建议词A〉建议词B&&建议 词C,若如ery A为"余额宝提现",建议词A为"余额宝提现失败",建议词B为"余额宝如 何提现",建议词C为"余额宝定期提现如何设置",其分词处理后得到的分词列表(term列 表)如下表1所不:
[013 引
[0139] 表 1
[0140] 下面介绍几种分词方法:
[0141] 1、基于字符串匹配的分词方法;是指按照一定的策略将待分析的汉字串与一个预 置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个 词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的 语言信息来进一步提高切分的准确率。
[0142] 2、基于特征扫描或标志切分的分词方法;是指优先在待分析字符串中识别和切分 出一些带有明显特征的词,W送些词作为断点,可将原字符串分为较小的串再来进机械分 词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词 决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准 确率。
[0143] 3、基于理解的分词方法;是指通过让计算机模拟人对句子的理解,达到识别词的 效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理 歧义现象。它通常包括Η个部分:分词子系统、句法语义子系统、总控部分。在总控部分的 协调下,分词子系统可W获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即 它模拟了人对句子的理解过程。送种分词方法需要使用大量的语言知识和信息。
[0144] 4、基于统计的分词方法;是指中文信息中由于字与字相邻共现的频率或概率能够 较好的反映成词的可信度,所W可W对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息,W及计算两个汉字X、Υ的相邻共现概率。互现信息可W体现汉字之 间结合关系的紧密程度。当紧密程度高于某一个阔值时,便可认为此字组可能构成了一个 词。送种方法只需对语料中的字组频度进行统计,不需要切分词典。
[0145] 似基于分词列表,获得相同分词列表及不同分词列表,并定义相同分词与不同分 词列表的关系为:相同分词列表〉不同分词列表;
[0146] 具体来说,相同分词是指在先提问关键词与各建议词的相同词单元,不同分词是 指在先提问关键词与各建议词的不同词单元。例如上述表1中,如ery A与建议词A的相 同分词为"余额宝"、"提现",不同分词为"失败";如ery A与建议词B的相同分词为"余额 宝"、"提现",不同分词为"如何";如ery A与建议词C的相同分词为"余额宝"、"提现",不同 分词为"定期"、"如何"、"设置"。
[0147] 本申请实施例对于相同分词列表可W定义为same_te;rms (如eryA,如eryB), 表示如eryA与如eryB中相同Term的集合;对于不同分词列表可W定义为diff_ terms (如eryA,如eryB),表不如eryA与如eryB中不同Term的集合。例如,针对上例,same_ terms (如eryA,建议词A) = {余额宝、提现},diff_te;rms (如eryA,建议词A) = {失败}; same_te;rms (如eryA,建议词 B) = {余额宝、提现},diff_te;rms (如eryA,建议词 B) = {如 何} ;same_te;rms (如eryA,建议词 C) = {余额宝、提现},diff_te;rms (如eryA,建议词 C)= {定期、如何、设置}。
[014引 (3)结合相同分词列表与不同分词列表的关系,构建分词组合。
[0149]结合 same_te;rms (如eryA,如eryB)〉diff_te;rms (如eryA,如eryB),构建分词组合 termXHermYHermZI;其中,Χ、Υ、Ζ表示分词)。例如,针对上例,得到的分词组合可W包括: [0150] A ;余额宝〉失败〉如何
[OW] B;提现〉失败〉如何
[0152] C;余额宝〉失败〉定期
[0153] D;提现〉失败〉定期
[0154] E;余额宝〉失败〉设置
[0155] F;提现〉失败〉设置
[0156] 上述分词组合A-F可W组成分词组合的集合,即term pair对集合。
[0157] 步骤204,针对所说分词组合中的每个分词,分别提取预置的多个特征信息,形成 特征信息组合;
[0158] 获得分词组合后,可W基于每个分词提取出一些特定维度的历史特征信息,该特 征信息可W表现为特征分值。作为一种示例,该特征信息至少可W包括如下信息:词频TF、 逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。
[0159] 对每个特征信息说明如下:
[0160] TF(te;rm化equency,词频):每个分词term在建议词中出现的次数;
[016。 IDF(Inverse Document Rrequen巧,逆向文件频率):log(有多少个建议词中出现 过该分词term);
[0162] TFIDF:TF*IDF ;
[0163] BM25 ;常用的BM25算法得出;
[0164] LEN:分词term的长度;
[0165] 类目信息:即类目赌,是衡量分词term的类目分布情况(预设数据库中有类目信 息),其中,赌的定义;S(te;rm) =-sum(p 1〇甜),其中P是term属于某个类目的概率,例如, 在电商行业中,类目信息可W为服装类、食品类、电子类等。
[0166] 词性信息;分词term的词性(产品词、修饰词、停顿词等),其中,可W通过通用的 分词工具来获得分词term的词性;
[0167] 应用于本申请实施例,可W将分词组合中的每个分词,用对应的特征信息的 集合表示,得到特征信息组合。也就是说,对于分词组合termAHermB,可W表示为 feature1_A, feature2_A, ..., featureN_A>featurel_B> feature2_B. · · · . featureN_B ;其 中,featurel_A, fea1:ure2_A, . . . , fea1:ureN_A 是 Term 词 A 对应的特征列表,featurel_ B, feature2_B, . . . , fea1:ureN_B 是 Term 词 B 对应的特征列表。
[016引例如,对于上述分词组合中的"余额宝〉失败",若"余额宝"的特征信息列表为(tf =1,i壯=0. 25, TFIDF = 1. 5, BM25 = 3. 2, LEN = 3),"失败"的特征信息列表为(tf = 3, i壯=0. 3,TFIDF = 2,BM25 = 1. 5,LEN = 2),则。余额宝〉失败"表示为(1,0. 25, 1. 5, 3. 2, 3)〉(3, 0.3, 2, 1.5,2)。
[0169] 步骤205,对所述特征信息组合进行模型训练,得到权重计算模型。
[0170] 对于分词组合每个分词都用对应的特征信息集合表示,得到特征信息组合W后, 可W将该特征信息组合作为训练样本集合进行模型训练,得到权重计算模型。在具体实现 中,可W采用排序向量空间模型算法RankSVM来进行模型训练。
[017。 RankSVM是一种pair-wise的Rank学习算法,它可W对一组term词的排序样本进 行学习,获得到排序模型(MocM)。因为RankSVM是基于SVM进行开发的,它支持各种不同 的核函数进行分类,包括高斯核、多项式核、线性核等。其中,高斯核和多项式核可W将低维 问题转化为高维问题,从而提高模型的准确率,但是送两种核的模型训练速度较慢,同时在 线上预测复杂度比较高;而线性核虽然泛化能力较弱,但是它训练速度较快,因此,本申请 实施例的模型训练优选地使用线性核进行。
[0172] 在本申请实施例的一种优选实施例中,步骤205可W包括如下子步骤:
[0173] 子步骤S10,将所述特征信息组合转换为特定样本格式的特征信息组合;
[0174] 在实际中,特定样本格式可W为RankSVM所需的样本格式。RankSVM所需的样本格 式的特征信息组合可 W为;(1, featurel_A, fea1:ure2_A, . . . , fea1:ureN_A)、(0, fea1:urel_ B,feature2_B, . . . , featureN_B),
[0Π 5] 其中,1,0表示该样本的序关系,1代表的样本优于0代表的样本。
[0176] 子步骤S20,通过RankSVM对所述特定样本格式的特征信息组合进行建模,获得权 重计算模型。
[0177] 在具体实现中,通过RankSVM对特定样本格式的特征信息组合进行建模,得到的 权重计算模型为一组权重列表,送组权重列表是特征信息的权重组成的列表,特征信息的 权重表征每个特征信息在分类时的有效性,例如,得到的权重计算模型为{Wei曲t(tf)= 0.02,胖61曲1(1壯)=0.21,¥61曲1灯尸10巧=0.7,¥61曲1度125)=0.1,胖61曲1(1^脚= 0.引。
[0178] 在实际中,可W设置一测试样本对权重计算模型进行准确率检验,并不断迭代,使 得权重计算模型的准确率达到最优。
[0179] 另外,由于日志记录是随着用户行为的变化而变化的,因此可W依据日志记录更 新权重计算模型,使得权重计算模型随着智能问答系统的演进而调整,W降低对权重计算 模型的维护成本。
[0180] 在本申请实施例中,通过查询日志记录中用户行为的记录,获取在先提问关键词 与对应的建议词,基于在先提问关键词与对应的建议词构建在先提问关键词与建议词的组 合,并通过分词处理得到分词组合,W及,对分词组合进行特征信息提取,得到特征信息组 合,W特征信息组合作为训练样本进行模型训练,避免了人工构建采集样本并人工根据样 本进行模型训练的麻烦,减少了人工参与的成本,自动化样本采集的过程及模型训练过程 还提升了模型训练效率和准确率。
[0181] 参照图3,示出了本申请的一种智能问答的方法实施例二的步骤流程图,具体可W 包括如下步骤:
[0182] 步骤301,接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到 一个或多个第一分词;
[0183] 提问关键词可W是用户在客户端提供的交互页面中输入的提问信息,客户端接收 到用户输入的提问关键词W后,依据提问关键词生成提问请求,并将提问请求发送至服务 器。
[0184] 服务器接收到提问关键词W后,对提问关键词进行分词处理,得到一个或多个第 一分词。其中,此处对于提问关键词的分词处理的方式及下述对于候选建议词的分词方式, 均可W参照图2实施例中的分词处理方式,在此不再赏述了。
[0185] 需要说明的是,服务器对提问关键词执行分词处理W外,还可W进行其他的预处 理,例如,去停止词处理、错误矫正处理等。
[0186] 步骤302,基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议 词的集合;
[0187] 服务器获得一个或多个第一分词W后,可W基于该一个或多个第一分词,获取与 提问关键词匹配的候选建议词的集合,候选建议词可W为预设数据库中包含所述一个或多 个第一分词的词。具体来说,服务器侧的预设数据库中对于每个词单元(即每个分词term) 都存储有对应的候选建议词(即每个term可W召回多个候选建议词),则提问关键词的所 有第一分词对应的候选建议词组成该提问关键词对应的候选建议词的集合,也就是说,候 选建议词是包含部分或全部第一分词的词。
[018引需要说明的是,对于获取的所有候选建议词,可能存在重复的词,则本申请实施例 还可W对候选建议词进行去重处理。
[0189] 例如,若提问关键词为"余额宝提现",则第一分词包括"余额宝"、"提现",在预设 数据库查询"余额宝"时获得匹配的候选建议词为"余额宝提现失败"、"余额宝如何提现"、 "余额宝定期提现如何设置"、"余额宝是什么"等等,在预设数据库查询"提现"时获得匹配 的候选建议词为"余额宝提现失败"、"余额宝如何提现"、"余额宝定期提现如何设置"、"怎 么提现"等等,则提问关键词"余额宝提现"对应的候选建议词的集合为:"余额宝提现失 败"、"余额宝如何提现"、"余额宝定期提现如何设置"、"余额宝是什么"、"怎么提现"(已经 去掉重复的"余额宝提现失败"、"余额宝如何提现"、"余额宝定期提现如何设置")。
[0190] 步骤303,计算所述一个或多个第一分词的权重;
[0191] 获得提问关键词的一个或多个第一分词W后,可W针对每个第一分词,计算该第 一分词的权重。在本申请的一种优选实施例中,步骤303可W包括如下子步骤:
[0192] 子步骤S11,分别提取所述第一分词的多个特征信息;
[0193] 在实际中,得到第一分词后,可W获取第一分词的多个特征信息,该特征信息至少 包括如下信息的一种或多种:词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信 息、词性信息。其中,上述特征信息可W采用通用的方式获取,本申请实施例对其获取方式 无需加 W限制。
[0194] 子步骤S12,获取所述多个特征信息的权重;
[0195] 获取第一分词的特征信息W后,可W进一步获取该特征信息的权重。在本申请的 一种优选实施例中,子步骤S12进一步可W包括如下子步骤:
[0196] 子步骤S121,加载预先生成的权重计算模型;
[0197] 应用于本申请实施例,权重计算模型是在线下训练得到的模型,当服务器接收到 提问关键词后,加载该权重计算模型。
[0198] 权重计算模型可W为一组特征信息的权重列表文件,保存了多个特征信息与对应 的权重的映射关系。
[0199] 子步骤S122,基于所述特征权重列表,查询所述特征信息的权重。
[0200] 加载权重计算模型后,可W在该权重计算模型中查询该第一分词对应的特征信 息,W获得每个特征信息的权重。
[0201] 子步骤S13,汇总所述多个特征信息的权重,得到所述第一分词的权重。
[0202] 在具体实现中,第一分词的权重是其所有特征信息的权重的总和。第一分词的权 重可W采用如下公式计算:
[0203]
[0204] 其中,score是第一分词的权重,fe£Tture_i是特征信息i,wei曲t_i是特征信息 fea1:ure_i 的权重。
[020引例如,若第一分词为。余额宝",其特征信息列表为(tf = 1,i壯=0. 25, TFIDF = 1. 5, BM25 = 3. 2, LEN = 3),则该第一分词的权重是 1+0. 25+1. 5+3. 2+3 = 8. 95。
[0206] 步骤304,分别对所述候选建议词进行分词处理,得到对应的一个或多个第二分 词,并计算所述一个或多个第二分词的权重;
[0207] 在实际中,获得多个候选建议词后,可W对多个候选建议词进行分词处理,得到各 个候选建议词对应的一个或多个第二分词。
[020引此处第二分词的权重计算方法与上述第一分词的权重计算方法相似,可W参照上 述第一分词的权重计算过程,本申请实施例在此不再赏述了。
[0209] 步骤305,将所述一个或多个第一分词的权重,组织成所述提问关键词的向量信 息,W及,将每个候选建议词对应的一个或多个第二分词的权重,组织成对应的候选建议词 的向量信息;
[0210] 获得提问关键词的一个或多个第一分词的权重W后,可W根据第一分词的权重, 组织提问关键词的向量信息,例如,若提问关键词是"支付宝提现",对其分词处理后得到的 第一分词分别是"支付宝"、"提现"。如果"支付宝"的权重是5. 5,"提现"的权重是5. 7,则 得到的提问关键词的向量信息是巧.5,5. 7}。
[0211] 候选建议词的向量信息的组织方法可W参照上述提问关键词的向量信息的组织 方法,在此不再赏述了。
[0212] 步骤306,采用所述提问关键词的向量信息与各候选建议词的向量信息,计算所述 提问关键词与各候选建议词的相似度;
[0213] 在具体实现中,相似度(即相关性得分)的计算方法可W采用余弦定理计算两个 向量间的夹角的余弦值。具体计算过程如下:
[0214] 假设提问关键词a的向量为[xa,ya,za],候选建议词的向量为[xb,yb,zb],则相 似度计算如下:
[021 引
[0216] 步骤307,将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述 客户端。
[0217] 应用于本申请实施例,在计算了提问关键词与各个候选建议词的相似度W后,可 W将相似度符合预设规则的候选建议词及对应的答案信息返回客户端,W在客户端中进行 展现。
[021引在一种实施方式中,符合预设规则的候选建议词可W为相似度排序在前的N个候 选建议词。具体来说,在计算了提问关键词与各个候选建议词的相似度W后,可W按照相似 度由大到小的顺序对候选建议词进行排序,并获取各候选建议词对应的答案信息,然后将 相似度排序在前N个的候选建议词及对应的答案信息发送至客户端,W在客户端中进行展 现。例如,N为1时,则获取相似度最大的候选建议词及对应的答案信息发送至客户端,作 为基于提问关键词的回答信息。
[0219] 在另一种实施方式中,符合预设规则的候选建议词可W为相似度大于预设阔值的 候选建议词,具体来说,在计算了提问关键词与各个候选建议词的相似度W后,将相似度大 于预设阔值的候选建议词及对应的答案信息发送至客户端,W通过客户端展现给用户。
[0220] 在具体实现中,候选建议词对应的答案信息在客户端中可入口信息扣化)的 形式进行展现,当用户点击该入口信息时,可W进入对应的页面。例如,在对话框中,返回多 个候选建议词链接(title+详情链接),当用户觉得某个候选建议词title比较相关时,可 W触发该链接,进入对应的页面。
[0221] 当然,答案信息也通过客户端直接展现在当前用户交互界面中,本申请实施例对 此无需加 W限制。
[0222] 在本申请实施例中,可W通过预先建立的权重计算模型获得第一分词的权重,权 重计算模型因日志记录的更新而更新,无需人工的先验知识,方便系统调优的同时,节省了 人工成本及构建维护成本。
[0223] 需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组 合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依 据本申请实施例,某些步骤可W采用其他顺序或者同时进行。其次,本领域技术人员也应该 知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施 例所必须的。
[0224] 参照图4,示出了本申请一种智能问答的装置实施例的结构框图,具体可W包括如 下模块:
[0225] 第一分词模块401,用于接收客户端发送的提问关键词,将所述提问关键词进行分 词处理,得到一个或多个第一分词;
[0226] 候选建议词获取模块402,用于基于所述一个或多个第一分词,获取与所述提问关 键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一 分词的词;
[0227] 第一权重计算模块403,用于计算所述一个或多个第一分词的权重;
[022引相似度计算模块404,用于依据所述一个或多个第一分词的权重,计算所述提问关 键词与各候选建议词的相似度;
[0229] 信息返回模块405,用于将所述相似度符合预设规则的候选建议词及对应的答案 信息返回所述客户端。
[0230] 在本申请实施例的一种优选实施例中,所述相似度计算模块404可W包括:
[0231] 第二分词子模块,用于对所述候选建议词的集合中的候选建议词进行分词处理, 得到对应的一个或多个第二分词;
[0232] 第二权重计算子模块,用于计算所述一个或多个第二分词的权重;
[0233] 第一向量组织子模块,用于将所述一个或多个第一分词的权重,组织成所述提问 关键词的向量信息;
[0234] 第二向量组织子模块,用于将每个候选建议词对应的一个或多个第二分词的权 重,组织成对应的候选建议词的向量信息;
[0235] 计算子模块,用于采用所述提问关键词的向量信息与各候选建议词的向量信息, 计算所述提问关键词与各候选建议词的相似度。
[0236] 在本申请实施例的一种优选实施例中,所述第一权重计算模块403可W包括:
[0237] 特征提取子模块,用于分别提取所述第一分词的多个特征信息;
[023引特征权重获取子模块,用于获取所述多个特征信息的权重;
[0239] 汇总子模块,用于汇总所述多个特征信息的权重,得到所述第一分词的权重。
[0240] 在本申请实施例的一种优选实施例中,所述特征权重获取子模块还可W用于:
[0241] 加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权 重的映射关系;
[0242] 在所述权重计算模型中查询所述特征信息的权重。
[0243] 在本申请实施例的一种优选实施例中,所述装置还可W包括:
[0244] 信息提取模块,用于查询日志记录,获取在先提问关键词及对应的建议词,其中, 所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词;
[0245] 第一组合构建模块,用于依据所述在先提问关键词及对应的建议词,构建所述在 先提问关键词与所述建议词的组合;
[0246] 第二组合构建模块,用于基于所述在先提问关键词与所述建议词的组合,映射出 分词组合,所述分词组合为对所述在先提问关键词进行分词处理及对所述建议词进行分词 处理后,得到的分词的组合;
[0247] 第Η组合构建模块,用于针对所说分词组合中的每个分词,分别提取预置的多个 特征信息,形成特征信息组合;
[024引模型训练模块,用于对所述特征信息组合进行模型训练,得到权重计算模型。
[0249] 在本申请实施例的一种优选实施例中,所述第二组合构建模块包括:
[0250] 分词列表获取子模块,用于基于所述在先提问关键词与所述建议词的组合,分别 对所述在先提问关键词及所述建议词进行分词处理,得到分词列表;
[0251] 关系定义子模块,用于基于所述分词列表,获得相同分词列表及不同分词列表,并 定义相同分词与不同分词列表的关系为;相同分词列表〉不同分词列表;
[0252] 构建子模块,用于结合所述相同分词列表与所述不同分词列表的关系,构建分词 组合。
[0巧3] 在本申请实施例的一种优选实施例中,所述模型训练模块包括:
[0254] 格式转换子模块,用于将所述特征信息组合转换为特定样本格式的特征信息组 合;
[0巧5]训练子模块,用于通过排序向量空间模型算法RankSVM对所述特定样本格式的特 征信息组合进行建模,获得权重计算模型。
[0256] 在本申请实施例的一种优选实施例中,所述特征信息至少包括如下信息:词频 TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。
[0巧7] 在本申请实施例的一种优选实施例中,所述装置还包括:
[025引更新模块,用于依据所述日志记录更新所述权重计算模型。
[ο巧9] 在本申请实施例的一种优选实施例中,所述信息返回模块405可w包括:
[0260] 第一返回子模块,用于将所述相似度排序在前的N个候选建议词及对应的答案信 息返回所述客户端,其中N为正整数;
[0261] 或者,
[0262] 第二返回子模块,用于将所述相似度大于预设阔值的候选建议词及对应的答案信 息返回所述客户端。
[0263] 对于图4所述的装置实施例而言,由于其与上述方法实施例基本相似,所W描述 的比较简单,相关之处参见方法实施例的部分说明即可。
[0264] 参照图5,示出了本申请一种智能问答系统实施例的结构框图,所述系统包括客户 端50和服务器60,其中,
[0265] 所述客户端50可W包括如下模块:
[0266] 信息发送模块501,用于向所述服务器发送提问关键词;
[0267] 信息展现模块502,用于接收所述服务器返回的候选建议词及对应的答案信息,并 展现所述候选建议词及对应的答案信息;
[026引所述服务器60可W包括如下模块:
[0269] 第一分词模块601,用于接收客户端发送的提问关键词,将所述提问关键词进行分 词处理,得到一个或多个第一分词;
[0270] 候选建议词获取模块602,用于基于所述一个或多个第一分词,获取与所述提问关 键词匹配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一 分词的词;
[0271] 第一权重计算模块603,用于计算所述一个或多个第一分词的权重;
[0272] 相似度计算模块604,用于依据所述一个或多个第一分词的权重,计算所述提问关 键词与各候选建议词的相似度;
[0273] 信息返回模块605,用于将所述相似度符合预设规则的候选建议词及对应的答案 信息返回所述客户端。
[0274] 在本申请实施例的一种优选实施例中,所述相似度计算模块604可W包括:
[0275] 第二分词子模块,用于对所述候选建议词的集合中的候选建议词进行分词处理, 得到对应的一个或多个第二分词;
[0276] 第二权重计算子模块,用于计算所述一个或多个第二分词的权重;
[0277] 第一向量组织子模块,用于将所述一个或多个第一分词的权重,组织成所述提问 关键词的向量信息;
[027引第二向量组织子模块,用于将每个候选建议词对应的一个或多个第二分词的权 重,组织成对应的候选建议词的向量信息;
[0279] 计算子模块,用于采用所述提问关键词的向量信息与各候选建议词的向量信息, 计算所述提问关键词与各候选建议词的相似度。
[0280] 在本申请实施例的一种优选实施例中,所述第一权重计算模块603可W包括:
[0281] 特征提取子模块,用于分别提取所述第一分词的多个特征信息;
[0282] 特征权重获取子模块,用于获取所述多个特征信息的权重;
[0283] 汇总子模块,用于汇总所述多个特征信息的权重,得到所述第一分词的权重。
[0284] 在本申请实施例的一种优选实施例中,所述特征权重获取子模块还可W用于:
[0285] 加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权 重的映射关系;
[0286] 在所述权重计算模型中查询所述特征信息的权重。
[0287] 在本申请实施例的一种优选实施例中,所述装置还可W包括:
[028引信息提取模块,用于查询日志记录,获取在先提问关键词及对应的建议词,其中, 所述建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词;
[0289] 第一组合构建模块,用于依据所述在先提问关键词及对应的建议词,构建所述在 先提问关键词与所述建议词的组合;
[0290] 第二组合构建模块,用于基于所述在先提问关键词与所述建议词的组合,映射出 分词组合,所述分词组合为对所述在先提问关键词进行分词处理及对所述建议词进行分词 处理后,得到的分词的组合;
[0291] 第Η组合构建模块,用于针对所说分词组合中的每个分词,分别提取预置的多个 特征信息,形成特征信息组合;
[0292] 模型训练模块,用于对所述特征信息组合进行模型训练,得到权重计算模型。
[0293] 在本申请实施例的一种优选实施例中,所述第二组合构建模块包括:
[0294] 分词列表获取子模块,用于基于所述在先提问关键词与所述建议词的组合,分别 对所述在先提问关键词及所述建议词进行分词处理,得到分词列表;
[0295] 关系定义子模块,用于基于所述分词列表,获得相同分词列表及不同分词列表,并 定义相同分词与不同分词列表的关系为;相同分词列表〉不同分词列表;
[0296] 构建子模块,用于结合所述相同分词列表与所述不同分词列表的关系,构建分词 组合。
[0297] 在本申请实施例的一种优选实施例中,所述模型训练模块包括:
[029引格式转换子模块,用于将所述特征信息组合转换为特定样本格式的特征信息组 合;
[0299] 训练子模块,用于通过排序向量空间模型算法RankSVM对所述特定样本格式的特 征信息组合进行建模,获得权重计算模型。
[0300] 在本申请实施例的一种优选实施例中,所述特征信息至少包括如下信息:词频 TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。
[0301] 在本申请实施例的一种优选实施例中,所述装置还包括:
[0302] 更新模块,用于依据所述日志记录更新所述权重计算模型。
[0303] 在本申请实施例的一种优选实施例中,所述信息返回模块605可W包括:
[0304] 第一返回子模块,用于将所述相似度排序在前的N个候选建议词及对应的答案信 息返回所述客户端,其中N为正整数;
[030引或者,
[0306] 第二返回子模块,用于将所述相似度大于预设阔值的候选建议词及对应的答案信 息返回所述客户端。
[0307] 对于图5所述的系统实施例而言,由于其与上述方法实施例基本相似,所W描述 的比较简单,相关之处参见方法实施例的部分说明即可。
[030引本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与 其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0309] 本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算 机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和 硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可 用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上 实施的计算机程序产品的形式。
[0310] 在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出 接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储 器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是 计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体 可W由任何方法或技术来实现信息存储。信息可W是计算机可读指令、数据结构、程序的模 块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取 存储器(SRAM)、动态随机存取存储器值RAM)、其他类型的随机存取存储器(RAM)、只读存储 器(ROM)、电可擦除可编程只读存储器巧EPROM)、快闪记忆体或其他内存技术、只读光盘只 读存储器(CD-ROM)、数字多功能光盘值VD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储 或其他磁性存储设备或任何其他非传输介质,可用于存储可W被计算设备访问的信息。按 照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media), 如调制的数据信号和载波。
[0311] 本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框 图中的每一流程和/或方框、W及流程图和/或方框图中的流程和/或方框的结合。可提 供送些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理 终端设备的处理器W产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处 理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多 个方框中指定的功能的装置。
[0312] 送些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备 W特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包 括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方 框或多个方框中指定的功能。
[0313] 送些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得 在计算机或其他可编程终端设备上执行一系列操作步骤W产生计算机实现的处理,从而在 计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程 和/或方框图一个方框或多个方框中指定的功能的步骤。
[0314] 尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对送些实施例做出另外的变更和修改。所W,所附权利要求意欲解释为 包括优选实施例W及落入本申请实施例范围的所有变更和修改。
[0315] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示送些实体或操作 之间存在任何送种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意 在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包 括郝些要素,而且还包括没有明确列出的其他要素,或者是还包括为送种过程、方法、物品 或者终端设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要 素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0316] W上对本申请所提供的一种智能问答的方法、装置及系统进行了详细介绍,本文 中应用了具体个例对本申请的原理及实施方式进行了阐述,W上实施例的说明只是用于帮 助理解本申请的方法及其核必思想;同时,对于本领域的一般技术人员,依据本申请的思 想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对 本申请的限制。
【主权项】
1. 一种智能问答的方法,其特征在于,所述方法包括: 接收客户端发送的提问关键词,将所述提问关键词进行分词处理,得到一个或多个第 一分词; 基于所述一个或多个第一分词,获取与所述提问关键词匹配的候选建议词的集合,所 述候选建议词为预设数据库中包含所述一个或多个第一分词的词; 计算所述一个或多个第一分词的权重; 依据所述一个或多个第一分词的权重,计算所述提问关键词与各候选建议词的相似 度; 将所述相似度符合预设规则的候选建议词及对应的答案信息返回所述客户端。2. 根据权利要求1所述的方法,其特征在于,所述依据所述一个或多个第一分词的权 重,计算所述提问关键词与各候选建议词的相似度的步骤包括: 对所述候选建议词的集合中的候选建议词进行分词处理,得到对应的一个或多个第二 分词; 计算所述一个或多个第二分词的权重; 将所述一个或多个第一分词的权重,组织成所述提问关键词的向量信息; 将每个候选建议词对应的一个或多个第二分词的权重,组织成对应的候选建议词的向 量信息; 采用所述提问关键词的向量信息与各候选建议词的向量信息,计算所述提问关键词与 各候选建议词的相似度。3. 根据权利要求1或2所述的方法,其特征在于,所述计算所述一个或多个第一分词的 权重的步骤包括: 分别提取所述第一分词的多个特征信息; 获取所述多个特征信息的权重; 汇总所述多个特征信息的权重,得到所述第一分词的权重。4. 根据权利要求3所述的方法,其特征在于,所述获取所述多个特征信息的权重的步 骤为: 加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权重的 映射关系; 在所述权重计算模型中查询所述特征信息的权重。5. 根据权利要求4所述的方法,其特征在于,所述权重计算模型按照如下方式生成: 查询日志记录,获取在先提问关键词及对应的建议词,其中,所述建议词为预设数据库 中包含所述在先提问关键词的一个或多个分词的词; 依据所述在先提问关键词及对应的建议词,构建所述在先提问关键词与所述建议词的 组合; 基于所述在先提问关键词与所述建议词的组合,映射出分词组合,所述分词组合为对 所述在先提问关键词进行分词处理及对所述建议词进行分词处理后,得到的分词的组合; 针对所说分词组合中的每个分词,分别提取预置的多个特征信息,形成特征信息组 合; 对所述特征信息组合进行模型训练,得到权重计算模型。6. 根据权利要求5所述的方法,其特征在于,所述基于所述在先提问关键词与所述建 议词的组合,映射出分词组合的步骤包括: 基于所述在先提问关键词与所述建议词的组合,分别对所述在先提问关键词及所述建 议词进行分词处理,得到分词列表; 基于所述分词列表,获得相同分词列表及不同分词列表,并定义相同分词与不同分词 列表的关系为:相同分词列表〉不同分词列表; 结合所述相同分词列表与所述不同分词列表的关系,构建分词组合。7. 根据权利要求5或6所述的方法,其特征在于,所述对所述特征信息组合进行模型训 练,得到权重计算模型的步骤包括: 将所述特征信息组合转换为特定样本格式的特征信息组合; 通过排序向量空间模型算法RankSVM对所述特定样本格式的特征信息组合进行建模, 获得权重计算模型。8. 根据权利要求5或6所述的方法,其特征在于,所述特征信息至少包括如下信息:词 频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。9. 根据权利要求4或5或6所述的方法,其特征在于,在所述对所述特征信息组合进行 模型训练,得到权重计算模型的步骤之后,还包括: 依据所述日志记录更新所述权重计算模型。10. 根据权利要求1所述的方法,其特征在于,所述将所述相似度符合预设规则的候选 建议词及对应的答案信息返回所述客户端的步骤包括: 将所述相似度排序在前的N个候选建议词及对应的答案信息返回所述客户端,其中N 为正整数; 或者, 将所述相似度大于预设阈值的候选建议词及对应的答案信息返回所述客户端。11. 一种智能问答的装置,其特征在于,所述装置包括: 第一分词模块,用于接收客户端发送的提问关键词,将所述提问关键词进行分词处理, 得到一个或多个第一分词; 候选建议词获取模块,用于基于所述一个或多个第一分词,获取与所述提问关键词匹 配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的 词; 第一权重计算模块,用于计算所述一个或多个第一分词的权重; 相似度计算模块,用于依据所述一个或多个第一分词的权重,计算所述提问关键词与 各候选建议词的相似度; 信息返回模块,用于将所述相似度符合预设规则的候选建议词及对应的答案信息返回 所述客户端。12. 根据权利要求11所述的装置,其特征在于,所述相似度计算模块包括: 第二分词子模块,用于对所述候选建议词的集合中的候选建议词进行分词处理,得到 对应的一个或多个第二分词; 第二权重计算子模块,用于计算所述一个或多个第二分词的权重; 第一向量组织子模块,用于将所述一个或多个第一分词的权重,组织成所述提问关键 词的向量信息; 第二向量组织子模块,用于将每个候选建议词对应的一个或多个第二分词的权重,组 织成对应的候选建议词的向量信息; 计算子模块,用于采用所述提问关键词的向量信息与各候选建议词的向量信息,计算 所述提问关键词与各候选建议词的相似度。13. 根据权利要求11或12所述的装置,其特征在于,所述第一权重计算模块包括: 特征提取子模块,用于分别提取所述第一分词的多个特征信息; 特征权重获取子模块,用于获取所述多个特征信息的权重; 汇总子模块,用于汇总所述多个特征信息的权重,得到所述第一分词的权重。14. 根据权利要求13所述的装置,其特征在于,所述特征权重获取子模块还用于: 加载预先生成的权重计算模型,所述权重计算模型包括多个特征信息及对应的权重的 映射关系; 在所述权重计算模型中查询所述特征信息的权重。15. 根据权利要求14所述的装置,其特征在于,所述装置还包括: 信息提取模块,用于查询日志记录,获取在先提问关键词及对应的建议词,其中,所述 建议词为预设数据库中包含所述在先提问关键词的一个或多个分词的词; 第一组合构建模块,用于依据所述在先提问关键词及对应的建议词,构建所述在先提 问关键词与所述建议词的组合; 第二组合构建模块,用于基于所述在先提问关键词与所述建议词的组合,映射出分词 组合,所述分词组合为对所述在先提问关键词进行分词处理及对所述建议词进行分词处理 后,得到的分词的组合; 第三组合构建模块,用于针对所说分词组合中的每个分词,分别提取预置的多个特征 信息,形成特征信息组合; 模型训练模块,用于对所述特征信息组合进行模型训练,得到权重计算模型。16. 根据权利要求15所述的装置,其特征在于,所述第二组合构建模块包括: 分词列表获取子模块,用于基于所述在先提问关键词与所述建议词的组合,分别对所 述在先提问关键词及所述建议词进行分词处理,得到分词列表; 关系定义子模块,用于基于所述分词列表,获得相同分词列表及不同分词列表,并定义 相同分词与不同分词列表的关系为:相同分词列表〉不同分词列表; 构建子模块,用于结合所述相同分词列表与所述不同分词列表的关系,构建分词组合。17. 根据权利要求15或16所述的装置,其特征在于,所述模型训练模块包括: 格式转换子模块,用于将所述特征信息组合转换为特定样本格式的特征信息组合; 训练子模块,用于通过排序向量空间模型算法RankSVM对所述特定样本格式的特征信 息组合进行建模,获得权重计算模型。18. 根据权利要求15或16所述的装置,其特征在于,所述特征信息至少包括如下信息: 词频TF、逆文档频率IDF、TF*IDF、BM25、分词长度LEN、类目信息、词性信息。19. 根据权利要求14或15或16所述的装置,其特征在于,所述装置还包括: 更新模块,用于依据所述日志记录更新所述权重计算模型。20. 根据权利要求11所述的装置,其特征在于,所述信息返回模块包括: 第一返回子模块,用于将所述相似度排序在前的N个候选建议词及对应的答案信息返 回所述客户端,其中N为正整数; 或者, 第二返回子模块,用于将所述相似度大于预设阈值的候选建议词及对应的答案信息返 回所述客户端。21.-种智能问答系统,其特征在于,所述系统包括客户端和服务器,其中, 所述客户端包括: 信息发送模块,用于向所述服务器发送提问关键词; 信息展现模块,用于接收所述服务器返回的候选建议词及对应的答案信息,并展现所 述候选建议词及对应的答案信息; 所述服务器包括: 第一分词模块,用于接收客户端发送的提问关键词,将所述提问关键词进行分词处理, 得到一个或多个第一分词; 候选建议词获取模块,用于基于所述一个或多个第一分词,获取与所述提问关键词匹 配的候选建议词的集合,所述候选建议词为预设数据库中包含所述一个或多个第一分词的 词; 第一权重计算模块,用于计算所述一个或多个第一分词的权重; 相似度计算模块,用于依据所述一个或多个第一分词的权重,计算所述提问关键词与 各候选建议词的相似度; 信息返回模块,用于将所述相似度符合预设规则的候选建议词及对应的答案信息返回 所述客户端。
【文档编号】G06F17/27GK105989040SQ201510057282
【公开日】2016年10月5日
【申请日】2015年2月3日
【发明人】王 义
【申请人】阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1