语句意图类别识别方法及装置的制造方法

文档序号:9631536阅读:453来源:国知局
语句意图类别识别方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,特别是涉及一种语句意图类别识别方法及装置。
【背景技术】
[0002] 在现有技术中,在对用户的问句进行意图分析时,是直接将当前问句与知识库中 的所有模板问句进行相似度计算,根据相似度最高的一个模板结构,分析用户的意图,理解 问句语义,整理返回对应的问题答案。但是,上述处理由于针对每个文件都要与所有模板问 句计算相似度,使得计算量非常大,从而导致了用户问句意图分析计算时间长,计算效率低 的问题。

【发明内容】

[0003] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的语句意图类别识别方法及装置。
[0004] 本发明提供一种语句意图类别识别方法,包括:
[0005] 提供问答日志信息,每条问答日志信息包括:问句和意图类别;
[0006] 根据从问句中获取的关键词生成词典;
[0007] 根据词典分别对每个问句进行向量化计算,得到每个问句的向量;
[0008] 根据每个问句的向量及对应的意图类别进行分类模型的训练,获取意图分类模 型;
[0009] 对当前问句进行向量化计算,得到当前问句的向量,根据当前问句的向量和意图 分类模型确定当前问句对应的意图类别。
[0010] 本发明还提供了一种语句意图类别识别装置,包括:
[0011] 提供模块,用于提供问答日志信息,每条问答日志信息包括:问句和意图类别;
[0012] 生成模块,用于根据从问句中获取的关键词生成词典;
[0013] 计算模块,用于根据词典分别对每个问句进行向量化计算,得到每个问句的向 量;
[0014] 训练模块,用于根据每个问句的向量及对应的意图类别进行分类模型的训练,获 取意图分类模型;
[0015] 识别模块,用于对当前问句进行向量化计算,得到当前问句的向量,根据当前问句 的向量和意图分类模型确定当前问句对应的意图类别。
[0016] 本发明有益效果如下:
[0017] 通过从问答系统中日志信息的问句中获取关键词,并利用这些关键词初步确定用 户的意图,解决了现有技术中用户问句意图分析计算时间长,计算效率低的问题,能够初步 准确地识别用户的问句意图,提高语义理解的执行效率,降低了成本,节约了答案回复的时 间,提高了用户的使用体验。
[0018] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0019] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020] 图1是本发明实施例的语句意图类别识别方法的流程图;
[0021] 图2是本发明实施例的语句意图类别识别方法的详细处理的流程图;
[0022] 图3是本发明实施例的语句意图类别识别装置的结构示意图。
【具体实施方式】
[0023]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0024] 为了解决现有技术用户问句意图分析计算时间长,计算效率低的问题,本发明提 供了一种语句意图类别识别方法及装置,以下结合附图以及实施例,对本发明进行进一步 详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
[0025] 方法实施例
[0026] 根据本发明的实施例,提供了一种语句意图类别识别方法,图1是本发明实施例 的语句意图类别识别方法的流程图,如图1所示,根据本发明实施例的语句意图类别识别 方法包括如下处理:
[0027] 步骤101,提供问答日志信息,每条问答日志信息包括:问句和意图类另I」。其中,上 述意图类别可以包括:天气、购物、工作、旅游等等;
[0028] 步骤102,根据从问句中获取的关键词生成词典。
[0029] 步骤102中生成词典具体包括如下处理:
[0030] 步骤1021,根据从问句中获取的关键词生成词典包括:
[0031] 步骤1022,对从问句获取的语料进行预处理,得到文本数据。其中,预处理包括: 将问句的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的 文本数据按照标点划分为多行。例如,上述标点可以是问号、叹号、分号或句号,也就是说, 可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。
[0032] 步骤1023,对文本数据进行分词处理,得到多个语料词语。在本发明实施例中,分 词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种。
[0033] 步骤1024,对语料词语进行过滤处理,得到包括多个关键词的词典。其中,过滤处 理包括以下任一种或两种方式:
[0034] 方式一:根据词性对语料词语进行过滤,保留名词、动词以及形容词;
[0035] 方式二:根据频次对语料词语进行过滤,保留频次大于频次阈值的语料词语,其 中,频次是指语料词语在语料数据中出现的频率或者次数。
[0036] 本实施例中,先根据词性对语料词语进行过滤,仅保留名词、动词以及形容词,去 除其它词性的语料词语;然后根据频次对保留的名词、动词以及形容词进行过滤,保留频次 大于频次阈值的语料词语,从而字典中为频次大于频次阈值的名词、动词和形容词。
[0037] 在本发明的其它实施例中,可以仅根据词性进行过滤,也可以仅根据频次进行过 滤,还可以先根据频次进行过滤再根据词性进行过滤,其都在本发明的保护范围之内。
[0038] 步骤1025,对词典进行降维处理。
[0039] 其中,降维处理具体包括:根据问答日志统计问句对应的意图类别,计算词典中每 个关键词的信息熵,将信息熵小于信息熵阈值的关键词从词典中删除,其中,信息熵表示该 关键词在各意图类别中出现的概率。计算词典中关键词的信息熵包括:计算词典中每个关 键词在每个意图类别中出现的概率。
[0040] 信息熵的计算公式为:Η(Χ) = -Σρ(Χ?)logp(Xi),其中,H(X)表示关键词的信息 熵,P(Xl)表示关键词在第i个意图类别中出现的概率,i= 1,2,…,η,η为意图类别的个 数。
[0041] 由于关键词的信息熵可以直接根据上述计算公式计算出来,计算复杂度非常低, 因此,本发明实施例的技术方案利用信息熵能够快速准确将信息熵小于信息熵阈值的关键 词从词典中删除,大大提高了词典降维的准确率和效率。
[0042] 需要说明的是,在本发明的其它实施例中,也可以采用其它现有的方法进行降维 处理,如:SVD、LDA或PCA等,其不影响本发明的保护范围。
[0043] 本发明实施例通过对词典进行降维,使得词典更加的准确和精简,在后续进行问 句的向量化计算和分类模型训练时,大大降低了计算的复杂度,有效提高了计算效率。
[0044] 步骤103,根据词典分别对每个问句进行向量化计算,得到每个问句的向量。
[0045] 在步骤103中,对问句进行向量化计算包括:
[0046] 步骤1031,对问句进行预处理和分词处理。
[0047] 其中,预处理具体包括:将问句的格式统一为文本格式,过滤脏词、敏感词和停用 词中的一种或多种,并将过滤后的文本数据按照标点划分为多行。例如,上述标点可以是问 号、叹号、分号或句号,也就是说,可以将过滤后的文本数据按照问号、叹号、分号或句号划 分为多行。
[0048] 所述分词处理可以采用字典双向最大匹配法、viterbi方法、ΗΜΜ方法和CRF方法 中的一种或多种。
[0049] 步骤1032,根据词典的大小和相应问句中出现的关键词的TF-IDF值,对该问句生 成向量,其中,向量的维度是词典的大小,每个维度的值为:相应问句中未出现在词典中的 词的维度值为〇,相应问句中出现在词典中的关键词的维度值为该关键词的TF-IDF值。
[0050] 其中,关键词的TF-IDF值通过以下方式获取:
[0051] 1、将问答日志中包括的问句总数目除以包含关键词的问句的数目,将得到的商取 对数得到关键词的IDF值;
[0052]2、计算关键词在对应问句中出现的频率,确定TF值;
[0053] 3、将TF值乘以IDF值得到关键词的TF-IDF值。
[0054]步骤104,根据每个问句的向量及对应的意图类别进行
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1