面向税务咨询业务的智能问答系统的制作方法

文档序号：11155309阅读：来源：国知局

技术特征：

1.一种面向税务咨询业务的智能问答系统，其特征在于，包括：

一台安装Android操作系统终端设备，用于采集用户语音问题，并将语音数据实时转化为文本数据传入计算机；还用于将最终匹配的答案返回给用户进行展示；

一台计算机，用于对实时传入的文本问题进行理解检索；

所述终端设备安装有应用软件程序，该应用软件包括语音转化模块1、问题返回模块4，用于采集用户语音数据、为用户提供精准的问题答案、为用户提供友好的界面；

所述计算机上安装有服务软件系统，该处理软件系统包括问题理解模块2、问题检索模块3，用于进行语义分析，以便理解问题，用于检索相似度最高问题；

系统工作时语音转化模块1将用户输出的语音数据转化为文本数据，通过问题理解模块2进行语义理解，使用问题检索模块3检索答案，并通过问题返回模块4将处理结果传输给终端用户。

2.根据权利要求1所述的面向税务咨询业务的智能问答系统，其特征在于：

所述的语音转化模块1，用于完成用户语音信号转化为对应文本的信息的功能，包括通过对用户语音的采集，对语音信息进行特征提取，形成待识别模型，并与参考模型进行匹配，寻找相似度最高的模型并最终输出识别结果；其输入的是语音信息，输出为文本信息；

所述的问题理解模块2，用于完成对文本信息的处理，包括对输入文本进行分词、对文本进行分类、删除文本中包含的停用词等；其输入的是问题文本，输出为特征词；

所述的问题检索模块3，用于完成对用户输入问题与税务语料库中问答的匹配，包括通过两个给定问题之间的匹配程度的比较，将两个问题共同特征最多的一些问题检索出来；其输入的是问题特征，输出的是多个相似度最高的问题编号；

所述的问题返回模块4，用于完成对匹配问题的展示，预先设定返回问题数量，将相似度最高的问题答案返回给用户；其输入是需返回的问题编号，输出为对应的问题及答案。

3.根据权利要求2所述的面向税务咨询业务的智能问答系统，其特征在于，所述的问题理解模块2包括中文分词模块21、文本分类模块22、去停用词模块23；其中，中文分词模块21用于对输入文本进行分词，以确定文本中包含的特征词；文本分类模块22用于根据已训练分类数据，对文本进行分类；去停用词模块，用于删除文本中包含的停用词；中文分词模块21确定文本中包含的特征词传输给文本分类模块22；文本分类模块22对问题进行分类；将特征词传输给去停用词模块23进行处理。

4.根据权利要求3所述的面向税务咨询业务的智能问答系统，其特征在于，所述的文本分类模块22，使用长短时神经网络(LSTM)模型；

所述的问题检索模块3，使用词语移动距离(WMD)模型进行相似度计算。

5.根据权利要求1-4之一所述的面向税务咨询业务的智能问答系统，其特征在于，系统在投入自动运行前需要进行数据的采集以及训练；问题检索模块3需使用税务问答语料库，它是税务咨询系统核心的问答库，是回答用户问题的数据来源；问题检索模块3还需要使用词向量训练库，主要是完成对不同词语特征的训练，为后续相似度计算使用；文本分类模块22需使用经过人工分类的训练集，提取每一个分类的特征，用于完成对陌生问题的分类任务；去停用词模块23需采集停用词表。

6.根据权利要求5所述的面向税务咨询业务的智能问答系统，其特征在于，文本分类模块22使用LSTM网络，该网络设计有记忆模块用于完成对历史数据的保存，而记忆模块由记忆细胞构成，信息可以自由地在各个记忆单元中传输而不受梯度消失的影响；所述记忆细胞主要由输入门、遗忘门、输出门构成；各种门的设置主要是用于调节记忆细胞自身和外部环境之间的关系，其中输入门主要决定是否对接收到的数据进行改变，遗忘门主要决定记忆细胞自身前一时刻的状态是否被删除，输出门则影响的是其他的神经细胞。

7.根据权利要求6所述的面向税务咨询业务的智能问答系统，其特征在于，所述记忆细胞在每一个时刻进行更新的方式为：

假设h为LSTM单元的输出，C为LSTM记忆单元的值，x为输入，W为对应的权重矩阵，σ、tanh为激活函数，b为乘离率(BIAS)向量；更新过程用如下公式进行描述：

(1)时刻t神经细胞的值记为

(2)计算输入门的值记为i_t：

i_t＝σ(W_xix_t+W_cic_t-1+b_i) (2)

(3)计算遗忘门在时刻t的值记为f_t：

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f) (3)

(4)结合神经细胞在时刻t的值和遗忘门的值，对神经细胞进行更新，更新后的神经细胞值记为C_t：

(5)结合神经细胞新的值由sigmoid函数激活的隐藏层来计算哪部分信息输出记为o_t：

o_t＝σ(W_x0x_t+W_hoc_t-1+b_o) (5)

(6)用一个tanh函数来对最终的更新进行过滤，来决定要最终的输出h_t：

h_t＝o_t*tanh(C_t) (6)。

8.根据权利要求7所述的面向税务咨询业务的智能问答系统，其特征在于，在传统的LSTM网络基础上增加一个均值池化功能和一个逻辑回归层；整个神经网络的输入是一个句子，由词向量组成，记为x₀，x₁，,…，x_n，这些词向量经过LSTM网络的处理之后，变成抽象表示h₀，h₁，…，h_n，这些抽象表示再经过均值池化，得到整个句子的一个向量表示为：

最终句子的向量表示h经过逻辑回归层由softmax函数计算得到最终的分类，以及属于各个分类的概率，计算公式为：

9.根据权利要求1、2、3、4、6、7或8所述的面向税务咨询业务的智能问答系统，其特征在于，问题检索模块3中，设一个文本与word2vec训练的词向量组成一个d×n的矩阵R，其中d是文本使用词袋模型表示的特征值个数,但是会将停用词去除，n是word2vec词汇表词语的个数，每一列表示某一个词在d维中的特征描述；将文本转化为词向量矩阵，那么两个特征词可以理解为n维空间中的两个点，他们的语义相似度采用欧氏距离来计算；对于两个文本来说，将其看成是两个分布，两个文本的相似度采用EMD距离计算；

通过词与词的距离计算，对文本与文本的距离也进行相应的计算，假设两个文本分别为P和Q，其含义有可能是相似的，但是却不包含任意一个相同的特征词，那么这两个文本在空间中就存在于不同的区域进行分布，需要找到P和Q中的语义相近的词进行转换；假设P中任意词语i和Q中的任意词语j，其欧氏距离为d_ij；目标是找到每一对词的最小距离；通过比较P和Q中每对词的距离就能找到距离最短的词，而将距离最短的词进行转化，其转化距离c(i,j)定义为：

c(i,j)＝||x_i-x_j||2 (10)

但是通常两个文本的特征词数不是相等的，不能成对的进行转化，所以借助一个类似于EMD距离里的重量的概念，假设词语在文本中出现了c_i次，这个词的质量用d_i表示:

假设可以得到一个词语移动矩阵T，其中T_ij≥0，表示从词语i转移到词语j所需要的运输量；为了能将词语i全部的转化为j，在以上的假设的基础上通过设定以下条件进行限制：

(1)d中每个词语应该转移出它所有的质量，用公式表示为：

(2)d‘中的每个词语也应该接收到它所有的质量,用公式表示为：

(3)计算文本的目标就是使传输的总运输量最小，这个问题变成了一个线性规划的问题，用下列公式表示：

WMD＝min_T≥0∑_i,jT_ijc(i,j) (14)

线性规划最小的方案会将语义相似的词语进行转化，如果转化的两个文本词语的数量不同导致质量不同时，多余的质量就会转化到其他意义近似的词语上；

定义RWCD＝max(L1，L2)，称为放松的文档中心距离；这里，L1为WMD距离的限制条件公式(12)的方案，L2为WMD距离的限制条件公式(13)的方案；

使用RWCD距离对文本进行必要的筛选，具体过程是，首先计算待查询的文本WCD距离，并对所有WCD值进行升序排序，取出前k个WCD值较小的文本计算它们的WMD值；接下来，计算剩余的文本RWMD值，如果剩余文本RWMD最小值超过目前k个WMD值中最小值，那么就删除剩余文本；目前K中最小的WMD值就是要找的；如果剩余文本RWMD最小值没有超过目前k个WMD值中最小值，则重复取值操作，直到以上情况的发生为止；

这样通过计算用户输入问题转化到税务语料库中问答中每一个问题的WMD值，通过对WMD值降幂排序，找出WMD值最小的一些问题的ID，最终将对应的问题与答案返回给用户。

完整全部详细技术资料下载

当前第2页1 2 3