1.一种基于决策树的任务导向型自动对话方法,其特征在于,包括:
1.1)将法律咨询的结论离散化为分类类别,把与结论相关的当事人的信息离散化为基本属性;
1.2)接收当事人咨询的问题,通过分类算法抽取基本属性对应的属性值,结论对应的类别值;
1.3)将收集的实际案例作为训练样本,建立基于决策树的法律咨询分类预测模型;
1.4)接收新的当事人的咨询,根据所建立的决策树实现咨询对话的过程,并返回当事人咨询的结论。
2.根据权利要求1所述的基于决策树的任务导向型自动对话方法,其特征在于,所述1.1),具体包括:
1.1.1)分析给出结论的类别个数,明确每个类别对应的类别含义;
1.1.2)分析并提供可能影响结论的属性集合以及属性对应的属性值类别。
3.根据权利要求1所述的基于决策树的任务导向型自动对话方法,其特征在于,所述1.2),具体包括:
1.2.1)通过标签工程对部分咨询案例中句子的每个属性所对应的属性值打标签;
1.2.2)通过标签工程对部分咨询案例中的结论所对应的分类类别打标签;
1.2.3)对标签数据集通过分类算法训练模型;
1.2.4)通过分类算法训练的模型对咨询案例进行属性值提取,及对结论对应的类别值提取。
4.根据权利要求3所述的基于决策树的任务导向型自动对话方法,其特征在于,所述1.2.3),具体包括:
1.2.3.1)标签数据集设定为一个句子,该句子对应的属性值类别标签为y;
1.2.3.2)文本特征提取:首先通过分词工具对所述句子分词,去掉分词结果中的停用词和低频词,其次每个词语在该数据集中对应的权重,计算公式如下:
tf-idf=tf*idf
1.2.3.3)将得到的权重数据作为lda文本主题模型的输入,训练提取句子主题特征x;
1.2.3.4)将提取的特征x作为分类算法的输入,通过svm算法进行模型的训练,具体计算如下:
首先假设在高维空间的某一分类界面是y=wx+b;其中w表示界面的权重,b表示界面的偏差,w和b的初值通过随机初始化获得,某一特征点xi到该平面的距离表达式为:
找到最近点距离最远的分界面,让γi的值最大,也就是目标函数,即:
其中,s表示句子总数,分析目标函数,并将原分类问题可以转化为:
s.t.yi(wxi+b)≥1,i=1,2,3,...s
引入拉格朗日乘子αi可得到拉格朗日函数,拉格朗日乘子αi将约束条件函数与原函数联系到一起,使能配成与变量数量相等的等式方程,从而求出得到原函数极值的各个变量的解:
s.t.αi≥0
将问题转换为求极大极小问题,即
假设至少有一个αj>0,得到
其中,b*为目标函数的最优解,α*为对偶问题的最优解,由此得到目标函数分类的超平面,以将不同类别的数据划分。
5.根据权利要求4所述的基于决策树的任务导向型自动对话方法,其特征在于,所述1.2.4),具体包括:
提取所有咨询案例的主题特征,输入训练好的分类算法模型中,预测其属性对应的属性值类别,从而得到所有案例咨询的结构化数据。
6.根据权利要求1所述的基于决策树的任务导向型自动对话方法,其特征在于,所述1.3),具体包括:
1.3.1)将得到的所有咨询案例的结构化数据作为决策树的输入;
1.3.2)分类属性的选择即选择最优划分属性,采取信息增益率的方法从属性集合a={a1,a2,…,an}中选取最优的属性aj。
7.根据权利要求6所述的基于决策树的任务导向型自动对话方法,其特征在于,所述1.3.2),具体包括:
1.3.2.1)首先对结论d进行信息熵的计算,计算公式如下:
其中,m代表d的类别数目,pi代表结论d对应类别i的总数占总的案例咨询个数;
1.3.2.2)其次对所有属性进行信息熵的计算,计算公式如下:
其中,qi代表在属性aj对应的属性值类别k的条件下结论d中对应类别i的总数占属性aj对应的属性值类别k的总数,
1.3.2.3)计算在选择属性aj的情况下的信息熵,也叫条件熵,具体计算如下:
其中,|d|代表总的案例咨询个数,
1.3.2.4)信息增益定义为原来的信息需求与新需求之间的差,如下:
gain(aj)=info(d)-info(d|aj)
1.3.2.5)计算属性aj的分裂信息,具体计算如下:
1.3.2.6)信息增益率使用分裂信息值将信息增益规范化,具体计算如下:
1.3.2.7)计算所有属性a的信息增益率,然后选取信息增益率最大的属性作为分裂节点,即a=max(gainratio(a1),gainratio(a1),…,gainratio(an)),属性节点a的每个属性值对应一个分支,且分支的数据为在属性值为k的情况下剩余属性及结论的数据,当分支对应的还有剩余属性可选择并且结论数据中的类别不唯一时,重复步骤1.3.2.1-1.3.2.7,否则停止分裂。
8.根据权利要求1所述的基于决策树的任务导向型自动对话方法,其特征在于,所述1.4),具体包括:
1.4.1)当接收到新的当事人咨询信息时,从决策树跟节点开始,向用户提出属性节点对应的问题,抽取当事人的信息;
1.4.2)将得到的主题特征输入训练好的分类算法模型中,预测其属性对应的属性值类别;
1.4.3)根据预测的属性值类别与决策树当前节点属性的属性值进行比较,选择相等时的分支作为下一步对话的子决策树;
1.4.4)当子决策树为叶子结点是停止对话,并且返回最后的结论类别对应的答案返回给当事人,否则重复1.4.1-1.4.3步骤。