一种智能问答系统中的对话行为分析方法

文档序号:6624071阅读:1691来源:国知局
一种智能问答系统中的对话行为分析方法
【专利摘要】本发明公开了一种智能问答系统中的对话行为分析方法,首先整理出适用于汉语口语中的对话行为标签集,同时构建分析对话行为单元的层次分类器,然后将用户的每句话切分为对话行为单元,每个对话行为单元经过层次分类器的分类后得到相应的类别。利用本发明提供的技术方案,可以有效、高速地进行对话行为的自动分析,为智能对话的达成打下了基础。
【专利说明】一种智能问答系统中的对话行为分析方法

【技术领域】
[0001]本发明涉及一种对话行为的自动分析方法,具体涉及一种对话行为单元的序列标注方法与层级的机器学习方法。

【背景技术】
[0002]对话行为,主要研究对话在语义以外,反映出的信息,如对话意图、对话结构信息等。在英文中,对话行为是一项历史悠久的研究,包括完整的标签系统和自动分析方法。而在中文中,这项研究并没有展开。以下简要介绍对话行为研究在英文中的进展。
[0003]2000年,Stollcke提出使用语法与词法的特征,利用标注完毕的对话行为单元,把对话看作独立的句子流,建立隐马尔科夫模型来完成对话行为分类的任务,结合n-gram算法、决策树与神经网络来生成有效特征。但是,该方法没有完成对于对话行为单元的自动切分。
[0004]2005年,Ang提出利用决策树模型来完成对话行为单元的切分,并使用了同一讲话人中的停用距离特征,对于对话行为单元切分达到44%的正确率。然而这一准确率在对话行为分析中仍较低。


【发明内容】

[0005]发明目的:针对上述现有技术,本发明提供一种智能问答系统中的对话行为分析方法,解决目前中文口语环境下的对话行为的自动切分准确率低进而导致到对话行为的自动识别率低的技术问题。
[0006]技术方案:为解决上述技术问题,本发明提供以下技术方案:
[0007]首先整理出适用于汉语口语中的对话行为标签集,然后将用户的每句话切分为对话行为单元,然后构建分析对话行为单元的层次分类器,每个对话行为单元经过层次分类器的分类,最终被归类到对话行为标签集中的各个标签中;其中,整理出适用于汉语口语的对话行为标签集时,参考英语语言学中的DAMSL广义标签集,并结合智能问答系统的口语特点,在本发明中,所述标签集包括4种标签大类,且每一种标签大类中包含多种标签,具体分别为:
[0008]第一种标签大类:反应讲话人的意图;具体的标签类别及标签含义如下:
[0009]〈S〉:陈述一个信念或事件,简称为陈述句;
[0010]<Q>:不能用是或否回答的开放式问句,简称为开放式问句;
[0011]<QYN>:是非问句;
[0012]<R>::期待听者做出一个动作或响应的问句,简称为需求问句;
[0013]〈TH〉:表示感谢等礼貌用语,简称为感谢句;
[0014]第二种标签大类:反应讲话人对于上文的反应;具体的标签类别及标签含义如下:
[0015]<SA>::对上一句陈述句做出响应;
[0016]〈RA〉:对上一句需求问句做出响应;
[0017]<AY>:是非问句的肯定回答;
[0018]<AN>:是非问句的否定回答;
[0019]<AQ>:开放式问句的回答;
[0020]<D>:对感谢句做出的礼貌性回应;
[0021]第三种标签大类:对话结构信息,反应话语对对话结构的作用;具体的标签类别及标签含义如下:
[0022]〈CO〉:开始一个对话;
[0023]〈CO:结束一个对话;
[0024]〈CD::延续一个对话;
[0025]第四种标签大类:除上面三种标签大类以外的其他情况;具体的标签类别及标签含义如下:
[0026]〈U〉:表不不确定的信息。
[0027]由于考虑到一个句子中会含有多个对话行为,首先,我们采用如下的算法把句子切分为对话行为单元:
[0028]步骤1.1、把话语以逗号、空格为分隔符断成基本单元,提取每个基本单元的文本特征;
[0029]步骤1.2、利用序列标注算法,判断每个基本单元是否为一个新的对话行为单元的开始;
[0030]步骤1.3、依据步骤1.2的判断结果,将隶属于同一个对话行为单元的基本单元组成对话行为单元,则对话行为单元之间组成对话行为单元链。
[0031]进一步的,在本发明中,提取的文本特征包括如下10种:
[0032]基本单元的长度;
[0033]是否含有动词;
[0034]是否含有连词;
[0035]是否含有数词;
[0036]是否含有代词;
[0037]是否含有闻频无用词;
[0038]是否含有独立成句高频词;
[0039]在与该基本单元之前的一个基本单元构成的单元对中,是否含有连词对;
[0040]在与该基本单元之前的一个基本单元构成的单元对中,是否含有相同的字;
[0041]在与该基本单元之前的一个基本单元构成的单元对中,是否含有相似的词语。
[0042]作为优选的,在本发明中,所述序列标注算法选择线性链条件随机场算法。该算法被广泛应用于序列标注问题。
[0043]由于部分对话行为的判断需要依赖于上文的层次分类器,且部分对话行为的用途较为单一,表现形式相似。因此在本发明中,参考对话行为所具有的上述特点构建层次分类器,层次分类器的分类方法包括如下步骤:
[0044]步骤2.1、判断对话行为单元是否可归类至〈CO〉、〈CO、<CT>、〈TH〉、<D>、<AN>5种标签种类中的一种;如果是则退出层次分类器,返回所属标签的类别信息,结束分类;如果都不是,则继续步骤2.2;
[0045]步骤2.2、判断对话行为单元是否可归类至<SA>、〈RA〉、<AY>3种标签种类中的一种,如果是则跳至步骤2.4 ;否则跳至步骤2.3 ;
[0046]步骤2.3、判断对话行为单元是否可归类至<Q>、<QYN>、<R>3种标签种类中的一种;如果判断出对话行为单元可归类至<Q>、<QYN>、<R>中的具体某一种,则退出层次分类器,返回所属标签的类别信息,结束分类;如果判断出对话行为单元都不可归类至这3种标签种类,则跳至步骤2.5 ;
[0047]步骤2.4、利用上文对话中已经确定下来的对话行为,判断对话行为单元属于<SA>、〈RA>、〈AY>中的哪一种,然后退出层次分类器,返回所属标签的类别信息,结束分类;
[0048]步骤2.5、构建SVM分类器,利用SVM分类器判断对话行为单元可归类至标签〈S〉还是标签<AQ>,然后退出层次分类器,返回所属标签的类别信息,结束分类。
[0049]本发明中,步骤2.1中的〈CO〉、〈CO和〈CD均代表对话结构信息,连同<TH>、〈D>和<AN>这6个都是最容易判断的类别,所以首先进行判断;接下来步骤2.2中的标签<SA>、〈RA〉和<AY>均属于一种肯定回复,判断完该步骤,可以将剩余的判断方向划分成判断具体的肯定回复类型和判断是否为疑问句2种,其中疑问句包括<Q>、〈QYN>、〈R>3种;接下来的步骤2.3又针对是否为疑问句进行判断并由此引出两种结果,如果是疑问句则继续判断出具体疑问句的类型,即到底是<Q>、<QYN>、<R>中的哪一种,如果不是疑问句则判断出可归类至标签〈S〉还是标签<AQ>。以上过程可知,人为地设定层次分类器的判断先后顺序,通过先易后难的方式进行判断并分类,提高了运行的效率与准确率。
[0050]进一步的,在本发明中,步骤2.3中,判断对话行为单元是否可归类至<Q>、〈QYN>、<R>中的一种的方法如下:首先判断对话行为单元是否可归类至标签<QYN> ;如果不可归类至标签〈QYN〉,则利用频繁序列特征与词袋模型判断对话行为单元是否可归类至标签<R> ;如果不可归类至标签<R>,则判断该对话行为单元归类至标签<Q>。
[0051]进一步的,在本发明中,步骤2.5中,SVM分类器的构建利用以下几个特征:上文已经确定下来的对话行为的分类结果、本对话行为单元以及5句上文对话中的属于标签<Q>的对话行为单元中所含有的动词和名词、本对话行为单元与最近的属于标签<Q>的对话行为单元之间的距离、本对话行为单元以及5句上文对话中的属于标签<Q>的对话行为单元中是否含有重复出现的词对。
[0052]有益效果:
[0053]本发明方法首先根据英文中对话行为标签规范,整理出汉语口语适用的对话行为标签集,并提供一种对话行为的自动分析方法,用于解决对于对话行为单元的自动切分与对话行为的自动识别。
[0054]本发明的原理是,首先提取文本特征,使用序列标注算法切分出对话行为单元,再利用频繁序列集合特征,以及非文本特征等构件层次分类器,自动分析对话行为单元。
[0055]在汉语中,对于对话行为的研究很少,本发明针对对话行为的特征进行有效的分析,为接下来需要依赖对话行为的工作打下了基础;
[0056]与英文中的对话行为相比,本发明针对智能问答系统,对英文中的标签集进行了改进得到适用于汉语的标签集,并采取高效的、层次性的分类方法,使其可以应用于实用的智能问答系统中。
[0057]利用本发明提供的技术方案,可以有效、高速地进行对话行为的自动分析,为智能对话的达成打下了基础。

【专利附图】

【附图说明】
[0058]图1本发明的对话行为单元切分流程;
[0059]图2本发明的层次的对话行为自动分析器流程。

【具体实施方式】
[0060]下面结合附图对本发明作更进一步的说明。
[0061]本发明的一种智能问答系统中的对话行为分析方法,首先整理出如下表1所示的适用于汉语口语中的对话行为标签集。
[0062]表1
[0063]

【权利要求】
1.一种智能问答系统中的对话行为分析方法,其特征在于:首先整理出适用于汉语口语中的对话行为标签集,然后将用户的每句话切分为对话行为单元,然后构建分析对话行为单元的层次分类器,每个对话行为单元经过层次分类器的分类,最终被归类到对话行为标签集中的各个标签中;其中,整理出适用于汉语口语的对话行为标签集时,构建标签集的特征在于:所述标签集包括4种标签大类,且每一种标签大类中包含多种标签,具体分别为: 第一种标签大类:反应讲话人的意图;具体的标签类别及标签含义如下: 〈S〉:陈述一个信念或事件,简称为陈述句; <Q>:不能用是或否回答的开放式问句,简称为开放式问句; <QYN>:是非问句; <R>:期待听者做出一个动作或响应的问句,简称为需求问句; 〈TH〉:表示感谢等礼貌用语,简称为感谢句; 第二种标签大类:反应讲话人对于上文的反应;具体的标签类别及标签含义如下: <SA>::对上一句陈述句做出响应; 〈RA〉:对上一句需求问句做出响应; <AY>:是非问句的肯定回答; <AN>:是非问句的否定回答; <AQ>:开放式问句的回答; <D>:对感谢句做出的礼貌性回应; 第三种标签大类:对话结构信息,反应话语对对话结构的作用;具体的标签类别及标签含义如下: 〈CO〉:开始一个对话; 〈CO:结束一个对话; 〈CD::延续一个对话; 第四种标签大类:除上面三种标签大类以外的其他情况;具体的标签类别及标签含义如下: 〈U〉:表示不确定的信息。
2.根据权利要求1所述的对话行为单元的切分方法,其特征在于:切分对话行为单元时,顺序执行以下步骤: 步骤1.1、把话语以逗号、空格为分隔符断成基本单元,提取每个基本单元的文本特征; 步骤1.2、利用序列标注算法,判断每个基本单元是否为一个新的对话行为单元的开始; 步骤1.3、依据步骤1.2的判断结果,将隶属于同一个对话行为单元的基本单元组成对话行为单元,则对话行为单元之间组成对话行为单元链。
3.根据权利要求1所述的智能问答系统中的对话行为分析方法,其特征在于:提取的文本特征包括如下10种: 基本单元的长度; 是否含有动词; 是否含有连词; 是否含有数词; 是否含有代词; 是否含有高频无用词; 是否含有独立成句高频词; 在与该基本单元之前的一个基本单元构成的单元对中,是否含有连词对; 在与该基本单元之前的一个基本单元构成的单元对中,是否含有相同的字; 在与该基本单元之前的一个基本单元构成的单元对中,是否含有相似的词语。
4.根据权利要求1所述的智能问答系统中的对话行为分析方法,其特征在于:所述序列标注算法选择线性链条件随机场算法。
5.根据权利要求1所述的智能问答系统中的对话行为分析方法,其特征在于:层次分类器的分类方法包括如下步骤: 步骤2.1、判断对话行为单元是否可归类至〈CO〉、〈CO、<CT>、〈TH〉、<D>、<AN>6种标签种类中的一种;如果是则退出层次分类器,返回所属标签的类别信息,结束分类;如果都不是,则继续步骤2.2 ; 步骤2.2、判断对话行为单元是否可归类至<SA>、〈RA>、〈AY>3种标签种类中的一种,如果是则跳至步骤2.4 ;否则跳至步骤2.3 ; 步骤2.3、判断对话行为单元是否可归类至<Q>、<QYN>、<R>3种标签种类中的一种;如果判断出对话行为单元可归类至<Q>、<QYN>、<R>中的具体某一种,则退出层次分类器,返回所属标签的类别信息,结束分类;如果判断出对话行为单元都不可归类至这3种标签种类,则跳至步骤2.5 ; 步骤2.4、利用上文对话中已经确定下来的对话行为,判断对话行为单元属于<SA>、<RA>、〈AY>中的哪一种,然后退出层次分类器,返回所属标签的类别信息,结束分类; 步骤2.5、构建SVM分类器,利用SVM分类器判断对话行为单元可归类至标签〈S〉还是标签<AQ>,然后退出层次分类器,返回所属标签的类别信息,结束分类。
6.根据权利要求5所述的智能问答系统中的对话行为分析方法,其特征在于:步骤2.3中,判断对话行为单元是否可归类至<Q>、<QYN>、<R>中的一种的方法如下:首先判断对话行为单元是否可归类至标签<QYN> ;如果不可归类至标签〈QYN〉,则利用频繁序列特征与词袋模型判断对话行为单元是否可归类至标签<R> ;如果不可归类至标签<R>,则判断该对话行为单元归类至标签<Q>。
7.根据权利要求5所述的智能问答系统中的对话行为分析方法,其特征在于:步骤2.5中,SVM分类器的构建利用以下几个特征:上文已经确定下来的对话行为的分类结果、本对话行为单元以及5句上文对话中的属于标签<Q>的对话行为单元中所含有的动词和名词、本对话行为单元与最近的属于标签<Q>的对话行为单元之间的距离、本对话行为单元以及5句上文对话中的属于标签<Q>的对话行为单元中是否含有重复出现的词对。
【文档编号】G06F17/27GK104166643SQ201410410275
【公开日】2014年11月26日 申请日期:2014年8月19日 优先权日:2014年8月19日
【发明者】吴云芳, 王异秀 申请人:南京金娃娃软件科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1