一种浅层自然口语理解系统及方法

文档序号:6471781阅读:289来源:国知局
专利名称:一种浅层自然口语理解系统及方法
技术领域
本发明涉及自然语言理解领域,特别一种口语理解的系统及方法。
背景技术
自然口语理解(Spoken Language Understanding—SLU)系统执行着将输入的字符 序列转化为对应的语义表示的职能。在口语对话系统中,语音识别模块将用户的语 音信号识别为文字序列;随后文字序列输入到自然口语理解模块,自然口语理解模 块对文字序列的语义进行识别,送给对话管理模块;对话管理模块再生成对用户的 回复信息,从而完成了与用户的对话,如图l所示。
通常,口语理解任务可以分解为关键命名实体识别(Named Entity Recognition, NER)子任务和意图(或语力)识别子任务。其中命名实体识别和抽取任务在自然 语言信息提取(Information Extraction, IE)中应用比较广泛。
NER通常的方法是对输入字词序列进行序列分类,通过判断序列中每一个字是 否属于某个命名实体来确定整个序列中出现的命名实体。如图2所示,其中X表示 观察序列,C表示在各个观察点通过分类得到的分类标记序列。由图中的分类标记 序列C得到2个实体"中关村"属于类别loc(地点类),"中国银行"属于类别bank (银行类)。
常用的基于统计学习的序列分类方法有隐马尔可夫模型(Hidden Markov Model)、最大熵模型(Maximum Entropy Model)、条件随机场模型(Conditional Random Field)、 AdaBoost模型以及混合模型等等。
最大熵模型是一种区分型模型,主要的工作原理如公式(l)所示,其中;K。lx,) 表示在输入序列x的第/时刻观察到jc,的条件下,该时刻的观察属于。类的后向概 率。对于同一个观察;c,,获得后向概率最大c就是最优的类。对于输入序列所有的点 求取最优分类,就得出相应的分类标记序列C。
<formula>formula see original document page 6</formula>
其中。{/ = 1,...,《/}的定义可以根据任务领域的特点,事先自行定义感兴趣的实体。 例如在一个周边生活信息搜索应用中,我们可以定义地点、银行、饭店、旅馆、电 影院、医院、加油站和运动场馆等实体。/ ,{m-l,...,M)是预定义好的特征函数,Am {附=1,...,肘}是与// 相对应的参数,zoo是归一化参数。

发明内容
为了克服上述现有技术的不足,本发明在借鉴NLU中命名实体识别方法的基础 上,针对口语理解应用中输入语句存在大量噪音(口语的重复、填充词等口语现象 和ASR识别错误等)的情况下,设计一个浅层的处理方式,在能够耐受大部分噪音, 抽取出语句中的关键信息,从而实现鲁棒性口语理解。
为了达到上述目的,本发明提供的一种浅层自然口语理解系统及方法是基于最大 熵模型实现命名实体识别和语力的浅层理解。
在最大熵统计学习模型的框架下,通过精心设计一组特征函数集合,实现尽可能 避免噪声影响的同时又最大化的利用可用的上下文信息,从而较好的提高识别性能。 特征函数集合可以分成以下三个主要部分
1、 词汇信息通过利用各个实体类和非实体经常出现的词汇帮助对当前类别的
判别。如词"请问"是常见的非实体词,那么如果当前词是"请问",就容易判定当 前词属于非实体类。
2、 句子上下文信息通常在实体的前、后会有一些特定的词汇,如"我在中关 村"中作为地点实体的"中关村"前面经常会出现"在"、"从"、"到"等等这类关 键词,所以这些上下文信息对于实体类别的判定具有指向作用。
3、 实体的知识信息本系统利用已有的实体知识库,通过设计一种限定的模糊 匹配算法,在输入语句中探测并识别出知识库中己有的命名实体。
本发明提供的一种浅层自然口语理解系统,该系统包括
一预处理模块,用于将输入的口语中无意义的填充词去除,并将预处理后的语 音序列输出。
一词汇特征提取模块,用于通过各个实体类和非实体类经常出现的词汇,判断 预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块。
一上下文特征提取模块,用于通过实体前、后的特定的词汇,判断预处理后的 语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块。
一实体模糊匹配模块,用于利用实体知识库,通过模糊匹配算法,在输入的预 处理后的语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别送入 最大熵分类模块。
一最大熵分类模块,用于对输入的实体类别的所有点取最优分类,得到相应的
分类标记序列,并将该分类标记序列送入维特比(Viterbi)搜索模块。及一 Viterbi搜索模块,用于在输入的分类标记序列上搜索最优路径,最终得到命 名实体。
其中,所述词汇特征提取模块包括-
一单字特征考察模块,用于利用训练语料生成单字特征函数,并根据单字特征 函数,考察语音序列中的单字特征,判断当前单字的实体类别。
一双字特征考察模块,用于考察语音序列中的双字特征,并根据生成的双字特 征函数,判断当前双字的实体类别。
一常见字与双字考察模块,用于从训练语料中通过统计方法获得每一类别的常 见字和双字的集合,并利用命名实体种类数量定义各个常见字特征函数,然后根据 该集合及各个常见字特征函数得到当前字或者双字的常见字特征,判断当前字或者 双字的实体类别。
其中,所述上下文特征提取模块进一步包括
一考察当前观察前一个观察点己经标记的类别,利用前一观察点类别这一历史 信息帮助当前观察点类别的判别的模块-,
一考察当前观察前面的词是否某个实体类别的"触发词",通过"触发词"的出
现帮助判别当前观察是否属于某个类别的模块;
其中,所述实体模糊匹配模块包括
一匹配偏移点计算模块,用于对输入的语音序列中的匹配点进行偏移处理,并 将处理后的结果送入预匹配模块。
一预匹配模块,用于将当前输入的字符串与己知类别的实体匹配首先抽取已
知实体库内所有实体的前两个双字^A和^'^'2,形成map数据结构n^ne一bg;所 述map数据结构m—ne—bg的"键"是被抽取的所有实体的前两个双字^ X、和x'i ^ , 这些双字对应的值为实体列表;然后,考察经过偏移的当前双字"'+^'"+1,如果该双 字和map数据结构m_ne—bg中的某个key "键"(即实体的前两个双字)相同,则预 匹配成功,且待匹配的实体就是对应键值中的所有实体;其中,t表示当前时刻,s 表不偏移量。
一实体匹配程度计算模块,用于利用列维斯坦(Levenstein)最小编辑距离定义 匹配程度的度量,并将匹配度最高的实体类别输出,公式如下-
p — " "/eve"败w
few
其中,/e"是待匹配实体的长度;A^",^是当前字符串和实体的Levenstein最小编辑距离;当完全匹配时Z),w^为0, p为1,表示最高匹配程度;当完全不匹配 时A,幽为&", p为0,表示最低的匹配程度。
一yO门限值设定模块,用于设定p的门限值,匹配度大于或等于p门限值的字 符串即被识别为实体类别。
本发明提供的一种浅层自然口语理解方法,包括以下步骤
(1) 对输入语句进行预处理 预处理模块将输入的语句中无意义的填充词去除,并将预处理后的语音序列输出。
(2) 经预处理后,对语句的每个时刻的观察抽取特征,包括以下子步骤
(21) 词汇特征的提取 词汇特征提取模块通过各个实体类和非实体类经常出现的词汇,判断预处理后
的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块。
(22) 上下文特征的提取
上下文特征提取模块通过实体前、后的特定的词汇,判断预处理后的语音序列 中的词的实体类别,并将该实体类别送入最大熵分类模块。
(23) 实体的模糊匹配
实体模糊匹配模块利用实体知识库,通过模糊匹配算法,在输入的预处理后的 语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别送入最大熵分 类模块。
(3) 最大熵分类-
最大熵分类模块对输入的实体类别的所有点取最优分类,得到相应的分类标记
序列,并将该分类标记序列送入Viterbi搜索模块。
(4) 搜索最优路线、提取命名实体
Viterbi搜索模块在lr入的分类标记序列上搜索最优路径,最终得到命名实体。 其中,所述步骤(21)进一步包括以下子步骤-
(211) 单字特征考察模块用训练语料生成单字特征函数,并根据单字特征函数, 考察语音序列中的单字特征,判断当前单字的实体类别。
(212) 双字特征考察模块考察语音序列中的双字特征,并根据生成的双字特征 函数,判断当前双字的实体类别。
(213) 常见字与双字考察模块从训练语料中通过统计方法获得每一类别的常见 字和双字的集合,并利用命名实体种类数量定义各个常见字特征函数,然后根据该 集合及各个常见字特征函数得到当前字或者双字的常见字特征,判断当前字或者双字的实体类别。
其中,所述步骤(22)进一步包括以下子步骤
(221) 考察当前观察前一个观察点己经标记的类别,利用前一观察点类别这一 历史信息帮助当前观察点类别的判别。
(222) 考察当前观察前面的词是否某个实体类别的"触发词",通过"触发词" 的出现帮助判别当前观察是否属于某个类别。
其中,所述步骤(23)进一步包括以下子步骤
(231) 匹配偏移点计算模块对输入的语音序列中的匹配点进行偏移处理,并将 处理后的结果送入预匹配模块。
(232) 预匹配模块将当前输入的字符串与已知类别的实体匹配首先抽取已知 实体库内所有实体的前两个双字x'。^和x'^'2,形成map数据结构m—ne—bg;所述 map数据结构m—ne一bg的"键"是被抽取的所有实体的前两个双字^'。 和^ x、, 这些双字对应的值为实体列表;然后,考察经过偏移的当前双字A+^'+"',如果该双 字和map数据结构m一ne—bg中的某个key "键"(即实体的前两个双字)相同,则预 匹配成功,且待匹配的实体就是对应键值中的所有实体;其中,t表示当前时刻,s 表示偏移量。
(233) 实体匹配程度计算模块利用Levenstein最小编辑距离定义匹配程度的度 量,并将匹配度最高的实体类别输出,公式如下
—比〃 "/gve"血力
其中,^是待匹配实体的长度;1)/—, 是当前字符串和实体的Levenstein最小 编辑距离;当完全匹配时Z)^^^为0, p为1,表示最高匹配程度;当完全不匹配 时"/^w为&w, p为0,表示最低的匹配程度。
(244) p门限值设定模块设定/ 的门限值,匹配度大于或等于户门限值的字符 串即被识别为实体类别。
本发明的优点在于
本发明提供的浅层自然口语理解系统及方法能够有效地、鲁棒地解决口语中特 有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能的识别错误等问题, 更适合于口语环境。


图1是现有技术人机对话系统基本框架图
图2是现有技术通过序列分类提取相应的实体;
图3是本发明浅层自然口语理解系统框架图4是本发明浅层自然口语理解系统及方法识别框架流程图;
图5是本发明当前字符串与实体的模糊匹配流程图。
具体实施例方式
下面结合一个具体的实施例对本发明的浅层自然口语理解系统及方法做详细说 明。本发明浅层自然口语理解系统框架如图3所示。
本实施例的浅层自然口语理解系统,如图4所示,包括预处理模块,词汇特征
提取模块,上下文特征提取模块,实体模糊匹配模块,最大熵分类模块,及Viterbi 搜索模块。
其中,词汇特征提取模块包括单字特征考察模块,双字特征考察模块,常见字 与双字考察模块。
其中,上下文特征提取模块包括
一考察当前观察前一个观察点已经标记的类别,利用前一观察点类别这一历史 信息帮助当前观察点类别的判别的模块。
一考察当前观察前面的词是否某个实体类别的"触发词",通过"触发词"的出 现帮助判别当前观察是否属于某个类别的模块。
其中,实体模糊匹配模块框架,包括匹配偏移点计算模块,预匹配模块,实 体匹配程度计算模块及P门限值设定模块。
本实施例浅层自然口语理解方法流程如图4所示,包括以下步骤.-
1、 对输入语句进行预处理-
通过规则的方法部分去除口语反复如"我想问想问 一下",无意义的填充词"啊"、 "呢"、"吧"、"那个"等。
2、 经过预处理后,对语句的每个时刻的观察抽取特征
2.1词汇特征的提取
首先,提取最大熵常用的词汇特征,在5个字的窗口内考察相应的字和双字特征,
定义如下特征函数模板A系列
A系列,考察单字特征,其中《,。考察当前字;c,、 S,—,考察后一个字&、 ~2考
察后第二个字X卜2、 /^考察前一个字、+,和P,,2考察前第二个字Xw;需要说明的是
特征模板不等于特征函数,但是模板可以根据训练语料生成特征函数,如对于模板《,。,在训练语料中如果出现当前字为"我"并且属于非实体类,该模板就会生成特 征函数,对应于训练语料中多个不同的当前字,该模板可以生成相对应的特征函数。 下面所述的模板都和这个相同。
尸2系列,考察双字特征,其中^,。考察当前双字;c,和;c,+,组合,尸2,一考察后一个 字x^和当前字x,组合,A,-2考察后两个字V,和X,j组合,/^考察前两个字x,+,和
X,+2组合。
尸3系列,考察各个类别的常见字和双字,从训练语料中通过统计方法获得每一类 别的常见字和双字的集合。在分类的时候使用这些集合得到当前字或者双字的常见 字特征。根据命名实体种类数量定义各个常见字特征函数i^。例如,尸3,。考察当前 字或者双字是否常见的非实体字,如果当前双字是"您好",该双字在训练数据中常 见于非实体类,则^。对应的特征函数响应值为1;余此类推,其他i^考察各自类
的常见字是否在当前字和双字中出现。
2.2上下文特征的提取
尸4系列,考察当前观察前一个观察点已经标记的类别c,一,;
A系列,考察当前字的前一个字或者双字是否某个特定类别的常见前导词,比 如地点类的前导词可以是"在"、"从"、"到"等等。
2.3实体的模糊匹配
尸6系列,利用已有的命名实体列表,在当前字向前进行模糊匹配。如果有某个 类别的实体与当前字向前的字符串匹配,则当前字很有可能就是所匹配的实体类。 由于输入的语句带有噪音和较大的口语随意性,匹配过程需要是模糊匹配以增强其 鲁棒性。图5是模糊匹配的流程图。
其中,匹配偏移点是针对在汉语口语中地点或者服务设施的名称通常会有比较随 意的前缀,如"北京市海淀区鼎好电子大厦"、"北京鼎好电子大厦"、"海淀区鼎好 电子大厦",这些字符串都指同一地点"鼎好电子大厦",在匹配过程中应该忽略这 些前缀的影响,因此在匹配前要对语句中的匹配点进行偏移。
预匹配的目的主要有2个, 一是检査匹配的必要性,如果预匹配不成功,则不 需要进行更深入的匹配,节省了处理时间;二是经过预匹配,可以将需要和当前字 符串匹配的实体限定在预匹配成功的实体范围内,这样往往将匹配的范围从 4000 5000个縮小到了平均IO个以内,大大节省了査找和匹配时间。预匹配的实现 方法是对于实体库内所有实体,取其前两个双字(;c'。x、和x',;c'2),形成map数
1 当前字x,-我并且c-O 0 其他情况
12据结构m一ne一bg,它的键就是所有这样的双字,对应的值是一个实体列表,列表中 的所有实体的第一个或者第二个双字就是键。预匹配时考察经过偏移的当前双字 x,+,;c,+,+,(其中t表示当前时刻,s表示偏移量),如果该双字和m_ne_bg中的某个 key相同,则预匹配成功,而且待匹配的实体就是对应键值中的所有实体。
在计算匹配程度时,主要利用Levenstein最小编辑距离定义匹配程度的度量,如 公式(2)所示,其中/e"是待匹配实体的长度,Z),w是当前字符串和实体的 Levenstein最小编辑距离,当完全匹配时/^,,£, 为0,户得l,表示最高匹配程度; 当完全不匹配时^_, 为/^, p得O,表示最低的匹配程度。 /ew — A,
(2)
从匹配程度的计算可知,通过设定户的门限值,可以容许部分匹配的字符串被看 做实体,从而提高了系统的鲁棒性。例如,带有噪声的输入语句"中关村海龙电电 子的大厦",这个语句中有重复("电电子")和填充("的")的口语现象;而对于知 识库中的实体"中关村海龙电子大厦",两个字符串的距离是2,匹配程度是0.78, 如果门限值设定在0.7,则该字符串成功的被识别为实体"中关村海龙电子大厦", 从而提高了系统对于语法现象和口语识别错误的鲁棒性。通过这个模板可以得出一
系列与实体类别相关的特征函数,如下面的函数
'l 当前字串模糊匹配6ad,并且c-kmA:
0
_ 其他情况 3、最大熵分类-
将所有特征送入最大熵分类器,利用以下公式: 1P(。
取)
exp
求得所有时刻各个类别的后向概率p(。 1 x,)
4、 搜索最优路线
在输入序列上用Viterbi算法搜索最优路线。
5、 从得到的分类标记序列中提取出命名实体。
(3)
权利要求
1、一种浅层自然口语理解系统,该系统包括一预处理模块,用于将输入的口语中无意义的填充词去除,并将预处理后的语音序列输出;一最大熵分类模块,对输入序列的每一点,通过选取该点的词汇特征、上下文特征等特征,通过最大熵算法取得该点的所有可能的分类的后向概率分布;一维特比搜索模块,用于在最大熵输出的分类标记序列网上搜索最优路径,得到最优的分类标记序列,从而得出命名实体;其特征在于,最大熵模型选择的特征模块包括一词汇特征提取模块,用于通过各个实体类和非实体类经常出现的词汇,判断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;一上下文特征提取模块,用于通过实体前、后的特定的词汇,判断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;和一实体模糊匹配模块,用于利用实体知识库,通过模糊匹配算法,在输入的预处理后的语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别送入最大熵分类模块。
2、 根据权利要求l所述的浅层自然口语理解系统,其特征在于,所述词汇特征 提取模块包括-一单字特征考察模块,用于利用训练语料生成单字特征函数,并根据单字特征 函数,考察语音序列中的单字特征,判断当前单字的实体类别;一双字特征考察模块,用于考察语音序列中的双字特征,并根据生成的双字特 征函数,判断当前双字的实体类别;一常见的字与双字考察模块,用于从训练语料中通过统计方法获得每一类别的 常见字和双字的集合,并利用命名实体种类数量定义各个常见字特征函数,然后根 据该集合及各个常见字特征函数得到当前字或者双字的常见字特征,判断当前字或 者双字的实体类别。
3、 根据权利要求l所述的浅层自然口语理解系统,其特征在于,所述上下文特 征提取模块进一步包括一考察当前观察前一个观察点己经标记的类别,利用前一观察点类别这一历史信息帮助当前观察点类别的判别的模块;一考察当前观察前面的词是否某个实体类别的"触发词",通过"触发词"的出现帮助判别当前观察是否属于某个类别的模块。
4、根据权利要求l所述的浅层自然口语理解系统,其特征在于,所述实体模糊匹配模块包括一匹配偏移点计算模块,用于对输入的语音序列中的匹配点进行偏移处理,并 将处理后的结果送入预匹配模块;一预匹配模块,用于将当前输入的字符串与已知类别的实体匹配首先抽取已知实体库内所有实体的前两个双字^'。x'i和^x'2,形成map数据结构m—ne—bg;所 述map数据结构m—ne一bg的"键"是被抽取的所有实体的前两个双字^ X、和^ x、, 所述所有实体的前两个双字对应的值为实体列表;然后,考察经过偏移的当前双字,如果该双字和map数据结构m—ne—bg中的某个实体的前两个双字相同, 则预匹配成功,且待匹配的实体就是对应键值中的所有实体;其中,t表示当前时刻, s表示偏移量s一实体匹配程度计算模块,用于利用列维斯坦最小编辑距离定义匹配程度的度量,并将匹配度最高的实体类别输出,公式如下其中,/e"是待匹配实体的长度;A^一,"是当前字符串和实体的列维斯坦最小 编辑距离;当完全匹配时Z)^,^为0,户为1,表示最高匹配程度;当完全不匹配 时A^"^"为^W, p为0,表示最低的匹配程度。
5、 根据权利要求4所述的浅层自然口语理解系统,其特征在于,所述实体模糊 匹配模块还包括一p门限值设定模块,用于设定p的门限值,匹配度大于或等于/ 门 限值的字符串即被识别为实体类别。
6、 一种浅层自然口语理解方法,该方法包括以下步骤(1) 对输入语句进行预处理 预处理模块将输入的语句中无意义的填充词去除,并将预处理后的语音序列输出;(2) 经预处理后,对语句的每个时刻的观察抽取特征,包括以下子步骤 (21)词汇特征的提取词汇特征提取模块通过各个实体类和非实体类经常出现的词汇,判断预处理后 的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;(22) 上下文特征的提取上下文特征提取模块通过实体前、后的特定的词汇,判断预处理后的语音序列 中的词的实体类别,并将该实体类别送入最大熵分类模块;(23) 实体的模糊匹配-实体模糊匹配模块利用实体知识库,通过模糊匹配算法,在输入的预处理后的 语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别送入最大熵分 类模块;(3) 最大熵分类最大熵分类模块对输入的实体类别的所有点取最优分类,得到相应的分类标记 序列,并将该分类标记序列送入Viterbi搜索模块;(4) 搜索最优路线、提取命名实体Viterbi搜索模块在输入的分类标记序列上搜索最优路径,最终得到命名实体。
7、 根据权利要求6所述的浅层自然口语理解方法,其特征在于,所述步骤(21) 进一步包括以下子步骤(211) 单字特征考察模块用训练语料生成单字特征函数,并根据单字特征函数, 考察语音序列中的单字特征,判断当前单字的实体类别;(212) 双字特征考察模块考察语音序列中的双字特征,并根据生成的双字特征 函数,判断当前双字的实体类别;和(213) 常见字与双字考察模块从训练语料中通过统计方法获得每一类别的常见 字和双字的集合,并利用命名实体种类数量定义各个常见字特征函数,然后根据该 集合及各个常见字特征函数得到当前字或者双字的常见字特征,判断当前字或者双 字的实体类别。
8、 根据权利要求6所述的浅层自然口语理解方法,其特征在于,所述步骤(22) 进一步包括以下子步骤(221) 考察当前观察前一个观察点已经标记的类别,利用前一观察点类别这一 历史信息帮助当前观察点类别的判别;(222) 考察当前观察前面的词是否某个实体类别的"触发词",通过"触发词" 的出现帮助判别当前观察是否属于某个类别。
9、 根据权利要求6所述的浅层自然口语理解方法,其特征在于,所述步骤(23) 进一步包括以下子步骤(231)匹配偏移点计算模块对输入的语音序列中的匹配点进行偏移处理,并将处理后的结果送入预匹配模块;(232)预匹配模块将当前输入的字符串与己知类别的实体匹配首先抽取已知 实体库内所有实体的前两个双字x'。A和^x'2,形成map数据结构m—ne_bg;所述map数据结构m—ne—bg的"键"是被抽取的所有实体的前两个双字^ ^和^'x、, 所述所有实体的前两个双字对应的值为实体列表;然后,考察经过偏移的当前双字 x' x'+"i,如果该双字和map数据结构m—ne_bg中的某个实体的前两个双字相同, 则预匹配成功,且待匹配的实体就是对应键值中的所有实体;其中,t表示当前时刻, s表不偏移量s(233)实体匹配程度计算模块利用列维斯坦最小编辑距离定义匹配程度的度量, 并将匹配度最高的实体类别输出,公式如下—/en — "D/,w論其中,/ew是待匹配实体的长度;Aw,n是当前字符串和实体的列维斯坦最小 编辑距离;当完全匹配时Z^^^"为0, /9为1,表示最高匹配程度;当完全不匹配 时"/w,"为/ew, p为0,表示最低的匹配程度。
10、根据权利要求9所述的浅层自然口语理解方法,其特征在于,所述步骤(23) 进一步包括p门限值设定模块设定/ 的门限值,匹配度大于或等于^门限值的字 符串即被识别为实体类别的步骤。
全文摘要
本发明涉及一种浅层自然口语理解系统及方法,该系统包括预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。
文档编号G06F17/27GK101645064SQ20081023972
公开日2010年2月10日 申请日期2008年12月16日 优先权日2008年12月16日
发明者包长春, 徐为群, 李亚丽, 潘接林, 颜永红 申请人:中国科学院声学研究所;北京中科信利技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1