基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言...的制作方法

文档序号:9932711阅读:406来源:国知局
基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言 ...的制作方法
【技术领域】
[0001] 本发明设及基于对录取的语音数据的核屯、语提取的言语内容分析系统和利用该 系统的索引方法及言语内容分析方法。
【背景技术】
[0002] 最近,为了实现各个公司提供的客户满意服务而录取与客户的对话,或者为了进 行电子商务而录取电话通话内容后,从录取的语音数据执行语音识别来分析整体上的言语 内容的录取对象检索的必要性受到广泛关注。
[0003] 但是,由于未能开发出能够处理客户的录取语音的大数据的基本加工程序或服 务,用人工作业来听取运样的大数据则需要花费较多的人力或时间,因而在目前情况下未 能较好地执行运样的录取对象检索。
[0004] 并且,虽然尝试有基于语音识别技术来执行录取对象检索,但是运样的语音识别 技术指向于人工智能语音识别服务,即,如苹果的"siri"或谷歌的"assis化nt"通过语音识 别引擎W文本方式输出用户的实时输入,并对运样的文本输出利用人工智能型接近法 (accessing)来提取含义。因此,在录取的语音数据未能准确地转换为文本的情况下,将无 法准确地进行录取对象检索,从而不易准确地分析录取的言语内容。

【发明内容】

[0005] 技术问题
[0006] 本发明的目的在于提供一种言语内容分析系统和利用该系统的索引方法及言语 内容分析方法,其对录取的语音数据存储利用音素基准的语音识别来索引的数据,据此基 于核屯、语对言语内容进行分析,从而能够较好地、简单快速地执行言语内容分析。
[0007] 技术方案
[000引根据本发明的一特征的言语内容分析系统,其包括:
[0009] 索引部,用于输入语音数据并按照帖单位执行音素基准的语音识别来形成音素 格,对由多个帖构成的限制时间的帖生成被分割的索引信息,其中被分割的索引信息包括 按不同的限制时间的帖形成的音素格;索引数据库,用于分别存储由所述索引部生成的被 分割的索引信息,从而能够按不同的被分割的索引信息进行索引;检索部,用于将用户输入 的核屯、语作为检索语,对索引数据库中存储的被分割的索引信息通过音素基准的比较而检 索与所述检索语相一致的音素串;W及,分析部,用于通过所述检索部检索的检索结果分析 主题语并输出给用户,从而能够对所述语音数据的言语内容进行分析。
[0010] 其中,所述索引部包括:特征向量提取部,用于从帖单位的语音数据提取特征向 量;音素识别部,用于使用所述特征向量提取部提取的特征向量,执行基于帖同步的音素识 别并生成对应的音素串;候补群形成部,用于输入所述音素识别部生成的音素串,并随着帖 单位的时间推移而生成音素识别的候补群;音素格形成部,用于从所述候补群形成部生成 的音素串候补群中执行逆时间计算来选择一个音素串候补群,并形成对应的音素格;W及, 索引控制部,用于控制所述特征向量提取部、所述音素识别部、所述候补群形成部W及所述 音素格形成部,从而对整个语音数据执行控制W按不同的所述限制时间并且在所述限制时 间内按不同的帖单位形成音素单位的网格,为使运样形成的音素格能够各按不同的限制时 间被索引,执行控制W使其W按不同的限制时间被分割的索引信息存储于所述索引数据 库。
[0011] 并且,所述索引控制部包括:语音检测器,用于示出是否从语音数据中检测出语 音;计时器,用于对语音数据的执行音素识别的音素的时间位置进行计时;限时器,当所述 语音检测器检测出语音区段时,用于从所述计时器检测出相应语音区段开始计时时间,从 而对所述限制时间进行计时;W及,动作控制器,用于在所述限时器计时的限制时间内,执 行控制W对所述语音检测器检测出的有效的语音区段按照帖单位执行音素识别并形成音 素格,从而作为被分割的索引信息存储于所述索引数据库。
[0012] 并且,当对所述语音检测器检测出的有效的语音区段,到达所述限时器计时的所 述限制时间时,所述动作控制器执行控制W叠加之前语音区段中的特定时间或特定帖的语 音区段,从而从相应帖开始作为与新的限制时间对应的语音区段执行音素识别。
[0013] 并且,所述检索部包括:检索结果历史检测部,用于针对用户输入的检索语找出已 处理的检索结果;发音串生成器,用于生成与检索语对应的音素单位的发音串;检索语数据 库,用于存储所述检索语和与所述检索语对应的多个文脉关键字;动态整合处理器,用于使 用所述发音串生成器生成的发音串,对所述索引数据库中存储的被分割的索引信息检索相 一致的音素串,从而选定第一次候补的语音区段;W及,验证器,用于对所述动态整合处理 器选定的第一次候补的语音区段,通过声学模型判断一致与否并决定一个语音区段,将被 决定的语音区段和与该语音区段相关的信息存储于所述检索结果历史数据库的同时输出 给所述分析部。
[0014] 并且,所述动态整合处理器通过动态整合算法判断所述被分割的索引信息的音素 串和所述发音串的一致与否,当通过所述动态整合算法进行判断时,如果其整合度为阔值 W上则判断为相一致。
[0015] 并且,对于成为候补的语音区段,所述验证器对检索语的音素串W =音子(triphone) 模型为基准,按照基于音素串的帖单位将语音区段分配为音素模型的状态信息 ,求 出关于对S音子模型的观测概率值和对单音子(mono-地one)模型的观测概率值的比率的 累积值,然后进行标准化而计算出可靠度值,然后基于标准化的可靠度值判断是否对所述 语音区段输出为最终检索的结果物。
[0016] 并且,当决定了所述一个语音区段时,所述验证器在W所述一个语音区段为基准 的前后规定时间范围内,在所述检索数据库中追加检索是否存在有和与所述检索语对应地 提取的文脉关键字的发音串相一致的音素串。
[0017] 并且,所述检索结果历史数据库中存储的与所述语音区段相关的信息是包含有所 述一个语音区段的文件名、语音数据中的起始位置及终止位置、所述检索语、对检索的区段 的标准化的可靠度值、相一致的文脉关键字、言语者性别。
[0018] 并且,所述分析部包括:主题语数据库,用于按不同的检索语和与之对应的文脉关 键字设定有主题语;主题语分析部,用于从所述检索部输出的检索结果信息中提取检索语 和文脉关键字,并通过所述主题语数据库检索对应的主题语;W及,输出部,用于接收从所 述主题语分析部传送的检索结果信息和主题语,并向用户进行显示。
[0019] 并且,所述文脉关键字中W类别方式设定有表示相同的含义的多个单词。
[0020] 并且,所述检索部对于对所述检索语具有相同的含义的别称,生成发音串并同时 执行检索。
[0021] 并且,所述音素识别部按照音素单位执行维特比(Viterbi)算法及令牌传递 (Token passing)算法并生成对应的音素串。
[0022] 并且,所述音素格形成部对相应音素串在形成音素的起始点和终止点的同时,还 形成持续时间等信息。
[0023] 并且,所述被分割的索引信息包含帖数目、音素数目、特征向量、按不同的音素的 状态的观测概率值、时间戳(time stamp)、音素串、各音素的持续时间。
[0024] 根据本发明的另一特征的索引方法,用于使言语内容分析系统对语音数据执行音 素基准的语音识别,并W可索引的方式进行存储,其包括:输入语音数据的步骤,对输入的 语音数据的音素形成基于帖单位的音素识别的音素格的步骤,W及,将按照预设定的限制 时间单位形成的所述音素格作为被分割的索引信息存储于索引数据库的步骤;所述形成音 素格的步骤被控制为仅对语音数据中基于语音检测而有用的语音区段执行。
[0025] 其中,在所述形成音素格的步骤中,当按照所述限制时间单位形成音素格时,叠加 语音区段中的特定时间或特定帖的语音区段并执行对下一个语音区段的音素识别,从而防 止不连续引起的信息损失并形成音素格。
[0026] 并且,在所述形成音素格的步骤中,使用从帖单位的语音数据提取的特征向量,对 利用基于帖同步的音素识别而生成的多个音素串候补群执行逆时间计算,从而形成与最终 选择的一个语音区段对应的音素格。
[0027] 根据本发明的又一特征的言语内容分析方法,用于使言语内容分析系统对语音数 据的言语内容进行分析,其包括:从用户输入检索语的步骤;生成与所述检索语对应的音素 基准的发音串的步骤;使用所述发音串对索引数据库中存储的被分割的索引信息检索相一 致的音素串,并选定第一次候补的语音区段的步骤;其中对所述语音数据按照帖单位执行 音素基准的语音识别而形成的音素格,其作为按不同的限制时间的多个帖被分割的索引信 息存储于所述索引数据库;对所述第一次候补的语音区段通过声学模型判断一致与否并决 定一个语音区段的步骤;在W所述一个语音区段为基准的前后规定时间范围内,追加检索 是否存在有和与所述检索语对应的文脉关键字的发音串相一致的音素串的步骤;W及,通 过所述检索语和所述文脉关键字对所述语音数据的主题语进行分析并提供给用户的步骤。
[0028] 并且,在所述对主题语进行分析并提供给用户的步骤中,所述主题语的分析是通 过按不同的检索语和与之对应的文脉关键字设定有主题语的主题语数据库来
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1