基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言...的制作方法

文档序号：9932711阅读：406来源：国知局

基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言 ...的制作方法
【技术领域】
[0001] 本发明设及基于对录取的语音数据的核屯、语提取的言语内容分析系统和利用该系统的索引方法及言语内容分析方法。
【背景技术】
[0002] 最近，为了实现各个公司提供的客户满意服务而录取与客户的对话，或者为了进行电子商务而录取电话通话内容后，从录取的语音数据执行语音识别来分析整体上的言语内容的录取对象检索的必要性受到广泛关注。
[0003] 但是，由于未能开发出能够处理客户的录取语音的大数据的基本加工程序或服务，用人工作业来听取运样的大数据则需要花费较多的人力或时间，因而在目前情况下未能较好地执行运样的录取对象检索。
[0004] 并且，虽然尝试有基于语音识别技术来执行录取对象检索，但是运样的语音识别技术指向于人工智能语音识别服务，即，如苹果的"siri"或谷歌的"assis化nt"通过语音识别引擎W文本方式输出用户的实时输入，并对运样的文本输出利用人工智能型接近法 (accessing)来提取含义。因此，在录取的语音数据未能准确地转换为文本的情况下，将无法准确地进行录取对象检索，从而不易准确地分析录取的言语内容。

【发明内容】

[0005] 技术问题
[0006] 本发明的目的在于提供一种言语内容分析系统和利用该系统的索引方法及言语内容分析方法，其对录取的语音数据存储利用音素基准的语音识别来索引的数据，据此基于核屯、语对言语内容进行分析，从而能够较好地、简单快速地执行言语内容分析。
[0007] 技术方案
[000引根据本发明的一特征的言语内容分析系统，其包括：
[0009] 索引部，用于输入语音数据并按照帖单位执行音素基准的语音识别来形成音素格，对由多个帖构成的限制时间的帖生成被分割的索引信息，其中被分割的索引信息包括按不同的限制时间的帖形成的音素格;索引数据库，用于分别存储由所述索引部生成的被分割的索引信息，从而能够按不同的被分割的索引信息进行索引；检索部，用于将用户输入的核屯、语作为检索语，对索引数据库中存储的被分割的索引信息通过音素基准的比较而检索与所述检索语相一致的音素串；W及，分析部，用于通过所述检索部检索的检索结果分析主题语并输出给用户，从而能够对所述语音数据的言语内容进行分析。
[0010] 其中，所述索引部包括:特征向量提取部，用于从帖单位的语音数据提取特征向量;音素识别部，用于使用所述特征向量提取部提取的特征向量，执行基于帖同步的音素识别并生成对应的音素串；候补群形成部，用于输入所述音素识别部生成的音素串，并随着帖单位的时间推移而生成音素识别的候补群;音素格形成部，用于从所述候补群形成部生成的音素串候补群中执行逆时间计算来选择一个音素串候补群，并形成对应的音素格;W及，索引控制部，用于控制所述特征向量提取部、所述音素识别部、所述候补群形成部W及所述音素格形成部，从而对整个语音数据执行控制W按不同的所述限制时间并且在所述限制时间内按不同的帖单位形成音素单位的网格，为使运样形成的音素格能够各按不同的限制时间被索引，执行控制W使其W按不同的限制时间被分割的索引信息存储于所述索引数据库。
[0011] 并且，所述索引控制部包括：语音检测器，用于示出是否从语音数据中检测出语音;计时器，用于对语音数据的执行音素识别的音素的时间位置进行计时；限时器，当所述语音检测器检测出语音区段时，用于从所述计时器检测出相应语音区段开始计时时间，从而对所述限制时间进行计时；W及，动作控制器，用于在所述限时器计时的限制时间内，执行控制W对所述语音检测器检测出的有效的语音区段按照帖单位执行音素识别并形成音素格，从而作为被分割的索引信息存储于所述索引数据库。
[0012] 并且，当对所述语音检测器检测出的有效的语音区段，到达所述限时器计时的所述限制时间时，所述动作控制器执行控制W叠加之前语音区段中的特定时间或特定帖的语音区段，从而从相应帖开始作为与新的限制时间对应的语音区段执行音素识别。
[0013] 并且，所述检索部包括:检索结果历史检测部，用于针对用户输入的检索语找出已处理的检索结果;发音串生成器，用于生成与检索语对应的音素单位的发音串；检索语数据库，用于存储所述检索语和与所述检索语对应的多个文脉关键字;动态整合处理器，用于使用所述发音串生成器生成的发音串，对所述索引数据库中存储的被分割的索引信息检索相一致的音素串，从而选定第一次候补的语音区段；W及，验证器，用于对所述动态整合处理器选定的第一次候补的语音区段，通过声学模型判断一致与否并决定一个语音区段，将被决定的语音区段和与该语音区段相关的信息存储于所述检索结果历史数据库的同时输出给所述分析部。
[0014] 并且，所述动态整合处理器通过动态整合算法判断所述被分割的索引信息的音素串和所述发音串的一致与否，当通过所述动态整合算法进行判断时，如果其整合度为阔值 W上则判断为相一致。
[0015] 并且，对于成为候补的语音区段，所述验证器对检索语的音素串W =音子（triphone) 模型为基准，按照基于音素串的帖单位将语音区段分配为音素模型的状态信息，求出关于对S音子模型的观测概率值和对单音子(mono-地one)模型的观测概率值的比率的累积值，然后进行标准化而计算出可靠度值，然后基于标准化的可靠度值判断是否对所述语音区段输出为最终检索的结果物。
[0016] 并且，当决定了所述一个语音区段时，所述验证器在W所述一个语音区段为基准的前后规定时间范围内，在所述检索数据库中追加检索是否存在有和与所述检索语对应地提取的文脉关键字的发音串相一致的音素串。
[0017] 并且，所述检索结果历史数据库中存储的与所述语音区段相关的信息是包含有所述一个语音区段的文件名、语音数据中的起始位置及终止位置、所述检索语、对检索的区段的标准化的可靠度值、相一致的文脉关键字、言语者性别。
[0018] 并且，所述分析部包括:主题语数据库，用于按不同的检索语和与之对应的文脉关键字设定有主题语;主题语分析部，用于从所述检索部输出的检索结果信息中提取检索语和文脉关键字，并通过所述主题语数据库检索对应的主题语；W及，输出部，用于接收从所述主题语分析部传送的检索结果信息和主题语，并向用户进行显示。
[0019] 并且，所述文脉关键字中W类别方式设定有表示相同的含义的多个单词。
[0020] 并且，所述检索部对于对所述检索语具有相同的含义的别称，生成发音串并同时执行检索。
[0021] 并且，所述音素识别部按照音素单位执行维特比（Viterbi)算法及令牌传递 (Token passing)算法并生成对应的音素串。
[0022] 并且，所述音素格形成部对相应音素串在形成音素的起始点和终止点的同时，还形成持续时间等信息。
[0023] 并且，所述被分割的索引信息包含帖数目、音素数目、特征向量、按不同的音素的状态的观测概率值、时间戳(time stamp)、音素串、各音素的持续时间。
[0024] 根据本发明的另一特征的索引方法，用于使言语内容分析系统对语音数据执行音素基准的语音识别，并W可索引的方式进行存储，其包括:输入语音数据的步骤，对输入的语音数据的音素形成基于帖单位的音素识别的音素格的步骤，W及，将按照预设定的限制时间单位形成的所述音素格作为被分割的索引信息存储于索引数据库的步骤;所述形成音素格的步骤被控制为仅对语音数据中基于语音检测而有用的语音区段执行。
[0025] 其中，在所述形成音素格的步骤中，当按照所述限制时间单位形成音素格时，叠加语音区段中的特定时间或特定帖的语音区段并执行对下一个语音区段的音素识别，从而防止不连续引起的信息损失并形成音素格。
[0026] 并且，在所述形成音素格的步骤中，使用从帖单位的语音数据提取的特征向量，对利用基于帖同步的音素识别而生成的多个音素串候补群执行逆时间计算，从而形成与最终选择的一个语音区段对应的音素格。
[0027] 根据本发明的又一特征的言语内容分析方法，用于使言语内容分析系统对语音数据的言语内容进行分析，其包括:从用户输入检索语的步骤;生成与所述检索语对应的音素基准的发音串的步骤;使用所述发音串对索引数据库中存储的被分割的索引信息检索相一致的音素串，并选定第一次候补的语音区段的步骤;其中对所述语音数据按照帖单位执行音素基准的语音识别而形成的音素格，其作为按不同的限制时间的多个帖被分割的索引信息存储于所述索引数据库;对所述第一次候补的语音区段通过声学模型判断一致与否并决定一个语音区段的步骤;在W所述一个语音区段为基准的前后规定时间范围内，追加检索是否存在有和与所述检索语对应的文脉关键字的发音串相一致的音素串的步骤；W及，通过所述检索语和所述文脉关键字对所述语音数据的主题语进行分析并提供给用户的步骤。
[0028] 并且，在所述对主题语进行分析并提供给用户的步骤中，所述主题语的分析是通过按不同的检索语和与之对应的文脉关键字设定有主题语的主题语数据库来

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：池昌真;
技术所有人：系统翻译国际有限公司;
我是此专利的发明人