基于对录取的语音数据的核心语提取的言语内容分析系统和利用该系统的索引方法及言...的制作方法_4

文档序号：9932711阅读：来源：国知局

语和文脉关键字，通过主题语数据库510检索对应的主题语并输出检索出的主题语。例如，当检索语为。奇丑"且相一致的文脉关键字为"召句"和"巧勾么"时，主题语分析部520将主题语分析天
.因此，在此主题语可被看作为是属于语音数据的言语内容。
[0100] 输出部530通过用户界面300输出检索画面，所述检索画面是接收从主题语分析部 520传送的检索结果信息和主题语信息并提供给用户的画面。图11中示出输出部530通过用户界面300向用户显示的画面的例。图11中可知由客户实际发声的内容是
用户提供的检索语是哥卫"，与检索语对应而相一致的文脉关键字是"省句"和"巧马益"。其中，客户虽然发声''巧司句蟲"，但相一致的文脉关键字示出为''巧马益"，运可W在检索语DB 410中设定相似关键字时W类别方式设定相似单词来实现。例如，当文脉关键字为"巧司Jl "时，对此可除了 "巧勾盘巧^外，还将等相似的单词捆
绑为同类别并能够检索出。并且，在检索语的情况下还支持别称检索，使当用户输入"异巧寒" 作为检索语时，检索部400同时对'
等执行检索。进一步，除了名词语W外，对动词的情况下也能够进行别称检索。例如，即使用户输入"吞马哥召y对"作为检索语，检索部400除了。吞勾許召L]外"W外，还同时对 "吞马奇Ml益"等的别称执行检索。
[0101] 并且，图11中作为检索结果显示出标准化的可靠度值、整体原音源语音文件上的起始点和终止点的时间，并一同显示有基于检索语。墙咎丑"和文脉关键字"召句"和 "巧马益，，而分析出的主题语为"7}过丑奇"的分析结果。
[0102] W下，参照附图对本发明的实施例的音素基准的索引方法进行说明。
[0103] 图12是本发明的实施例的音素基准的索引方法的流程图。
[0104] 在本发明的实施例的索引方法中，当执行了客户等的语音录取而生成录取的语音文件11时，可立即或根据往后用户的指示对语音文件11执行索引方法。
[0105] 参照图12,当指定要索引的语音文件11时，被指定的语音文件11中存储的语音数据输入索引部100并存储于缓存部no(步骤SiOO)。
[0106] 此时，索引控制部160判断是否从缓存部110中存储的语音数据检测出语音的起始点（步骤SllO)。
[0107] 如果未检测出语音的起始点，则在语音数据上利用帖移动(步骤S120)持续地按照帖单位读取语音数据，直至检测出语音的起始点。
[0108] 如果在所述步骤SllO中检测出语音的起始点，由于是在语音数据中最初开始有效的语音区段，索引控制部160开始进行时间计时(步骤S130)，然后对有效的语音区段的音素形成基于帖单位的音素识别的音素格(步骤S140)。如上所述的关于利用帖单位的音素识别来形成音素格的步骤，将在后面具体进行说明。
[0109] 接着，索引控制部160判断预设定的限制时间（例如10秒)是否到达(步骤S150)，如果到达预设定的限制时间，则与语音的终止点检测结束的情况相同地进行处理，并将被分割的索引信息存储于索引数据库200(步骤S160)。其中，被分割的索引信息包含有所述步骤 S140中形成的音素格和多个信息。对于运样的多个信息已在上面进行了说明，因而在此省去具体的说明。随后，为了补充基于语音终止点处理的语音信息的损失而执行帖叠加(步骤 S170)。例如，返回3秒左右的语音区段并执行索引过程。
[0110] 另外，如果在所述步骤S150中判断为未到达限制时间，索引控制部160为了存储被分割的索引信息而对语音数据判断是否检测出语音的终止点（步骤S180)，如果检测出语音的终止点，则存储被分割的索引信息（步骤S190)，并反复执行对下一个语音数据利用帖移动(步骤S120)寻找新的起始点的过程(步骤SllO)。另外，当在所述步骤S180中未检测出语音的终止点时，判断是否因为到达语音文件11的末尾而不再有要执行索引的语音数据(步骤S200)，如果判断为不是语音文件11的末尾而还存留有要执行索引的语音数据，则反复执行为了对下一个帖的处理而执行帖移动(步骤S210)，然后对被移动的帖的音素形成音素格的所述步骤Sl 30。
[0111] 如上所述，对持续的语音数据执行索引，并在此过程中，如果在所述步骤S200中判断为因到达语音文件11的末尾而不再有要执行索引的语音数据，则因为是语音虽然开始但未到达限制时间，并且在未检测出语音终止点的情况下到达语音文件11的末尾，为了防止信息的损失，索引控制部160将当前为止被索引处理的信息存储为被分割的索引信息(步骤 S220)，然后结束执行语音文件11的索引。
[0112] 图13是图12所示的音素格形成步骤S140的具体的流程图。
[0113] 参照图13，索引控制部160从缓存部110中存储并输出的帖单位的语音数据提取特征向量(步骤S131)，然后使用提取出的特征向量执行基于帖同步的音素识别（步骤S132)。
[0114] 接续，索引控制部160对利用音素识别来生成的音素串，随着帖单位的时间推移而形成最少N个音素串候补群(步骤S133)，从形成的N个音素串候补群中利用执行逆时间计算而选择一个最优的音素串候补群并形成对应的音素格(步骤S134)。
[0115] 接着，参照附图对本发明的实施例的对W音素基准索引出的信息，基于核屯、语提取来分析言语内容的方法进行说明。
[0116] 图14是本发明的实施例的基于核屯、语提取的言语内容分析方法的流程图。
[0117] 在本发明的实施例的基于核屯、语提取的言语内容分析方法中，假设对存储有索引信息的索引数据库200文件执行言语内容分析进行说明，其中所述索引信息是在选择了用于用户分析言语内容的语音文件11时，对选择的语音文件11执行索引后的索引信息。
[0118] 参照图14,当用户通过用户界面300输入用于检索的核屯、语作为检索语时（步骤 S300)，检索部400对输入的检索语生成音素单位的发音串（步骤S310)。
[0119] 随后，检索部400使用音素单位的发音串，并对索引数据库200中存储的被分割的索引信息使用动态整合算法而检索相一致的音素串，从而作为第一次候补的音素串进行输出（步骤S320)。
[0120] 上述的步骤S320的动态整合处理反复执行直至到达索引数据库200中存储的被分割的索引信息的末尾(步骤S330)。
[0121] 随后，检索部400对利用动态整合处理选定的第一次候补的音素串，执行通过声学模型详细地判断一致与否并决定最优的一个语音区段的验证处理，将被决定的语音区段和与该语音区段相关的各种信息存储于检索数据库410,并同时输出给分析部500(步骤 S340)。此时，当决定了最优的候补时，检索部400在W与最优的候补相应的语音区段为基准的前后规定时间范围内，在检索数据库410中追加检索是否存在有和与检索语对应地提取的文脉关键字的发音串相一致的音素串。
[0122] 接着，分析部500通过利用检索部400验证的结果提取检索语和文脉关键字，并通过主题语数据库510分析对应的主题语(步骤S350)。
[0123] 此外，分析部500通过用户界面300向用户显示输出最终基于检索语执行检索的检索结果，并一同显示输出分析出的主题语，从而供用户能够分析语音文件11的言语内容(步骤S360)。
[0124] 因此，用户对自己指定的语音文件11可通过利用核屯、语的检索来分析语音文件11 的言语内容。
[0125] 另外，W上仅对检索部400基于用户通过用户界面300输入的一个检索语而执行检索进行了说明，但是本发明并不限定于此，其能够输入两个W上的检索语并对各个检索语执行检索，从而向用户显示出各自的检索结果。特别是，对两个W上的检索语可使用逻辑算符，从而更加具体地执行基于两个W上的检索语的组合的主题语分析，能够更加具体地分析言语内容。
[0126] 并且，由于检索部400的检索结果作为检索历史存储于检索结果历史数据库450，通过将运样的检索历史利用作为统计资料，能够在往后的广告或宣传时使用，并且能够防止对已检索的检索语执行重复检索。
[0127] 如上所述，本发明的实施例中仅需对作为检索语输入的核屯、语在语音数据中W音素基准提取即可，无需分析实际服务中使用的语音数据的全部单词，因此检索速度快且准确度高，与需要持续地反映未登记语才能执行正常的识别过程的大容量连续语识别方式相比，对实际录取数据具有优异的性能且能够减少维修费用。
[0128] 并且，能够通过利用多个检索语的组合的检索结果及主题语检索结果来分析语音文件的言语内容，因此，减少对语音文件的言语内容分析时间，其结果能够迅速地进行对客户的响应处理。
[0129] W上对本发明的实施例进行了详细的说明，但是本发明的权利范围并不限定于此，本领域的技术人员利用所附的权利要求书中定义的本发明的基本概念进行的多种变形及改进形态也落入本发明的权利范围。
【主权项】
1. 一种言语内容分析系统，其特征

完整全部详细技术资料下载

当前第4页1 2 3 4 5