基于多媒体对象的语音交互方法、系统、车辆和程序载体与流程

文档序号：23705047发布日期：2021-01-23 12:49阅读：120来源：国知局

[0001]
本发明涉及一种基于多媒体对象的语音交互的方法、一种基于多媒体对象的语音交互的系统、一种相应的车辆和一种机器可读程序载体。

背景技术：

[0002]
随着个人智能化设备的普及与发展，将纸质媒体对象的信息以电子方式进行存储和读取逐渐成为主流。但是，提取媒体对象的信息往往需要耗费大量人力和物力，如何自动化地完成这一过程并且良好地利用提取出的信息至关重要。
[0003]
为了解决这一问题，现有技术中提出了基于媒体消息的智能助理以及自动化名片识别方法，其中，尤其提出了可通过图像识别等手段录入纸质媒体信息，并在执行语音功能时考虑所录入的信息的上下文状态，由此能够智能地响应于用户需求来调用相关信息。
[0004]
但是上述解决方案仍存在诸多不足，特别是目前的信息处理方式只能实现简单的信息问询和调用，当对媒体对象信息的查询密度高、请求内容复杂的情况下，目前的解决方案仍无法充分满足用户的这些个性化需求。

技术实现要素：

[0005]
本发明的目的在于提供一种基于多媒体对象的语音交互的方法、一种基于多媒体对象的语音交互的系统、一种相应的车辆和一种机器可读程序载体。
[0006]
根据本发明的第一方面，提供一种基于多媒体对象的语音交互的方法，所述方法包括以下步骤：
[0007]
s1)获取多媒体对象；
[0008]
s2)提取多媒体对象包含的信息；
[0009]
s3)将所提取的信息关联到至少一个语音技能模型；以及
[0010]
s4)根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。
[0011]
本发明尤其包括如下技术构思：在对不同格式的多媒体对象执行自动化信息提取之后，这些信息不再仅仅以字段列表条目的形式存在并且基于触发指令被抽取，与此不同地，在本发明中还将提取的信息有利地匹配到适合的语音技能模型，从而用户可以通过语音交互直接定向到语音技能模型并且调用相关语音服务，由此实现了一种更高效、快捷的信息处理方式。
[0012]
可选地，所述步骤s3包括：根据所提取的信息中的表征多媒体对象的主体身份的信息生成标识符；为所提取的信息中的附加信息分配所述标识符，使得所述附加信息及其关联的语音技能模型链接到所述主体身份。
[0013]
可选地，所述步骤s3包括：将所提取的信息中的人员姓名、职业、物理地址、电子邮件地址、手机号码、固话号码关联到通讯录模型和/或日历模型；以及，将所提取的信息中的物理地址关联到天气模型和/或导航模型。
[0014]
可选地，所述步骤s3还包括：将多媒体对象的所提取的信息存储到语音技能模型
的语料库中并作为训练数据来训练相应的语音技能模型。
[0015]
可选地，所述步骤s2包括：借助光学字符识别技术识别多媒体对象中的文本字段；对所述文本字段进行预处理；对所述文本字段执行特征选择；以及，按照预定义的标准对所提取的特征进行分类。
[0016]
可选地，在步骤s4之前还执行以下步骤：将所关联的语音技能模型存储在云端并且与用户的身份信息进行绑定。这意味着当用户进入到新的语音交互环境时也可以快速调用相关服务，例如用户可以直接输出相关语音请求，云端便可以为其查询。
[0017]
可选地，所述步骤s4包括：检测用户的语音指令中的第一字段信息和第二字段信息，所述第一字段信息表征用户意图，所述第二字段信息表征多媒体对象的主体身份；基于第一字段信息定向到至少一个语音技能模型，基于第二字段信息定向到所述语音技能模型的语料库中的条目，所述条目链接到所述主体身份；以及，借助所述语音技能模型基于所述条目来提供语音服务。
[0018]
在此，通过对表征多媒体对象主体身份的字段与表征用户意图的字段的绑定检测，能够快速调用相关服务，而无需通过多次语音交互首先进行意图判断然后再进行主体对象判断，提高了交互效率和用户友好性。
[0019]
根据本发明的第二方面，提供一种基于多媒体对象的语音交互的系统，所述系统用于执行根据本发明的第一方面的方法，所述系统包括：
[0020]
获取模块，其配置成能够获取多媒体对象；
[0021]
提取模块，其配置成能够提取多媒体对象包含的信息；
[0022]
处理模块，其配置成将所提取的信息关联到至少一个语音技能模型；以及
[0023]
输出模块，其配置成能够根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。
[0024]
根据本发明的第三方面，提供一种车辆，所述车辆具有本发明的第二方面的系统。
[0025]
根据本发明的第四方面，提供一种机器可读程序载体，在其上存储有计算机程序，所述计算机程序用于当其在计算机上运行时能够实施根据本发明的第一方面的方法。
附图说明
[0026]
下面，通过参看附图更详细地描述本发明，可以更好地理解本发明的原理、特点和优点。附图包括：
[0027]
图1示出了根据本发明的一个示例性实施例的基于多媒体对象的语音交互的方法的流程图；
[0028]
图2示出了根据本发明的一个示例性实施例的将所提取的信息关联到至少一个语音技能模型的示意图；
[0029]
图3示出了根据本发明的一个示例性实施例的基于多媒体对象进行语音交互的应用示例；以及
[0030]
图4示出了根据本发明的另一示例性实施例的基于多媒体对象的语音交互的系统的框图。
具体实施方式
[0031]
为了使本发明所要解决的技术问题、技术方案以及有益的技术效果更加清楚明白，以下将结合附图以及多个示例性实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，而不是用于限定本发明的保护范围。
[0032]
图1示出了根据本发明的一个示例性实施例的基于多媒体对象的语音交互的方法的流程图。
[0033]
在步骤s1中，获取多媒体对象。在本发明的意义上，多媒体对象可以具有不同格式(例如文本、音频、视频、图像等)，示例性地，多媒体对象可以是名片的图像、视频或音频剪辑片段、海报的图像、广告或网页的截图等。例如，可以借助图像采集设备(例如摄像机、光学传感器等)和/或音频采集设备(录音设备等)采集该多媒体对象，此外也可以借助适当的网络接口从云端或移动终端接收该多媒体对象。
[0034]
在步骤s2中，提取多媒体对象包含的信息。在多媒体对象是图像的情况下，例如可以基于光学字符识别技术对其执行文本提取。在多媒体对象是音频片段或视频片段的情况下，例如可以借助stt(speech to text，语音转文字)技术执行音频到文本的转换。
[0035]
作为示例，在对文本字段执行提取之后可以进行相应的预处理。例如，可以(例如借助字符串分词法)将文本字段拆分成构成文本的基本语义单元，这些语义单元可以是句子、短语、词语或单个的字。此外，还可以去除文本字段中的停用词(stop word)，即，去除普遍存在于文本中但本身不具有明显意义的功能词。
[0036]
作为示例，还可以对文本字段执行特征选择。例如，可以定义相应的向量空间模型，并且在向量空间模型中选择那些最能表征文本含义的词组元素，由此不仅可以降低数据处理的规模，还有助于机器学习中应用的分类器的性能改善。常用的特征选择方法包括：文档频率法、信息增益法、校验法和互信息法。
[0037]
作为示例，最后还可以按照预定义的标准对所选择的特征进行分类。在此，文本分类模型主要包括规则模型、概率模型、几何学模型和统计模型。
[0038]
在步骤s3中，将所提取的信息关联到至少一个语音技能模型。在本发明的意义上，语音技能模型可以理解为能够提供语音交互服务的自然语音模型，在按照提供的语音服务类别进行划分的情况下，语音技能模型可以包括：通讯录模型、天气模型、导航模型、日历模型、邮件模型等。
[0039]
作为示例，在此可以根据所提取的信息中的表征多媒体对象的主体身份的信息生成标识符，然后为所提取的信息中的附加信息分配所述标识符，使得所述附加信息关联到的语音技能模型与所述主体身份绑定。具体而言，多媒体对象的所提取的信息被划分到各个语音技能模型的语料库中并生成条目，通过分配标识符能够使多媒体对象的附加属性信息或子条目信息(例如物理地址、电话号码、开放时间、折扣信息)耦合到多媒体对象的主体身份信息(例如名片所有人的姓名和/或昵称和/或代号、海报中的餐厅名称、广告片段中的游乐场名称等)，由此，能够按照用户指定的“主体身份”来调用相应的语音技能模型的语料库中的配属于该主体身份的相应条目，从而实现了意图任务流与主体对象之间的一一对应，简化了信息调取难度。
[0040]
作为示例，在此可以将所提取的信息中的人员姓名、职业、物理地址、电子邮件地址、手机号码、固话号码关联到通讯录模型和/或日历模型；以及，将所提取的信息中的物理
地址关联到天气模型和/或导航模型。
[0041]
作为示例，在此可以将多媒体对象的所提取的信息存储到语音技能模型的语料库中并作为训练数据来训练相应的语音技能模型。在此，收集各个多媒体对象的文本字段，并将其按照语义类别划分地存入语音技能模型的语料库中，累积形成不同语音技能模型的训练数据样本。还能够想到的是，可以借助机器学习手段对多媒体对象的所提取的信息进行适当的语义扩展，从而能够更高效地实现数据样本的增强，以提升所训练的语音技能模型的泛化能力。
[0042]
在步骤s4中，根据用户的语音指令输出所述至少一个语音技能模型对应的语音服务。在本发明的意义上，用户的语音指令可以理解为：与多媒体对象的信息内容相关联的语音请求。这种语音指令不局限于对多媒体对象的特定信息内容的反馈请求(例如信息条目查询请求)，替代地或附加地，还包括由多媒体对象的信息内容扩展出的功能请求(例如导航请求、天气查询请求、通讯服务请求、待办事项提醒请求等)。
[0043]
作为示例，在此可以检测用户的语音指令中的第一字段信息和第二字段信息，所述第一字段信息表征用户意图，所述第二字段信息表征多媒体对象的主体身份，然后基于第一字段信息定向到至少一个语音技能模型，基于第二字段信息定向到所述语音技能模型的语料库中的条目，所述条目链接到所述主体身份。由此，可以借助所述语音技能模型基于所述条目来提供语音服务。
[0044]
例如，用户输入的语音指令为“导航去王天家”，则所检测的第一字段信息是“导航”，所检测的第二字段信息是“王天”。于是，基于该第一字段信息定向到导航语音技能模型，基于第二字段信息定向到导航语音技能模型的语料库中的如下条目：该条目通过预先分配的标识符能够链接到该名片的所有人“王天”，在此，该条目中存储有王天家的物理地址信息。接下来，可以借助导航语音技能模型基于该条目中存储的信息来提供到王天家的语音导航服务。
[0045]
图2示出了根据本发明的一个示例性实施例的将所提取的信息关联到至少一个语音技能模型的示意图。
[0046]
在图2左侧示出了王天的名片图像10，在右侧示出不同的语音技能模型20、30、40。在对该名片图像10进行信息提取之后，将这些信息分别关联到相应的语音技能模型20、30、40并作为条目存储在语料库中。在此，除了将各项信息按照类别关联到通讯录模型20之外，还附加地将家庭住址和工作地址关联到导航模型30和天气模型40。
[0047]
然后，例如根据该名片的主体身份“王天的姓名”生成标识符“条目1”，并将该标识符分别配给该名片的附加信息(即，职务、家庭住址、公司地址、电话、电子邮件等属性信息)，于是名片的各项附加信息及其关联的语音技能模型(以及语音技能模型的语料库中的具体条目)均统一指向名片的主体身份“王天”。如在图2中示例性所示，该标识符在此以编号“条目1”的形式存在，然而还可能的是，该标识符以指针、链接的形式存在。
[0048]
产生这种链接关系的好处是，在调用语音服务时，能够直接根据意图和主体身份准确地定位到相应的语音技能模型，同时还能够定位到语音技能模型的语料库中的具体条目，而无需通过多次语音问询来重复获取信息，提高了语音交互效率。
[0049]
图3示出了根据本发明的一个示例性实施例的基于多媒体对象进行语音交互的应用示例。
[0050]
在该示例性实施例中，所获取的多媒体对象是名片图像。在此以表格的形式列出如何借助根据本发明的方法实现基于多媒体对象的语音交互。在表格第一列中示出了该多媒体对象的主体对象身份“王天”，除了姓名之外，还能够以昵称、代号、编号、缩写、姓名拼音、图形符号等具有代表性的字段或图形来表征多媒体对象的主体对象身份。
[0051]
在表格的第二列中示出了通过光学字符识别技术提取的信息。
[0052]
接下来在第三列中示出了这些所提取的信息分别关联到的语音技能模型。示例性地，王天的家庭住址被关联到天气模型和导航模型，而手机号、公司、职位信息被关联到通讯录模型。
[0053]
在表格的第四、第五列分别示出了在使用根据本发明的方法情况下的语音交互示例。能够看出的是，虽然用户的问法存在差异，然而由于语音技能模型始终遵循意图与主体身份的组合检测方式，所以始终能够通过关键词快速定位到待提供的语音服务。
[0054]
图4示出了根据本发明的另一示例性实施例的基于多媒体对象的语音交互的系统的框图。
[0055]
如图4所示，根据本发明的基于多媒体对象的语音交互的系统100包括：获取模块110、提取模块120、处理模块130和输出模块140。
[0056]
获取模块110被配置为能够获取多媒体对象。
[0057]
提取模块120被配置为能够提取多媒体对象包含的信息。
[0058]
处理模块130被配置为能够将所提取的信息关联到至少一个语音技能模型。在此，在处理模块130中例如能够将多媒体对象的信息关联到通讯录模型131、导航模型132、天气模型133、日历模型134和电子邮件模型135。
[0059]
输出模块140被配置为能够根据用户的语音指令输出至少一个语音技能模型对应的语音服务。
[0060]
这里，已参照图1结合根据本发明的方法对各个模块的功能进行了详细描述，这里不再赘述。
[0061]
此外可选地，该系统100还包括云端服务器150和用户身份认证模块160。经过训练并生成的各个语音技能模型131、132、133、134、135可以通过无线通信链路连接至云端服务器150并且例如可以存储在区块链中。由此，当用户进入新的语音交互环境(例如车辆)时，可以借助用户身份认证模块160将用户的身份与所生成的语音技能模型131、132、133、134、135进行绑定，从而只要用户说出相关指令，云端服务器150便能够为其调用相关的语音服务并通过输出模块140输出。
[0062]
尽管这里详细描述了本发明的特定实施方式，但它们仅仅是为了解释的目的而给出的，而不应认为它们对本发明的范围构成限制。在不脱离本发明精神和范围的前提下，各种替换、变更和改造可被构想出来。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戚耀文
技术所有人：戴姆勒股份公司
我是此专利的发明人