语音预测的方法和装置的制造方法

文档序号：10513502阅读：404来源：国知局

语音预测的方法和装置的制造方法
【专利摘要】本发明提供了一种语音预测的方法和装置。该方法包括：接收当前用户的语音查询中已说出的部分；通过将接收到的当前用户的语音查询中已说出的部分分别输入用于根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分的第一预测模型和第二预测模型，分别产生第一预测输出和第二预测输出，其中第一预测模型是利用所有用户的历史上的语音查询训练出的，第二预测模型是利用当前用户的历史上的语音查询训练出的；根据第一预测输出和第二预测输出，预测当前用户的语音查询中将要说出的部分。本发明提高了语音查询的效率。
【专利说明】
语音预测的方法和装置
技术领域
[0001]本发明涉及语音识别领域，尤其涉及一种语音预测的方法和装置。
【背景技术】
[0002]在目前的语音查询技术中，人通过语音询问一个问题(如希望到什么地方、或某地有什么餐馆)，语音查询的应用能够对人提出的问题进行语音识别，然后在数据库和/或互联网等上进行搜索，为提问题的人找到合适的答案。
[0003]在这样的语音查询技术中，要等人说完全部问题，语音查询的应用才有可能正确识别出该人的语音，为该人找到合适的答案，因此效率比较低下。期望一种能够不等人说完全部问题就能预测人的全部问题、为人提前找到答案的高效的语音查询技术。

【发明内容】

[0004]本发明解决的技术问题之一是提供一种语音预测的技术，它不用等到用户说完全部问题就能预测用户的全部问题、为其提前找到答案，提高语音查询的效率。
[0005]本发明的一方面的一个实施例提供了一种语音预测的方法，包括:接收当前用户的语音查询中已说出的部分；通过将接收到的当前用户的语音查询中已说出的部分分别输入用于根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分的第一预测模型和第二预测模型，分别产生第一预测输出和第二预测输出，其中第一预测模型是利用所有用户的历史上的语音查询训练出的，第二预测模型是利用当前用户的历史上的语音查询训练出的；根据第一预测输出和第二预测输出，预测当前用户的语音查询中将要说出的部分。
[0006]可选地，该方法还包括:响应于当前用户的反馈，对预测的将要说出的部分进行校正。
[0007]可选地，该方法还包括:从当前用户的语音查询中已说出的部分中识别出所述已说出的部分的声音色彩特征。分别产生第一预测输出和第二预测输出的步骤还包括:将识别出的所述已说出的部分的声音色彩特征也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及识别出的所有用户的历史上的语音查询的声音色彩特征训练出的，第二预测模型是利用当前用户的历史上的语音查询以及识别出的当前用户的历史上的语音查询的声音色彩特征训练出的。
[0008]可选地，分别产生第一预测输出和第二预测输出的步骤包括:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出。将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于识别出的所述已说出的部分的声音色彩特征。
[0009]可选地，该方法还包括:采集当前用户的场景信息。分别产生第一预测输出和第二预测输出的步骤还包括:将采集的当前用户的场景信息也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及采集的所有用户的历史上的语音查询的场景信息训练出的，第二预测模型是利用当前用户的历史上的语音查询以及采集的当前用户的历史上的语音查询的场景信息训练出的。
[0010]可选地，分别产生第一预测输出和第二预测输出的步骤包括:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出。将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于采集的当前用户的场景
?目息O
[0011]本发明的另一方面的一个实施例还提供了一种语音预测的装置，包括:接收单元，被配置为接收当前用户的语音查询中已说出的部分；产生单元，被配置为通过将接收到的当前用户的语音查询中已说出的部分分别输入用于根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分的第一预测模型和第二预测模型，分别产生第一预测输出和第二预测输出，其中第一预测模型是利用所有用户的历史上的语音查询训练出的，第二预测模型是利用当前用户的历史上的语音查询训练出的；预测单元，被配置为根据第一预测输出和第二预测输出，预测当前用户的语音查询中将要说出的部分。
[0012]可选地，该装置还包括:校正单元，被配置为响应于当前用户的反馈，对预测的将要说出的部分进行校正。
[0013]可选地，该装置还包括:识别单元，被配置为从当前用户的语音查询中已说出的部分中识别出所述已说出的部分的声音色彩特征。产生单元被配置为:将识别出的所述已说出的部分的声音色彩特征也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及识别出的所有用户的历史上的语音查询的声音色彩特征训练出的，第二预测模型是利用当前用户的历史上的语音查询以及识别出的当前用户的历史上的语音查询的声音色彩特征训练出的。
[0014]可选地，产生单元被配置为:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出。将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于识别出的所述已说出的部分的声音色彩特征。
[0015]可选地，该装置还包括:采集单元，被配置为采集当前用户的场景信息。产生单元被配置为:将采集的当前用户的场景信息也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及采集的所有用户的历史上的语音查询的场景信息训练出的，第二预测模型是利用当前用户的历史上的语音查询以及采集的当前用户的历史上的语音查询的场景信息训练出的。
[0016]可选地，产生单元被配置为:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出。将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于采集的当前用户的场景信息。
[0017]由于本发明的实施例先接收当前用户的语音查询中已说出的部分，根据已说出的部分用第一预测模型和第二预测模型进行预测，综合两个模型的预测结果，预测当前用户将要说出的部分，这样，就达到了不用等到当前用户说完全部问题就能预测当前用户的全部问题、为其提前找到答案的目的，提高了语音查询的效率。
[0018]另外，本发明采用了两个模型，即第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询训练出的、反映了所有用户的一些共同的习惯(例如说“从A到B”后通常说“怎么走”)，第二预测模型是利用当前用户的历史上的语音查询训练出的，反映了当前用户特有的习惯(例如当前用户每天打车回家，通常会在“我要去”之后加上家的地址，那么当前用户说出“我要去”后，第二预测模型就会自动预测出当前用户将要说的是家的地址。因此，结合了第一预测模型和第二预测模型的方式，既考虑到通用的语言习惯，又考虑到语音的个性化，提高了预测的准确性。
[0019]另外，本发明的实施例还能根据当前用户的反馈对预测的将要说出的部分进行校正，从而能够防止由于预测错误造成的误查询。
[0020]另外，本发明的实施例中，不仅是根据当前用户的语音查询中已说出的话做预测，还根据从当前用户的语音查询中提取出的声音色彩，如情感、语速等做预测。当前用户的语音查询中将要说出的部分，不只与该用户已说出的部分有关，还与该用户已说出的部分的情感、语速等有关，例如当前用户可能用愤怒的语气说“你真”之后接下来会说“讨厌”，而用喜悦的语气说“你真”之后接下来会说“好”。因此，不但根据当前用户的语音查询中已说出的话，还根据已说出的话的声音色彩做预测，提供了预测的准确性。
[0021]另外，本发明的实施例中，不仅是根据当前用户的语音查询中已说出的话做预测，还根据当前用户的场景信息做预测，场景信息例如当前用户进行语音查询时的时间、地点等。例如，当前用户在地铁站时说出“去车公庄”四个字，后面很可能会说“坐地铁经过哪些站”;当前用户在公路上说出“去车公庄”四个字，后面很可能会说“可以做哪些车”等等。因此，结合当前用户的场景信息做预测，大大提高了预测的准确性。
[0022]本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。
【附图说明】
[0023]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显:
[0024]图1示出根据本发明一个实施例的语音预测的方法的流程图；
[0025]图2示出根据本发明另一个实施例的语音预测的方法的流程图；
[0026]图3示出根据本发明另一个实施例的语音预测的方法的流程图；
[0027]图4示出根据本发明另一个实施例的语音预测的方法的流程图；
[0028]图5示出根据本发明一个实施例的语音预测的装置的框图；
[0029]图6示出根据本发明另一个实施例的语音预测的装置的框图；
[0030]图7示出根据本发明另一个实施例的语音预测的装置的框图；
[0031]图8示出根据本发明另一个实施例的语音预测的装置的框图。
[0032]附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0033]下面结合附图对本发明作进一步详细描述。
[0034]图1示出根据本发明一个实施例的语音预测的方法I的流程图。
[0035]在步骤110中，接收当前用户的语音查询中已说出的部分。
[0036]语音查询是指通过语音进行的查询。例如，针对用户终端中的应用(如百度地图、美团、出门问问等)通过语音进行的查询，也可以是对用户终端中的资源的查询(如查询手机上存储的文件)，也可以针对互联网的信息查询等。
[0037]这种接收可以通过诸如录音单元等任何具有音频采集功能的装置来采集。当然，在步骤110中，还可以对接收的语音进行去重和降噪等处理。
[0038]在步骤120中，通过将接收到的当前用户的语音查询中已说出的部分分别输入用于根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分的第一预测模型和第二预测模型，分别产生第一预测输出和第二预测输出，其中第一预测模型是利用所有用户的历史上的语音查询训练出的，第二预测模型是利用当前用户的历史上的语音查询训练出的。
[0039]例如，对于使用“出门问问”应用来说，第一预测模型是将所有使用“出门问问”应用的用户历史上作出的针对“出门问问”的所有语音查询以及语音查询的识别结果等记录并作为输入训练出的模型。第二预测模型是将当前用户的历史上作出的针对“出门问问”的所有语音查询以及语音查询的识别结果等记录并作为输入训练出的模型。
[0040]模型是机器学习领域中的概念。在机器学习中，利用大量样本训练一个模型，该模型不断学习这些样本，总结这些样本的规律。当有新样本输入该模型后，该模型就能将总结出的规律运用于新样本，得到期望的处理结果。预测模型是机器学习领域中的一种模型。它通过机器学习的方法学习大量样本，从大量样本中学习在出现过一些要素之后什么样的要素将会出现。然后，当输入新样本时，它从新样本中已经出现的要素预测出将会出现什么样的要素。
[0041]实际上，第一预测模型包括第一识别子模型和第一预测子模型。将所有使用“出门问问”应用的用户历史上作出的针对“出门问问”的所有语音查询(实际上是音频曲线)和对这些语音查询本身的识别结果(上述音频曲线识别成了哪些文字记录并输入第一识别子模型。第一识别子模型利用已知的机器学习的方法不断学习何种音频曲线代表什么文字。第一识别子模型通过不断学习，当下次第一识别子模型接收到新的输入的音频曲线时，第一识别子模型就能识别出其代表什么文字。将所有使用“出门问问”应用的用户历史上作出的针对“出门问问”的所有语音查询本身的识别结果输入第一预测子模型。这些识别结果是按照语音查询的顺序输入的，因此是具有上下文的。第一预测子模型利用已知的机器学习的方法不断从上下文中学习当前面出现什么样的文字之后接着会出现什么样的文字，当下次接到第一识别子模型识别出的文字后，第一预测子模型就能预测出下面将要出现的文字。因此，这样的第一预测模型训练出来后，在接收到当前用户的语音查询中已说出的部分时，第一预测模型就能根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分，即第一预测输出。
[0042]第二预测模型包括第二识别子模型和第二预测子模型。将当前用户历史上作出的针对“出门问问”的所有语音查询(实际上是音频曲线)和对这些语音查询本身的识别结果(上述音频曲线识别成了哪些文字记录并输入第二识别子模型。第二识别子模型利用已知的机器学习的方法不断学习何种音频曲线代表什么文字。第二识别子模型通过不断学习，当下次第二识别子模型接收到新的输入的音频曲线时，第二识别子模型就能识别出其代表什么文字。将当前用户历史上作出的针对“出门问问”的所有语音查询本身的识别结果输入第二预测子模型。这些识别结果是按照语音查询的顺序输入的，因此是具有上下文的。第二预测子模型利用已知的机器学习的方法不断从上下文中学习当前面出现什么样的文字之后接着会出现什么样的文字，当下次接到第二识别子模型识别出的文字后，第二预测子模型就能预测出下面将要出现的文字。因此，这样的第二预测模型训练出来后，在接收到当前用户的语音查询中已说出的部分时，第二预测模型就能根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分，即第二预测输出。
[0043]在步骤130中，根据第一预测输出和第二预测输出，预测当前用户的语音查询中将要说出的部分。
[0044]在一种实施例中，给第一预测输出和第二预测输出分别指定权重，按第一预测输出和第二预测输出的加权和来预测当前用户的语音查询中将要说出的部分。
[0045]第一、第二预测模型分别产生的第一、第二预测输出可能未必是唯一的预测结果，而是伴随有一定概率的多种可能的预测结果。例如当前用户的语音查询中已经说出“我要去”，第一预测模型产生的第一预测输出是:当前用户接下来要说“地铁”的概率是60%，接下来要说“公共汽车站”的概率是30%，接下来要说其它内容的概率是10% ;第二预测模型产生的第二预测输出是:当前用户接下来要说“地铁”的概率是30%，接下来要说“公共汽车站”的概率是50%，接下来要说其它内容的概率是20%。给第一预测输出和第二预测输出指定的权重分别是0.6和0.4。那么，当前用户在语音查询中将要说出“地铁”的概率是0.6X60% +0.4X30%= 48，将要说出“公共汽车站”的概率是0.6X30% +0.4X50% =38。由于48大于38，认为当前用户将要说出“地铁”的可能性比较大。预测当前用户的语音查询中将要说出的部分为“地铁”。
[0046]在另一种实施例中，可以不给第一预测输出和第二预测输出指定权重，而是按第一预测输出和第二预测输出的平均来预测当前用户的语音查询中将要说出的部分。
[0047]图2示出根据本发明另一个实施例的语音预测的方法的流程图。
[0048]图2与图1的区别在于，图2的方法中增加了步骤140，即响应于当前用户的反馈，对预测的将要说出的部分进行校正。
[0049]以上面当前用户的语音查询中已经说出“我要去”的情形为例，假设根据第一预测输出和第二预测输出，预测当前用户的语音查询中将要说出的部分是“地铁”。该预测结果会显示在终端的屏幕上。例如，当前用户使用“出门问问”应用，说出“我要去”三个字，由于预测当前用户的语音查询中将要说出的部分是“地铁”，会将“我要去地铁”显示在当前用户的移动终端的屏幕上。在预定时间(例如5秒钟)，当前用户可以对显示的预测结果进行校正。如果预定时间届满当前用户仍然没有校正，就说明当前用户对该结果认可，就会按照“我要去地铁”这样一个语音查询为当前用户搜索相应的信息(例如最近的地铁口等)。
[0050]图3示出根据本发明另一个实施例的语音预测的方法的流程图。
[0051]图3与图1的区别在于，图3还包括步骤112，即从当前用户的语音查询中已说出的部分中识别出所述已说出的部分的声音色彩特征。
[0052]声音色彩特征是指除了人说出的话的文字含义之外人说出的话还含有的表征该人说这句话时的状态的特征，如情感、语速、语调、重音、方言、性别、年龄等。例如当前用户可能用愤怒的语气说“你真”之后接下来会说“讨厌”，而用喜悦的语气说“你真”之后接下来会说“好”。
[0053]从当前用户的语音查询中已说出的部分中识别出所述已说出的部分的声音色彩特征也可以是通过机器学习的方法实现的。事先用大量的语音查询样本来训练一个模型。每个语音样本的声音色彩特征是已知的。例如，对于情感来说，可能定义为事先包括喜悦、愤怒、悲伤、平淡几种。将大量语音查询样本和对应的情感的声音色彩特征输入该模型。该模型不断学习对应着“喜悦”、“悲伤”等的语音查询样本(音频曲线)各有什么样的特点，这样，当有新的语音查询输入该模型时，该模型就能知晓其对应的情感的声音色彩特征。
[0054]分别产生第一预测输出和第二预测输出120的步骤还包括:将识别出的所述已说出的部分的声音色彩特征也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及识别出的所有用户的历史上的语音查询的声音色彩特征训练出的，第二预测模型是利用当前用户的历史上的语音查询以及识别出的当前用户的历史上的语音查询的声音色彩特征训练出的。
[0055]第一预测模型包括第一识别子模型和第一预测子模型。将所有使用“出门问问”应用的用户历史上作出的针对“出门问问”的所有语音查询(实际上是音频曲线)、从这些语音查询中识别出的声音色彩特征、和对这些语音查询本身的识别结果(上述音频曲线和声音色彩特征识别成了哪些文字)记录并输入第一识别子模型。第一识别子模型利用已知的机器学习的方法不断学习何种音频曲线、何种声音色彩特征代表什么文字。第一识别子模型通过不断学习，当下次第一识别子模型接收到新的输入的音频曲线、和识别出的声音色彩特征时，第一识别子模型就能识别出其代表什么文字。将所有使用“出门问问”应用的用户历史上作出的针对“出门问问”的所有语音查询本身的识别结果、以及对应的识别出的声音色彩特征输入第一预测子模型。这些识别结果是按照语音查询的顺序输入的，因此是具有上下文的。第一预测子模型利用已知的机器学习的方法不断从上下文中学习当前面出现什么样的文字搭配什么样的声音色彩特征之后接着会出现什么样的文字，当下次接到第一识别子模型识别出的文字及对应的声音色彩特征时，第一预测子模型就能预测出下面将要出现的文字。因此，这样的第一预测模型训练出来后，在接收到当前用户的语音查询中已说出的部分时，第一预测模型就能根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分，即第一预测输出。
[0056]第二预测模型包括第二识别子模型和第二预测子模型。将当前用户历史上作出的针对“出门问问”的所有语音查询(实际上是音频曲线)、从这些语音查询中识别出来的声音色彩特征、和对这些语音查询本身的识别结果(上述音频曲线识别成了哪些文字)记录并输入第二识别子模型。第二识别子模型利用已知的机器学习的方法不断学习何种音频曲线、及相应的识别出的声音色彩特征代表什么文字。第二识别子模型通过不断学习，当下次第二识别子模型接收到新的输入的音频曲线、及相应识别出的声音色彩特征时，第二识别子模型就能识别出其代表什么文字。将当前用户历史上作出的针对“出门问问”的所有语音查询本身的识别结果、及相应识别出的声音色彩特征输入第二预测子模型。这些识别结果是按照语音查询的顺序输入的，因此是具有上下文的。第二预测子模型利用已知的机器学习的方法不断从上下文中学习当前面出现什么样的文字搭配什么样的识别出的声音色彩特征之后接着会出现什么样的文字，当下次接到第二识别子模型识别出的文字、和相应的识别出的声音色彩特征后，第二预测子模型就能预测出下面将要出现的文字。因此，这样的第二预测模型训练出来后，在接收到当前用户的语音查询中已说出的部分时，第二预测模型就能根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分，即第二预测输出。
[0057]图4示出根据本发明另一个实施例的语音预测的方法的流程图。
[0058]图4与图1的区别在于，图4还包括步骤114，即采集当前用户的场景信息。
[0059]场景是指用户说一句话时所处的条件和环境，例如说话的地理位置、时间、周围人物是谁、周围活动是什么(在什么活动中说的)等。此处的当前用户的场景信息包括诸如当前用户的地理位置、时间、周边人物、周边活动、用户终端存储和检测到的其他信息(如终端上各app使用的频率、日历信息)等。其中的当前场景信息可以通过以下方式来获取:
[0060]对于当前用户的地理位置，通过当前用户终端的定位系统定时上报的地理信息或用户终端自动检测提供的地理信息中获取，典型地，通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息、日历信息中的一项或多项获得。例如，当前用户通过手机发了一条短信“我现在在A公司楼下等你”给其他用户，则根据该短信内容获取其中的地理信息“A公司”，通过查询第三方提供的地图数据，查询与该地理信息“A公司”对应的地理位置。
[0061]对于时间，可以通过诸如当前用户终端的定位系统所提供的时间或用户终端的时钟所提供的时间或采集当前用户的当前语音的服务器所提供的时间等多种方式来获取。
[0062]对于周边人物，可通过获取其他用户终端自动检测所提供的地理位置或GPS定位信息来确定。例如，当前用户位于“鼎好大厦”，而根据GPS定位信息，获知A、B、C等多个用户位于“鼎好大厦”附近，则将所获知的A、B、C等多个用户作为当前用户的当前周边人物。
[0063]另外，周边人物通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如，检测到通话中出现了 “老板，我……”，则识别出是与老板说话。周边人物不一定是具体的人，可能是一类身份的人的总称，因为用户可能对于某一类身份的人表现为类似的说话模式。
[0064]对于周边活动，同理可通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。例如，商户通过终端上的微信发布和分享活动信息，通过获取商户分享的活动信息(包括时间、地点和事件)，并比较该活动信息中的地点与当前用户所处的地理位置的距离，来判断该商户分享的活动是否为当前用户的周边活动。
[0065]当然，周边活动也可以通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如，用户的短信中有一条短信“我今天下午2点在B大厦观看剪彩活动”，现在正好是下午2点，可以识别出周边活动为大厦剪彩。
[0066]当然，上述场景信息仅为示例，并不限于此，任何可为语言模型的构建提供服务的场景信息都包含于此。
[0067]分别产生第一预测输出和第二预测输出120的步骤还包括:将采集的当前用户的场景信息也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及采集的所有用户的历史上的语音查询的场景信息训练出的，第二预测模型是利用当前用户的历史上的语音查询以及采集的当前用户的历史上的语音查询的场景信息训练出的。
[0068]第一预测模型包括第一识别子模型和第一预测子模型。将所有使用“出门问问”应用的用户历史上作出的针对“出门问问”的所有语音查询(实际上是音频曲线)、相应的采集到的当前用户的场景信息、和对这些语音查询本身的识别结果(上述音频曲线和场景信息识别成了哪些文字)记录并输入第一识别子模型。第一识别子模型利用已知的机器学习的方法不断学习何种音频曲线、何种场景信息代表什么文字。第一识别子模型通过不断学习，当下次第一识别子模型接收到新的输入的音频曲线、和采集到的场景信息时，第一识别子模型就能识别出其代表什么文字。将所有使用“出门问问”应用的用户历史上作出的针对“出门问问”的所有语音查询本身的识别结果、以及对应的采集到的场景信息输入第一预测子模型。这些识别结果是按照语音查询的顺序输入的，因此是具有上下文的。第一预测子模型利用已知的机器学习的方法不断从上下文中学习当前面出现什么样的文字搭配什么样的场景信息之后接着会出现什么样的文字，当下次接到第一识别子模型识别出的文字及采集的场景信息时，第一预测子模型就能预测出下面将要出现的文字。因此，这样的第一预测模型训练出来后，在接收到当前用户的语音查询中已说出的部分时，第一预测模型就能根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分，即第一预测输出。
[0069]第二预测模型包括第二识别子模型和第二预测子模型。将当前用户历史上作出的针对“出门问问”的所有语音查询(实际上是音频曲线)、采集的当前用户的场景信息、和对这些语音查询本身的识别结果(上述音频曲线识别成了哪些文字)记录并输入第二识别子模型。第二识别子模型利用已知的机器学习的方法不断学习何种音频曲线、及采集到的场景信息代表什么文字。第二识别子模型通过不断学习，当下次第二识别子模型接收到新的输入的音频曲线、及采集到的场景信息时，第二识别子模型就能识别出其代表什么文字。将当前用户历史上作出的针对“出门问问”的所有语音查询本身的识别结果、及相应采集到的场景信息输入第二预测子模型。这些识别结果是按照语音查询的顺序输入的，因此是具有上下文的。第二预测子模型利用已知的机器学习的方法不断从上下文中学习当前面出现什么样的文字搭配什么样的采集到的场景信息之后接着会出现什么样的文字，当下次接到第二识别子模型识别出的文字、和相应的采集到的场景信息后，第二预测子模型就能预测出下面将要出现的文字。因此，这样的第二预测模型训练出来后，在接收到当前用户的语音查询中已说出的部分时，第二预测模型就能根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分，即第二预测输出。
[0070]如图5所示，根据本发明另一实施例的一种语音预测的装置2包括:接收单元210，被配置为接收当前用户的语音查询中已说出的部分；产生单元220，被配置为通过将接收到的当前用户的语音查询中已说出的部分分别输入用于根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分的第一预测模型和第二预测模型，分别产生第一预测输出和第二预测输出，其中第一预测模型是利用所有用户的历史上的语音查询训练出的，第二预测模型是利用当前用户的历史上的语音查询训练出的；预测单元230，被配置为根据第一预测输出和第二预测输出，预测当前用户的语音查询中将要说出的部分。
[0071]如图6所示，根据本发明另一实施例的装置2还包括:校正单元240，被配置为响应于当前用户的反馈，对预测的将要说出的部分进行校正。
[0072]如图7所示，根据本发明另一实施例的装置2还包括:识别单元212，被配置为从当前用户的语音查询中已说出的部分中识别出所述已说出的部分的声音色彩特征。产生单元220被配置为:将识别出的所述已说出的部分的声音色彩特征也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及识别出的所有用户的历史上的语音查询的声音色彩特征训练出的，第二预测模型是利用当前用户的历史上的语音查询以及识别出的当前用户的历史上的语音查询的声音色彩特征训练出的。
[0073]可选地，产生单元220被配置为:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出，其中将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于识别出的所述已说出的部分的声音色彩特征。
[0074]如图8所示，根据本发明另一实施例的装置2还包括:采集单元214，被配置为采集当前用户的场景信息。产生单元220被配置为:将采集的当前用户的场景信息也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及采集的所有用户的历史上的语音查询的场景信息训练出的，第二预测模型是利用当前用户的历史上的语音查询以及采集的当前用户的历史上的语音查询的场景信息训练出的。
[0075]可选地，产生单元220被配置为:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出，其中将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于采集的当前用户的场景信息。
[0076]所属技术领域的技术人员知道，本发明可以实现为设备、装置、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即:可以是完全的硬件，也可以是完全的软件，还可以是硬件和软件结合的形式。
[0077]附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0078]对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
【主权项】
1.一种语音预测的方法(I)，包括: 接收当前用户的语音查询中已说出的部分(110); 通过将接收到的当前用户的语音查询中已说出的部分分别输入用于根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分的第一预测模型和第二预测模型，分别产生第一预测输出和第二预测输出(120)，其中第一预测模型是利用所有用户的历史上的语音查询训练出的，第二预测模型是利用当前用户的历史上的语音查询训练出的；根据第一预测输出和第二预测输出，预测当前用户的语音查询中将要说出的部分(130)ο2.根据权利要求1的方法，还包括: 响应于当前用户的反馈，对预测的将要说出的部分进行校正(140)。3.根据权利要求1的方法，还包括:从当前用户的语音查询中已说出的部分中识别出所述已说出的部分的声音色彩特征(112)，且分别产生第一预测输出和第二预测输出(120)的步骤还包括:将识别出的所述已说出的部分的声音色彩特征也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及识别出的所有用户的历史上的语音查询的声音色彩特征训练出的，第二预测模型是利用当前用户的历史上的语音查询以及识别出的当前用户的历史上的语音查询的声音色彩特征训练出的。4.根据权利要求3的方法，其中分别产生第一预测输出和第二预测输出(120)的步骤包括:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出，其中将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于识别出的所述已说出的部分的声音色彩特征。5.根据权利要求1的方法，还包括:采集当前用户的场景信息(114)，且分别产生第一预测输出和第二预测输出(120)的步骤还包括:将采集的当前用户的场景信息也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及采集的所有用户的历史上的语音查询的场景信息训练出的，第二预测模型是利用当前用户的历史上的语音查询以及采集的当前用户的历史上的语音查询的场景信息训练出的。6.根据权利要求5的方法，其中分别产生第一预测输出和第二预测输出(120)的步骤包括:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出，其中将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于采集的当前用户的场景信息。7.一种语音预测的装置(2)，包括: 接收单元(210)，被配置为接收当前用户的语音查询中已说出的部分; 产生单元(220)，被配置为通过将接收到的当前用户的语音查询中已说出的部分分别输入用于根据当前用户的语音查询中已说出的部分预测当前用户的语音查询中将要说出的部分的第一预测模型和第二预测模型，分别产生第一预测输出和第二预测输出，其中第一预测模型是利用所有用户的历史上的语音查询训练出的，第二预测模型是利用当前用户的历史上的语音查询训练出的；预测单元(230)，被配置为根据第一预测输出和第二预测输出，预测当前用户的语音查询中将要说出的部分。8.根据权利要求7的装置，还包括: 校正单元(240)，被配置为响应于当前用户的反馈，对预测的将要说出的部分进行校正。9.根据权利要求7的装置，还包括:识别单元(212)，被配置为从当前用户的语音查询中已说出的部分中识别出所述已说出的部分的声音色彩特征，且产生单元(220)被配置为:将识别出的所述已说出的部分的声音色彩特征也分别输入第一预测模型和第二预测模型，其中第一预测模型是利用所有用户的历史上的语音查询以及识别出的所有用户的历史上的语音查询的声音色彩特征训练出的，第二预测模型是利用当前用户的历史上的语音查询以及识别出的当前用户的历史上的语音查询的声音色彩特征训练出的。10.根据权利要求9的装置，其中产生单元(220)被配置为:将接收到的当前用户的语音查询中已说出的部分识别成文字，并根据识别成的文字分别产生所述第一预测输出和第二预测输出，其中将接收到的当前用户的语音查询中已说出的部分识别成文字和/或根据识别成的文字分别产生所述第一预测输出和第二预测输出基于识别出的所述已说出的部分的声音色彩特征。
【文档编号】G10L15/08GK105869631SQ201510031185
【公开日】2016年8月17日
【申请日】2015年1月21日
【发明人】雷欣, 李倩
【申请人】上海羽扇智信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷欣;李倩;
技术所有人：上海羽扇智信息科技有限公司;
我是此专利的发明人