用于隔离麦克风音频的方法、装置和系统的制作方法_3

文档序号：9621057阅读：来源：国知局

是已知的声音，并且包括预定音量。如果每个扫描器在已知的时间（tj生成收银音调，则目标显示器的麦克风可以检测所述音调并且将该信息在一个实施例中通信到例如上述本发明的处理设备或服务器中的音频电路。
[0038] 在本地声音为未知（即本地所生成的音频的类型和音量为未知）的本发明的替代性实施例中，各个收银通道131的本地麦克风（例如麦克风132 ^可以用于记录其附近的音频信号，并且使用已知技术（例如波束成形技术和其它音频信号处理技术）可以确定哪些音频信号是在其附近本地生成的，并且也可以确定这些本地所生成的音频信号的音量和其它物理性质。本地所生成的音频信号的这些所确定的参数可以然后由目标麦克风用于确定上述这些信号的衰减和延迟因子。也就是说，在这些实施例中，阵列中的各个麦克风所确定的本地所生成的音频信号可以由目标麦克风用作上述已知信号，以确定上述这些信号的衰减和延迟因子。
[0039] 在本发明的一个实施例中，音频电路可以包括例如本发明的显示器或服务器中的分立式电路卡，或可以包括专用设备（例如共同未决美国专利申请No. 12/733,214中所描述的网络音频处理器）。本发明的音频电路可以计算具有关于在收银时生成的已知声音的信息的用于每个收银柜台处的每个扫描器的衰减因子Wl]和延迟因子T1]<3
[0040] 更具体地说，在本发明的一个实施例中，给定在时间h生成在位置i处的扫描信号，IV,可以计算为与在麦克风j处首先记录扫描信号的时隙之间的时隙的数量。替代地，在本发明的替代性实施例中，可以使用在不同的所记录信号上的各第一 /最高峰值之间的时隙的差，而非信号的开始。
[0041] 在本发明的一个实施例中，相似地计算衰减因子Wl]。具体地说，对于所有i，可以将心取为等于1。因子w。计算为在时间t麦克风j处的信号对于在时间t片^在麦克风i处的信号的比例。在本发明的替代性实施例中，可以使用扫描声音的波形中的峰值或其它位置的比例。
[0042] -旦计算出衰减因子Wl]和延迟因子T^，就可以使用波形成形技术，从而从在例如目标显示器100处由目标麦克风接收到的音频信号移除来自其他收银柜台的声音。
[0043] 在本发明的各个实施例中，一旦已经在例如目标显示器110处从接收到的音频信号移除环境噪声，如上所述，就可以实现多个处理以隔离期望的音频（例如话音）。例如，可以期望检测并且隔离目标显示器110附近的消费者和出纳员的话音。在此情况下，假设出纳员在一系列音频之后首次正常地说出表示所购买的物品的音调。还假设出纳员作出重复声明，例如但不限于"你的总价是……"、"你已经节省了……"、"女士"、"先生"等。
[0044] 在本发明的一个实施例中，通过对音频信号（例如表示出纳员与消费者之间的对话的音频）执行傅里叶变换，可以检测或确定以下音频属性：
[0045] a.频率
[0046] b.平均幅度
[0047] c.最大幅度
[0048] d.第一幅度峰值的时间
[0049] e幅度峰值的数量
[0050] f.分配语音信号、闲言或分段很可能是出纳员还是消费者的0或1指示符。
[0051] 在本发明的各个实施例中，例如在目标显示器110和/或中央服务器140处的音频卡可以执行该处理。在本发明的各个实施例中，标准机器学习技术（例如但不限于k均值聚类）可以连同音频样本一起使用至少以上所描述的音频属性，以确定哪些音频样本表示例如出纳员的话音以及哪些音频样本表示消费者的话音。如上所述并且根据本发明的上述实施例，可以确定/隔离目标显示器110的附近所生成的音频样本、分段或信号。
[0052] -旦隔离音频（例如给定消费者所生成的话音），标准机器学习技术（例如但不限于线性回归、判决树、AdaBoost?和支持矢量机器或算法）就可以应用于隔离的音频，以尝试确定关于音频的信息（例如，在话音的情况下，消费者的性别、年龄、种族背景等）。例如，在本发明的一个实施例中，可以基于所检测到的每个人的频率、幅度、频率量值峰值等使用已知性别、年龄和种族的人来生成训练数据集合的数据库。此后，训练数据集合可以用于训练函数、算法和/或软件模块，从而函数可以预测性别、年龄或种族背景。应注意，将有利的是，使得对照组的人说出一般在收银柜台处说出的特定短语以帮助改进性别、年龄或种族的检测。还应注意，相同处理可以除了话音之外还应用于音频（例如与产品的扫描关联的可听音调）。此外，还应注意，如果来自待实现本发明的方法的特定商店的实际音频可以被收集并且用于创建训练数据集合，则可以基于残留环境噪声、地理方言/语法等进一步改进函数的精度。
[0053] 在本发明的替代性实施例中，话音转文本软件可以用于检测特定词语或短语（例如妈妈、爸爸、先生、小姐等），这有助于改进年龄、性别或种族的识别。此外，在本发明的其它替代性实施例中，隔离婴儿哭声、轻哼声等可以用于假设出现家庭。根据在此所描述的本发明的各个实施例的确定例如包括年龄、性别、种族、家庭等的消费者属性的购买信息以及例如与产品的扫描关联的可听音调的其它购买信息可以用于经由例如目标显示器110将目标广告发放和广告提供给消费者。
[0054] 在本发明的替代性实施例中，上述从显示器麦克风确定的音频/话音信息可以与零售环境所收集的数据（例如所扫描的物品、忠诚卡信息等）组合，以增加识别消费者的性另IJ、年龄和/或其它人口统计学信息的精度。在本发明的各个实施例中，将所确定的消费者信息与例如时间戳信息组合可以产生非常有价值的信息。例如，如果发现妇女在一天的特定时间购物，则广告发放可以转变为在这些时间期间对于妇女更适当地传送广告。
[0055] 在本发明的一个实施例中，一旦确定话音的清晰音频模式，该音频模式就用于计算语音纹。语音纹可以然后用于伪识别（pseudoidentify)顾客。例如，通过观察对商店的光顾的模式获得有意义的值。如果可以跟踪给定语音纹从而建立顾客模式（例如顾客每星期二或每星期一次或每隔一个星期三光顾的事实），则该数据是有高价值的。聚合来自所有所检测到的语音纹的数据可以用于建立顾客频率的总体模式。该数据可以用于然后优化广告发放周期和刷新日期。例如，如果该数据示出购物者典型地每星期来两次并且期望媒体每次光顾看起来像新的，则可以增加媒体刷新的速率。
[0056] 根据本发明的各个所描述的实施例，一旦如上所述通过语音纹识别顾客，即使该顾客仅是伪识别的，就也可以使用该语音纹来总是识别该顾客。在本发明的替代性实施例中，例如由商店使用例如忠诚卡收集的顾客信息可以用于进一步识别顾客。
[0057] 在本发明的替代性实施例中，除了上述仅话音之外，也可以根据本发明来隔离目标麦克风的隔离的音频信号中的音频，以用于用在获得关于购买交易的信息中，以通过例如经由例如目标显示器将目标广告发放和广告提供给消费者来改进广告发放的有效性。更具体地说，在本发明的一个实施例中，与待购买的物品的扫描关联的音频音调可以由目标显示器的麦克风记录，并且可以用于确定特定消费者所购买的多个物品。此外，该信息可以与零售商所保留的关于例如在特定注册在特定时间购买了什么物品的信息组合，特定的所购买的物品可以与特定消费者关联。
[0058] 根据本发明的各个实施例，已经如上所述隔离的由麦克风记录的隔离的音频可以用在获得关于购买交易的信息中，以例如通过经由例如上述目标显示器将目标广告发放和广告提供给消费者来改进广告发放的有效性。
[0059] 图4描述根据本发明实施例的隔离麦克风音频的方法的流程图。图4的方法400 开始于步骤402,在此期间，包括麦克风阵列的至少两个麦克风记录环境声音/音频。方法 400进入步骤404。
[0060] 在步骤404,使用例如来自阵列中的其它麦克风的位置的已知的声音来确定用于来自除了所校准的麦克风（即目标麦克风）之外的阵列中的所有其它麦克风的声音的衰减因子。方法400进入步骤406。
[0061] 在步骤406,使用例如来自阵列中的其它麦克风的位置的已知的声音来确定用于来

完整全部详细技术资料下载

当前第3页1 2 3 4