在保持情感的同时跨通道进行通信的方法和系统的制作方法

文档序号:2837040阅读:382来源:国知局
专利名称:在保持情感的同时跨通道进行通信的方法和系统的制作方法
技术领域
本发明涉及跨越话音和文本通信转换保持情感。
背景技术
人类话音通信可由两个要素表征内容和讲话方式(delivery)。于是,理解和重复人类语音涉及分析和重复语音的内容,以及内容的表达方式。自然的语音识别系统使设备能够识别整个句子并解释它们。多数研究致力于从连续的人类语音译解文本,从而使说话者能够更自然的讲话(称为自动语音识别(ASR))。大词汇量ASR系统的工作原理在于每个口语单词可被分解成语言音素的声音表现。音素是语言中能够传递含义的不同的最小语音单元。英语包含构成整个口语的大约四十个独立的不同音素,例如辅音、元音和其它声音。最初,语音被滤除与音素不一致的游离声音(stray sound)、语调和音高,随后被转化成中性的单调音频流。单词识别涉及从过滤后的语音的声波中提取音素,随后创建代表单词实例的概率的音素的加权链,最后根据单词的加权链评估单词的正确解释的概率。在大词汇量语音识别中,对词表中的每个音素(有时称为HMM音素)训练隐式Markov模型(HMM)。在识别中,计算链中的每个HMM的似然性,按照最高的似然性对观测的链分类。在词汇量较小的语音识别中,可对词表中的每个单词训练HMM。
人类语音通信向听众传递不同于词典的信息,比如讲话者的情绪状态。通过推断包含在人类讲话方式中的声音和韵律信息,可从话音推定情感。从话音推断情感的技术利用情绪状态的依赖于讲话者的复杂模型,这些复杂模型使人想起为话音识别而创建的那些模型。最近,提出了情感识别系统,其工作原理在于情感(或者讲话者的情绪状态)可被提取成构成讲话方式的子情感单元(即,讲话方式的特定音高、语调、节奏和振幅,或者它们的组合)的声学表现。目的是利用可被组合成代表讲话者的情绪状态的情感单元模型的这些预定子情感语音模式来识别语音的情感内容。但是,不同于把语音过滤成中性的单调音频流的文本识别,为了更准确地识别情感单元,语音的语调、音色并且在某种程度上,语音的性别不被改变。可对每个子情感单元训练隐式Markov模型,并且在识别期间,计算链中每个HMM的似然性,按照情感的最高似然性对观测链分类。

发明内容
本发明涉及在保持通信的情感内容的同时,跨越通信通道的通信。话音通信被接收并关于情感内容对其进行分析。从通信中提取话音模式,并与话音模式-情感释义(definition)进行比较。利用单词识别技术通过从话音通信中提取话音模式,并比较这些话音模式与话音模式-文本释义,分析话音通信,概略地了解通信的文本内容。随后可关于情感内容分析从单词识别得到的文本内容。从单词识别得到的单词和短语与文本挖掘数据库中的单词和短语进行比较。这两种分析得到的情感随后被用作情感元数据,标记文本内容。
源语言的话音通信的文本和情感置标抽象(abstraction)被翻译成目标语言,随后被进行话音合成并相对于情感进行调整。通过利用目标语言的情感转化释义,情感元数据被转化成目标语言的情感元数据。通过利用文本翻译释义,文本被翻译成目标语言的文本。另外,转化的情感元数据被用于情感挖掘在目标语言的文化中具有情感内涵的单词。情感单词随后替换目标语言文本中的对应单词。翻译后的文本和情感单词被调制成合成话音。通过利用转化后的情感元数据,可相对于情感调整合成话音的讲话方式。通过相对于情感话音模式情感挖掘情感-话音模式字典,得到对合成的话音模式的修改,所述修改被用于更改调制话音的讲话方式。
文本和情感置标抽象可作为它们原始的话音通信的产物(artifact)被保存在内容管理系统中。随后可利用原始通信的语境的情感条件,搜索这些产物,而不是通过传统的文本搜索。在内容管理系统接收关于通信产物的查询,所述查询包含某一情感值和语境值。相对于语境对所有产物的记录分类(sort),随后相对于情感对匹配的记录分类。所得到的在语境约束内包含匹配的情感元数据的产物被传送给请求者以供检查。请求者识别一个或多个特定的产物,所述一个或多个特定的产物随后被内容管理器取回并被转发给请求者。请求者可把文本和情感元数据翻译成不同的语言,并合成音频消息,同时保持原始通信的情感内容,如同上面刚刚说明的那样。


在附加权利要求中陈述了本发明特有的新颖特征。结合附图,参考例证实施例的下述说明将更好地理解本发明,其中图1A是描述现有技术的识别人类语音的单词内容的一般过程的流程图;图1B是描述现有技术的识别人类语音的情感内容的一般过程的流程图;图2表示根据本发明的一个例证实施例,在保持通信的情感内容的时候,产生和处理通信流的情感通信体系结构的逻辑组件;图3是根据本发明的一个例证实施例的情感置标组件的逻辑结构图;图4表示例证的语境简表,所述语境简表包括指定讲话者的语言、方言、地理区域和个性属性的简表信息;图5是根据本发明的一个例证实施例的情感转化组件的逻辑结构图;图6是根据本发明的一个例证实施例的内容管理系统的逻辑结构图;图7是描述根据本发明的一个例证实施例的识别通信中的文本和情感,并保持情感的方法的流程图;图8A和8B是描述根据本发明的一个例证实施例的在保持情感的时候,转换通信的方法的流程图;图9是描述根据本发明的一个例证实施例的在保持情感的时候,依据情感和语境搜索通信产物数据库的方法的流程图;图10描述根据本发明的一个例证实施例的各种例证网络布局,以及具体体现产生、处理和保持通信的情感内容的情感处理体系结构的装置。
根据附图和下面的详细说明,本发明的其它特征将是明显的。
具体实施例方式
本领域的技术人员会认识到,本发明可被具体化为一种方法、系统或计算机程序产品。因此,本发明可采取纯硬件实施例,纯软件实施例(包括固件、常驻软件、微代码等),或者组合这里一般都被称为“电路”或“模块”的软件和硬件的实施例的形式。此外,本发明可以采取计算机可用存储介质上的计算机程序产品的形式,所述计算机可用存储介质具有包含于其中的计算机可用程序代码。
可利用任何适当的计算机可读介质。计算机可用或计算机可读介质可以是(但不限于)电、磁、光、电磁、红外或半导体系统、设备、装置或传播介质。计算机可读介质的更具体例子(非穷尽列表)可包括具有一条或多条导线的电连接,便携式计算机磁盘,硬盘,随机存取存储器(RAM),只读存储器(ROM),可擦可编程只读存储器(EPROM或闪速存储器),光纤,便携式光盘只读存储器(CD-ROM),光存储装置,传输介质,比如支持因特网或企业内部网的那些传输介质,或者磁存储装置。注意计算机可用或计算机可读介质甚至可以是纸张或者程序被打印于其上的另一适当介质,当借助例如纸张或其它介质的光学扫描可以电子方式获得程序,所述程序随后被编译、解释或者以适当的方式处理(如果需要的话),并且随后被保存在计算机存储器中时。在本文的上下文中,计算机可用或计算机可读介质可以是能够包含、保存、传递、传播或者传送程序供指令执行系统、设备或装置使用或者与指令执行系统、设备或装置结合使用的任意介质。
此外,计算机可读介质可包括可由计算机服务器传送的载波或载波信号,所述计算机服务器可包括因特网、外联网、内联网、万维网、ftp地置或者可广播、单播或者以其它方式传递本发明的一个实施例的其它服务。本发明的各个实施例可被保存在一起,或者在空间或时间上分布在一个或多个设备间。
执行本发明的操作的计算机程序代码可用面向对象的编程语言编写,比如Java7、Smalltalk或C++。但是,执行本发明的操作的计算机程序代码也可用常规的过程编程语言编写,比如“C”编程语言。程序代码可完全在用户的计算机上运行,部分在用户的计算机上运行,作为独立的软件包,部分在用户的计算机上并且部分在远程计算机上,或者完全在远程计算机上运行。在后一情况下,远程计算机可通过局域网(LAN)或广域网(WAN)与用户的计算机连接,或者可对外部计算机实现连接(例如,利用因特网服务提供商经由因特网连接到外部计算机)。
适合于保存和/或执行程序代码的数据处理系统包括通过系统总线直接或者间接与存储元件耦接的至少一个处理器。存储元件可包括在程序代码的实际执行期间采用的本地存储器,大容量存储器,和提供至少一些程序代码的临时存储,以减少在执行期间,必须从大容量存储器取回代码的次数的高速缓冲存储器。
输入/输出或I/O装置(包括但不限于键盘、显示器、指示装置等)可直接与系统耦接,或者通过居间的I/O控制器与系统耦接。
网络适配器也可与系统耦接,从而使数据处理系统能够通过居间的专用或公用网络与其它数据处理系统或者远程打印机或存储装置耦接。调制解调器、线缆调制解调器和以太网卡只是目前可用的网络适配器类型的几个例子。
基本的人类情绪可被分成惊讶、平静(愉快)、赞同(满足)、英勇、骄傲、厌恶、愤怒、欲望(贪婪)和恐惧(不过其它情绪也是可识别的)。通过分析讲话者的话音中的语音模式,包括语音的音高、语调、节奏和振幅特性,依据人类语音的情感内容可识别这些基本情绪。在与关于口头交流的特定语言、方言和/或地理区域的具体人类情感对应的通信中,一般的语音模式可被识别。情感语音模式通常和个人本身一样独特。个人往往会为他们的听众改进其语音模式,并借用准确地表达他们的情绪状态的情感语音模式。于是,如果已知讲话者的身份,那么听众能够使用讲话者的个人情感语音模式来更准确地分析她的情绪状态。
情感话音分析能够把显示愉快、放松或平静的语音模式和倾向于表示不愉快、紧张或兴奋的语音模式区分开。例如,就特定讲话者而论,愉快、放松或平静话音模式被识别成具有低-中等/平均音高;清晰、正常并且连续的语调;规则或周期的节奏;和低-中等的振幅。相反,在特定讲话者的话音模式中,可依据低-高音高(或者可变化的音高),低、高或者不断变化的语调,快速、缓慢或者不断变化的节奏和很低-很高的振幅识别不愉快、紧张和兴奋。但是从所有其它可能的语音情感中提取特定的语音情感是一项比把兴奋的语音和安静的语音模式区分开困难得多的任务。例如,平静、赞同和骄傲可能都具有类似的话音模式,仅仅利用话音模式分析不可能辨别出这三种情感。此外,辨认某些人类情感的程度对理解讲话者的情绪状态至关重要。讲话者是极度反感还是接近于愤怒?讲话者是极度高傲还是适度惊讶?讲话者在向听众表达满意还是欲望?从人类语言中提取文本和情感信息的现有技术依赖于识别话音中的语音模式,以便确定文本和情感的话音分析。一般来说,事先创建两组独立的话音模式模型,以便关于其文本和情感内容分析特定讲话者的话音。第一组模型代表讲话者的特定单词的语音模式,第二组模型代表讲话者的情绪状态的语音模式。
就第一模型来说,上面在其它地方讨论的基本语言单位的初级概率模型的目录可被用于建立单词表象。通过关于45个音素模型和2个另外的音素模型(一个用于静默,另一个用于在滤波之后保留的残余噪声),把模型链接在一起,可构成英语中的每个单词的一个模型。对照单词模型匹配各序列的特征观察的统计模型以便进行识别。
通过推断包含在人类讲话方式中的声音和韵律信息,可从话音推定情感。情感识别系统的工作原理在于情感(或者讲话者的情绪状态)可被提取成构成语音的子情感单元(即,讲话方式的特定音高、语调、节奏和振幅,或者它们的组合)的声学表现。通过创建多个代表讲话者的情绪状态的概率的子情感语音模式观察链,确定语音的情感内容。对每个子情感单元训练情感单元模型,并且在识别期间,计算链中每个子情感语音模式的似然性,按照情感的最高似然性对观测链分类。
图1A是描述现有技术的识别人类语音的单词内容的一般过程的流程图。图1B是描述现有技术的识别人类语音的情感内容的一般过程的流程图。识别语音中的单词的一般单词识别过程通过接收具有人类语音流的音频通信通道(步骤102)而开始。由于通信流可能包含不会包含语言音素的寄生噪声和话音模式,因此通信流被过滤,以滤除和语言音素不一致的游离声音,语调和音高(步骤104)。过滤通信流可从得到音素解答的概率低的分析中除去噪声,从而提高性能。随后通过以预定的采样率,例如每秒10000个样本对语音采样,单调的模拟流被数字化(步骤106)。在具有固定的帧长度(约20-30毫秒)的重叠帧中捕捉数字流内的特征,以便保证与音素关联的每个特征的起点和终点被包括在一帧中(步骤108)。随后,关于语言音素分析所述帧,提取所述语言音素(步骤110),并且所述语言音素被连接成表示文本单词的概率的多个音素链(步骤112)。对照讲话者的语言中的单词的音素模型,检查音素链寻找单词解答(word solution)(或者最好的单词解答)(步骤114),从具有最高分数的音素链中确定单词解答。可根据讲话者对单词的使用频率(或者依据其它的尺度,比如对于特定语言该单词的使用频率)对该单词的音素模型加权。通过对单词使用的训练或者手动输入,可完成音素加权过程。随后结束图1A的过程。
另外,也可形成表示在由一串单词解答构成的句子的上下文中潜在单词解答的概率的多个识别单词链(步骤114)。所述句子的上下文中最可能的单词解答以文本的形式被返回(步骤116),随后结束图1A的过程。
如图1B中描述的从人类语音中提取情感的一般过程通过接收人类语音的通信流而开始(步骤122)。和单词识别不同,根据由范围广泛的音高、语调和振幅构成的人类话音模式评估语音的情感内容。为此,模拟语音在几乎不过滤的情况下被数字化,并且模拟语音不被转化成单调的音频(步骤124)。采样率稍高于单词识别的采样率,介于每秒12000和15000帧之间。在具有固定持续时间的重叠帧中捕捉数字流内的特征(步骤126)。在帧中识别子情感话音模式并提取所述子情感话音模式(步骤128)。子情感话音模式被组合在一起,从而形成表示情感单元的概率的多个链(步骤130)。对照相应情感的情感单元模型和单词解答输出,检查所述多个链,寻找情感解答(或者最配合的情感)(步骤132)。随后结束图1B的过程。
本发明的目的在于在保持情感的同时,通过话音和文本通道通信。图2是在保持通信的情感内容的时候,产生和处理通信流的情感通信体系结构的逻辑组件的例证实施例的图。情感通信体系结构200一般由两个子组件构成情感转化组件250和情感置标组件210。情感通信体系结构200的分为两部分的组件均与一对包含双向情感释义的情感字典连接情感-文本/短语字典220和情感-话音模式字典222。字典被填充以基于通信语境的释义。情感置标组件210接收包括情感内容的通信(例如具有语音情感的语音),识别语音中的单词,并把识别的单词抄录成文本。除了单词之外,情感置标组件210还关于情感对通信进行分析。情感置标组件210利用字典从通信推断情感。随后用情感元信息标记所得到的文本。具有情感置标的文本输出占用比话音少得多的空间,从而更易于搜索,并且保持初始通信的情感。
也可在情感置标组件210接收用户发出的选择命令,所述选择命令指定通信中的特定单词、短语、句子和段落供情感分析之用。这些命令还可指定哪种分析,文本模式分析(文本挖掘)或话音分析将被用于从通信的所选部分提取情感。
情感转化组件250接收通信,一般是具有情感置标元数据的文本,并解析情感内容。情感转化组件250把文本合成为自然语言,根据伴随文本的情感元数据,相对于情感调整讲话方式的语调、节奏和振幅。另一方面,在调制通信流之前,情感转化组件250可把文本和情感元数据翻译成听众的语言。
虽然在图2中情感通信体系结构200被描述成包含两个子组件,情感转化组件250和情感置标语言210,不过这些组件可被单独部署在不同的设备上。例如,由于其与语音识别系统的兼容性较差,从蜂窝电话机传来的话音通信效果差是众所周知的。在蜂窝电话机上部署情感置标组件210可改进语音识别效率,因为是在蜂窝电话机进行语音识别,而不是对从蜂窝电话机接收的话音进行语音识别。就处理情感转化组件250来说,家用娱乐系统一般为听力受损者加上文本字幕,但是没有情感提示。在家用娱乐系统中部署情感转化组件250会便于字幕包括字幕文本的情感线索,例如表示情感的图标,符号和标点字符。此外,情感转化组件250还可使未受损伤的观众把音频转化成情感转化组件250中的翻译字典所支持的任何语言,同时保持初始通信语言的情感。
情感通信体系结构200实质上可被包含在发送、接收或传送人类通信的任何装置中(例如,无线和有线电话机、计算机、手持式装置、记录和话音捕捉装置、音频娱乐组件(电视机、环绕声和收音机)等)。此外,通过利用公共的情感-短语字典和情感-话音模式字典,情感通信体系结构200的分为二部分的结构使得能够在保持情感内容的时候,跨越各种媒介(例如人类话音、合成话音、文本和带有情感暗示的文本)有效地提取和表达情感。
参见图3,根据本发明的一个例证实施例表示了情感置标组件210的结构。情感置标组件210的用途是有效并且准确地把人类通信转换成文本和情感元数据,而不管媒体类型,同时保持初始通信的情感内容。根据本发明的一个例证实施例,情感置标组件210对音频通信流进行两种情感分析,根据通信中的语音模式(语音的音高、语调、节奏和振幅特性)译解情感内容的话音模式分析,和从语音通信中的文本模式得到情感内容的文本模式分析(文本挖掘)。
情感置标组件210产生的带有情感置标的文本数据可被存档在数据库中以便未来搜索或训练,或者被传送给包括情感转化组件250的其它装置,以便再现保持初始通信的情感的语音。可选的是,情感置标组件210还可用输出文本点缀其它类型的元数据,包括选择控制元数据,即当该部分被递送为语音时,情感转化组件250用于介绍恰当的频率和音高的选择控制元数据,以及字义数据。
情感置标组件210接收可用于产生带情感元数据的文本的三种独立类型的数据通信语境信息、通信本身,以及可伴随某些媒体类型的情感标记或情感图标。语境信息被用于选择通信的最适当的语境简表(profile),所述语境简表被用于填充特定通信的情感字典。利用情感字典,从语音通信中提取情感。也可根据伴随文本通信的情感图标推断情感。
根据本发明的一个实施例,利用文本模式分析和话音分析从通信中推断出情感。情感-话音模式字典222包含用于从通信中的话音模式推断出情感的情感-话音模式释义,而情感-文本/短语字典220包含用于从通信中的文本模式推断出情感的情感-文本模式释义。字典释义可在多个讲话者间是类属的和抽象的,或者特定于特殊的讲话者,听众和通信环境。虽然这些释义可能和短语一样复杂,不过它们也可和标点符号一样不完整。由于情感-文本/短语字典220将被用于从话音通信中文本挖掘抄录的文本,以及直接从文本通信中文本挖掘文本通信,因此情感-文本/短语字典220包含关于可推断情感内容的单词、短语、标点符号和其它词典和语法的情感释义。
类属或默认的字典将提供用于推断通信中的情感的合意的主流结果。可关于特定的讲话者、听众和通信环境优化字典释义,并且在优化的情况下,字典释义能够获得高度准确的情感识别结果,但是主流结果明显不及。通过手动或者自动训练,类属字典可被优化,从而向最频繁使用的文本模式(单词和短语)和话音模式提供较高的权重,以及向文本和话音模式提供学习的情感内容。
讲话者根据听众和通信环境(即,讲话者和听众之间的通信场合或类型)改变他的文本模式和话音模式,以便在通信中表达情感。一般来说,同一人会选择不同的单词(和文本模式)及话音模式向不同的听众,和/或在不同的环境下表达同样的情感。例如,父亲会选择表达他对犯错的儿子的不满的特定单词,并改变其讲话方式的正常话音模式以增强他对该事件的愤怒。但是,对于工作场所的类似事件,同一讲话者通常会选择与在家庭环境所使用的不同的单词(和文本模式),并改变其话音模式,以表达他对工作场所中的同样事件的愤怒。
由于通信中用于表达情感的文本和话音模式依赖于通信的背境,因此通信的背境提供一种使字典中的最准确的情感释义相互关联,以便从包含在通信中的文本和话音模式推导情感的机制。通信的语境涉及讲话者、听众和通信的环境,于是,语境简表由讲话者和听众的身份,以及通信的环境定义,并且特定于讲话者和听众的身份以及通信的环境。用户的语境简表定义在特定语境中,对于用户来说类属字典和经过训练的字典之间的差异。本质上,语境简表提供根据语境参数提高字典的准确性的手段。
例如,讲话者简表规定讲话者的语言,方言和地理区域,还规定定义讲话者的通信的唯一性的个人属性(示于图4中)。通过应用讲话者简表,可对讲话者的语境优化字典。听众简表规定听众的种类,或者通信针对的是谁,例如熟人、亲属、商业伙伴等。听众简表甚至可包括听众的子类信息,例如,如果听众是熟人,那么该听众是不亲近的熟人还是朋友。讲话者的个性属性是学到的赋予讲话者个性的单词和短语的情感内容。这些属性也被用于修改讲话者用于向听众表达情感的单词和语音模式的字典释义,不过个性属性通常是学来的与他们一般接受的情感内容不一致或者甚至相反的单词和短语的情感内容。
应在情感置标组件210对任何接收的通信确定简表信息,以便为特定讲话者/用户和通信语境,即听众和通信环境选择和修改字典条目。在语境分析器230,通信的语境信息被手动输入情感置标组件210中。另一方面,语境分析器230可从通信的环境,或者通信媒体自动推导通信的语境。语境分析器230关于讲话者和听众的身份以及通信环境分析直接与通信相关的信息,讲话者和听众的身份以及通信环境被用于从简表数据库212选择现有的简表。例如,如果情感置标组件210被包含在蜂窝电话机中,那么语境分析器230认为讲话者/用户的身份是电话机的所有者,并根据包含在保存于电话机中的地址簿中的信息和连接信息(例如电话号码、即时消息屏幕姓名或电子邮件地址)识别听众(或收听者)。随后再一次可根据从话音分析器232接收的信息,从简表数据库212选择语境简表。
如果直接语境信息并不易于供通信之用,那么语境分析器230最初选择类属或默认简表,随后试图利用在分析通信期间学来的和讲话者及听众有关的信息更新简表。根据通信中的话音模式可确定讲话者的身份。这种情况下,话音分析器232试图通过比较会话中的话音模式与已识别讲话者的话音模式,识别讲话者。如果话音分析器232根据话音模式识别出讲话者的话音,那么告知语境分析器230,语境分析器230随后从简表数据库212选择该讲话者的语境简表,并把其转发给话音分析器232和文本/短语分析器236。这里同样地,尽管分析器具有讲话者的简表,不过该简表并不完整,不提供完整的语境信息,因为对于通信来说,听众和环境信息未知。利用听众和环境信息可为讲话者识别一个更好的简表。如果讲话者不能被识别,那么利用默认的语境简表继续进行分析。本发明的一个优点在于所有的通信可以其原始形式并且和情感置标元数据一起存档于内容管理系统600(下面参考图6说明)。于是,当对于讲话者来知道了完整的语境简表时,讲话者的通信可用于第二遍的情感分析。如果训练显著改变讲话者的语境简表,那么在训练之后还可进行后续的多遍情感分析。
一旦通信的语境被确定,确定了通信语境的简表,并且选择了话音模式和文本/短语字典,那么在情感置标组件210接收的真实通信可被转换成文本,并与表示讲话者的情绪状态的情感元数据组合。情感置标组件210接收的通信媒体是话音或文本,但是文本通信还可包括表示情感的情感图标(情感图标一般指的是与文本组合,并且表示情感的形象符号,例如笑脸或皱眉的脸),表示情感的标点符号,例如感叹号,或者由排版的标点字符产生的情感符号,比如“:-)”,“:-(”和“;-)”。
语音通信被供给话音分析器232,话音分析器232执行两种主要功能它识别单词,并且它根据音频通信识别情感。利用任何已知的单词识别系统进行单词识别,比如通过匹配从音频流中提取的连接在一起的语言音素链和预先构成的音素单词模型(其结果被发送给抄录器234)。通过匹配从音频流提取的连接在一起的子情感语音模式链与预先构成的情感单元模型,可类似地进行情感识别(其结果被直接发送给置标引擎238)。另一方面,可以实现计算强度不太高的情感提取算法,该算法匹配音频流中的话音模式与情感的话音模式(而不是把子情感话音模式单元连接成串)。话音模式包括包含在讲话方式中的特定音高、语调、节奏和振幅,或者它们的组合。
通过利用任何公知的语音识别算法,包括隐式Markov建模(HMM),例如上面关于图1A说明的隐式Markov建模(HMM),在话音分析器232内进行单词识别。一般来说,模拟音频通信信号被滤除不能产生音素解答的寄生噪声,并且滤波后的信号以预定的采样率(对于西欧语言和它们的衍生语言,大约每秒8000-10000个样本)被数字化。随后,采用声学模型布局提取数字化信号的重叠帧(具有固定的帧长度)内与一组语言音素(对欧洲语言及它们的衍生语言识别的35-55个独特音素,不过对于更复杂的口语,可能存在多达数千个独特的音素)的已知模式相关联的特征。随后根据音素链与音素单词模型相关联的概率,把提取的音素连接成链。由于可不同于其字典词汇地说出某一单词,因此具有最高的匹配概率分数的音素单词模型代表该单词。通过对所有常见的发音变化纳入HMM模型,包括在子音素层面的一些话音分析和/或修改声学模型布局来反映发音的变化,在词汇和发出的语音之间可提高分数的可靠性。
可在通信中的相邻单词的上下文中核实具有高匹配概率的单词。按照和各串语言音素形成特定单词的音素模型的可能相配者相同的方式,根据单词相配者在特定句子模型的上下文中的概率,各串观测的单词也可根据被一起连接成一个句子模型。如果单词释义在相邻单词的上下文中有意义,那么该匹配被核实。如果否,那么检查具有次高分数的单词。由于识别通信中的情感依赖于情感-短语字典220中的文本挖掘,并且由于抄录的文本可能翻译自源语言,因此就本发明来说,核实单词相配者特别有用。
多数单词只具有与对于该单词接受的一种主要释义相关联的一种发音和单一拼写。于是,通过检查单词(和单词含意)相配者在由通信中的其它识别单词构成的句子的上下文中的概率分数,可核实多数识别的单词。如果两个观测的音素模型具有类似的概率分数,那么依据它们在句子模型的上下文中的含意,可对它们进行进一步的分析。在句子的上下文中具有最高概率分数的单词被选作最可能的单词。
相反,一些单词具有一种以上的含意和/或一种以上的拼写。例如,同音异义词是发音相同(即,具有相同的音素模型),但是具有不同的拼写,并且每种拼写具有一种或多种独立含意的单词(例如,fore和four,或者to、too和two)。当把识别的同音异义词抄录成文本字符时,以及对于从它们的含意提取同音异义词可能传递的情感内容来说,这些不确定性特别成问题。通过利用句子模型中单词含意的上下文分析,对于该句子模型来说,所识别单词的一个同音异义词含意将比所有其它同音异义词含意得分更高,因为在句子的上下文中,只有一个同音异义词含意有意义。从具有最可能含意的同音异义词,即,具有最高分数的同音异义词获得单词拼写。同形异音异义词是发音相同,拼写相同并且具有两种或者更多的不同含意的单词。如果一种拼写具有一种以上的含意,那么同音异义词也可以是同形异音异义词。同形异音异义词不会对抄录造成任何特殊的问题,因为不存在任何拼写不确定性。但是,同形异音异义词会产生在尝试文本挖掘以便从同形异音异义词提取情感内容,或者把同形异音异义词翻译成另一种语言之前应解决的释义不确定性。这里同样地,可根据句子模型中同形异音异义词含意的概率分数,确定同形异音异义词的最可能的含意。一旦最可能的释义被确定,释义信息就可作为元信息被传送给抄录器234供情感提取之用,以及传送给情感置标引擎238,作为含意元数据包含为情感置标元数据的一部分,含意元数据有益于把同形异音异义词翻译成其它语言。
抄录器234从话音分析器232接收单词解答和任何伴随的含意元数据,并把它们抄录成文本解答。利用来自话音分析器232的元数据(如果可用的话)解决同音异义词拼写。抄录的文本解答随后被发送给情感置标引擎238和文本/短语分析器236。
话音分析器232内的情感识别过程的工作原理多少使人联想起利用HMM,并且如上关于图1B描述的单词识别。但是,从子情感话音模式链产生子情感单元模型并不象产生用于概率比较的单词音素模型那样直接。就美国的英语口语,一些研究人员已识别了100种以上的子情感话音模式(情感单元)。在各种文化之间,甚至在使用共同语言的那些文化,比如加拿大和英国之间,子情感话音模式的构成和结构也变化极大。另外,由子情感话音模式链构成的情感模型有点不明确,尤其是当与它们的配对的音素单词模型相比时更是如此。于是,观测的子情感模型会导致最适当的情感单元模型的较低概率分数,或者更坏,它会导致统计上与不正确的情感单元模型的分数不能区别的分数。
根据例证实施例,由于将从音频流中探测较大数量的子情感话音模式(已识别了100种以上的子情感话音模式),因此在几乎不过滤模拟音频信号的情况下,在话音分析器232内进行情感识别过程。模拟信号以通常比单词识别更高的采样率(通常在12000样本/秒以上,一直到15000样本/秒)被数字化。在数字化信号的具有固定帧长度的重叠帧内进行特征提取,以容纳和子情感话音模式相关联的数字特征的不同起点和终点。根据观测的子情感话音模式链和特定情感的情感单元模型相关联的概率,提取的子情感话音模式被组合成子情感话音模式链,并根据正确匹配的概率分数求解情感。
另一方面,话音分析器232可采用需要较少计算容量的鲁棒性较低的情感提取过程。这可通过减少将通过情感分析来求解的离散情感的数量来实现。通过组合离散情感和类似的子情感话音模式模型,可为每种情感构成话音模式模板,所述话音模式模板可被用于匹配在音频中观测到的话音模式。这和单词识别中,关于较小词汇量的模板匹配的意思相同。
话音分析器232还执行一组辅助功能,包括讲话者话音分析,听众和语境评估,以及单词含意分析。在一些情况下,讲话者的身份可能未知,通过利用默认的语境简表进行话音分析。在一种情况下,语境分析器230将传送包含在简表数据库212中的每个讲话者简表的讲话者话音模式信息。随后,话音分析器232同时为单词识别、情感识别和讲话者话音模式识别分析话音。如果通信中的语音和一种话音模式匹配,那么话音分析器232通知语境分析器230,语境分析器230随后发送该讲话者的更完整的语境简表。
实际上,话音分析器232可被实现成两个独立的分析器,一个用于关于语言音素分析通信流,另一个用于关于子情感话音模式分析通信流(未示出)。
在文本/短语分析器236从话音分析器232,或者直接从文本通信流接收文本通信。文本/短语分析器236通过文本挖掘情感-文本/短语字典220,根据包含在通信流中的文本模式推断情感。当在情感-文本/短语字典220中找到匹配的单词或短语时,该单词的情感释义提供对讲话者的情绪状态的推断。这种情感分析依赖于字典中明确的文本模式-情感释义。只有在情感-短语字典中被释义的单词和短语才能够产生通信的情感暗示。文本/短语分析器236独立地或者结合话音分析器232的话音分析推断情感。和其它字典条目相比,讲话者频繁使用的字典单词和短语被赋予较高的权重,指示讲话者打算通过选择这些词汇来表达特定情感的概率较高。
通过使用特定于语言的文本挖掘数据库,文本挖掘解决方案提高精度和速度,优于仅仅进行话音分析。在文本挖掘情感-文本/短语字典220被用于分析特定人的语音的情况下,可手动或者自动地进一步训练该字典,从而向用户最频繁使用的短语和学到的这些短语的情感内容提供更高的权重。该信息可被保存在用户的简表中。
如上所述,情感置标组件210利用两种独立的情感分析,话音模式分析(话音分析器232)和文本模式分析(文本/短语分析器236)从话音通信流得出情感。可为情感分析有选择地指定文本或话音通信,并且同样地可指定待执行的情感分析的类型。话音和文本/短语分析器232和236接收置标命令,以便有选择地调用情感分析器,以及情感置标引擎238。置标命令对应于为情感分析和后续的情感置标指定通信的一个片断的置标选择。根据一个例证实施例,为情感分析有选择地标记话音和/或音频通信的多个片断,而剩余部分并不关于其情感内容被分析。对通信进行情感分析的决定可由讲话者、听众或另一用户手动启动。例如,用户可以只选择通信的多个部分进行情感分析。另一方面,可在无人类干预的情况下自动标出通信中供情感分析之用的多个选择部分。例如,在通信的起点并且之后持续预定的时间为情感分析标记通信流,以便识别讲话者的情绪状态。在初始分析之后,根据用于优化效率和精度的时间算法为进一步的情感分析对通信进行标记。
置标选择命令可由讲话者中听众实时发出,或者可在之后对记录的语音进行所述选择。例如,听众可把传输中的口头通信转换成文本,以便包含在电子邮件、即时消息或其它文本通信中。但是,用情感标记文本会导致不可接受的长延迟。一种解决方案是只突出口头通信的代表讲话者的情绪状态的全部语调和音质的某些片断,或者另一方面,突出其中在口头讲话方式中,讲话者似乎异常激昂或者表现出强烈情感的片断。
根据本发明的另一例证实施例,由特定的情感分析器,即话音分析器232或文本/短语分析器236有选择地标记通信以便进行情感分析。情感分析器的选择可以情感分析器的效率、精度或可用性为基础,或者以其它一些参数为基础。这种组合中话音和文本的相对使用将依赖于多个因素,包括可用的机器资源(话音分析通常对机器资源的需求程度更高),语境的适合性等。例如,可能一种情感分析可更快地从通信流推导出情感,但是精度稍低,而另一种分析可从通信流得到更准确的情感暗示,但是较慢。从而,在一些情况下主要依赖于一种分析,在其它情况下,另一种分析被依赖为主要的分析。另一方面,一种分析可用于推断情感,并在用情感标记文本之前,用另一种分析证明其合格。
通信置标也可以是自动的,并被用于根据预定参数有选择地调用话音分析或文本/短语分析。在情感置标组件210内由话音分析器232和文本/短语分析器236任意之一或者这两者从通信提取情感。文本/短语分析器236根据讲话者用于表达消息的单词和短语(或者在文本通信的情况下,可推断情感内容的标点符号及其它词汇和语法),关于讲话者的情绪状态文本挖掘情感-短语字典220。话音分析器232通过从口头通信中提取表现出情感的话音模式(它是表征情感的口头讲话方式的音高、语调、节奏和振幅),识别情感。由于这两种情感分析技术分析通信中的不同模式,即话音和文本,因此这两种技术可被用于求解不同的情感结果。例如,一种情感分析可被专用于分析讲话者的明显的情绪状态,而另一种情感分析可被专用于分析讲话者的微妙的情绪状态。在一些情况下,讲话者可能小心地选择单词来掩饰明显的情感。但是,讲话者口头讲话方式的音高、语调、节奏和振幅方面的无意识变化可示出微妙或者受抑制的情感内容。于是,在一些情况下,话音分析器232可从通信中的话音模式中识别出受讲话者选择的词汇抑制的情感。由于讲话者避免使用带感情的单词,因此文本/短语分析器236采用的文本挖掘在导出情感方面会无效。另一方面,讲话者可能试图控制他的情感话音模式。这种情况下,通过文本挖掘,文本/短语分析器236会比话音分析器232更准确地推断情感,因为话音模式受到抑制。
自动通信置标还可为具体通信识别最准确的一种情感分析,并使用该种情感分析而排除另一种情感分析。这里,两种情感分析器最初都被允许得到情感结果,并且相互对照地检查结果的一致性。一旦优先于一种情感分析选择了另一种情感分析,那么利用更准确的方法标记通信以便进行分析。但是,自动通信置标将利用未经选择的情感分析器为核实分析随便标记选择。自动通信置标还可识别通信的最有效的情感分析器(最快并且具有最低的错误率),只利用该分析器标记通信以便进行分析,并按照类似的方式不断核实最佳效率。
如上所述,多数情感提取过程可识别九种或十种基本人类情感,并且可能识别每种情感的两种或三种程度或级别。但是,情感可被进一步分类到其它情绪状态,例如,爱、喜悦/平静/快乐、惊讶、英勇、骄傲、希望、赞同/满意、厌倦、期待、懊悔、悲哀、羡慕、妒忌/欲望/贪婪、厌恶/讨厌、悲伤、内疚、恐惧/忧虑、生气(反感/不悦/激怒-愤怒)和憎恨(不过其它情感类别也是可识别的)。此外,更复杂的情感可具有多于两种或三种的级别。例如,评论员提到五级,或者有时七级的生气;从反感和不悦到愤慨和愤怒。根据本发明的另一例证实施例,公开一种分级情感提取过程,其中一种情感分析器提取讲话者的大体情绪状态,另一种情感分析器确定所述大体情绪状态的具体级别。例如,首先选择文本/短语分析器236文本挖掘情感-短语字典220,以根据通信的词汇确定讲话者的大体情绪状态。一旦确定了大体的情绪状态,分级情感提取过程只选择某些语音片断供文本/短语分析器236分析。随后用识别的讲话者的大体情绪状态标记通信的片断供话音分析器232分析。
根据本发明的另一例证实施例,一种分析可被用于选择另一种分析的特殊变形。例如,文本分析(文本挖掘)的结果可被用作引导,或者用于微调话音分析。一般来说,许多模型被用于话音分析,为通信选择最适当的模型纯粹是猜测。但是,由于除了话音分析之外,本发明还对同一通信利用文本分析,因此文本分析可被用于选择适合于通信语境的模型子组。由于通信语境的变化,话音分析模型可在通信之间变化。
如上所述,人类往往会和通信的语境并且随着时间改进他们对情感单词和话音模式的选择。一种训练机制包括话音分析器232不断更新与情感单词和话音模式相关的使用频率分数。另外,可从讲话者使用的单词和短语推断出一些学到的情感内容。用户从话音分析器232检查更新的简表数据,接受、拒绝或者接受简表信息的选定部分。接受的简表信息被用于更新讲话者的适当语境简表。另一方面,一些或者全部简表信息将被自动用于更新讲话者的语境简表,例如更新与预定的情感单词或话音模式相关的使用频率权重。
置标引擎238被配置成情感置标组件210的输出部分,并且具有用情感元数据标记文本的主要职责。置标引擎238从抄录器234接收文本流,或者直接从文本源,即从电子邮件、即时消息或者其它文本通信接收文本通信。置标引擎238还从文本/短语分析器236和话音分析器232接收情感暗示。这些推断可以采取标准化的情感元数据的形式,并且立即与文本组合。另一方面,情感暗示首先被变换成适合于与文本组合的标准化情感元数据。置标引擎238还从包含情感的某些类型的文本通信,比如电子邮件、即时消息等接收情感标记和情感图标。这些类型的情感暗示可被直接映射成对应的情感元数据,并与对应的文本通信流组合。置标引擎238还可接收并用情感元数据标记原始通信流(例如直接来自电话机、录音带或麦克风的原始话音或音频通信)。
置标引擎238还接收对应于置标选择的控制信号。控制信号启动置标引擎238,如果引擎正常地在OFF状态下工作,或者另一方面,控制信号禁用置标引擎238,如果引擎正常地在ON状态下工作。
带有置标元数据的文本从置标引擎238输出给情感转化组件250以便进一步处理,或者输出给内容管理系统600以便存档。从置标引擎238输出的带有情感元数据的任何原始通信也可作为情感产物被保存在内容管理系统600中供搜索之用。
参见图5,根据本发明的一个例证实施例表示了情感转化组件250的逻辑结构。情感转化组件250的用途是有效地把文本和情感置标元数据转化成例如话音通信,包括相对于情感准确地调整讲话方式的语调、上扬(camber)和频率。情感转化组件250把文本和情感元数据翻译成另一种方言或语言。情感转化组件250还可情感挖掘与翻译后的情感元数据一致的单词和文本模式,以便包含为翻译后的文本的一部分。情感转化组件250被配置成接受在情感置标组件210产生的情感置标元数据,不过还可接受其它情感元数据,比如可能存在于电子邮件和即时消息中的情感图标、情感字符、情感符号等。
情感转化组件250由两个独立的体系结构组成文本和情感转化体系结构272,及语音和情感合成体系结构270。文本和情感转化体系结构272把文本,比如从情感置标组件210接收的文本翻译成和初始通信不同的语言或方言。此外,文本和情感转化体系结构272利用情感-情感字典255中的一组情感-情感释义,把情感数据从在一种文化中表达的情感元数据转换成与另一种文化相关的情感元数据。可选的是,文化调整后的情感元数据随后被用于借助该种语言的文化所共有的情感单词和文本模式修改翻译后的文本。翻译后的文本和翻译后的情感元数据可直接用在诸如电子邮件和即时消息之类的文本通信中,或者另一方面,翻译后的情感元数据首先被转换成与媒体相一致的标点符号或情感图标。如果要求话音,那么翻译后的文本和翻译后的情感元数据被提供给语音和情感合成体系结构270,语音和情感合成体系结构270把文本调制成听得见的单词声音,并利用翻译后的情感元数据调整带有情感的讲话方式。
进一步就文本和情感转化体系结构272而论,带有情感元数据的文本由解析器52接收和分离。文本中的情感元数据被传送给情感转化器254,文本被转发给文本转化器252。用户选择文本-文本字典253内的文本-文本释义,以便把文本翻译成用户的语言。如果文本是英语并且用户是法国人,那么文本-文本释义把英语翻译成法语。文本-文本字典253可包含每种语言中的多种方言的全面的大量文本-文本释义。文本转化器252利用用户语言(可用还有方言)中的文本的输入文本,对内部文本-文本字典进行文本挖掘。类似于文本翻译,情感转化器254情感挖掘情感-情感字典255,以便匹配与所翻译语言的文化相一致的情感元数据。从所翻译语言的文化,即用户的文化的观点来看,转化后的情感元数据更准确地表示情感。
文本转化器252还被端接,以便从情感转化器254接收转化后的情感元数据。借助该情感信息,文本转化器252能够关于表达该情感的单词和短语(不过针对的是听众的文化)文本挖掘情感-文本/短语字典220。实际上,文本转化器252实际情感挖掘与从情感转化器254接收的转化后的情感元数据相关的单词、短语、标点符号和其它词汇。
在情感转化体系结构272的情感转化器还可接收情感选择控制信号,用于有选择地转化情感元数据。在电子邮件或即时消息中,控制信号可以是醒目的,它向情感转化体系结构272指示关于文本的情感置标的存在。例如,消息的作者可以突出消息的一部分,或者标记响应的一部分,并使情感与之联系起来。当以语音的形式传送该部分时,该标记将被情感转化体系结构272用于引入适当的频率和音高。
可选的是,情感转化器254还可产生能够容易地与在文本转化器272产生的文本相结合的情感图标或其它情感字符。带有情感图标的文本易于适应于电子邮件和即时消息接发系统。
应重申的是,情感-文本/短语字典220包含按照基于通信的语境,提供给情感转化组件250的简表信息选择、修改和加权的双向情感-文本/短语释义(包括单词、短语、标点符号及其它词汇和语法)的字典。在讨论情感置标组件210的上下文中,简表信息与讲话者相关,更准确的说,简表信息与控制利用情感置标组件的设备的人相关。许多设备既利用情感转化组件250又利用情感置标组件210,情感转化组件250和情感置标组件210分别与情感-文本/短语字典220端接。于是,按照设备的所有者(或者控制该设备的人)的简表,选择、修改和加权双向情感-文本/短语释义。从而,当所有者是通信的讲话者(或者书面通信的作者)时,所述双向释义被用于从包含在通信中的单词和短语中文本挖掘情感。相反,当所有者是听众(或者通信的接收者)时,双向释义被用于根据伴随文本的情感元数据,文本挖掘表达讲话者的情绪状态的单词和短语。
就情感合成体系结构270来说,文本和情感置标元数据被用于合成人类语音。话音合成器258从文本转化器252接收输入文本或者已关于情感调整的文本。利用任何公知的算法,比如基于HMM的语音合成进行该合成。总之,合成的话音一般以具有常规频率和恒定振幅,即不具有任何可识别的情感话音模式的单调音频的形式被输出。
合成的话音随后在话音情感调整器260被接收,话音情感调整器260调整话音的音高、语调和振幅,并根据它接收的情感信息改变讲话方式的频率或节奏。情感信息采取可从位于情感转化组件250外部的来源,比如电子邮件或者即时消息、搜索结果接收的情感元数据的形式,或者可改为是来自情感转化器254的转化后的情感元数据。话音情感调整器260从情感-话音模式字典222取回与情感元数据对应的话音模式。这里同样地,利用用户的语境简表选择情感-话音模式释义,但是这种情况下,用户独有的个性简表一般被忽略,并不用于进行情感调整。
在话音情感调整器260还接收情感选择控制信号,用于选择带有情感话音模式调整的合成话音。在电子邮件或即时消息中,控制信号可以是醒目的,这向话音情感调整器260指示关于文本的情感置标的存在。例如,消息的作者可以突出消息的一部分,或者标记响应的一部分,并使情感与之联系起来。当以语音的形式传送该部分时,该标记将被情感合成体系结构270用于使话音情感调整器260能够引入适当的频率和音高。
如上所述,一旦通信的情感内容已被分析,并且创建了情感元数据,那么通信就可被存档。通常,只有文本和伴随的情感元数据被存档为通信的语境和情感的产物,因为元数据保持了原始通信的情感。但是在一些情况下,原始音频通信也被存档,例如用于训练数据。音频通信也可包含具有对应的情感元数据的数据道(data track)。
参见图6,根据本发明的一个例证实施例说明内容管理系统。内容管理系统600可与任何网络连接,可与因特网连接,或者可以是独立的设备,比如本地PC、膝上型计算机等。内容管理系统600包括数据处理和通信组件,服务器602,和存储、存档数据库610。服务器620还包含带情感语境搜索引擎606,可选的是,可包括嵌入式情感通信体系结构604。嵌入式情感通信体系结构604不是进行带情感语境的搜索所必需的,但是可用于训练语境简表或者从客户机卸载处理。
文本和单词搜索极其普通,但是,有时重要的不是正在说内容,而是如何表达该内容,即重要的不是单词,而是如何表达这些单词。例如,如果管理人员想要在工作场所中的同事间的表现出平和情绪状态,或者满意感的通信的例子,那么管理人员将进行文本搜索。在搜索之前,管理人员必须识别在工作场所中使用的,表明平和感觉的具体单词,随后用这些单词搜索通信。单词“content”可被视为一个搜索项。虽然文本搜索可能返回一些准确的命中结果,例如其中讲话者宣布“I am content with...”的命中结果,不过这些结果会被其它不准确的命中结果(其中,单词“content”被用在提取中,用作隐喻,或者用在讨论满足情感的任何通信中)所掩盖。此外,由于单词“content”是同音异义字,因此文本搜索还会产生关于其其它含意的不准确命中结果。
相反,根据本发明的一个例证实施例,可根据通信语境和情感搜索通信数据库。搜索查询可由服务器602内的带情感文本搜索引擎606接收。所述查询至少指定一种情感。搜索引擎606随后搜索通信存档数据库610的情感元数据,寻找具有该情感的通信。随后返回结果608,结果608从对应于元数据的表现出该情感的通信中识别具有该情感,并且具有相关一段话的通信。结果608被转发给被转发给请求者以便进行最终选择或者改进。
仅仅只有带情感的通信的例子并不特别有用;相反,有用的是在特殊的语境中如何表达特定的情感,例如在股东年会上在公司高级职员与股东之间,在电话会议,或者销售会议,或者在客户在场的情况下,或者在讨论中在上级和下级之间,或者在审问中,在警察与嫌疑犯之间,或者甚至在美国国情咨文中在美国总统和美国国会之间。从而,查询还指定其中可表达特定情感的通信语境。
就前面的例子来说,如果管理人员想要了解如何在工作场所中的同事之间传达情感,比如平和或者满意,那么管理人员可向情感搜索引擎606发出关于语境的查询。该查询确定情感“满意”和通信的语境,讲话者和听众,例如同事之间的关系,并且还可指定语境媒体,比如语音邮件。搜索引擎606随后搜索存档于存档数据库610中的同事之间的所有语音邮件通信,寻找平和或满意情感元数据。结果608随后被返回给管理人员,结果608包括证明所得到的电子邮件通信的平和情感内容的典型段落。管理人员随后可检查所述典型段落,并根据例子选择供下载的最适当语音邮件。另一方面,管理人员可改进搜索并继续进行。
根据上面所述可认识到,最理想的是,搜索引擎606搜索与通信相关的元数据,而不是搜索通信本身的文本或音频内容。此外,情感搜索结果608返回自带情感置标的文本,而不是返回自音频。
根据本发明的一个例证实施例,根据语境和情感搜索外语通信的数据库,同时所得到的通信被翻译成请求者的语言,用适合于指定情感并且与所翻译语言的文本相一致的替换单词进行修改,随后所得到的通信被调制为语音,其中关于与所翻译语言的文化相一致的指定情感调整语音模式。从而,一个国家的人可关于情感搜索另一国家中通信的存档记录,观察如何用他们自己的语言转化该情感。如前所述,基本的人类情感可超越文化障碍;于是对于语言来说,用于创建情感元数据的情感置标语言是透明的。从而,只有查询的语境部分需要被转化。对于这种情况,请求者从情感转化组件250发出一个查询,所述查询在带情感语境搜索引擎606被接收。该查询的需要被转化的任意部分被提供给嵌入式情感通信体系结构604的情感转化组件。搜索引擎608搜索与存档的通信相关的元数据,并获得一个结果。
由于搜索跨越语言障碍,因此在被请求者查看之前,结果被转化。可在用户操作的情感转化组件250本地进行所述转化,或者可由情感通信体系结构604进行所述转化,结果608以转化的形式被传送给请求者。总之,文本和情感都与请求者的语言相一致地被转化。这里同样地,请求者检查结果,并选择特定的通信。所得到的通信随后被翻译成请求者的语言,用适合于指定的情感,并且与所翻译语言的文本一致的替换单词修改。另外,请求者可选择收听该通信而不是查看它。所得到的通信被调制为自然语音,其中关于与所翻译语言的文本相一致的指定情感调整语音模式。
如上所述,情感提取过程以及带情感的转化过程的准确性取决于为用户创建和保持准确的语境简表信息。语境简表信息可在内容管理系统600创建或者至少在内容管理系统600训练,随后被用于更新位于用户可访问的各个设备和计算机上的简表数据库中的语境简表信息。利用内容管理系统600,可以后台任务的形式执行简表训练。这假定音频通信已和情感置标文本一起被存档。用户仅仅依据语境选择通信,随后指定该语境下的哪个通信应被用作训练数据。依照音频流如上所述地继续进行训练,同时话音分析器232不断依据使用频率对情感单词和话音模式评分。
图7是描述根据本发明的一个例证实施例的识别通信中的情感的方法的流程图。通过确定会话的语境,即讲话者和听众是谁,以及通信的环境怎样,开始该过程(步骤702)。语境信息的用途是识别用于填充一对情感字典的语境简表,一个情感字典用于情感文本分析,另一个情感字典用于情感话音分析。由于多数人为他们的听众和环境改变他们的词汇和语音模式,即讲话方式,因此了解语境信息便于高度准确地推断情感,因为可以只用该通信语境下最相关的释义填充所述字典。如果语境信息未知,那么有时可推断所述语境信息(步骤703)。例如,如果讲话者/用户利用PC或蜂窝电话机向朋友发送话音消息,那么讲话者的身份识别可被假定为设备的所有者,可根据用于发送消息的地址簿或索引识别听众。环境当然是话音通信。随后使用语境信息来选择用于分析消息的情感内容的最适当简表(步骤704)。预期每个设备具有大量可用于填充所述字典的全面的情感释义;用于填充文本挖掘字典的情感文本分析释义,和用于填充话音分析字典的情感话音分析释义(步骤706和708)。简表信息将指定讲话者信息,比如他的语言、方言和地理区域。可以只用和该信息相关的情感释义填充字典。在许多情况下,该信息足以获得可接受的情感结果。但是,简表信息还可指定听众信息,即,听众与讲话者的关系。随后用与听众相关的情感释义,即,明确与听众相关的情感文本和话音模式来填充字典。
借助字典,接收通信流(步骤710),并通过从数字化话音中的特征提取单词进行话音识别(步骤712)。随后,进行检查以确定是否为情感分析选择了该部分的语音(实质上只是转化后的单词)(步骤714)。如果未选择该部分来进行情感分析,那么文本被输出(步骤728),检查通信是否结束(步骤730)。如果否,那么过程返回步骤710,接收更多的语音,并关于另外的文本识别话音(步骤712)。
返回步骤714,如果语音已被指定用于情感分析,那么进行检查,以确定是否应进行情感话音分析(步骤716)。如自始至终所述那样,本发明有选择地采用话音分析和文本模式分析从通信推断情感。在一些情况下,最好优先于一种分析调用另一种分析,或者同时调用这两种分析,或者都不调用。如果对通信的该部分不应使用情感话音分析,那么进行第二次检查,以确定是否应进行情感文本分析(步骤722)。如果对通信的该部分也不应使用情感文本分析,那么无情感置标地输出文本(步骤728),检查通信是否结束(步骤730),并重复返回步骤710。
如果在步骤716,确定应进行情感话音分析,那么对照情感-话音模式字典中的情感话音模式检查通信中的话音模式(步骤718)。如果对于通信中的话音模式识别了一种情感,那么用代表该情感的元数据标记该文本(步骤720)。元数据向用户提供对于从语音通信保持的情感的直观提示。这些提示可以是醒目的颜色,情感字符或符号,文本格式或者情感图标。类似地,如果在步骤722,确定应进行情感文本分析,那么分析通信中的文本模式。这伴随着关于出自通信的文本,文本挖掘情感-短语字典(步骤724)。如果发现匹配,那么再次用表示情感的元数据标记该文本(步骤726)。这种情况下,输出带情感置标的文本(步骤728),检查通信是否结束(步骤730),重复返回步骤710,直到通信结束为止。显然,在一些情况下,在情感话音分析和情感文本分析之间判优,而不是对文本重复情感置标是有益的。例如,如果一种分析首先得到结果,那么另一种分析可停止。另一方面,一种分析可提供一般的情感元数据,而另一种分析可提供更特定的情感元数据,即一种分析推断情感,另一种分析推断情感的强度级别。另外,一种分析可能在确定某些情感方面比另一种分析更准确,从而更准确的分析被专门用于用情感标记该文本。
图8A和8B是根据本发明的一个例证实施例,说明在不同通信机制之间保持情感的方法的流程图。这种情况下,用户一般不是讲话者,而是听众或读者。该过程特别适合于用户正在接收来自另一用户的即时消息,或者用户已访问通信的文本产物的情况。为该通信语境中的听众选择最适合的语境简表(步骤802)。根据听众简表信息,情感文本分析释义填充文本挖掘字典,情感话音分析释义填充话音分析字典(步骤804和806)。随后进行检查,以确定是否要对文本和情感置标进行转化(步骤808)。如果否,那么接收带情感置标的文本(步骤812),并解析情感信息(步骤814)。随后进行检查,以确定文本是否被标记以便进行情感调整(步骤820)。这里,情感调整指的是对于该情感,准确地调整合成话音的语调、节奏和频率。如果不需要调整,那么进行最后的检查,以确定是否把文本合成为音频(步骤832)。如果否,那么连同情感置标一起输出文本(步骤836)。如果存在更多的文本,那么过程返回步骤820,在不对文本进行翻译的情况下完成该过程。相反,如果在步骤832,决定把文本合成为音频,那么文本被调制(步骤834),并以音频的形式输出(步骤836)。
返回步骤820,如果文本被标记以便进行情感调整,那么利用情感-情感字典中的文化情感-情感释义转化情感元数据(步骤822)。情感-情感释义并不改变元数据的格式,因为对于各种语言和文化来说是透明的,但是它确实会考虑到文化差异调整情感的等级。例如,如果在两种文化之间,情感的级别是不同的,那么情感-情感释义把情感的等级调整为与用户的文化相一致。总之,随后文本(情感)挖掘情感-单词/短语字典,寻找在用户的文化中表达该情感的单词(步骤824)。该步骤把表达该情感的单词添加到文本中。进行最后的检查,以确定是否把文本合成为音频(步骤826),如果是,那么文本被调制(步骤828),并考虑到情感调整合成话音的语调、节奏和频率(步骤830),并以带情感的音频的形式输出(步骤836)。
返回步骤808,如果文本和情感置标要被转化,那么用从文本和置标的原始语言到用户语言的译文填充文本-文本字典(步骤810)。随后,接收带情感置标的文本(步骤813),并解析情感信息(步骤815)。利用文本-文本字典把文本从原始语言翻译成用户的语言(步骤818)。该过程随后继续检查文本是否被标记以便进行情感调整(步骤820),并利用情感-情感字典中的释义,把情感元数据转化成用户的文化(步骤822)。对情感-单词/短语字典进行情感挖掘,寻找表达与用户的文化相一致的情感单词(步骤824)。进行检查以确定是否把文本合成为音频(步骤826)。如果否,那么输出转化后的文本(连同转化后的情感)(步骤836)。否则,文本被调制(步骤828),通过改变合成话音的语调、节奏频率,考虑到情感调整调制的话音(步骤830)。带情感的合成话音被输出(步骤836)。从步骤813重复该过程,直到文本已被输出为音频为止,随后该过程结束。
图9是根据本发明的一个例证实施例,说明在保持情感的时候,依据情感和语境搜索话音产物数据库的方法的流程图。档案包含被保存为带情感置标的文本,并且在情感被保持为情感置标的情况下代表初始话音通信的话音和/或语音通信产物。该过程从对特定语境下的带情感的产物的查询开始(步骤902)。例如,请求者可能希望查看在演讲中带有“激动”情感的产物。响应该请求,搜索所有的产物,以寻找查询的语境(演讲)中的所请求情感元数据(激动)(步骤904)。识别搜索结果(步骤906),与“激动”元数据对应的产物的一部分在结果中被再现(步骤908),并被返回给请求者(步骤910)。用户随后选择产物(步骤912),对应的文本和置标被传送给请求者(步骤916)。另一方面,请求者返回改进的查询(步骤918),如上面刚刚讨论的那样搜索该查询。
应明白产物以带置标的文本的形式被保存在存档数据库中,不过创建自带情感的话音通信。情感被变换成情感置标,语音被变换成文本。这种保存通信的机制把情感保持为元数据。对于各种语言来说,情感元数据是透明的,允许外语文本的依据情感的简单搜索。此外,由于通信产物是带情感置标的文本,因此它们能够容易地翻译成另一种语言。此外,利用上面关于图8A和8B说明的过程,能够为任何搜索结果和/或转化容易地产生带情感的合成话音。
本发明的讨论可被再分成三个一般实施例在进行或不进行语言翻译的情况下,把带情感置标元数据的文本转换成话音通信(图2、5和8A-8B);在利用两种独立的情感分析技术保持话音通信的情感的时候,把话音通信转换成文本(图2、3和7);和依据情感和语境搜索通信产物数据库,并且取回结果,同时保持情感(图6和9)。虽然上面讨论了这些实施例中每个实施例的各个方面,不过这些实施例可被嵌入各种装置和设备中,以支持通信通道之间的保持通信的情感内容的各种通信。下面的讨论举例说明实现本发明的例证实施例。
图10说明各种例证的网络布局,所述网络布局具有包含用于产生、处理和保持通信的情感内容的情感处理体系结构的设备。应明白图中描述的网络布局只是用于举例说明本发明的各个方面。图10被再分成四个独立的网络布局信息(IT)网络1010;PSTN网络(陆线电话)1042;无线/蜂窝网络1050和媒体分发网络1060。每个网络可被看作支持一种特殊类型的内容,但是实际上每个网络支持多种内容类型。例如,虽然IT网络1010被视为数据网络,不过数据的内容可以采取信息通信,话音和音频通信(语音电子邮件、VoIP电话、电话会议和音乐),多媒体娱乐(电影、电视和有线节目及视频会议)的形式。类似地,无线/蜂窝网络1050被视为语音通信网络(电话、语音电子邮件和电话会议);它还可用于其它音频内容,比如接收点播音乐或者商业音频节目。另外,无线/蜂窝网络1050支持连接数据处理设备和多媒体娱乐(电影、电视和有线节目以及视频会议)的数据通信。对于PSTN网络1042和媒体分发网络1060可进行类似的类推。
就本发明来说,情感通信体系结构200可被嵌入与这些网络连接的某些设备或装置上,或者设备可独立地包含情感置标组件210或情感转化组件250。情感通信体系结构200、情感置标组件210和情感转化组件250内的逻辑元件分别在图2、3和5中描述,而在情感置标组件210和情感转化组件250中实现的方法分别在图7、图8A和8B中例示的流程图中说明。
就IT网络1010来说,网络布局包含局域网(LAN)和广域网(WAN),比如因特网。LAN布局可由边界路由器,服务器1022和与服务器1022连接的本地设备(PDA 1020、PC 1012和1016、以及膝上型计算机1018)限定。WAN布局可被定义成在WAN 1028上连接的网络和设备(包括服务器1022,PDA 1020,PC 1012和1016以及膝上型计算机1028的LAN,和服务器1032,膝上型计算机1026)。预期这些设备中的一些或者全部可配置有内部或外部音频输入/输出组件(麦克风和扬声器),例如,PC 1012被表示成具有外部麦克风1014和外部扬声器1013。
网络设备还可配置有本地或远程情感处理能力。回想起情感通信体系结构200包含情感置标组件210和情感转化组件250。另外回想起情感置标组件210接收包括情感内容的通信(例如带语音情感的人类语音),识别语音中的单词和情感,输出带情感置标的文本,从而初始通信中的情感被保持。另一方面,情感转化组件250接收一般包括带情感置标元数据的文本的通信,修改并把文本合成为自然语言,并根据伴随文本的情感元数据,相对于情感调整讲话方式的语调、节奏和振幅。通过例子将更清楚地理解这些网络设备如何处理和保持通信的情感内容。
根据本发明的一个例证实施例,在进行或不进行语言翻译的情况下,带情感置标元数据的文本被转换成话音通信。下面将关于即时消息接发(IM)说明本发明的这方面。PC、膝上型计算机、PDA、蜂窝电话机、电话机或者其它网络设备的用户利用PC 1012或1016之一,膝上型计算机1018、1026、1047中1067之一,PDA 1020或1058之一,蜂窝电话机1056或1059之一,或者甚至利用电话机1046、1048或1049之一,产生包括情感暗示的文本消息。情感暗示可包括情感图标,重点强调,标点符号或者表现出情感的一些其它强调。根据本发明的一个例证实施例,产生消息的设备可配置也可不配置标记文本的情感置标组件210。总之,带情感置标的文本消息被传送给包括独立的情感转化组件250,或者在情感通信体系结构200中的情感转化组件250的设备,例如膝上型计算机1026。情感置标应是标准的格式,或者包含可被情感转化组件250识别成情感内容的标准置标元数据。如果情感置标不可识别,那么通过利用发送者的简表信息(参见图4),文本和非标准情感置标可被包括情感置标组件210的任何设备处理成标准化的情感置标元数据。
一旦在情感转化组件250收到文本和情感置标元数据,那么接收者可在两种内容传递模式,例如文本或语音之间选择。文本消息的接收者还可指定内容传递的语言。语言选择被用于用适当的文本释义填充文本-文本字典253,以便把文本翻译成选择的语言。语言选择还被用于用适当的情感释义填充情感-情感字典255,以便把情感转化成所选语言的文化,以及用适当的话音模式释义填充情感-话音模式字典222,以便相对于情感调整合成的音频话音。语言选择还规定哪些单词和短语释义适合于填充情感-短语字典220,用于情感挖掘为所选语言的文化所特有的带情感的单词。
可选的是,除了选择语言之外,接收者还可选择内容传递的方言,以便把文本和情感内容翻译成语言的特定方言。这种情况下,文本-文本字典253、情感-情感字典255、情感-话音模式字典222和情感-短语字典220都根据需要相对于方言被修改。如果需要的话,接收者还可选择地理区域,以便改变与特定地理区域相一致的内容传递。另外,接收者可能还希望内容传递与他自己的通信个性相符合。这种情况下,还用来自接收者的简表的个性属性修改每个文本-文本字典,情感-情感字典,情感-话音模式字典和情感-短语字典中的释义。这样做时,本发明将把文本和标准化的情感置标转换成与接收者所使用的相一致的文本(语音),同时保持并转换与接收者所使用的相一致的情感内容,以表达他的情绪状态。在字典释义被更新的情况下,消息随后可被处理。
情感转化组件250可产生文本消息或音频消息。假定接受者想把到来的消息转换成文本消息(同时保持情感内容),那么情感转化组件250接收文本以及情感元数据置标,情感转化器254把从消息中的情感置标得到的情感内容转换成与所选语言的文化相一致的情感暗示。情感转化器254使用适当的情感-情感字典来得出这些情感暗示,并产生转化后的情感置标。转化后的情感被传给文本转化器252。文本转化器252利用文本-文本字典253中的适当释义,把文本从到来的消息翻译成选择的语言(可选的是,考虑到方言、地理区域和个性翻译消息)。情感元数据可帮助从情感-短语字典220中选择目标语言中的正确单词、单词短语、词汇和/或语法,从而用目标语言表达情感。这是通过在情感置标组件210中利用情感-短语字典220,使用文本分析来得出情感信息的反转,因此双向字典是有用的。首先,把文本从源语言翻译成目标语言,例如从英语翻译成法语。随后,如果存在与英语文本相关的情感,比如悲伤,那么在最终输出的翻译文本中将使用适当的法语单词。另外注意,出自情感-短语字典220的情感替代物可以仅仅是语法方面的变化,例如标点符号或者是词汇的复杂修改,比如插入或者替换目标语言的翻译文本的一个短语。
返回图3,通过利用来自情感转化器254的情感信息,文本转化器252情感挖掘情感-短语字典220,寻找表达通信情感的情感单词。如果情感挖掘成功,那么文本转换器252把对应单词的情感单词、短语或标点符号包括在文本中,因为情感单词和接收者的文化一致地更准确表达消息中的情感。在一些情况下,翻译文本将代替通过情感挖掘得到的情感单词。翻译的消息文本内容,以及该文化的情感单词随后可一起提供给接收者,同时相对于所述文化,从消息的情感内容转化情感置标。
另一方面,如果接收者希望以音频消息的形式传递消息(同时保持情感内容),那么情感转化组件250如上所述处理带情感置标的文本,但是把带有替换的情感单词的翻译文本传给话音合成器258,话音合成器258把文本调制成可听的声音。一般来说,话音合成器使用预定的声学和韵律信息,所述预定的声学和韵律信息产生具有单调音频表现的调制音频,所述单调音频表现具有预定的音高和恒定的振幅,以及规则且重复的节奏。利用来自情感转化器254的情感置标,可修改所述预定的声学和韵律信息,以便相对于情感调整话音。话音情感调整器260从情感转化器254接收调制的话音和情感置标,并利用情感-话音模式字典222中的释义相对于情感修改调制话音中的话音模式。随后可为接收者播放转化的消息音频内容以及该文化的情感单词,同时相对于所述文件,从消息的情感内容转化情感话音模式。
在接收者不可以使用可视显示装置或者不能把他的注意力集中于消息的可视记录的情况下,从文本消息生成音频消息(包括翻译)特别有用。此外,接收者的设备不必配备情感通信体系结构200或者情感转化组件250。取而代之的是,位于发送者和接收者之间的服务器可处理文本消息,同时保持内容。例如,如果接收者正在使用不带视频显示器的标准电话机,那么靠近电话机1046、1048和1049之一的接收者之间的位于PSTN C.O.的服务器,例如服务器1042可提供通信处理,同时保持情感。最后,尽管关于即时消息说明了上面的例子,不过另一方面,消息可以是包括情感暗示、情感图标等的电子邮件或者其它类型的文本消息。
根据本发明的另一例证实施例,通过利用两种独立的情感分析技术,与情感同时地从话音通信得到文本,利用文本的情感置标元数据保持话音通信的情感。如上简要所述,如果通信不是采取包括文本和标准化的情感置标元数据的形式,那么在情感转化组件250能够处理该通信之前,通信由情感置标组件210转换。情感置标组件210实际上可被集成在配有接收音频通信流的麦克风的任何装置或设备中,包括PC 1012或1016,膝上型计算机1018、1026、1047或1067,PDA1020或1058,蜂窝电话机1056或1059,或者电话机1046、1048或1049任意之一。另外,尽管服务器一般不会通过麦克风首先接收人音频通信,不过它们会接收电子形式的音频通信。于是,情感置标组件210也可被集成到服务器1022、1032、1042、1052和1062中,不过实用的是,既包括情感置标组件210又包括情感转化组件250的情感通信体系结构200将被集成在多数服务器上。
最初,在话音通信可被处理之前,用基于通信中的特定话音的品质的释义填充情感置标组件210内的情感-话音模式字典222和情感-短语字典220。由于话音和其演说者一样独特,因此相对于该演说者修改用于分析通信的文本内容和情感内容的释义。特别有益于实现这些修改的一种机制是把任何潜在讲话者的简表保存在简表数据库中。简表包括相对于通信的特定听众和环境,与每个讲话者相关联的字典释义和修改。所述释义和修改被用于更新在通信的环境中,单个讲话者的特定特性的默认字典。从而,情感-话音模式字典222和情感-短语字典220只需要包含潜在讲话者的特定语言的默认释义。
在用关于讲话者、听众和通信环境的适当释义填充情感-话音模式字典222和情感-短语字典220的情况下,能够继续进行在保持情感的同时,把话音通信转换成带情感置标的文本的任务。为了说明本发明,情感通信体系结构200被嵌入PC 1012内。用户对着PC 1012的麦克风1014说话,情感通信体系结构200的情感置标组件210接收话音通信(人类语音),它包括情感内容(语音情感)。音频通信流在话音分析器232被接收,话音分析器232执行两种独立的功能它关于单词分析语音模式(语音识别);还关于情感分析语音模式(情感识别),即,它从音频通信中识别单词并且识别情感。通过利用任何自动语音识别(ASR)技术,例如利用隐式Markov模型(HMM),从话音通信得到单词。当在通信中识别出了单词时,单词被传给抄录器234和情感标记引擎238。抄录器234把单词转换成文本,随后把文本实例发送给文本/短语分析器236。情感置标引擎238缓存该文本,直到它收到与文本对应的情感为止,随后用情感元数据标记该文本。
通过对音频通信流进行两种情感分析,从话音通信得出情感。话音分析器232进行话音模式分析,以便从话音模式(语音的音高、语调、节奏和振幅特性)译解情感内容。几乎同时地,文本/短语分析器236对从抄录器234接收的抄录文本进行文本模式分析(文本挖掘),以便从语音通信的文本内容得出情感内容。就话音模式分析而论,话音分析器232比较话音通信的音高、语调、节奏和振幅话音模式与保存在情感-话音模式字典222中的话音模式。可利用任何话音模式分析技术继续该分析,当从话音模式中识别出情感匹配时,情感暗示被传给情感置标引擎238。就文本模式分析而论,文本/短语分析器236用从抄录器234接收的文本对情感-短语字典220进行文本挖掘。当从文本模式中识别出情感匹配时,情感暗示也被传给情感置标引擎238。情感置标引擎用来自话音分析器232和文本/短语分析器236之一或者这两者的情感暗示标记从抄录器234接收的文本。
根据本发明的另一例证实施例,话音通信产物被存档成带情感置标元数据的文本,并利用情感和语境进行搜索。搜索结果被取回,同时保持初始话音通信的情感内容。一旦通信的情感内容已被分析,并且产生了情感元数据,文本流就可被直接发送给另一设备以便调制成音频通信和/或转化,或者通信可被存档以供搜索。通常,只有文本和伴随的情感元数据被存档成通信的语境和情感的产物,不过话音通信也可被存档。注意在图10中,每个服务器1022、1032、1042、1052和1062分别与存储数据库1024、1034、1044、1054和164连接。每个服务器还可具有如上关于图6说明的嵌入式带情感语境搜索引擎,从而每个服务器执行内容管理功能。通过搜索特定通信中的情感,任意数据库1024、1034、1044、1054和1064中的话音通信产物可被取回,随后被翻译成另一种语言,而不会丢失原始话音通信的情感。
例如,如果PC 1012的用户想要回顾报告中报告者表现出担心或忧虑的外语新报告的例子,那么用户进行访问。用户利用新报告的语境下的情感项担心和/或忧虑向内容管理系统,比如说服务器1022提交搜索请求。嵌入服务器1022中的带情感语境搜索引擎识别数据库1014中的所有新报告产物,并关于担心或忧虑置标搜索与这些报告相关联的情感元数据。搜索结果被返回给PC 1012的用户,并识别带有该情感的通信。出自新报告的与担心置标元数据对应的相关段落被突出显示以供检查。用户从结果中选择一个新报告,所述新报告是具有担心或忧虑情感的新报告的典型代表,服务器1022的内容管理系统取回该新报告产物,并将其传送给PC 1012。显然内容管理系统发送带情感置标的文本,PC 1012的用户能够检查所述文本和置标,或者在进行转化或不进行转化的情况下,借助情感调整把其合成为话音。本例中,由于用户在搜索外语报告,因此翻译是预期的。此外,用户可以仅仅以文本形式检查翻译后的搜索结果,而不必话音合成许可证,或者在选择某一报告之前可选择听取所有的结果。
通过利用如上刚刚说明的本发明,用户可接收话音通信的抽象,转化抽象的文本和情感内容,并在情感与用户的文化相符合的情况下用用户的语言听取通信。在一个例子中,讲话者为说不同语言的接收者产生一个音频消息。该语音通信在具有集成的情感通信体系结构200的PC 1012被接收。通过利用适合于讲话者的字典释义,该话音通信被转换成利用情感置标元数据保持语音的情感的文本,并被传送给接收者。带情感置标的文本在接收者的设备,例如具有集成的情感通信体系结构200的膝上型计算机1026被接收。通过利用适合于接收者的语言和文化的字典释义,文本和情感被转化,与接收者的文化相一致的情感单词被包括在该文本中。文本随后被话音合成,并考虑到情感对合成的讲话方式进行调整。当然,PC 1012的用户可指定用利用情感元数据合成的话音调整文本的哪些部分。
另一方面,讲话者的设备和/或接收者的设备可以不配备情感通信体系结构200,或者情感置标组件210或情感转化组件250任意之一。这种情况下,利用具有嵌入的情感通信体系结构的服务器远程处理通信流。例如,原始语音通信流可由不具有从话音提取文本和情感的固有能力的电话机1046、1048或1049传送。话音通信随后由具有单板情感通信体系结构200或者至少具有情感标记组件210的网络服务器,比如位于PSTN C.O.的服务器1042处理(在服务器1022,来自PC 1016的话音可被转换成带情感置标的文本)。在任意一种情况下,带情感置标的文本被转发给膝上型计算机1026。相反,在膝上型计算机1026产生的带情感置标的文本可在服务器处理。这里,文本和情感被转化,与接收者的文化相一致的情感单词被包括在文本中。文本随后可被调制成话音,并关于情感调整合成的话音。情感调整后的合成话音随后以音频消息的形式被发送给电话机1046、1048或1049或者PC 1016任意之一,因为这些设备不具有单板文本/情感变换和转化能力。
另外应明白情感置标组件210可用于把不标准的情感置标和情感图标转换成可由情感转化组件识别的标准化的情感置标元数据。例如,文本消息、电子邮件或即时消息在具有嵌入的情感置标组件210的设备,比如PDA 1020被接收(另一方面,也可在该设备产生消息)。通信是文本的,从而没有话音可供处理,但是通信包含不标准的情感图标。情感置标组件210中的文本/短语分析器识别这些文本字符,并关于如上所述传给置标引擎的情感对这些文本字符进行文本挖掘。
在不同通信通道之间,例如蜂窝电话话音通信和PC文本通信之间,或者PC电子邮件通信和电话语音邮件通信之间的跨平台通信中,上面刚刚说明的本发明的各个方面特别有用。此外,由于每个通信被转换成文本,并且把原始话音通信的情感保持为情感置标元数据,因此原始通信可被有效地翻译成任何其它语言,同时相对于该语言的文化,准确地表现情感。
根据另一例证实施例,一些设备可配有情感置标组件210或情感转化组件250任意之一,但是不配备情感通信体系结构200例如,因其质量较差,蜂窝电话话音传输是声名狼藉的,这导致差的文本识别(可能导致不太准确的情感识别)。于是,蜂窝电话机1056和1059配有情感置标组件210以便本地处理话音通信,同时依赖于位于蜂窝C.O.的服务器1052利用其嵌入的情感通信体系结构200处理到来的带情感置标的文本。从而,输出的话音通信被有效处理,而蜂窝电话机1056和1059并不负担本地支持情感转化组件的职责。
类似地,监视器1066、1068和1069并不具有通过空中和电缆传送话音通信的能力,于是,不需要情感置标能力。它们对听力受损者使用文本字幕,但是没有情感提示。于是,使位于媒体分发中心的服务器1062配备用情感标记文本的能力会有助于监视器1066、1068和1069的听力受损者欣赏接收的媒体。另外,通过在监视器1066、1068和1069(或者在机顶盒中)嵌入情感转化组件250,外语媒体可被翻译成本国语言,同时利用来自服务器1062的转换后的带情感置标的文本,保持原始通信的情感。媒体网络1060,例如膝上型计算机1067的用户也将能够依据情感搜索数据库1064,寻找娱乐媒体,并基于该搜索定购内容。例如,通过搜索戏剧或喜剧台词或者电影独白。
附图中的流程图和方框解说明根据本发明的各个实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能性和操作。在这点上,流程图或方框图中的每个方框可代表代码的一个模块,一个片断或者一部分,所述代码包含用于实现指定的逻辑功能的一个或多个可执行指令。另外应注意的是在一些备选实现中,方框中提及的功能可不按照附图中指出的顺序发生。例如,接连表示的两个方框事实上可基本同时地被执行,或者有时可按照相反的顺序执行方框,取决于所涉及的功能性。另外注意方框图和/或流程图的每个方框,以及方框图和/或流程图中的方框的组合可由执行指定功能或动作的基于专用硬件的系统,或者专用硬件和计算机指令的组合来实现。
这里使用的术语只是用于说明特定的实施例,并不是对本发明的限制。这里使用的单数术语“一个”还意图包括复数形式,除非上下文另有明确说明。另外要明白当在本说明书中使用时,术语“包含”指定所陈述的特征、整数、步骤、操作、元件和/组件的存在,但是并不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或它们的群体的存在或增加。
权利要求
1.一种在保持情感的同时跨通道进行通信的方法,包括接收话音通信;针对第一情感内容分析话音通信;针对第二情感内容分析话音通信的文本内容;利用第一情感内容和第二情感内容之一的情感元数据标记文本内容。
2.按照权利要求1所述的方法,还包括针对文本内容分析话音通信。
3.按照权利要求2所述的方法,其中针对第二情感内容分析话音通信的文本内容还包括获得文本内容的至少一个单词;访问多个文本-情感释义;和比较出自文本内容的所述至少一个单词与所述多个文本-情感释义。
4.按照权利要求3所述的方法,还包括获得文本内容的单词短语、标点符号、词汇和语法之一;访问多个文本-情感释义;和比较所述单词短语、标点符号、词汇和语法之一与所述多个文本-情感释义。
5.按照权利要求2所述的方法,其中针对第一情感内容分析话音通信还包括评估第二情感内容;和根据情感内容的评估选择话音分析模型。
6.按照权利要求2所述的方法,其中用第一情感内容和第二情感内容之一的情感元数据标记文本内容还包括比较第一情感内容和第二情感内容;和根据第一情感内容和第二情感内容的比较,识别第一情感内容和第二情感内容之一。
7.按照权利要求2所述的方法,其中用第一情感内容和第二情感内容之一的情感元数据标记文本内容还包括根据话音通信的分析的属性,对话音通信的分析分级;根据文本内容的分析的属性,对文本内容的分析分级;根据话音通信的分析的分级和文本内容的分析的分级,识别第一情感内容和第二情感内容之一。
8.按照权利要求7所述的方法,其中话音通信的分析的属性和文本内容的分析的属性是相应分析的准确性和工作效率之一。
9.按照权利要求3所述的方法,还包括根据话音通信的语言、话音通信的方言和话音通信的讲话者,选择多个话音模式-情感释义;和根据话音通信的语言、话音通信的方言和话音通信的讲话者,选择多个文本-情感释义。
10.按照权利要求9所述的方法,其中话音模式-情感释义包含关于音高、语调、节奏和振幅之一的话音模式。
11.按照权利要求3所述的方法,还包括根据话音通信的讲话者、话音通信的讲话者的听众和话音通信的环境,选择多个文本-情感释义;和根据话音通信的讲话者、话音通信的讲话者的听众和话音通信的环境,选择多个话音模式-情感释义。
12.按照权利要求2所述的方法,其中针对文本内容分析话音通信还包括从话音通信提取话音模式;访问多个话音模式-文本释义;和比较提取的话音模式与多个话音模式-文本释义;并且针对第二情感内容分析话音通信的文本内容还包括获得文本内容的至少一个单词;访问多个文本-情感释义;和比较出自文本内容的所述至少一个单词与所述多个文本-情感释义。
13.一种在保持情感的同时跨通道进行通信的方法,包括接收第一语言通信,所述第一语言通信包含用情感元数据标记的文本;把情感元数据转化成第二语言情感元数据;把文本翻译成第二语言文本;针对第二语言情感信息分析第二语言情感元数据;和把第一语言通信中的第二语言情感信息与第二语言文本相结合。
14.按照权利要求13所述的方法,其中第二语言情感信息是文本、短语、标点符号、词汇或语法之一。
15.按照权利要求14所述的方法,还包括话音合成第二语言文本和第二语言情感文本;和利用第二语言情感元数据调整合成的话音。
16.按照权利要求14所述的方法,其中针对第二语言情感信息分析第二语言情感元数据还包括接收至少一个第二语言情感元数据;访问多个话音情感-文本模式释义,所述多个话音情感-文本模式释义基于第二语言;比较所述至少一个第二语言情感元数据与所述多个话音情感-文本模式释义。
17.按照权利要求15所述的方法,还包括基于第二语言选择所述多个话音情感-文本模式释义。
18.按照权利要求16所述的方法,其中利用第二语言情感元数据调整合成的话音还包括接收至少一个第二语言情感元数据;访问多个情感-话音模式释义,其中话音模式包含音高、语调、节奏和振幅之一;匹配所述至少一个第二语言情感元数据与所述多个情感-话音模式释义之一,所述多个情感-话音模式释义基于第二语言;和利用与匹配的情感-话音模式释义对应的话音模式,改变合成的话音的合成话音模式。
19.一种在保持情感的同时跨通道进行通信的方法,包括从请求者接收对通信产物的查询,所述产物把话音通信表现成带置标情感元数据的文本内容;从查询解析语境值;从查询解析情感值;根据语境值对多个通信产物记录分类;依据语境值识别至少一个通信产物记录;依据情感值对至少一个识别的通信产物分类;识别至少一个结果通信产物;和把识别的至少一个结果通信产物转发给请求者。
20.按照权利要求19所述的方法,其中语境值与通信的语境相关联。
21.按照权利要求19所述的方法,其中情感值与产物的情感元数据相关联。
22.按照权利要求19所述的方法,还包括用与查询的情感值相一致的情感元数据标记识别的至少一个结果通信产物的一部分。
23.按照权利要求19所述的方法,还包括从请求者接收对于通信产物的第二查询;从第二查询解析语境值;从第二查询解析更新的情感值;依据更新的情感值和更新的语境值之一,识别至少一个更新结果通信产物记录;和把识别的至少一个更新的结果通信产物转发给请求者。
24.一种包含执行前述方法权利要求的任意一种方法的装置的系统。
全文摘要
跨话音和文本通信通道的情感被提取、保持和转化。接收话音通信并关于情感内容对其进行分析。利用单词识别技术概括地了解通信的文本内容。随后关于情感内容分析文本内容。比较从单词识别得到的单词和短语与文本挖掘数据库中的情感单词和短语。所述两种分析得到的情感随后被作为情感元数据,标记文本内容。通过利用文本和情感转化释义,话音通信的文本和情感置标抽象也可被转化。转化后的情感元数据被用于情感挖掘在第二语言的文化中具有情感内涵的单词。这些单词随后替换翻译文本中的对应单词。转化后的文本和情感单词被调制成合成话音,并通过利用从转化后的情感元数据得到的情感话音模式,调整讲话方式。
文档编号G10L13/00GK101030368SQ20071000542
公开日2007年9月5日 申请日期2007年2月8日 优先权日2006年3月3日
发明者莫哈马德·R.·萨拉斯霍, 迪帕·斯里尼瓦萨恩, 巴兰·苏伯拉玛尼安 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1