处理会话信息的方法、装置及终端设备与流程

文档序号:18619437发布日期:2019-09-06 22:20阅读:202来源:国知局
处理会话信息的方法、装置及终端设备与流程

本发明涉及会话信息处理技术领域,具体而言,本发明涉及一种处理会话信息的方法、装置及终端设备。



背景技术:

自然语言生成是人工智能和计算语言学的分支,是基于语言信息处理的计算机模型,其工作过程从抽象的概念层次开始,通过选择并执行一定的语义和语法规则来生成文本。

现有的自然语言生成技术主要应用于问答系统中,任务场景为给定一个问题,自动生成相应的回答。比如:现有技术中,李提问:北京有什么好玩的地方?问答系统会自动给出北京好玩的地方。其中,根据生成方式的不同,现有的自然语言生成技术可以分为如下两种:(1)基于模板生成:通过语义分析,得到问题的逻辑表达式,匹配预先用逻辑表达式定义的模板,从数据库中搜索相应回答。(2)基于深度学习生成:在训练阶段,根据已有的问答语料训练串到串(sequence-to-sequence)的生成模型;在预测阶段,给定问题句子,根据训练得到的生成模型,生成回答句子。

虽然现有技术中的自然语言生成,能够在一定程度上满足人们的基本需求,但是其作用对象单一,一般是机器和用户之间的简单问答,无法满足用户的多样化需求,而且生成的句子完全依靠当前给定的上下文环境,没有考虑用户是否理解生成的句子中的名词或者事物,导致用户的体验较差。



技术实现要素:

本发明的目的旨在至少能解决上述的技术缺陷之一,特别是无法满足用户的多样化需求的技术缺陷。

本发明的实施例根据一个方面,提供了一种处理会话信息的方法,包括:

获取辅助信息与第一用户输入的源会话信息;

基于所述辅助信息与所述源会话信息,生成目标会话信息并输出所述目标会话信息。

本发明的实施例根据另一个方面,还提供了一种处理会话信息的装置,包括:

信息获取模块,用于获取辅助信息与第一用户输入的源会话信息;

会话生成模块,用于基于所述辅助信息与所述源会话信息,生成目标会话信息并输出所述目标会话信息。

本发明的实施例根据另一个方面,还提供了一种终端设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行上述的处理会话信息的方法。

本发明实施例提供的处理会话信息的方法,与现有技术相比,获取辅助信息与第一用户输入的源会话信息,接着,基于该辅助信息与该源会话信息,生成目标会话信息并输出目标会话信息。本发明实施例的技术方案,在生成目标会话信息时,不仅依靠第一用户输入的源会话信息,而且还要充分考虑获取到的辅助信息,从而使得生成的目标会话信息既满足用户的多样化需求,又确保用户能够理解生成的句子中的名词或者事物,提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明实施例的处理会话信息的方法的流程示意图;

图2为本发明实施例的会话信息的生成流程图;

图3为本发明实施例的语句自动生成模型的整体运行结构图;

图4为本发明实施例的语句自动生成系统的工作流程图;

图5为本发明实施例的单语种的语句自动生成系统的示意图;

图6为本发明实施例的多语种的语句自动生成系统的示意图;

图7为本发明实施例的加载用户信息的语句自动生成系统的示意图;

图8为本发明实施例的基于缩略语的语句自动生成系统的示意图;

图9为本发明实施例的类比翻译系统在实体类比应用场景的示意图;

图10为本发明实施例的类比翻译系统在另一实体类比应用场景的示意图;

图11为本发明实施例的类比翻译系统的事件类比应用场景的示意图;

图12为本发明实施例的类比翻译系统的实体和事件类比应用场景的示意图;

图13为本发明实施例的集中单元触发的用户上下文修改的信令流程图;

图14为本发明实施例的跨语言跨领域翻译系统的完整流程图;

图15为本发明实施例的特殊专业领域表达形式到一般表达形式的跨语言跨领域翻译系统的示意图;

图16为本发明实施例的一般表达形式到特殊专业领域表达形式的跨语言跨领域翻译系统的示意图;

图17为本发明实施例的跨语言跨文化背景翻译系统的完整流程图;

图18为本发明实施例的特殊文化背景领域表达形式到一般表达形式的跨语言跨文化背景翻译系统的示意图;

图19为本发明实施例的带有图片输出的特殊文化背景领域表达形式到一般表达形式的跨语言跨文化背景翻译系统的示意图;

图20为本发明实施例的图片推荐系统的完整流程图;

图21为本发明实施例的图片推荐系统的应用示意图;

图22为本发明实施例的处理会话信息的装置的结构意图;

图23为可用于实现本发明实施例公开的处理会话信息的装置的计算系统的框图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personalcommunicationsservice,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personaldigitalassistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(globalpositioningsystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobileinternetdevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。

现有的自然语言生成技术存在以下不足:

1)作用对象单一,交互对象一般是机器和用户之间,包括如何让机器理解自然语言(即人类语言)以及如何将机器语言编码成人能理解的自然语言。然而对于语言生成和理解来说,真实情况复杂得多,特别是人与人之间直接或者间接通过设备进行交流,也有可能因为个体自身情况或者所处环境而无法理解对方或者向传达自己的想法。比如对于外语初学者、语言障碍患者、非常忙碌又紧急的境况等等,都需要非常智能和人性化的语言生成技术来帮助用户实现快速便捷的辅助沟通功能。现有的技术因为没有考虑多个用户之间,以及多个用户和设备之间的多方语言环境,因此无法处理上述复杂的情况。

例如:现有技术中,当提问方提出一个开放式的问题,比如,“周六我们去干什么呢?”,此时,现有问答系统无法根据应答方给出的关键词生成回答。

2)生成的句子完全依靠当前给定的上下文环境,没有考虑用户是否理解生成的句子中的名词或者事物。

例如:假设用户c对显卡完全陌生,当用户a与用户b讨论显卡话题时,现有技术无法根据用户a与用户b的对话生成能够使用户c理解其对话的句子。

3)在生成句子的时候没有考虑用户a与用户b的擅长领域不同的情况,因此生成的句子也应该根据输出领域的要求而变化。

例如:假设用户a是一个游戏玩家,很喜欢使用游戏用语,而用户b只是偶尔接触游戏,对游戏用语几乎没有了解。当用户a对用户b说“今晚吃鸡吗?带你飞!”(意思是“今晚一起打游戏吗?带你一起赢!”)时,用户b无法理解用户a说的话,而现有技术也无法帮助用户b来理解这句话。

4)没有考虑不同用户所处的文化背景的差异。

例如:假设用户a对美国俚语了如指掌,而用户b却不甚了解美国文化。当用户a对用户b说“inelectronicindustry,samsungcanbeconsideredthe800poundgorilla.”时,原意是说“三星在电子行业拥有非常强大的实力”,而用户b对此句话会不太理解,现有技术也无法帮助用户b来理解这句话。

5)只限定于文本信息,没有考虑图像等多模态信息。

为解决现有的自然语言生成技术中的上述不足,本发明实施例提供了一种处理会话信息的方法,通过本方案,在生成目标会话信息时,不仅依靠第一用户输入的源会话信息,而且还要充分考虑获取到的辅助信息,一方面,利于扩展语言生成的交互对象,例如用户-终端设备-用户的交互形式,不再局限于机器和用户之间,另一方面,生成自然语言时不再只依靠当前给定的上下文环境,而且要充分考虑辅助信息,使得用户能够理解生成的自然语言句子,增强语言生成的实用性,架起不方便正常交流的人与人之间沟通的桥梁,将不可读的话语转换成通俗易懂的自然语言,从而打破用户在沟通交流过程中的理解障碍。

本发明实施的处理会话信息的方法,如图1所示,包括:步骤110、获取辅助信息与第一用户输入的源会话信息;步骤120、基于辅助信息与源会话信息,生成目标会话信息并输出目标会话信息。

本发明实施例提供的处理会话信息的方法,获取辅助信息与第一用户输入的源会话信息,接着,基于该辅助信息与该源会话信息,生成目标会话信息并输出目标会话信息。本发明实施例的技术方案,在生成目标会话信息时,不仅依靠第一用户输入的源会话信息,而且还要充分考虑获取到的辅助信息,从而使得生成的目标会话信息既满足用户的多样化需求,又确保用户能够理解生成的句子中的名词或者事物,提升用户体验。

具体地,步骤110与步骤120中的辅助信息包括历史会话信息、第一用户的用户信息、第二用户的用户信息、信息所属领域中的至少一项,其中,信息所属领域包括源信息所属领域和目标信息所属领域。

进一步地,用户信息包括以下至少一项:用户属性信息;用户喜好信息;用户日程安排信息;用户位置信息;用户行为信息;用户设备信息。

进一步地,信息所属领域包括如下至少一项:语言种类信息;专业领域信息;文化背景信息。

进一步地,源信息所属领域为对源会话信息进行检测得到或者可设置,目标信息所属领域为通过对历史会话信息进行检测得到或者可设置。

具体地,步骤110与步骤120中的源会话信息包括如下中的至少一种:缩略语、不完整词、自然语言语句、图片选择信息。

具体地,步骤120中的基于辅助信息与源会话信息,生成目标会话信息,具体包括步骤1201(图中未示出)至步骤1204(图中未示出)中的至少一种:

步骤1201、提取源会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词,根据会话信息关键词生成目标会话信息。

步骤1202、提取源会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词、以及第一用户和/或第二用户的用户信息的用户信息关键词,根据会话信息关键词和用户信息关键词生成目标会话信息。

步骤1203、根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,提取目标信息所属领域的会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词,根据会话信息关键词生成目标会话信息。

步骤1204、根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,提取目标信息所属领域的会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词、以及第一用户和/或第二用户的用户信息的用户信息关键词,根据会话信息关键词和用户信息关键词生成目标会话信息。

进一步地,步骤1201与步骤1203中的根据会话信息关键词生成目标会话信息的步骤,包括:根据会话信息关键词,基于预先训练的语句生成模型,生成目标会话信息;步骤1202与步骤1204中的根据会话信息关键词和用户信息关键词,生成目标会话信息的步骤,包括:根据会话信息关键词和用户信息关键词,基于预先训练的语句生成模型,生成目标会话信息。

具体地,步骤120中的基于辅助信息与源会话信息,生成目标会话信息,具体包括步骤1205(图中未示出)至步骤1207(图中未示出)中的至少一种:

步骤1205、根据源会话信息,得到源对象信息,对源对象信息进行分类得到源类别信息;根据第一用户的用户信息,得到候选目标类别信息;根据源类别信息与候选目标类别信息的相似度,得到目标类别信息;根据目标类别信息得到候选目标对象信息;根据源对象信息和候选目标对象信息的相似度,得到目标对象信息;根据目标对象信息,生成目标会话信息。

步骤1206、根据源会话信息和第一用户与一个以上第二用户之间的历史会话信息,得到源对象信息;对源对象信息进行分类得到源类别信息;根据第一用户的用户信息,得到候选目标类别信息;根据源类别信息与候选目标类别信息的相似度,得到目标类别信息;根据目标类别信息得到候选目标对象信息;根据源对象信息和候选目标对象信息的相似度,得到目标对象信息;根据目标对象信息,生成目标会话信息。

步骤1207、根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,根据目标信息所属领域的会话信息和第一用户与一个以上第二用户之间的历史会话信息,得到源对象信息;对源对象信息进行分类得到源类别信息;根据第一用户的用户信息,得到候选目标类别信息;根据源类别信息与候选目标类别信息的相似度,得到目标类别信息;根据目标类别信息得到候选目标对象信息;根据源对象信息和候选目标对象信息的相似度,得到目标对象信息;根据目标对象信息,生成目标会话信息。

其中,对象包括实体和/或事件。

具体地,步骤120中的基于辅助信息与源会话信息,生成目标会话信息,具体包括步骤1208(图中未示出)、根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的目标会话信息。

进一步地,步骤1208具体包括:根据信息所属领域,基于相应的预先训练的翻译模型,按照先后顺序对源会话信息进行语言种类、专业领域和文化背景中的至少一种的翻译处理,得到目标会话信息。

进一步地,该方法还包括步骤130(图中未示出)、根据源会话信息和/或目标会话信息与候选图片的语义相似度,获取与源会话信息和/或目标会话信息对应的目标图片并输出所述目标图片。

具体地,步骤120中的基于辅助信息与源会话信息,生成目标会话信息,具体包括步骤1209(图中未示出)与步骤1210(图中未示出)中的至少一种:

步骤1209、根据第一用户输入的图片选择信息以及第一用户与第二用户之间的历史会话信息,获取会话推测信息;根据会话推测信息与候选图片的语义相似度,从候选图片中获取目标图片,将目标图片作为目标会话信息。

步骤1210、根据第一用户输入的图片选择信息、第一用户与第二用户之间的历史会话信息、以及第一用户的用户信息,获取会话推测信息;根据会话推测信息与候选图片的语义相似度,从候选图片中获取目标图片,将目标图片作为目标会话信息。

进一步地,步骤1209中的根据第一用户输入的图片选择信息以及第一用户与第二用户之间的历史会话信息,获取会话推测信息,具体包括:根据第一用户输入的图片选择信息以及第一用户与第二用户之间的历史会话信息,基于预训练的对话理解模型,获取会话推测信息。

进一步地,步骤1210中的根据第一用户输入的图片选择信息、第一用户与第二用户之间的历史会话信息、以及第一用户的用户信息,获取会话推测信息,具体包括:根据第一用户输入的图片选择信息、第一用户与第二用户之间的历史会话信息、以及第一用户的用户信息,基于预训练的对话理解模型,获取会话推测信息。

其中,会话推测信息包括:第一用户想要表达的会话内容和/或第一用户想要表达的会话情绪。

根据上述描述可以看出,本发明实施的处理会话信息的方法,包括但不限于如下5个方面的内容:a、基于关键词的自然语言表达形式的语句自动生成系统;b、类比翻译系统;c、基于跨语言跨领域翻译系统;d、基于跨语言跨文化背景翻译系统;e、图片推荐系统;其中,包括但不限于上述5个方面的内容的会话信息的生成流程图如图2所示。

下面结合具体的实施例,对上述5个方面的内容进行详细介绍,其中,上述的自然语言表达形式的语句即目标会话信息,下面描述过程中的源端用户即上述的第一用户,目标用户即上述的第二用户,源端用户信息即上述的第一用户的用户信息,目标用户信息即上述的第二用户的用户信息。

a、基于关键词的自然语言表达形式的语句自动生成系统(下述简称为语句自动生成系统),是针对现有的自然语言生成技术中,只局限于用户和设备之间的会话信息(也即自然语言)生成问题,而提出的一种可作用于用户-设备-用户、且根据外部提供的语境信息(即用户对话信息,包括用户间的历史对话信息、第一用户输入的源会话信息等)自动生成自然语言表达形式的语句的方法,该语句自动生成系统包括:从语境信息中提取会话信息关键词,根据会话信息关键词,生成自然语言表达形式的语句(即目标会话信息)并反馈给目标用户。此外,还可以获取源端用户信息与目标用户信息,根据语境信息、以及目标用户信息与源端用户信息,生成自然语言表达形式的语句并反馈给目标用户。此外,还可以将源端用户输入的会话信息关键词翻译成目标用户的语言种类的会话信息关键词,再将翻译成目标用户的语言种类的会话信息关键词生成自然语言表达形式的语句并反馈给目标用户。

本发明实施例在实现上述的基于关键词的自然语言表达形式的语句自动生成系统时,主要包括线上的语句自动生成系统(即自然语言表达形式的语句生成)和线下的语句自动生成模型的训练两部分工作。其中,线下的语句自动生成模型的训练是根据现有语料,预先训练出一个根据会话信息关键词自动生成自然语言表达形式的语句的模型,可记作预训练的语句自动生成模型,例如:对话“-张,周六我们去做什么呢?-我们可以去打篮球,然后去看电影“功夫熊猫”。”即为一条语料,其中,前一句被标注为提问语句,后一句中的“篮球”、“功夫熊猫”被标注为会话信息关键词,在具体的训练过程中,以前一句与后一句的会话信息关键词为输入,后一句的整句话为输出进行训练。线上的语句自动生成系统是根据语境信息通过该线下预训练的语句自动生成模型,生成适合当前语境的自然语言表达形式的语句。另外,为了尽量覆盖复杂的语言沟通环境,在线下的语句自动生成模型的训练过程中和线上的语句自动生成系统中,都考虑了辅助信息,即根据语境信息和辅助信息,通过线下预训练的语句自动生成模型,生成适合当前语境的自然语言表达形式的语句,并且还可进行不完整词和/或缩略词表达的自动识别与补全。

需要说明的是,在线下的语句自动生成模型的训练过程中,利用深度学习算法进行句子简化成会话信息关键词和根据会话信息关键词生成句子的对偶学习来进行训练,从而达到不依靠模板等大量人工干预的方式来学习和使用模型。其中,用户信息包括第一用户的用户信息与第二用户的用户信息,语句自动生成模型是在线下进行训练、在线上直接应用,深度学习算法则运用现有框架,通过修改输入参数、输出参数以及网络参数(如网络深度、节点数量等)来实现。

具体地说,由于线上的语句自动生成系统是根据语境信息和辅助信息,通过线下预训练的语句自动生成模型,生成适合当前语境的自然语言表达形式的语句,因此,线上的语句自动生成系统可以概括为如下两部分:信息提取系统和预训练的语句自动生成模型,信息提取系统主要是将语境信息、辅助信息转化成向量表示形式,为信息输入到预训练的语句自动生成模型中做预处理,预训练的语句自动生成模型是根据现有语料,以线下训练的方式训练出一个根据信息关键词自动生成语句的语句自动生成模型,其输入是以向量形式表示的语境信息和辅助信息,输出是以自然语言表达形式的语句,即输出是目标会话信息。其中,语境信息包括历史会话信息、第一用户输入的源会话信息,辅助信息包括第一用户的用户信息、第二用户的用户信息、信息所属领域中的至少一项;信息所属领域进一步包括源信息所属领域和目标信息所属领域,源信息所属领域是指源会话信息的所属领域,目标信息所属领域是指目标会话信息的所属领域;用户信息进一步包括以下至少一项:用户属性信息,用户喜好信息,用户日程安排信息,用户位置信息,用户行为信息,用户设备信息。

进一步地说,语句自动生成模型的线下训练过程具体包括:步骤一、提取训练语料中的关键词信息。步骤二、把步骤一中的关键词信息转换成向量表示,输入到句子生成的神经网络模型中生成句子,接着,计算根据语句自动生成模型生成的句子和原有句子之间的差值,并通过网络把差值传递到网络参数中,其中,差值指的是语句自动生成模型生成句子的向量与原有句子的向量之间的差值,有多种计算差值的方式,最简单的是直接相减取绝对值,还可以取平方等,网络参数是神经网络中的一些连接神经元的边的权重参数等,属于可调整参数。步骤三:重复步骤一和步骤二,直到模型收敛。语句自动生成模型的整体运行结构如图3所示。

进一步地说,语句自动生成系统的工作流程如图4所示,具体包括:步骤一、信息提取系统接收用户信息及语境信息。针对语境信息首先做会话信息关键词提取,然后对提取的会话信息关键词做缩略语检测或恢复、以及目标语言种类检测或翻译的处理,最后根据语句自动生成模型训练出的词向量等参数将其转化为相应的向量形式的语境信息,即图4中的语境信息向量;针对用户信息,首先做用户信息关键词提取,然后根据语句自动生成模型训练出的词向量等参数将其转化为相应的向量形式的用户信息,即图4中的用户信息向量。步骤二:将用户信息向量与语境信息向量合并输入到语句自动生成模型中,得到以自然语言形式表示的语句,即为最终的目标会话信息。其中,上述用户信息包括第一用户的用户信息、第二用户的用户信息。

下面,通过如下几个实施例对上述语句自动生成进行详细介绍:

实施例一:简单事物输入

在实施一的简单事物输入中,以不太熟悉中文的用户使用终端设备,进行交流时使用语句自动生成系统为例。当用户遇到语言表达障碍时,例如语言初学者或者使用不太熟悉的语言和其他人进行交流时,往往只能想起表达内容的几个关键词,没有完整组织语句的能力,此时语句自动生成系统就能够为该用户提供很大的帮助。如图5所示,用户使用语句自动生成系统在不熟悉语言表达的情况下完成与他人的交流。

在图5中,右侧第二用户“李”为中文熟练使用者,左侧第一用户“张”为中文使用有障碍者,在图5所示的用户交流过程中,语句自动生成系统会根据第一用户(“张”)与第二用户(“李”)之间的历史会话信息(例如“李”输入的会话内容)、以及第一用户(“张”)提供的源会话信息的会话信息关键词,例如“篮球”、“电影”、“功夫熊猫”等,组织成完整语句(即目标会话信息)并反馈给第二用户(“李”),也即语句自动生成系统提取源会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词,根据会话信息关键词生成目标会话信息并显示该目标会话信息。其中,上述第一用户“张”是当前设备使用端用户,第二用户“李”是对方用户,即与当前设备使用端用户进行会话的用户。

具体地,本实施例中的语句自动生成系统包括信息提取系统和语句自动生成模型两部分,语句自动生成系统的语句自动生成过程可以分为以下两个步骤:

步骤一:识别语境信息

本实施例根据用户提供的语境信息进行语句生成,协助用户完成语言的组织与表达,这里的语境信息是终端设备或者社交软件中缓存的第一用户与第二用户间相互交流的历史会话信息以及第一用户输入的源会话信息(例如关键词“篮球”、“电影”、“功夫熊猫”等)。在本实施例的语句自动生成的过程中,首先需要提取语境信息的会话信息关键词,其中,会话信息关键词获取的方法包括但不限于以下两种:1)直接获取,若检测到以特定查询格式输入的文本内容,系统自动对文本进行分词和关键词提取的操作;2)从用户以往的历史会话信息中获取丰富语句生成的语境信息,并从语境信息中提取会话信息关键词。然后利用线下预训练的语句自动生成模型中的词向量参数,将会话信息关键词进行向量化,得到语境信息的会话信息关键词的向量。

步骤二:利用语境信息生成自然语言语句

该步骤将步骤一中提取的语境信息的会话信息关键词的向量,输入到线下已经训练好的语句自动生成模型中,得到自然语言表达形式的语句即为最终的目标会话信息,同时输出该目标会话信息。其中,该目标会话信息可以直接通过文字形式显示给第二用户,也可以在第二用户点击语音播放相关按钮时,将该目标会话信息播放给第二用户。

其中,上述实施例的实现场景是在社交平台上,语句自动生成系统可以嵌入到输入法或者社交平台中,这样用户只需输入会话信息关键词等源会话信息,由社交平台提供用户交流的上下文语境信息等历史会话信息,更便捷的实现语句自动生成过程。

实施例二:多信息所属领域的语句自动生成系统

此实施例的应用场景是出国旅游者以及语言的初学者想表达内心的想法,但是只能够想起自己母语的几个关键词,因而在进行交流时遇到障碍。此时,语句自动生成系统能够通过检测用户使用的源语言种类和想要表达的目标语言种类,把用户提供的源语言关键词翻译成目标语言的关键词,并结合上下文语境信息,组织出合适的语句反馈给用户。以图6的交流场景为例进行介绍:

在图6中,右侧第二用户“李”为中文熟练使用者,左侧第一用户“tom”为母语是英文的用户并且对中文使用十分不熟悉,此时,“tom”利用语句自动生成系统完成与“李”的对话交流,“李”问“tom”周六的计划,“tom”只能想到英语中的“basketball(篮球)”和“themummy(木乃伊)”等源会话信息,然后把这些源会话信息(例如关键词“basketball(篮球)”、“themummy(木乃伊)”等)输入给语句自动生成系统,语句自动生成系统利用上下文语境信息(即历史会话信息)和“tom”提供的源会话信息(例如关键词“basketball(篮球)”、“themummy(木乃伊)”等),生成合适的自然语言表达形式的语句,即目标会话信息,并应用到两者的对话内容中,协助“tom”实现与“李”的正常交流。其中,上述第一用户“tom”是当前设备使用端用户,第二用户“李”是对方用户,即与当前设备使用端用户进行会话的用户。

在本实施例中,需要根据第一用户提供的源会话信息、源信息所属领域、目标信息所属领域以及第一用户与第二用户之间的历史会话信息,生成自然语言表达形式的语句。其中,具体的处理过程如下:

步骤一:识别语境信息并统一信息所属领域

信息所属领域包括源信息所属领域与目标信息所属领域,且信息所属领域包括语言种类信息、专业领域信息以及文化背景信息中的至少一项。

例如,当第一用户提供的源会话信息的语言种类与对话者(即第二用户)使用的语言种类不一致时,语句自动生成系统会根据第一用户输入的源会话信息检测源会话信息的语言种类,根据第一用户与第二用户之间的历史会话信息检测目标会话信息的语言种类,并确认源会话信息的语言种类与目标会话信息的语言种类,其中,在多语言种类场景下,语句自动生成系统也可以由用户自由设置源会话信息的语言种类与目标会话信息的语言种类。然后,语句自动生成系统载入相应的翻译模型,将所有的源会话信息语言种类的源会话信息翻译成为目标会话信息的语言种类的会话信息。

又例如,当第一用户提供的源会话信息的专业领域、文化背景等与第二用户的专业领域、文化背景不同时,语句自动生成系统会根据第一用户输入的源会话信息检测源会话信息的专业领域、文化背景等,根据第一用户与第二用户之间的历史会话信息检测目标会话信息的专业领域、文化背景等,并确认源会话信息的专业领域、文化背景,以及目标会话信息的专业领域、文化背景等,其中,在多专业领域、多文化背景的场景下,语句自动生成系统也可以由用户自由设置源会话信息的专业领域、文化背景,以及目标会话信息的专业领域、文化背景。然后,语句自动生成系统载入相应的翻译模型,例如专业领域翻译模块、文化翻译模型等,将所有的源会话信息专业领域、文化背景的源会话信息翻译成为目标会话信息的专业领域、文化背景的会话信息。

通过上面的描述可以看出,此时的语句自动生成系统首先基于第一用户输入的源会话信息确定源会话信息的语言种类、专业领域、文化背景等信息所属领域,并基于第一用户与第二用户之间的历史会话信息(如上下文信息)确定目标会话信息的语言种类、专业领域、文化背景等目标信息所属领域。然后把第一用户输入的源会话信息所属领域的源会话信息,翻译成目标信息所属领域的会话信息,接着,从目标信息所属领域的会话信息、以及第一用户和第二用户之间的历史会话信息中提取会话信息关键词,接着,利用线下预训练的语句自动生成模型中的词向量参数,将会话信息关键词进行向量化,得到相应的会话信息关键词的向量。

步骤二:生成语句

语句自动生成系统识别语境信息,并生成语句,该过程与上述实施一中的步骤一与步骤二大致相同,在此不再赘述。

其中,上述实施例的实现场景是在社交平台上,语句自动生成系统可以嵌入到输入法或者社交平台中,这样用户只需输入关键词等源会话信息,由社交平台提供用户交流的上下文语境信息等历史会话信息,更便捷的实现语句生成过程。语句自动生成系统可以在终端侧执行,也可以在服务器侧执行,考虑到系统的运算量可能较大,并且可能会占用较大的物理内存,一般会放在服务器侧执行。

实施例三:加载用户信息的语句自动生成系统

此实施例的应用场景与实施例一类似,但是语句自动生成系统中加载了更丰富的用户信息,例如用户日程安排信息、用户位置信息等。此时语句自动生成系统会综合考虑用户输入的源会话信息(例如提供的关键词)和系统采集到的与用户信息相关的其他属性关键词来生成更适合当时语境的语句,协助用户进行语言表述。

以图7的交流场景为例,图7的对话场景与实施例一一致,在此不再赘述。与实施例一不同的是,此时的语句自动生成系统不仅仅利用了第一用户“张”输入的源会话信息(例如提供的关键词),还自动通过终端设备或者网络设备收集了第一用户“张”的用户信息,例如用户的日程安排信息、用户所处地理位置等,然后根据第一用户“张”输入的源会话信息(例如提供的关键词)和系统自动采集的第一用户“张”的用户信息,来生成更适合第一用户“张”想要表述的语句内容。此时的语句自动生成系统的操作步骤如下:

步骤一:识别语境信息和用户信息

语境信息是终端设备或者社交软件中缓存的用户间相互交流信息,包括第一用户与第二用户之间的历史会话信息以及第一用户输入的源会话信息(例如关键词信息)。用户信息是用户所处环境的描述以及用户的一些个性化属性信息,用户的个性化属性信息包括但不限于:用户的日程安排、所处地理位置等信息。在本实施例的语句自动生成的过程中,需要提取语境信息的会话信息关键词,以及第一用户的用户信息的用户信息关键词,其中,会话信息关键词获取的方法包括但不限于以下两种:1)直接获取,若检测到以特定查询格式输入的文本内容,系统自动对文本进行分词和关键词提取的操作;2)从用户以往的历史会话信息中获取丰富语句生成的语境信息,并从语境信息中提取会话信息关键词。同时,需要从获取到的第一用户的用户信息中获取用户信息关键词。然后利用线下预训练的语句自动生成模型中的词向量参数,将上述会话信息关键词与用户信息关键词进行向量化,得到语境信息的会话信息关键词的向量和用户信息关键词的向量。

步骤二:系统生成语句

该步骤将步骤一中提供的语境信息的会话信息关键词的向量和用户信息关键词(包括第一用户的用户信息的用户信息关键词)的向量合并,然后输入到线下已经训练好的语句自动生成模型中,得到自然语言表达形式的语句,即为最终的目标会话信息,同时输出该目标会话信息,该目标会话信息可以直接通过文字形式显示给第二用户(“李”),也可以在第二用户(“李”)点击语音播放相关按钮时,将该目标会话信息播放给第二用户(“李”)。

需要说明的是,在实施例三的应用场景中,如果第二用户愿意分享自己的用户信息,例如用户属性信息、用户喜好信息、用户日程安排信息、用户位置信息等用户信息,来进行朋友之间的信息共享,则此时在步骤一的识别语境信息和用户信息过程中,不仅需要提取第一用户的用户信息的用户信息关键词,还可以提取第二用户的用户信息的用户信息关键词,也即在步骤一中提取源会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词、以及第一用户的用户信息和第二用户的用户信息的用户信息关键词;在步骤二中依然是将步骤一中提供的语境信息的会话信息关键词的向量和用户信息关键词(包括第一用户的用户信息的用户信息关键词和第二用户的用户信息的用户信息关键词)的向量合并,然后输入到线下已经训练好的语句自动生成模型中,得到自然语言表达形式的语句,即为最终的目标会话信息。另外,如果第二用户愿意分享自己的用户信息,例如用户属性信息、用户喜好信息、用户日程安排信息、用户位置信息等用户信息,来进行朋友之间的信息共享,而第一用户未分享自己的用户信息,即无法获取到第一用户的用户信息,则此时在步骤一的识别语境信息和用户信息过程中,可以提取第二用户的用户信息的用户信息关键词,也即在步骤一中提取源会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词、以及第二用户的用户信息的用户信息关键词;在步骤二中依然是将步骤一中提供的语境信息的会话信息关键词的向量和用户信息关键词(包括第二用户的用户信息的用户信息关键词)的向量合并,然后输入到线下已经训练好的语句自动生成模型中,得到自然语言表达形式的语句,即为最终的目标会话信息。

实施例四:多信息所属领域的加载用户信息的语句自动生成系统

此实施例的应用场景是实施例二与实施例三的结合,此时,第一用户(“张”)提供的源会话信息的信息所属领域与第二用户(“李”)的会话信息的所属领域不一致,且语句自动生成系统中加载了更丰富的用户信息,例如用户日程安排信息、用户位置信息等。此时的语句自动生成系统的操作步骤如下:

步骤一:识别语境信息和用户信息,并统一信息所属领域

语句自动生成系统首先基于第一用户输入的源会话信息确定源会话信息的语言种类、专业领域、文化背景等信息所属领域,并基于第一用户与第二用户之间的历史会话信息(如上下文信息)确定目标会话信息的语言种类、专业领域、文化背景等目标信息所属领域,进而把第一用户输入的源会话信息所属领域的源会话信息,翻译成目标信息所属领域的会话信息。然后,从目标信息所属领域的会话信息、以及第一用户和第二用户之间的历史会话信息中提取会话信息关键词,同时,需要从获取到的第一用户的用户信息中获取用户信息关键词。接着,利用线下预训练的语句自动生成模型中的词向量参数,将上述目标信息所属领域的会话信息、第一用户和第二用户之间的历史会话信息、以及从第一用户的用户信息中获取到的用户信息关键词进行向量化,依次生成相应的会话信息关键词向量和用户信息关键词向量。

步骤二:系统生成语句

该步骤将步骤一中提供的会话信息关键词的向量和用户信息关键词(包括第一用户的用户信息的用户信息关键词)的向量合并,然后输入到线下已经训练好的语句自动生成模型中,得到自然语言表达形式的语句即为最终的目标会话信息,同时输出该目标会话信息,该目标会话信息可以直接通过文字形式显示给第二用户,也可以在第二用户点击语音播放相关按钮时,将该目标会话信息播放给第二用户。

需要说明的是,在实施例四的应用场景中,如果第二用户愿意分享自己的用户信息,例如用户属性信息、用户喜好信息、用户日程安排信息、用户位置信息等用户信息,来进行朋友之间的信息共享,则此时在步骤一中,不仅需要从获取到的第一用户的用户信息中获取用户信息关键词,还可以获取第二用户的用户信息,进而获取第二用户的用户信息的用户信息关键词,也即在步骤一中,根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,提取目标信息所属领域的会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词、以及第一用户的用户信息和第二用户的用户信息的用户信息关键词;在步骤二中依然是将步骤一中提供的会话信息关键词的向量和用户信息关键词(包括第一用户的用户信息的用户信息关键词和第二用户的用户信息的用户信息关键词)的向量合并,然后输入到线下已经训练好的语句自动生成模型中,得到自然语言表达形式的语句,即为最终的目标会话信息。

另外,如果第二用户愿意分享自己的用户信息,例如用户属性信息、用户喜好信息、用户日程安排信息、用户位置信息等用户信息,来进行朋友之间的信息共享,而第一用户未分享自己的用户信息,即无法获取到第一用户的用户信息,则此时在步骤一中,可以获取第二用户的用户信息,进而获取第二用户的用户信息的用户信息关键词,也即在步骤一中,根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,提取目标信息所属领域的会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词、以及第二用户的用户信息的用户信息关键词;在步骤二中依然是将步骤一中提供的会话信息关键词的向量和用户信息关键词(包括第二用户的用户信息的用户信息关键词)的向量合并,然后输入到线下已经训练好的语句自动生成模型中,得到自然语言表达形式的语句,即为最终的目标会话信息。

实施例五:缩略词和/或不完整词的语句自动生成

此实施例的应用场景是,当用户处于比较繁忙的状态时,或者没有精力专注于与他人聊天时,往往只想进行简短的回复。但是,这样的回答会显得不太得体,此时语句自动生成系统可以根据用户输入的源会话信息(例如提供的关键词),生成完整的自然语言语句表述,协助用户进行合理的表述,以图8为例。

在图8中,第一用户“张”处于工作繁忙的状态,对于第二用户“李”的询问无暇组织语言回复。但是第一用户“张”的想法是去吃“必胜客”但是要稍等一下,于是“张”把想法中的内容提供给语句自动生成系统,语句自动生成系统根据当时的历史会话信息(例如对话上下文信息),生成完整的语句进行回复,即帮助“张”去回答。此时语句自动生成系统的操作步骤与前述实施例一相同,在此不再赘述。其中,本实施例中的第一用户“张”是当前设备使用端用户,第二用户“李”是对方用户,即与当前设备使用端用户进行会话的用户。

b、类比翻译系统

由于现有的语句自动生成技术没有考虑到用户是否能真正理解生成的自然语言语句中的术语或者专有名词,本发明实施在基于关键词的自然语言表达形式的语句自动生成系统的基础上,提出了类比翻译系统,将生成的自然语言语句中的专有名词和/或实体和/或事件等,通过类比的算法,生成用户可以理解的名词和/或实体和/或事件。类比翻译系统的应用场景为:当用户对某些事物的认识存在困惑时,类比翻译系统可以根据用户提供的问题和用户信息类比出当前用户所熟悉的事物的解释。

其中,类比翻译系统的整体运行流程如图9所示,包括:

步骤一:根据第一用户输入的源会话信息,即图9中的表达内容,其可以是一个提问句子,识别源会话信息中的关键实体和/或事件等源对象信息,即图9中的源端实体/事件检测,并将搜集到的实体和/或事件等源对象信息,按预定义好的类别标签通过分类模型进行分类,得到源对象信息的源类别信息。其中,识别方法是对第一用户输入的源会话信息进行句法、语义角色标注,提取其句法语义特征来识别描述的关键实体和/或事件等源对象信息。

步骤二:将每一个被划分的源类别信息和源对象信息,分别通过特征向量表示出来,即图9中的源端类别特征表示和源端实体/事件特征表示。

步骤三:搜集第一用户的用户信息,即图9中的用户日志,包括用户的个人简介等用户属性信息,用户最近使用过的设备等用户设备信息、用户的操作日志、社交日志等用户行为信息,还可以包括兴趣、爱好等用户喜好信息。接着,提取用户信息的特征并表示成向量形式,即图9中的特征提取,再接着,根据提取的用户信息的特征,预测出用户最熟悉的n个候选目标类别,此处的候选目标类别即图9中的目标端类别,并将候选目标类别信息也通过向量形式表示,即图9中的类别特征表示。其中,第一用户的用户信息是在用户提供权限后,在终端设备中搜集到的。

步骤四:通过计算源类别信息(即图9中的源端类别特征表示)与候选目标类别信息(即图9中的类别特征表示)的相似度,得到与源类别信息最相似的候选目标类别信息(即图9中的最相似目标端类别),并记作目标类别信息。换言之,通过源端类别(即源类别信息)与目标端类别(即候选目标类别信息)的特征向量,计算类别间的相似度,得到与每个源端类别最相似的目标端类别。其中,具体实施方法有两种方案:方案一、通过dnn(deepneuralnetworks,深度神经网络)模型来计算,将源端类别分别与每一个目标端类别当作dnn模型的输入,然后计算出代表两类别的相似度的一个概率值,计算完所有概率值后,对概率值进行排序,概率值最大的就是与源端类别最相似的目标端类别,即目标类别信息。方案二、通过相似度计算模型,计算源端类别与目标端类别的特征向量的距离度量,在特征向量所表示的空间中,两种类别之间的空间距离越小相似度越大,以此求出与源端类别特征空间中距离最小的目标端类别,即与源端类别最相似的目标端类别,也即目标类别信息。

步骤五:根据目标类别信息得到候选目标对象信息,首先列出目标端类别中的候选实体,即图9中的候选目标端实体/事件特征表示,然后根据源对象信息和候选目标对象信息的相似度,得到目标对象信息,也即通过计算源端实体和/或事件(即图9中的源端实体/事件特征表示)与目标端中候选实体和/或事件(即图9中的候选目标端实体/事件)的相似度,获得与源端实体和/或事件最相似的目标端实体,也即目标对象信息。其中,此处实体间相似度的计算方法,与步骤四的类别间相似度的计算方法相同。

步骤六:根据目标对象信息生成目标会话信息,具体地,利用预先定义好的句式模板,把源端实体(即源对象信息)替换为步骤五中计算出的最相似的目标端实体(即目标对象信息),进行目标端实体的解释,即图8中的实体/事件类比。

具体地,类比翻译系统的核心思想是根据第一用户的源会话信息,搜集源会话信息的关键实体和/或事件等源对象信息,并将搜集到的实体和/或事件等源对象信息,按预定义的类别标签通过分类模型进行分类,得到源类别信息。通过源类别信息与候选目标类别信息的特征向量计算类别间的相似度,计算出与源类别信息最相似的目标类别信息。然后,通过计算源对象信息与候选目标对象信息的相似度,获取与源对象信息最相似的目标对象信息,最后,利用预先定义好的句式模板,把源对象信息替换为计算出的目标对象信息,生成用户可以理解的实体和/或事件,起到对源会话信息中的源对象信息进行解释的作用,即根据目标对象信息生成目标会话信息。

进一步地,当一个用户与一个以上其它用户聊天时,例如第一用户d与一个以上第二用户(如用户a、用户b及用户c等)聊天,在此种应用场景下,类比翻译系统在步骤一中,根据第一用户输入的源会话信息和第一用户与一个以上第二用户之间的历史会话信息,识别源会话信息中的关键实体和/或事件等源对象信息,即得到源对象信息。与此同时,类比翻译系统的其它处理过程与上述的步骤二至步骤六相同,即对源对象信息进行分类得到源类别信息;再根据第一用户的用户信息,得到候选目标类别信息;接着,根据源类别信息与候选目标类别信息的相似度,得到目标类别信息;接着,根据目标类别信息得到候选目标对象信息;再接着,根据源对象信息和候选目标对象信息的相似度,得到目标对象信息;最后,根据目标对象信息,生成目标会话信息。

进一步地,当一个用户与一个以上其它用户聊天,且其中一个用户的会话信息的语言种类、专业领域、文化背景等信息所属领域,与其它用户的会话信息的所属领域不同时,例如第一用户d与一个以上第二用户(如用户a、用户b及用户c等)聊天,且第一用户d的源会话信息的语言种类、专业领域、文化背景等信息所属领域,与用户a或用户b或用户c等的会话信息的语言种类、专业领域、文化背景等信息所属领不相同,在此种应用场景下,类比翻译系统在步骤一中,先根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,再根据目标信息所属领域的会话信息和第一用户与一个以上第二用户之间的历史会话信息,得到源对象信息。与此同时,类比翻译系统的其它处理过程与上述的步骤二至步骤六相同,即对源对象信息进行分类得到源类别信息;再根据第一用户的用户信息,得到候选目标类别信息;接着,根据源类别信息与候选目标类别信息的相似度,得到目标类别信息;接着,根据目标类别信息得到候选目标对象信息;再接着,根据源对象信息和候选目标对象信息的相似度,得到目标对象信息;最后,根据目标对象信息,生成目标会话信息。

下面,通过如下几个实施例对类比翻译系统进行详细介绍:

实施例六:实体的类比翻译

在此实施例中,当用户想要了解自己不太熟悉领域的商品时,如果只是通过商品的属性、参数等信息进行解释,用户很难清楚地明白,因此本发明实施例六,通过将该商品的属性、参数等信息,类比到用户所熟悉的商品场景里进行解释,满足用户的需求,具体应用场景如图10、11所示。

在图10中,一个用户想要购买一台电视机,想了解下电视机的市场情况,通过用户信息采集了解到该用户是一位家庭主妇。如果只进行显示器分辨率、屏幕质量、音质参数等的描述,会导致不太熟悉电子设备的家庭主妇一头雾水,并不明白怎么评估一台电视机的好坏。类比翻译系统通过采集家庭主妇的用户信息,将电视机的品牌与性价比等信息类比到该家庭主妇熟悉的厨房类的产品上,使家庭主妇能够对各个品牌的电视机产品有一个更直观的认识,包括从价格、质量、特点等方面。其中,图10中的家庭主妇为第一用户,即当前设备使用端用户,另外,在图10中,斜体表示用户想了解的电视机的产品,粗体表示类比翻译系统推荐的类比解释。

图11同样是类比翻译系统解决一个类似的问题,当用户想要购买一台电视机时,通过用户信息采集了解到该用户是汽车爱好者,类比翻译系统将电视机产品类比到用户比较熟悉的汽车品牌中,使用户能够更清晰的认识到各个电视机产品的价格、质量、特点等。其中,图11中的汽车爱好者为第一用户,即当前设备使用端用户,另外,在图11中,斜体表示为用户想了解的电视机的产品,粗体表示类比翻译系统推荐的类比解释。

其中,在图10与图11所示的应用场景中,类比翻译系统根据第一用户(即图10中的家庭主妇、图11中的汽车爱好者)输入的源会话信息“我想买一台电视机,但是不知道买哪个品牌的”,一方面,可以从网络上搜集源端的关键实体,即能回答源会话信息的一些实体信息,比如源会话信息为买哪台电视机,关键实体可能包括三星电视、海信电视、小米电视等,实体信息不仅包括实体名称,还包括实体的一些价格、参数等特征信息,另一方面,可以从开放社区中用户的问答中搜集到关键实体,再一方面,可以从这些关键实体的官网上搜集到其价格、参数等信息;然后,将搜集到的实体按预定义好的类别标签通过分类模型进行分类,并用特征向量表示;接着,预测用户最熟悉的n个目标类别,并把目标类别的特征也通过向量形式表示;再接着,通过源端类别与目标端类别的特征向量计算类别间的相似度,计算出每个源端类别最相似的目标端类别;最后,列出目标端类别中的候选实体,并通过计算源端实体与目标端中候选实体的相似度,获得与源端实体最相似的目标端实体。

需要说明的,在图10与图11所示的实施例中,类比翻译系统的执行流程与如图9中类比翻译系统的整体运行流程相同,在此不再重复。

实施例七:事件的类比翻译系统

当用户面对不熟悉领域的聊天内容时,往往会感觉到困惑,此时可以通过类比翻译系统,将聊天内容类比到用户熟悉的领域,以对聊天内容进行解释,从而帮助用户更容易地了解聊天内容,如图12所示的场景。

在图12中,用户a、用户b与用户c在交流关于计算机设备gpu(graphicsprocessingunit,图形处理器)的事情,对于不了解该设备的用户d来说,很难理解他们的聊天内容。此时,类比翻译系统可以根据聊天内容以及用户d的用户信息,使用用户d熟悉的实体解释用户a、用户b与用户c之间的聊天内容,帮助用户d参与到相互的交流中。其中,上述用户d为第一用户,即当前设备使用端用户,用户a、用户b与用户c为第二用户,即对方用户,也即与当前设备使用端用户进行会话的用户。

在这种情况下,事件的类比翻译流程可概括为以下步骤:

步骤一:类比翻译系统通过聊天平台采集聊天内容,提取聊天内容的关键事件,并构造与聊天内容相关的源端事件描述。

步骤二:获取用户信息,包括个人简介(即用户属性信息),社交日志、操作日志等用户行为信息,以及用户所使用的设备的用户设备信息,并构造相应的目标端事件描述。

步骤三:通过计算源端事件描述与目标端事件描述的相似度,获得能体现聊天内容的用户熟悉的目标端事件。

步骤四:根据预先定义好的句式,利用目标端事件对源端事件进行解释,以帮助用户了解聊天内容。

实施例八:增强型的类比翻译系统

此实施例的应用场景综合考虑实体和事件,将源端实体和事件类比成用户熟悉的目标端实体和事件。增强型的类比翻译系统综合利用实体和事件的类比信息,对用户想要了解的实体和事件进行更全面的解释,如图13所示的应用场景。

在图13中,增强型的类比翻译系统不仅采集了聊天的逻辑内容,也采集了聊天内容中的实体内容,通过与用户熟悉领域中的事件逻辑和实体内容的结合进行类比,找到合理的类比组合对聊天内容进行解释。其中,实体内容指的是用户描述的实体(如英伟达、gpu等),逻辑内容指的是用户聊天内容中的逻辑思想(如xx推出了最新款的xx,分别是xxx和xxx的升级版等)。

其中,该实施例的执行流程类似于实施例七,不同的是:本实施例在步骤一和步骤二中加入了实体信息的采集,并且在步骤三中综合考虑实体内容的相似度和事件逻辑的相似度,从而选择出合适的实体事件组合对当前聊天内容进行类比解释。

c、跨语言跨领域的翻译系统

因为不同用户熟悉的语言种类、专业领域等千差万别,现有的生成自然语言的技术,在生成句子的时候没有真正考虑到用户与用户的擅长领域不同,所导致的交流障碍。本发明实施例提出的跨语言跨领域翻译系统,针对不同专业领域的表达形式,分别用一般领域到特殊领域和特殊领域到一般领域的转化模型,来帮助不同领域的用户进行交流。

本发明实施例的跨语言跨领域翻译系统,所采用的基本思想是:根据信息所属领域,将第一用户输入的源信息所属领域的源会话信息翻译为目标信息所属领域的目标会话信息。也即接收源端输入的源会话信息,并获取或检测其所属专业领域、所使用的语言种类等信息所属领域,然后载入对应的领域翻译模型对源会话信息进行翻译,并将翻译结果呈现给目标用户,即翻译为目标信息所属领域的目标会话信息。也可以描述为:跨语言跨领域翻译系统根据源端用户输入的多模态信息(即第一用户输入的源会话信息),自动检测其所属专业领域、语言种类等信息所属领域,并结合该专业领域的某些特殊表达形式,对输入的源会话信息做相应的翻译,以达到从某些专业领域的特殊表达形式到一般表达形式的翻译的目的;同时,也可以将源端用户输入的一般表达形式的信息作为源会话信息,通过指定目标所属领域,来将一般表达形式的源会话信息翻译为指定目标所属领域下的特殊表达形式的信息。换言之,跨语言跨领域翻译系统根据信息所属领域,基于相应的预先训练的翻译模型,按照先后顺序对源会话信息进行语言种类、专业领域的翻译处理,得到目标会话信息。跨语言跨领域翻译系统的完整流程如图14所示。

具体地,本发明实施例的跨语言跨领域翻译系统的核心思想是根据源端输入的多模态信息,检测其所属专业领域,并结合该专业领域的某些特殊表述形式,通过领域翻译模型对输入信息做相应的翻译。

其中,上述的多模态信息,包括但不限于以下至少之一:用户文本输入、用户语音输入、用户图像输入等。上述的信息所属领域包括但不限于如下至少之一:政治领域、军事领域、编程领域、游戏领域、物理领域、化学领域、数学领域、动漫领域、建筑领域、音乐领域等。

下面,通过如下几个实施例对跨语言跨领域翻译系统进行详细介绍:

实施例九:特殊专业领域表达形式到一般表达形式

如图15所示,第一用户在源端输入的源会话信息为特殊专业领域(例如游戏领域)的表达方式,而在输出端想要用一般的表达方式来表达,此时,跨语言跨领域翻译系统的处理方式如下:

步骤一:接收第一用户在源端输入的源会话信息,并检测源会话信息的信息所属领域,例如专业领域、语言种类等,其中,第一用户在源端输入的源会话信息即为下述的源端输入信息,第一用户即为下述的源端用户。

具体地,第一用户在源端输入源会话信息的方式有多种,包括但不限于:文字、语音、图片。第一用户点击文本框时,可直接输入文字信息;点击左上角的照相按钮时,可从终端设备的相册中选择相应图片,也可直接利用终端设备进行拍摄,跨语言跨领域翻译系统会通过光学字符识别技术获取图片中的文字信息,并显示在文本框中;点击右上角语音按钮时,可从终端设备的录音中选择相应的语音片段,也可直接利用终端设备进行语音输入,跨语言跨领域翻译系统会通过语音识别技术,将语音输入翻译成相应的文字信息,并显示在文本框中。

进一步地,跨语言跨领域翻译系统首先会通过文本领域分类器,对不同的输入文本进行分类,找出输入文本最可能属于的特殊专业领域,并实时显示反馈给源端用户,图15中“所属领域”选项即为输入文本信息可能属于的特殊专业领域。同时,提供源端用户手动选择输入信息所属专业领域的功能,以纠正跨语言跨领域翻译系统出现的少量领域判别错误,也即当源端用户认为跨语言跨领域翻译系统判断不准确时,可点击“所属领域”旁边的“重新选择”按钮,此时会弹出领域列表,源端用户根据自己的主观判断,对输入文本的专业领域进行重新选择。同时,跨语言跨领域翻译系统也可以检测出源端输入信息的语言种类,并通过实时显示反馈给源端用户。与领域信息类似,语言种类也可以由源端用户重新选择。

进一步地,文本领域分类器即为预先经过训练的分类器模型,分类器模型包括但不限于:逻辑回归模型、支持向量机(svm)模型、神经网络模型等。文本领域分类器的生成过程如下:把文本转化成的向量当作输入,把文本所属专业领域当作输出,通过不断修正输出错误,调整分类器参数,得到不同语言种类的文本领域分类器的离线模型。

其中,在图15中,源端用户输入为“晚上开黑吗?带你吃鸡!”此输入可以是源端用户扫描图片上的文字得到的源端输入信息,也可以是用户利用语音输入得到的源端输入信息,或者是通过其他可能的的输入方式得到的源端输入信息;跨语言跨领域翻译系统首先会检测到源端输入信息的语言种类为“中文”,然后通过“中文”的文本领域分类器,检测到源端输入信息的所属专业领域为“游戏领域”,并将检测到的语言种类、专业领域等信息所属领域实时显示在终端设备上,如图15中的“源语言”与“所属领域”。

步骤二:根据信息所属领域,对源端输入信息做翻译

跨语言跨领域翻译系统根据源端输入信息的所属专业领域信息、语言种类等信息所属领域,载入对应的领域翻译模型对源端输入信息进行翻译。

具体地,领域翻译模型即为经过训练的串到串(sequencetosequence)翻译模型,构建领域翻译模型的方法为:将相对应句子或短语以词或字为单位当作输入、输出,由于特殊专业领域的句子大部分是由普通的词或字组成,为了保留其专业领域信息,需要同时将领域标签作为输入或输出标签,以词向量形式一同进行训练。通过不断校正输出错误,调整模型参数,直至最后收敛。当以特殊专业领域的表述方法作为训练模型的输入,以一般领域的信息表述方法作为训练模型的输出时,领域翻译模型为“特殊->一般”的领域翻译模型;当以一般领域的信息表述方法作为训练模型的输入,以特殊专业领域的信息表述方法作为训练模型的输出时,领域翻译模型是“一般->特殊”的领域翻译模型。

进一步地,在给定通过上述方法训练得到的领域翻译模型后,在特殊专业领域下具有特殊表达形式的输入信息,例如图15中的“晚上开黑吗?带你吃鸡!”,将被翻译成为一般领域表达形式的、与源端输入信息的语言种类相同的文本信息,例如图15中的“晚上一起打游戏么?带你赢”,也即根据源端特殊专业领域的输入信息“晚上开黑吗?带你吃鸡!”,载入“中文”的“游戏领域表达方式->一般领域表达方式”的领域翻译模型,把源端输入信息“晚上开黑吗?带你吃鸡!”翻译为“晚上一起打游戏么?带你赢!”。

进一步地,在语言种类方面,跨语言跨领域翻译系统将载入对应的基础语言翻译模型,把一般表达形式的、与源端输入信息的语言种类相同的文本信息,例如“晚上一起打游戏么?带你赢!”,进一步翻译成为目标语言种类的目标会话信息。在图15中,当“目标语言”选择为“英文”时,跨语言跨领域翻译系统将会载入“中->英”的基础语言翻译模型,把“晚上一起打游戏么?带你赢”翻译成为“doyouplaygamestogetheratnight?takeyoutowin!”。

其中,“源语言”的语言种类与“目标语言”的语言种类可以相同,也可以不同,语言种类包括且不限于以下举例:如中文、英文、韩文、日文等。

进一步地,基础语言翻译模型也是一种串到串(sequencetosequence)的翻译模型,构建基础语言翻译模型的方法为:将一种语言种类作为训练模型的输入,用其它语言种类翻译这种语言种类的结果作为训练模型的输出,通过不断调整模型参数,达到不同语言种类之间相互翻译的目的。

需要说明的是,上述各种语言包括但不限于:中文、英文、韩文、日文等;上述各种领域包括但不限于:政治领域、军事领域、编程领域、游戏领域、物理领域、化学领域、数学领域、动漫领域、建筑领域、音乐领域等。另外,在多领域方面,由于“目标领域”默认选择为“无”,跨语言跨领域翻译系统将略过此选项,故最终的翻译结果是“doyouplaygamestogetheratnight?takeyoutowin!”。

步骤三:结果呈现

最后,跨语言跨领域翻译系统通过终端设备将最终的翻译结果以文字的形式呈现给目标用户,如图15所示,即终端设备最终呈现的翻译结果是“doyouplaygamestogetheratnight?takeyoutowin!”。

进一步地,当“自动朗读”按钮被激活时,终端设备还可以将文字转化成语音播放给用户。

进一步地,根据上述步骤一至步骤三的描述可以看出,跨语言跨领域翻译系统的处理,可以概括为:根据信息所属领域,基于相应的预先训练的翻译模型,按照先后顺序对源会话信息进行专业领域和语言种类的翻译处理,得到目标会话信息。

需要说明的是,在实施例九中,源端用户(即第一用户)是当前设备使用端用户,目标用户(即第二用户)是对方用户,即与当前设备使用端用户进行会话的用户。

实施例十:一般表达形式到特殊专业领域表达形式

如图16所示,第一用户在源端输入的源会话信息为一般表达形式,即没有特殊的专业领域,而在输出端想要用特殊专业领域来表达,此时,跨语言跨领域翻译系统的处理方式如下:

步骤一:接收第一用户在源端输入的源会话信息,并检测源会话信息的信息所属领域,例如专业领域、语言种类等,其中,第一用户在源端输入的源会话信息即为下述的源端输入信息,第一用户即为下述的源端用户。

具体地,源端输入信息的方式和信息检测的方式与上述实施例九中的方式相同,在此不再赘述。在图16中,源端输入信息为“let’splaygamestogetheratnight!”,此源端输入信息可以是源端用户扫描图片上的文字得到的信息,也可以是源端用户利用语音输入得到的信息,或者是通过其他可行的输入方式得到的信息。跨语言跨领域翻译系统首先会检测到源端输入信息的语言种类为“英文”,然后载入“英文”的文本领域分类器,并检测到源端输入信息的表达方法没有特殊专业领域背景,故,此时的“所属领域”为“无”。同样的,以上检测到的信息也会实时显示在终端设备上,与上述实施例九类似。

其中,文本领域分类器的构建方法同实施例九中步骤一的描述。

步骤二:根据信息所属领域,对源端输入信息进行翻译

在图16中,由于源端输入信息的“所属领域”选项为“无”,故跨语言跨领域翻译系统在此选项上,不对源端输入信息做任何处理,即此时的翻译结果与源端输入信息相同,仍为“let’splaygamestogetheratnight!”。

具体地,在语言种类方面,由于源端输入信息的语言种类为“英文”,目标端的语言种类为“中文”,即“目标语言”选择为“中文”,此时,跨语言跨领域翻译系统将载入“英->中”基础语言翻译模型,把目前的翻译结果“let’splaygamestogetheratnight!”翻译成为中文“我们晚上一起打游戏吧!”,即在这一步中,把“let’splaygamestogetheratnight!”进一步翻译成为“我们晚上一起打游戏吧!”。

其中,“源语言”的语言种类与“目标语言”的语言种类可以相同,也可以不同,语言种类包括且不限于以下举例:如中文、英文、韩文、日文等。

另外,基础语言翻译模型的构建方法同上述实施例九中步骤二的描述。

进一步地,在多领域方面,当“目标领域”选择为“游戏领域”时,跨语言跨领域翻译系统将选择“中文”的“一般表达方式->游戏领域表达方式”的领域翻译模型,并在中文翻译结果“我们晚上一起打游戏吧!”的基础上,对该翻译结果再次进行相应的专业领域翻译,即将翻译结果“我们晚上一起打游戏吧!”翻译成“游戏领域”下的中文表达形式“晚上开黑走起!”,也即在这一步中,把“我们晚上一起打游戏吧!”进一步翻译为游戏专业领域的表达方式“晚上开黑走起!”。

其中,领域翻译模型的构建方法同上述实施例九中步骤二的描述。

步骤三:结果呈现

最后,跨语言跨领域翻译系统通过终端设备将最终的翻译结果以文字的形式呈现给目标用户,如图16所示,即终端设备最终呈现的翻译结果是“晚上开黑走起!”。

进一步地,当“自动朗读”按钮被激活时,终端设备还可以将文字转化成语音播放给用户。

需要说明的是,在实施例十中,源端用户(即第一用户)是当前设备使用端用户,目标用户(即第二用户)是对方用户,即与当前设备使用端用户进行会话的用户。

d、跨语言跨文化背景翻译系统

现有的自然语言生成技术,没有考虑不同用户所处的文化背景的差异,本发明实施提供的提出跨语言跨文化背景翻译系统,可以帮助目标用户理解具有文化背景的句子。

本发明实施例的跨语言跨文化背景翻译系统,所采用的基本思想是:根据信息所属领域,将第一用户输入的源信息所属领域的源会话信息翻译为目标信息所属领域的目标会话信息。也即接收源端输入的源会话信息,并获取或检测其所属文化背景、所使用的语言种类等信息所属领域,然后载入对应的文化背景翻译模型对源会话信息进行翻译,并将翻译结果呈现给目标用户,即翻译为目标信息所属领域的目标会话信息。其中,跨语言跨文化背景翻译系统的核心思想是:自动检测源会话信息所属文化背景,并结合该文化背景下的某些特殊表达形式,对源会话信息做相应的翻译,以达到将某些文化背景的特殊表达形式翻译为一般表达形式的目的。

具体地,跨语言跨文化背景翻译系统是根据源端用户输入的多模态信息(即第一用户输入的源会话信息),自动检测其所属文化背景、语言种类等信息所属领域,并结合该文化背景的某些特殊表达形式,对输入的源会话信息做相应的翻译,以达到从某些文化背景领域的特殊表达形式到一般表达形式的翻译的目的。换言之,跨语言跨文化背景翻译系统根据信息所属领域,基于相应的预先训练的翻译模型,按照先后顺序对源会话信息进行语言种类、文化背景的翻译处理,得到目标会话信息。

其中,上述的多模态信息,包括且不限于下述至少之一:用户文本输入、语音输入、图像输入等。上述的文化背景领域包括但不限于下述至少之一:中国本土各地文化、韩国本土各地文化、美国本土各地文化、日本本土各地文化等。

另外,跨语言跨文化背景翻译系统的完整流程如图17所示。图中的文化翻译系统是一个离线预训练的文化翻译模型,当该文化翻译模型训练完成后,可以在线上直接使用。其中,图17的上半部分表示线上流程,下半部分表示文化翻译系统的离线训练的过程。

下面,通过如下几个实施例对跨语言跨文化背景翻译系统进行详细介绍:

实施例十一:特殊文化背景领域表达形式到一般表达形式

如图18所示,第一用户在源端输入的源会话信息为特殊文化背景(例如美国俚语)的表达方式,而在输出端想要用一般的表达方式来表达,此时,跨语言跨文化背景领域翻译系统的处理方式如下:

步骤一:接收第一用户在源端输入的源会话信息,并检测源会话信息的信息所属领域,例如文化背景、语言种类等,其中,第一用户在源端输入的源会话信息即为下述的源端输入信息,第一用户即为下述的源端用户。

源端输入信息的方式有多种,包括但不限于:文字、语音、图片。当源端用户点击文本框时,可直接输入文字信息;当源端用户点击左上角照相按钮时,可从终端设备的相册中选择相应图片,也可直接利用终端设备进行拍摄,跨语言跨文化背景翻译系统会通过光学字符识别技术获取图片中的文字信息,并显示在文本框中;当源端用户点击右上角语音按钮时,可从终端设备的录音中选择相应的语音片段,也可直接利用终端设备进行语音输入,跨语言跨文化背景翻译系统会通过语音识别技术,将语音输入翻译成相应的文字信息,并显示在文本框中。

跨语言跨文化背景翻译系统检测源端输入信息,并加载相应语言种类的文化背景分类器,对源端输入信息进行文化背景分类,并通过实时显示反馈给源端用户,图18中的“文化背景”选项即为源端输入信息可能带有的文化背景。同时提供源端用户手动选择输入信息文化背景的功能,以纠正跨语言跨文化背景翻译系统出现的少量文化背景判别错误。即,若源端用户认为跨语言跨文化背景翻译系统判断不准确,可点击“文化背景”旁边的“重新选择”按钮,此时会弹出文化背景列表,源端用户根据自己的主观判断,对输入文本的文化背景进行重新选择。跨语言跨文化背景翻译系统同时也可以检测出源端输入信息的语言种类,并通过实时显示反馈给源端用户。与文化背景信息类似,语言种类也可以由源端用户重新选择。

文化背景分类器即为经过预先训练的文化背景分类器模型,文化背景分类器模型包括但不限于:逻辑回归模型、支持向量机(svm)模型、神经网络模型等。文化背景分类器的生成过程如下:把文本信息转化成的向量当作输入,把文本所属领域当作输出,通过不断修正输出错误,调整分类器参数,得到不同语言的文化背景分类器的离线模型。

在图18中,源端用户输入“inelectronicindustry,samsungcanbeconsideredthe800poundgorilla.”时,跨语言跨文化背景翻译系统首先检测源端输入信息的语言种类是英文,然后加载“英文”的文化背景分类器,并检测出此种表达方式的文化背景是美国俚语文化,故将“源语言”置为“英文”,将“文化背景”置为“美国俚语”。此时,源端用户也可手动选择“源语言”与“文化背景”的种类。这里需要注意的是,“源语言”选项与“文化背景”选项具有一定的相关性,即当“文化背景”是“美国俚语”时,源语言不可能出现类似“中文”、“韩文”等与“美国俚语”毫无关系的选项。

步骤二:根据信息所属领域,对源端输入信息进行翻译

跨语言跨文化背景翻译系统根据文化背景信息,载入对应的文化翻译模型,对源端输入信息进行翻译。

其中,文化翻译模型即为经过训练的串到串(sequencetosequence)翻译模型,构建文化翻译模型的方法为:将相对应句子或短语以词或字为单位当作输入、输出,由于特殊文化背景表达形式的句子大部分是由普通的词或字组成,为了保留其领域信息,需要同时将文化背景标签作为输入或输出标签,以词向量形式一同进行训练。通过不断校正输出错误,调整模型参数,直至最后收敛。其中,当以特殊文化背景表达形式的信息为训练模型的输入、以一般表达形式的信息作为训练模型输出时,文化翻译模型为“特殊文化背景->一般”的文化翻译模型;当以一般表达形式的信息作为训练模型输入、以特殊文化背景表达形式的信息作为训练模型输出时,文化翻译模型是“一般->特殊文化背景”的文化翻译模型。

具体地,在给定通过上述方法训练得到的文化翻译模型后,具有特殊文化背景的表达形式的输入信息,例如图18中的“inelectronicindustry,samsungcanbeconsideredthe800poundgorilla.”将被翻译为一般表达形式的、与源端输入信息的语言种类相同的文本信息,例如图18中的“inelectronicindustry,samsunghasquitepowerfulstrength.”,也即翻译系统首先载入“美国俚语-一般”的文化翻译系统,把源端用户的输入“inelectronicindustry,samsungcanbeconsideredthe800poundgorilla.”翻译成为“inelectronicindustry,samsunghasquitepowerfulstrength.”。

进一步地,在图18中,在语言种类方面,跨语言跨文化背景翻译系统将载入对应的基础语言翻译模型,把上述翻译结果“inelectronicindustry,samsunghasquitepowerfulstrength.”,进一步翻译成为目标语言种类。由于“目标语言”选择为“中文”,跨语言跨文化背景翻译系统将加载“英->中”的基础语言翻译模型,把“inelectronicindustry,samsunghasquitepowerfulstrength.”翻译成为“在电子行业,三星拥有非常强大的实力。”,即目标会话信息。

其中,基础语言翻译模型也是一种串到串(sequencetosequence)的翻译模型,构建基础语言翻译模型的方法为:将一种语言种类的信息作为训练模型的输入,使用其它语言种类翻译该种语言种类的信息的结果,作为训练模型的输出,通过不断调整模型参数,达到不同语言种类之间相互翻译的目的。另外,上述各种语言包括但不限于:中文、英文、韩文、日文等。

步骤三:结果呈现

最后,跨语言跨文化背景翻译系统通过终端设备将最终的翻译结果以文字的形式呈现给目标用户,如图18所示,即终端设备最终呈现的翻译结果是“在电子行业,三星拥有非常强大的实力。”。

进一步地,当“自动朗读”按钮被激活时,终端设备还可以将文字转化成语音播放给用户。

需要说明的是,在实施例十一中,源端用户(即第一用户)是当前设备使用端用户,目标用户(即第二用户)是对方用户,即与当前设备使用端用户进行会话的用户。

实施例十二:特殊文化背景领域表达形式到一般表达形式(图片加方字输出)

当跨语言跨文化背景翻译系统检测到翻译结果(即目标会话信息)可以用图片来更加直观的显示时,跨语言跨文化背景翻译系统不仅会在目标端输出文字翻译结果这一目标会话信息,还会输出能生动表述该目标会话信息的图片,以使用户能够更加直观地理解输出的目标会话信息。此时,跨语言跨文化背景翻译系统操作步骤如下:

步骤一:接收第一用户在源端输入的源会话信息,并检测源会话信息的信息所属领域,例如文化背景、语言种类等,此步骤与实施例十一中的步骤一相同,在此不再赘述。

步骤二:根据信息所属领域,对源端输入信息进行翻译

跨语言跨文化背景翻译系统根据源端输入信息的文化背景信息,载入对应的文化翻译模型对源端输入信息进行翻译,首先将源端输入的具有特殊文化背景的特殊表达形式的输入信息,翻译为一般表达形式的、与源端输入信息的语言种类相同的文本信息,然后载入对应的基础语言翻译模型,把上述翻译结果进一步翻译成为目标语言种类的会话信息。

其中,文化翻译模型的构建方法与实施例十一中的步骤二的描述相同,在此不再赘述。

在图19中,跨语言跨文化背景翻译系统,首先载入“美国俚语-一般”的文化翻译系统,把用户的输入“hi,zhang,givemefive!”翻译成为“hi,zhang,clapyourhands!”。接着,由于“目标语言”为“中文”,而“源语言”为“英文”,跨语言跨文化背景翻译模型将会加载“英->中”基础语言翻译模型,把翻译结果“hi,zhang,clapyourhands!”进一步翻译成“嗨,张同学,来击个掌!”。

其中,基础语言翻译模型的构建方法同实施例十一中的步骤二的描述,在此不再赘述。

步骤三:结果呈现

最后,跨语言跨文化背景翻译系统通过终端设备将最终的翻译结果以文字的形式呈现给用户,如图19所示,即终端设备最终呈现的翻译结果是“嗨,张同学,来击个掌!”这一目标会话信息。

进一步地,当“自动朗读”按钮被激活时,终端设备还可以将文字转化成语音播放给用户。

进一步地,当目标会话信息可以通过图片来直观表现的时候,跨语言跨文化背景翻译系统将会根据目标会话信息,查询图片数据库,通过计算目标会话信息与候选图片的语义相似度的方法,找出最能确切表达目标会话信息的含义的图片,并在终端设备上补充显示。其中,候选图片的语义(即图片描述信息)可以是显示在图片上的,也可以是根据图片生成的。

需要说明的,前述的基于关键词的自然语言表达形式的语句自动生成系统、类比翻译系统以及跨语言跨领域翻译系统等,同样可以根据目标会话信息,查询图片数据库,通过计算目标会话信息与候选图片的语义相似度的方法,找出最能确切表达目标会话信息的含义的图片,并在终端设备上补充显示。

另外,上述的基于关键词的自然语言表达形式的语句自动生成系统、类比翻译系统、跨语言跨领域翻译系统以及跨语言跨文化背景翻译系统等,也可以根据源会话信息,查询图片数据库,通过计算源会话信息与候选图片的语义相似度的方法,找出最能确切表达源会话信息的含义的图片,并在终端设备上补充显示。

同样地,上述的基于关键词的自然语言表达形式的语句自动生成系统、类比翻译系统、跨语言跨领域翻译系统以及跨语言跨文化背景翻译系统等,也可以根据源会话信息和目标会话信息,查询图片数据库,通过计算源会话信息和目标会话信息分别与候选图片的语义相似度的方法,找出最能确切表达源会话信息和目标会话信息的含义的图片,并在终端设备上补充显示。

其中,图片数据库,包括但不限于例:用户终端设备中图片库,用户网络云存储图片库,网络搜索引擎上可搜到的图片库等。

e、图片推荐系统

为使用户能够更好的通过多模态信息进行交流,本发明实施例提供了图片推荐系统,图片推荐系统的完整流程图如图20所示。

图片推荐系统基于第一用户输入的图片选择信息(例如图21中的“发送”按钮旁边的笑脸,即“图片”按钮,用户点击该按钮,表示选择激活图片推荐系统),以及第一用户与第二用户之间的历史会话信息,预测第一用户想要表达的会话内容和/或会话情绪等会话推测信息,并根据会话推测信息与候选图片的语义相似度,从候选图片中获取目标图片,并将目标图片作为目标会话信息,也即根据第一用户输入的文字信息、图片信息以及以往的历史会话信息等,预测第一用户的情绪,从而推荐合适的表情或者图片。其中,候选图片的语义(即图片描述信息)可以是显示在图片上的,也可以是根据图片生成的,第一用户(即源端用户)是当前设备使用端用户,第二用户是对方用户,即与当前设备使用端用户进行会话的用户。

另外,为了推荐更恰当的表情或者图片,图片推荐系统还可以获取第一用户的用户信息,例如用户的年龄、性别、喜好、职业等,并进一步地结合获取到的第一用户的用户信息,预测第一用户想要表达的会话内容和/或会话情绪等会话推测信息,也即图片推荐系统基于第一用户输入的图片选择信息、第一用户与第二用户之间的历史会话信息、以及第一用户的用户信息,预测第一用户想要表达的会话内容和/或会话情绪等会话推测信息,并根据会话推测信息与候选图片的语义相似度,进而从候选图片中获取目标图片,并将目标图片作为目标会话信息。其中,候选图片的语义(即图片描述)可以是显示在图片上的,也可以是根据图片生成的。

具体地,图片推荐系统在实现过程中,通过调用预先训练的对话理解模型,根据第一用户输入的源会话信息与历史会话信息,或者根据第一用户输入的源会话信息、历史会话信息以及第一用户的用户信息,推断第二用户可能想表达的内容以及情感倾向,调用图片数据库,载入图片推荐模型为第一用户推荐图片。

其中,下述的源用户即为上述的第一用户,目标用户即为上述的第二用户。上述的图片推荐系统可根据源会话信息、历史会话信息、源用户的用户信息等去理解对话含义,无需目标用户输入关键词等信息,即可从图片数据库中推断出目标用户可能所需要表达其情绪的图片,将图片推送给目标用户,以减少当目标用户的图片库比较庞大时,目标用户查找图片的时间。由于图片推荐系统依赖用户信息,故需要用户开放图片推荐系统获取用户部分信息的权限。

其中,图片数据库包括但不限于:用户终端设备中图片库,用户网络云存储图片库,网络搜索引擎上可搜到的图片库等。

下面,通过如下实施例对图片推荐系统进行详细介绍:

实施例十三:图片推荐系统

如图21所示,展示了图片推荐系统在用户终端设备上的部分操作过程,其中,输入“啊亲爱的,给你讲个笑话~…”这一源会话信息的用户为源用户,另一用户为目标用户。图片推荐系统的操作步骤如下:

步骤一:理解用户对话,推断目标用户想要发送的信息

当目标用户需要发送图片来表达自己的情绪时,会点击“发送”按钮旁边的笑脸,即“图片”按钮,也即图片选择信息,此时将会激活图片推荐系统。图片推荐系统首先调用对话理解模型,根据用户对话信息及用户信息,充分理解用户对话,并推断出源用户可能想要表达的内容以及情感倾向,其中,用户对话信息包括源用户输入的源会话信息、及源用户与目标用户之间的历史会话信息,用户信息是指源用户的用户信息。

其中,对话理解模型是一种经过预先训练的串到串(sequencetosequence)模型,构建对话理解模型的方法为:将对话以词或字为单位当作输入、输出,通过不断校正输出错误(词或字在输入、输出端均是以向量形式表示,输出错误即为计算网络输出向量与原有结果向量之间的误差),调整模型参数(网络中节点间的权重、误差调整速率等),直至最后收敛(收敛是数学上的一个定义,指的是模型参数达到局部最优)。假设a(i)是源用户a的第i句对话,b(i)是目标用户b的第i句对话,并假设源用户a先开始说话,那么第1次参数更新的输入输出分别是a(1)、b(1),第2次参数更新的输入输出分别是b(1)、a(2),以此类推,第i*2-1次参数更新的输入输出分别是a(i)、b(i),第i*2次参数更新的输入输出分别是b(i)、a(i+1),直至对话结束,开始迭代更新下一个对话参数。并重复迭代所有对话训练集直到参数收敛(网络中所有参数达到局部最优)。其中,该对话理解模型是在现有模型基础上,加入了用户情绪等特征的新模型。

在图21中,图片推荐系统通过预训练的对话理解系统,推断源用户可能会表达出“开心”、“大笑”等方面的会话内容和/或会话情绪。

步骤二:推荐图片

当图片推荐系统推断出源用户的会话情绪后,将会调用图片数据库,并载入图片推荐模型,向源用户推荐与源用户的会话情绪相匹配的图片。

具体地,图片数据库中存储的是已经被转化成为含有文字描述后的图片,此转化基于图片翻译模型。图片翻译模型是一个经过训练的编码-解码(encoder-decoder)模型,构建图片翻译模型的方法为:把图片像素矩阵当作输入,把图片描述当作输出,通过不断校正输出错误,调整模型参数,直至最后收敛,以达到图片转文字的目的。

进一步地,图片推荐模型的输入为文字描述,通过载入词嵌入(word2vec)模型,把文字描述转化成为向量,并与数据库中图片的文字描述做相似度计算,并以用户使用图片频率作为权重参考,对图片做相似度排序并标记相似度最大的前k个图片作为输出。

其中,上述源输入信息的语言种类包括但不限于:中文、英文、韩文、日文等。

另外,在图20中,图片推荐系统调用图片推荐模型,将“开心”、“大笑”等的情绪内容作为输入,由于用户预先设置的推荐数量为4,故图片推荐模型将挑取相似度最高的四张表示“开心”、“大笑”的图片作为推荐图片的结果,也即作为目标会话信息。

步骤三:结果呈现

最后,图片推荐系统通过终端设备将最终的推荐图片结果排列并呈现给目标用户,如图21所示,即终端设备最终呈现出四张表示“开心”、“大笑”的图片。当用户点击某一幅图片的时候,相应的图片就会被当作用户的回答发送出去。

进一步地,当用户认为图片推荐系统的推荐不准确时,也可以点击右下角“查找”按钮,手动查找自己想要的图片。

根据上述实施例一至实施十三的描述可以看出,本发明实施提供的处理会话信息的方法,在生成目标会话信息时,不仅依靠第一用户输入的源会话信息,而且还要充分考虑获取到的辅助信息,使得第二用户能够理解生成的自然语言句子,增强语言生成的实用性,架起不方便正常交流的人与人之间沟通的桥梁,将不可读的话语转换成通俗易懂的自然语言,从而打破用户在沟通交流过程中的理解障碍。

另外,上述的类比翻译系统,可以将用户难以理解的关键实体或事件等,转换成用户能够理解的理解,增强了用户对生成内容的理解;上述的跨语言跨领域翻译系统,可以满足用户对于不熟悉的专业领域的特殊表达的理解;上述的跨语言跨文化背景翻译系统,可以帮助用户理解具有不同文化背景的特殊表达;上述的图片推荐系统,便于用户更好的使用多模态信息进行交流。

本发明实施例根据另一方面还提供了一种处理会话信息的装置,包括:信息获取模块201与会话生成模块211;其中:信息获取模块201,用于获取辅助信息与第一用户输入的源会话信息;会话生成模块211,用于基于辅助信息与源会话信息,生成目标会话信息并输出目标会话信息。

具体地,辅助信息包括历史会话信息、第一用户的用户信息、第二用户的用户信息、信息所属领域中的至少一项,其中,信息所属领域包括源信息所属领域和目标信息所属领域。

进一步地,用户信息包括以下至少一项:

用户属性信息;

用户喜好信息;

用户日程安排信息;

用户位置信息;

用户行为信息;

用户设备信息。

进一步地,信息所属领域包括如下至少一项:

语言种类信息;

专业领域信息;

文化背景信息。

进一步地,源信息所属领域为对源会话信息进行检测得到或者可设置,目标信息所属领域为通过对历史会话信息进行检测得到或者可设置。

进一步地,源会话信息包括如下中的至少一种:缩略语、不完整词、自然语言语句、图片选择信息。

进一步地,会话生成模块211具体用于以下至少一种:

提取源会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词,根据会话信息关键词生成目标会话信息;

提取源会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词、以及第一用户和/或第二用户的用户信息的用户信息关键词,根据会话信息关键词和用户信息关键词生成目标会话信息;

根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,提取目标信息所属领域的会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词,根据会话信息关键词生成目标会话信息;

根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,提取目标信息所属领域的会话信息和第一用户与第二用户之间的历史会话信息的会话信息关键词、以及第一用户和/或第二用户的用户信息的用户信息关键词,根据会话信息关键词和用户信息关键词生成目标会话信息。

进一步地,会话生成模块211具体用于根据会话信息关键词,基于预先训练的语句生成模型,生成目标会话信息;

根据会话信息关键词和用户信息关键词,生成目标会话信息包括:根据会话信息关键词和用户信息关键词,基于预先训练的语句生成模型,生成目标会话信息。

进一步地,会话生成模块211具体用于以下至少一种:

根据源会话信息,得到源对象信息,对源对象信息进行分类得到源类别信息;根据第一用户的用户信息,得到候选目标类别信息;根据源类别信息与候选目标类别信息的相似度,得到目标类别信息;根据目标类别信息得到候选目标对象信息;根据源对象信息和候选目标对象信息的相似度,得到目标对象信息;根据目标对象信息,生成目标会话信息;

根据源会话信息和第一用户与一个以上第二用户之间的历史会话信息,得到源对象信息;对源对象信息进行分类得到源类别信息;根据第一用户的用户信息,得到候选目标类别信息;根据源类别信息与候选目标类别信息的相似度,得到目标类别信息;根据目标类别信息得到候选目标对象信息;根据源对象信息和候选目标对象信息的相似度,得到目标对象信息;根据目标对象信息,生成目标会话信息;

根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的会话信息,根据目标信息所属领域的会话信息和第一用户与一个以上第二用户之间的历史会话信息,得到源对象信息;对源对象信息进行分类得到源类别信息;根据第一用户的用户信息,得到候选目标类别信息;根据源类别信息与候选目标类别信息的相似度,得到目标类别信息;根据目标类别信息得到候选目标对象信息;根据源对象信息和候选目标对象信息的相似度,得到目标对象信息;根据目标对象信息,生成目标会话信息;

对象包括实体和/或事件。

进一步地,会话生成模块211具体用于根据信息所属领域,将源信息所属领域的源会话信息翻译为目标信息所属领域的目标会话信息。

进一步地,会话生成模块211具体用于根据信息所属领域,基于相应的预先训练的翻译模型,按照先后顺序对源会话信息进行语言种类、专业领域和文化背景中的至少一种的翻译处理,得到目标会话信息。

进一步地,该装置还包括:图片获取模块212(图中未示出),图片获取模块212用于根据源会话信息和/或目标会话信息与候选图片的语义相似度,获取与源会话信息和/或目标会话信息对应的目标图片并输出所述目标图片。

进一步地,会话生成模块211具体用于以下至少一种:

根据第一用户输入的图片选择信息以及第一用户与第二用户之间的历史会话信息,获取会话推测信息;根据会话推测信息与候选图片的语义相似度,从候选图片中获取目标图片,将目标图片作为目标会话信息;

根据第一用户输入的图片选择信息、第一用户与第二用户之间的历史会话信息、以及第一用户的用户信息,获取会话推测信息;根据会话推测信息与候选图片的语义相似度,从候选图片中获取目标图片,将目标图片作为目标会话信息。

进一步地,会话生成模块211具体用于根据第一用户输入的图片选择信息以及第一用户与第二用户之间的历史会话信息,基于预训练的对话理解模型,获取会话推测信息;

根据第一用户输入的图片选择信息、第一用户与第二用户之间的历史会话信息、以及第一用户的用户信息,基于预训练的对话理解模型,获取会话推测信息。

进一步地,会话推测信息包括:第二用户想要表达的会话内容和/或第一用户想要表达的会话情绪。

本发明实施例根据另一个方面还提供了一种终端设备,包括:处理器;以及存储器,配置用于存储机器可读指令,指令在由处理器执行时,使得处理器执行好述的配置随机接入信息方法。

图23示意性示出了根据本公开实施例的可用于实现本公开的基站或用户设备的计算系统的框图。

如图23所示,计算系统2300包括处理器2310、计算机可读存储介质2320、输出接口2330、以及输入接口2340。该计算系统2300可以执行上面参考图1描述的方法。

具体地,处理器2310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器2310还可以包括用于缓存用途的板载存储器。处理器2310可以是用于执行参考图1描述的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质2320,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。

计算机可读存储介质2320可以包括计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器2310执行时使得处理器2310执行例如上面结合图1所描述的方法流程及其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块,例如包括模块1、模块2、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器2310执行时,使得处理器2310可以执行例如上面结合图1所描述的方法流程及其任何变形。

根据本公开的实施例,处理器2310可以使用输出接口2330和输入接口2340来执行上面结合图1所描述的方法流程及其任何变形。

本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随即存储器)、eprom(erasableprogrammableread-onlymemory,可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1