确定电子通信回复中包括的非文本回复内容的方法和装置与流程

文档序号:11594077阅读:161来源:国知局



背景技术:

用户经常被诸如电子邮件、sms通信和社交网络通信的电子通信淹没。发送给用户的许多电子通信明确地请求用户用非文本回复内容回复或以其它方式包含用户可能希望用非文本回复内容回复的信息。例如,包含“你可以给我发送昨天的会议上你的幻灯片的副本吗?”的电子邮件可以明确地请求包括非文本回复内容(即,作为幻灯片的电子文档)的回复。包含“家庭改造进展如何?”的电子邮件可能未明确地征求具有非文本回复内容的回复,但是接收电子邮件的用户可能仍希望包括在电子邮件的回复中非文本回复内容(例如,示出家庭改造的当前状态)。为了在回复中包括非文本回复内容,用户必须认识到非文本回复内容适合于回复,通过用户的计算设备手动浏览非文本回复内容,并且选择非文本回复内容,以将内容包括在回复中。



技术实现要素:

本说明书的一些实现方式一般涉及用于关于确定对电子通信的回复的非文本回复内容并且提供非文本回复内容以包括在回复中,例如,自动地在回复中提供其或建议将其包含在回复中,的方法和装置。这些实现中的一些涉及基于发送给用户的电子通信来确定响应于电子通信的一个或多个电子文档,并且提供这些电子文档中的一个或多个以包括在用户对电子通信的回复中。例如,电子文档可以被自动附加到回复和/或在回复中自动提供的到电子文档的链接。此外,例如,可以呈现电子文档的一个或多个用户界面指示(例如,图形、听觉),并且当产生回复的用户经由用户界面输入选择指示之一时,相应的电子文档可以附加到回复和/或回复中自动提供的到文档的链接。在一些实现中,可以在用户已经为回复提供任何文本内容之前和/或在用户已经为回复提供任何其它内容之前提供电子文档以包括在回复中。在一些实现中,可响应于用户选择“附件”文档界面元素或响应于指示希望在回复中包括附件的其它用户界面输入来提供电子文档。

被选择用于提供给用户以包括在对电子通信的回复中的电子文档可以从诸如与用户相关联的一个或多个基于云的语料库、用户正在用来生成回复的计算设备的本地存储设备、计算设备和/或用户可访问的本地网络存储设备等各种语料库的一个或多个中识别。在一些实现中,电子文档可以是通过发出对文档的一个或多个语料库的搜索来定位,其中搜索包括从电子通信导出的一个或多个搜索参数。作为一个示例,其中消息包括“你能给我发送你上周在芝加哥旅行的照片吗?”,可以使用从消息的n-gram(例如,“照片”)导出的“图像”搜索参数来发出搜索,使用从消息的n-gram(例如,“上周”)导出的日期搜索参数,和/或使用从消息的n-gram(例如,“芝加哥”)导出的位置搜索参数来识别满足搜索条件的照片。在一些实现中,可以基于从电子通信导出的一个或多个特征来限制被搜索以识别要提供用于包括在回复中的文档的语料库。例如,在前面的示例中,基于消息的n-gram(例如,“照片”),搜索的语料库可以被限制到仅包括图像和可选地包括其它媒体的单个语料库。

在一些实现中,,可以基于训练的机器学习系统响应于向训练的机器学习系统提供电子通信的一个或多个消息特征而提供的输出来确定提供非文本回复内容以包括在对电子通信的回复中。例如,训练的机器学习系统可以提供非文本回复内容(例如,文档类型)的一个或多个特征,其可以用作在发出以识别非文本回复内容的搜索中的搜索参数,和/或可以用于限制被发出以识别非文本回复内容的搜索的一个或多个语料库。

在一些实现中,可以基于训练的机器学习系统响应于向训练的机器学习系统提供电子通信的一个或多个消息特征而提供的输出来确定是否提供和/或如何提供非文本回复内容以包括在对电子通信的回复中。例如,训练的机器学习系统可以提供对电子通信的回复将包括非文本回复内容的可能性,并且该可能性可以在确定是否和/或如何向用户提供非文本回复内容以包括在对电子通信的回复中使用。

一些实现一般涉及分析电子通信的语料库以确定电子通信的“原始”消息的一个或多个原始消息特征与那些电子通信的“回复”消息中包括的非文本回复内容之间的关系。例如,可以分析语料库以确定原始消息的消息特征之间的关系,以及对具有那些消息特征的原始消息回复包括文档和/或到文档的链接的可能性。此外,例如,可以分析语料库以确定原始消息的消息特征与被包括或链接到具有那些消息特征的原始消息的回复中的文档的文档类型(例如,图像、视频、媒体、pdf、幻灯片)之间的关系。

作为一个示例,可以分析语料库以确定包括n-gram“发送给我”的原始消息可能在那些原始消息的回复中包括文档和/或到文档的链接。作为另一示例,可以分析语料库以确定包括n-gram“呈现”的原始消息通常包括在对那些原始消息的回复中具有“.ppt”、“.cvs”或“.pdf”文件扩展名。

从分析过去的电子通信的语料库中学习的这些关系可以用于例如确定用于上述讨论的发出的搜索的一个或多个搜索参数,限制上述发出的搜索的语料库,和/或确定是否和/或如何提供电子文档以包括在对消息的回复中(例如,回复将包括电子文档的低可能性可能导致没有文档被提供,或文档以不太显眼的方式被“建议”)。

在一些实现中,确定电子通信的“原始”消息的一个或多个原始消息特征与这些电子通信的“回复”消息中包括的非文本回复内容之间的关系可以经由基于电子通信语料库生成适当的训练示例并且基于这些训练示例训练机器学习系统来完成。机器学习系统可以被训练为接收“原始消息”的一个或多个消息特征作为输入,并且提供与非文本回复内容相关的至少一个特征作为输出,例如以上所描述的特征之一。

例如,在一些实现中,可以生成训练示例,每个训练示例具有指示包括在相应电子通信的回复消息中的文档的类型的输出参数和基于对应电子通信的回复消息的一个或多个输入参数。例如,第一训练示例可以包括文档类型“图像”作为输出参数,以及包括回复消息中的图像的第一电子通信原始消息的文本的全部或部分(以及可选地与文本相关联的注释)作为输入参数。第二训练示例可以包括文档类型“图像”作为输出参数,以及包括回复消息中的图像的第二电子通信的原始消息的文本的全部或部分(以及可选地与文本相关联的注释)作为输入参数。可以类似地生成另外的训练示例,包括具有基于对应电子通信的回复消息的文档的其它类型的输出参数,以及基于相应电子通信的原始消息的输入参数的另外的示例。可以基于训练示例来训练机器学习系统。

在一些实现中,可以提供一种由至少一个计算设备执行的方法,并且该方法包括识别发送给用户的电子通信,确定电子通信的消息特征,以及发出对电子文档的一个或多个语料库的搜索,其中使用基于电子通信的消息特征的搜索参数用于该搜索。该方法还包括响应于发出搜索,接收响应于搜索的一个或多个语料库中的电子文档的一个或多个的子组的指示。该方法还包括基于接收到指示,选择子组的电子文档的至少一个所选择的电子文档,并且提供至少一个所选择的电子文档的至少一部分以包括在回复电子通信中,回复电子通信是由用户对电子通信的回复。

本文公开的技术和技术的其它实现可以各自可选地包括以下特征中的一个或多个。

在一些实现中,发出搜索独立于在生成回复电子通信时经由用户的计算设备提供的任何文本输入而发生。在这些实现中的一些中,提供至少一个所选择的电子文档的至少一部分以包括在回复电子通信中独立于在生成回复电子通信时经由计算设备提供的任何文本输入而发生。

在一些实现中,一个或多个语料库的至少一个不是公共可访问的,而是用户可访问的。在这些实现中的一些中,一个或多个语料库的至少一个仅由用户和由用户授权的一个或多个另外的用户或系统可访问。

在一些实现中,发出对一个或多个语料库的搜索包括发出对一个或多个语料库中的电子文档进行索引的一个或多个索引的搜索。

在一些实现中,子组包括多个电子文档,并且该方法还包括响应于发出搜索,接收对响应于搜索的一个或多个语料库中的电子文档的子组的搜索排名。选择子组的电子文档的至少一个所选择的电子文档可以进一步基于电子文档的子组的搜索排名。在这些实现中的一些中,至少一个所选择电子文档包括第一文档和第二文档,并且提供至少一个所选择电子文档的至少一部分以包括在回复电子通信中包括:基于搜索结果排名确定用于提供第一文档和第二文档的突出性,并且伴随着突出性的指示提供第一文档和第二文档,以包括在对电子通信的回复中。

在一些实现中,该方法还包括确定电子通信的额外消息特征,以及基于电子通信的额外消息特征来限制搜索的一个或多个语料库。

在一些实现中,提供至少一个所选择的电子文档的至少一部分以包括在回复电子通信中包括将至少一个所选择的电子文档的至少一部分附加到回复,而不需要通过用户经由用户发起的用户界面输入进行确认。

在一些实现中,提供至少一个所选择的电子文档的至少一部分以包括在回复电子通信中包括:提供至少一个所选择的电子文档的至少一部分的图形指示;经由用户界面输入设备接收对图形指示的选择;以及响应于接收到选择,将至少一个所选择的电子文档附加到回复。

在一些实现中,提供至少一个所选择的电子文档的至少一部分以包括在回复电子通信中包括,在回复中提供链接,其中该链接映射到至少一个所选择的电子文档的至少一部分。

在一些实现中,至少一个所选择的电子文档包括第一文档和第二文档,并且提供至少一个所选择的电子文档的至少一部分以包括在回复电子通信中包括:提供第一文档的第一图形指示和第二文档的第二图形指示;经由用户界面输入设备接收对第一图形指示和第二图形指示之一的选择;以及响应于接收到选择,将第一文档和第二文档中的相应一个附加到回复。

在一些实现中,该方法还包括:确定电子通信的额外消息特征;提供至少额外消息特征作为训练的机器学习系统的输入;接收至少一个文档特征作为训练的机器学习系统的输出;以及使用基于至少一个文档特征的额外搜索参数用于该搜索。在这些实现中的一些中,至少一个文档特征包括指示一个或多个文件扩展名的封闭类的文档类型特征。

在一些实现中,该方法还包括:确定电子通信的额外消息特征;提供至少额外消息特征作为训练的机器学习系统的输入;接收至少一个文档特征作为训练的机器学习系统的输出。在这些实现中的一些中,选择至少一个所选择的电子文档还基于至少一个文档特征。

在一些实现中,该方法还包括:确定电子通信的额外消息特征;提供至少额外消息特征作为训练的机器学习系统的输入;接收至少一个文档特征作为训练的机器学习系统的输出;以及基于至少一个文档特征来限制搜索的一个或多个语料库。

在一些实现中,消息特征是来自电子通信的一个或多个特征的嵌入向量。

在一些实现中,消息特征基于电子通信的主体中的n-gram,并且其中基于n-gram来确定消息特征是基于在电子通信的主体中n-gram与请求动词n-gram的邻近度。

在一些实现中,该方法还包括利用至少一个对应的语法注释标记电子通信的多个n-gram中的每一个。在这些实现中的一些中,确定消息特征包括基于n-gram的相应语法注释选择n-gram的n-gram,并且基于n-gram确定消息特征。

其它实现可以包括存储可由处理器执行以执行诸如上述一个或多个方法的方法的指令的非暂时性计算机可读存储介质。又一实现可以包括含存储器和一个或多个处理器的系统,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行诸如上述方法中的一个或多个的方法。

应当理解,本文更详细描述的前述概念和另外的概念的所有组合被认为是本文所公开的主题的一部分。例如,出现在本公开内容结尾处的所要求保护的主题的所有组合被认为是本文所公开的主题的一部分。

附图说明

图1示出了可以基于电子通信的一个或多个消息特征来确定包括在对电子通信的回复中的非文本回复内容的示例环境。

图2示出了如何可以基于电子通信的一个或多个消息特征来确定非文本回复内容以包括在对电子通信的回复中的示例。

图3是示出基于电子通信的一个或多个消息特征来确定非文本回复内容以包括在对电子通信的回复中的示例方法的流程图。

图4a-4e示出了用于提供非文本回复内容以包括在对电子通信的回复中的示例图形用户界面。

图5示出了示例环境,其中可以分析电子通信以生成用于训练机器学习系统来确定一个或多个非文本回复内容特征的训练示例,并且其中机器学习系统可以基于训练示例被训练。

图6示出了如何可以基于电子通信生成训练示例并且用于训练机器学习系统以确定一个或多个非文本回复内容特征的示例。

图7是示出生成训练示例并使用训练示例来训练机器学习系统以确定一个或多个非文本回复内容特征的示例方法的流程图。

图8示出了计算设备的示例架构。

具体实施方式

图1示出了可以基于电子通信的一个或多个消息特征来确定包括在对电子通信的回复中的非文本回复内容的示例环境。示例环境包括促使环境中的各种组件之间的通信的通信网络101。在一些实现中,通信网络101可以包括因特网、一个或多个内联网和/或一个或多个总线子系统。通信网络101可以可选地使用一个或多个标准通信技术、协议和/或进程间通信技术。示例环境还包括客户端设备106、电子通信系统110、非文本回复内容系统120、至少一个训练的机器学习系统135、电子文档语料库154a-n和至少一个电子通信数据库152。

电子通信系统110、非文本回复内容系统120和训练的机器学习系统135可以各自在例如通过网络(例如,网络101和/或其它网络)通信的一个或多个计算设备中实现。电子通信系统110、非文本回复内容系统120和训练的机器学习系统135是其中可以实现本文所描述的系统、组件和技术和/或本文所描述的系统、组件和技术的示例系统可以对接的示例系统。电子通信系统110、非文本回复内容系统120和训练的机器学习系统135各自包括用于存储数据和软件应用的一个或多个存储器、用于访问数据和执行应用的一个或多个处理器以及促使造通过网络通信的其它组件。在一些实现中,电子通信系统110、非文本回复内容系统120和训练的机器学习系统135可以包括图8的示例计算设备的一个或多个组件。由电子通信系统110、非文本回复内容系统120和训练的机器学习系统135执行的操作可以分布在多个计算机系统上。在一些实现中,电子通信系统110、非文本回复内容系统120和/或训练的机器学习系统135的一个或多个方面可以组合在单个系统中和/或一个或多个方面可以在客户端设备106上实现。

一般来说,在一些实现中,非文本回复内容系统120确定并提供非文本回复内容以包括在对电子通信的回复中,例如由客户端设备106提供的电子通信和/或用户尚未回复的电子通信数据库152的电子通信。非文本回复内容系统120可以基于电子通信的一个或多个消息特征来确定非文本回复内容。在一些实现中,独立于用户在生成对通信的回复中提供的任何文本输入和/由用户在产生对通信的回复中提供的其它内容,非文本回复内容系统120可以提供所确定的非文本回复内容用于包括在对通信的回复中。

在一些实现中,由非文本回复内容系统120确定和提供的非文本回复内容包括响应于电子通信的一个或多个电子文档的全部或部分,诸如一个或多个电子图像、视频、文字处理文档、电子表格、幻灯片、包括用户的旅行计划的结构化数据、其它电子通信等。为电子通信确定和提供的电子文档是与电子通信本身分离和除了电子通信本身之外的文档,并且是与电子通信的回复分离和除了电子通信的回复之外的文档。电子文档可以从一个或多个存储介质上提供的一个或多个电子文档语料库154a-n中选择。在一些实现中,从其选择电子文档用于包括在用户的回复中的一个或多个电子文档语料库154a-n可以包括,或限于,不可公开访问但是可由用户访问的一个或多个语料库。例如,电子文档语料库154a-n中的一个或多个可以仅由用户和由用户授权的一个或多个系统和/或其它用户访问。例如,电子文档语料库154a-n中的一个或多个可以是用户可访问的一个或多个基于云的语料库、被用于生成回复的用户的计算设备(例如,客户端设备106)的本地存储设备、对于计算设备和/或用户可访问的本地网络存储设备等。如本文所描述的,在一些实现中,非文本回复内容系统120可以选择电子文档,用于包括在响应于发出对电子文档库154a-n中的一个或多个的搜索而接收的一组电子文档的回复中,其中搜索包括从回复响应于的电子通信导出的一个或多个搜索参数。

电子通信数据库152包括一个或多个存储介质,其包括多个用户的电子通信的全部或部分。在一些实现中,电子通信数据库152由电子通信系统110维护。例如,电子通信系统110可以包括一个或多个电子邮件系统,并且电子通信数据库152可以包括多个电子邮件,这些电子邮件经由电子邮件系统被发送和/或接收。作为另一示例,电子通信系统110可以包括一个或多个社交网络系统,并且电子通信数据库152可以包括经由社交网络系统发送和/或接收的多个消息、帖子或其它通信。

如本文所使用的,“电子通信”或“通信”可以指电子邮件、文本消息(例如,sms、mms)、即时消息、转录的语音邮件或从第一用户发送到一个或多个另外的用户的受限组的任何其它电子通信。在各种实现中,电子通信可以包括各种元数据,并且元数据可以在本文描述的一种或多种技术中可选地使用。例如,诸如电子邮件的电子通信可以包括电子通信地址,诸如一个或多个发送者标识符(例如,发送者电子邮件地址)、一个或多个接收者标识符(例如,接收者电子邮件地址,包括抄送和暗送的收件人)、发送日期、一个或多个附件、主题、发送和/或接收电子通信的设备的类型等。

如本文所使用的,根据上下文,将使用“电子通信”和“通信”来指代仅包括原始消息的电子通信和包括一个或多个原始消息的电子通信,并且包括一个或多个回复消息。电子通信可以是单个文档,诸如包括原始消息和回复消息的电子邮件,并且可以被处理以区分原始消息和回复消息。处理电子通信以区分原始消息和回复消息可以包括基于元数据的存在、消息中断、包括在消息中的报头信息、在原始消息周围提供的引文等来“分割”消息。电子通信也可以是基于多个文档中的至少一个响应于多个文档中的其它文档而被映射到彼此的多个文档。例如,电子通信可以包括作为由用户接收的原始消息的第一电子邮件和由用户发送作为对原始消息、或原始和回复sms消息的回复的第二电子邮件。多个文档到彼此的映射可以例如由电子通信系统110执行。例如,电子通信系统110可以基于当查看第一电子邮件时用户选择“回复”用户界面元素并且然后响应于选择回复用户界面元素而起草第二电子邮件,将第一电子邮件映射到第二电子邮件。

如本文所使用的,原始消息在时间上早于响应回复消息,但不一定是电子通信中的第一消息。例如,原始消息可以是电子通信中的时间上的第一个消息,并且响应于该原始消息的回复消息可以是时间上较晚(例如,下一个时间)的消息。此外,例如,原始消息可以另外地和/或可选地是电子通信中的时间上的第二、第三或第四个消息,并且响应于该原始消息的回复消息可以是电子通信中时间上较晚的消息。原始消息和回复消息中的每一个可以包括相关联的文本、元数据和/或其它内容(例如,附加的文档、到文档的链接)中的一个或多个。

在各种实现中,非文本回复内容系统120可以包括消息特征引擎122、搜索参数引擎124、搜索引擎126和/或呈现引擎128。在一些实现中,引擎122、124、126和/或128的一个或多个方面可以被省略。在一些实现中,可以组合引擎122、124、126和/或128的全部或方面。在一些实现中,引擎122、124、126和/或128的全部或方面可以在与非文本回复内容系统120分离的组件,诸如客户端设备106和/或电子通信系统110,中实现。

下面参考用户的电子通信,例如由客户端设备106提供的电子通信和/或用户尚未回复的电子通信数据库152的电子通信,来提供对引擎122、124、126和128的描述。尽管为了清楚起见在示例中引用单个电子通信,但是应当理解,非文本回复内容系统120可以确定用于用户和/或另外的用户的另外的电子通信的回复内容。

消息特征引擎122基于发送到用户的电子通信(即,由于该内容被发送给用户,所以至少部分地基于电子通信的内容)来确定一个或多个原始消息特征。可以使用各种原始消息特征。例如,消息特征引擎122可以将电子通信中的一个或多个n-gram确定为消息特征。例如,可以基于电子通信中的n-gram的词频率(即,电子通信中n-gram发生的频率)和/或在文档集合中n-gram的逆向文档频率(即,n-gram出现在文档集合,例如电子通信的集合,中的频率)来确定一个或多个n-gram。此外,例如,可以基于n-gram到一个或多个其它n-gram——诸如请求动词n-gram(例如,“发送”、“提供”、“附加”)——的位置接近度,来确定一个或多个n-gram。作为又一实例,可以基于n-gram的话语的一部分(例如,“名词”)或者基于被包括在潜在相关n-gram的列表中和/或不被包括在不相关n-gram的列表中的n-gram(例如,诸如“an”、“a”和“the”的终止词)来确定一个或多个n-gram。

此外,例如,消息特征引擎122可以确定电子通信中的两个或更多个n-gram作为消息特征的同现(co-occurrence),诸如以特定顺序的同现(例如,第一n-gram在第二n-gram之前),以某个位置关系(例如,在彼此的n个词或字符内)等。此外,例如,消息特征引擎122可以基于一个或多个自然语言处理标签或应用于电子通信的文本的其它标签(例如,话语的部分,命名的实体,实体类型,音调);基于在主题、第一句、最后句或电子通信的其它部分中特定出现的文本的特征;基于电子通信的元数据的特征,例如发送电子通信的时间、发送电子通信的星期几、接收者的数量、发送电子通信的设备的类型等,确定一个或多个消息特征。

此外,例如,消息特征引擎122可以确定来自整个电子通信的一个或多个特征或电子通信的子集(例如,一个或多个段落、一个或多个句子、一个或多个词)的嵌入向量。嵌入向量的特征可以包括应用于一个或多个n-gram、语法特征、语义特征、元数据特征和/或其它特征的一个或多个n-gram标记。

作为一个具体示例,假设电子通信包括具有文本“电子表格”的主题和具有文本“请向我发送昨天的销售电子表格。谢谢。”的主体。消息特征引擎122可以确定包括n-gram“发送”、“昨天”、“销售”和“电子表格”的消息特征,同时排除诸如“请”和“谢谢”的其它n-gram。例如,消息特征引擎122可以基于它是请求动词n-gram而将“发送”确定为消息特征,可以基于它是时间指示符和/或基于它是它在“发送”的紧密位置附近而将“昨天”确定为消息特征,可以基于它是文本中的名词和/或基于它在“发送”的紧密位置附近而将“销售”确定为n-gram,并且可以基于它是名词,基于它在“发送”的紧密位置附近,和/或基于它在潜在相关术语的列表中而将“电子表格”确定为n-gram。

消息特征引擎122向搜索参数引擎124并且可选地向训练的机器学习系统135提供确定的消息特征。消息特征引擎122可以向搜索参数引擎124和训练的机器学习系统135提供相同的消息特征,或所提供的消息特征可能不同。搜索参数引擎124基于由消息特征引擎122提供的消息特征中的一个或多个生成一个或多个搜索参数。

作为基于由消息特征引擎122提供的消息特征中的一个或多个生成搜索参数的一个示例,假设消息特征引擎122提供包括n-gram“发送”、“昨天”、“销售”和“电子表格”的一组消息特征。搜索参数引擎124可以基于“昨天”生成日期搜索参数。例如,日期搜索参数可以指定文档的创建日期和/或最近的修改,并且可以是“昨天”,或者可以是基于“昨天”指定的一个或多个具体的日期。搜索参数引擎124还可以生成“销售”和“电子表格”的额外搜索参数。“销售”搜索参数可以是一般文本参数。“电子表格”搜索参数可以是在搜索中偏好这些类型的文档的一般文本参数和/或文档类型搜索参数,将搜索限制为一种或多种类型的文档(例如,具有“.pdf”、“.xls”、“.ods”、“.csv”和/或“.tsv”文件扩展名的那些),和/或将搜索限制为包括(并且可选地限于)这些文档类型的文档。

作为基于由消息特征引擎122提供的消息特征中的一个或多个生成搜索参数的另一示例,假设消息特征引擎122提供来自整个电子通信或电子通信的子集的一个或多个特征的嵌入向量。搜索参数引擎124可以基于嵌入向量的解码版本来生成搜索参数。

搜索参数引擎124还可以可选地基于由至少一个训练的机器学习系统135提供给搜索参数引擎124的输出来生成一个或多个搜索参数。例如,如本文所述(参见例如图5-图7),训练的机器学习系统135可以被训练为接收一个或多个消息特征作为输入,并且提供非文本回复内容的一个或多个特征作为输出,例如一个或多个文档类型的非文本回复内容。搜索参数引擎124可以利用输出的特征中的一个或多个来生成搜索参数。例如,在训练的机器学习系统135基于用于电子通信的消息特征的输入提供非文本回复内容的文档类型的输出的情况下,文档类型可以用作搜索参数,其偏好那些类型的文档,将搜索限制到那些类型的文档,和/或将搜索限制为包括(并且可选地限于)那些类型的文档的一个或多个语料库。

在一些实现中,搜索参数引擎124可以基于由至少一个训练的机器学习系统135向搜索参数引擎124提供的输出来确定是否生成用于电子通信的搜索参数。例如,如本文所述(参见例如图5-图7),至少一个训练的机器学习系统135可以被训练为接收一个或多个消息特征作为输入,并且提供对将包括非文本回复内容的电子通信的回复的可能性作为输出。搜索参数引擎124可以在确定是否生成搜索参数时利用该可能性。例如,搜索参数引擎124可以仅在可能性满足阈值时生成搜索参数。

搜索引擎126基于由搜索参数引擎124确定的搜索参数搜索电子文档语料库154a-n中的一个或多个。在一些实现中,搜索电子文档语料库154a-n中的一个或多个可以包括搜索对一个或多个文档语料库中的电子文档进行索引的一个或多个索引。搜索引擎126可以基于搜索参数发出一个或多个搜索,每个搜索参数以一种或多种方式组合搜索参数。例如,搜索引擎126可以发出一个或多个搜索以识别满足一个或多个(例如,所有)搜索参数的组中的每一个的文档(例如,利用“and”将多个搜索参数组合的搜索)。此外,例如,搜索引擎126可以发出一个或多个搜索以识别仅满足一些搜索参数的文档(例如,利用“or”将多个搜索参数组合的搜索)。在一些实现中,搜索引擎126可以响应于搜索来识别文档的一部分。例如,搜索引擎126可以识别多段文档的一个或多个段落,幻灯片组的一个或多个幻灯片,具有多个句子的文档的一个或多个句子等。

在一些实现中,搜索引擎126可以响应于基于从电子通信导出的一个或多个搜索参数的搜索来识别多个文档。在这些实现中的一些中,可以基于各种准则,诸如例如,基于查询的分数(例如,基于文档与查询的匹配程度)和/或基于文档的分数,来对多个文档进行排名。文档的基于查询的分数基于查询和文档之间的关系,例如文档与查询的匹配程度。例如,包括查询的每个单词的第一文档可以具有比仅包括查询的一些单词的第二文档“更高”的基于查询的分数。此外,例如,在标题和/或其它显着位置中包括查询的所有单词的第一文档可以具有比仅在第二文档的主体的最后部分中包括查询的单词的第二文档具有“更高”的基于查询的分数。文档的基于文档的分数基于独立于查询的文档的一个或多个属性。例如,文档的基于文档的分数可以基于用户的文档的流行度(例如,用户的访问频率),基于用户和/或其它用户最后访问文档的日期,基于创建文档的日期等。

搜索引擎126向呈现引擎128提供响应于搜索的电子文档中的一个或多个的指示(例如,文档标识符),并且可选地提供电子文档的排名。呈现引擎128选择一个或多个电子文档,并提供所选择的电子文档以包括在作为用户对电子通信的回复的回复电子通信中。

提供用于包括在回复中的电子文档可以包括例如提供实际文档(例如,嵌入或以其它方式附加文档),提供到文档的链接,提供与文档相关联的文档的用户界面指示等。例如,呈现引擎128可以自动将所选择的电子文档附加到回复和/或自动地在回复中将链接附加到电子文档。此外,例如,呈现引擎128可以呈现电子文档的一个或多个用户界面指示(例如,图形、听觉),并且当用户生成回复时选择指示中的一个,相应的电子文档可以附加到回复和/或到回复中的自动提供的文档的链接。在一些实现中,响应于用户选择“附件”文档界面元素或者响应于指示希望在回复中包括附件的其它用户界面输入,可以提供电子文档以包括在回复中。以这种方式,获得下面的技术效果和益处。对回复消息自动选择和添加非文本回复内容,诸如文档或链接,节省了用户手动浏览和选择非文本回复内容,则简化了用户界面,并且节省了建立包括非文本回复内容所需的用户交互步骤和对应输入的数量。

在一些实现中,呈现引擎128在生成对电子通信的回复时选择电子文档和/或提供独立于经由用户的计算设备提供的任何文本输入和/或其它内容的电子文档。在这样的实现中的一些中,呈现引擎128在用户甚至已经观看或以其它方式消费通信之前选择电子文档。例如,非文本回复内容系统120可以在用户观看之前处理通信,呈现引擎128可以选择一个或多个电子文档以包括在对通信的回复中,并且追加或以其它方式在用户甚至观看之前将所选择的电子文档与电子通信相关联。因此,如果用户查看或以其他方式消费电子通信,则对该电子通信的回复,包括已经附加的文档、链接、或根据上述的相应的选择选项,能够被迅速提供而没有延迟。

在一些实现中,呈现引擎128基于由搜索引擎126提供的可选排名来选择和/或提供用于包括在回复中的电子文档。例如,在一些实现中,呈现引擎128可以仅当其相关联的排名满足阀值(例如,如果它是x个最高的电子文档中的一个)时选择电子文档。此外,例如,所选择的电子文档设有的突出性和/或如何提供所选择的电子文档可以基于所选择的电子文档的排名。

在一些实现中,呈现引擎128可以选择并提供多个电子文档以包括在回复中。在这些实现中的一些中,可以基于电子文档的可选排名来提供多个电子文档。例如,可以基于排名和被提供用于潜在地包括在对电子通信的回复中的多个文档,以及对呈现突出性的指示,来确定多个电子文档中的每一个的呈现突出性。

在客户端设备106向非文本回复内容系统120提供电子通信的一些实现中,呈现引擎128可以将所选择的电子文档提供给客户端设备106,以呈现给用户作为选项包括在回复中。在电子通信系统110经由电子通信数据库152向非文本回复内容系统120提供电子通信的一些实现中,呈现引擎128可以在电子通信数据库152和/或其它数据库中存储所选电子文档与电子通信的关联性。在一些实现中,呈现引擎128的一个或多个(例如,所有)方面可以由客户端设备106和/或电子通信系统110实现。

呈现引擎128还可以提供关于所选择的电子文档的显示突出信息,其指示应该呈现所选择的电子文档的突出性(例如,位置、大小、颜色)。通常,对于特定选择的电子文档的排名越高,该电子文档的突出性越大。作为一个示例,当呈现引擎128选择多个电子文档的情况下,呈现引擎128可以提供这多个电子文档的排名的指示,以用于确定多个候选者应当以何种顺序经由用户界面输出设备呈现给用户。

在一些实现中,呈现引擎128仅提供所选择文档的文档标识符和潜在的突出性信息,并且客户端设备106和/或电子通信系统110可以基于提供的数据生成所选择的文档的显示。在一些实现中,呈现引擎128可以另外提供生成显示所必需的一些或全部数据。在这些实现中的一些中,任何所提供的突出性可以并入指示应如何呈现显示的数据中。

在一些实现中,呈现引擎128可以基于由至少一个训练的机器学习系统135响应于由消息特征引擎122提供给训练的机器学习系统135的原始消息特征而提供的输出,来确定是否提供和/或如何提供,以提供电子文档用于包括在回复中。例如,如本文所述,至少一个训练的机器学习系统135可以被训练为接收一个或多个消息特征作为输入,并且提供对电子通信的回复将包括非文本回复内容的可能性作为输出。在一些实现中,呈现引擎128可以在确定是否提供以提供电子文档用于包括在回复中时利用该可能性。例如,仅当可能性满足阈值时,呈现引擎128可以提供电子文档以包括在回复中。在一些实现中,呈现引擎128可以在确定如何提供电子文档以包括在回复中时利用该可能性。例如,如果可能性满足阈值,则呈现引擎128可以在回复中自动包括电子文档,但是如果可能性不满足阈值,则可以在将它们包括在回复中之前要求用户界面输入。此外,例如,呈现引擎128可以:如果可能性大于或等于x(例如,x=0.8),则在已经提供指示希望回复的任何用户界面输入之前提供电子文档以用于包括在回复中,(例如,图4a);如果可能性小于x并且大于或等于y(例如,y=0.5),则可能需要在提供电子文档之前指示希望回复的用户界面输入(例如,图4b)并且如果可能性小于y,则可以在提供电子文档之前需要指示期望附加文档(例如,图4d1和图4d2)的用户界面输入。

图2示出了可以基于通信的一个或多个消息特征来确定要包括在对电子通信的回复中的非文本回复内容的示例。消息特征引擎122确定发送给用户的电子通信152a的一个或多个消息特征。电子通信152a可以由例如图1的客户端设备106或电子通信系统110提供。

消息特征引擎122向搜索参数引擎124提供一个或多个确定的消息特征,并且向至少一个训练的机器学习系统135提供一个或多个确定的消息特征。由消息特征引擎122向搜索参数引擎124和机器学习系统135提供的消息特征可以是相同的或可以是不同的。

训练的机器学习系统135基于接收到的消息特征向搜索参数引擎124提供一个或多个文档特征。一个或多个文档特征可以是例如非文本回复内容的一个或多个文档类型。搜索参数引擎124可以利用文档特征中的一个或多个来生成搜索参数。例如,在训练的机器学习系统135中的一个基于用于电子通信的消息特征的输入提供非文本回复内容的文档类型的输出的情况下,文档类型可以用作搜索参数,其偏好那些类型的文档,将搜索限制到那些类型的文档,和/或将搜索限制为包括(并且可选地限于)那些类型的文档的一个或多个语料库。搜索参数引擎124还基于从消息特征引擎122接收的消息特征生成一个或多个搜索参数。

搜索参数引擎124向搜索引擎126提供搜索参数。搜索引擎126基于由搜索参数引擎124确定的搜索参数搜索电子文档语料库154a-n中的一个或多个。在一些实现中,搜索一个或多个电子文档语料库154a-n可以包括搜索一个或多个索引,其对一个或多个文档语料库中的电子文档进行索引。搜索引擎126可以基于搜索参数发出一个或多个搜索,每个搜索参数以一种或多种方式组合搜索参数。在一些实现中,搜索引擎126可以响应于基于从电子通信导出的一个或多个搜索参数的搜索来识别多个文档。在这些实现中的一些中,可以基于各种准则,诸如,基于查询和/或基于文档的分数,来对多个文档中的每一个进行排名。

搜索引擎126向呈现引擎128提供响应于搜索的一个或多个电子文档的文档标识符,并且还提供电子文档的可选排名。

呈现引擎128选择电子文档中的一个或多个,并且提供所选择的电子文档159以包括在作为用户对电子通信的回复的回复电子通信中。提供用于包括在回复中的电子文档可以包括例如提供实际文档,提供到文档的链接,提供与文档相关联的文档的用户界面指示等。

图3是示出基于通信的一个或多个消息特征来确定非文本回复内容以包括在对电子通信的回复中的示例方法的流程图。为了方便起见,参考执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种组件。例如,一些操作可以由非文本回复内容系统120的一个或多个组件,诸如引擎122、124、126和/或128,执行。虽然以特定顺序示出图3的方法的操作,但这并不意味着限制。一个或多个操作可以被重新排序、省略或添加。

在框300处,系统识别发送给用户的电子通信。

在框302处,系统确定电子通信的一个或多个消息特征。可以利用各种原始消息特征,诸如文本、语义和/或句法特征。例如,系统可以基于电子通信中的更多n-gram,电子通信中的两个或更多个n-gram的同现,基于在主题、第一句子、最后的句子或电子通信的其它部分中特定出现的文本的特征,基于电子通信的元数据的特征等确定消息特征。

在框304处,系统使用基于框302的消息特征中的一个或多个的搜索参数来发出对电子文档的一个或多个语料库的搜索。例如,系统可以使用消息特征作为搜索参数和/或从消息特征导出搜索参数。在一些实现中,系统可以提供消息特征中的一个或多个作为训练的机器学习系统的输入,并利用训练的机器学习系统的输出作为搜索参数中的一个或多个和/或导出一个或多个搜索参数。

在框306处,系统接收电子文档的子组的指示。子组是语料库的子组,并且表示响应于框304的搜索的电子文档。在一些实现中,系统还接收子组的排名。

在框308处,系统选择子组的至少一个电子文档。例如,系统可以基于框306的可选排名来选择至少一个电子文档。

在框310处,系统提供至少一个电子文档,以包括在作为用户对电子通信的回复的回复电子通信中。提供用于包括在回复中的电子文档可以包括例如提供实际文档(例如,嵌入或以其它方式附接文档),提供到文档的链接,提供与文档相关联的文档的用户界面指示等。因此,用户不必参与手动浏览和选择非文本回复内容,则简化了用户界面,节省了建立包括非文本回复内容的回复消息所需的用户交互步骤和对应输入的数量。

图4a-4e示出了用于提供非文本回复内容以包括在对电子通信的回复中的示例图形用户界面。图4a-图4e的图形用户界面可以基于由非文本回复内容系统120确定和提供的非文本回复内容在客户端设备106处呈现。在一些实现中,非文本回复内容系统120的一个或多个方面(例如,呈现引擎128的所有或方面)可以全部或部分地并入在客户端设备106上。

如图4a所示,在用户已经提供任何用户界面输入以指示希望回复原始电子邮件475a之前,用户正在观看已经发送给用户的原始电子邮件475a。由图形用户界面元素481a和482a表示的候选电子文档基于原始电子邮件475a被确定,并且被呈现以包括在对电子邮件的回复中。例如,图形用户界面元素481a的用户选择可以自动向用户呈现可编辑的回复电子邮件,其包括附加到回复的电子文档“patentpresentation.pdf”,或者并入在回复中的到该电子文档的链接(例如,并入在回复的主体中的超链接)。类似地,图形用户界面元素482a的用户选择可以自动向用户呈现可编辑的回复电子邮件,其包括附加到回复的电子文档“budgetpresentation.pdf”,或并入在回复中的到电子文档的链接(例如,并入在回复主体中的超链接)。在一些实现中,图形用户界面元素481a和482a两者可以被选择为在回复中包括相关联的电子文档。

图形用户界面元素481a和482a都包括相关联的电子文档的标题(以粗体和下划线表示)以及相关联的额外信息,以便于用户收集相关联的电子文档。具体地,图形用户界面元素481a和482a每个包括额外信息,指示:文档最后被用户访问的时间指示,文档何时被最后修改的时间指示,文档的语料库(“云”)和语料库文件夹(“呈现”)位置,以及指示创建文档的用户的创建者。可以提供另外的和/或替代的额外信息,例如来自文档的文本片段(例如,文档的前x个词),文档的全部或部分的图像等。

在一些实现中,图形用户界面元素481a和482a的呈现位置可以基于确定的显示突出性,该确定的显示突出性是基于与那些图形用户界面元素481a和482a相关联的文档的排名。例如,基于与图形用户界面元素481a相关联的文档的排名高于与图形用户界面元素482a相关联的文档,图形用户界面元素481a可以在位置上高于图形用户界面元素482a。如本文所描述的,文档的排名可以是利用基于原始电子邮件475a的一个或多个消息特征的搜索参数发出的搜索的排名。可以提供基于与图形用户界面元素481a和482a相关联的文档的排名的另外的和/或替代的呈现。例如,图形用户界面元素481a可以比图形用户界面元素482a高亮显示和/或呈现更多的额外信息。图4a还包括可选择的图形用户界面元素483a,其在由用户选择时显示另外的的文档。另外的文档可以是基于原始电子邮件识别的文档(例如,基于利用基于原始电子邮件的一个或多个消息特征的搜索参数发出搜索),但具有比与图形用户界面元素481a和482a相关联的文档更低的排名。

在图4b中,用户已经提供了用户界面输入(例如,选择“回复”图形用户界面元素)来发起对原始电子邮件的回复,并且呈现有回复部分480b,回复部分480b包括指示用户可以在回复部分480b中编写回复的幻影(phantom)文本“编写电子邮件”。在图4b中还示出了回复响应的原始电子邮件475b用于用户在生成回复时参考。

图形用户界面元素481b和482b在图4b中示出以包括在基于原始电子邮件475b确定的相关联候选电子文档的回复中。在用户已经提供任何文本输入或用于回复的其它内容之前呈现图形用户界面元素481b和482b。图形用户界面元素481b的用户选择可以将电子文档“patentpresentation.pdf”附加到回复中或者在回复中并入到该电子文档的链接(例如,并入在回复部分480b中的超链接)。类似地,图形用户界面元素482b的用户选择可以将电子文档“budgetpresentation.pdf”附加到回复中或者在回复中并入到该电子文档的链接。在一些实现中,图形用户界面元素481b和482b两者可以被选择以在回复中包括相关联的电子文档。例如,通过单次鼠标点击、单次“轻敲”或其他单次用户界面输入,附件可以被包括在回复中。

图形用户界面元素481b和482b都包括相关联的电子文档的标题(以粗体和下划线表示)以及相关联的额外信息,以便于用户收集相关联的电子文档。在一些实现中,图形用户界面元素481b和482b的呈现位置可以基于确定的显示突出性,该确定的显示突出性是基于与那些图形用户界面元素481b和482b相关联的文档的排名。例如,基于与图形用户界面元素481b相关联的文档的排名高于与图形用户界面元素482b相关联的文档,图形用户界面元素481b可位于图形用户界面元素482b的左侧被呈现。如本文所描述的,文档的排名可以是利用基于原始电子邮件的一个或多个消息特征的搜索参数发出的搜索的排名。

在图4c中,用户已经提供了用户界面输入(例如,选择“回复”图形用户界面元素)以发起对原始电子邮件的回复,并且呈现有回复部分480c,回复部分480c包括指示用户可以在回复部分480c中编写回复的幻影文本“编写电子邮件”。在图4c中还示出了回复响应的原始电子邮件475c用于用户在生成回复时参考。

图形用户界面元素481c被呈现并且与基于原始电子邮件475c确定的多个候选电子文档相关联。例如,图形用户界面元素481c可以与用户编写回复的所有电子呈现相关联。可以基于使用基于原始电子邮件475c的“呈现”搜索参数发出对用户文档的搜索来识别电子呈现。图形用户界面元素481c的用户选择可以向用户呈现用户的电子呈现的图形指示,可以选择其中的一个或多个以将所选择的电子呈现附加到回复或在回复中并入到电子呈现的链接(例如,在回复部分480c中并入的超链接)。

图形用户界面元素482c与所有用户的电子文档相关联。图形用户界面元素482c的用户选择可以向用户呈现用户的所有电子文档的图形指示。用户可以浏览所有电子文档,并选择一个或多个附加到回复,或者将到电子文档的链接并入回复中(例如,在回复部分480c中并入的超链接)。在用户已经提供任何文本输入或用于回复的其它内容之前,在图4c中示出图形用户界面元素481c和482c。

如图4d1所示,用户已经提供用户界面输入(例如,选择“回复”图形用户界面元素)以发起对原始电子邮件的回复,并且呈现有包括向用户指示用户可以在回复部分480d中编写回复的幻影文本“编写电子邮件”的回复部分480d。在图4d1中还示出了回复响应的原始电子邮件475d,用于用户在生成回复时参考。在图4d1中,还呈现了附件图形用户界面元素477d。响应于选择附件图形用户界面元素477d的用户界面输入,呈现图4d2的附件图形用户界面。

图4d2的附件图形用户界面包括图形用户界面元素481d和482d,用于包括在基于原始电子邮件475d确定的相关联候选电子文档的回复中。响应于附件图形用户界面元素477d的选择,并且在用户已经提供任何文本输入或用于回复的其它内容之前,呈现图形用户界面元素481d和482d。图形用户界面元素481d的用户选择可以将电子文档“patentpresentation.pdf”附加到回复中或者在回复中并入到该电子文档的链接(例如,在回复部分480d中并入的超链接)。同样,图形用户界面元素482d的用户选择可以将电子文档“budgetpresentation.pdf”附加到回复中或者在回复中并入到该电子文档的链接。在一些实现中,图形用户界面元素481d和482d两者可以被选择为在回复中包括相关联的电子文档。例如,通过单次鼠标点击、或其他单次用户界面输入,附件可以被包括在回复中。

图形用户界面元素481d和482d都包括相关联的电子文档的标题(以粗体和下划线表示)以及相关联的额外信息,以便于用户收集相关联的电子文档。在一些实现中,图形用户界面元素481d和482d的呈现位置可以基于确定的显示突出性,该确定的显示突出性是基于与那些图形用户界面元素481d和482d相关联的文档的排名。例如,基于与图形用户界面元素481d相关联的文档的排名高于与图形用户界面元素482d相关联的文档,图形用户界面元素481d可以位于图形用户界面元素482d的左侧被呈现。如本文所描述的,文档的排名可以是利用基于原始电子邮件的一个或多个消息特征的搜索参数发出的搜索的排名。

图4d2的附件图形用户界面还包括图形用户界面元素483d,当通过用户提供的用户界面输入来选择时,图形用户界面元素483d显示基于原始电子邮件475d确定的另外的文档(例如,基于使用基于原始电子邮件一个或多个消息特征的搜索参数的搜索发出),但具有比与图形用户界面元素481d和482d相关联的文档低的排名。图4d2的附件图形用户界面还包括图形用户界面元素484d,当通过用户提供的用户界面输入来选择时,图形用户界面元素484d使得用户能够浏览所有用户的电子文档,并选择一个或多个附加到回复或将到电子文档的链接并入回复中。

如图4e所示,用户已经提供用户界面输入(例如,选择“回复”图形用户界面元素)以发起对原始文本消息的回复,并且呈现有包括向用户指示用户可以在回复部分480e中编写回复的幻影文本“回复”的回复部分480e。在图4e中还示出了回复响应的原始文本消息475e用于用户在生成回复时参考。

图形用户界面元素481e被呈现并且与基于原始电子邮件475e确定的多个候选电子文档的第一集合相关联。具体地,图形用户界面元素481e与“在芝加哥”“上周”拍摄的编写回复的用户的所有图片相关联,并且可以基于使用基于原始文本消息475e的搜索参数“图像”、“芝加哥”和“上周”发出用户文档的搜索来识别。图形用户界面元素481e的用户选择可将那些图片附加到回复或将到图片的链接并入回复中(例如,在回复部分480e中并入的超链接)。

图形用户界面元素482e被呈现并且与基于原始文本消息475e确定的多个候选电子文档的第二集合相关联。具体地,图形用户界面元素482e与“在芝加哥”“上周”拍摄的编写回复的用户的所有图片相关联,在图片中包括“汤姆”,并且可以基于发出使用基于原始文本消息475e的“图像”、“芝加哥”、“上周”和“汤姆”(例如,与汤姆相关联的用户标识符)搜索参数的用户文档的搜索来识别。图形用户界面元素482e的用户选择可以将那些图片附加到回复或将到图片的链接并入回复中(例如,在回复部分480e中并入的超链接)。

图形用户界面元素483e也被呈现,并且关联于与图形用户界面元素481e相同的图片的第一集合。然而,图形用户界面元素483e的用户选择可以向用户呈现图片的图形指示,可以选择其中的一个或多个以将所选择的图片附加到回复或者将到图片的链接并入回复中(例如,在回复部分480e中并入的超链接)。根据上述实现和示例,在回复消息中包括非文本内容所需的用户交互被简化。例如,节省了用户手动浏览和选择非文本回复内容。此外,上述教导也可以简化用户界面,因为非文本回复内容的附加自动出现,因此完全避免了浏览和选择界面,或者通过简单的选择操作。用户界面的这种简化例如对于通常具有受限的显示器大小和/或用户交互能力的移动通信设备是特别有用和有益的。

现在转到图5-7,提供了训练图1和图2的至少一个训练的机器学习系统135的额外描述,例如,其可以在关于图1-图4描述的各种装置和方法中使用。

图5示出了其中可以分析电子通信以生成用于训练机器学习系统以确定一个或多个非文本回复内容特征的训练示例,以及其中可以基于训练示例训练机器学习系统的示例环境。

图5的示例环境包括电子通信系统110、电子通信数据库152和代表处于未训练状态的图1的至少一个训练的机器学习系统135的机器学习系统135a。图5还包括选择引擎130和训练示例系统140。

选择引擎130、训练示例系统140和机器学习系统135a可以各自在例如通过网络进行通信的一个或多个计算设备中实现。选择引擎130、训练示例系统140和机器学习系统135a是其中可以实现本文所描述的系统、组件和技术和/或本文描述的系统、组件和技术可以对接的示例系统。选择引擎130、训练示例系统140和机器学习系统135a每个包括用于存储数据和软件应用的一个或多个存储器,用于访问数据和执行应用的一个或多个处理器,以及有助于通过网络进行通信的其它组件。在一些实现中,选择引擎130和训练示例系统140可以包括图8的示例计算设备的一个或多个组件。选择引擎130、训练示例系统140和/或机器学习系统135a执行的操作可以分布在多个计算机系统上。在一些实现中,选择引擎130、训练示例系统140和/或机器学习系统135a的一个或多个方面可以组合在单个系统中。

通常,在一些实现中,训练示例系统140利用没有直接人类访问的电子通信数据库152的过去的电子通信来生成用于训练机器学习系统135a的训练示例。可以生成训练示例来训练机器学习系统135a以学习“原始”消息的一个或多个消息特征与和那些原始消息的“回复”中的附件相关的一个或多个特征之间的关系。例如,在一些实现中,机器学习系统135a可以被训练以确定原始消息的消息特征与回复具有那些消息特征的电子通信包括文档和/或到文档的链接的可能性之间的关系。此外,例如,在一些其它实现中,机器学习系统135a可以被训练以确定原始消息的消息特征与在具有那些消息特征的电子通信的回复中将包括或链接到的文档的文档类型(例如,图像、视频、媒体、pdf、幻灯片)之间的关系。

在一些实现中,选择引擎130可以基于一个或多个标准来选择训练示例系统140用来生成用于训练一个或多个机器学习系统135中的每一个的训练示例的通信。例如,选择引擎130可以将电子通信数据库152的某些通信标记或以其它方式注释为适合由训练示例系统140使用的那些通信。在一些实现中,选择引擎130可以选择基于那些包括“原始”消息和响应于原始消息的“回复”消息的电子通信使用的电子通信。如本文所描述的,包括原始消息和回复消息的电子通信可以是被映射到彼此的单个文档和/或多个文档。在一些实现中,选择引擎130可以基于包括具有诸如附加文档和/或到文档的链接的非文本回复内容的回复的电子通信来选择用于训练机器学习系统135a的训练的训练示例的电子通信。

在一些实现中,选择引擎130可以采用一种或多种技术来减少在生成训练示例中使用的某些类型的通信的出现。例如,在数据库152包括电子邮件的情况下,选择引擎130可以使用用于过滤可能来自企业的电子邮件的技术。例如,来自某些电子邮件地址的电子邮件,来自具有某些域名的电子邮件地址的电子邮件,来自具有某些前缀的电子邮件地址的电子邮件,主题行中具有某些n-gram的电子邮件等等可以被过滤掉。此外,例如,符合某些商业模板的电子邮件可以被过滤掉。此外,例如,可能过滤掉可能是垃圾邮件的电子邮件。减少某些类型通信的出现具有下述技术效果和益处,用于机器学习的过程和训练能够更加有效,导致机器学习系统提供的输出的精确性更高。在一些实现中,选择引擎130基于与通信和/或通信的发送者和/或接收者相关联的其它属性来选择电子通信。例如,如果期望确定特定地理区域和/或域的原始消息特征和回复n-gram之间的关系,则可以选择与该地理区域和/或域相关联的通信。

在各种实现中,训练示例系统140包括原始消息特征确定引擎142和非文本回复内容特征引擎144。在一些实现中,引擎142和/或144的全部或方面可以被省略、组合和/或在与训练示例系统140分离的组件中实现。

一般来说,原始消息特征确定引擎142和非文本回复内容特征引擎144协同工作并确定多个训练示例,每个训练示例基于具有原始消息和回复消息的多个电子通信中的相应一个。对于具有原始消息和回复消息的给定电子通信,原始消息特征确定引擎142基于给定电子通信的原始消息确定原始消息特征的向量,并且非文本回复内容特征引擎144基于给定电子通信的回复消息确定非文本回复内容的一个或多个特征的向量。

包括在训练示例中的原始消息特征的向量和非文本回复内容的一个或多个特征的向量将取决于机器学习系统135a的实现的期望的输入参数和期望的输出参数。例如,假设机器学习系统135a正在被训练以提供对电子通信的回复将包括文档和/或到文档的链接的可能性作为输出。在这种情况下,非文本回复内容特征引擎144可以生成训练示例,每个训练示例包括一个或多个非文本回复内容特征的向量,该非文本回复内容特征是“真”(包括文档和/或到文档的链接)或“假”(不包括文档和/或到文档的链接)的单个特征。作为另一示例,假设机器学习系统135a正在被训练为提供以下作为输出:1)对电子通信的回复包括文字处理文档和/或到文字处理文档的链接的可能性;2)对电子通信的回复包括呈现和/或到呈现的链接的可能性;3)对电子通信的回复包括图像和/或到图像的链接的可能性;4)对电子通信的回复包括视频和/或到视频的链接的可能性;和5)可选地用于另外的和/或替代文档类型的可能性。在这种情况下,非文本回复内容特征引擎144可以生成训练示例,每个训练示例包括多个回复内容特征的向量,每个回复内容特征是“真”(包括该类型的文档和/或到该类型的文档的链接)或“假”(不包括该类型的文档和/或到该类型的文档的链接)。

各种原始消息特征可由原始消息特征确定引擎142确定,诸如语法、语义、n-gram和/或基于元数据的特征。例如,一个或多个原始消息特征可以指示特定n-gram是否存在于原始消息的一个或多个位置中,或者特定类别的n-gram的任何n-gram是否存在于原始消息的一个或多个位置中。一类n-gram可以是例如具有相似语义的一组n-gram,诸如一组“请求动词”,如“提供”、“发送”、“包括”、“可以”、“附加”等。作为另一示例,原始消息特征可以指示原始电子邮件的接收者的数量,诸如“一”、“二到五”或“五或更多”。

作为又一示例,原始消息特征可以指示原始消息的一个或多个部分的语义特征,诸如原始消息的主题的语义特征、原始消息的主体的全部或部分等。在一些实现中,原始消息特征确定引擎142可以基于将电子通信聚组成多个簇来确定原始消息的一个或多个语义特征,并且基于其簇来确定原始消息的语义特征。在这些实现中的一些中,原始消息特征确定引擎142基于语料库的电子通信的原始消息的文本之间的相似性,诸如语义、句法和/或文本相似之处,将电子通信聚组为多个簇。通常,聚组在给定簇中的电子通信的原始消息将比在其它簇中聚组的原始消息相互更相似(基于在聚组中使用的相似性)。每个确定的簇对应于原始消息的内容的不同语义类别。在一些实现中,原始消息特征确定引擎142可以基于原始消息之间的相似性度量,使用一种或多种分簇技术将电子通信聚组为多个簇。例如,在一些实现中,可以使用x均值分簇,其中原始消息之间的距离基于原始消息之间的相似性度量。通常,x均值分簇是找到用于k均值分簇的理想k的无监督方法。通常,k均值分簇旨在将观察分割成多个组,其中每个观察包括在与其最相关的组中。可以可选地使用另外的和/或替代的簇。

由机器学习系统135a的训练示例系统140生成的训练示例被提供给机器学习系统135a以训练机器学习系统135a。在训练期间,机器学习系统135a基于由训练示例系统140产生的训练示例迭代地学习特征表示的分层结构。

现在转到图6,示出了可以如何基于电子通信生成训练示例并且用于训练机器学习系统以确定一个或多个非文本回复内容特征的示例。选择引擎130可以基于一个或多个准则来选择来自电子通信数据库152的将被用于生成用于训练机器学习系统135a的训练示例的通信。例如,选择引擎130可以标记或以其它方式注释电子通信数据库152的某些通信为适于在生成训练示例中使用的那些通信。

对于多个电子通信中的每一个,原始消息特征确定引擎142基于给定电子通信的原始消息确定原始消息特征的向量,并且包括原始消息特征作为相应训练示例的输入参数。非文本回复内容特征引擎144基于给定电子通信的回复消息确定一个或多个非文本回复内容特征的向量,并且包括非文本回复内容特征作为相应训练示例145的输出参数。训练示例145用于训练机器学习系统135a。虽然在图6中仅示出了单个训练示例145,但是应当理解,引擎142和144将生成多个训练示例(每个训练示例基于对应的电子通信)和用于训练机器学习系统135a的多个训练示例。

作为图6的一个具体实现,训练示例145和所有另外的训练示例可以各自具有指示包括在相应电子通信的回复消息中的文档的类型的输出参数,和基于相应的电子通信的原始消息的一个或多个输入参数。例如,非文本回复内容特征引擎144可以基于包括图像作为附件的回复消息,生成包括“图像”文档类型的指示的第一训练示例的输出的非文本回复内容特征。原始消息特征确定引擎142可以基于对应的原始消息生成原始消息特征作为第一训练示例的输入。原始消息特征可以包括例如原始消息的一个或多个基于语法、语义和/或n-gram的特征。此外,例如,非文本回复内容特征引擎144可以基于包括“pdf”作为附件的回复消息,生成包括“pdf”文档类型的指示的第二训练示例的输出的非文本回复内容特征。原始消息特征确定引擎142可以基于对应的原始消息生成原始消息特征作为第二训练示例的输入。原始消息特征可以包括例如原始消息的一个或多个基于语法、语义和/或n-gram的特征。可以类似地生成另外的训练示例,包括下述另外的示例,每个另外的示例具有基于另外的电子通信的相应回复消息的其它类型的文档的输出特征以及基于另外的电子通信的相应原始消息的输入特征。可以基于训练示例来训练机器学习系统。训练的机器学习系统可接收原始消息的一个或多个消息特征作为输入,并提供要包括在对原始消息的回复中的一种或多种类型的文档和可选地相关联的可能性作为输出。训练的机器学习系统可以用于例如基于由训练的机器学习系统输出提供的文档的类型来确定用于未来电子通信的一个或多个搜索参数,和/或基于由训练的机器学习系统输出提供的文档的类型来限制所发出的搜索的语料库。

作为图6的另一个具体实现,训练示例145和所有另外的训练示例可以各自具有指示文档被包括在相应电子通信的回复消息中的可能性的输出参数,以及基于相应电子通信的原始消息的一个或多个输入参数。例如,非文本回复内容特征引擎144可以基于包括附加的文档和/或到文档的链接的回复消息,生成用于第一正向训练示例的输出的非文本回复内容特征,包括“文档包含在回复中”的指示。原始消息特征确定引擎142可以基于对应的原始消息生成原始消息特征作为第一训练示例的输入。原始消息特征可以包括例如原始消息的一个或多个基于语法、语义和/或n-gram的特征。此外,例如,非文本回复内容特征引擎144可以基于回复消息不包括文档和/或到文档的链接,生成用于第二负向训练示例的输出的非文本回复内容特征,包括“文档未包含在回复中”的指示。原始消息特征确定引擎142可以基于对应的原始消息生成原始消息特征作为第二训练示例的输入。原始消息特征可以包括例如原始消息的一个或多个基于语法、语义和/或n-gram的特征。可以类似地生成另外的训练示例。训练的机器学习系统可以接收原始消息的一个或多个特征作为输入,并且提供文档将被包括在对原始消息的回复中的可能性作为输出。训练的机器学习系统可用于例如为将来的电子通信确定是否提供和/或如何提供附件以包括在对这些电子通信的回复中(例如,回复将包括附件的低可能性可能导致没有提供附件,或者附件以不太显眼的方式被“建议”)。

图7是示出生成训练示例并使用训练示例来训练机器学习系统以确定一个或多个非文本回复内容特征的示例方法的流程图。为了方便起见,参考执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种组件。例如,一些操作可以由图5的训练示例系统140和/或机器学习系统135a的一个或多个组件来执行。此外,尽管以特定顺序示出图7的方法的操作,但这并不意味着限制。一个或多个操作可以被重新排序、省略或添加。

在框700处,系统识别电子通信。每个电子通信包括原始消息和回复消息。

在框705处,系统基于电子通信之一的原始消息生成训练示例的输入特征。各种原始消息特征可以由系统确定,诸如语法、语义、n-gram和/或基于元数据的特征。

在框710处,系统基于与电子通信的回复消息相关联的非文本回复内容来生成训练示例的输出特征。例如,在一个实现中,输出特征可以是“真”或“假”,并且如果回复消息包括文档和/或到文档的链接,则输出特征将为真,否则为假。此外,例如,在另一实现中,输出特征可以包括多个特征,每个特征都是“真”或“假”,并且每个特征指示回复消息是否包括指示一个或多个文件扩展名的封闭类的对应文件类型的文档。例如,第一特征可以指示“图像”,其指示图像的封闭类(例如,.jpg、.png、.gif),第二特征可以指示“呈现”,其指示呈现的封闭类(例如,.pdf、.ppt)等。

在框715处,系统基于训练示例训练机器学习系统。

尽管参考单个训练示例来描述图7的方法,但是应当理解,可以迭代地执行步骤(例如,框705、710和715)中的一个或多个以确定多个训练示例,并且基于多个培训示例训练机器学习系统。

在其中本文描述的系统收集关于用户的个人信息或者可以利用个人信息的情况下,可以向用户提供控制程序或特征是否收集用户信息(例如,关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前地理位置)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。此外,可以在存储或使用某些数据之前以一种或多种方式来处理这些数据,从而移除个人可识别信息。例如,可以对用户的身份进行处理,使得不能确定用于用户的个人可识别信息,或者可以在获得地理位置信息的地方(例如城市、邮政编码或州级别)对用户的地理位置进行概括,使得不能确定用户的特定地理位置。因此,用户可以具有对如何收集关于用户和/或使用的信息的控制。

图8是示例计算设备810的框图。计算设备810通常包括经由总线子系统812与多个外围设备通信的至少一个处理器814。这些外围设备可以包括存储子系统824,包括例如,存储器子系统825和文档存储子系统826、用户界面输出设备820、用户界面输入设备822和网络接口子系统816。输入和输出设备允许用户与计算设备810交互。网络接口子系统816提供接口到外部网络并且耦合到其它计算设备中的相应接口设备。

用户界面输入设备822可以包括键盘,诸如鼠标、轨迹球、触摸板或图形输入板的指示设备,扫描仪,结合到显示器中的触摸屏,诸如语音识别系统的音频输入设备,麦克风和/或其它类型的输入设备。一般来说,术语“输入设备”的使用旨在包括将信息输入到计算设备810中或通信网络上的所有可能类型的设备和方式。

用户界面输出设备820可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(crt)、诸如液晶显示器(lcd)的平板装置、投影装置或用于产生可见图像的一些其它机构。显示子系统还可以例如经由音频输出设备提供非视觉显示。一般来说,术语“输出设备”的使用旨在包括从计算设备810向用户或向另一机器或计算设备输出信息的所有可能类型的设备和方式。

存储子系统824存储提供本文所述的一些或全部模块的功能的编程和数据结构。例如,存储子系统824可以包括用于执行图3和/或图7的方法的所选择方面的逻辑。

这些软件模块通常由处理器817单独执行或与其它处理器组合执行。存储子系统中使用的存储器825可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(ram)830和其中存储固定指令的只读存储器(rom)832。文档存储子系统826可以为程序和数据文档提供持久存储,并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、cd-rom驱动器、光驱动器或可移动介质盒。实现某些实现的功能的模块可以由文档存储子系统826存储在存储子系统827中或者由处理器817可访问的其它机器中。

总线子系统812提供用于使计算设备810的各种组件和子系统按照预期彼此通信的机制。虽然总线子系统812被示意性地示出为单个总线,但是总线子系统的替代实现可以使用多个总线。

计算设备810可以是各种类型的,包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其它数据处理系统或计算设备。由于计算机和网络的不断变化的性质,图8中描绘的计算设备810仅出于说明一些实施方案的目的仅作为具体实例。计算设备810的许多其它配置可能具有比图8所示的计算设备更多或更少的组件。

尽管本文已经描述和示出了若干实现,但是可以使用用于执行功能和/或获得结果和/或本文所述的一个或多个优点的各种其它装置和/或结构,这样的变化和/或修改被认为在本文所描述的实现的范围内。更一般地,本文所述的所有参数、尺寸、材料和构造意在是示例性的,并且实际参数、尺寸、材料和/或构造将取决于使用教导的具体应用或应用。本领域技术人员将认识到或者能够仅使用常规实验来确定本文所述的具体实现的许多等同物。因此,应当理解,前述实现仅以示例的方式给出,并且在所附权利要求及其等同物的范围内,可以以与具体描述和要求保护的方式不同的方式实施实现。本公开的实现涉及本文所述的每个单独的特征、系统、物品、材料、套件和/或方法。此外,如果这些特征、系统、制品、材料、套件和/或方法不相互矛盾,则两个或更多个此类特征、系统、制品、材料、套件和/或方法的任何组合包括在本公开的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1