在系统中为紧急或重要情况使用成批电子邮件过滤器用于分类消息的制作方法

文档序号:6419517阅读:121来源:国知局
专利名称:在系统中为紧急或重要情况使用成批电子邮件过滤器用于分类消息的制作方法
技术领域
本发明通常涉及便于设备、系统、程序和/或单机之间通信的系统和方法。尤其是,本发明涉及为了管理接收的消息使用多级过滤器。
背景技术
随着计算机和信息系统以及相关网络技术例如无线和因特网通信的成长,由用户和/或系统通信、传输和随后处理的电子信息的数量日益增长。作为举例,电子邮件程序已经变成计算机用户间用于产生和接收该信息的普及应用。随着因特网的出现,例如,交换电子邮件或者其他信息如声音或音频信息已经变成影响很多人需要计算机的一个重要因素。例如,在许多公司环境中,电子邮件几乎已经变成同事之间交换信息的实际标准。然而,随着电子邮件和其他信息传输系统的更加普及,关于管理和处理来自多个源的增加的信息的问题已经开始出现。
在这些问题中,很多用户现在面临电子邮件和/或从中分类通过和/或响应的其他信息的泛滥,以至于发送、接收和处理信息的能力几乎变成对生产的一种障碍。随着大量的电子邮件和/或其他电子信息,根据哪些重要和哪些不重要来管理信息已变得困难,而实质上没有耗费由个人决定重要性的重要时间。作为这些确定范例,用户不得不确定是否应该立即响应该信息,忽略并以后再读,或者简单的由于不重要而删除(例如,垃圾邮件)。
一些尝试已经指向信息管理问题。例如,已经尝试缩减用户收到的垃圾或宣传电子邮件的数量。另外,一些电子邮件程序提供规则生成,来支配如何管理程序中的电子邮件。例如,规则规定,“从某个同事或者地址来的所有邮件”被放在特定的文件夹中。
然而,这些尝试限制了某个类型信,通常不指向电子邮件和其他信息传输/接收系统后面的基本问题。也就是说,为了确定哪些消息应该回顾或者进一步处理,传统的系统经常引起用户手工细查和检查它们中的一部分,而不是全部接收的消息。如上所述,这将花费来自更多生产活动的时间。因此,随着接收到大量的信息,需要一种系统和方法易于有效的处理电子信息,,同时减少相关人工干涉的成本。
发明概述以下为了提供本发明一些方面的基本理解给出本发明的简单概述。该概述不是本发明广泛的综述。这不意图标识本发明的重要/关键元素或者描绘本发明的范围。发明一些概念的唯一目的是用简单的形式作为序言,而更多详细的描述呈现在后面。
本发明对于一个或多个通信条目或消息(例如,电子邮件,语音编码文件)提供分配紧急或重要事件分数以及成批分数。为了易于用户处理消息,根据分配的分数分类和/或过滤每个条目或消息。关于分类或过滤消息/条目,主题发明提供多级串联和/或并联组合。通过预过滤条目与邮件是成批邮件的似然值分类的比较,移除垃圾条目,并且随后在经过成批预过滤器和/或垃圾预过滤器之后执行剩余条目的优先化,基于优先级的系统可以被充分优化。
通过在用于建立统计分类器的训练设备中包含低紧急性或低重要性类别中的成批邮件,可以组成单级紧急或重要事件分类器,来识别成批电子邮件消息为具有低紧急性和/或重要性。然而,训练具有包括在低紧急性或低重要性类别中的成批电子邮件的消息紧急性或重要性过滤器可以减少从非紧急邮件中理想的区分紧急电子邮件的过滤器能力。例如,成批电子邮件可以包含与重要或紧急消息相关的属性。为了提高紧急性分类器的能力,可以构成分离成批电子邮件过滤器用来推断电子邮件是成批电子邮件的似然值,于是从紧急性或重要性过滤器来考虑,删除该电子邮件,通过减少在重要性或紧急性分类器中的假阳性和假阴性,提高紧急或重要性分类的准确度。本发明的另一个方面提供验证内部电子邮件或其他类型消息(符合非垃圾)和旁路成批预过滤器,因此内部消息将自动的被优先化(例如,不经过成批预过滤器)。
依照本发明提供各种过滤器的组合来自动管理用户消息。在一方面,成批过滤器和紧急性过滤器并行处理接收到的消息。从各自过滤器的输出包括根据消息是成批种类(例如,大批推销刊物)或非成批种类的似然值的接收信息的得分和接收消息的紧急性。可以提供策略以允许根据分配的分数进行消息分类。一方面,成批电子邮件可被分为特定文件或文件夹,其中非成批消息根据紧急性、优先权和/或实用新型来分类,该实用新型根据用于紧急或非紧急消息的延迟回顾的预期成本来分类消息。另一方面,紧急性过滤器为成批或非成批消息计算预期的紧急性分数。成批过滤器为紧急得分消息计算成批分数并且通过考虑给定消息是给定成批分数的成批消息的似然值执行再加权处理。
在另一个方面,可使用成批过滤器来输入消息,其中成批过滤器的输出被提供串联过滤器布置的紧急性过滤器处理。通过该方法,在该电子邮件不是成批电子邮件的条件上,紧急性或重要性过滤器可以用来推断紧急性或重要性的似然值,p(紧急性|非大容积电子邮件)。可以理解过滤器可以很多次序和组合来布置。这包括对认为是特定类型(例如内部对外部)的信息使用过滤器旁路机构。其他类型过滤设备包括分析消息的重要性,根据紧急性确定来处理分析的消息。其他应用包括考虑消息随着时间的价值损耗,该消息已根据变化的紧急度归类。
为了实现上述和相关的目标,结合下面的描述和附图,将在此描述本发明的特定示意方面。这些方面表示本发明可被实施的各种方式,本发明覆盖了所有这些方面。当结合附图考虑以下本发明详细的描述,本发明的其他的优点和新颖的特征将变得更加明显。


图1按照本发明的一个方面,描述了成批过滤的示意性框图。
图2是按照本发明一个方面的预期紧急性确定的框图。
图3按照本发明的一个方面,描述了级联过滤的框图。
图4按照本发明的一个方面,揭示了过滤器旁路系统的框图。
图5按照本发明的一个方面,描述了替代的过滤器应用。
图6按照本发明的一个方面,描述了消息处理的流程图。
图7是按照本发明的一个方面,描述过滤器选项的用户接口。
图8是按照本发明的一个方面,描述训练选项的用户接口。
图9是按照本发明的一个方面,描述消息分类和注释的用户接口。
图10按照本发明的一个方面,描述了优先级系统的框图。
图11按照本发明的一个方面,描述了分类器的框图。
图12按照本发明的一个方面,描述了消息分类的框图。
图13按照本发明的一个方面,描述了在通告发动机和文本分析器之间的系统协作的示意性框图。
图14是按照本发明的一个方面,描述合适的操作环境的示意性框图。
图15是和本发明相互作用的采样—计算环境的示意性框图。
具体实施例方式
本发明涉及一种易于有效的和自动处理信息的系统和方法。提供一种成批过滤器用于根据分类的范围对一个或多个接收到的消息分类,该范围从至少一个成批分类值横跨到至少一个非成批分类值的。提供第二过滤器例如紧急性或重要性过滤器,以下称作紧急性过滤器,来进一步分类所接收的信息以便易于对消息自动处理。分类的范围包括连续区间值,该连续区间值基于接收到的消息被确定趋向于或落在成批分类值或趋向于/落在非成批分类值的可能性。并且,成批过滤器(或过滤器组)可以包括可调整的阈值设置用于确定或定义在成批分类和非成批类之间的差别。各种过滤器的组合有可能包括多过滤器排列,并行排列,串连排列,和其他排列以易于过滤和分类消息以便用户能以及时的方式更有效地处理该消息。
在本申请的应用中,术语“元件”,“过滤器”,“模型”和“系统”意图涉及相关的计算机实体,或者硬件,硬件和软件的组合,软件,或者是执行中的软件。例如,元件可以是,但不限于,运行在处理器中的进程,处理器,目标,可执行文件,执行的线程,程序,和/或计算机。通过示意,运行在服务器的应用和服务器都可以是元件。一个或多个元件可以驻留在进程和/或执行线程中,并0且元件可固定在一个计算机上和/或在分布在在两个或多个计算机上。
在此用到的,术语“推理”通常指的是关于推理的过程或从通过事件和/或数据捕获的一组观察中推理系统、环境、和/或用户的状态。例如,推理可用于鉴别特定的上下文或动作,或者可以产生在状态上的概率分布。推论可以是随机的—也即,基于对数据和事件的考虑计算重要状态上的概率分布。推论也可以指从一组事件和/或数据中组成高级事件所使用的技术。该推论导致来自一组观测的事件和/或存储的事件数据的新事件或动作的结构,事件是否与临时近似紧密的相关,事件和数据是否来自一个或多个事件和数据源。
首先参考图1,系统100描述了按照本发明一个方面的用于消息处理的成批过滤器。根据增长的成批电子邮件的问题,本发明提供一种多级过滤器方法以加强紧急电子邮件的分类。然而应当注意,尽管以下讨论描述了电子邮件处理,实质上本发明可应用于任何类型的电子消息处理。例如,可将语音消息自动地编码成文本,其中后续文本的处理可类似于电子邮件发生。而且,各种多级过滤器的组合(例如并联和/或串连组合)有可能描述在以下附图和讨论中。
在由系统100所示意的方法中,至少两个过滤器被用来处理电子邮件110(或者其他类型的消息)。成批电子邮件过滤器和分类器114被用来区别成批电子邮件和非成批电子邮件。紧急性过滤器120通过使用或者不使用如下所述的实用新型来分配电子邮件紧急性分数,该实用新型分配延时回顾的预期成本用于紧急电子邮件比非紧急电子邮件。在本发明的这个方面,过滤器114和120检查新的电子邮件110,并且用表示在紧急域134中的紧急值,,表示在成批电子邮件域140中的成批电子邮件的似然值给电子邮件130作注释,策略元件150包括用于考察与消息紧急性和/或成批考虑有关的推论的策略和规则。
在两个过滤器系统的一个方面中,策略元件150使用规则和策略将高于成为成批邮件的似然值阈值(每一个用户的可调整设置或选择)的成批电子邮件调走或移动到特定文件夹中用于为成批文件夹160以后回顾。剩下的电子邮件按照紧急性被分类到另一个文件夹164中。参考数字170,该框图描述了为成批计算和非成批计算而确定的值的范围。当由成批过滤器114产生成批确定时,提供统计确定,该统计确定计算每个电子邮件是成批或非成批类型的概率或似然值。例如,一个电子邮件可能有70%的成为成批电子邮件的似然值,然而可确定另一个电子邮件具有62%的成为成批电子邮件的似然值。如图所示,用户可以使用可调阈值(例如,用户接口滑动快调整概率值)来设置何时电子邮件应该被认为是成批电子邮件的标准(例如,确定具有低于成为成批电子邮件的0.50似然值的所有电子邮件被处理为非成批电子邮件)。
现在参照图2,根据本发明的一个方面,所示系统200用于执行成批计算。在该方面中,在210对电子邮件计算预期的紧急性,紧接着由加权元件220分别确定各自的消息是否是成批230或非成批234种类。在预期紧急性分数内,通过考察电子邮件是成批电子邮件的似然值,在210中计算预期紧急性分数。在这种情况下,紧急性作为一个函数被计算。
f(p(紧急的|E1..En),p(成批电子邮件|E1..En)),其中f是函数,p是概率,E是涉及紧急性或者电子邮件是否是成批的证据。
作为范例,如果假定如上所述的紧急性过滤器按照相似的方法处理成批电子邮件和普通电子邮件,每个紧急性赋值(例如,紧急性分数独立于电子邮件是否是成批电子邮件),于是电子邮件的预期紧急性可以通过执行紧急性分析来计算,然后在220通过考察电子邮件是成批电子邮件的似然值进行再加权。
通常,成批电子邮件的紧急性被认为是零(或是其他较低的值)。因此,根据紧急性分析,由于(在本例子中)紧急性二进制分类为紧急性和非紧急性电子邮件,在成批电子邮件分析之前,期望的紧急性可以被如下确定期望的紧急性=p(紧急的|E1..En)(延迟回顾的成本(紧急电子邮件))+(1-p(紧急的|E1..En))(延迟回顾的成本(非紧急电子邮件))合并在成批电子邮件分析=1-p(成批电子邮件|E1..En)x[p(紧急的|E1..En)延迟回顾的成本(紧急电子邮件))+(1-p(紧急的|E1..En))(延迟回顾的成本(非紧急电子邮件))]也就是说,预期的紧急性分数可从以下描述的紧急性分类器(和实用新型)中算出,然后通过考虑消息是成批电子邮件的似然值来考察再加权,考虑成批电子邮件分数来确定期望值。以下讨论考虑在垃圾过滤器分析和成批过滤器分析之间的概率相关]性。
翻到图3,根据本发明的一个方面,系统300描述了串联过滤器。在这个方面,成批过滤器310计算成批分数(例如,概率),或该分数的离散状态,作为对紧急性过滤器320的直接输入。例如,可以构造分类器,用来考察成批分数。为了实现这一点,成批过滤器310被初始化构造,于是紧急性过滤器320随后被训练构造使用成批过滤器的输出。这类方法称为过滤器的串联。可以理解,描述在330中的其他过滤器可以相似地加入串联中。
现在参照图4,根据本发明的一个方面,系统400描述了消息旁路。在该方面,报头分析器410自动从成批过滤器420中消除考察的电子邮件,因为过滤器可以有一些有限的错误阳性率。例如,通过分析电子邮件报头或其他类型消息,电子邮件可以被识别为内部生成的-也就是,就是说在一个组织内。内部消息被特别的标注或标记为对成批电子邮件过滤器420免疫,因此,旁路该过滤器。
图5描述了本发明的替代方面。在该方面中,多过滤器和/或过滤器串联被用来单独的从紧急的或时间临界消息中识别重要电子邮件(电子邮件是重要的,但不是时间临界的)。因此,在510,重要性分类器被构造,在520分类器的第二(或其他)层被用来对给定不同重要性值的消息的紧急性进行计算。在多过滤器的另一个应用中,在530可以发展过滤器以提供消息的初始值与产生时间上丢失值的那些消息的比。这允许在540建立时间-依赖成本函数来从530中捕获初始值,并在540对各自的消息确定丢失的时间初始值。
需要注意的是,各种并联和串联过滤器的组合也可以用来单独的对重要性和紧急性进行分类,其中一个过滤器通过重要性对消息进行分类,其次分析消息的紧急性。一次,例如,在过滤器的串联中,可如上述那样对成批电子邮件比非成批电子邮件进行分类,然后通过重要性过滤器来确定非成批消息的重要性来提供进一步分类,然后通过紧急性过滤器来确定重要消息的紧急性。
图6根据本发明,描述了提供过滤和消息处理的方法。尽管,为了解释简单的目的,该方法用一系列的动作来显示和描述,但应当了解和清楚本发明不限于动作的顺序,根据本发明,一些动作可以不同的顺序发生,和/或与在此显示和描述的其他动作同时发生。例如,本领域的技术人员应当了解和清楚方法可以选择表示为一系列相互关联的状态或事件,例如在状态图中。此外,根据本发明,不要求所有描述的动作来执行该方法。
继续到602,至少构造一个成批过滤器来处理到来的消息例如电子邮件或其他类型消息。在604,构造至少一个其他类型的过滤器来与在604中构造的成批过滤器协作。该过滤器包括例如紧急性过滤器,重要性过滤器,时间临界过滤器,和/或加权过滤器。在608,在602和604中构造的过滤器以各种组合应用到输入的消息中。这可以包括过滤器的并联组合,串联组合,和/或具有一些串联元素和并联元素的组合。在612,根据在608中配置的期待组合来自动分析和过滤消息。这可以包括动态分类操作,例如,其中被认为是成批种类的消息被分类到单独的文件夹,而其他消息在收件箱中被优先化。其他方面包括允许用户设置阈值,当一个条目被认为是成批时设置似然值设定界限。例如如果一个条目得分在阈值之上,表示消息已经被确定为成批,于是每个成批电子邮件可以被删除、移动和/或分类。
图7是根据本发明的一个方面,描述过滤器设置的用户界面700。在710,提供一个选择以允许用户对具有超过设置值的成批得分的条目进行过滤(例如,对于成批分数在90以上的条目,将该条目分类到成批电子邮件文件夹中)。在720,提供旁路选择选项。例如,如果电子邮件被确定为内部类型,从成批过滤器分析中排除该电子邮件。这些控制允许在紧急分析之前分开筛选和过滤出成批电子邮件,和/或允许例如,从暴露于成批过滤器分析的电子邮件中排除标识为内部的特定条目。
图8是根据本发明的一个方面,描述过滤器设置的用户界面800。界面800包括用于配置过滤器的各种选择。在810,提供一个选择允许用户训练成批过滤器(例如,观察这些选择的成批条目来学习如何区分成批条目)。其他选项包括,紧急训练,图形选项,有效的过滤器选择,工具选项,和优先化选项。
图9是根据本发明的一个方面,描述优先权分数和成批电子邮件区域的用户界面900。如上面提到的,优先权分数通常从p(紧急的电子邮件|E1..En)中得到,而成批分数从p(成批电子邮件|E1..En)中得到。带注解消息的三个样例显示在界面800,尽管其他信息可以被类似的处理。
p(成批电子邮件|E1..En)=.31和p(紧急的|非垃圾)=.99在820,p(成批电子邮件|E1..En)=.66和p(紧急的|非垃圾)=.31在830,p(成批电子邮件|E1..En)=.00和p(紧急的|非垃圾)=.90。注意,这些分数可以单独使用,或者可以建立复合分数。参照图10,系统1010根据本发明的一个方面,描述了优先权系统1012和通知结构。优先系统1012接收一个或多个消息或通告1014,对相关的消息产生优先权或重要性量度(例如,消息是高或低重要性的概率值),并在输出1016提供具有相关优先权值的一个或多个消息。这一点将在下面详细地描述,分类器可以被构造和训练来自动地分配优先权的量度给消息1014。例如,输出1016可以被格式化以便消息被分配一个概率,该概率表示消息属于高、中、低或其他程度类别的重要性。消息可以在电子邮件程序的收件箱(没有显示)中被自动地分类,例如,根据确定的重要性类别。分类也可以包括引导文件到具有已定义重要性标签的系统文件夹中。这可以包括具有标记的文件夹,该文件夹具有诸如低、中、高重要性等级的标记,其中确定为特殊重要性的消息被分类到相关的文件夹中。相似地,一个或多个音频声音或可视化显示(例如,图标,符号)可适合警告用户具有预期优先权的消息已经收到(例如,三声嘀嘀代表高优先级消息,两声嘀嘀代表中优先级消息,一声嘀嘀代表低优先级消息,红色或闪烁警报符号代表高优先级,绿色和非闪烁警报符号表明中优先级消息被接收)。
根据本发明的另一方面,通告平台1017可以和优先级系统1012结合使用来引导优先化的消息到可以被用户访问的一个或多个通告接收器中。这将在以下详细讨论,例如,通告平台1017可以适合接收优先化消息1016并决定关于何时、何地、怎样通知用户。作为一个例子,通告平台1017可以确定通信形式(例如,用户当前的通告接收器1018是蜂窝电话,或者个人数据助理(PDA))和可能的位置和/或用户可能注意的焦点。如果接收到高重要性的电子邮件,例如,通告平台1017可以确定用户位置/焦点和引导/重新格式化该信息给与用户相关的通告接收器1018。如果接收到低优先级的信息1016,例如,可以配置通告平台1017为了以后想要回顾将电子邮件留在用户的收件箱中。这一点将在下面详细描述,其他路由和/或警告系统1019可用来引导优先化消息1016给用户和/或其他系统。
在以下描述的部分中,通过自动分类系统和处理来描述为电子文件例如电子邮件产生的优先权。所述的为电子表示的消息产生的优先权可用于其他的系统。这部分的描述结合图11和图12来提供,前者是描述明显的和暗示的分类器训练的框图,后者是描述通过输入到分类器怎样产生用于电子消息的优先权的框图。
现在参照图11,文本/数据分类器1120可以被明显地训练,如箭头1122所代表的,并且暗示地,如箭头1124所表示的来根据优先权执行分类。由箭头1122代表的明显训练通常在构造分类器1120的初始阶段实施,同时,由箭头1124所代表的暗示训练典型地在分类器1120已经被构造之后实施—来精调分类器1120,例如,通过背景监视器1134。为了描述分类训练和执行过程的典型目的,参照支持向量机(SVM)分类器在这里进行特定描述。其他分类或诊断方法可以手工制作和/或从数据中学习,该数据包括贝叶斯(Bayesian)网络,判定树,并且可以使用提供不同的独立模式的概率分类模型。这里用到的分类也包括包括统计回归,该统计回归用来发展紧急模型或其他影响警告和/或路由策略的优先级量度。
由箭头1122代表的文本分类器的训练1120包括在1126构造分类器,包括使用特征选择。例如,在明显训练阶段,分类器1120可表示为既是时间—临界文本又是非时间—临界文本,以便分类器能够在两者之间区分。该训练设置可以由用户提供,或者可以使用标准或者默认训练设置。指定训练主体,分类器1120首先应用特征选择过程来尝试发现最有差别的特征。例如,该处理可以使用相互的-信息分析。可在一个或多个单词或更高级区别上操作特征选择,该单词例如标记有自然语言处理的短语和部分语音。也就是说,可将文本分类器1120看作具有特殊标记文本来区分被认为是重要的文本的特征。
对文本分类的特征选择典型地在单个单词上执行搜索。除了信任单个单词外,特定域短语和特征的高—级模式也可以使用。特殊的标记也可以加强分类。例如,用于电子邮件临界性的学习分类器的质量,可以通过输入手工制作特征的特征选择过程来提高,该特征被识别为区分不同时间临界的电子邮件是有用的。因此,在特征选择过程中,对于区分不同时间临界层次的消息是有用的一个或多个单词以及短语及符号被考虑。
如下面例子所述,在鉴别消息临界性中的记号和/或值的模式包括如下区别,以及包括以下的布尔组合在消息报头中的信息例如到域(收信者信息)仅对用户寻址,对几个包含用户的人寻址,对少数人的别名寻址,对少数人的几个别名寻址,
Cc’d给用户,Bcc’d给用户,来自域(发信者信息)在预定的重要人物列表中的姓名,潜在地分为多种个人等级,(例如,家庭成员,朋友)鉴别的发信者用户的公司/组织来说是内部的,从一个在线的组织图表中得出和用户相关的组织关系的结构的信息,例如用户报告的管理者,用户管理者的管理者,向用户报告的人,外部公司人员。
过去时态的信息这些包括关于已经发生的事件的描述,该事件例如我们约会,去会面,发生的事,聚会,处理,昨天会面。
将来时态的信息明天,这个星期,你将要去,当我们可以,期望,将这样,将成为。
会议和协调信息聚会,你可以遇到,将聚会,与…合作,需要聚会,再见,安排会议,喜欢邀请,来访解决日期从文本模式中表示的将来对过去的日期和时间,以清楚或典型的缩写来陈述日期和时间,例如在5/2,在12:00直到鉴别时间的周期在消息组合或接收与解决的日期和时间之间的时间周期。
在消息组合日期或接收日期与在消息中涉及一个或多个解决时间和日期之间的时间的计算。
例如,由星期二,3月12日上午10时组合的消息包含短语,“今天下午吃午饭吗?”今天下午的午饭解决到下午12时到解决的日期/时间周期=2小时问题临近问题标记的单词,短语(?)个人请求的表示你能,你是,你将,你请,你能做,喜欢问,从你。
需要的表示我需要,他需要,她需要。我想,非常好,我想要,他想要,她想要,照顾。
时间临界的表示不久发生,立刻,截止日期将是,截止日期是,尽快,很快需要这个,不久将做这个,立刻做,这不久,到[日期],到[时间]。
重要性是重要的,是关键的,单词,短语+!明显的优先级标识状态(低,无,高)。
消息长度在新消息成分中的字节个数。
商业和成人内容垃圾电子邮件的突出标记免费!!,单词+!!!,18岁以下,仅供成人,用大写字母开头的单词的百分比,非字母字符的百分比。
除关键字和短语之外,在部分语音上的统计量和出现在主题中的句子的逻辑形式和消息的主体可以被使用。
指针模式指向电子邮件消息外部的资源的指针,例如嵌入在邮件消息中的(URLs)。
指向用户组织域外部的位置的指针数量和类型。
指向用户组织域内部的地址的指针数量和类型。
背景颜色电子邮件发送者可以使用除通常使用的默认的白背景之外的不同的背景模式嵌入的图形图形文件的数量,类型,以及大小。
例如,文件扩展名为.jpg,.gif的文件,反映为图形图像
HTML和XML用于充分控制描写和用于执行脚本的HTML和XML可以嵌入到电子邮件中。
通用自然语言处理分析出现在部分语音上的统计量和消息句子中的逻辑形式的,各种仿真陈述类别的标识,显示的不同方式,等等。
需要指出的是,上面描述的单词和短语组描述了典型的可以被用来从中产生分类器训练的单词、词组,或者短语。可以理解的是,其他类似单词、词组,或短语可以类似地使用,因此本发明不限于描述的范例。
此外,仍然参照图11,例如由箭头1124表示的分类器的隐含训练1120,可通过由背景监视器1134来监视用户工作或应用模式来实施,该背景监视器可以驻留在用户桌面或移动计算机中。例如,由于用户工作,邮件列表被回顾,可以假定首先阅读时间临界消息,稍后回顾低优先级消息,和/或删除。也就是说,当存在新电子邮件时,用户被监视以确定他或她是否立即打开该电子邮件,和以什么顺序,在没有打开的情况下删除该电子邮件,和/或以相对较短的时间答复该电子邮件。从而,分类器1120被调整以便用户在工作或者操作系统时被监视,通过在背景中训练,分类器被周期地改进并且为了提高实时决策而更新。建立分类器的背景技术可以从更新具有新训练消息的分类器1120中延伸出。
换句话说,大量的消息可以被聚集,其中新的过滤器在批处理中被产生,该批处理或者是每日的进度表,允许进入训练集的新消息量的数量,和/或组合。对于输入到分类器的每一个消息,例如,可以产生对分类器来说是的新的情况。例如,该情况作为文本的否定的肯定范例被存储,该文本是高或者低优先级的文本。作为一个例子,可以辨别一个或多个低、中、高紧急分类,以便在这些分类的每个中的成员的概率用来建立一个期望的临界。大量的临界类别可以用来寻找更高的分辨率。例如,如图12所示,消息的训练集1240(例和,非常高,高,中,低,非常低,等)可以初始化用来训练分类器1242,以便获得实时分类,如1244所显示,其中新消息按照由过训练集1240解决的例子的数量来分类。在图12中,三个这样的类别作为例子的目的被描述,然而,可以理解的是,很多这种类别可以根据期望重要性的可变度来训练。如如图所示,例如,根据由分类器1242分配的优先权,新消息1244被标注,标记和/或存储到一个或多个文件夹1246。这一点将在以下进行更详细地描述,分配的优先权可以进一步被随后的系统使用来产生对于用户的格式化消息,传送和形态确定给/。
根据本发明的其他方面,例如,通过监视用户和电子邮件的交互作用来实现一个数或值的估计,而不是标记这种情况或消息作为为一组文件夹中的一个。因此,分类器可以被继续更新但是有一个移动窗口,其中是新的而不具有一些老化的文献或消息的情况被考虑,这由用户规定。
例如,和消息的延迟回顾相关的常量丢失率被称为消息的期望临界(EC),其中,EC=ΣiCd(Hi)p(Hi|Ed)]]>其中C是成本函数,d是延迟,E是事件,H是电子邮件的临界类别,EC被表达为整个加权分类的似然值的和,该分类由用于潜在类别的成本函数C描述的丢失率加权。
作为例子,参照图12,文本,例如电子邮件消息,1236被输入到分类器1220中,其基于产生用于文本1236的优先权1238。也就是,分类器1220产生优先权1238,例如,测量的从0到100%的百分数。这个百分数基于分类器1220的先前训练,可以是文本1236是高或其他优先级的似然值的度量。
应当注意的是,作为上面描述的本发明,例如分类器1220和优先权1238可以基于一个方案被分析为高优先级或者低优先级,在该方案电子邮件处于训练阶段。如上所述,许多其他训练集可以用来提供更大或者更高分辨率的优先级区别。
本发明不局限于优先级的定义,由于该术语被分类器使用来分配该优先及给消息例如电子邮件消息。例如优先级可以按照丢失函数定义。尤其是,优先级可以按照在消息接收后每次回顾消息的延时中的丢失机会中的预期成本来定义。也就是,预期丢失或成本将导致消息的延时处理。该丢失函数可以进一步根据收到的消息类型而变化。
应当注意,在下面将更加详细描述的临界“C”可以分配给成本函数。因此,“C”通常描述“成本率”,指随着延时回顾增长的成本的比率。“成本函数”因此被定义为成本增长的比率。总的成本,可以被定义为预期丢失,“EL”可以被定义为EL=C*t,其中时间量,t,发生在消息被发送和接收之间。如果成本率被认为是常数,总体预期丢失将随着增加的延时量线性地增加直到消息被回顾。典型地发生的时间量处于不确定直到消息被用户回顾(例如,基于用户当前的环境或者用户的预计未来环境),或者—般来说,基于—个或多个观察(例如,用户上次在台式电脑上观看时间,在日历中用户当前约会状态,等等),和/或关于用户过去行为的数据。指定这样的不确定性,通过对每个时间延时量的预期丢失求和,并通过延时的概率为每个潜在延迟加权丢失的差益来计算预期丢失,例如 其中,EL是延时的不确定性,E代表关于用户状态的一个或多个观察(例如,日历,房间声音,桌面活动性,自上次接触有源设备的时间),i和j是索引,i和j是整数。
如果成本率是非线性的,通过在时间上的时间变化率的积分来相似地计算延时回顾的丢失,例如 预期丢失也可以通过添加内容来捕获不同延时的似然值来计算。
例如,一些消息,然而,不具有通过使用现行成本函数而准确近似的优先级。作为一个例子,和会议相关的消息在会议时间临近时增加其成本函数,并且之后,成本函数迅速减少。也就是说,在会议被错过后,用户通常不会为它做更多。这种情况通过非线性成本函数更好地近似,如图33所描述的。在图形2462中,成本函数2464可以表示基于非线性比率的总成本。因此,成本函数2464可以被表示为成本开始于零点,以单调的方式非线性上涨,并最终达到稳定的S形曲线。依赖于消息的类型,成本函数可以通过许多不同典型的成本函数,可以理解包括线性和非线性中的一个来近似。
因此,如上所述,消息的优先级可以仅仅是似然值,该似然值是基于分类器的输出的多个优先级中的一个,或者最可能的优先级分类所提供消息,也可以基于分类器的输出。换句话说,消息的预期时间临界,例如电子邮件消息,可以被确定。这个可以写成 其中EC预期的丢失率,p(临界值i)是消息具有临界值i的似然值,C(临界值i)是用于具有临界值i的消息的成本函数,代表对于延迟回顾值的常数丢失率,并且n是临界类别总数减一,在一般的情况下,如所描述的,成本函数可以是线性或非线性的,在函数是线性的情况下,成本函数定义对于时间的常数丢失率。对于非线性函数,丢失率随信息的延迟回顾或处理变化,并依赖于延迟量可以增加或减少。
如果范例中存在两个临界值级别低和高,预期丢失可以用下面的公式表示EC=p(关键的高)C(关键的高)+[1-p(关键的高)]C(关键的低)其中EC是消息的预期临界。此外,如果低临界消息的成本函数被设置为零,这变为EC=p(关键的高)C(关键的高)该丢失率相对于时间为非线性,可以通过延时回顾的时间对丢失率建立一个索引。在这种情况下,直到消息回顾时间的总的丢失可以计算并且可以表达为与时间有关的临界值的积分,或者, 其中t是在回顾文档或消息之前的延时。
通过重要性其他测量符合用于排队文档,诸如电子邮件消息的度量值。尽管上述讨论集中在作为时间临界的优先级上,其他的“重要性”观念也可以被训练。例如,这可以通过标记一组训练文件夹来实现“高重要性”一直向下到“低重要性”,其中可以确定“预期重要性”的量度。其他量度可以基于语义标签,“在旅行中我希望听到一天内的消息”并为转发给旅行者确定用于优先化消息的度量。此外,使用的一个量度是紧急性或者时间临界,因为它具有清晰的语义用于决定产生、筛余和路由选择。在这种情况下,根据不同等级紧急标记该类别,并根据推断消息处于每个类别的概率计算用于每个消息的预期紧急性。
临界分类的扩展部分,如在前面部分所述,也可以依照本发明提供。例如,分类可以包括对在特征分类之内或之间的高报酬特征组合的自动搜索。作为一个例子,特殊区别、结构等的组合,以及对于某些用户特别有用的单词,可以被搜索并在分类处理中使用。两个特征的组合被称为偶对,而三个特征的组合被称为三元组,等等。特征的组合可以允许提高分类。可以通过使用增量索引来提高分类,该索引在分类器中使用移动窗口。这允许分类器进行常规地刷新,旧数据超时,新的数据引入。
分类也可以基于消息中指定事件的日期和时间的确定。该确定可以分配特征给被分类器使用的消息。例如,分配的特性可以包括今天的四小时内,今天的八小时内,明天,本周,本月,和下个月和以后。这允许分类器对于分类的消息有提高的精度。通常,分类可以基于参考事件的时间,考虑事件是将来的还是已经过去的。对于将来事件,分类由此考虑发送者参考将来事件发生的时间。
其他新特征也可以结合到分类处理中。例如,组织图可以通过发送者在图表中的位置确定消息有多重要。语言上的特征可以结合到分类器中。为了适应不同的语言,依赖于发送者的起始地点,和/或书写消息的语言可以更改特征。可依赖于存储消息的不同的文件夹,以及其他标准和控制规则来改变分类。除电子邮件和其他源外,分类可以在紧急消息和其他信息源,例如股票自动收报机等等上执行。
通常,可以在分类处理中考虑发送者-接收者结构关系。例如,如果用户实质上是消息的唯一接收者,因当认为该消息比发送给少数人的消息更重要。依次,发送给少数人的消息将比用户盲目拷贝或复写拷贝的消息更重要。至于发送者,基于发送者的名字是否被识别来分配临界。依赖于发送者是否对于和用户相关的组织是内部或外部来分配临界。
在分类中可以考虑的其他的区别包括消息的长度,是否检测到问题,用户的名字是否在消息中。与时间临界相关的语言可以增加消息的重要性。例如,诸如“不久发生”,“立刻”,“尽快”,“尽快”,和“截止时间是”的短语可以使消息变得更关键。与将来时态相比,可以考虑过去时态的使用,以及由短语例如“聚集”,“我们可以聚会”等等指定的同等任务。垃圾邮件的证据可以降低消息的优先权。代表组合的判定,例如来自于最接近于组织表中的用户的发送者的简短问题,也可以在分类处理中考虑。
现在转向图13,根据本发明的一个方面,系统1300描述了通知机和环境分析器如何一起运行。系统1300包括环境分析器1322,通知机1324,一个或多个通知源1到N,1326,1327,1328,可以作为通知源操作的优先权系统1330,以及一个或多个通知接收器,1到M,1336,1337,1338,其中N和M分别是整数。源也称作事件发布者,同时接收器也被称作事件用户。可以有许多接收器和源。通常,通知机1324传送通知,它也被称为事件或者是警报,从源1326-1328到接收器1336-1338,基于被环境分析器1322存储和/或访问的部分参数信息。
环境析器1322存储/分析关于影响通知决策的用户的变量和参数的信息。例如,参数可以包括语境信息,例如每天的时间里或一周的每天中,用户的典型位置和注意的焦点或行动,和调节这些参数的附加参数,例如设备用户趋向在不同的位置可以到达。这些参数可以是通过一个或多个传感器进行自主观察的函数。例如,基于由全球定位系统(GPS)子系统提供的用户位置的消息,基于有关使用的设备类型和/或设备的使用模式的消息,可以被选择或更改一个或多个分布(没有显示),该设备包括上次由用户访问的特定类型的设备。。此外,如以下更详细地描述,可以使用自动推理,来动态地推断参数或状态例如位置和注意力。分布参数可作为被用户编辑的用户分布来存储。除了依赖预先定义的分布组或者动态推论外,通知结构可以允许用户实时指定他的或她的状态,例如像用户是无效的除非重要通知用于下个“x”小时,或者直到给定的时间。
参数也可以包括默认通知优选参数,该参数关于用户的优先权被不同设置中的不同类型的通知干扰,这可用作通知机1324产生通知决定的基础,并且在此基础上用户可以启动更改。参数可以包括在不同情况下,用户希望怎样被通知的默认参数(例如,像通过电话,通过寻呼机)。该参数可以包括像被不同设置中的不同模式中断通知的成本这样的估计。这可以包括指示用户在不同位置的似然值,不同设备有效的似然值,在指定时间上他的或她的注意状态的似然值的语境参数,也包括指示用户在给定时间上想要怎样被通知的通告参数。
根据本发明的一个方面,被语境分析器1322存储的信息,包括被分析器确定的语境信息。基于一个或多个语境信息源(没有显示),通过鉴别用户的位置和注意状态由分析器1322确定上下文信息。这一点在后面的描述部分中作更详细地描述。例如,语境分析器1322,能够通过全球定位系统(GPS)以一定的精度确定用户的实际位置,该系统是用户汽车或蜂窝电话的一部分。分析器也可以使用统计模型通过考虑背景估计和/或观察集合,并通过考虑像日子的类型、钟点、用户日历中的数据的信息,和关于用户行动的观察这样的信息来确定用户在给定的注意状态的似然值。给定的注意状态可以包括用户对接收通知是否是开放的,繁忙的或不开放的,还包括其他考虑像工作日、周末、假日,和/或其他场合/时期。
源1326-1328,1330产生打算供用户和/或其他实体使用的通知。例如,源1326-1328既可以包括通信,像因特网和基于网络的通信,电话通信,以及软件服务。在此将通知源通常定义为哪个产生事件、哪个涉及通告和警报,打算警告用户,或者为用户作代理,关于信息、服务,和/或系统或世界事件。通告源也可以叫做事件源。
例如,电子邮件作为通知可以由优先级系统1330产生,以便它被优先化,其中产生通知的应用程序或系统以对应于该电子邮件的可能的重要性或紧急性的相关优先级来分配该电子邮给用户。例如,该电子邮件也可以在不考虑相对重要性的情况下发送给用户。基于因特网的服务可以包括通知,该通知含有用户预定消息,诸如时常发生的当前新闻的标题,以及股票报价。
通告源1326-1328自己可以是推动型或拉动型的源。推动型的源是那些在没有相应请求的情况下自动产生和发送信息,诸如标题新闻和其他因特网相关服务的源,该因特网有关服务在被预定后自动发送。拉动型的源是那些响应请求而发送信息的源,诸如在邮件服务器登记通信后接收电子邮件。其他通知源包括以下·电子邮件桌面应用诸如日历系统;·计算机系统(例如,可以通过消息警报用户,该消息是关于系统活动或问题的警报信息);·因特网相关服务,约会信息,行程查询;·在一个或多个共享文件夹中的文档或者某种文档数量中的变化;·响应用于消息的固定或持久查寻的新文档的可用性;和/或,·用于关于人们和他们的出现,他们位置的改变,他们的接近(例如,当我移动时让我知道,是否其他同事或朋友在离我10英里的范围内),或者他们的可用性(例如,当Steve可以用于会话并且靠近可以完全支持视频电话会议一个高速连接时让我知道)的信息源。
通知接收器1336-1338可以向用户提供通知。例如,该通知接收器1336-1338可以包括计算机,例如台式和/或便携式计算机,手持式计算机,手机,固定电话,寻呼机,车载计算机,又可以包括其他的系统/应用,这一点可以理解。应当注意接收器1336-1338中的一些可以比其他的接收器更充分地传送通知。例如,当耦合到局域网或者是因特网时,台式计算机典型地具有扬声器和与其连接的相对大的彩色显示器,以及具有更高的带宽用于接收信息。因此,可以通过台式计算机以相对充分的方式传送通知给用户。相反地,例如很多手机具有可以是黑白的较小显示器,并且以相对低的带宽接收信息。相应地,例如与手机传送的通告相关的信息通常是较短的并且配合电话接口能力。因此,通告的内容可以依赖于它是否发送到手机或台式电脑而不同。根据本发明的一个方面,通告接收器可以涉及,例如哪一个通过事件预约服务订阅事件或通告。
通知机1324访问由语境分析器存储和/或确定的信息,并确定从源1326-1328接收到的哪个通知传送给哪个接收器1336-1338。此外,通知机1324依赖于已经选择哪个接收器1336-1338来发送消息,可以确定通知如何传送。例如,可以确定通知在提供给选择的接收器1336-1338之前应概括。
本发明不限于通知机1324如何确定哪个通知传送给哪个接收器,并且通告以什么方式传送。根据一个方面,可以使用理论上的确定分析。例如,通知机1324可以适合推断重要的关于变量的不确定性,该变量包括用户的位置、注意、设备可用性,以及如果没有警报的情况下直到用户访问信息的时间量。通知机1324可以做出关于是否警告用户该通知的通知决定,如果是,概括的性质和合适的设备或设备组用来中继消息。通常,通知机1324确定通告的网络预期值。在实现过程中,可以考虑如下·每个可用通知接收器的保真度和传输可靠性;·打扰用户注意成本;·给用户的消息的新颖性;·直到用户回顾他或她自己的信息的时间;·消息的潜在语境敏感值;和/或,·在通知中包含的信息的增大和/或减少时间值。
从而关于不确定性的推断可以产生值的预期似然值,该值例如通过使用特殊设备的特殊模式中断用户的成本,该设备指定用户的一些注意状态。通知机1324可以产生如下的一个或多个决定·用户当前注意什么和做什么(基于,例如,语境信息);·用户当前在哪里;·信息有多么重要;·延期通知的成本是什么;
·通告要怎样分散;·用户了解的似然值是什么;并且,·与使用指定通知接收器的特殊模式相关的保真度丢失是什么。
因此,通知机1324可以执行分析,诸如未决而有效通知的理论上的确定分析,估计由消息接收器和源提供的依赖于语境的变量,并推断选择的不确定性,诸如直到用户可能去回顾信息的时间以及用户的位置和当前的注意状态。
此外,通知机1324通过语境分析器1322代替或支持人格化的理论决定分析来访问存储在用户分布中的信息。例如,用户分布可以指示特定时间,用户更愿意通过寻呼机被通知,并且只有当通知具有预定的重要性级别。该信息可以用作基准,从中开始理论决定分析,或者可以是一种方式,通过该方式通知机1324确定如何和是否通知用户。
根据本发明的一个方面,通知平台结构1300可以被配置为驻留在事件或消息基础结构之上的层。然而,本发明不仅局限于任何特定事件基础结构。此外,该结构可以被配置为驻留在灵活分布的计算基础结构之上的层,这可以被本领域普通技术人员理解。因此,通知平台结构可以使用基础结构,通过这种方式源发送通告、警报和事件,并通过该方式接收器例如末端设备接收通知、警报和事件。然而,本发明不局限于此。
参照图14,为执行本发明各种方面的典型环境1410包括计算机1412。计算机1412包括处理单元1414,系统存储器1416,以及系统总线1418。系统总线1418连接系统元件包括,但不局限于,系统存储器1416到处理单元1414。该处理单元1414可以是任何不同的可用处理器。双重微处理器和其他多处理器结构也可以作为处理单元1414使用。
系统总线1418可以是任何多种类型总线结构包括存储器总线或存储器控制器,外围总线或者外部总线,和/或使用任何种类可用总线结构的本地总线,该总线结构包括,但不仅局限于,11位总线,工业标准结构(ISA),微通道结构(MSA),扩展ISA(EISA),智能驱动电子设备(IDE),VESA本地总线(VLB),外围元件互连(PCI),通用串行总线(USB),图形加速接口(AGP),个人计算机存储卡国际联合总线(PCMCIA),以及小型计算机系统接口(SCSI)。
系统存储器1416包括易失存储器1420和非易失存储器1422。诸如在启动期间存储在非易失存储器1422中的基本的输入输出系统(BIOS),包含基本例程在计算机1412内的元件之间传递信息。作为例图,并且不限制,非易失存储器1422可以包括只读存储器(ROM),可编程ROM(PROM),电可编程ROM(EPROM),电可擦写ROM(EEPROM),或闪存。易失存储器1420包括充当外部缓冲存储器的随机访问存储器(RAM),。作为例图并不限制,RAM以各种形式存在诸如同步RAM(SRAM),动态RAM(DRAM),同步DRAM(SDRAM),双数据速率SDRAM(DDR SDRAM),增强SDRAM(ESDRAM),同步连接RAM(SLDRAM),以及直接内存总线(Rambus)RAM(DRRAM)。
计算机1412也包括可移动/固定、易失/非易失计算机存储媒质。图14描述了,例如磁盘存储器1424。磁盘存储器1424包括,但不局限于,像磁磁盘驱动器的设备,软盘驱动器,磁带驱动器,100兆可卸盒式磁盘,LS-100驱动器,闪存卡,或者存储条。另外,磁盘存储1424可以包括单独的存储媒质或与其他存储介质结合包括,但不仅局限于,光盘驱动器诸如压缩磁盘ROM设备(CD-ROM),CD可记录驱动器(CD-R驱动器),CD可重写驱动器(CD-RW驱动器)或数字通用磁盘ROM驱动器(DVD-ROM)。为了易于磁盘存储设备1424与系统总线1418连接,典型地使用诸如接口1426的可移动或固定接口。
可以理解图14描述了用户与在合适的操作环境1410中描述的基本计算机资源之间的充当中介的软件。这样的软件包括操作系统1428。操作系统1428,可以存储在磁盘存储器1424上,来控制和分配计算机系统1412的资源。系统应用1430利用操作系统1428的资源管理贯穿程序模块1432和存储在系统存储器1416或磁盘存储器1424上的编程数据1434。可以理解本发明可根据各种操作系统或操作系统的组合来实施。
用户通过输入设备1436输入命令或信息到计算机1412中。输入设备1436包括,但是不局限于,像鼠标的指示设备、跟踪球、笔尖、触摸垫、键盘、麦克风、操纵杆、游戏垫、卫星抛物面天线、扫描仪、电视调谐卡、数字照像机、数字视频摄像机、网络摄像机,等等。这些和其他输入设备通过系统总线1418经由接口端口1438连接到处理单元1414。接口端口1438包括,例如串行端口,并行端口,游戏端口,以及通用串行总线(USB)。输出设备1440使用一些和输入设备1436相同类型的端口。因此,例如,USB端口可以用来提供到计算机1412的输入,以及从计算机1412输出信息到输出设备1440。提供输出适配器1442用来说明在其他输出设备1440中存在一些像监视器、扬声器、以及打印机这样的输出设备1440需要特殊的适配器。输出适配器1442包括,通过说明并不限制,提供输出设备1440和系统总线1418之间连接手段的显卡和声卡。需要指出的是,其他设备或设备系统,诸如远程计算机1444提供有输入和输出能力。
计算机1412可使用逻辑连接到一个或多个远程计算机,诸如远端计算机1444而操作在网络环境下。远程计算机1444可以是个人计算机、服务器、路由器、网络PC、工作站、微处理器设备、等同设备或其他公共网络节点等等,并典型地包括描述的与计算机1412相关的许多或所有元件。为了简洁的目的,只有存储设备1446图示在远程计算机1444中。远程计算机1444通过网络接口1448逻辑连接到计算机1412上并通过通信连接1450进行物理连接。网络接口1448包含通信网络诸如局域网(LAN)和广域网(WAN)。局域网技术包括光纤分布式数据接口(FDDI),同轴分布式数据接口(CDDI),以太网/IEEE 1102.3,令牌网/IEEE 1102.5等等。广域网技术包括,但不局限于,点对点连接,电路交换网络,像综合业务数据网络(ISDN)及其变化,分组交换网络,以及数字用户线(DSL)。
通信连接1450涉及用于连接网络接口1448到总线1418的的硬件/软件。尽管为了说明清楚,通信连接1450显示在计算机1412内部,它也可以在计算机1412外部。必须连接到网络接口1448的硬件/软件包括,仅作示范性目的,内部和外部技术,诸如包括常规电话等级调制解调器,电缆调制解调器和DSL调制解调器,ISDN适配器,以及以太网卡的调制解调器。
图15是示例计算环境1500的示意性框图,本发明和该环境可相互作用。系统1500包括一个或多个客户端1510。客户端1510可以是硬件和/或软件(例如,线程、过程、计算设备)。系统1500也包括一个或多个服务器1530。该服务器1530可以是硬件和/或软件(例如,线程、过程、计算设备)。例如,通过使用本发明,服务器1530可以收容线程来执行变换。在客户端1510和服务器1530之间的一种可能的通信可以是适合在在两个或多个计算机进程中传输的数据分组形式。系统1500包括有助于客户端1510和服务器1530之间通信的通信构架1550。客户端1510可操作地连接到一个或多个可用来存储客户端1510本地信息的客户端数据存储器1560。类似的,服务器1530可操作地连接到一个或多个可用来存储服务器1530本地信息的服务器数据存储器1540。
以上所说的包括本发明的例子。当然,不可能为了描述本发明而描述每一个可能的元件组合或者方法,但是本领域普通技术人员可以认识到本发明的许多进一步组合和变化是可能的。相应地,本发明意图包含落在附加权力要求的精神和范围内的所有替换、修改和变化。此外,术语“包括”使用在详细描述或权力要求的范围中,该术语意图包含在相似于术语“包含”的方式中,并且当使用作为权利要求中的过渡单词时,术语“包含”被解释。
权利要求
1.一种过滤接收信息的系统,包含根据分类范围分类一个或多个接收消息的成批过滤器,范围从至少一个成批值的分类跨越到至少一个非成批值的分类;和至少一个第二过滤器,为了便于消息的自动地处理来进一步分类接收到的消息。
2.如权利要求1所述的系统,基于接收的消息被确定趋向于成批值的分类或者趋向于非成批值的分类的似然值,分类的范围包括值的连续区间。
3.如权利要求3所述的系统,成批过滤器进一步包含可调整的阈值设置,以确定成批分类值和非成批分类值之间的差别。
4.如权利要求1所述的系统,该消息包括电子邮件和声音编码文本文件中的至少一个。
5.如权利要求1所述的系统,第二过滤器是用来分配紧急分数的紧急过滤器。
6.如权利要求5所述的系统,紧急过滤器使用为紧急和非紧急消息分配延时回顾的预期成本的实用模型。
7.如权利要求1所述的系统,至少一个成批过滤器和第二过滤器检验新消息和给消息注释一个表现在紧急域中的紧急值,和表现在成批电子邮件域中的成批电子邮件的似然值。
8.如权利要求7所述的系统,进一步包含策略部分,该成分包括用于考虑涉及消息紧急和/或成批考虑的推论的策略或规则。
9.如权利要求8所述的系统,由策略部分使用规则或策略来重新分配高于成批似然值阈值的成批消息到文件夹中用于以后回顾。
10.如权利要求9所述的系统,进一步包含重新分配按紧急性分类剩下的电子邮件到另一个文件夹中。
11.如权利要求1所述的系统,成批过滤器使用预期紧急性计算,接下来是加权计算以确定消息是否为成批。
12.如权利要求11所述的系统,按如下函数计算预期的紧急性,f(p(紧急的|E1..En),p(成批的电子邮件|E1..En),其中f是函数,p是概率,并且E是涉及紧急性或者消息是否是成批的证据。
13.如权利要求12所述的系统,预期紧急性计算如下预期紧急性=p(紧急的|E 1..En)(延时回顾的成本(紧急的电子邮件))+(1-p(紧急的|E1..En))(延时回顾的成本(非紧急的电子邮件))
14.如权利要求12所述的系统,如下确定成批消息预期的紧急性=1-p(成批电子邮件|E1..En)x[p(紧急的|E1..En)(延时回顾的成本(紧急的电子邮件))+(1-p(紧急的|E1..En))(延时回顾的成本(非紧急的电子邮件))
15.如权利要求1所述的系统,成批过滤器计算成批分数或成批分数的离散状态,由此直接输入到形成串连过滤器的第二个过滤器。
16.如权利要求1所述的系统,进一步包含为了与成批过滤器和第二过滤器相互作用,而具有阈值设定、训练设定以及旁路设定中至少一个的用户界面。
17.如权利要求16所述的系统,进一步包含报头分析器以自动地从成批过滤器中移除一些消息的考虑。
18.如权利要求17所述的系统,进一步包括标记消息,由此内部调用旁路机制。
19.如权利要求1所述的系统,进一步包含接着依赖时间的成本函数计算初始值确定的元件。
20.一种计算机可读介质,具有存储在其上的计算机可读指令,用于执行权利要求1的成批过滤器和第二过滤器中的至少一个。
21.一种易于消息过滤的系统,包含为成批邮件消息自动确定消息分数的装置;和基于分数和预定的阈值来过滤消息的装置。
22.一种易于消息处理的方法,包含使用第一过滤器为消息确定成批消息分数;使用第二过滤器为消息确定紧急分数;和基于成批消息分数和紧急分数的至少一个从其他消息中分类成批消息。
23.如权利要求22所述的方法,进一步包含使用可调阈值以易于分类。
24.如权利要求22所述的方法,进一步包含使用一个或多个分类器来执行第一过滤器和第二过滤器中的至少一个。
25.如权利要求22所述的方法,进一步包含旁路至少一个过滤器以允许从其他消息中分类成批消息。
26.如权利要求22所述的方法,进一步包含使用并联过滤器组合和串联过滤器组合中的至少一个以允许从其他消息中分类成批消息。
27.如权利要求22所述的方法,进一步包含执行加权操作以确定成批消息的分数。
28.如权利要求22所述的方法,进一步包含接着紧急分类器使用重要性分类器以分类成批消息。
29.如权利要求22所述的方法,进一步包含接着依赖时间的成本过滤器使用初始值过滤器。
30.一种易于消息处理的方法,包含使用第一过滤器为消息确定成批消息分数;使用第二过滤器为消息确定重要性分数;和基于成批消息分数和重要性分数的至少一个从其他消息中分类成批消息。
31.如权利要求30所述的方法,进一步包含使用紧急过滤器来分类已经被确定为重要的消息。
32.一个计算机可读媒质,具有存储在其上的数据结构,包含描述电子消息的第一数据区域;为电子消息描述成批分数的第二数据区域;并且为电子消息描述紧急分数的第三数据区域。
全文摘要
本发明涉及易于有效的和自动处理的消息系统和方法。提供成批过滤器来根据分类的范围分类一个或多个接收的消息,该范围从至少成批分类值跨度到至少非成批分类值。提供第二过滤器来进一步分类接收到的消息以易于消息的自动处理。基于确定接收的消息趋向于或落在成批分类值或趋向/落入非成批分类值的似然值,分类的范围包括似然值的连续区间。并且,成批过滤器或过滤器组可以包括可调整的阈值设置来确定或定义在成批分类和非成批分类之间的差别。各种过滤器的组合可能包括多个过滤器排列,并行排列,串联排列,以及其他排列以易于对消息过滤和分类,使得用户可以更有效地及时的处理该信息。应用包括分类程序的加强,用于根据具有紧急性或重要性过滤器以串联和并联过滤方式组合的成批电子邮件过滤器组合,从非紧急的或非重要的电子邮件中识别紧急的或重要的电子邮件。
文档编号G06Q10/00GK1577359SQ200410063950
公开日2005年2月9日 申请日期2004年5月28日 优先权日2003年6月30日
发明者E·J·豪维茨, J·T·埃佩西布尔 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1