多层电子邮件优先级排序法

文档序号：6532965阅读：356来源：国知局

多层电子邮件优先级排序法
【专利摘要】一种使入站消息优先级排序自动化的方法。所述方法包括使用训练数据训练计算机系统的全局分类器。根据多个反馈实例动态地训练所述计算机系统的用户特定的分类器。根据基于主题的用户模型，推断所述计算机系统接收的所述入站消息的主题。计算所述入站消息的多个上下文特征。根据所计算的所述入站消息的上下文特征和所述全局分类器与所述用户特定的分类器的加权组合，确定用于向所述入站消息分配优先级级别的优先级分类策略。根据所述优先级分类策略对所述入站消息进行分类。
【专利说明】多层电子邮件优先级排序法

【技术领域】
[0001] 本发明一般地涉及用于电子邮件消息的优先级排序的方法和装置，更具体地说，涉及用于多层电子邮件消息优先级排序法的方法和装置。

【背景技术】
[0002] 假如知识工作者每天接收大量消息并且需要大量时间来阅读并回复每个消息，则知识工作者会想办法通过扫描收件箱，检查发件人姓名和主题以使某些消息的关注优先级高于其它消息，来优化花在消息处理上的时间。当知识工作者收件箱内的新消息数量很大时，过滤消息以迅速识别高优先级消息本身成为重要且耗时的工作。此重要且耗时的工作让人每天觉得"邮件过载"，并且偶尔会导致忽略关键消息的不良后果，因为人们发现在根据发件人、主题或日期等元素进行排序时，很难创建有效的次序。
[0003] -般很容易理解，用户针对消息执行的诸如阅读、回复、归档或删除之类的动作主要取决于用户感知的消息重要性。因此，电子邮件优先级排序的主要目标是识别具有较高的用户感知重要性值的电子邮件消息。
[0004] 已提出或建议若干用于重新设计电子邮件接口的技术以帮助用户快速识别其收件箱中的重要电子邮件。例如，现有的方法多数根据使用监管式学习算法训练的分类器来排列电子邮件的优先级。
[0005] 例如，某些传统的方法自动将电子邮件分组为会话式线程并根据具有各种社交、内容、线程和标签特征的线性逻辑回归模型排列消息的优先级，从而对用户的入站消息进行优先级排序。其它传统的方法在基于单词、基于短语以及元级特征（例如，消息发件人、收件人、长度、时间、是否带附件）上使用支持向量机（SVM)分类器以确定新的未读电子邮件的重要性。还有一些传统的方法使用SVM分类器，但是根据通过电子邮件数据推导的每个用户的个人社交网络计算额外的社交重要性特征。这些方法为了分类器学习而使用的基于内容的特征是在电子邮件内容中出现的单词，对于单词太少（稀疏数据）的极简短消息或单词太多的长消息（噪声数据）而言，这种方法效果不太好。
[0006] 例如，传统的技术通过查看消息正文内的所有单词来训练其分类器。这种方法导致高维度分类，因为每个单词都是一个维度。有些传统的分类器使用此高维度方法，然后尝试通过计算一个或多个特定单词出现的实例数来推断消息的重要性，而其它传统的分类器尝试根据一个单词相对于另一单词的位置来预测消息的重要性。由于其高维特性，这些方法非常嘈杂。因此，用户很难了解为何看上去类似的消息被采用传统方法的系统以不同的方式进行分类。
[0007] 为增加优先级排序的准确度，有些传统方法通过一次性批处理标记的训练数据来训练分类器，它们或者不考虑动态用户反馈，或者简单地使用用户反馈逐步更新分类器的特征权重。例如，在提供用户反馈的传统技术中，反馈只是被调入分类器，这简单地调整分类器的现有权重。但是，由于仅针对每个特定的反馈实例更新分类器，因此该反馈可能不会立即反映在分类器中，例如，即使在用户指示来自某一发件人的消息为低优先级之后，他仍可能会从该发件人接收到被标记为高优先级的消息。换言之，可能需要一些时间才能让分类器的权重以有意义的方式更新，例如，以导致系统更改预测的消息优先级的方式。
[0008] 此外，根据用户反馈积极地更新特征权重会降低电子邮件优先级排序的稳健性，例如，牺牲分类器提供的可靠性，而保守地更新特征权重将导致对用户反馈的迟缓响应。
[0009] 因此，本发明的发明人意识到需要一种改进的电子邮件系统和方法，从而通过在不牺牲全局（通用）分类器提供的可靠性的情况下，快速结合用于确定已接收电子邮件消息优先级的用户特定准则，来帮助用户执行他/她的入站消息日常分类。

【发明内容】

[0010] 鉴于传统方法和结构的上述以及其它示例性问题、缺陷和缺点，本发明的一个示例性特征是提供一种方法和结构，其中由基于主题的模型通知电子邮件优先级排序，该模型从用户的电子邮件数据和相关企业信息（例如，组织结构）自动构建。
[0011] 在本发明的第一示例性方面，全局分类器有助于缓解冷启动问题并提高优先级预测的稳健性，而用户特定的分类器增加系统的适应性并允许对用户反馈做出快速响应。
[0012] 在本发明的另一示例性方面，用户模型、消息元数据和消息内容被用于计算作为优先级分类器输入的上下文特征。
[0013] 在本发明的另一示例性方面，提供组合全局优先级分类器和用户特定的分类器的动态策略。
[0014] 本发明提供如权利要求1中要求保护的方法，以及对应的系统和计算机程序。
[0015] 根据本发明的另一示例性方面，提供一种装置。所述装置包括用于接收入站消息的输入端；至少一个处理器；以及有形地体现用于使入站消息优先级排序自动化的一组指令的存储器。所述指令包括批次学习模块，该批次学习模块根据输入其中的训练数据生成全局分类器；反馈学习模块，该反馈学习模块根据多个反馈实例生成用户特定的分类器；特征提取模块，该特征提取模块接收所述入站消息和基于主题的用户模型，根据所述基于主题的用户模型推断所述入站消息的主题，并且计算所述入站消息的多个上下文特征；以及分类模块，该分类模块根据所述入站消息的多个上下文特征和所述全局分类器与所述用户特定的分类器的加权组合，动态地确定用于向所述入站消息分配优先级级别的优先级分类策略，并且根据所述优先级分类策略对所述入站消息进行分类。
[0016] 根据本发明的另一示例性方面，提供一种计算机系统，其中包括有形地体现用于使入站消息优先级排序自动化的一组指令的存储器。所述指令导致所述计算机系统包括：多个分类器，其中包括：使用训练数据创建的全局分类器；根据反馈实例动态更新的用户特定的分类器；基于主题的用户模型，其包括多个主题模型；特征提取模块，其推断所述入站消息的主题并根据所推断的所述入站消息的主题计算所述入站消息的多个上下文特征；以及分类模块，其根据所述全局分类器与所述用户特定的分类器的动态组合，向所述多个上下文特征中的每个上下文特征分配权重，组合每个上下文特征的已分配权重，并且确定所述入站消息的优先级级别。
[0017] 根据本发明的另一示例性方面，提供一种使入站消息优先级排序自动化的计算机系统。所述计算机系统包括：多个分类器，其中包括：使用训练数据创建的全局分类器；以及根据反馈实例动态更新的用户特定的分类器；基于主题的用户模型，其包括多个主题模型；特征提取模块，其推断所述入站消息的主题并根据所推断的所述入站消息的主题计算所述入站消息的多个上下文特征；以及分类模块，其根据所述全局分类器与所述用户特定的分类器的动态组合，向所述多个上下文特征中的一组上下文特征分配权重，组合所述一组上下文特征的已分配权重，并且确定所述入站消息的优先级级别。根据本发明的另一示例性方面，提供一种装置。所述装置包括：用于接收入站消息的输入端；至少一个处理器；以及有形地体现用于使入站消息优先级排序自动化的一组指令的存储器。所述指令导致所述装置包括：特征提取模块，其根据基于主题的用户模型推断所述入站消息的主题，并且根据所推断的所述入站消息的主题计算所述入站消息的多个上下文特征；以及分类模块，其根据多个分类器的动态组合向所述多个上下文特征分配权重，并且根据所述上下文特征的已分配权重的组合，动态地确定用于向所述入站消息分配优先级级别的优先级分类策略。
[0018] 根据本发明的又一方面的计算机可读存储介质包括存储程序的计算机可读存储介质，该程序用于使计算机执行一种方法以实现多层电子邮件优先级排序法。
[0019] 根据本发明的又一方面的计算机可读存储介质包括存储程序的计算机可读存储介质，该程序用于使计算机充当上述装置以实现多层电子邮件优先级排序法。
[0020] 根据本发明，使用新邮件与已被提供相应反馈的旧消息之间基于实例的匹配，动态地确定组合所述全局分类器与所述用户特定的分类器的最佳策略。此方法允许本发明在不牺牲所述全局分类器提供的可靠性的情况下，快速结合用于确定已接收电子邮件消息优先级的用户特定的准则。

【专利附图】

【附图说明】
[0021] 通过下面参考附图对本发明的示例性实施例的详细描述，可更佳地理解上述及其它示例性目的、方面和优点，其中：
[0022] 图1示出本发明的一个示例性实施例的系统架构；
[0023] 图2示出本发明的示例性图形用户接口；
[0024] 图3示出本发明的示例性基于主题的用户模型；
[0025] 图4示出本发明的示例性消息优先级排序过程的流程图；
[0026] 图5示出跨不同分类器权重设置的三个示例性优先级分类方案的准确结果；
[0027] 图6示出跨不同分类器权重设置的三个示例性优先级分类方案的假正率；
[0028] 图7示出跨不同分类器权重设置的三个示例性优先级分类方案的假负率；
[0029] 图8示出跨不同分类器权重设置的具有不同分类阈值的动态+发件人/主题分类方案的准确结果；
[0030] 图9示出跨不同分类器权重设置的具有不同分类阈值的动态+发件人/主题优先级分类方案的假正率；
[0031] 图10示出跨不同分类器权重设置的具有不同分类阈值的动态+发件人/主题优先级分类方案的假负率；
[0032] 图11示出电子邮件优先级排序的重要上下文特征；
[0033] 图12示出用于实现本发明的各示例性实施例的典型硬件配置；以及
[0034] 图13示出可与图12的典型硬件配置一起使用的多个存储介质实例。

【具体实施方式】
[0035] 现在参考附图，更具体地说参考图1-13,其中示出根据本发明的方法和结构的各示例性实施例。
[0036] 本发明提供一种多层电子邮件优先级排序法。本发明自动识别用户收件箱中的高优先级电子邮件。根据本发明的一方面，所公开的方法和系统在图形用户接口（GUI)中与其它电子邮件分离的单独区域中显示高优先级电子邮件。这些特征可单独或组合地帮助用户执行他/她的入站消息日常分类。
[0037] 如此处所述，入站电子邮件的优先级排序由用户模型通知，例如，基于主题的用户模型，该模型例如根据用户的电子邮件数据和相关企业信息（例如，组织结构）自动创建。在收到入站消息时，本发明使用基于主题的用户模型中包括的信息以及已接收消息的元数据和内容，计算一组上下文特征的值。根据这些上下文特征，本发明然后使用多层法确定入站/已接收消息的优先级。
[0038] 根据本发明的一方面，多层法动态地确定如何将全局优先级分类器（从所标记的多个用户的训练数据建立）与从持续的用户反馈构建的用户特定的分类器相组合来实现稳健性与响应性之间的平衡。例如，本发明提供多层法以通过动态地确定组合全局分类器与用户特定的分类器的最佳策略来实现入站消息优先级分类。该策略例如可基于新消息与系统已接收其显式和/或隐式优先级反馈的消息之间的实例匹配。
[0039] 根据本发明的另一方面，根据基于主题的用户模型，从每个消息推导一组上下文特征。如此处所述，该基于主题的用户模型对粒度信息（例如，有关用户就不同主题与不同人员的交互、每个主题对用户的重要度，以及企业环境中用户与用户电子邮件中每个联系人的关系（例如，直接报告、团队成员、非团队成员）的信息）进行编码。此外，如此处所述，本发明实现多层优先级分类法。例如，与简单地使用固定权重组合全局分类器与用户特定的分类器的传统技术相比，本发明使用新消息与先前已被提供反馈的消息之间基于实例的匹配来动态地确定组合全局分类器与用户特定的分类器的最佳策略。此方法允许本发明在不牺牲全局分类器提供的可靠性的情况下，快速结合用于确定已接收电子邮件消息优先级的用户特定的准则。
[0040] 图1示出一个示例性系统架构，其中包括五个主要模块。用户建模模块100、特征提取模块110、批次学习模块120、反馈学习模块130,以及分类模块140。优选地，接口 150 包括图形用户接口（⑶I)。
[0041] 用户建模模块100创建基于主题的用户模型101以对有关用户交互行为和用户与每个用户消息发件人之间关系的信息进行编码。更具体地说，在一个示例性实施例中，用户建模模块100接收来自用户电子邮件和日历内容91的数据以及来自企业存储库90的数据作为输入。用户建模模块100然后创建基于主题的用户模型101，该模型包含编码信息，例如用户通过电子邮件与他/她的联系人的交互行为、他们讨论的主题，以及他们在企业内的关系类型和强度。
[0042] 特征提取模块110接收入站消息151 (用于优先级排序或处理用户反馈）或训练数据111 (用于创建全局分类器121)，以及基于主题的用户模型101作为输入，然后计算每个消息的一组上下文特征的值。这些上下文特征描述与消息151或训练数据111中的消息关联的上下文，其中包括与电子邮件发件人（从基于主题的用户模型101中检索）关联的交互和关系信息，以及被视为影响用户感知的消息重要性的消息特性。特征提取模块110 然后将消息的上下文特征输出到批次学习模块120、反馈学习模块130和分类模块140。
[0043]批次学习模块120根据训练数据111使用监管式学习创建全局优先级分类器121。具体而言，批次学习模块120调用特征提取模块110以从训练数据111提取上下文特征。 [0044]反馈学习模块130从接口 150接收有关各个消息151的优先级的反馈152作为输入，然后分析这些消息151以创建用户特定的分类器131。具体而言，经由特征提取模块110 将消息151的上下文特征输入反馈学习模块130。
[0045] 分类模块140根据消息151的多层优先级分类法确定消息151的优先级。具体而言，分类模块动态地组合全局分类器121与用户特定的分类器131。同时，分类模块140还根据基于主题的用户模型101的特定主题模型，接收特征提取模块110从消息151提取的上下文特征。根据全局分类器121与用户特定的分类器131的动态组合，分类模块140向消息151的每个上下文特征分配权重，或者在另一实施例中，为消息151的一组特定上下文特征分配权重。根据用户特定的分类器131与全局分类器121的组合结果，分类模块140组合消息151的上下文特征的加权值，然后基于此多层分类法确定消息151的优先级。优选地，执行消息151的二元分类，例如高优先级或低优先级。但是，可根据到分类模块140的数据输入计算其它优先级类别。
[0046] 全局分类器121和用户特定的分类器131可远程存储在例如服务器上，或者存储在用户机器的本地。在一个优选实施例中，在消息被传送到用户之前在服务器上发生优先级排序过程。这允许在用户接收到消息151之前执行计算相对密集的优先级排序分类。该特征允许用户机器将宝贵的资源分配给入站消息151优先级分类之外的过程。
[0047] 用户接口
[0048] 参考图2,示出接口的一个示例性实施例150,可看出，在本发明的一个示例性实施例中，提供"高优先级"类别153。本发明的示例性实施例允许被自动分类为"高优先级" 的消息151被填充到"高优先级"类别153内。类似地，从图2可看出，本发明的示例性实施例允许使用"高优先级"图标指示器154对"高优先级"类别153内的消息151做出标记。该特征允许显示"高优先级"类别153内的消息151，甚至在用户选择排序视图而非分组视图时也是如此。因此，用户仍可根据"高优先级"图标指示器154轻松地识别"高优先级"类别153内的消息151。
[0049] 传统的技术仅具有"高重要性"图标，该图标一般被表示为感叹号。在用户意识到带有"高重要性"图标的消息被发件人标记为"紧急"之前，增加"高优先级"类别153和"高优先级"图标154乍看可能有些多余。这并不一定意味着它们对于收件人而言具有高优先级。而恰好相反，一旦收件人看到这些消息来自支持人员，提醒有关几周之后日历事件，或者这些消息来自管理人员，提醒希望填写或更新表格，这会让这些消息仍停留于未读状态。
[0050] 为了支持用户反馈，在本发明的一个示例性实施例的一个示例性方面，将电子邮件优先级排序菜单项优选地提供给上下文菜单155,上下文菜单155 -般在例如用户对着接口 150内收件箱视图中的亮显消息151点击鼠标右键时被触发。借助本发明的该示例性方面，用户可向系统指示取消对"高优先级"类别153内的消息151的优先级排序，或对当前位于"普通"类别156内的消息进行优先级排序，同时提供此类取消优先级排序或执行优先级排序的原因157,例如，是否因消息的发件人或主题而导致此操作。
[0051] 基于丰题的用户樽塑
[0052] 返回参考图1，本发明的一个示例性实施例优选地针对每个用户创建基于主题的用户模型101。优选地，每个用户的基于主题的用户模型101被存储在服务器上。通过在服务器上存储基于主题的用户模型101，用户可在不必移植其基于主题的用户模型101的情况下更改计算机，该基于主题的用户模型101否则将存储在其计算机本地。当用户模型被存储在本地（与存储在服务器上相反）时，如果在用户更改计算机时未执行基于主题的用户模型101的移植，则用户必须创建新的基于主题的用户模型101。
[0053] 基于主题的用户模型101根据影响用户对消息重要性的评估的特性对信息进行编码。发件人和用户/收件人的交互历史和关系是两个已被示出为影响用户对消息151的重要性评估的特性。本发明的一个示例性实施例扩展了传统技术的多层基于主题的用户模型，并记录有关用户与不同人员/发件人的交互行为，以及企业环境中用户与这些人的关系的更细粒度信息。
[0054] 在本发明的一个示例性实施例中，基于主题的用户模型包括两个数据结构：（1) 交互数据和（2)关系数据。
[0055] 基于丰题的用户樽塑的夺互数据
[0056]交互数据包括在用户与特定发件人之间交换的一组消息（被发送以及被复制），从该组消息的聚合内容生成统计主题模型，并且从该组消息和关联用户操作的组合推导相关统计信息。
[0057] 例如，以下统计信息可记录在用户与发件人之间的交互中：（I)incoming_count: 来自该人员的入站消息数；（2)outgoing_count:发送给该人员的出站消息数；（3)read_ count:该人员发送的已被用户阅读的入站消息数；(4)reply_count:该人员发送的已被用户回复的入站消息数；(5)replylapse:用户回复该人员发送的入站消息的平均时间； (6)file_count:该人员发送的已被用户标记或保存的入站消息数；以及（7)most-recent_ interaction_time:在用户与该人员之间交换的最新消息的时间。很明显，其它统计信息可记录在用户与发件人之间的交互中，并且上述示例性列表并非旨在作为限制。
[0058] 基于丰题的用户樽塑的关系数据
[0059] 用户与特定发件人之间的关系包括用户与发件人之间的一个或多个关系。关系是用户与发件人之间的一种特定联系类型。用户与他/她的联系人之间的关系可分为不同的类别，例如（1)通信关系：从电子邮件发件人与收件人以及日历会议的参与者推导的关系； (2)组织关系：基于组织结构的关系（例如，管理、被管理、同一管理者）；（3)社交关系：从企业在线社交网络中的活动推导的关系（例如，社区共同成员、维基共同编辑、文件共享）；以及（4)学术关系：诸如文献/专利共同创作之类的学术活动的结果的关系。很明显，也可使用其它关系类别，并且上述示例性列表并非旨在作为限制。
[0060] 基于丰题的用户樽塑表示
[0061] 参考图3,示出结合本发明的一个示例性实施例的特征的示例性基于主题的用户模型101。如图3所示，示例性基于主题的用户模型101对多层信息进行编码以在不同粒度表示用户信息。例如，基本信息提取自电子邮件和日历消息，包括诸如主题和正文之类的文本内容，以及有关附件、嵌入的Web链接，以及作为电子邮件发件人/收件人的人员和会议参与者的元数据。通过对基本信息进行分组来创建聚合信息。电子邮件和日历消息被根据主题分组为线程。如图3所示，人员可根据他们与电子邮件和日历消息的关联性进行分组。诸如交互和从属之类的导出信息将与用户交互的每个个人或组链接到一组对应的基本和聚合信息。
[0062] 根据在用户模型101中编码的基本、聚合和导出的信息，创建多个主题模型（例如，TM1-TM4)并且也将其存储在用户模型101中。根据特定交互范围内用户交互的聚合内容来创建每个主题模型（TM1-TM4)。交互范围可以是具有多个消息的电子邮件线程、与单个人员/组的交互，或用户与作为整体的其它人员的全部交互。与线程关联的主题模型表示在该线程中讨论的主题。与个人或组关联的主题模型反映特定于该个人或组的用户的感兴趣主题。从用户与所有其它人员交互的聚合推导的通用主题模型表示用户的整个工作范围。多个主题模型的使用使能在更细粒度上表示用户的感兴趣主题，这产生对消息151的主题的更准确推断。
[0063] 每个主题模型（TM1-TM4)包含一组主题。在一个示例性实施例中，每个主题与两类信息关联：针对所有单词给定该主题的情况下，某个单词的概率，以及针对关联交互范围中的所有消息给定一消息的情况下，该主题的概率。前一概率提供描述主题的代表性关键字列表，而后一概率提供与主题密切关联的消息列表。如下面描述的那样，可基于统计语言模型从内容推导主题。
[0064] 图3还示出在基于主题的用户模型101中编码的信息。用户与其通过电子邮件和 /或日历消息进行交互的所有人员（例如，人员1、2和3)以及从电子邮件收件人和会议参与者列表推导的人员组（多个）关联（"Has-Interaction(具有交互）")。每个人（例如，人员1-3)与他或她所属的组关联（"Is-Affiliated(属于）"），在同一组中的人员之间，还存在组共同成员关系（"Is-GroupCoMembers(组共同成员）")。每个人员或组与其相关的主题模型（TM1-TM4)关联（"About-Topics(关于主题）")。具体地，图3示出特定于用户与人员1TM1、人员2TM2和人员3TM3的交互的三个主题模型，以及特定于用户与作为组的人员1-3的交互的主题模型TM4。
[0065] 用户与每个人员或组之间的不同关系被分配以不同的权重以反映他们内在的不同强度，例如，在工厂企业中，组织关系可被分配比社交关系更强的权重。用户与联系人 (例如，个人或组）之间的总体关系强度是其所有关系的加权和。例如，在图3中，用户与人员1之间的关系包括直接报告和文献共同创作。用户与人员1之间的总体关系强度因此为这两个关系的加权和，其中直接报告被赋予比文献共同创作更高的权重。
[0066] 参考图1，如上所述，将入站消息151输入特征提取模块110。同样，将基于主题的用户模型101输入特征提取模块110。从图4中可看出，在入站消息151被输入特征提取模块110之后，特征提取模块110根据从基于主题的用户模型101中包含的所有主题模型 (例如，TM1-TM4)选择的相关主题模型，推断消息的主题102。之后，特征提取模块110计算消息151的上下文特征。
[0067] h下f特征
[0068] 如上所述，像在图4中示出的，特征提取模块110推断入站消息151的主题102,然后计算消息151的上下文特征112。
[0069] 用于优先级排序的上下文特征112基于确定消息151重要性时的影响特性。上下文特征112可分为两类，例如，以人为中心和以消息为中心。
[0070] 以人为中心的h.下f特征
[0071] 以人为中心的上下文特征112表示有关用户与发件人的交互和关系的聚合信息。在一个示例性实施例中，在满足交互频率阈值（T)之后计算以人为中心的上下文特征112。例如，交互频率阈值T可以是预定值，例如50。但是，本领域中的普通技术人员将理解，也可使用另一交互频率阈值T。使用用户模型101中特定发件人的交互数据和关系数据内编码的各种统计信息来计算以人为中心的上下文特征。
[0072] 在本发明的一个示例性实施例中，以人为中心的上下文特征112包括以下有关用户与特定发件人的交互的聚合信息。
[0073] (I)incoming_freq:来自特定发件人的入站消息的规范化后的频率，其使用用户模型101中该发件人的incoming_count编码数据来计算。例如，在一个示例性实施例中， incoming_freq:被计算为max(incoming_count，T)/T〇
[0074] (2)outgoing_freq:发送给特定发件人的出站消息的规范化后的频率，其使用用户模型101中该发件人的〇utgoing_count编码数据来计算。例如，在一个示例性实施例中， outgoing_freq:被计算为max(outgoing_count，T)/T〇
[0075] (3)read_rate:来自特定发件人的已被用户阅读的入站消息的百分比，其使用用户模型101中该发件人的read_count和incoming_count编码数据来计算。例如，在一个不例性实施例中，read_rate:被计算为read_count除以incoming_count。
[0076] (4)1印ly_rate:来自特定发件人的已被用户回复的入站消息的百分比，其使用用户模型101中该发件人的reply_count和incoming_count编码数据来计算。例如，在一个示例性实施例中，reply_rate:被计算为reply_count除以incoming_count。
[0077] (5)reply_lapse:接收消息与回复消息之间经过的时间，其使用用户模型101中该发件人的reply_lapse编码数据来计算。例如，在一个示例性实施例中，reply_lapse的以人为中心的上下文特征112被计算为用户模型101中该发件人的reply_lapse并且以天为单位度量。在其它示例性实施例中，用户回复来自特定发件人的入站消息所用的平均时间可以天以外的单位度量。
[0078] (6)file_rate:来自特定发件人的已被用户标记或保存的入站消息的百分比，其使用用户模型101中该发件人的file_count和incoming_count编码数据来计算。例如，在一个示例性实施例中，file_rate:被计算为file_count除以incoming_count。
[0079] (7)interaction_recency:用户与特定发件人之间的交互新近度，其使用用户模型101中该发件人的mose_recent_interaction_time编码数据来计算。例如，在一个示例性实施例中，interaction_recency被计算为I.0/(log(t+l. 0)+1. 0)，其中t是当前时间与用户模型中该发件人的mose_recent_interaction_time之间以天为单位度量的经过时间。在其它示例性实施例中，经过时间可以天以外的单位度量。
[0080] (8)relationship_type:用户与特定发件人之间的关系，其使用用户模型101 中该发件人的关系数据的关系类型编码数据来计算。例如，在一个示例性实施例中， relationship_type被设为用户与具有最高关联权重的发件人之间的关系。
[0081] (9)relationship_strength:用户与特定发件人之间的总关系强度，其使用用户模型101中该发件人的关系数据的关系类型编码数据来计算。例如，在一个示例性实施例中，relationship_strength被计算为用户与特定发件人之间所有关系的加权和。
[0082] 以消息为中心的h.下f特征
[0083] 以消息为中心的特征专注于消息151本身的性质。在一个示例性实施例中，以消息为中心的特征包括：
[0084] (l)message_scope:消息151是被独占地发送给用户，一小组人，还是一大组人。构成一小组人和一大组人的阈值可以预先确定，也可以例如经由接口 150设定。
[0085] (2)message_type:消息151例如是常规邮件消息、需要用户操作（例如，邀请、重新排程）的会议通知，还是不需要用户操作（例如，确认或其它操作，例如外出回复之类的自动消息）的会议通知。
[0086] (3)content_type:消息151内容被确定为包含请求、时间关键单词（例如，时限、用户预先指定的关键字），还是一个或多个文件附件。c〇ntent_type的值可根据词法启发法或其它文本分析算法确定。
[0087] (4)threading:如果消息属于电子邮件线程，则确定用户是否对来自同一线程的先前消息执行任何操作。如果用户已对来自同一线程的先前消息执行操作，则该特征的值为1。否则，其值为〇。
[0088] (5)topic_likehood:消息 151 的内容与系统使用LatentDirichletAllocation algorithm(LDA)推断的主题102有关的可能性，其根据基于主题的用户模型101中包含的 LDA文档-主题分布来计算。
[0089] (6)topic_importance:根据消息151的内容推断的主题对用户的重要性。
[0090] 在传统技术中，由LDA推导的主题不被进行分级，因此，不能直接从LDA获取有关主题重要性的信息。传统的推断主题重要性的尝试基于诸如主题覆盖和方差、主题特殊性、主题交互信息、主题相似度和冗余度之类的准则。
[0091] 本发明的发明人意识到，在消息域（例如，电子邮件消息域）中，与消息151关联的用户操作提供更好的有关用户感知的主题重要性的指示器。因此，在本发明的一个示例性实施例中，topic_importance使用以下因素的加权组合计算。
[0092] (6. 1)用户的有关特定主题的电子邮件的百分比；
[0093] (6. 2)确定为已被阅读的有关特定主题的电子邮件的百分比；以及
[0094] (6. 3)已被转发、回复、保存或标记的有关特定主题的电子邮件的百分比。
[0095] 优先级棑序
[0096] 如上所述，入站消息151被输入特征提取模块110。同样，基于主题的用户模型101 被输入特征提取模块。从图4中可看出，在入站消息151被输入特征提取模块110之后，特征提取模块110根据上述消息151的内容以及根据来自基于主题的用户模型101的与发件人相关的主题模型，推断消息的主题102。之后，特征提取模块110像上面描述的那样计算消息的上下文特征112。
[0097] 在本发明的一个示例性实施例中，存在全局分类器121和用户特定的分类器131。全局分类器121和用户特定的分类器131在分类模块140内进行组合。优选地，当不同的消息151具有不同的上下文特征112时，使用不同的方法组合分类器121和131。也就是说，根据基于主题的用户模型101和已提取的消息151的特征，分类模块140以动态的方式组合全局分类器121和用户特定的分类器131。
[0098] 从图4中可看出，推断入站消息151的主题。
[0099] 全局优先级分类器
[0100] 在本发明的一个示例性实施例中，所述系统根据从多个用户收集的已标记训练消息111，使用线性回归（出于其效率和稳健性而被选择）创建全局优先级分类器121。使用全局优先级分类器，入站消息151的优先级评分Sg为消息151的上下文特征112的线性组合：
[0101]

【权利要求】
1. 一种使入站消息优先级排序自动化的方法，所述方法包括：使用训练数据训练计算机系统的全局分类器；根据多个反馈实例动态地训练所述计算机系统的用户特定的分类器；根据基于主题的用户模型，推断所述计算机系统接收的所述入站消息的主题；计算所述入站消息的多个上下文特征；根据所计算的所述入站消息的上下文特征和所述全局分类器与所述用户特定的分类器的加权组合，确定用于向所述入站消息分配优先级级别的优先级分类策略；以及根据所述优先级分类策略对所述入站消息进行分类。
2. 根据权利要求1的方法，其中从多个优先级分类策略确定所述优先级分类策略。
3. 根据权利要求2的方法，其中所述多个优先级分类策略包括具有实例匹配的动态线性组合方案，所述实例匹配基于所述入站消息的所述上下文特征与所述多个反馈实例的上下文特征之间的实例匹配，所述具有实例匹配的动态线性组合方案包括：评估所述用户特定的分类器的质量；以及根据所评估的所述用户特定的分类器的质量，针对所述全局分类器和所述用户特定的分类器的线性组合，为所述全局分类器和所述用户特定的分类器中的每一个分配权重。
4. 根据权利要求2的方法，其中所述多个优先级分类策略包括具有实例匹配的动态线性组合方案，并且其中，当所述入站消息和所述多个反馈实例中的一个反馈实例具有相同发件人和主题中的至少一个时，所述具有实例匹配的动态线性组合方案向所述入站消息分配的优先级与被分配给具有所述相同发件人和主题中的至少一个的所述反馈实例的优先级相同。
5. 根据权利要求4的方法，其中，当所述入站消息不与所述多个反馈实例中的任一个具有所述相同发件人和主题中的至少一个时，所述具有实例匹配的动态线性组合方案针对所述全局分类器和所述用户特定的分类器的线性组合，为所述全局分类器和所述用户特定的分类器中的每一个分配权重。
6. 根据权利要求1的方法，其中所述多个上下文特征包括多个以人为中心的上下文特征和多个以消息为中心的上下文特征。
7. 根据权利要求1的方法，还包括仅根据显式反馈来更新所述用户特定的分类器。
8. 根据权利要求1的方法，还包括根据显式反馈和隐式反馈来更新所述用户特定的分类器。
9. 根据权利要求1的方法，其中所述多个反馈实例包括显式反馈实例，每个显式反馈实例指示已通过输入接收的不同消息的优先级等级。
10. 根据权利要求1的方法，还包括根据所推断的所述入站消息的主题，计算所述入站消息的所述多个上下文特征中的一个上下文特征。
11. 根据权利要求1的方法，还包括：计算具有与所推断的所述入站消息的主题基本类似的主题的先前已接收消息的第一百分比；计算具有所述基本类似的主题且被确定为已被读取的先前已接收消息的第二百分比；计算具有所述基本类似的主题且被确定为已被执行转发、回复、保存和标记中的至少一个的先前已接收消息的第三百分比；以及通过动态地组合所述第一百分比、所述第二百分比和所述第三百分比，计算所述多个上下文特征中的一个上下文特征。
12. 根据权利要求1的方法，还包括根据所推断的所述入站消息的主题，计算所述入站消息的所述多个上下文特征。
13. 根据权利要求1的方法，还包括根据包含与所推断的所述入站消息的主题基本类似的主题的已接收消息的百分比，计算所述多个上下文特征中的以消息为中心的特征。
14. 一种系统，包括适合于执行根据上述任一方法权利要求的所有方法步骤的装置。
15. -种计算机程序，包括当所述计算机程序在计算机系统上执行时，用于执行根据上述任一方法权利要求的所有方法步骤的指令。
【文档编号】G06Q10/10GK104508691SQ201380008068
【公开日】2015年4月8日申请日期:2013年2月8日优先权日:2012年2月10日
【发明者】吕洁, 文镇, 潘诗梅, J·赖申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕洁;文镇;潘诗梅;J·赖;
技术所有人：国际商业机器公司;
我是此专利的发明人

上一篇：防止数据丢失的系统和方法
上一篇：用于支持无限带网络中的虚拟机的动态迁移的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。