线索识别和分类的制作方法

文档序号:6567020阅读:262来源:国知局
专利名称:线索识别和分类的制作方法
技术领域
本发明一般涉及电子消息传递技术,并且更具体地涉及分析电子消息 并以线索(也被认为是讨论或谈话)为其分组。
背景技术
随着电子消息传递(如电子邮件)的个人和商业使用持续增长,需要 用于存储、归档、以及检索电子消息的改进的应用。其中该技术是重要的 领域包括,需要搜索匹配特定搜索主题的大量电子消息的调查领域。例 如,电子消息可能需要被搜索和检索,用于符合特定的公司义务或在诉讼 过程期间发起的发现请求。
电子消息可被组织的一种方法是通过将电子消息分组到线索。线索包 括形成联系人链的一个或更多电子消息。线索以初始电子消息开始,并且 包括向或从初始电子消息或线索中的任何其他消息的任何后续答复或转 发。当前将电子消息分组到线索的应用的一个问题在于,消息仅基于电子 消息的标题分组到线索。
仅基于标题分组电子消息可能导致将彼此没有关系的电子消息分组到 线索。例如,公司的每个部门可能具有季度会议,以讨论特定季度工程的 状态或问题。每个部门可将具有会议议程的电子消息(如电子邮件消息) 发送至部门的成员。然而,如果每个部门使用标题"季度会议"作为消息 的标题,那么当前的应用可能将来自各组的所有会议分组到单个线索中。
以这种方式分组电子消息在单收件箱环境中可能问题不大,因为仅仅 发送到收件箱的电子消息将包括在线索中。然而,当从多个收件箱查看电 子消息时,彼此没有关系并且可能包括不同联系人集合的电子消息可能被 一起分组到单个线索中,仅因为它们共享共同的标题。这些消息可能彼此 没有关系并且可能增加了搜索电子消息的难度,而非使其更易于定位与特
定搜索询问相关的电子消息。

发明内容
本发明描述了各系统、设备和方法,用于将从多个电子消息帐户接收 的消息分组到一个或更多线索中。本发明能够将利用不同电子消息格式并 且其可能无序接收的消息分组到合适的线索中。电子消息和识别的线索可 存储在数据库或其他存储介质中,该数据库和其他存储介质可基于由用户 输入的搜索项而搜索。匹配该搜索项的电子消息和线索可被显示给用户用 于额外的调查。
在本发明的一个实施例中,电子消息可被解析来识别一个或更多报头 字段,该报头字段可被用来识别消息可能属于的线索。可被用来识别消息 可能属于的线索的报头字段的实例包括但不限于电子消息内找到的一个 或更多线索识别报头、标题、以及日期。当消息属于的线索被识别时,电 子消息可被添加到线索,并且存储在数据库或其他存储介质中。如果对特 定电子消息没有识别线索,则消息可存储在数据库中并且可开始新的线 索。
除了将电子消息分组到线索外,本发明还识别相关线索,并且将一个 或更多线索相对于其相关线索分类。在一个实施例中,各线索可根据相关 线索的联系人的差异分类。在另一个实施例中,各线索可根据特定线索中 讨论的主题或内容的差异或相似性来分类。


将参照本发明的各实施例,其实例可在附图中图示。这些附图意图在 于图示性而非限制性的。尽管本发明一般在这些实施例的环境中描述,但 是应当理解,其意图不在于将本发明的范围限制于这些特定实施例。
图1图示与相关线索一起的电子消息的线索。
图2图示用于根据本发明的一个实施例将电子消息分组到线索的方法 的流程图。
图3A图示两个线索310和320的日期范围的直观表示。
图3B图示两个线索330和340的日期范围的直观表示。 图4是图示三个示例线索的图。 图5是三个电子消息的信息表。
图6是图示具有添加到线索的图5的电子消息的图4的示例线索的图。
具体实施例方式
下面描述用于分析电子消息并将一个或更多消息分组到线索的各系 统、设备和方法。除了将消息分组到线索外,本发明还建立各线索之间的 关系并基于这些关系分类各线索。在下面的描述中,出于解释目的,提出 特定的细节以便提供对本发明的理解。然而,对本领域的技术人员将很清 楚的是,本发明可以无需这些细节而实践。此外,本领域的技术人员将认 识到,下面描述的本发明的实施例可以各种介质(包括软件、硬件、或固 件、或其组合)实现。因此,下面描述的流程图是图示本发明特定实施例 的,并且意图避免模糊本发明。
说明书中对"一个实施例"、"优选实施例"或"实施例"的称呼意
味着在本发明的至少一个实施例中包括结合该实施例描述的特定特征、
结构、特性或功能。在说明书中各种地方出现的短语"在一个实施例中" 并不必全部指同样的实施例。
在一个实施例中, 一种软件应用(application)分析从一个或更多用 户帐户接收的电子消息,并将消息分组到线索。例如,应用可将来自公司 或公司内的部门的所有用户的电子消息分析并分组到线索用于进一步分 析。存在很多应用可从多个用户帐户接收电子消息的方法。在一个实施例 中,应用可从电子消息服务器(如在电子邮件消息情形的电子邮件服务 器)接收电子消息。电子消息服务器可包含由公司或特定部门的用户发送 或接收的所有电子消息的拷贝。在另一实施例中,可建立电子消息服务 器,以将每个流入或流出的电子消息的拷贝转发到应用用于分析。除了上 面描述的那些外,本领域的技术人员将认识到,存在应用可从多个用户帐 户访问电子消息的其他方法。用于从多个用户帐户访问电子消息的其他方
法虽然没有特别提到,但在本发明的范围内考虑。
在一个实施例中,本发明的应用解析每个电子消息以识别一个或更多 报头字段。电子消息的报头字段可与存储在数据库或其他存储介质中的一 个或更多现有线索的对应报头字段相比较,以确定消息属于的线索。应用 可将电子消息存储在数据库中,并将电子消息添加到合适的线索。本发明 还可分析形成各线索的消息,以确定各种线索之间的关系,并且可基于这 些关系分类线索。
图1图示根据本发明的一个实施例的线索组ioo的实例。线索组是具 有初始消息的消息组合,该初始消息不是任何之前消息的答复或转发,使 得线索组中的所有消息是对线索组中初始消息或更早消息的答复或转发。
在图l中,消息A、 B、 C、 D、 E和F形成线索组。消息A是初始消息, 因为它是线索中最早的消息。其他消息是对消息A或从消息A发起的消息 链中的另一消息的答复。
存在很多方式来确定电子消息是否是另一消息的答复或转发。例如, 消息可包括答复或转发报头,其识别当前消息是对其转发或答复的消息。 作为另一个实例,如果消息共享标准化或修改的标题并落入第二消息的可 接受的日期范围内,并且与线索组内的任何其他消息共享一个或更多联系 人,则消息可分类为第二消息的答复或转发。消息的标准化标题可通过从 消息的标题字段移除任何标题前缀(如Re、 RE、 FW、 FWD、 Fwd等)来 找到。标准化标题可与其他消息的标准化标题相比较,以找到利用其消息 可形成部分线索组的一个或更多消息。
消息的日期可与共享相同标准化标题的消息的日期范围比较,以确定 各消息是否形成线索组。例如,可能想要将分组到线索组的具有相同标题 的消息限制为某些消息,其在共享相同标题的消息之前或之后的间隔时间 量内发生,如下文讨论的。
作为另一个实例,确定消息是否是先前消息的答复或转发可试探性地 从消息的标题或主体推断。标题前缀(如Re、 RE、 FW、 FWD、 Fwd等) 的存在可指示消息是之前消息的答复。作为另一个实例,消息的主体可包 括文本或另一标识符,其表示消息是先前消息的答复或转发。例如,如果
文本的主体包括如"开始转发的消息"的声明、或包括来自先前消息的縮 进文本,这可指示该消息是先前消息的答复或转发。
在本发明的一个实施例中,形成线索组的电子消息可分组到一个或更 多线索中。存在很多可用于将消息分组到线索的准则。在一个实施例中, 消息可基于各个消息的联系人被分组到线索。线索组内的消息可被分组到 线索,这些消息具有相同的联系人并且是来自共同消息的转发或答复、或 是来自源自共同消息的部分链的消息的转发或答复。
在本发明的一个实施例中,消息的联系人可限定为发件人或所有接收 人,该接收人或清楚地命名、或根据电子消息的接收人字段中的邮件列表
中其成员资格命名、或即使他们不是列表的接收人(bcc)也根据他们己经
接收的消息而命名。邮件列表是可输入到电子消息中表示多个接收人的虚 拟地址。邮件列表的成员可以多种方式确定。在一个实施例中,应用可请
求由来自电子消息(e-message)服务器(如电子邮件(email)消息情形的 电子邮件服务器)的邮件列表表示的各人。在另一个实施例中,邮件列表 中的成员资格可试探性地推断。例如,如果某人答复消息,该消息中他没 有清楚地被命名为联系人,并且消息包含邮件列表,则该人可被假定为邮 件列表之一的成员。
由于形成线索组的消息可具有不同联系人集合,因而每个线索组可包 括多个线索。在本发明的一个实施例中,各线索可进一步分类,使得线索 组包括主线索和一个或更多相关线索。在一个实施例中,主线索是这样的 线索,其包括线索组的初始消息、以及来自与初始消息具有相同联系人的 初始消息的答复消息链。例如,在图1中,消息A、 B、 C和D形成线索 组100的主线索。在该实例中,电子消息A、 B、 C和D具有相同的标题 (产品发布)以及相同的联系人(Tim、 Carl、 Bob和Ray)。消息A是主 线索的初始消息,而消息B和C是消息A的答复,并且消息D是消息C 的答复。
线索组内的其余线索可被分类为相关线索。相关线索包括初始消息, 其是来自作为线索组内的另一线索的部分、但包括不同的联系人集合的消 息的答复或转发(或将电子消息从对其答复或转发的父消息区分开的其他
准则)。相关线索被称为从其他线索分支。再次参照图1,消息E和F是 可被分组到第二线索中的线索组内的消息。如图示,消息E是消息B的答
复。然而,消息E是仅被发送至Carl的来自Tim的答复。由于消息E包 括少于消息B的联系人,因此消息E是在消息B从主线索分支的相关线索 的初始消息。在该实例中,相关线索包括消息E和对消息E的答复的消息 F。
在一个实施例中,可以假设消息E的主题或内容,虽然可能与主线索 的主题或内容相关,但是可能仅与Tim和Carl相关。通过以这种方式区分 线索,并且将发送到与其分支的线索不同的联系人的线索分类为相关线 索,形成线索的电子消息可以以一种方式呈现给用户,其帮助用户确定哪 些消息可能与特定搜索询问或特定的讨论主题相关。例如,相关线索可被 图示为与主线索不同。在图1中,相关线索消息通过虚线而非实线连接。 这为用户提供直观指示消息E和F形成相关线索。
相关线索可基于两个线索之间的联系人的差别,被进一步相对于相关 线索从其分支的线索而分类。例如,下述线索可被分类作为縮减的线索, 该线索的初始消息是来自线索组内的另一消息的答复,但包括比对其答复 的消息的所有联系人更少的联系人。在图l中,包括消息E和F的相关线 索可被分类为縮减的线索,因为消息E的联系人是相关线索从其分支的消 息(消息B)的联系人的子集。
作为另一个实例,下述线索可被分类为扩展的线索,该线索的初始消 息是来自线索组内的另一消息的答复,但包括与对其答复的消息相同的联 系人,并且加上额外的联系人。然而,在另一个实施例中,下述答复消息 可被分组到线索而非分类为扩展的线索,该答复消息包括从其答复的消息 的所有联系人,还包括一个或更多额外的联系人。在另一个实例中,下述 线索可被分类为重叠的线索,该线索的初始消息是其联系人既非严格縮减 也非扩展的答复。例如,下述线索可被分类为重叠的线索,其初始消息包 括其父消息(即对其答复的消息)的联系人的子集加上在父消息中没有发 现的一些新联系人。
在另一个实例中,下述线索可被分类为转发的线索,其初始消息是对
线索组内另一消息的转发,而无论其联系人如何。作为另一个实例,与主 线索没有包含共同的联系人的转发或重叠的线索可被分类为引发的
(spawned)线索。
下述线索可被认为是修正的线索,该线索的标题已经被从主线索或从 其分支的线索的标题,以一种不是简单的前缀、大小写、空白空间以及标 点的改变的方式修改。作为另一个实例,恰好具有一个与从其分支的消息 共同的联系人的线索可被分类为专用线索。
在另一个实例中,其主题已经从其分支的线索改变的线索可被分类为 修改的线索。在一个实施例中,电子消息中讨论的内容或主题可与其线索 内或从其分支的线索内的一个或更多消息中讨论的内容或主题比较。如果 电子消息的主题或内容与线索内的其他消息、或者与消息从其分支的线索 的消息的内容或主题不同,则该消息可被分类为修改的线索。再次,当回 顾消息线索时这对于调查者可能是有用的。
在一个实施例中,关键词和/或短语可从形成线索的消息提取。这些关 键词和/或短语可与从电子消息解析的关键词和/或短语比较,以确定消息 的主体中的重叠。高重叠指示消息之间的内容相似。低重叠指示电子消息 可被分类为修改的线索,因为其内容与剩余的线索的内容不同。本领域技 术人员将认识到,存在许多其他的内容相似度测试,其可应用于形成线索 的消息,以确定消息的内容与线索内剩余消息的内容的相似度。
本领域技术人员将认识到,这些仅仅是可分类线索的一些可能的方 法。其他的分类是可能的,并且在本发明的范围内考虑。
图2图示用于根据本发明的一个实施例将电子消息分组到线索的流程 图。电子消息被解析110,以识别电子消息的一个或更多报头字段。报头 字段的实例可包括但不限于消息的标题、消息发送的日期、线索识别包 头、引用字段、答复至字段、以及一个或更多接收人(recipient)字段。
接收人字段(包括To: 、 From: 、 Cc: 、 Bcc:、以及Apparently-
TO:字段)典型地包含电子消息的联系人的电子地址。接收人字段还可包
括一个或更多邮件列表。例如,公司可具有称作销售部门的邮件列表,其 映射到公司的销售部门中的人员的电子地址列表。当向销售部门中的人员
发送电子消息时,用户可输入"销售部门"到接收人字段,而非插入每个 人的电子消息地址。当发送消息时,电子消息服务器识别邮件列表,并且 通过将消息拷贝转发到由邮件列表表示的每个人员的地址而扩展邮件列表。
在本发明的一个实施例中,当解析包括邮件列表的电子消息的接收人 字段时,邮件列表可通过査找由邮件列表表示的每个人的电子消息地址来 扩展。例如,应用可从电子消息服务器或目录服务请求由邮件列表表示的 电子消息地址。应用可在消息发送时,将由邮件列表表示的每个电子消息 地址关联到合适的接收人报头字段并存储在数据库中。邮件列表还可与相 关联的消息一起存储在数据库中。
本发明利用从消息解析的报头字段以确定消息属于的线索。本领域的 技术人员将认识到,在电子消息中发现的报头字段的数量和类型可根据用
于创建电子消息的消息格式而变化。例如,利用RFC 2822因特网消息格
式的电子消息可包括特定的报头字段,其在微软的专用电子消息格式中没 有找到,反之依然。如下描述,本发明能够分析不同格式的消息并将其分 组到合适的线索中。
可包括在电子消息中的报头字段的一个实例是线索识别报头。如这里 将讨论的,线索识别报头包括信息,该信息可用于识别消息属于的线索或 当前电子消息是对其答复的一个或更多消息。例如,线索识别报头可包括 在线索或线索组的每个消息的报头字段中包括的唯一的数字或其他标识 符。作为另一个实例,线索标识报头可列表父消息或形成相同线索和/或线 索组的其他消息的全部或部分。这些线索识别报头提供捷径,以为给定消 息识别合适的线程。
如果线索识别报头被发现120,则线索识别报头可与每个现有线索的 对应的线索识别报头比较。如果线索识别报头已经在之前被看到130 (即,其匹配与一个或更多现有线索相关联的线索识别报头),则可用线 索识别报头识别的一个或更多线索可被添加到候选线索的第一集合140。 如果存在共享共同线索标识符的一个或更多相关线索,则对电子消息可存 在一个或更多候选线索。
例如,微软使用包括称作线索索引的线索识别字段的专用电子消息格 式。线索索引识别当前电子消息以及当前消息之前的线索内的每个消息。
源自微软应用的电子消息,如Microsoft Exchange或Microsoft Outlook,可
包括线索索引。形成线索的消息串可从线索索引解析,并与每个现有线索 比较,以识别消息可属于的一个或更多候选线索。包括电子消息的线索索 引中识别的消息的现有线索是可被添加到候选线索的第一集合的潜在候选 线索。
作为另一个实例,利用RFC 2822格式编排格式的消息可包括一个或 更多报头字段,其是识别电子消息对其答复的(多个)父消息的线索识别 报头。RFC 2822格式编排的消息中的线索识别报头的实例包括但不限于, "答复至"和"引用"报头字段。每个以RFC 2822格式编排格式的电子 消息包括唯一的消息ID。答复至报头包括其父消息(对其答复的消息)的 消息ID。类似地,引用报头字段可包括形成讨论字段的其他电子消息的消 息ID。换句话说,引用字段可包括在线索中的当前电子消息之前的一个或 更多电子消息的消息ID。
通过将在答复至和引用字段中找到的消息ID与形成现有线索的消息 的消息ID字段比较,可以识别电子消息可能属于的一个或更多候选线索 140。这些候选线索可被添加到候选线索的第一集合。
候选线索的第一集合可通过识别155来自与电子消息具有相同联系人 的第一集合的线索的子集来縮减。如上讨论,线索可被限定为包括那些作 为另一消息的答复或转发并且包括同样的联系人的消息。具有不同联系人 集合的答复或转发可被分类为相关线索。因此,与电子消息具有相同联系 人的线索是消息可能属于的线索。
应当注意到,不是所有的电子消息都将包括线索识别报头字段。许多 这些线索识别报头字段是可选报头字段,许多电子消息程序不包括在每个 电子消息中。然而,如这里描述的,本发明可使用从电子消息解析的其他 报头字段,以识别消息可能属于的潜在候选线索。通过能够处理具有线程 识别报头的电子消息和不具有线程识别报头的消息,并且能够处理具有变 化或混合格式的线索识别报头的电子消息,本发明能够将不同格式的电子
消息分组到合适的线索中。
如果没有找到与消息共享共同线索标识报头的线索130,或者如果在 电子消息内没有找到线索识别报头120,则电子消息的附加报头字段可用 于识别消息可能属于的一个或更多现有线索。在一个实施例中,电子消息 的标题、日期、以及联系人可以与每个现有线索的标题、日期范围和联系 人比较,以识别一个或更多潜在的候选线索。
在一个实施例中,候选线索的第二集合可被识别150,其具有与电子
消息相同的标题,并且对其在与形成线索的一个或更多电子消息同样的时 间附近发生电子消息的日期。在一个实施例中,电子消息的标题可通过移 除任何指示符来标准化,该指示符指示消息是先前消息的响应或已经从先
前消息转发。例如,许多电子邮件程序将"Re:"和"Fw:"分别添加到
己经被转发或答复的消息的标题。标准化的标题可与存储在数据库内的现 有线索内的消息共同的标题相比较。
在一个实施例中,线索的日期范围限定线索中最早的消息和线索中最 晚发生的消息之间的时间期间。在一个实施例中,如果电子消息的日期落 入线索的日期范围内,或落入线索中最早消息之前的时间量(前间隔) 内,或落入线索中最晚发生的消息之后的时间量(后间隔)内,如果其共 享与电子消息相同的标题,那么线索可被添加到候选线索的第二集合。前 间隔可以是与后间隔相同的时间量或不同的时间量。本领域的技术人员将 认识到,前间隔和后间隔可取决于应用而变化。在一个实施例中前间隔和 后间隔可以是固定的,而在另一个实施例中前间隔和后间隔可随线索大小 或线索的其他特性动态调节。例如,前间隔和/或后间隔对于包括小数量消 息的线索可以比对于具有在长时间期间上扩散的大量消息的大线索小。
图3A是对于两个线索310和320的时间线的表示。实线框表示线索 的曰期范围。线索中第一消息的日期由实线框的左端表示,而线索中最后 消息的日期由实线框的右端表示。实线框的虚线扩展分别表示前间隔和后 间隔。前间隔和后间隔解决作为线索部分、但比形成线索的当前消息早或 晚的消息,同时限制当前线索日期范围外的时间量,在其间具有相同标题 的消息可被认为是部分线索。
为了该实例,假定当前被分析的电子消息具有由图3A中的线A表示
的日期。还为该实例假定电子消息的标题与线索310和320的标题相同。 由于标题匹配线索310并且消息落入早于线索310的第一消息的前间隔 内,因此线索310可被添加到候选线索的第二集合。然而,由于消息不落 入早于线索320的第一消息的前间隔内,所以该线索不是电子消息的候选 线索,即使它与电子消息共享相同的标题。
候选线索的第二集合可以通过识别155来自与电子消息具有相同联系 人的第一集合的线索的子集来縮减。如上讨论,线索可被限定为包括那些 作为另一消息的答复或转发并且包括相同联系人的消息。具有不同的联系 人集合的答复和转发可被分类为相关线索。因此,与电子消息具有相同联 系人的线索是消息可能属于的线索。
如果线索在框155内的线索的第一或第二集合的子集中被发现170, 则识别的线索是电子消息可能属于的候选线索。在大多数情形,仅仅将发 现单个线索,其是电子消息属于的线索。当识别单个线索时,数据库可被 更新190,以将电子消息添加到数据库,并且将电子消息包括为识别的线 索的部分。
在一些情形,在框155中可找到180多于一个线索。这当电子消息是 两个现有线索之间的桥时可能发生,该桥将两个线索一起引入单个线索。 在该情形,两个线索可被一起合并185到单个线索中。
例如,图3B图示两个线索330和340,其具有由虚线扩展识别的每个
线索中第一消息之前以及线索中最后的消息之后的间隔时间量。为此实例 假定线索330和340与具有由虚线B表示的日期的电子消息共享相同的标 题和相同的联系人。在该情形,两个线索将在框150和155中被识别。原 因在于两个线索是相同线索的相似部分。然而,直到该点它们已经被分类 为不同的线索,因为线索340的第一消息和330的最后消息没有在330的 最后消息之后的后间隔时间量内、或线索340的第一消息之前的前间隔时 间量内发生。因此,它们不能在之前被一起分组到单个线索中。随着在时 间B (其落入线索340的开始之前的前间隔时间量并且或落入线索330之 后的后间隔时间量)发生的电子消息的引入,两个线索可被一起合并到单个线索中,并且数据库可被更新以反映合并的线索。
返回判定框170,如果在候选线索的第一或第二集合的子集内没有找
到170线索,则电子消息是新线索的一部分175。在此情形,在框140和 150中识别的线索可被分类195为相关线索。这些线索共享线索识别报 头,或共享与电子消息相同的标题和日期范围。进一歩分析可被执行来进 一步分类相关线索。在一个实施例中,电子消息的联系人可与每个相关线 索的联系人相比较,以确定新线索是否可被分类为关于每个相关线索的縮 减的、扩展的、专用的、或重叠的线索。
作为替代,消息的类型或电子消息的其他属性可与每个相关线索相比 较,以确定其关于相关线索的关系。例如,如果电子消息是一个相关线索 的之前消息的转发,则新线索可被分类为转发的线索。如果转发的线索与 从其转发的消息不包含共同的联系人,则转发的线索可进一步被分类为引 发线索。作为另一个实例,如果电子消息具有下述标题,则它可被分类为 修正的线索,该标题已经以除了简单前缀、字母大小写、空白空间和/或标 点的改变以外的方式从相关线索的标题修改。
作为另一个实例,如果电子消息的主题不同于其分支的线索的主题, 则新线索可被分类为修改的线索。如上讨论,电子消息的内容或主题可与 在相关线索中的一个或更多消息中讨论的内容或主题相比较。如果电子消 息的主题或内容与形成相关线索的消息的内容或主题不同,则新线索可被 分类为关于相关线索修改的线索。
应当注意到,本发明不限于上述的线索定义。本领域的技术人员将认 识到,其他线索定义和分类是可以的,并且在本发明的范围内考虑。还应 当注意到,本发明可以将无序接收的消息分组到合适的线索中。
数据库可用新线索更新190,并且还可被更新以包括各种线索的分类 和/或在框195中找到的每个相关线索和新线索之间的关系。
图4以图形形式图示三个线索,线索1、线索2和线索3。如图所 示,线索l包括三个消息,并且具有包括A、 B和C的联系人集合以及标 题项目。线索1不具有线索ID或任何其他线索识别报头。线索2包括两 个消息,并且具有包括A、 B和D的联系人集合以及标题会议。线索3包
括单个消息,并且还具有包括A、 B和D的联系人集合以及标题会议。线
索3还具有表示其属于具有线索ID 12的线索的线索识别报头。
图5图示具有已经从每个消息解析的报头字段日期、标题、联系人和 线索ID的三个消息A、 B和C的表格。利用图4中图示的线索作为存储 在数据库中的现有线索,表格1中列出的消息可被分析、分组并分类,如 图2中图示的流程图中所述。图6图示在来自表格1的消息已经被分组到 合适的线索之后产生的线索。
如表格l中所示,消息A不具有线索识别报头。结果,消息A的标题 和日期可被分析,以识别150 —个或更多消息可属于的候选线索。为该实 例假定前间隔和后间隔时间量被定义为4天。由于消息A的日期,2005年 2月1日,落入线索1和3中的第一消息的4天内,因此它们可以是潜在 的候选线索。然而,当消息A的标题与线索1和3的标题比较时,会发现 消息A的标题与线索3的标题不匹配。因此,线索1可被添加到候选线索 的第二集合。应当注意到,在框140中未发现任何候选线索,因为在消息 A中没有发现线索识别报头。
进行到框155,消息A的联系人与第二集合中的各线索的联系人相比 较,以识别与消息具有相同联系人的线索的子集。在此情形,线索1是与 消息A具有相同联系人的线索的第二集合中的唯一线索。由于在180仅发 现一个候选线索,因此数据库可被更新190以包括消息A并且将消息A添 加到线索l。图6图示添加了消息A的线索1.
回到表l,会发现消息B不具有线索识别报头。因此,消息B的标题 和日期被分析以识别150 —个或更多消息可能属于的候选线索。由于消息 B的日期落入线索1的日期范围,并且落入线索2的最后消息之后4天内 以及线索3的第一消息的4天内,因此所有三个线索可以是潜在的候选线 索。然而,当消息B的标题与三个线索的标题比较时,会发现线索l是与
消息B共享同样标题的唯一线索。因此,线索1可被添加到候选线索的第
一崔a _>采口 。
进行到框155,消息B的联系人与第二集合中的各线索的联系人相比 较,以识别与消息B具有相同联系人的线索的子集。在此情形,线索l是 各线索的第二集合中唯一的线索。然而,线索1包括联系人A、 B和C,
而消息B仅包括联系人A和C。
由于在第二集合中没有与消息B具有相同联系人的线索,因此消息B 开始新线索175。进行到框195,线索1在框150中被识别。因此,由消 息B开始的新线索是相对于线索1的相关线索。再次,将消息B的联系人 与线索1的联系人相比较,会发现消息B包括比线索1更少的联系人。因 此,由消息B开始的新线索可以被分类为相对于线索1的縮减的线索。数 据库可被更新190,以添加消息B和由消息B开始的新线索。此外,数据 库可被更新以包括新线索的分类,作为相对于线索1的縮减的线索。
图6图示线索1和由消息B开始的新线索,标记为线索4。如图示, 消息B在消息X从线索1分支。注意到消息B通过虚线连接到线索1的消 息X,以标记消息B是相关线索,在此情形为縮减的线索。注意到对相关 线索的每个不同的分类可使用不同的直观表示,以区分不同类型的相关线 索。
消息C也不具有线索识别报头。因此,消息C的标题和日期可被分析 来识别150消息可属于的一个或更多候选线索。由于消息C的日期落入线 索1的日期范围并且在线索2的最后消息之后的4天内以及线索3的第一 消息的4天内,因此所有三个线索可以是潜在的候选线索。然而,当消息 C的标题与三个线索的标题比较时,会发现仅仅线索2和3共享与消息C 相同的标题。因此,线索2和3可被添加到候选线索的第二集合。
进行到框155,消息C的联系人与第二集合中的各线索的联系人相比 较,以识别与消息B具有相同联系人的各线索的子集。在此情形,线索2 和线索3共享与消息C相同的联系人。因此,线索2和3被识别为子集。
由于框155中发现180多个线索,因此已经遇到特殊的情况,其中消 息C在之前被认为是独立的线索的两个线索之间提供了桥。线索2和3可 被合并185,消息C被添加到合并的线索。数据库可被更新190以包括消 息C并且更新各线索,使得线索2和线索3以及消息C被合并到单个线 索。图6图示了合并的线索。
重要的是注意到,线索3具有线索ID 12,而线索2不具有线索ID,
即使两个线索是同样线索的部分。其原因源自被一起分析和分类的消息可 能已经源自多个用户帐户,该多个用户帐户可能利用不同的电子邮件格 式。例如,形成线索3的消息可能源自用户A,其利用将线索识别报头应 用到每个消息的电子消息应用。然而,用户B和D可能已经使用不将线索 识别报头添加到消息的电子邮件应用。重要的是注意到,本发明将这些消 息分组到相同的线索中,而不论从各消息解析的报头字段的差异。
在本发明的替代实施例中, 一旦消息已经被分组到线索就执行进一步 分析,以确定在消息中讨论的主题是否与形成该线索的其余消息中讨论的 主题匹配。在一个实施例中,在电子消息中讨论的内容或主题可与在其线 索内的一个或更多消息中讨论的内容或主题相比较。如果电子消息的主题 或内容与形成该线索的其余的一个或更多消息的主题或内容不同,则该电 子消息可被分类为修改的线索。再次,这在回顾消息线索时对调查者可能 有用。
在一个实施例中,可从形成线索的各消息提取关键词和/或短语。这些 关键词、短语和/或与关键词和短语类似的项可与从电子消息解析的关键词 和/或短语比较,以确定在消息的主体中使用的关键词的重叠。高重叠指示 各消息之间的内容相似。低重叠指示电子消息可被分类为修改的线索,因 为该内容与该线索的剩余的内容不同。本领域的技术人员将认识到,存在 许多其他的内容相似度测试,其可被应用到形成线索的各消息,以确定消 息的内容与线索内剩余消息的内容的相似度。
上述的系统、方法和设备可以多种方式处理从一个或更多用户帐户接 收的电子消息。例如,当实时接收时,消息可被顺序分析并被分组到线 索。作为另一个实例,消息可被批量分析,使用批量消息、之后分组来自 各批量的线索来确定各种线索。作为替代,当从电子消息服务器或其他存 储介质接收时,消息可被顺序分析。在这些实例中,消息可被无序地分析 并分组。结果,与各线索相关联的各种分类和各线索可随时间改变。因 此,例如,由于日期范围的考虑或其他因素,可能需要将先前认为是不同 的各线索合并。本领域的技术人员将认识到,使用如上所述的本发明,存 在许多方式来分析并分组消息到各线索中。所有这些过程在本发明的范围
内考虑。
尽管本发明已经参照某些实施例描述,然而本领域的技术人员将认识 到可以提供各种修改。例如,尽管本发明已经针对电子消息一般地描述, 然而本领域的技术人员将认识到,本发明可应用于电子邮件消息、即时消 息(IM)、短消息服务(SMS)消息、语音消息、视频消息等。此外,尽 管本发明的各实施例已经针对用于从多个邮箱组织电子消息的应用来描 述,然而上面讨论的许多特征还可在单个邮箱环境中使用。本发明提供了 对实施例的各变化和修改,本发明仅由权利要求书限定。
权利要求
1.一种用于将电子消息分组到多个线索之一的方法,该方法包括解析所述电子消息以识别所述电子消息的标题、日期和联系人集合;以及识别多个现有线索的第一子集,包括与所述电子消息的标题匹配的标题;以及所述电子消息的日期落入的日期范围;识别线索的第二子集,该第二子集包括第一子集的子集,其包括与所述电子消息的联系人集合相同的联系人;以及响应于包括单个线索的该第二子集,将所述电子消息添加到所述线索。
2. 如权利要求1所述的方法,其中响应于包括多个线索的第二子集, 将多个线索合并到单个线索中,并且将所述电子消息添加到合并的线索。
3. 如权利要求1所述的方法,其中响应于不包括线索的第二子集,用 形成新线索的所述电子消息创建新线索。
4. 如权利要求3所述的方法,其中该新线索被分类为关于第一子集中 识别的每个线索的相关线索。
5. 如权利要求4所述的方法,其中该新线索被分类为关于第一子集的 线索的縮减的线索,该第一子集包括多于所述电子消息的联系人集合的联 系人。
6. 如权利要求4所述的方法,其中该新线索被分类为关于第一子集的 线索的扩展的线索,该第一子集包括在所述电子消息的联系人集合内发现 的联系人的子集。
7. 如权利要求1所述的方法,其中从所述电子消息解析的标题被标准化。
8. 如权利要求1所述的方法,其中日期范围包括在线索的第一消息之 前的时间间隔。
9. 如权利要求1所述的方法,其中日期范围包括在线索的最后消息之后的时间间隔。
10. —种用于将电子消息分组到多个线索之一的方法,该方法包括 解析所述电子消息,以识别线索识别报头以及联系人集合;以及 识别匹配线索识别报头的多个现有线索的第一子集;识别线索的第二子集,该第二子集包括第一子集的子集,其包括与所 述电子消息的联系人集合相同的联系人;以及响应于包括单个线索的第二子集,将所述电子消息添加到所述线索。
11. 如权利要求10所述的方法,其中响应于不包括线索的第二子集,用形成新线索的所述电子消息创建新线索。
12. 如权利要求11所述的方法,其中该新线索被分类为关于第一子集中识别的每个线索的相关线索。
13. 如权利要求12所述的方法,其中该新线索被分类为关于第一子 集的线索的縮减的线索,该第一子集包括多于所述电子消息的联系人集合 的联系人。
14. 如权利要求12所述的方法,其中该新线索被分类为关于第一子 集的线索的扩展的线索,该第一子集包括在所述电子消息的联系人集合内 发现的联系人的子集。
15. 如权利要求10所述的方法,其中该线索识别报头识别在线索中 的所述电子消息之前的一个或更多消息。
16. —种用于相对于线索组中的第二线索来分类线索组中的第一线索 的方法,该方法包括将第一线索的联系人的第一集合与第二线索的联系人的第二集合相比 较;以及如果联系人的第一集合不同于联系人的第二集合,则将第一线索分类 为关于第二线索的相关线索。
17. 如权利要求16所述的方法,其中该第二线索被相对于第一线索 分类。
18. 如权利要求16所述的方法,其中如果联系人的第一集合是联系 人的第二集合的子集,则第一线索为縮减的线索。
19. 如权利要求16所述的方法,其中如果第一集合包括第二集合的 所有联系人,加上至少一个附加的联系人,则第一线索为扩展的线索。
20. 如权利要求16所述的方法,其中如果第一集合包括第二集合的 子集,加上至少一个在第二集合中未发现的附加的联系人,则第一线索为 重叠的线索。
21. —种用于将电子消息相对于该电子消息属于的第一线索来分类的方法,该方法包括将从所述电子消息解析的内容与从形成第一线索的一个或更多消息解 析的内容相比较;如果电子消息的内容不同于形成第一线索的一个或更多消息的内容, 则将所述电子消息分类为新线索。
22. 如权利要求21所述的方法,其中如果电子消息的标题不同于形 成第一线索的一个或更多消息的标题,则将新线索分类为关于第一线索的修正的线索。
23. 如权利要求21所述的方法,其中如果电子消息与形成第一线索 的一个或更多消息中的内容差异指示所述电子消息中讨论的主题与第一线 索的主题不同,则将新线索分类为关于第一线索的修改的线索。
24. 如权利要求21所述的方法,其中如果所述电子消息是形成第一 线索的消息之一的转发,则将新线索分类为关于第一线索的转发的线索。
25. —种用于将电子消息分组到多个现有线索之一的方法,该方法包括解析所述电子消息以识别一个或更多报头字段; 响应于识别线索识别报头,将线索识别报头与多个现有线索的每个比较,以识别与线索识别 报头匹配的多个现有线索的第一集合;将所述电子消息的联系人集合与线索的第一集合的每个集合的联 系人集合相比较,以识别具有相同联系人集合的线索;将所述电子消息添加到具有相同联系人集合的线索; 响应于没有识别线索识别报头,将所述电子消息的标题和日期与多个现有线索的每个的标题和曰 期范围比较,以识别所述电子消息可能属于的多个现有线索的第二集 合.将所述电子消息的联系人集合与线索的第二集合的每个集合的联系人集合相比较,以识别具有相同联系人集合的线索;以及将所述电子消息添加到具有相同联系人集合的线索。
26.如权利要求25所述的方法,其中线索识别报头识别线索中的所 述电子消息之前的一个或更多消息。
全文摘要
描述了各种系统、方法和设备,用于分析电子消息并将其分组到线索。此外,本发明可以基于线索彼此之间的关系分类各线索。
文档编号G06F15/16GK101208686SQ200680011402
公开日2008年6月25日 申请日期2006年1月31日 优先权日2005年2月1日
发明者安德鲁·本斯基, 弗雷德里克·米勒, 约尔·萨奇, 詹姆斯·查尔斯·威廉姆斯, 阿内诗·马达坡西, 马格纳斯·斯坦斯蒙 申请人:梅塔利克斯有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1