用于识别潜在接收者的方法和设备的制作方法

文档序号:6557509阅读:127来源:国知局
专利名称:用于识别潜在接收者的方法和设备的制作方法
技术领域
本发明涉及一种用于识别消息的潜在接收者的方法,其中所述消息基本上包括文本消息并且所述消息是电子形式。
背景技术
写消息是人类通信通用和重要的工具。除了信件、传真或类似消息形式的印刷消息外,具有电子形式的消息在数量上正在增加。仅仅给出几个例子,因特网上的电子邮件(E-mail)、SMS(短消息业务)、即时短信或论坛应该被提及。每个消息由作者创建并发送到一个或多个接收者。对于发送,接收者的各自正确的标识符是必要的。对于E-mail,必须插入正确的E-mail地址,对于SMS,必须插入相应的电话号码。
为了简化各自标识符的插入,通常保留电话和/或地址簿。这里,将标识符一次输入列表、数据库或同等手段。当检索所存储的信息时,仅仅需要从电话/地址簿中选择所需的条目。如果电话/地址簿中存在很多条目,则寻找正确的接收者标识符是很耗费时间的。
对此,很多当前可用的E-mail程序提供了E-mail地址的自动完成。用户必须把E-mail地址的第一个字符插入到地址字段并且从程序中接收以指示的字符序列开始的地址建议。这里的问题是用户必须知道相当准确的各自地址。
由于创建E-mail地址的不同策略,这可能会变得很困难。另外,如果特定E-mail地址不常被用户使用,则由于用户不记得该地址,自动完成变得几乎无用。此外,如果显示的条目与期望的相似,由于用户倾向于遗漏文字,则自动完成容易出错。在用户较匆忙的时候,可能无意中将E-mail发送到错误的接收者。

发明内容
因此,本发明的任务在于设计并进一步开发上述类型的方法,用于按照以下方式来识别潜在的接收者当选择一个或多个接收者时,可以实现可能简单化使用、用户友好性和错误检测。
根据本发明,上述提到的任务是通过示出了权利要求1的特征的方法解决的。因此,该方法的特征是在于对消息的内容进行文本分析,并基于文本分析的结果从接收者列表中识别一个潜在接收者或一组潜在接收者。
根据本发明,首先认识到随着各自接收者的不同,每个消息在风格和主题上不同,并且当识别潜在接收者时可以考虑该信息。商业信件可能具有更正规的风格并且可能涉及特定工作内容。此外,发送到商业伙伴的信件比发送到同事的消息更正式。这种不同也发生在私人生活中。
根据本发明,应当认识到该信息可以被考虑用于识别潜在接收者。对此,对消息的内容进行文本分析并且将文本分析的结果用于识别一个或多个潜在接收者。因此,从接收者列表中相应地选择一个接收者或一组接收者。
这里,接收者列表应当被理解为一般性术语。列表可以仅涉及各个的联系信息列表,但其也可以包括电话簿、地址簿、地址数据库或其他用于存储联系标识符的手段。按照这种方式,术语“地址”或“标识符”可以指易于明确地识别接收者的任何可能性。这可以包括,例如,电话号码、移动号码、E-mail地址、因特网论坛上的标识符、即时消息标识符或其他。
优选地,文本分析提取各个特征。这里特征可以指消息特征的多个变量。在这方面,可以搜寻特定单词的出现。如果消息包括,例如关于会议的标记,这强烈地指示了消息为商业内容。此外,如果使用非常不正式的风格,则这非常可能是与同事的会面。此外,可以搜寻特定的称呼或接近的短语。描绘相应接收者的其他特征也可以用作特征。例如,可以检测句子的最大或平均长度。
在私人生活中,通常使用比商业生活短的句子。而且,例如,最大或平均单词长度、消息的特定结构、签名的使用、单词包装的数量或其他重要特征较为重要。
所有特征可以取决于消息的相应作者。当写消息时,每个用户会习惯于特定的习惯,但他仍会显示其特定的个人特征。因此,除了一般使用的特征,文本的分析应当也会提供特定用户的特征。
然后,将从已分析的消息中提取的这些特征与潜在接收者的特征进行比较和组合。通过这一点,可以执行分类,并在合适的情况下,接收者可以被识别为已分析的消息的最可能接收者。提取和/或特征的分类可以由多数分析算法或分类算法执行。
优选的,使用机器学习算法。仅仅给出示例而不将方法局限于此,应当考虑到神经网络、支持向量机、MFU(最常用)算法或贝叶斯分类器的使用。例如,参见如下文献(1)O.De Vel,A.Anderson,M.Corney和G.Mohay,“Mining EmailContent for Identification Forensics”,SIGMOD Record第30卷第4期第55-64页,2001年12月;(2)Paul Graham,“A Plan for Spam”,http://www.paulgraham.com/spam.html,2002年8月;(3)Bryan Klimt,Yiming yang“Introducing the Enron Corpus”,Firstconference on email and Anti-spam(CEAS),Proceedings,2004年7月;(4)I.Rish,“An emprirical study of the Naive Bayer classifier”,17thInternational joint conference on Artifical Intelligence,2001年8月;以及(5)R.B.Segal,J.O.Kephart“MailCatAn Intelligent Assistant forOrganizing E-Mail”,Proceedings of the National Conference on ArtificalIntelligence,1999年。
取决于可用的计算能力、提取的特征数目、识别潜在接收者所需的精确度或其他补助条件,可以选择相应的合适算法。也可以预见几种算法的可能应用,这可以根据操作条件而改变。
当使用贝叶斯分类器时,为了更好计算可以使用自然(naive)贝叶斯分类器。与标准的贝叶斯分类器不同,在使用自然贝叶斯分类器的情况下,各个特征不会被认为互相依赖,因此在贝叶斯分类器的计算公式中,将条件概率划分为仅仅取决于相应特征的各个条件概率。即使该假设很少应用到实际中,自然贝叶斯分类器实际上可以获得较好结果。这是在各个特征并不太相关时的情况。此外,当考虑消息时,各个文本特征并不完全彼此独立。尽管如此,当特征充分不相关时,可以满足自然贝叶斯分类器的应用。
所有已知的分析和/或分类算法具有的共同点是它们参考由已执行产生的知识以及优选是消息和接收者之间已校验互相关。优选地,该知识是由训练产生的。为此,通过分析文本以及将其与用户手动选择的接收者进行匹配,将由用户书写的各个消息用于训练。
由于训练本身需要相当大数量的消息来获得分类的较好结果,还可以利用用户已书写并因此还与接收者列表的一个或多个接收者相关的消息来训练系统。由于新书写的消息的使用,知识连续增加,这导致了基于该知识的分析和/或分类提供了更好的结果,并适用于用户习惯的改变。
具体地,关于对接收者的可能改变的通信习惯,较新知识的加权可以比较旧知识的加权大。例如,可以与商业伙伴建立更私人化的关系,这会导致消息更加不正式的格式。通过这些方法,可以注意到用户习惯的改变。较新的知识可以对潜在接收者的识别产生更强的影响。
为了在建立知识时进一步降低工作量,消息的绝大部分作者可能产生的不同特征可以合并在基本知识中。这样的基本知识可以用作预训练或直接插入到运行系统中。
为了进一步增加依照本发明方法的第一用途的效率,当插入到接收者列表时,可以邀请用户给出关于接收者的某些详情。例如,这可以包括各个接收者的分类(商业、同事、个人、朋友、家庭等)。此外可以请求用户以同样的方式分类接收者列表中已经存在的条目。据此,通过消息的简单分析可以执行第一选择并且在非常早的阶段就可以排除很多接收者。
通过这些手段,可以识别消息的最可能接收者。另一方面,这些接收者可以被识别为已分析消息的相当不可能接收者。
然后,可以显示按照这种方式被识别的接收者并建议给用户。可以依照其概率排序并显示建议的接收者。不可能的接收者可以被排除在列表外。
可以按照这样的方式使用,即,当插入消息的接收者时,检查插入的正确性。文本分析可以确定消息确实被发送到指示的接收者的概率。另一方面,可以将用户指示的接收者与识别的接收者进行比较。通过这些方法还可以确定正确的接收者被指示的概率。如果概率太低,则可以以合适的方式通知用户,或将接收者被替换为更合适的接收者。
关于本实施例的另一示例,所识别的接收者还可以用于接收者的联系数据的自动完成。在用户写完消息并插入联系数据后,可以建议消息的最可能接收者,并且可能以用户指示的字符组合开始的接收者。通过这种方式,可以有效地避免由于接收者插入的自动完成导致将消息发送到错误的接收者。
在本发明的另一实施例中,在写完消息后,可以向用户指示包括所有潜在接收者的一组接收者。
用户可以定义一个阈值,标明从文本提取的特征必须与接收者的特征匹配的程度。获得比阈值更高匹配的所有接收者被显示为一组接收者的潜在成员。通过这些手段,可以将用户最初忘记的接收者合并到组中。
在本发明的另一实施例中,系统可以简单地监视一贯地接收关于相同主题的消息的用户,并推断一组个体实际上是一个主题组。然后,该信息可以对以任何所需的方式使用该信息的用户或其他应用程序有用,例如,对使用关于工作组信息的更好用户程序。
在实施例的另一示例中,依照本发明的方法可以应用在因特网的论坛或必须管理大量消息的其他环境中。可以分析到达服务器的消息的内容。基于分析的结果,这些接收者可以被识别为经常获得相似的消息。可以相应地将这些消息标记为这些用户感兴趣。还可以连续地更新关于更喜欢内容的知识。
在实施例的所有示例中,可以向用户提供从所识别的接收者中故意擦除各个标识符的概率。在因特网论坛的上下文或相似环境中,可以从所识别的接收者中擦除自身的接收者标识符。通过这种擦除,可以同时更新执行分析和/和分类的知识。
现在,关于如何以更先进的方式设计和进一步发展本发明的教益有几种选择。为此目的,必须一方面参考权利要求1的从属权利要求,另一方面结合附图参考依照本发明方法的实施例的优选示例的说明。
结合实施例的优选示例和附图的解释,通常可以解释优选设计以及教益的进一步发展。


图1是示出了依照本发明方法实现的流程图;图2A是示出了结合自然贝叶斯分类器,依照本发明方法实现的应用的流程图;图2B是示出了结合自然贝叶斯分类器,依照本发明方法执行训练的流程图;图3是示出了实现依照本发明的方法的信息处理设备的方框图。
具体实施例方式
图1显示了依照本发明方法的实现的流程图。各个处理通常独立于用于执行特征的提取和/或分类而应用的算法。首先,在步骤1用户产生消息。在步骤2分析消息的内容,并且随后在步骤3将分析的结果提供到分类算法。最后,在步骤4,产生对用户的建议,用户选择所建议的接收者之一或替换没有包括在建议中的接收者。按照这种方式执行的、已分析的消息和用户之间的相关用于更新分类所需的知识。之后,在步骤5开始知识的更新。建立提取的特征和所选择的接收者之间的连接,并与收集的关于相应接收者的信息组合。之后,在步骤6等待下一消息。
图2A和图2B示出了使用自然贝叶斯分类器的依照本发明的方法的流程图,自然贝叶斯分类器源于贝叶斯分类器。贝叶斯分类器原则上基于与条件概率有关的贝叶斯定理。在给定的示例中,可以计算消息Mi被发送到接收者Rj的概率。因为特征Ta,Tb,Tc,...出现在消息Mi中,这个概率是有条件的。这里将条件概率计算为P(Mi⋐Rj/Ta,Tb,Tc,...)=P(Ta,Tb,Tc,.../Mi⋐Rj).p(Mi⋐Rj)P(Ta,Tb,Tc,...)]]>P(Ta,Tb,Tc,.../MiRj)计算了特征Ta,Tb,Tc,...被包括在发送到接收者Rj的消息中的概率。通常,在假定采用自然贝叶斯分类器的情况下,特征Ta,Tb,Tc,...之间存在依赖性,尽管消息中各个特征可以相互独立的产生。条件概率P(Ta,Tb,Tc,.../MiRj)可以被各个特征的条件概率的乘积替代。由于上述公式中给出的分母P(Ta,Tb,Tc,...)独立于接收者,当针对接收者Rj确定消息Mi的关联时,该部分可以忽略。因此,下面的条件可以被计算为P(Ta/Mi Rj)·P(Tb/Mi Rj)·...·P(MiRj)各个因子是发送到接收者Rj的消息Mi中的各个特征Ta,Tb,Tc,...出现的概率。
图2A显示了使用自然贝叶斯分类器依照本发明方法的实现方式。这里,在流程图中描述了该方法应用的常见处理。首先,用户产生一个消息(步骤7)。之后,在步骤8由分析算法提取消息的特征。如果特征Ta,Tb,Tc,...被较好地选择,则至少一些特征被包括在消息中。
随后,关于各个特征的相关性分析存储在潜在接收者列表中的各个接收者,并基于此,针对接收者来计算消息的相关性。在步骤9,首先检查接收者列表中是否有未检查的接收者。如果是,则在步骤10,重新获得关于特征相关性的数据,并在步骤11把数据发送到自然贝叶斯分类器。之后,继续步骤9的处理。仅当接收者列表中的所有接收者都被处理后,才结束该循环,并在步骤12向用户产生建议。该建议包括一个或多个潜在接收者,依照分析和分类,这些潜在接收者应当被认为是接收者。
最后,所有的计算数据用于扩展知识,并且特征和相关接收者的组合与已经存在的知识(步骤13)相组合。之后,可以处理其他消息(步骤14)。图2B示出了执行训练程序的流程图。该程序可以用于首次建立知识,以及用于更新知识。在步骤15,接受消息。在步骤16,检查已经存在的接收者列表中是否包括该消息的接收者以及接收者是否已知。如果接收者是未知的,则产生新的条目(步骤17)。在这两种情况下(接收者已知或未知),之后增加用于将消息发送到接收者的计数(步骤18)。随后,处理包括在消息中的各个特征并将其作为与接收者相关的特征进行分类。之后,步骤19首先检查是否还有未处理的特征。如果是,则在步骤20把未处理的特征增加到接收者并且继续步骤19。仅当以这种方式处理了所有的特征后,循环结束。之后,程序流程结束并处理另外的消息。
下面给出了一个可能的示例当用户输入下面的消息“亲爱的John,我下周一将参加关于我们的质量控制测试的邀请报告。我会在测试实验室直接与你见面。祝好,Andrew”。
文本分析可以获得单词“John”,“质量”,“控制”和“见面”并建议(通过分类器)将John@foo.com作为可能的接收者,因为用户(Andrew)通常与John讨论质量控制问题。同样地,消息的格式、单词“见面”和提到的“星期一”可以建议Andrew的老板或秘书为建议的接收者。
如图3所示,提供了一种具有消息收发工具101的信息处理设备,消息收发工具101通过输入部件102输入消息的文本,用户通过输入部件102可以执行消息输入、潜在接收者的选择或替代等。如果期望该装置设备不仅预测接收者,而且基于用户输入来校正或建议接收者,则消息收发工具101还可以提供与用户发送相同的、接收者的试验性列表。然后,输入消息到达文本分析模块103,文本分析模块103将关于所选择的接收者的消息特征的出现频率存储到频率表104。然后,通过产生潜在接收者列表的分类器105执行分类,然后通过结果通知器106将潜在接收者列表返回消息收发工具101。通过用户选择或替代潜在接收者,相应地更新频率表104。应当注意在使用与贝叶斯分类器不同的机制的情况下,消息序列可以不同,并且可以不同地实现、去除某些块,或增加新的块。
最后,尤其重要的是,上述完全任意选择的示例仅仅用于说明依照本发明的教益,本发明决不局限于实施例给出的示例。
权利要求
1.一种用于识别消息的潜在接收者的方法,其中所述消息基本上包括文本消息,并且所述消息是电子形式,其中对消息的内容进行文本分析,并基于文本分析的结果,从接收者列表中识别一个潜在接收者或一组潜在接收者。
2.根据权利要求1所述的方法,其中,通过文本分析提取消息的各个特征。
3.根据权利要求2所述的方法,其中,将所提取的特征与接收者列表中接收者的特征进行比较,并且执行分类。
4.根据权利要求1所述的方法,其中,为了特征的提取和/或分类,使用机器学习算法,其中所述机器学习算法是从包括神经网络、支持向量机、MFU(最常用)算法和贝叶斯分类器的组中选择的。
5.根据权利要求4所述的方法,其中,将贝叶斯分类器简化为自然贝叶斯分类器。
6.根据权利要求1所述的方法,其中,识别最可能的接收者和/或最不可能的接收者。
7.根据权利要求1所述的方法,其中,为了分析和/或分类,使用来自之前执行和校验的信息与接收者之间相关性的知识。
8.根据权利要求7所述的方法,其中,通过训练过程来建立知识。
9.根据权利要求7所述的方法,其中,通过选择和/或插入和/或去除消息的接收者来完成和/或更新知识。
10.根据权利要求8所述的方法,其中,通过选择和/或插入和/或去除消息的接收者来完成和/或更新知识。
11.根据权利要求7所述的方法,其中,较新知识的加权比较旧知识的加权大,由此对潜在接收者的识别具有更大影响。
12.根据权利要求1所述的方法,其中,由用户设定的关于接收者和/或优选项的更详细数据用于识别潜在接收者。
13.根据权利要求12所述的方法,其中,所述更详细数据包括关于接收者列表中的接收者的信息。
14.根据权利要求1所述的方法,其中,将所识别的接收者指示为向用户的建议。
15.根据权利要求14所述的方法,其中,根据接收者的识别概率来分类所建议的识别接收者。
16.根据权利要求1所述的方法,其中,所识别的接收者用于接收者联系数据的自动完成。
17.根据权利要求1所述的方法,其中,基于所识别的接收者,产生一组接收者。
18.根据权利要求17所述的方法,其中,用户或其他应用程序共享一组接收者,例如与组相关工具一起使用。
19.根据权利要求1所述的方法,其中,将由用户指示的接收者与所识别的接收者进行比较。
20.根据权利要求19所述的方法,其中,根据接收者的识别概率来校正用户指示的接收者,或以合适的方式向用户指示偏差。
21.一种用于识别消息的潜在接收者的设备,包括分析器,用于分析所述消息的内容;以及分类器,用于基于分析的结果来分类消息,从而从接收者列表中识别一个潜在接收者或一组潜在接收者。
全文摘要
一种用于识别消息的潜在接收者的方法,其中消息包括文本消息,以及消息是电子形式,针对可能的简单使用和用户友好性,按照以下方式设计所述方法并且进一步开发对消息的内容进行文本分析,并基于文本分析的结果,从接收者列表中识别一个潜在接收者或一组潜在接收者。
文档编号G06Q10/00GK1983942SQ200610064798
公开日2007年6月20日 申请日期2006年12月4日 优先权日2005年12月5日
发明者米克尔·马丁, 艾尔诺·科瓦奇 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1