在电子邮件流中发现用户兴趣并据此有效推送文档的方法

文档序号:6517173阅读:339来源:国知局
专利名称:在电子邮件流中发现用户兴趣并据此有效推送文档的方法
技术领域
本发明涉及计算机技术领域,特别涉及语义理解、文本分类、文档共享和电子邮件流的在电子邮件流中发现用户兴趣并据此有效推送文档的方法。
背景技术
一个科研团队的不同成员的研究领域通常存在交叉,一方面,他们常常为了获得相同文档而重复着搜索和下载操作,造成人力和财力的浪费;另一方面,他们常通过电子邮件交流信息,有时也将有价值的文档作为附件发送给其他成员,这可以在一定程度上实现成员间的文档共享,但仍存在以下问题首先,无法保证每个成员都愿意向其他成员发送对方需要的文档,因此不可能从根本上避免团队成员为获得相同文档所做的重复操作。
其次,即使每个成员都愿意向其他成员发送对方需要的文档,仍然会有如下情况发生某个成员的兴趣经常会随时间而改变,其他成员可能在未察觉此变化的情况下,继续给他发送现在已不再需要的文档,而不给他发送新需要的文档;一个成员很难准确把握其他所有成员的兴趣,因而无法将文档推送给所有需要该文档的成员,也就无法实现文档的充分共享。
为了在团队中实现科技文档的充分共享,本发明首先提取每个团队成员科研工作方面的兴趣,然后根据成员兴趣定期为团队成员推送相关文档。准确提取团队成员的兴趣是充分实现团队成员之间科技文档共享的基础。在发送和接收电子邮件的过程中团队成员之间形成了电子邮件流,同时每个成员所关注的问题往往能通过其收发的电子邮件反映出来,因此可以从电子邮件流中提取团队成员的兴趣。本发明以现有的电子邮件功能为基础,从团队成员之间的电子邮件流中提取用户兴趣,确保了文档在团队成员之间充分共享的前提。基本思想是成员所收发的电子邮件集中的地方正是成员研究工作集中的地方首先,将成员之间的电子邮件保存到数据库中,该过程消除了垃圾邮件的干扰;接着,利用自然语言学习的方法得到能为描述用户兴趣提供有用信息的有效电子邮件;然后,将与团队相关的研究领域划分为更小的子领域,在此基础上对有效电子邮件进行分类;最后,根据有效电子邮件在各子领域中的分布情况,用成员所关注子领域的集合来表示用户兴趣。考虑到用户兴趣可能在一段较长时间之后发生变化,将时间因素引入兴趣提取过程,用户兴趣会随着新邮件的产生和时间的推移得到及时更新,根据用户兴趣推送文档确保总能将文档推送给所有需要该文档的团队成员,既不会错发,也不会漏发。
本发明以描述子领域语义的兴趣点集为模板,将文档划分到与其语义相近的子领域中,文档推送程序以此为基础,将文档推送给关注此子领域的用户,确保了所推送的文档在语义上是用户所需要的,准确、有效。
如果团队成员想与其他成员共享某篇文档,只需将该文档上载到团队的文档数据库中,就可实现该文档的理解和推送,多数团队成员能接受简单的上载操作,很大程度实现了团队成员之间的文档共享,避免了他们繁杂的重复操作。

发明内容
本发明的目的在于提供在电子邮件流中发现用户兴趣并据此有效推送文档的方法,从而有效利用团队资源,充分实现团队成员之间的科技文档共享。本方法步骤如下首先,将团队成员之间的电子邮件存入数据库;然后,从团队成员之间的电子邮件流中提取用户兴趣,当成员所关注的问题改变时其兴趣会随其收发的电子邮件得到及时更新,根据成员兴趣总能将正确的文档推送给成员;并对团队文档数据库中的文档进行语义分析;最后,在文档语义分析的基础上,将与用户兴趣一致的文档推送给团队成员。
本方法主要包括以下几点通过电子邮件服务器程序提供的功能将团队成员之间的电子邮件转发到某个固定账户,定期执行邮件收集程序,该程序解码固定账户中的电子邮件并将解码结果保存到电子邮件数据库中,完成电子邮件的自动存库,多数垃圾邮件都来源于陌生的电子邮件地址,本发明只保存成员之间的电子邮件,也就消除了提取用户兴趣时垃圾邮件的干扰;只考虑团队成员科研工作方面的兴趣,利用自然语言学习的方法将成员之间的电子邮件划分为有效电子邮件和无效电子邮件,得到能为描述用户兴趣提供有用信息的有效电子邮件,以此为基础提取用户兴趣,确保了用户兴趣的准确性;将与团队相关的各研究领域细分为子领域,通过子领域的先验知识集和兴趣点集表示子领域的背景知识和语义;通过有效电子邮件与先验知识集的相似度计算实现有效电子邮件的分类,用户有效电子邮件集中的子领域正是其研究工作集中的子领域,因此根据用户有效电子邮件分布于各子领域的情况提取用户兴趣,用户兴趣表示为其所关注子领域的集合;用户兴趣可能会随时间的推移而发生改变,电子邮件对用户兴趣的描述能力也应随其存在时间的增长而降低,将时间引入用户兴趣的提取过程,当用户工作重点转移时,其兴趣也得到及时调整,因而总能将文档推送给所有需要该文档的团队成员,既不会错发,也不会漏发,确保了团队成员间充分共享科技文档的前提;以描述子领域语义的兴趣点集为模板,根据文档与各子领域在语义上的相似度将文档划分到不同子领域,以此为基础,将文档推送给所关注子领域集合包含文档所属子领域的用户,从语义上确保了所推送的文档是用户所需要的,准确、有效。团队成员只需将文档上载到团队的文档数据库中,就可实现该文档的理解和推送,多数团队成员能接受简单的上载操作,使团队成员之间的文档共享简单、易行。
技术方案本发明是在电子邮件流中发现用户兴趣并据此有效推送文档的方法。本方法首先,将与团队相关的各研究领域细分为子领域,构建表示子领域背景知识的先验知识集和描述子领域语义的兴趣点集;定期运行电子邮件收集程序将团队成员之间的电子邮件存入电子邮件数据库中,并从中提取能提供有用信息来描述用户兴趣的有效电子邮件,团队成员也可将有价值的科技文档上载到文档数据库中。然后,将有效电子邮件划分到先验知识集与其相似度最高的子领域中,根据有效电子邮件在各子领域的分布情况提取用户兴趣,以子领域的兴趣点集为模板对文档数据库中的文档进行语义分析和分类。最后,由文档推送程序根据用户兴趣和文档分类的结果,将与用户兴趣一致的文档推送给团队成员。
本方案主要包括以下几个技术指标1.团队成员之间的电子邮件自动存库首先,构建电子邮件数据库,数据库的每条记录存储一封电子邮件,并通过电子邮件服务器程序将团队成员之间的电子邮件自动转发给某个固定账户;然后,定期运行邮件收集程序,该程序解码固定账户中的电子邮件,并将解码结果存入电子邮件数据库中,实现电子邮件的自动存库。垃圾邮件通常来源于陌生的电子邮件地址,因为只有成员之间的电子邮件被保存下来,电子邮件的自动存库过程本身就实现了垃圾邮件的过滤。
2.提取有效电子邮件本发明只关心用户在科研工作方面的兴趣,因此只有涉及科研工作内容的电子邮件才是有效的,通过自然语言的学习方法从电子邮件数据库中提取能为描述用户兴趣提供有用信息的有效电子邮件。
3.细化科研领域划分,建立子领域的先验知识集和兴趣点集对本团队研究领域进行细分,得到与团队相关的子领域集合。为各子领域建立先验知识集和兴趣点集,分别表示子领域的背景知识和语义。先验知识集的元素由表示子领域主要内容的关键词和关键词对子领域的影响因子(描述能力)两部分构成。兴趣点集由与子领域所包含兴趣点相对应的语义链网构成,一个语义链网描述一个兴趣点的语义信息。
建立子领域的先验知识集表示其背景知识,通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣。
构建描述子领域语义的兴趣点集,以此为模板将文档划分到与其语义相近的子领域中,由文档推送程序将文档推送给关注此文档所属子领域的成员,从语义上保证了推送给用户的文档正是用户所需的,团队成员只需将文档上载到团队的文档数据库中,就可由程序完成该文档的推送,简单、易行。
4.根据有效电子邮件的分类结果得到用户兴趣通过有效电子邮件与子领域先验知识集的匹配计算确定每封电子邮件所属的子领域,实现有效电子邮件的分类;以有效电子邮件的分类结果为基础,根据与成员相关的有效电子邮件的分布情况确定成员当前所关注的子领域集合,通过该集合表示用户兴趣。其基本思想是用户电子邮件集中的子领域也是其研究工作集中的子领域。
5.及时更新用户兴趣用户兴趣往往会随时间的变化而改变,因此电子邮件对用户当前兴趣的描述能力应随其存在时间的增长而降低,该方法把时间因素引入用户兴趣的提取过程,当用户所关注问题发生变化时其兴趣也将得到调整,根据用户兴趣推送文档确保总能将文档推送给所有需要该文档的团队成员,既不会错发,也不会漏发。
考虑到用户兴趣可能在一段较长时间之后发生变化,将时间因素引入兴趣提取过程,用户兴趣会随新邮件的产生和时间的推移得到及时更新,根据用户兴趣为用户推送文档确保总能将文档推送给所有需要该文档的团队成员。
6.根据语义分析判断文档所属子领域以子领域的兴趣点集为模板,对文档数据库中的文档进行语义分析,将文档划分到与其语义相近的子领域中,从语义上保证了文档分类的准确性。定期对新添加到文档数据库中的文档进行语义分析和划分。
7.根据用户兴趣和文档分类结果推送文档定期运行文档推送程序,该程序根据用户当前的兴趣,将文档数据库中与用户兴趣一致的文档,通过电子邮件推送给相应的团队成员。根据用户兴趣推送文档,确保总能将正确的文档推送给团队成员;将文档语义分析的结果,而不是简单的关键词匹配的结果推送给用户,确保所推送的文档在语义上是用户所需的,准确、有效。


图1是本发明在电子邮件流中发现用户兴趣并据此有效推送文档的方法流程图。
图2是本发明的一个语义链网和它的邻接矩阵表示图。
图3是本发明的文档理解的流程图。
具体实施例方式
本发明是在电子邮件流中发现用户兴趣并据此有效推送文档的方法。本方法将与团队相关的各研究领域细分为更小的子领域,为每个子领域建立先验知识集和兴趣点集分别表示子领域的背景知识和语义,用户兴趣就是其所关注子领域的集合。首先,将团队成员之间的电子邮件保存到电子邮件数据库,从中提取内容涉及科研信息的有效电子邮件。然后,将有效电子邮件划分到先验知识集与其相似度最高的子领域中,实现有效电子邮件的分类;根据分类结果,计算每个成员所收发的有效电子邮件在各子领域中的分布比例,将分布比例大于阈值的子领域加入该用户所关注的子领域集合,得到用户兴趣。同时,以子领域的兴趣点集为模板,通过对文档的语义分析将团队文档数据库中的文档划分到与其语义相近的子领域中。最后,文档推送程序根据用户兴趣为其推送相关文档,具体实现方法是,以电子邮件附件的形式将文档数据库中的文档推送给所关注子领域集合包含该文档所属子领域的用户。
图1是本发明的实施流程图,主要包括以下四部分一、电子邮件自动存库,提取有效电子邮件1.建立电子邮件数据库团队成员使用统一的电子邮件服务器和服务器程序(如WebEasyMail),在电子邮件服务器的某个目录下(如F\database,以下称为数据库目录)建立数据库文件(如mail.mdb,以下称为电子邮件数据库)来保存团队成员之间的电子邮件信息。每封邮件在电子邮件数据库中存储为一条记录,包含六个字段,各字段的名称和含义如下
发件人发件人的电子邮件地址收件人收件人的电子邮件地址抄送抄送的电子邮件地址发送时间发送该电子邮件的时间主题电子邮件的主题正文电子邮件的正文内容,对于长度超过255个字符的,以对象连接和嵌入的方式存储2.电子邮件自动存库首先,通过WebEasyMail提供的服务将团队成员之间的所有电子邮件自动转发到一个固定帐户(如用户名为group的帐户)。该账户的邮件保存在邮件服务器的某个固定目录中(如C:\WebEasyMail\mail\group,以下称为未解码邮件目录)。传统意义上的垃圾邮件通常来源于用户不熟悉的电子邮件地址,本过程只收集团队成员之间的电子邮件,消除了垃圾邮件对用户兴趣提取过程的干扰。
然后,定期(如每天一次)运行所编写的邮件收集程序(如MailGatherer)以实现电子邮件的自动存库。该程序依次读取未解码邮件目录中的每封电子邮件,分析邮件头,解码邮件体,把解码后的电子邮件信息保存到电子邮件数据库文件的相应字段中;将处理过的电子邮件移到电子邮件服务器的另一目录中(如C:\WebEasyMail\mail\group_deleted,以下称为已解码邮件目录),下次运行MailGatherer时不再处理。定期运行MailGatherer。
3.提取有效电子邮件虽然传统意义上的垃圾邮件已经在上一步中被过滤掉,但并不是所有保存在电子邮件数据库中的电子邮件都能为描述用户兴趣提供有效信息。我们将能反映用户兴趣的电子邮件称为有效电子邮件,不能反映用户兴趣的称为无效电子邮件。与团队研究内容相关的电子邮件就是有效电子邮件;而团队成员之间经常发送的笑话或活动通知等就属于无效电子邮件了,这里只考虑成员在科研工作方面的兴趣。为了得到准确的用户兴趣,必需将有效电子邮件从电子邮件数据库中提取出来,这是通过自然语言学习的方法实现的。
首先,选择一定数量的有效电子邮件和无效电子邮件分别作为有效电子邮件的训练集合Cl和无效电子邮件的训练集合C2,并通过以下公式得到有效电子邮件和无效电子邮件的标准向量 和 表示c→1=161|C1|Σe∈C1e→|e→|-41|C2|Σe∈C2e→|e→|---(1)]]>c→2=161|C2|Σe∈C2e→|e→|-41|C1|Σe∈C1e→|e→|---(2)]]>其中,e→=(e1,e2,...,e|F|)]]>是电子邮件e的向量表示,ei是关键词wi在电子邮件e的主题和正文中出现的次数; 是 的向量长度;|C1|和|C2|分别是C1和C2的训练样本数,即,包含的电子邮件数。然后,计算电子邮件数据库中电子邮件e的向量表示 与标准向量 和 的相似度,计算方法如下cos(e→,c→n)=Σi=1|F|eiciΣi=1|F|ei2Σi=1|F|ci2---(3)]]>其中,n=1或n=2,
如果cos(e→,c→1)>cos(e→,c→2)]]>则e为有效电子邮件,否则e为无效电子邮件。至此,我们就得到了用于提取用户兴趣的有效电子邮件。
二、有效电子邮件分类和用户兴趣提取将与团队相关的各个研究领域划分为更小的子领域,并通过子领域ndi的先验知识集Ki表示其背景知识。Ki是(nk,ak)的集合,nk是能共同反映ndi主要内容的一组关键词中的一个,ak是nk的权重,表示nk对ndi的描述能力,ak越高,nk的描述能力就越强。
通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣;首先,计算每封有效电子邮件e所描述内容涉及子领域ndi的概率Sim(e,Ki)=Σk=1Rαkf(Skl)/N---(4)]]>其中,nk是电子邮件e的主题和正文中包含的属于Ki的关键词;Dl是nk的集合,显然,(nk,ak)∈Ki且nk∈Dl;Skl是关键词nk在电子邮件e的上述部分中出现的次数且f(Skl)=tanh(Skl/3);R和N分别是Dl和Ki的元素个数。
然后,将e划分到概率最高的子领域中,实现有效电子邮件的分类。
一般说来用户所发送或接收的有效电子邮件多数会集中在少数几个子领域中,其从事的研究工作应该也集中在这几个子领域中。也就是说,有效电子邮件集中的子领域正是他科研工作所关注的子领域,成员兴趣就是用其所关注子领域的集合表示的。因此,可以根据有效电子邮件的分类结果,计算用户的研究工作涉及各个子领域的百分比。
然后,计算用户i的研究工作涉及子领域j的百分比perijperij=αΣ(e∈ndj)∩(e∈fromi)2-age(e)hlsim(e,Kj)+βΣ(e∈ndj)∩(e∈toi)2-age(e)hlsim(e,Kj)αΣ(e∈fromi)2-age(e)hlsim(e,Kj)+βΣ(e∈toi)2-age(e)hlsim(e,Kj)×100%---(5)]]>perij是用户i的研究工作涉及子领域j的百分比,其中,fromi是用户i所发送的有效电子邮件的集合,toi是用户i所接收的有效电子邮件的集合;α=1,β=0.8,分别表示用户所发送的有效电子邮件和所接收的有效邮件对其兴趣的描述能力, 使得电子邮件的描述能力随其存在时间的增长而降低,age(e)是当前日期与电子邮件e的发送日期的差,hl=30表明30天前的电子邮件只有当前电子邮件一半的描述能力;fromi是用户i所发送的有效电子邮件的集合,toi是用户i所接收的有效电子邮件的集合。
用户所接收到的来自其他成员的有效电子邮件对其兴趣的描述的能力依赖于发送邮件的成员对其科研工作的了解程度;用户所发送的有效电子邮件一般都能正确反映他的研究兴趣,所以,赋予用户所发送的有效电子邮件更强的描述能力。用户的研究重点往往会在经过一段较长的时间后发生变化,所以电子邮件的描述能力也应该随着其存在时间的增长而降低,这是通过将 引入公式实现的;最后,如果perij大于阈值,将子领域ndj加入用户i所关注的子领域集合中,这里阈值为10%。
三、文档理解及分类一个基本的概念、观点或方法称为一个兴趣点,我们用一个语义链网(SG)来表示一个兴趣点的语义信息。子领域ndi的兴趣点集SG-seti描述ndi所蕴涵的全部语义,它的元素是与ndi所包含兴趣点对应的语义链网。以子领域的兴趣点集为模板将文档划分到与其语义相近的子领域中;SG=(N,R),其中,N是节点的集合,包括一个兴趣点N1和一组共同表示兴趣点N1语义的关键词{N2,N3,...,Nm};R是有向弧的集合,表示节点之间的因果关系。
图2(a)是一个语义链网,起始于Ni终止于Nj的有向弧表示Ni到Nj的因果关系,其权重wij指示原因节点Ni对结果节点Nj的影响程度,wij∈[-1,+1]。
图2(b)是该语义链网的邻接矩阵表示,它是一个n×n的矩阵,n是该语义链网所包含的节点数。如果Ni到Nj存在因果关系,那么该邻接矩阵的第i行,第j列的元素为wij,否则为0。
图3是文档理解及划分的流程图,具体步骤如下S3-1.从团队文档数据库中选择一篇文档d;S3-2.选择一个子领域ndi,得到相应的兴趣点集SG-seti;S3-3.计算文档d与子领域ndi在语义上的相似度md(d,ndi)S3-3.1将文档d划分为若干个小部分p1,p2,...,pm,可按字节数划分,也可按段落划分。这里是按小节划分的,包括子小节的做进一步的划分;S3-3.2对任一小部分pj,令mdPart-ji=0;S3-3.3对子领域ndi兴趣点集SG-seti的任一元素SGr
(1)计算SGr所包含的任一关键词Nk在pj中的状态值Vk′:Vk′=tanh(Sk/3),Sk是Nk在pj中出现的次数;(2)V1′,V2′,...,Vm′)=(0,V2′,...,Vm′)×Er,Er是SGr的邻接矩阵表示;(3)如果mdPart-ji<V1′则 mdPart-ji=V1′S3-3.4md(d,ndi)=Σj=1mmdPart-ji/m,]]>其中,文档d划分为m个小部分S3-4.如果md(d,ndi)>0.65,将文档d划分到子领域ndi,转S3-2。
以上方法从兴趣点层次上计算每篇文档与各子领域的语义相似度,从而将文档归入与其语义相似度较高的子领域中,一篇文档可能同时属于多个子领域。团队的文档数据库既包括大量已有的科技文档,也接收团队成员上载的文档,以不断增加文档数据库的容量。因此,要定期检查文档数据库中是否有新增加的文档,如果有就按如上方法将其划分到相应的子领域中。
四、根据用户兴趣有效推送文档文档理解的结果是将团队文档数据库中的文档划分到与团队相关的各个子领域中。编写文档推送程序(例如,FileDeliver),该程序以文档分类结果为基础,根据用户兴趣,从团队的文档数据库中选择适当的文档推送给团队成员。因为团队成员往往倾向于阅读与其所关注的子领域相关的文档,该程序以电子邮件附件的形式将文档推送给所关注子领域集合包括该文档所属子领域的用户。
文档数据库中的每篇文档都有“已发送人员”和“上传人员”两个列表。“已发送人员”列表记录该文档已经推送给了哪些团队成员,FileDeliver运行时只将文档推送给未出现在该文档“已发送人员”列表中的团队成员。成员上载文档到团队的文档数据库时,如果文档数据库中还没有这篇文档则上载成功,否则提示重复。不管上载是否成功,该成员都会记录到该文档的“上传人员”列表中。因为成员试图上载的文档必定是他已经拥有的文档,因此FileDeliver也不会将文档推送给已出现在该文档“上传人员”列表中的成员。团队成员只需执行简单的上载操作就可实现文档在所有需要该文档的成员之间的共享,简单、有效。
权利要求
1.在电子邮件流中发现用户兴趣并据此有效推送文档的方法,首先,将团队成员之间的电子邮件存入电子邮件数据库并从中提取有效电子邮件;然后,根据有效电子邮件的分布规律提取用户兴趣,通过语义分析实现团队文档数据库中文档的分类;最后,根据用户兴趣和文档分类的结果,将与成员兴趣一致的文档通过电子邮件推送给团队成员。
2.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,通过电子邮件收集程序解码团队成员间的电子邮件并将解码后的内容存入电子邮件数据库,通过定期运行电子邮件收集程序,实现电子邮件的自动存库,垃圾邮件大多来源于陌生的电子邮件地址,该过程只考虑成员之间的电子邮件,也就消除了提取用户兴趣时垃圾邮件的干扰。
3.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,只考虑团队成员科研工作方面的兴趣,利用自然语言学习的方法得到能为描述用户兴趣提供有用信息的有效电子邮件,确保了以此为基础所提取的用户兴趣的准确性。
4.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,将与团队相关的研究领域细划为子领域,建立子领域的先验知识集表示其背景知识,通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣。
5.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,考虑到用户兴趣可能在一段较长时间之后发生变化,将时间因素引入兴趣提取过程,用户兴趣会随新邮件的产生和时间的推移得到及时更新,根据用户兴趣为用户推送文档确保总能将文档推送给所有需要该文档的团队成员,既不会错发,也不会漏发。
6.按权利要求1所述的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,构建描述子领域语义的兴趣点集,以此为模板将文档划分到与其语义相近的子领域中,由文档推送程序将文档推送给关注此文档所属子领域的成员,从语义上保证了推送给用户的文档正是用户所需的,团队成员只需将文档上载到团队的文档数据库中,就可由程序完成该文档的推送,简单、易行。
7.一种在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征是,主要包括以下四部分一、电子邮件自动存库,提取有效电子邮件,其中,1.建立电子邮件数据库团队成员使用统一的电子邮件服务器和服务器程序,在电子邮件服务器的某个目录下建立数据库文件来保存团队成员之间的电子邮件信息;2.电子邮件自动存库首先,由邮件服务器程序将团队成员之间所有的电子邮件自动转发到一个固定帐户,该账户的邮件保存在邮件服务器的某个固定目录中;然后,定期运行所编写的邮件收集程序以实现电子邮件的自动存库,该程序解码电子邮件并将解码结果保存到电子邮件数据库的相应字段中;3.提取有效电子邮件本发明只考虑用户在科研工作方面的兴趣,通过自然语言学习的方法提取能为描述用户兴趣提供有用信息的有效电子邮件;二、有效电子邮件分类和用户兴趣提取将与团队相关的各个研究领域划分为更小的子领域,并通过子领域ndi的先验知识集Ki表示其背景知识,Ki是(nk,ak)的集合,nk是能共同反映ndi主要内容的一组关键词中的一个,ak是nk的权重,表示nk对ndi的描述能力,ak越高,nk的描述能力就越强;通过有效电子邮件与各子领域先验知识集的相似度计算对有效电子邮件进行分类,根据有效电子邮件在各子领域的分布情况,用成员所关注子领域集合来表示用户兴趣;三、文档理解及分类一个基本的概念、观点或方法称为一个兴趣点,一个语义链网(SG)表示一个兴趣点的语义信息,SG=(N,R),其中,N是节点的集合,包括一个兴趣点N1和一组共同表示兴趣点N1语义的关键词{N2,N3,...,Nm};R是有向弧的集合,表示节点之间的因果关系,子领域ndi的兴趣点集SG-seti描述ndi所蕴涵的全部语义信息,它的元素是与ndi所包含兴趣点对应的语义链网,以子领域的兴趣点集为模板将文档划分到与其语义相近的子领域中;四、根据用户兴趣有效推送文档编写文档推送程序,该程序以电子邮件附件的形式将文档推送给所关注子领域集合包括该文档所属子领域的用户,每篇文档都有“已发送人员”和“上传人员”两个列表,文档推送程序只将文档推送给未出现在这两个列表中的团队成员,避免了重复发送,成员只需将文档上载到团队文档数据库就可实现该文档在所有需要该文档的成员之间的共享,简单、有效。
8.根据权利要求7的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征在于,一、电子邮件自动存库,提取有效电子邮件,其中,3.提取有效电子邮件首先,选择一定数量的有效电子邮件和无效电子邮件分别作为有效电子邮件的训练集合C1和无效电子邮件的训练集合C2,并通过以下公式得到有效电子邮件和无效电子邮件的标准向量 和 表示c→1=161|C1|Σe∈C1e→|e→|-41|C2|Σe∈C2e→|e→|---(1)]]>c→2=161|C2|Σe∈C2e→|e→|-41|C1|Σe∈C1e→|e→|---(2)]]>其中,e→=(e1,e2,...,e|F|)]]>是电子邮件e的向量表示,ei是关键词wi在电子邮件e的主题和正文中出现的次数; 是 的向量长度;|C1|和|C2|分别是C1和C2的训练样本数,即,包含的电子邮件数,然后,计算电子邮件e的向量表示 与标准向量 和 的相似度,计算方法如下cos(e→,c→n)=Σi=1|F|eiciΣi=1|F|ei2Σi=1|F|ci2---(3)]]>其中,n=1或n=2,如果cos(e→,c→1)>cos(e→,c→2)]]>则e为有效电子邮件,否则e为无效电子邮件。
9.根据权利要求7的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征在于,二、有效电子邮件分类和用户兴趣提取,其中,首先,计算有效电子邮件e所描述内容涉及子领域ndi的概率Sim(e,Ki)=Σk=1Rαkf(Skl)/N---(4)]]>其中,nk是电子邮件e的主题和正文中包含的属于Ki的关键词;Dl是nk的集合;Skl是关键词nk在电子邮件e的上述部分中出现的次数且f(Skl)=tanh(Skl/3);R和N分别是Dl和Ki的元素个数。将e划分到概率最高的子领域中,实现有效电子邮件的分类;然后,计算用户i的研究工作涉及子领域j的百分比perijperij=αΣ(e∈ndj)∩(e∈fromi)2-age(e)hlsim(e,Kj)+βΣ(e∈ndj)∩(e∈toi)2-age(e)hlsim(e,Kj)αΣ(e∈fromi)2-age(e)hlsim(e,Kj)+βΣ(e∈toi)2-age(e)hlsim(e,Kj)×100%---(5)]]>其中,α=1,β=0.8,分别表示用户所发送的有效电子邮件和所接收的有效邮件对其兴趣的描述能力; 使得电子邮件的描述能力随其存在时间的增长而降低,age(e)是当前日期与电子邮件e的发送日期的差,hl=30表明30天前的电子邮件只有当前电子邮件一半的描述能力;fromi是用户i所发送的有效电子邮件的集合,toi是用户i所接收的有效电子邮件的集合,如果perij大于阈值,将子领域ndj加入用户i所关注的子领域集合中,这里阈值为10%。
10.根据权利要求7的在电子邮件流中发现用户兴趣并据此有效推送文档的方法,其特征在于,三、文档理解及划分,具体步骤如下S3-1.从团队文档数据库中选择一篇文档d;S3-2.选择一个子领域ndi,得到其兴趣点集SG-seti;S3-3.计算文档d与子领域ndi在语义上的匹配度md(d,ndi)S3-3.1将文档d划分为若干个小部分p1,p2,…,pm;S3-3.2对任一小部分pj,令mdPart-ji=0;S3-3.3对子领域ndi兴趣点集SG-seti的任一元素SGr(1)计算SGr所包含的任一关键词Nk在pj中的状态值Vk′:Vk′=tanh(Sk/3),Sk是Nk在pj中出现的次数;(2)(V1′,V2′,...,Vm′)=(0,V2′,...,Vm′)×Er,Er是SGr的邻接矩阵表示;(3)如果mdPart-ji<V1′则 mdPart-ji=V1′S3-3.4md(d,ndi)=Σj=1mmdPart-ji/m,]]>其中,文档d划分为m个小部分S3-4.如果md(d,ndi)>0.65,将文档d划分到子领域ndi,转S3-2。
全文摘要
本发明涉及计算机技术领域,特别是在电子邮件流中发现用户兴趣并据此有效推送文档的方法。同一科研团队的成员由于其研究领域存在交叉,所以经常重复搜索和下载相同的文档,本发明的目的是实现科研团队成员间的科技文档共享,从成员间的电子邮件流中提取成员兴趣,当成员所关注的问题改变时其兴趣会随其收发的电子邮件得到及时更新,根据成员兴趣总能将正确的文档推送给成员;对团队文档数据库中的文档进行语义分析,根据分析结果为成员推送与其兴趣一致的文档,从语义上保证了推送给用户的文档正是用户所需的,准确、有效;成员只需将文档上载到团队的文档数据库就可由程序完成该文档的分析和推送,实现该文档在成员间的共享,简单、易行。
文档编号G06F17/30GK1645395SQ20051000950
公开日2005年7月27日 申请日期2005年2月22日 优先权日2005年2月22日
发明者诸葛海, 丁连红 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1