一种建立邮件数据模型的方法

文档序号:7893247阅读:285来源:国知局
专利名称:一种建立邮件数据模型的方法
技术领域
本发明涉及一种建立邮件数据模型的方法。
背景技术
基于RFC822标准或RFC2822改进标准的电子邮件不能够支持非ASCII字符、二进制格式附 件等多种格式的邮件,也不支持多媒体邮件(如音视频的应用),在非英语国家应用有限。 M頂E标准即RFC2045 RFC2049标准,扩展了电子邮件标准,使其能够满足现代电子邮件的各 种需求,实现了非英语字符消息和二进制文件、图像、声音等非文字消息在电子邮件中的传 输。M頂E标准自1996年发布后获得极为广泛的应用。现有的M頂E邮件数据结构是一种半结构 化的数据模型,它基于文本格式, 一封原始邮件就是一个文本文件。它以"行"为单位分隔 邮件的每个域,包括以空行、空格来间隔每个域,以特殊文本字符包含正文数据。现有M頂E 邮件的编/解码要消耗大量的CUP资源,而且邮件中如果包含很大的附件程序,则会造成阅读 邮件和发送邮件时会导致资源消耗太多而死机。有鉴于此,目前国内外大多数邮件服务器都 对邮件附件的大小做了限制,比如新浪的邮件附件限制为15兆、搜狐的邮件附件限制为10兆 。附件超出限制的大小则发送失败。造成以上现象的根源在于目前M頂E邮件基于XML数据格 式,存在半结构化的数据模型的特点,它语法结构比较松散、定义过于灵活,给邮件应用如 邮件分析处理、垃圾邮件的筛选,甚至是邮件数据挖掘等带来很多困难,比如使得邮件的解 析算法设计复杂,CPU需要进行大量运算才能把原始邮件转换为易读的邮件文本。也不利于 邮件导入数据库保存,因为半结构化的数据转存入数据库同样需要大量的解析运算。

发明内容
本发明所要解决的技术问题是针对现有技术中的邮件数据模型半结构化带来非常消耗 系统资源的不足,提出一种建立全结构化邮件数据模型的方法。
本发明解决上述技术问题采用的技术方案是 一种建立邮件数据模型的方法,包括以下 步骤
a. 将邮件的原始数据均放入大括号之间,表示为ID:{ },其中ID为邮件服务器对邮 件的唯一标识码;
b. 将邮件头中的每个域的域名和域值转换为JSON对象的域名对和域值对;
c. 将邮件头中自定义域的域名和域值统一放入X-extends嵌套处理;d.将邮件体中的所有内容均放入Content域,邮件正文和附件都作为段表示,每个段对 应一个Content域的嵌套对象。
本发明的有益效果是建立全结构化的邮件数据模型,使得邮件传输占用系统资源小, 也便于邮件的分析处理及垃圾邮件的筛选。
具体实施例方式
针对现有技术中的邮件数据模型半结构化带来非常消耗系统资源的不足,提出一种建立 全结构化邮件数据模型的方法,使得邮件传输占用系统资源小,也便于邮件的分析处理及垃 圾邮件的筛选,该邮件数据模型的建立基于JSON数据交换格式,该数据交换格式可以克服现 有技术采用XML数据格式带来的语法结构比较松散、定义过于灵活的不足。
在具体实施上,采用以下步骤实现a.将邮件的原始数据均放入大括号之间,表示为 ID: { },其中ID为邮件服务器对邮件的唯一标识码;
b. 将邮件头中的每个域的域名和域值转换为JSON对象的域名对和域值对;例如邮件头中 的Received域,表示方法如下
Received: [{from: "value3—11" ,by: "value3—12" ,with: "value3—13" , id:" value3—14" },]
Received域是邮件在发送过程中由每个中继服务器自动添加的内容,用于帮助追踪传输 中出现的错误。From表示发送的服务器名;By表示接收的主机名;With指示邮件传输使用的 连接协议;Id用于标识邮件。
c. 将邮件头中自定义域的域名和域值统一放入X-extends嵌套处理;由于邮件服务器市 场有多家软件公司,故存在多种邮件服务器软件,这些软件并不完全统一,普遍在邮件头增 加了自己的自定义域。所以,本数据模型对邮件头自定义域的域名和域值统一放入 X-extends嵌套为对象处理,使得其结构更加紧凑。
d. 将邮件体中的所有内容均放入Content域,邮件正文和附件都作为段表示,每个段对 应一个Content域的嵌套对象;邮件体包括邮件正文和邮件附件,附件可为多媒体文件,且 可以有多个。本数据模型把邮件体所有内容均放入Content域,邮件正文和附件都作为段表 示,每个段对应一个Content域的嵌套对象。表示方法如下
Content:[
Boundary: "value12—11", Content-Type: "valuel2—12",charset: "valuel2—13", Content-Transfer-Encoding: "valuel2—14 Content-Disposition: "valuel2—15,,, Content-ID: "valuel2—16", Content-Location: "valuel2—17,,, Content-Base: "valuel2—18", Content: "value 12 19,,
其中,Boundary属性和值定义了邮件的边界;Content-Type属性和值定义了邮件的类型 ;charset属性和值定义了邮件的字符集;Content-Transfer-Encoding属性和值指定邮件消 息体中的内容所采用的编码方式;Content-Disposition属性和值指定邮件阅读程序处理数 据内容的方式;Content-ID属性和值用于为邮件正文的内嵌资源指定一个唯一标识号,在正 文中可以使用这个唯一标识号来引用该内嵌资源;Content-Location属性和值用于为内嵌资 源设置一个URI地址,这个URI地址可以是绝对或相对的;Content-Base属性和值用于为内嵌 资源设置一个基准路径,这样Content-Location头字段中设置的URI才可以采用相对地址; Content属性和值定义了邮件的正文。
采用JSON数据交换格式来定义并建立一种新型的邮件数据模型,不仅可使邮件数据表示 结构化,简化邮件内容数据的采集方式,促进垃圾邮件屏蔽、数据挖掘等应用,还使得邮件 数据本身具有JSON的网络传输资源消耗小、数据精炼等优点。虽然没有彻底解决邮件系统的 附件限制,但在一定程度上可以减轻这种附件大小的限制,据测试,采用此数据模型的邮件 系统,附件可轻松突破200M。
权利要求
权利要求1一种建立邮件数据模型的方法,其特征在于包括以下步骤a. 将邮件的原始数据均放入大括号之间,表示为ID{…},其中ID为邮件服务器对邮件的唯一标识码;b. 将邮件头中的每个域的域名和域值转换为JSON对象的域名对和域值对;c. 将邮件头中自定义域的域名和域值统一放入X-extends嵌套处理;d. 将邮件体中的所有内容均放入Content域,邮件正文和附件都作为段表示,每个段对应一个Content域的嵌套对象。
全文摘要
本发明涉及一种建立邮件数据模型的方法。本发明针对现有技术中的邮件数据模型半结构化带来消耗系统资源大的不足,提出一种建立全结构化邮件数据模型的方法。其技术方案的要点是a.将邮件的原始数据均放入大括号之间,表示为ID{…},其中ID为邮件服务器对邮件的唯一标识码;b.将邮件头中的每个域的域名和域值转换为JSON对象的域名对和域值对;c.将邮件头中自定义域的域名和域值统一放入X-extends嵌套处理;d.将邮件体中的所有内容均放入Content域,邮件正文和附件都作为段表示,每个段对应一个Content域的嵌套对象。本发明的有益效果是建立全结构化的邮件数据模型,使得邮件传输占用系统资源小。
文档编号H04L12/58GK101425984SQ200810306199
公开日2009年5月6日 申请日期2008年12月12日 优先权日2008年12月12日
发明者强 李 申请人:四川长虹电器股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1