一种建立邮件数据模型的方法

文档序号：7893247阅读：285来源：国知局

专利名称：一种建立邮件数据模型的方法
技术领域：
本发明涉及一种建立邮件数据模型的方法。
背景技术：
基于RFC822标准或RFC2822改进标准的电子邮件不能够支持非ASCII字符、二进制格式附件等多种格式的邮件，也不支持多媒体邮件(如音视频的应用)，在非英语国家应用有限。 M頂E标准即RFC2045 RFC2049标准，扩展了电子邮件标准，使其能够满足现代电子邮件的各种需求，实现了非英语字符消息和二进制文件、图像、声音等非文字消息在电子邮件中的传输。M頂E标准自1996年发布后获得极为广泛的应用。现有的M頂E邮件数据结构是一种半结构化的数据模型，它基于文本格式，一封原始邮件就是一个文本文件。它以"行"为单位分隔邮件的每个域，包括以空行、空格来间隔每个域，以特殊文本字符包含正文数据。现有M頂E 邮件的编/解码要消耗大量的CUP资源，而且邮件中如果包含很大的附件程序，则会造成阅读邮件和发送邮件时会导致资源消耗太多而死机。有鉴于此，目前国内外大多数邮件服务器都对邮件附件的大小做了限制，比如新浪的邮件附件限制为15兆、搜狐的邮件附件限制为10兆。附件超出限制的大小则发送失败。造成以上现象的根源在于目前M頂E邮件基于XML数据格式，存在半结构化的数据模型的特点，它语法结构比较松散、定义过于灵活，给邮件应用如邮件分析处理、垃圾邮件的筛选，甚至是邮件数据挖掘等带来很多困难，比如使得邮件的解析算法设计复杂，CPU需要进行大量运算才能把原始邮件转换为易读的邮件文本。也不利于邮件导入数据库保存，因为半结构化的数据转存入数据库同样需要大量的解析运算。

发明内容
本发明所要解决的技术问题是针对现有技术中的邮件数据模型半结构化带来非常消耗系统资源的不足，提出一种建立全结构化邮件数据模型的方法。
本发明解决上述技术问题采用的技术方案是一种建立邮件数据模型的方法，包括以下步骤
a. 将邮件的原始数据均放入大括号之间，表示为ID:{ }，其中ID为邮件服务器对邮件的唯一标识码；
b. 将邮件头中的每个域的域名和域值转换为JSON对象的域名对和域值对；
c. 将邮件头中自定义域的域名和域值统一放入X-extends嵌套处理；d.将邮件体中的所有内容均放入Content域，邮件正文和附件都作为段表示，每个段对应一个Content域的嵌套对象。
本发明的有益效果是建立全结构化的邮件数据模型，使得邮件传输占用系统资源小，也便于邮件的分析处理及垃圾邮件的筛选。
具体实施例方式
针对现有技术中的邮件数据模型半结构化带来非常消耗系统资源的不足，提出一种建立全结构化邮件数据模型的方法，使得邮件传输占用系统资源小，也便于邮件的分析处理及垃圾邮件的筛选，该邮件数据模型的建立基于JSON数据交换格式，该数据交换格式可以克服现有技术采用XML数据格式带来的语法结构比较松散、定义过于灵活的不足。
在具体实施上，采用以下步骤实现a.将邮件的原始数据均放入大括号之间，表示为 ID: { }，其中ID为邮件服务器对邮件的唯一标识码；
b. 将邮件头中的每个域的域名和域值转换为JSON对象的域名对和域值对；例如邮件头中的Received域，表示方法如下
Received: [{from: "value3—11" ，by: "value3—12" ，with: "value3—13" ， id:" value3—14" }，]
Received域是邮件在发送过程中由每个中继服务器自动添加的内容，用于帮助追踪传输中出现的错误。From表示发送的服务器名；By表示接收的主机名；With指示邮件传输使用的连接协议；Id用于标识邮件。
c. 将邮件头中自定义域的域名和域值统一放入X-extends嵌套处理；由于邮件服务器市场有多家软件公司，故存在多种邮件服务器软件，这些软件并不完全统一，普遍在邮件头增加了自己的自定义域。所以，本数据模型对邮件头自定义域的域名和域值统一放入 X-extends嵌套为对象处理，使得其结构更加紧凑。
d. 将邮件体中的所有内容均放入Content域，邮件正文和附件都作为段表示，每个段对应一个Content域的嵌套对象；邮件体包括邮件正文和邮件附件，附件可为多媒体文件，且可以有多个。本数据模型把邮件体所有内容均放入Content域，邮件正文和附件都作为段表示，每个段对应一个Content域的嵌套对象。表示方法如下
Content:[
Boundary: "value12—11"， Content-Type: "valuel2—12"，charset: "valuel2—13"， Content-Transfer-Encoding: "valuel2—14 Content-Disposition: "valuel2—15，，， Content-ID: "valuel2—16"， Content-Location: "valuel2—17，，， Content-Base: "valuel2—18"， Content: "value 12 19，，
其中，Boundary属性和值定义了邮件的边界；Content-Type属性和值定义了邮件的类型 ;charset属性和值定义了邮件的字符集；Content-Transfer-Encoding属性和值指定邮件消息体中的内容所采用的编码方式；Content-Disposition属性和值指定邮件阅读程序处理数据内容的方式；Content-ID属性和值用于为邮件正文的内嵌资源指定一个唯一标识号，在正文中可以使用这个唯一标识号来引用该内嵌资源；Content-Location属性和值用于为内嵌资源设置一个URI地址，这个URI地址可以是绝对或相对的；Content-Base属性和值用于为内嵌资源设置一个基准路径，这样Content-Location头字段中设置的URI才可以采用相对地址； Content属性和值定义了邮件的正文。
采用JSON数据交换格式来定义并建立一种新型的邮件数据模型，不仅可使邮件数据表示结构化，简化邮件内容数据的采集方式，促进垃圾邮件屏蔽、数据挖掘等应用，还使得邮件数据本身具有JSON的网络传输资源消耗小、数据精炼等优点。虽然没有彻底解决邮件系统的附件限制，但在一定程度上可以减轻这种附件大小的限制，据测试，采用此数据模型的邮件系统，附件可轻松突破200M。
权利要求
权利要求1一种建立邮件数据模型的方法，其特征在于包括以下步骤a. 将邮件的原始数据均放入大括号之间，表示为ID{…}，其中ID为邮件服务器对邮件的唯一标识码；b. 将邮件头中的每个域的域名和域值转换为JSON对象的域名对和域值对；c. 将邮件头中自定义域的域名和域值统一放入X-extends嵌套处理；d. 将邮件体中的所有内容均放入Content域，邮件正文和附件都作为段表示，每个段对应一个Content域的嵌套对象。
全文摘要
本发明涉及一种建立邮件数据模型的方法。本发明针对现有技术中的邮件数据模型半结构化带来消耗系统资源大的不足，提出一种建立全结构化邮件数据模型的方法。其技术方案的要点是a.将邮件的原始数据均放入大括号之间，表示为ID{…}，其中ID为邮件服务器对邮件的唯一标识码；b.将邮件头中的每个域的域名和域值转换为JSON对象的域名对和域值对；c.将邮件头中自定义域的域名和域值统一放入X-extends嵌套处理；d.将邮件体中的所有内容均放入Content域，邮件正文和附件都作为段表示，每个段对应一个Content域的嵌套对象。本发明的有益效果是建立全结构化的邮件数据模型，使得邮件传输占用系统资源小。
文档编号H04L12/58GK101425984SQ200810306199
公开日2009年5月6日申请日期2008年12月12日优先权日2008年12月12日
发明者强李申请人:四川长虹电器股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李强
技术所有人：四川长虹电器股份有限公司
我是此专利的发明人

上一篇：基于运动检测的去隔行方法
上一篇：在机顶盒上实现彩票数据信息接收的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。