日历提醒生成方法和装置制造方法

文档序号:6512402阅读:158来源:国知局
日历提醒生成方法和装置制造方法
【专利摘要】本发明公开了一种日历提醒生成方法和装置,涉及移动互联网【技术领域】。该方法通过自然语言处理技术和分类器,自动判断邮件是否为日程类邮件,进而从非结构化邮件文本中自动提取日程详情,并最终自动设置日历提醒。本发明降低了用户使用邮件系统的复杂性,提升用户使用体验,同时电子日历产品可以利用本发明技术实现从邮件中自动提取日程信息,丰富日程内容来源,提升产品的用户使用率和活跃度。
【专利说明】日历提醒生成方法和装置

【技术领域】
[0001]本发明涉及移动互联网【技术领域】,特别涉及一种日历提醒生成方法和装置。

【背景技术】
[0002]电子邮件正越来越多的被人们使用,随着互联网的快速发展,电子邮件的内容也越来越丰富,海量信息需要用户通过邮件处理,其中较多的一类邮件即为包含日程信息的邮件,如:会议通知、账单截止日通知、酒店、机票订单确认等等。
[0003]当前,用户通常的做法是:收取邮件,人工在海量邮件中找到每个日程类邮件,手动将日程的主题、时间、地点、参与者等信息添加到日程管理软件中。
[0004]Gmail在邮件中提供了创建日程活动的快捷方式,但是Gmail并且只提供了日程活动的模板,无法自动判断该邮件是否包含日程信息,而无法自动将日程内容添加。


【发明内容】

[0005]本发明的发明人发现上述现有技术中存在问题,并因此针对所述问题中的至少一个问题提出了一种新的技术方案。
[0006]本发明的一个目的是提供一种用于日历提醒自动生成的技术方案。
[0007]根据本发明的第一方面,提供了一种日历提醒生成方法,包括:
[0008]从邮件中提取出邮件内容,所述邮件内容包括邮件正文;
[0009]利用自然语言处理工具对所述邮件正文进行分词、词性标注和命名实体识别、去除停用词并统计非停用词的词频;
[0010]通过分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件;
[0011]对于日程类邮件,根据所述命名实体识别结果与规则模板匹配结合确定日程活动的时间、地点、主题、参与者信息;
[0012]根据所述日程主题、时间、地点、参与者信息色生成日历提醒。
[0013]可选地,通过分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件包括:选取邮件正文长度、关键词的TFIDF (Term Frequency -1nverse Document Frequency,词频-反文档频率)、词频、词性、关键词左右各一个窗口的词及其词性作为日程邮件特征构建分类器的特征向量,通过支持向量机SVM分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件。
[0014]可选地,该方法还包括:预先利用人工标注的日程邮件语料训练所述SVM分类器。
[0015]可选地,邮件内容还包括邮件主题、邮件发送方、接收方和时间。
[0016]可选地,从邮件中提取出邮件内容包括:利用所述邮件中的TAG标签去除掉所述邮件冗余信息,提取出所述邮件的主题、发送方、接收方、时间、邮件正文信息。
[0017]根据本发明的另一方面,提供一种日历提醒生成装置,包括:
[0018]邮件内容提取模块,用于从邮件中提取出邮件内容,所述邮件内容包括邮件正文;
[0019]语言分析处理模块,用于利用自然语言处理工具对所述邮件正文进行分词、词性标注和命名实体识别;去除停用词并统计非停用词的词频;
[0020]邮件分类模块,用于通过分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件;
[0021]日程信息提取模块,用于对于日程类邮件,根据所述命名实体识别结果与规则模板匹配结合确定日程活动的时间、地点、主题、参与者信息;
[0022]日历提醒生成模块,用于根据所述日程主题、时间、地点、参与者信息色生成日历提醒。
[0023]可选地,邮件分类模块包括:特征向量构建单元,用于选取邮件正文长度、关键词的TFIDF、词频、词性、关键词左右各一个窗口的词及其词性作为日程邮件特征构建分类器的特征向量;日程邮件分类单元,用于根据所述特征向量通过SVM (Support VectorMachine,支持向量机)分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件。
[0024]可选地,该装置还包括:分类器训练模块,用于预先利用人工标注的日程邮件语料训练所述SVM分类器。
[0025]可选地,邮件内容还包括邮件主题、邮件发送方、接收方和时间。
[0026]可选地,邮件内容提取模块利用所述邮件中的TAG标签去除掉所述邮件冗余信息,提取出所述邮件的主题、发送方、接收方、时间、邮件正文信息。
[0027]本发明的一个优点在于,利用自然语言处理技术自动判断邮件是否为日程类邮件,进一步自动提取日程内容并设置日程提醒,整个过程自动完成,实现了日程内容的自动添加。
[0028]通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。

【专利附图】

【附图说明】
[0029]构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
[0030]参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
[0031]图1示出根据本发明的日历提醒生成方法的一个实施例的流程图。
[0032]图2示出根据本发明的日历提醒生成方法的另一个实施例的流程示意图。
[0033]图3示出根据本发明的日历提醒生成装置的一个实施例的结构图。
[0034]图4示出根据本发明的日历提醒生成装置的另一个实施例的结构图。
[0035]图5示出根据本发明的日历提醒生成系统的一个实施例的结构图。

【具体实施方式】
[0036]现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
[0037]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0038]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
[0039]对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
[0040]在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
[0041]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0042]图1示出根据本发明的日历提醒生成方法的一个实施例的流程图。
[0043]如图1所示,步骤102,从接收的邮件中提取出邮件内容,邮件内容包括邮件主题和邮件正文。
[0044]步骤104,利用自然语言处理工具对邮件正文进行分词、词性标注和命名实体识别;去除停用词并统计非停用词的词频。
[0045]分词(Word Segmentat1n)指的是将一个文字序列切分成一个一个单独的词。对于输入的一段文字,成功的进行分词,以进一步达到自动识别语句含义的效果。
[0046]词性标注指标注文本中词的词性,如动词V、名词N等,可以通过词性标注工具实现词性标注。命名实体一般是指人名、地名、机构名,如“张三”、“李四”、“天安门”、“中国电信”等,可以通过命名实体识别工具来实现。一般词性标注和命名实体工具集成在一起统一提供,可采用现有的工具获得;对邮件正文分词后,例如“的”、“ 了 ”等对文本内容无意义的虚词或者系统中其他限定为没有意义的词,可以预先生成停用词表,通过停用词表可以过滤掉停用词。对于去除停用词后剩下的非停用词的词,统计这些词的词频,即该词在整个文本中出现的次数,出现一次则词频加一。
[0047]步骤106,通过分类器将邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件。
[0048]步骤108,对于日程类邮件,根据命名实体识别结果与规则模板匹配结合确定日程活动的时间、地点、主题、参与者信息;
[0049]步骤110,根据日程主题、时间、地点、参与者信息色生成日历提醒。
[0050]上述实施例中,可以通过自然语言技术自动进行分词,并进行词性标注和识别命名实体,并根据训练好的分类器自动将邮件分为日程邮件和非日程邮件,再结合规则模板确定日程活动的时间、地点、主题和参与者信息,从而自动生成日历提醒信息。整个过程自动完成,实现了日程内容的自动添加。此外,日程邮件还可以自动分为创建类日程邮件、修改类日程邮件、取消类日程邮件,使得识别更准确,自动添加成功率高。
[0051]图2示出根据本发明的日历提醒生成方法的另一个实施例的流程示意图。
[0052]如图2所示,步骤201,邮件预处理步骤。系统接收到新邮件,分析邮件源文件,利用邮件中的TAG标签去除掉冗余信息,提取出邮件主题、发送方、接收方、时间、邮件正文等内容;利用自然语言处理工具对邮件正文进行分词、去除停用词、统计词频、词性标注、命名实体识别等工作。
[0053]步骤202,邮件分类步骤。经过预处理的邮件到达SVM分类器将邮件分为四个类别:非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件。利用人工标注的日程邮件语料训练SVM分类器(例如,使用开源的WEKA机器学习工具集)。选取邮件正文长度、关键词的TFIDF、词频、词性、关键词左右各一个窗口的词及其词性等作为日程邮件特征构建分类器的特征向量,经过预处理的邮件到达时,训练好的SVM分类器自动将邮件划分到四个类别中的某一类。关键词指非停用词之外的所有出现过的词。TFIDF是信息检索领域的专业词汇,是衡量一个词在文本中重要性的指标。TF-1DF主要意义在于,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF (Term Frequency,词频)指的是某一个给定的词语在该文件中出现的次数。IDF (Inverse Document Frequency,反文档频率)指的如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
[0054]步骤203,日历详情提取步骤。对于划分到三种日程类邮件的内容,通过日程详情提取子模块提取日程详情。例如,利用步骤201中预处理的命名实体识别结果(包括:人名、地名、机构名、时间等)与从训练语料中提取出的规则模板匹配结合的方法,如:[会议地点=XXX ;],则可提取出XXX为会议地点;定于[TIME]在[LOCAT1N]举行[SUBJECT];请于[TIME]之前还款;[--ΜΕ1]中国国航CA1832 [LOCAT1N]-北京[TIME2]等模板,确定日程活动的时间、地点、主题、参与者等内容。日程活动的时间、地点、主题等均对应一系列规贝U,这些规则可以从训练语料中提取或者人为制定,通过模板匹配可以提取出上述信息,再结合命名实体和词性标注结果可以获得时间、地点、主题等信息。
[0055]步骤204,日历提醒设置步骤。创建新日程,将步骤203中提取的日程主题、时间、地点、参与者等信息添加到日程提醒中,并发送给日程服务器。
[0056]上述实施例中,通过训练的SVM分类器,结合经过自然语言处理后获得的关键词的特征向量,自动实现了邮件的分类和识别,较好地匹配了日程邮件的特点,成功率高。
[0057]图3示出根据本发明的日历提醒生成装置的一个实施例的结构图。如图3所示,该日历提醒生成装置300,包括:邮件内容提取模块31,用于从邮件中提取出邮件内容,邮件内容包括邮件正文;语言分析处理模块32,用于利用自然语言处理工具对邮件正文进行分词、词性标注和命名实体识别、去除停用词并统计去除停用词后剩余词的词频;邮件分类模块33,用于通过分类器将邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件;日程信息提取模块34,用于对于日程类邮件,根据命名实体识别结果与规则模板匹配结合确定日程活动的时间、地点、主题、参与者信息;日历提醒生成模块35,用于根据日程主题、时间、地点、参与者信息色生成日历提醒。邮件内容还可以包括邮件主题、邮件发送方、接收方和时间。邮件内容提取模块31利用所述邮件中的TAG标签去除掉邮件冗余信息,提取出邮件的主题、发送方、接收方、时间、邮件正文信息。
[0058]图4示出根据本发明的日历提醒生成装置的另一个实施例的结构图。如图4所示,该实施例中日历提醒生成装置400的邮件分类模块43包括:特征向量构建单元431,用于选取邮件正文长度、关键词的TFIDF、词频、词性、关键词左右各一个窗口的词及其词性作为日程邮件特征构建分类器的特征向量;日程邮件分类单元432,用于根据构建的特征向量通过支持向量机SVM分类器将邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件。
[0059]在一个实施例中,日历提醒生成装置还包括:分类器训练模块40,用于预先利用人工标注的日程邮件语料训练SVM分类器。
[0060]图3和图4实施例中各个模块和单元的功能和作用可以参见上述方法实施例中的对应描述,为简洁起见在此不再详细描述。
[0061]图5示出根据本发明的日历提醒生成系统的一个实施例的结构图。如图5所示,相比传统的邮件系统,该系统在原有的网络、邮件服务器51、日程服务器52、邮件客户端53之夕卜,在邮件服务器51中增加了日历提醒生成装置511。日历提醒生成装置511可以参见图3、图4及上文实施例中的描述。在原有电子邮件系统的基础上,增加了日历提醒生成装置,通过上述日历提醒生成装置以及对应的模块可以实现日程类邮件的自动分类,日程详情的自动提取以及日程提醒的自动添加。通过在现有邮件架构中增加日历提醒生成装置,实现自动判断邮件是否为日程类邮件,进而从非结构化邮件文本中自动提取日程详情,并最终自动设置日历提醒。
[0062]本公开面向电子邮件应用提出一种从邮件中自动生成日历提醒的系统和方法,利用自然语言处理技术自动判断邮件是否为日程类邮件,进一步自动提取日程内容(主题、时间、地点、参与者等)并设置日程提醒的系统和方法。
[0063]本公开的技术方案降低了用户使用邮件系统的复杂性,提升用户使用体验,同时电子日历产品可以利用本专利技术实现从邮件中自动提取日程信息,丰富日程内容来源,提升产品的用户使用率和活跃度。
[0064]本公开适用于现有邮箱系统的功能改进,可以实现日程邮件的自动筛选;同时适用于优化现有电子日历软件,可实现日程来源的自动获取。
[0065]至此,已经详细描述了根据本发明的日历提醒生成方法和装置。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
[0066]可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
[0067]虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。
【权利要求】
1.一种日历提醒生成方法,其特征在于,包括: 从邮件中提取出邮件内容,所述邮件内容包括邮件正文; 利用自然语言处理工具对所述邮件正文进行分词、词性标注、命名实体识别;去除停用词并统计非停用词的词频; 通过分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件; 对于日程类邮件,根据所述命名实体识别结果与规则模板匹配结合确定日程活动的时间、地点、主题、参与者信息; 根据所述日程主题、时间、地点、参与者信息色生成日历提醒。
2.根据权利要求1所述的方法,其特征在于,所述通过分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件包括: 选取邮件正文长度、关键词的词频-反文档频率、词频、词性、关键词左右各一个窗口的词及其词性作为日程邮件特征构建分类器的特征向量,通过支持向量机分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件。
3.根据权利要求2所述的方法,其特征在于,还包括: 预先利用人工标注的日程邮件语料训练所述支持向量机分类器。
4.根据权利要求1所述的方法,其特征在于,所述邮件内容还包括邮件主题、邮件发送方、接收方和时间。
5.根据权利要求4所述的方法,其特征在于,所述从邮件中提取出邮件内容包括: 利用所述邮件中的TAG标签去除掉所述邮件冗余信息,提取出所述邮件的主题、发送方、接收方、时间、邮件正文信息。
6.一种日历提醒生成装置,其特征在于,包括: 邮件内容提取模块,用于从邮件中提取出邮件内容,所述邮件内容包括邮件正文; 语言分析处理模块,用于利用自然语言处理工具对所述邮件正文进行分词、词性标注和命名实体识别;去除停用词并统计非停用词的词频; 邮件分类模块,用于通过分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件; 日程信息提取模块,用于对于日程类邮件,根据所述命名实体识别结果与规则模板匹配结合确定日程活动的时间、地点、主题、参与者信息; 日历提醒生成模块,用于根据所述日程主题、时间、地点、参与者信息色生成日历提醒。
7.根据权利要求6所述的装置,其特征在于,所述邮件分类模块包括: 特征向量构建单元,用于选取邮件正文长度、关键词的词频-反文档频率、词频、词性、关键词左右各一个窗口的词及其词性作为日程邮件特征构建分类器的特征向量; 日程邮件分类单元,用于根据所述特征向量通过支持向量机分类器将所述邮件划分为非日程邮件、创建类日程邮件、修改类日程邮件、取消类日程邮件。
8.根据权利要求7所述的装置,其特征在于,还包括: 分类器训练模块,用于预先利用人工标注的日程邮件语料训练所述支持向量机分类器。
9.根据权利要求6所述的装置,其特征在于,所述邮件内容还包括邮件主题、邮件发送方、接收方和时间。
10.根据权利要求9所述的装置,其特征在于,所述邮件内容提取模块利用所述邮件中的TAG标签去除掉所述邮件冗余信息,提取出所述邮件的主题、发送方、接收方、时间、邮件正文信息。
【文档编号】G06Q10/10GK104463552SQ201310430849
【公开日】2015年3月25日 申请日期:2013年9月22日 优先权日:2013年9月22日
【发明者】康为 申请人:中国电信股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1