从自然语言电子邮件萃取安排计划信息的方法与装置的制作方法

文档序号:6405019阅读:105来源:国知局
专利名称:从自然语言电子邮件萃取安排计划信息的方法与装置的制作方法
技术领域
本发明涉及一种从一电子邮件中以计算机化的方式萃取出安排计划信息(scheduling information)的方法,特别涉及一种从一自然语言电子邮件中以计算机化的方式萃取出安排计划信息,以自动化地将该安排计划信息安插至一电子行事历的装置与方法。
背景技术
现代人时常使用电子装置以帮助安排个人行程。我们通常使用行事历以帮助自己记得未来的重要约会。利用电子行事历应用软件(calendarapplication),使用者可相对应于未来的特定约会与其时间,在该电子行事历应用软件内设定该约会为一特别的事件,该电子行事历应用软件同时具有提醒功能,当约会的时间快到的时候,可自动提醒该使用者,让其知道未来的行程内有该约会。
电子邮件(electronic mail,简称为e-mail)在现在社会中是很重要的沟通管道。人们使用电子邮件以与亲朋好友联络,亦用其作为商业信息往返的管道。电子邮件通常包含有有关于安排计划事件(scheduling event)的信息,而使用者则通常会希望将该安排计划事件的信息加入其个人的行事历应用软件。像这样的事件种类包含有会议、约会、截止期限等等。图1显示了一例子,该例为一包含有相关于一商务报告的安排计划信息的电子邮件100。
在收到电子邮件100之后,为了能记得信件上面所列的约会以及其时间,所以每个事件的信息皆被列出并被加入至该行事历应用软件。因为电子邮件100为一自然语言(英语)的电子邮件,且不遵循该行事历应用软件所认可的特定格式,使用者必须要手动地将每一个事件加入该行事历,如此非常耗时且容易出错。因此产生了一种需求,即是需要一自动化的处理,可以自动帮忙使用者从一自然语言的电子邮件萃取出安排计划信息,并且直接将其作适当的处理,以将需要的信息直接安插进一行事历应用软件。
如在美国专利第6,035,278号中Mansour揭露了一会议安排工具,该工具可让一使用者搜寻找出一尚未被安排的时段、将一会议安排在该时段,并且可管理该计划表的时段安排。该会议安排工具可以连结至一电子邮件系统,然而,这仅是利用安排计划的工具去安排会议以告知使用者,而不是从一寄来的电子邮件搜集安排计划信息的方法。
又如在美国专利第6,094,681号中Shaffer等人揭露一自动化的事件通知装置(automated event notification apparatus),该装置包含有一数据过滤器(data filter),其可以分析在电子邮件信息内所包含的数据、对传入一计算机的电子行事历的数据的更新与要求安排,以及对该电子行事历传送的提醒信息作安排。然而,该自动化的事件通知装置仅使用该数据过滤器去判断一个事件是否已发生。若该事件已发生,则该装置会以某种方式通知使用者。该装置除了可确认某一事件是否已经发生之外,并没有提供任何从安排计划中所萃取出的信息。该数据过滤器只能做二元化的判断,所以仅能判断与决定该事件是已发生或尚未发生。
又如在美国专利第6,272,532号中Feinleib揭露一中央电子提醒系统(centralized electronic reminder system),其用以分析寄来的电子邮件信息,以产生电子提醒信息(reminder electronic message)。其接收到自然语言电子邮件之后会分析该邮件,之后从该邮件中萃取出所要的提醒用的信息,当目前日期与于该提醒信息(reminder information)内明载的日期相符时,该电子提醒系统会建立一电子信息,该电子信息会被送至该提醒信息内明载的接受者。虽然该电子提醒系统使用自然语言的电子邮件,却没有能力从该电子邮件去萃取出安排计划信息,并且将其输出至一个人的行事历应用软件。此外,此一专利并没有进一步揭露关于分析该电子邮件以萃取出想要的安排计划信息的适当的方法。
再如在已公开的美国专利申请案第20020174185号中Jai等人揭露了一中央系统,其用以藉由分析寄来的电子邮件的档头与数据内容来撷取电子数据;随着电子邮件类型的不同,选择性地从该电子邮件萃取出数据,然后依照使用者的偏好设定,递送出该被萃取出的数据。虽然该系统可以使用很多种格式与类型的电子邮件,其仍然无法让一使用者从电子邮件里萃取出安排计划信息,然后自动化地将该安排计划信息输出至一个人的行事历应用软件。此外,此一专利亦没有进一步揭露关于分析该电子邮件以萃取出想要的安排计划信息的适当的方法。
上述的专利无法帮助一使用者去萃取出安排计划信息,以及将该安排计划信息安插入位于使用者端的一行事历应用软件。因此需要一种能够分析该自然语言电子邮件,以正确地萃取出该邮件中所包含的安排计划信息的适当方法。

发明内容
因此本发明的主要目的在于提供一种从一自然语言电子邮件中以计算机化的方式萃取出安排计划信息,以自动化地将该安排计划信息安插至一行事历应用软件的方法与装置。
本发明所揭露的一从一自然语言内容中以计算机化的方式萃取出安排计划信息,以自动化地将该安排计划信息安插至一行事历应用软件的方法。该方法包含有下列步骤(a)分析(parse)该自然语言内容以建构一从属关系树;(b)藉由计算出该从属关系树(dependency tree)的一机率总和(possibility sum),以判断该自然语言内容是否包含有安排计划信息;以及(c)若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至该行事历应用软件。
本发明所揭露的一个人安排计划装置(personal organizationapparatus)包含有一处理器,用以执行位于个人安排计划装置内的程序码;以及一储存单元,其连结于该处理器,用以储存该处理器使用的数据,该数据包含一自然语言内容。该处理器分析该自然语言内容,以建构储存在该储存单元的一从属关系树,并藉由计算出该从属关系树的一机率总和,以判断该自然语言内容是否包含有安排计划信息,以及若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至该行事历应用软件。


图1为本发明的一自然语言电子邮件样本,该自然语言电子邮件样本包含有安排计划信息。
图2为本发明对于一例句的一从属关系对的一示意图。
图3为本发明描述从一收到的电子邮件萃取出安排计划信息的一流程4为描述如何建构图4中的分析步骤所使用的从属关系数据库的一流程图。
图5为描述在图3中的该分析步骤的一流程图。
图6为本发明对于图1的电子邮件的一从属关系树的一示意图。
图7为描述判断该电子邮件是否包含有图3中的安排计划信息的步骤的一流程图。
图8为描述图3中的萃取安排计划信息的步骤的一流程图。
图9为对于实作图3中的该流程图的一个人安排计划装置的一方块示意图。
附图符号说明902处理器 904储存单元906电子邮件 910从属关系数据库912自然语言内容集合 914行事历应用软件916使用者接口 918网络接口920从属关系树具体实施方式
人类使用的自然语言是复杂且有多样变化的,然而,在任何人类可理解的内容内,该内容内的所有元素会以某一种方式互有关联。为了从一自然语言内容内萃取出安排计划信息,有必要去判断出何者为可能的安排计划信息,并且判断出这些上述的可能性是否真的含有所要的安排计划信息。这个假设是说,在一自然语言中的信息,其对于特定类型的信息是以一特定型态(pattern)出现。在本发明中,从属关系文法(dependency grammar)用以定义可能的型态结构(pattern structure)的一基础集合。从属关系文法将此基本的结构定义为字对(word pair,亦称为从属关系对,dependencypair),并利用这些从属关系对建立更大的型态,也就是建立从属关系树(dependency tree)。分析寄来的电子邮件信息以搜集可应用于安排计划信息的从属关系对,而其分析的结果即为一可能的安排计划事件。
图2显示了本发明对应于一例句的一从属关系对示意图200。根据从属关系文法,在一句中的每个字只有一个支配的前端字(dominating headword)。对于每一个句子,此可形成一基本的从属关系对的集合,如图2中的箭号所示。图2中的每一个箭号从一前端字指向一从属字(dependentword)。在图2中,“maet`这个字为该句的句根(root),其为“shall”、“we”、“each-other”、“at”、“tomorrow”与“2:00PM”这些字的前端字。若“meet”这个字可被定义为该句的句根,即可为该句建立一从属关系树,以显示与该句根相对应的所有从属字,以及继而可知的从属关系对。
图3显示了本发明使用从属关系文法规则以萃取安排计划信息的流程图300。流程图300包含有下列步骤步骤302等待一电子邮件的抵达。当收到一新的电子邮件后,进行至步骤304。
步骤304分析该电子邮件以建构一从属关系树,然后进行至步骤306。
步骤306藉由计算出该从属关系树的一机率总和,以判断该电子邮件是否包含有安排计划信息。在该从属关系树中的每一从属关系对有一相关的机率值,该机率值代表这特定的字对在有关于安排计划信息的自然语言电子邮件中出现的频率有多频繁,若该机率总和超过一预设值,则假设该电子邮件含有安排计划信息,然后进行至步骤308,否则即回到步骤302以等待下一封收到的电子邮件。
步骤308从该从属关系树萃取出该安排计划信息,并将该安排计划信息输出至一行事历应用软件,然后当完成时,返回至步骤302以等待下一封收到的电子邮件。
在分析的步骤302中,该从属关系树不需要包含从该电子邮件的第一从属关系对,而只需要包含相关于安排计划信息的字对。此需要判断每一字对是否与安排计划信息相关。此外,对于每一个已知的字对,必须判断哪一个字是可能性最高的前端字。为了作上述的各种判断,需使用一从属关系数据库来做参考。该从属关系数据库包含有一常见于一自然语言电子邮件集合(corpus)的从属关系对的列表,而该电子邮件集合包含有许多含有安排计划信息的电子邮件。在该从属关系数据库中的每一从属关系对有一相关的机率值,该机率值相对应于在该电子邮件集合内发现该特定字对的频率。该注意的是,在本发明的较佳实施例当中,此机率值被以对数机率(log-probability)的方式储存,以利用来将不同的从属关系对的机率作加总计算。
图4显示了一流程图400,流程图400描述了如何使用一电子邮件集合、一相关的已标记(tagged)的集合、前端字列表,以及一违犯限制(violationconstraint)来建构该从属关系数据库。该电子邮件集合包含有多个包含安排计划信息的自然语言电子邮件样本。该已标记的集合明载了对于句子里相关于该电子邮件集合内的安排计划信息的实际的前端字,亦包含有在每一个句子中所有其他的字相关于该前端字的从属关系(dependency)。该前端字列表包含有可能的前端字。该违规限制明载了不合规定的从属关系结构。可能的不合规定的从属关系结构的例子包含有像是代名词作为动词的前端字,或是形容词作为名词的前端字。系统设计者会提供与更进一步载明该电子邮件集合、已标记的集合、前端字列表,以及违规限制。在流程图400中,描述了如何建构该从属关系数据库,包含的步骤如下步骤402从第一句开始检验,一句一句地对每一个句子作检验。进行至步骤404。
步骤404将该句切割成一群字。有些语言使用一基础元素(baseelement),而非字。举例来说,中文使用汉字符号,而这些汉字符号必须被分群为有意义的词汇(word)。该分群的功用即相似为上述的切割的功用。此外,即使是在英文,有些字需要被与其他字一起使用,以代表一适当的意义。例如在图2中,“each-other”这个字事实上是由“each”与“other”两个字组成以成为一个单一的字。由于已知此项技术的人已熟知切割的方法,所以进一步的描述在此省略。若不需要切割这个功用与程序的话,可将步骤404从流程图400中移除,否则当此切割步骤完成时,进行至步骤406。
步骤406对于该句建构其字对。建立一张表,该表列出在该句中所有字的所有组合。进行至步骤408。
步骤408从第一字对开始检验,一个字对一个字对地对每一字对作检验。进行至步骤410。
步骤410在该电子邮件集合中,该字对是否频繁出现?若是,则进行至步骤412,否则则跳至步骤418进行。
步骤412判断何者为该前端字。检查该前端字列表与该已标记的集合以判断在该字对中的哪一个字应被指定为该前端字。进行至步骤414。
步骤414目前所得到的字对结构是否为一合法的从属关系对?使用该违反限制以判断该字对的语法(syntax)是否为合法的。此外,检查该从属关系数据库以确认该从属关系数据库是否并未包含该字对,以及判断该字对结构是否应被加入成为一新的从属关系对,例如该字对存在于该从属关系数据库里的一已存在的从属关系树当中。若该字对是一个新的且合法的从属关系对,则进行至步骤416,否则跳至步骤418。
步骤416将该字对作为一从属关系对,以加入至该从属关系数据库,然后进行至步骤418。
步骤418是否所有字对均已处理过?若是,则进行至步骤422,否则进行至步骤420。
步骤420检验下一个字对并且进行至步骤410。
步骤422是否所有句子均已处理过?若是,则进行至步骤426,否则进行至步骤424。
步骤424检验下一句并且进行至步骤404。
步骤426是否至少有一个新的从属关系对被加入该从属关系数据库?若是,则结束该从属关系数据库的建立;否则藉由返回步骤402,重复此程序以寻找下一层的从属关系对。
图5为一描述在图3中的该分析步骤304的流程图500。一旦使用图4显示的流程图400来建立该从属关系数据库,在图3的该分析步骤304可被分成下列步骤步骤502从第一句开始检验,一句一句地对每一个句子作检验。进行至步骤504。
步骤504将该句切割成一群字。此步骤同于图4的步骤404,若无进一步需要的话,则省略此步骤的说明。在结束此步骤之后,进行至步骤506。
步骤506建构一前端字列表。使用该从属关系数据库建立一张表,该表是列出在该句中所有字的所有可能的前端字。进行至步骤508。
步骤508从第一可能前端字开始检验,一个一个地对每一可能的前端字作检验。进行至步骤510。
步骤510对于该句子建构其字对。将该句中的所有两个字的所有组合作一列表。进步至步骤512。
步骤512从第一字对开始检验。一个字对一句字对地对每一字对作检验。进行至步骤514。
步骤514该字对是否存在于该从属关系数据库?若是,则进行至步骤516;否则跳至步骤518进行。
步骤516将该字对作为一从属关系对,以加入至该从属关系树,然后进行至步骤518。
步骤518是否所有字对均已处理过?若是,则进行至步骤520,否则进行至步骤524。
步骤520检验下一个字对并且进行至步骤514。
步骤522是否所有可能的前端字均已处理过?若是,则进行至步骤526,否则进行至步骤524。
步骤524检验下一个可能的前端字并且进行至步骤508。
步骤526是否所有句子均已处理过?若是,则结束该分析程序,以进行至图3的步骤306,否则,则进行至步骤528。
步骤528检验下一句并且进行至步骤504。
图6显示了对应于图1中的电子邮件100、由图5所叙述的该分析步骤得来的从属关系树600。因为在同一封电子邮件100中包含有多个安排计划事件,所以在从属关系树600列出有五个实际的子从属关系树(sub-tree)602、604、606、608与610,而每一子从属关系树只包含有相关于从该从属关系数据库内所判断出的安排计划信息的该从属关系对。第一子从属关系树602是根据“reserved”这个身为句根的字,第二子从属关系树604是根据“finish”这个身为句根的字,第三子从属关系树606是根据“review”这个身为句根的字,第四子从属关系树608是根据“rehearsal”这个身为句根的字,第五子从属关系树610是根据“meet”这个身为句根的字所建立的。
图7显示了描述图3中的步骤306的一流程图700,步骤306的目的与功用是用以判断该电子邮件是否包含有安排计划信息,图7包含有下列步骤步骤702将该从属关系树的机率的对数值作加总计算,之后进行至步骤704。
步骤704该机率对数值的总和是否大于一预设值?若是,则假设该电子邮件包含有安排计划信息,并进行至步骤308以萃取安排计划信息。若该机率总和的对数值并未大于一预设值,则假设该电子邮件无关于安排计划信息,并回返至步骤302以等待下一封收到的电子邮件。
图8显示了描述图3中的步骤308的一流程图800,步骤308的目的与功用是萃取安排计划信息,图8包含有下列步骤步骤802从该从属关系树内的该第一子从属关系树开始处理。在该从属关系树内的每一子从属关系树包含有对于某一特定事件的安排计划信息,所以可从该第一子从属关系树开始,一个一个地萃取该安排计划信息。进行至步骤804。
步骤804从第一从属关系对开始处理,一对一对地对每一从属关系对作检验。进行至步骤806。
步骤806该从属关系对是否合于预设的安排计划类型?若是,则进行至步骤808,否则跳至步骤812进行。
步骤808依据该安排计划类型以计算一安排计划值,然后进行至步骤810。
步骤810用该行事历应用软件所要求的该应用软件特定格式将该安排计划值登记在一增加表(add list),之后进行至步骤812。
步骤812是否所有字对均已处理过?若是,则进行至步骤816,否则进行至步骤814。
步骤814检验下一个字对并且进行至步骤806。
步骤816是否所有子从属关系树均已处理过?若是,则进行至步骤820,否则进行至步骤818。
步骤818检验下一个子从属关系树并且进行至步骤804。
步骤820向使用者确认该增加表,在该安排计划信息被输出至该行事历应用软件之前,使用者可能想要对在该增加表内的安排计划信息作修改。当使用者确认了在该增加表内的信息后,进行至步骤822。
步骤822将位于该增加表内的该安排计划信息输出至该行事历应用软件。当该输出动作结束后,回到步骤302以等待下一封寄来的电子邮件。
图9显示了对于实作图3中的流程图300的一个人安排计划装置900的一方块示意图。一个人安排计划装置包含有协助安排计划的电子装置,例如桌上型计算机、笔记型计算机、个人数位助理(PDA),以及手机等等的电子装置。个人安排计划装置900包含有一处理器902与一连结于该处理器的储存单元904。储存单元904提供储存空间以储存一寄来的电子邮件906、一从属关系数据库910与使用于一行事历应用软件914的程序码。一自然语言电子邮件集合912可依照需求选择性地储存于该储存单元,以允许个人安排计划装置900建构从属关系数据库910。此外,一使用者接口916与一网络接口918是连结至该处理器,使用者接口916作为与一使用者沟通的接口,网络接口918用以接收寄来的电子邮件906。储存单元904可用一内存装置实作,像是一随机存取内存(random access memory,简称RAM)、像是磁性或是光学媒体的一储存装置,或是不同型态的内存与储存装置的组合。
从网络接口918接收到一自然语言电子邮件906,而处理器902将自然语言电子邮件906储存在储存单元904。处理器902分析电子邮件906以建构从属关系树920。从属关系树920包含有从电子邮件906所得的字对,该字对可在从属关系数据910找到,而将该字对作为从属关系对以储存在从属关系树920内的一树状结构内。在从属关系树920内的每一子从属关系树是用来处理从属于共同的句根前端字(root head word)的所有字对。对于多数的安排计划电子邮件,此即表示每一子从属关系树包含有对于一特定的安排计划事件的特定信息。
当检查过在电子邮件906内的所有字对之后,该处理器902将从属关系树920内的从属关系对的机率值作一加总计算。每一从属关系对在该从属关系树内亦储存有一相关的机率值(较佳的方式是以对数机率值的格式储存),该机率值相对应于该特定字对于该电子邮件集合912的出现频率。出现频率较高的字对会被给予较高的机率值以用来代表该电子邮件906是否包含有安排计划信息。若该对数机率的总和高于一预设值,则电子邮件906被假设为包含有安排计划信息。在此种情形下,处理器902藉由迂回地检查在从属关系树920内的每一子从属关系树内的每一从属关系对,以萃取出该安排计划信息。对于每一从属关系对,处理器902会检查以决定该从属关系对是否与一需要对安排计划值进行转换的安排计划类型相符合。上述的字例包含有像是“tomorrow”或是“next week”等字,依据该电子邮件的日期的不同,这些字需要被转换成一实际的日期。接下来,处理器902以行事历应用软件914所要求的特别形式来登记该从属关系对的值。举例来说,若该从属关系对以形式为(前端字,尾字)(head,tail)的方式储存,而所需的行事历应用软件914变数如人、地、时与事件主题等为已知,则可对图6中的从属关系作如下的分群与处理(reserved,schedule)(reserved,room)->PLACE=room(room,video-conference)->PLACE=video-conference room(finish,6/18)->TIME=6/18(finish,material)->SUBJECT=finish material(review,6/23 15:00-1700)->TIME=6/23 15:00-1700(review,material)->SUBJECT=review material(rehearsal,06/25 10:00-12:00)->TIME=6/25 10:00-12:00(rehearsal,the)->SUBJECT=the rehearsal(rehearsal,first)->SUBJECT=the first rehearsal(meet,tomorrow)->TIME=06/14(meet,go-over)->SUBJECT=go-over(go-over,material)->SUBJECT=go-over material(meet,in-person)->PERSON=Nancy当在从属关系树920内的每一子从属关系树的每一从属关系对已登记于该增加表中时,可利用使用者接口916来对该增加表做确认。使用者会得到预期的增加表,并且拥有一机会可以更改存在于该增加表的该安排计划信息,举例来说,使用者或许希望能改变一会议的时间至一较早的时段。一旦使用者确认之后,处理器902利用该特定的行事历应用软件914的专用格式,将该增加表输出至行事历应用软件914。处理器902可能会被要求确认行事历应用软件914已经准备好接收该新的安排计划信息,亦可能需要传送一确认信息至行事历应用软件914。此外,值得被注意的是利用从属关系文法规则,以及处理器902可以利用储存于电子邮件集合912的多个包含有安排计划信息的自然语言电子邮件来建构从属关系数据库910。
本发明用以计算机化的方式萃取出安排计划信息的方法与装置可以从一自然语言电子邮件萃取出安排计划信息,并将该萃取出的安排计划信息输出至一行事历应用软件。从属关系文法规则用以对于每一个句子内有关于安排计划信息的字作明确的定义与适当的连结。藉由迂回地检验有关于该电子邮件中所包含的安排计划信息的字对,以萃取出该安排计划信息。此外,虽然之前详细的描述是明载有关于处理自然语言电子邮件的叙述,然而可以直接用相同的方法与装置处理任何的自然语言内容。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求所做的均等变化与修饰,皆应属本发明专利的涵盖范围。
权利要求
1.一种用以从一自然语言内容中以计算机化的方式萃取出安排计划信息的方法,以自动将该安排计划信息安排进一行事历应用软件,该方法包含有下列步骤(a)分析该自然语言内容以建构一从属关系树;(b)藉由计算出该从属关系树的一机率总和,以判断该自然语言内容是否包含有安排计划信息;以及(c)若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至该行事历应用软件。
2.如权利要求1所述的方法,其中,分析该自然语言内容的步骤另包含有将该自然语言内容内的每一个句子切割成为一群字;藉由将该自然语言内容里的字对与一从属关系数据库进行比较,建构含有多个从属关系对的该从属关系树;以及将在该从属关系数据库内发现的这些字对作为从属关系对,加入至该从属关系树。
3.如权利要求2所述的方法,其中,当建构该从属关系树时对于该自然语言内容里的每一个句子,将在该句子内的所有可能的前端字都列出来以形成一前端字列表,这些可能的前端字是处于该句子中的主要位置;以及将在该自然语言内容内的每一个句子的每一字与位于该前端字列表内的这些可能的前端字作配对处理,以形成一字对,其中若在该从属关系数据库中找到由该字与该可能的前端字所形成的该字对,则将由该字与该可能的前端字所形成的该字对作为一从属关系对,并将其加入至该从属关系树。
4.如权利要求2所述的方法,该方法另包含有使用下列的步骤建构该从属关系数据库将在一内容集合内的每一个句子切割成为一群字,其中,该内容集合包含有多个包含安排计划信息的自然语言内容样本;对于在该内容集合内的每一个句子,检查字对的所有可能组合,以判断该字对是否于该内容集合里具有一高度共同出现率;若该字对在该内容集合里具有一高度共同出现率,则利用一已标记的集合来判断该前端字,以及利用违规限制来检查该字对的合法性,其中,该已标记的集合明载了对于句子里相关于该内容集合内的安排计划信息的实际的前端字,亦包含有所有其他的字相关于这些实际的前端字的从属关系,而该违规限制明载了不合规定的从属关系结构;若该字对为一合法的从属关系对,则计算该字对的机率值,并将该字对作为一从属关系对,以加入至该从属关系数据库,亦将该从属关系对的机率值加入至该从属关系数据库,其中该从属关系对的机率值相对应于在该内容集合内的该字对的出现频率;以及重复上述步骤,直到没有新的从属关系对被发现。
5.如权利要求2所述的方法,其中,判断该自然语言内容是否包含有安排计划信息的步骤另包含有藉由将在该从属关系树内的所有从属关系对的机率值作一加总处理,以对应于该自然语言内容计算出一机率总和,每一从属关系对的机率值是相对应于在一内容集合内的从属关系对的出现频率,而该内容集合包含有多个包含安排计划信息的自然语言内容样本。
6.如权利要求1所述的方法,其中,在从该自然语言内容萃取出安排计划信息之后,该方法另包含有对应于该安排计划信息计算出一值。
7.如权利要求1所述的方法,其中,在从该自然语言内容萃取出安排计划信息之后,该方法另包含有送出一确认信息给使用者,以确认该安排计划信息。
8.如权利要求1所述的方法,其中,将该萃取出的安排计划信息输出至该行事历应用软件的步骤另包含有送出一确认信息给该行事历应用软件。
9.如权利要求1所述的方法,其中,该自然语言内容为一自然语言的电子邮件。
10.一种个人安排计划装置,包含有一处理器,用以执行位于该个人安排计划装置内的程序码;以及一储存单元,其连结于该处理器,用以储存该处理器使用的数据,该数据包含一自然语言内容;其中,该处理器分析该自然语言内容,以建构储存在该储存单元的一从属关系树,并藉由计算出该从属关系树的一机率总和,以判断该自然语言内容是否包含有安排计划信息,以及若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至一行事历应用软件。
11.如权利要求10所述的个人安排计划装置,其中,该储存单元另包含有一从属关系数据库,该从属关系数据库明载有多个从属关系对,以及与每一从属关系对相对应的机率值,而每一从属关系对为在一内容集合内发现的一字对,该从属关系对的机率值相对应于在该内容集合内的字对的出现频率,而该内容集合包含有多个包含安排计划信息的自然语言内容样本;以及其中,该处理器建构于该储存单元的该从属关系树包含有藉由下述方法得到的从属关系对将在该自然语言内容里的字对与该从属关系数据库比较,以及将在该从属关系数据库内发现的该字对作为从属关系对,加入至该从属关系树;再来是该处理器对于该自然语言内容计算出一机率总和,其方式是藉由将在该从属关系树内的所有从属关系对的机率作一加总计算;以及若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至一行事历应用软件。
12.如权利要求11所述的个人安排计划装置,其中,当该处理器建构该从属关系树时对于在该自然语言内容内的每一个句子,该处理器会将在该句子内的所有可能的前端字都列出来以形成一前端字列表,这些可能的前端字是处于该句子中的主要位置,该前端字列表储存在该储存单元;以及该处理器将在该自然语言内容内的每一个句子的每一字与位于该前端字列表内的这些可能的前端字作配对的处理,以形成一字对,其中若在该从属关系数据库中找到由该字与该可能的前端字所形成的该字对,该处理器则将由该字与该可能的前端字所形成的该字对作为一从属关系对,并将其加入至该从属关系树。
13.如权利要求11所述的个人安排计划装置,其中,该处理器使用该内容集合建构该从属关系数据库,其中对于在该内容集合内的每一个句子,该处理器检查字对的所有可能组合,以判断该字对是否在该内容集合里具有一高度共同出现率;若该字对于该内容集合里具有一高度共同出现率,则该处理器利用一已标记的集合来判断该前端字,以及利用违规限来检查该字对的合法性,其中,该已标记的集合明载了对于句子里相关于该内容集合内的安排计划信息的实际的前端字,亦包含有所有其他的字相关于该实际的前端字的从属关系,而该违规限制明载了不合规定的从属关系结构;以及若该字对为一合法的从属关系对,该处理器判断出在该内容集合里的该字对的出现频率,并将该字对作为一从属关系对,以加入至该从属关系数据库,亦将该字对的出现频率值作为该从属关系对的机率值,加入至该从属关系数据库。
14.如权利要求13所述的个人安排计划装置,其中,该处理器重复地建构该从属关系数据库,直到没有新的从属关系对被发现。
15.如权利要求13所述的个人安排计划装置,其中,当建构该从属关系数据库时,该处理器另将该内容集合内的每一个句子切割成为一群字。
16.如权利要求10所述的个人安排计划装置,其中,该处理器另将在该自然语言内容中的每一个句子切割成为一群字。
17.如权利要求10所述的个人安排计划装置,其中,从自然语言内容萃取出安排计划信息之后,该处理器对应于该安排计划信息计算出一值。
18.如权利要求10所述的个人安排计划装置,其中,在从该自然语言内容萃取出安排计划信息之后,该处理器送出一确认信息至一使用者接口模组,以确认该安排计划信息。
19.如权利要求10所述的个人安排计划装置,其中,当该处理器将该安排计划信息输出至该行事历应用软件,该处理器另送出一确认信息给该行事历应用软件。
20.如权利要求10所述的个人安排计划装置,其中,该自然语言内容为一自然语言的电子邮件。
全文摘要
一处理器是连结至一储存有寄来的电子邮件的储存装置、一从属关系数据库,与一使用于行事历应用软件的程序码。藉由该处理器分析寄来的电子邮件,以建构一包含有从该电子邮件所得到的字对的从属关系树。这些字对是被当作从属关系对而储存在该从属关系树的一树状结构内。计算对应于该从属关系树的一机率总和,以判断该电子邮件是否包含有安排计划信息。若该机率和超过一预设值,该电子邮件被假设为包含有安排计划信息,而从该从属关系树萃取出该安排计划信息,并将该安排计划信息输出至该行事历应用软件。
文档编号G06Q10/00GK1604102SQ200410045909
公开日2005年4月6日 申请日期2004年5月24日 优先权日2003年10月2日
发明者沈正中 申请人:宏碁股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1