文本中的时间信息及主题信息的抽取方法和系统与流程

文档序号:12464605阅读:225来源:国知局
文本中的时间信息及主题信息的抽取方法和系统与流程

本发明涉及文本处理技术领域,具体而言,涉及一种文本中的时间信息及主题信息的抽取方法,还涉及一种文本中的时间信息及主题信息的抽取系统。



背景技术:

用户在输入文本时会在输入中加入时间,表示会在某个指定时间做某件事,应用软件可以将用户提到的时间识别出来,用户则可以选择把时间转化成定时类任务。然而,现有的时间抽取系统只是从用户发帖中抽取出时间,抽取并不准确、抽取涵盖范围较小,并且没有抽取任务主题,任务主题需要用户在创建任务时自己填写。

因此,如何提高时间抽取的准确性和抽取涵盖范围,成为目前亟待解决的问题。



技术实现要素:

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此,本发明的一个目的在于提出了一种文本中的时间信息及主题信息的抽取方法。

本发明的另一个目的在于提出了一种文本中的时间信息及主题信息的抽取系统。

有鉴于此,本发明提出了一种文本中的时间信息及主题信息的抽取方法,包括:根据句子分隔符,将文本拆分为一个或多个子句;根据日期正则表达式与时分正则表达式,分别抽取子句中的日期与时分;将抽取的日期与时分按照预定规则合并为时间信息;判断文本内容是否包含主题模式;若是,抽取主题模式对应的文本内容作为时间的主题信息;否则抽取时间附近的子句内容作为主题信息。

根据本发明的文本中的时间信息及主题信息的抽取方法,由于用户的输入文本可能很长,为了便于正则表达式的匹配,首先通过句子分隔符,将文本拆分为一个或多个子句,然后通过日期正则表达式与时分正则表达式分别抽取各子句中的日期和时分,之后再将日期和时分合并为时间信息,并为每个时间抽取任务主题。通过本发明的技术方案,有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大,并且还能将任务的内容抽取出来自动填入任务的主题,能够帮助用户便捷地根据帖子内容创建提醒任务,有效地减少用户的使用成本,提升用户体验。

另外,根据本发明上述的文本中的时间信息及主题信息的抽取方法,还可以具有如下附加的技术特征:

在上述技术方案中,优选地,还包括:将抽取的日期与时分按照预定规则合并为时间信息之前,判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,放弃抽取;将抽取的日期与时分按照预定规则合并为时间信息之后,判断时间信息是否有效,并在判定时间信息无效时,丢弃时间信息。

在该技术方案中,首先,有些不是时间的词也可能会被当成时间匹配到,通过判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,将这种不应抽取出的时间排除,从而降低正则表达式匹配的复杂度,提高匹配效率、提高时间抽取的准确性,有效避免了时间误匹配给用户造成的麻烦。比如,用户输入“3号楼”,通过日期正则表达式会匹配到“3号”,但是这里“3号”并不是时间,此时放弃对“3号”的抽取。其次,有时用户输入的时间并不能保证是正确的,比如用户输入“2015.06.31”,这个时间是无效的,但系统抽取出的时间应该保证是有效的,由于在正则表达式匹配时,不能判断此类时间的有效性,所以在抽取到时间之后,通过对时间的有效性进行判定,能够确定抽取到的时间是否有效,如果判定为无效的时间,则将其丢弃,从而提高时间抽取的准确性、有效避免了无效时间给用户造成的麻烦。

在上述技术方案中,优选地,将抽取的日期与时分按照预定规则合并为时间具体包括:判断相邻或者相近的第一日期与第二日期是否为同一日期;若是,将第一日期与第二日期合并为一个日期;否则进一步判断第一日期是否小于第二日期;若是,判定第一日期为任务开始日期;否则判定第二日期为任务结束日期;将日期和时分合并为时间;当日期没有对应的时分时,给出默认时分;当时分没有对应的日期时,给出默认日期;判断相邻或者相近的时间是否为同一时间;若是,将相邻或者相近的时间合并为一个时间。

在该技术方案中,当相邻或者相近的第一日期与第二日期为同一日期时,将第一日期与第二日期合并为一个日期,当相邻或者相近的第一日期与第二日期不是同一日期时,通过判断第一日期与第二日期的大小关系,确定任务开始日期和任务结束日期;在将日期和时分合并为时间时,当日期没有对应的时分或者时分没有对应的日期时,通过给出默认时分或者默认日期,保证时间的完整性,有利于对时间的有效性进行判断;在合并时间之后,当相邻或者相近的时间为同一时间时,将其合并为同一个时间,避免抽取出的时间有所重复;从而有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大极大地方便了用户,提升用户体验。

在上述技术方案中,优选地,相邻或者相近的第一日期与第二日期为距离值小于预设阈值的两个日期;默认日期为所示文本发布日期;默认时分为00:00。

在该技术方案中,当两个日期之间的距离值小于预设阈值时,可以确认这两个日期为相邻或者相近的第一日期与第二日期,进而通过判断这两个日期的大小关系,进行日期抽取;在将日期和时分合并为时间时,当日期没有对应的时分,系统给出默认时分为00:00,当时分没有对应的日期时,系统给出默认日期为文本发布日期。

在上述任一技术方案中,优选地,文本为输入文本或者语音生成文本;句子分隔符包括以下至少一项或其组合:冒号、分号、句号、感叹号。

在该技术方案中,文本可以是用户直接输入的文本,也可以是通过语音生成的文本;当文本内容较长时,通过冒号、分号、句号、感叹号等句子分隔符,将文本拆分为一个或多个子句,对每个子句分别进行时间和主题的抽取,有效降低了正则表达式匹配的复杂度,提高了匹配效率。

在上述任一技术方案中,优选地,日期正则表达式包括以下至少一项或其组合:“年月日”、“****.**.**”、“****‐**‐**”、“****/**/**”、“明年”、“下月”、“明天”、“下周”;时分正则表达式包括以下至少一项或其组合:“点分”“**:**”、“下午*点”、“上午*点”。

在该技术方案中,由于日期和时分的组合多种多样,如果只用一组正则表达式匹配的话,需要将各种组合都要列举出来,导致正则表达式会变得很大,这样不利于高效的匹配。本发明的技术方案,采取对日期和时分分别抽取的方法,分别列举日期正则表达式以及时间正则表达式,有效降低了正则表达式匹配的复杂度,提高了匹配效率。其中,日期正则表达式包括如“年月日”、“****.**.**”、“****‐**‐**”、“****/**/**”及各种缺省格式,还有如“明年”、“下月”、“明天”、“下周”这种以当前时间为基准的时间格式,对于前一种日期,直接抽取即可,对于后一种日期,需要获取发帖时间作为基准再计算日期;对于时分正则表达式包括如“点分”、“**:**”等,对于以上格式的时分,直接进行抽取即可,还有如“下午*点”、“上午*点”这种时间处理的时候需要变成24小时制时间,比如“下午2点”应转换成“14:00”。

在上述任一技术方案中,优选地,主题模式包括以下至少一项或其组合:“主题:”、“分享:”。

在该技术方案中,如果文本内容没有主题模式,将时间附近的子句内容作为时间的主题,如果发现整个帖子匹配到了主题模式,如“主题:”、“分享:”等,那么整个帖子的主题优先作为每个时间的主题。

本发明还提出一种文本中的时间信息及主题信息的抽取系统,包括:拆分单元,用于根据句子分隔符,将文本拆分为一个或多个子句;时间抽取单元,用于根据日期正则表达式与时分正则表达式,分别抽取子句中的日期与时分;合并单元,用于将抽取的日期与时分按照预定规则合并为时间;判断单元包括第一判断单元,用于判断文本内容是否包含主题模式;若是,主题抽取单元,用于抽取主题模式对应的文本内容作为时间的主题;否则主题抽取单元,用于抽取时间附近的子句内容作为主题信息。

根据本发明的文本中的时间信息及主题信息的抽取系统,由于用户的输入文本可能很长,为了便于正则表达式的匹配,首先通过句子分隔符,将文本拆分为一个或多个子句,然后通过日期正则表达式与时分正则表达式分别抽取各子句中的日期和时分,之后再将日期和时分合并为时间信息,并为每个时间抽取任务主题。通过本发明的技术方案,有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大,并且还能将任务的内容抽取出来自动填入任务的主题,能够帮助用户便捷地根据帖子内容创建提醒任务,有效地减少用户的使用成本,提升用户体验。

另外,根据本发明上述的文本中的时间信息及主题信息的抽取系统,还可以具有如下附加的技术特征:

在上述技术方案中,优选地,还包括:合并单元将抽取的日期与时分按照预定规则合并为时间信息之前,第一判断单元,还用于判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,放弃抽取;合并单元将抽取的日期与时分按照预定规则合并为时间信息之后,第一判断单元,还用于判断时间信息是否有效,并在判定时间信息无效时,丢弃时间信息。

在该技术方案中,首先,有些不是时间的词也可能会被当成时间匹配到,通过判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,将这种不应抽取出的时间排除,从而降低正则表达式匹配的复杂度,提高匹配效率、提高时间抽取的准确性,有效避免了时间误匹配给用户造成的麻烦。比如,用户输入“3号楼”,通过日期正则表达式会匹配到“3号”,但是这里“3号”并不是时间,此时放弃对“3号”的抽取。其次,有时用户输入的时间并不能保证是正确的,比如用户输入“2015.06.31”,这个时间是无效的,但系统抽取出的时间应该保证是有效的,由于在正则表达式匹配时,不能判断此类时间的有效性,所以在抽取到时间之后,通过对时间的有效性进行判定,能够确定抽取到的时间是否有效,如果判定为无效的时间,则将其丢弃,从而提高时间抽取的准确性、有效避免了无效时间给用户造成的麻烦。

在上述技术方案中,优选地,判断单元包括第二判断单元,用于判断相邻或者相近的第一日期与第二日期是否为同一日期;若是,合并单元将第一日期与第二日期合并为一个日期;否则第二判断单元进一步判断第一日期是否小于第二日期;若是,判定第一日期为任务开始日期;否则判定第二日期为任务结束日期;合并单元将日期和时分合并为时间;当日期没有对应的时分时,给出默认时分;当时分没有对应的日期时,给出默认日期;第二判断单元,还用于判断相邻或者相近的时间是否为同一时间;若是,合并单元将相邻或者相近的时间合并为一个时间。

在该技术方案中,当相邻或者相近的第一日期与第二日期为同一日期时,将第一日期与第二日期合并为一个日期,当相邻或者相近的第一日期与第二日期不是同一日期时,通过判断第一日期与第二日期的大小关系,确定任务开始日期和任务结束日期;在将日期和时分合并为时间时,当日期没有对应的时分或者时分没有对应的日期时,通过给出默认时分或者默认日期,保证时间的完整性,有利于对时间的有效性进行判断;在合并时间之后,当相邻或者相近的时间为同一时间时,将其合并为同一个时间,避免抽取出的时间有所重复;从而有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大极大地方便了用户,提升用户体验。

在上述技术方案中,优选地,相邻或者相近的第一日期与第二日期为距离值小于预设阈值的两个日期;默认日期为所示文本发布日期;默认时分为00:00。

在该技术方案中,当两个日期之间的距离值小于预设阈值时,可以确认这两个日期为相邻或者相近的第一日期与第二日期,进而通过判断这两个日期的大小关系,进行日期抽取;在将日期和时分合并为时间时,当日期没有对应的时分,系统给出默认时分为00:00,当时分没有对应的日期时,系统给出默认日期为文本发布日期。

在上述任一技术方案中,优选地,文本为输入文本或者语音生成文本;句子分隔符包括以下至少一项或其组合:冒号、分号、句号、感叹号。

在该技术方案中,文本可以是用户直接输入的文本,也可以是通过语音生成的文本;当文本内容较长时,通过冒号、分号、句号、感叹号等句子分隔符,将文本拆分为一个或多个子句,对每个子句分别进行时间和主题的抽取,有效降低了正则表达式匹配的复杂度,提高了匹配效率。

在上述任一技术方案中,优选地,日期正则表达式包括以下至少一项或其组合:“年月日”、“****.**.**”、“****‐**‐**”、“****/**/**”、“明年”、“下月”、“明天”、“下周”;时分正则表达式包括以下至少一项或其组合:“点分”“**:**”、“下午*点”、“上午*点”。

在该技术方案中,由于日期和时分的组合多种多样,如果只用一组正则表达式匹配的话,需要将各种组合都要列举出来,导致正则表达式会变得很大,这样不利于高效的匹配。本发明的技术方案,采取对日期和时分分别抽取的方法,分别列举日期正则表达式以及时间正则表达式,有效降低了正则表达式匹配的复杂度,提高了匹配效率。其中,日期正则表达式包括如“年月日”、“****.**.**”、“****‐**‐**”、“****/**/**”及各种缺省格式,还有如“明年”、“下月”、“明天”、“下周”这种以当前时间为基准的时间格式,对于前一种日期,直接抽取即可,对于后一种日期,需要获取发帖时间作为基准再计算日期;对于时分正则表达式包括如“点分”、“**:**”等,对于以上格式的时分,直接进行抽取即可,还有如“下午*点”、“上午*点”这种时间处理的时候需要变成24小时制时间,比如“下午2点”应转换成“14:00”。

在上述任一技术方案中,优选地,主题模式包括以下至少一项或其组合:“主题:”、“分享:”。

在该技术方案中,如果文本内容没有主题模式,将时间附近的子句内容作为时间的主题,如果发现整个帖子匹配到了主题模式,如“主题:”、“分享:”等,那么整个帖子的主题优先作为每个时间的主题。

本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1示出了根据本发明的一个实施例的文本中的时间信息及主题信息的抽取方法的流程示意图;

图2示出了根据本发明的另一个实施例的文本中的时间信息及主题信息的抽取方法的流程示意图;

图3示出了根据本发明的再一个实施例的文本中的时间信息及主题信息的抽取方法的流程示意图;

图4示出了根据本发明的又一个实施例的文本中的时间信息及主题信息的抽取方法的流程示意图;

图5示出了根据本发明的一个实施例的文本中的时间信息及主题信息的抽取系统的示意框图;

图6示出了根据本发明的再一个实施例的文本中的时间信息及主题信息的抽取系统的示意框图;

图7示出了根据本发明的一个实施例的文本中的时间信息及主题信息的抽取系统应用在APP中示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示,根据本发明的一个实施例的文本中的时间信息及主题信息的抽取方法的流程示意图:

步骤102,根据句子分隔符,将文本拆分为一个或多个子句;

步骤104,根据日期正则表达式与时分正则表达式,分别抽取子句中的日期与时分;

步骤106,将抽取的日期与时分按照预定规则合并为时间信息;

步骤108,判断文本内容是否包含主题模式;

步骤110,若是,抽取主题模式对应的文本内容作为时间的主题信息;

步骤112,否则抽取时间附近的子句内容作为主题信息。

在该实施例中,由于用户的输入文本可能很长,为了便于正则表达式的匹配,首先通过句子分隔符,将文本拆分为一个或多个子句,然后通过日期正则表达式与时分正则表达式分别抽取各子句中的日期和时分,之后再将日期和时分合并为时间信息,并为每个时间抽取任务主题。通过本发明的实施例,有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大,并且还能将任务的内容抽取出来自动填入任务的主题,能够帮助用户便捷地根据帖子内容创建提醒任务,有效地减少用户的使用成本,提升用户体验。

如图2所示,根据本发明的另一个实施例的文本中的时间信息及主题信息的抽取方法的流程示意图:

步骤202,根据句子分隔符,将文本拆分为一个或多个子句;

步骤204,根据日期正则表达式与时分正则表达式,分别抽取子句中的日期与时分;

步骤206,判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,执行步骤218;否则执行步骤208;

步骤208,将抽取的日期与时分按照预定规则合并为时间信息;

步骤210,判断时间信息是否有效,并在判定时间信息无效时,执行步骤220;否则,执行步骤212;

步骤212,判断文本内容是否包含主题模式;

步骤214,若是,抽取主题模式对应的文本内容作为时间的主题信息;

步骤216,否则抽取时间附近的子句内容作为主题信息;

步骤218,放弃抽取;

步骤220,丢弃时间信息。

在该实施例中,首先,有些不是时间的词也可能会被当成时间匹配到,通过判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,将这种不应抽取出的时间排除,从而降低正则表达式匹配的复杂度,提高匹配效率、提高时间抽取的准确性,有效避免了时间误匹配给用户造成的麻烦。比如,用户输入“3号楼”,通过日期正则表达式会匹配到“3号”,但是这里“3号”并不是时间,此时放弃对“3号”的抽取。其次,有时用户输入的时间并不能保证是正确的,比如用户输入“2015.06.31”,这个时间是无效的,但系统抽取出的时间应该保证是有效的,由于在正则表达式匹配时,不能判断此类时间的有效性,所以在抽取到时间之后,通过对时间的有效性进行判定,能够确定抽取到的时间是否有效,如果判定为无效的时间,则将其丢弃,从而提高时间抽取的准确性、有效避免了无效时间给用户造成的麻烦。

如图3所示,根据本发明的再一个实施例的文本中的时间信息及主题信息的抽取方法的流程示意图:

步骤302,根据句子分隔符,将文本拆分为一个或多个子句;

步骤304,根据日期正则表达式与时分正则表达式,分别抽取子句中的日期与时分;

步骤306,判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,执行步骤318;否则执行步骤308;

步骤308,将抽取的日期与时分按照预定规则合并为时间信息;预定规则具体包括:将抽取的日期与时分按照预定规则合并为时间具体包括:判断相邻或者相近的第一日期与第二日期是否为同一日期;若是,将第一日期与第二日期合并为一个日期;否则进一步判断第一日期是否小于第二日期;若是,判定第一日期为任务开始日期;否则判定第二日期为任务结束日期;将日期和时分合并为时间;当日期没有对应的时分时,给出默认时分;当时分没有对应的日期时,给出默认日期;判断相邻或者相近的时间是否为同一时间;若是,将相邻或者相近的时间合并为一个时间;

步骤310,判断时间信息是否有效,并在判定时间信息无效时,执行步骤320;否则,执行步骤312;

步骤312,判断文本内容是否包含主题模式;

步骤314,若是,抽取主题模式对应的文本内容作为时间的主题信息;

步骤316,否则抽取时间附近的子句内容作为主题信息;

步骤318,放弃抽取;

步骤320,丢弃时间信息。

在该实施例中,当相邻或者相近的第一日期与第二日期为同一日期时,将第一日期与第二日期合并为一个日期,当相邻或者相近的第一日期与第二日期不是同一日期时,通过判断第一日期与第二日期的大小关系,确定任务开始日期和任务结束日期;在将日期和时分合并为时间时,当日期没有对应的时分或者时分没有对应的日期时,通过给出默认时分或者默认日期,保证时间的完整性,有利于对时间的有效性进行判断;在合并时间之后,当相邻或者相近的时间为同一时间时,将其合并为同一个时间,避免抽取出的时间有所重复;从而有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大极大地方便了用户,提升用户体验。

在上述实施例中,优选地,相邻或者相近的第一日期与第二日期为距离值小于预设阈值的两个日期;默认日期为所示文本发布日期;默认时分为00:00。

在该实施例中,当两个日期之间的距离值小于预设阈值时,可以确认这两个日期为相邻或者相近的第一日期与第二日期,进而通过判断这两个日期的大小关系,进行日期抽取;在将日期和时分合并为时间时,当日期没有对应的时分,系统给出默认时分为00:00,当时分没有对应的日期时,系统给出默认日期为文本发布日期。

在上述任一实施例中,优选地,文本为输入文本或者语音生成文本;句子分隔符包括以下至少一项或其组合:冒号、分号、句号、感叹号。

在该实施例中,文本可以是用户直接输入的文本,也可以是通过语音生成的文本;当文本内容较长时,通过冒号、分号、句号、感叹号等句子分隔符,将文本拆分为一个或多个子句,对每个子句分别进行时间和主题的抽取,有效降低了正则表达式匹配的复杂度,提高了匹配效率。

在上述任一实施例中,优选地,日期正则表达式包括以下至少一项或其组合:“年月日”、“****.**.**”、“****‐**‐**”、“****/**/**”、“明年”、“下月”、“明天”、“下周”;时分正则表达式包括以下至少一项或其组合:“点分”“**:**”、“下午*点”、“上午*点”。

在该实施例中,由于日期和时分的组合多种多样,如果只用一组正则表达式匹配的话,需要将各种组合都要列举出来,导致正则表达式会变得很大,这样不利于高效的匹配。本发明的实施例,采取对日期和时分分别抽取的方法,分别列举日期正则表达式以及时间正则表达式,有效降低了正则表达式匹配的复杂度,提高了匹配效率。其中,日期正则表达式包括如“年月日”、“****.**.**”、“****‐**‐**”、“****/**/**”及各种缺省格式,还有如“明年”、“下月”、“明天”、“下周”这种以当前时间为基准的时间格式,对于前一种日期,直接抽取即可,对于后一种日期,需要获取发帖时间作为基准再计算日期;对于时分正则表达式包括如“点分”、“**:**”等,对于以上格式的时分,直接进行抽取即可,还有如“下午*点”、“上午*点”这种时间处理的时候需要变成24小时制时间,比如“下午2点”应转换成“14:00”。

在上述任一实施例中,优选地,主题模式包括以下至少一项或其组合:“主题:”、“分享:”。

在该实施例中,如果文本内容没有主题模式,将时间附近的子句内容作为时间的主题,如果发现整个帖子匹配到了主题模式,如“主题:”、“分享:”等,那么整个帖子的主题优先作为每个时间的主题。

如图4所示,根据本发明的又一个实施例的文本中的时间信息及主题信息的抽取方法的流程示意图:

步骤402,用户发帖;步骤404,拆分句子;步骤406,分句抽取日期和时分;步骤408,合并时间;步骤410,分句抽取主题;步骤412,返回抽取的时间列表。

在该实施例中,通过两组正则表达式分别匹配日期和时分,之后再将日期和时间组合起来,并在抽取时间的附近位置抽取任务主题,如果有多个句子,那么分句子进行时间和主题抽取,有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大,并且还能将任务的内容抽取出来自动填入任务的主题,能够帮助用户便捷地根据帖子内容创建提醒任务,有效地减少用户的使用成本,提升用户体验。

如图5所示,根据本发明的一个实施例的文本中的时间信息及主题信息的抽取系统的示意框图:

拆分单元502,用于根据句子分隔符,将文本拆分为一个或多个子句;

时间抽取单元504,用于根据日期正则表达式与时分正则表达式,分别抽取子句中的日期与时分;

合并单元506,用于将抽取的日期与时分按照预定规则合并为时间;

判断单元508包括第一判断单元5082,用于判断文本内容是否包含主题模式;若是,

主题抽取单元510,用于抽取主题模式对应的文本内容作为时间的主题;否则主题抽取单元510,用于抽取时间附近的子句内容作为主题信息。

根据本发明的文本中的时间信息及主题信息的抽取系统,由于用户的输入文本可能很长,为了便于正则表达式的匹配,首先通过句子分隔符,将文本拆分为一个或多个子句,然后通过日期正则表达式与时分正则表达式分别抽取各子句中的日期和时分,之后再将日期和时分合并为时间信息,并为每个时间抽取任务主题。通过本发明的实施例,有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大,并且还能将任务的内容抽取出来自动填入任务的主题,能够帮助用户便捷地根据帖子内容创建提醒任务,有效地减少用户的使用成本,提升用户体验。

在上述实施例中,优选地,还包括:合并单元将抽取的日期与时分按照预定规则合并为时间信息之前,第一判断单元,还用于判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,放弃抽取;用于将抽取的日期与时分按照预定规则合并为时间信息之后,第一判断单元,还用于判断时间信息是否有效,并在判定时间信息无效时,丢弃时间信息。

在该实施例中,首先,有些不是时间的词也可能会被当成时间匹配到,通过判断日期与时分是否为误匹配,并在判定日期与时分是误匹配时,将这种不应抽取出的时间排除,从而降低正则表达式匹配的复杂度,提高匹配效率、提高时间抽取的准确性,有效避免了时间误匹配给用户造成的麻烦。比如,用户输入“3号楼”,通过日期正则表达式会匹配到“3号”,但是这里“3号”并不是时间,此时放弃对“3号”的抽取。其次,有时用户输入的时间并不能保证是正确的,比如用户输入“2015.06.31”,这个时间是无效的,但系统抽取出的时间应该保证是有效的,由于在正则表达式匹配时,不能判断此类时间的有效性,所以在抽取到时间之后,通过对时间的有效性进行判定,能够确定抽取到的时间是否有效,如果判定为无效的时间,则将其丢弃,从而提高时间抽取的准确性、有效避免了无效时间给用户造成的麻烦。

如图6所示,根据本发明的一个实施例的文本中的时间信息及主题信息的抽取系统的示意框图:

拆分单元602,用于根据句子分隔符,将文本拆分为一个或多个子句;

时间抽取单元604,用于根据日期正则表达式与时分正则表达式,分别抽取子句中的日期与时分;

合并单元606,用于将抽取的日期与时分按照预定规则合并为时间;

判断单元608包括第一判断单元6082,用于判断文本内容是否包含主题模式;若是,

主题抽取单元610,用于抽取主题模式对应的文本内容作为时间的主题;否则主题抽取单元610,用于抽取时间附近的子句内容作为主题信息。

判断单元608包括第二判断单元6084,用于判断相邻或者相近的第一日期与第二日期是否为同一日期;若是,合并单元606将第一日期与第二日期合并为一个日期;否则第二判断单元6084进一步判断第一日期是否小于第二日期;若是,判定第一日期为任务开始日期;否则判定第二日期为任务结束日期;合并单元606将日期和时分合并为时间;当日期没有对应的时分时,给出默认时分;当时分没有对应的日期时,给出默认日期;第二判断单元6084,还用于判断相邻或者相近的时间是否为同一时间;若是,合并单元将相邻或者相近的时间合并为一个时间。

在该实施例中,当相邻或者相近的第一日期与第二日期为同一日期时,将第一日期与第二日期合并为一个日期,当相邻或者相近的第一日期与第二日期不是同一日期时,通过判断第一日期与第二日期的大小关系,确定任务开始日期和任务结束日期;在将日期和时分合并为时间时,当日期没有对应的时分或者时分没有对应的日期时,通过给出默认时分或者默认日期,保证时间的完整性,有利于对时间的有效性进行判断;在合并时间之后,当相邻或者相近的时间为同一时间时,将其合并为同一个时间,避免抽取出的时间有所重复;从而有效降低了正则表达式匹配的复杂度,提高了匹配效率,同时抽取时间较为准确,抽取的时间类型涵盖范围较大极大地方便了用户,提升用户体验。

在上述实施例中,优选地,相邻或者相近的第一日期与第二日期为距离值小于预设阈值的两个日期;默认日期为所示文本发布日期;默认时分为00:00。

在该实施例中,当两个日期之间的距离值小于预设阈值时,可以确认这两个日期为相邻或者相近的第一日期与第二日期,进而通过判断这两个日期的大小关系,进行日期抽取;在将日期和时分合并为时间时,当日期没有对应的时分,系统给出默认时分为00:00,当时分没有对应的日期时,系统给出默认日期为文本发布日期。

在上述任一实施例中,优选地,文本为输入文本或者语音生成文本;句子分隔符包括以下至少一项或其组合:冒号、分号、句号、感叹号。

在该实施例中,文本可以是用户直接输入的文本,也可以是通过语音生成的文本;当文本内容较长时,通过冒号、分号、句号、感叹号等句子分隔符,将文本拆分为一个或多个子句,对每个子句分别进行时间和主题的抽取,有效降低了正则表达式匹配的复杂度,提高了匹配效率。

在上述任一实施例中,优选地,日期正则表达式包括以下至少一项或其组合:“年月日”、“****.**.**”、“****‐**‐**”、“****/**/**”、“明年”、“下月”、“明天”、“下周”;时分正则表达式包括以下至少一项或其组合:“点分”“**:**”、“下午*点”、“上午*点”。

在该实施例中,由于日期和时分的组合多种多样,如果只用一组正则表达式匹配的话,需要将各种组合都要列举出来,导致正则表达式会变得很大,这样不利于高效的匹配。本发明的实施例,采取对日期和时分分别抽取的方法,分别列举日期正则表达式以及时间正则表达式,有效降低了正则表达式匹配的复杂度,提高了匹配效率。其中,日期正则表达式包括如“年月日”、“****.**.**”、“****‐**‐**”、“****/**/**”及各种缺省格式,还有如“明年”、“下月”、“明天”、“下周”这种以当前时间为基准的时间格式,对于前一种日期,直接抽取即可,对于后一种日期,需要获取发帖时间作为基准再计算日期;对于时分正则表达式包括如“点分”、“**:**”等,对于以上格式的时分,直接进行抽取即可,还有如“下午*点”、“上午*点”这种时间处理的时候需要变成24小时制时间,比如“下午2点”应转换成“14:00”。

在上述任一实施例中,优选地,主题模式包括以下至少一项或其组合:“主题:”、“分享:”。

在该实施例中,如果文本内容没有主题模式,将时间附近的子句内容作为时间的主题,如果发现整个帖子匹配到了主题模式,如“主题:”、“分享:”等,那么整个帖子的主题优先作为每个时间的主题。

如图7所示,根据本发明的一个实施例的文本中的时间信息及主题信息的抽取系统应用在APP中示意框图:

在该实施例中,将文本中的时间信息及主题信息的抽取系统应用到APP“工作圈”中。用户在工作圈中浏览帖子时,系统会给出提醒,用加粗(或者其他颜色,比如蓝色)标识出时间,图7中的时间“2016年8月30日下午13:30至16:00”标成了粗体,以此提醒用户可以把这个时间做成定时任务,并且将任务的内容抽取出来作为定时任务的主题。当用户点选时间后,会出现为用户创建提醒的界面,其中时间和主题都是自动填写的。通过将文本中的时间信息及主题信息的抽取系统应用在到APP“工作圈”中,抽取时间较为准确,抽取的时间类型涵盖范围较大,并且还能将任务的内容抽取出来自动填入任务的主题,为用户提供了一个可选项,允许用户将时间转变成定时闹钟,这样就为用户提供了便利,不再需要用户自行输入时间创建定时闹钟,有效地减少用户的使用成本,提升用户体验。

具体实施例,将文本中的时间信息及主题信息的抽取系统应用到微信中,用户在浏览工作群聊天记录或者正在接收语音信息时,系统会将提到的时间识别出来,当用户看到标识出的时间,可以点选时间,自动创建提醒任务或设置成定时闹钟,用户无需在自行输入时间和任务主题,为用户的工作带来了极大的便利,同时又节省了用户的使用成本。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1