一种判断事件时态的方法与流程

文档序号:17926614发布日期:2019-06-15 00:27阅读:295来源:国知局
一种判断事件时态的方法与流程

本发明涉及人工智能自然语言处理领域,具体为一种判断事件时态的方法。



背景技术:

众所周知,随着计算机和互联网的高速发展,基于计算机和互联网的人工智能技术研究已然成为主流。人工智能通过对人的意识、思维的信息过程进行学习模拟,赋予机器像人那样思考,使得机器能够胜任一些通常需要人类智能才能完成的复杂工作。

对我国来说,人工智能技术的一大难点就是自然语言处理,其中,在对文本事件的时态判断中,由于中文语义复杂,难以深入理解,使得计算机或机器对文本事件的时态做出准确的判断很难,容易导致计算机或机器做出错误学习模拟。



技术实现要素:

本发明提供了一种判断事件时态的方法,具备提高计算机或机器判断文本事件时态的准确度的优点,解决了背景技术中提到的问题。

本发明提供如下技术方案:一种判断事件时态的方法,所述判断事件时态的方法包括以下步骤:

第一步,创建专用数据库群,所述专用数据库群可自定义增减数据;

第二步,从文本中抽取事件,所述文本为电子格式的面向计算机信息处理的中文文字组合;

第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。

优选的,所述专用数据库群包括时态词库、时间名词库、及物动词库、事件词库以及其他词库。

优选的,所述时态词库包括未发生时态词库、正发生时态词库和已发生时态词库,所述未发生时态词库包括事件前未发生时态词库、事件中未发生时态词库、事件后未发生时态词库和未发生的时间词库,所述正发生时态词库包括事件前正发生时态词库、事件中正发生时态词库、事件后正发生时态词库和正发生的时间词库,所述已发生时态词库包括事件前已发生时态词库、事件中已发生时态词库、事件后已发生时态词库和已发生的时间词库。

优选的,所述其他词库包括介词库、量词库、名词库、代词库、非及物动词库、形容词库、数词库、副词库、连词库、助词库、叹词库以及拟声词库。

优选的,所述判断事件的时态的流程如下:

s1,提取所述抽取事件所在的单句,抽取及物动词往左和往右的第一个标点符号或空格之间的文本内容,作为提取的单句;

s2,在所述提取的单句中,去掉所述事件文本的左侧相邻事件及其左侧的所有文本,以及去掉所述事件文本的右侧相邻事件及其右侧的所有文本;

s3,根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧是否有直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步,如果无,则根据预先创建的专用数据库群中的词库,在剩余文本中,去掉剩余事件文本中的动词相邻左侧和右侧的其他词库中的字词及其任意组合,再根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧有无直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步;

s4,根据s3的检测结果,依据时态词库检测事件文本的左侧是否有时态词,如有事件前未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件前已发生时态词、已发生的时间词或其任意组合,则判断事件为已发生事件,如有事件前正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如果事件文本的左侧没有时态词,进入下一步;

s5,根据s3的检测结果,检测事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧是否有时态词,如有事件中未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件中已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件中正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,进入下一步;

s6、根据第三步的检测结果,检测事件文本右侧是否有时态词,如有事件后未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件后已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件后正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,终止计算。

本发明具备以下有益效果:

1、该判断事件时态的方法,通过建立包含事件前、中、后时态词库的数据库群,并进行分类,以便计算机或机器判断文本事件的时态时,依据相应的时态词库判断事件的时态,从而提高了计算机或机器判断文本事件时态的准确度,确保计算机或机器做出正确的学习模拟。

2、该判断事件时态的方法,通过建立包含及物动词库、事件词库以及其他词库的数据库群,以便计算机或机器在判断文本事件的时态时,根据及物动词库、事件词库以及其他词库,对复杂文本事件中的无关字词进行相应删除,以便快速找出隐含的时态词,不仅提高了复杂文本事件时态判断的准确性,还提高了复杂文本事件时态判断的效率。

附图说明

图1为本发明文本事件时态判断流程图;

图2为本发明专用数据库群示意图;

图3为本发明时态词库示意图;

图4为本发明判断抽取事件时态流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1-4,一种判断事件时态的方法,判断事件时态的方法包括以下步骤:

第一步,创建专用数据库群,专用数据库群可自定义增减数据,专用数据库群包括时态词库、时间名词库、及物动词库、事件词库以及其他词库,时态词库包括未发生时态词库、正发生时态词库和已发生时态词库,未发生时态词库包括事件前未发生时态词库、事件中未发生时态词库、事件后未发生时态词库和未发生的时间词库,事件前未发生时态词库包括“没有、未、没、想、等一下、计划等”在同一单句中位于事件文本左侧的未发生时态字、词以及短语,事件中未发生时态词库包括“下、一下、一个等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的未发生时态字词以及短语,事件后未发生时态词库包括“的计划、的想法、的准备、去、的设想等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的未发生时态字词以及短语,未发生的时间词库包括“过/等+量词+时间名词及其任意组合(例:计划过一小时看电影)”的短语组合,还包括“下个/下次/未来+时间名词及其任意组合(例:计划下个月装修房子)”的时间段与组合,还包括“量词+时间名词及其任意组合+以后/之后(例:计划一天后打电话给你)”的时间短语组合,正发生时态词库包括事件前正发生时态词库、事件中正发生时态词库、事件后正发生时态词库和正发生的时间词库,事件前正发生时态词库包括“在、正在等”在同一单句中位于事件文本左侧的正发生时态字词,事件中正发生时态词库包括“着、这等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的正发生时态字词,事件后正发生时态词库包括“呢、中、开始等”在同一单句中位于事件文本右侧的正发生时态字词,正发生的时间词库包括“此时、此刻、现在、实时等”,已发生时态词库包括事件前已发生时态词库、事件中已发生时态词库、事件后已发生时态词库和已发生的时间词库,事件前已发生时态词库包括“之前、曾经、已经等”在同一单句中位于事件文本左侧的已发生时态字词,事件中已发生时态词库包括“了、完、毕、过等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的已发生时态字词,事件后已发生时态词库包括“结束、之后、完毕等”在同一单句中位于事件文本右侧的已发生时态字词,已发生的时间词库包括“上一个/上个+时间名词及其任意组合(例:上个月装修房子完毕)”的时间短语组合,还包括“量词+时间名词及其任意组合+之前/前(例:计划一天前打电话给你)”的时间短语组合,其他词库包括介词库、量词库、名词库、代词库、非及物动词库、形容词库、数词库、副词库、连词库、助词库、叹词库以及拟声词库;

第二步,从文本中抽取事件(例:先预先创建文本专用数据库群,获取文本,根据文本专用数据库群中的数据库,检索文本中匹配数据库中的词数据,并依次进行汇总,根据数据库群和汇总数据集推测该文本是否形成文本事件,并获取文本事件),文本为电子格式的面向计算机信息处理的中文文字组合,文本包括电子文档文本、web页面文本、通讯消息内容文本、通讯录联系内容文本;

第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。

判断事件的时态的流程如下:

s1,提取抽取事件所在的单句,抽取及物动词往左和往右的第一个标点符号或空格之间的文本内容,作为提取的单句;

s2,在提取的单句中,去掉事件文本的左侧相邻事件及其左侧的所有文本,以及去掉事件文本的右侧相邻事件及其右侧的所有文本;

s3,根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测事件文本的左侧和右侧是否有直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步,如果无,则根据预先创建的专用数据库群中的词库,在剩余文本中,去掉剩余事件文本中的动词相邻左侧和右侧的其他词库中的字词及其任意组合,再根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测事件文本的左侧和右侧有无直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步;

s4,根据s3的检测结果,依据时态词库检测事件文本的左侧是否有时态词,如有事件前未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件前已发生时态词、已发生的时间词或其任意组合,则判断事件为已发生事件,如有事件前正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如果事件文本的左侧没有时态词,进入下一步;

s5,根据s3的检测结果,检测事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧是否有时态词,如有事件中未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件中已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件中正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,进入下一步;

s6、根据第三步的检测结果,检测事件文本右侧是否有时态词,如有事件后未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件后已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件后正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,终止计算。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1