一种地震新闻信息抽取方法及其系统与流程

文档序号:25601695发布日期:2021-06-25 12:00阅读:65来源:国知局
一种地震新闻信息抽取方法及其系统与流程

1.本发明涉及自然语言处理信息抽取技术领域,尤其涉及一种地震新闻信息抽取方法及其系统。


背景技术:

2.地震事件是隶属于突发事件下具有极大危害性的自然灾害事件,通常会造成极大社会影响、带来严重经济损失和人员伤亡。同时中国也是世界上地震活动最强烈、地震灾害最严重的国家之一。当前国内对地震事件的研究主要在于应急救援指导、舆情引导、地震事件信息挖掘、地震信息存储以及地震数据实时监控等五个方面,国外则主要研究地震后产生的应激反应、地震知识共享以及社交媒体传播三个方面。
3.从当前的从媒体报道地震新闻事件的角度来看,不同媒体之间的时刻信息差和不同采访对象也导致其报道的新闻往往会从地震的不同角度进行报道,诸如地震带来的人员伤亡,是否导致震区交通阻断,救援队伍的救灾情况等,这也使得人们难以通过一家媒体了解地震新闻事件发生的全貌。
4.因此,目前需要一种对地震新闻文本的实体关系进行抽取的技术,然而目前的实体关系抽取技术没有基于时刻信息线展现地震新闻事件的变化发展情况,无法形成地震新闻事件脉络,并且没有将地震新闻事件作为实体与其他类实体诸如实体人物、实体机构等进行链接,形成地震新闻事件与实体的关系网络。


技术实现要素:

5.针对现有技术中存在的上述问题,现提供一种地震新闻信息抽取方法及其系统。
6.具体技术方案如下:
7.一种地震新闻信息抽取方法,其中,包括以下步骤:
8.步骤s1,将实体库中的第一实体链接到新闻文本上,并且链接有第一实体的新闻文本记为第一处理文本;
9.步骤s2,对第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
10.步骤s3,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
11.步骤s4,对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对时间要素所在的新闻原句进行
实体识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到第二数组中的关系动词列表中的至少一个关系动词,并依次将第三实体、第三实体对应的关系动词、时刻信息和新闻原句关联成第四数组后输出;
12.步骤s5,将第一数组和第四数组进行组合,以得到第五数组,并根据时刻信息的时间顺序依次输出第五数组。
13.优选的,地震新闻信息抽取方法,其中,步骤s1具体包括以下步骤:
14.步骤s11,对新闻文本进行实体识别,以于新闻文本中识别得到对应于第一实体的第一实体数据;
15.步骤s12,将第一实体链接至第一实体数据。
16.优选的,地震新闻信息抽取方法,其中,对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本,具体包括以下步骤:
17.步骤s21,获取并将新闻文本中的待删除字符删除,以得到删除待删除字符后的新闻文本;
18.步骤s22,获取根据分句字符对删除待删除字符后的新闻文本进行分句,以得到新闻原句。
19.优选的,地震新闻信息抽取方法,其中,步骤s3具体包括以下步骤:
20.步骤s31,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组;
21.步骤s32,将第一数字类社会属性新闻数组加载到分词模块上,采用分词模块对第二处理文本中的新闻原句进行分词,以得到对应于新闻原句的分词结果;
22.步骤s33,遍历第一数字类社会属性新闻数组中的每个元素,并判断第一数字类社会属性新闻数组中的元素是否为分词结果,并将不是分词结果的元素删除,以得到第二数字类社会属性新闻数组;
23.步骤s34,对第二数字类社会属性新闻数组中的元素的非阿拉伯数字进行识别,并将识别得到的非阿拉伯数字转化为阿拉伯数字;
24.步骤s35,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出。
25.优选的,地震新闻信息抽取方法,其中,步骤s4具体包括以下步骤:
26.步骤s41,对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息;
27.步骤s42,根据实体列表以及关系词表对新闻原句进行实体和关系动词的识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出;
28.步骤s43,根据地震事件与实体关系表的优先级顺序提取得到第二数组中的关系动词列表中的至少一个关系动词;
29.步骤s44,根据时刻信息转换函数将时刻信息转化为预设格式的时刻信息数据;
30.步骤s45,将第三实体、第三实体对应的关系动词、时刻信息对应的时刻信息数据、新闻原句和时间要素关联成第四数组后输出。
31.优选的,地震新闻信息抽取方法,其中,步骤s4还包括:
32.当新闻原句不包括时间要素时,根据与新闻原句相邻的新闻原句中的时间要素设置新闻原句的时刻信息。
33.优选的,地震新闻信息抽取方法,其中,步骤s4还包括:
34.判断第二处理文本的时间要素是否完整;
35.若否,根据新闻文本中的发稿时间对时间要素进行补充完整,以方便后续根据完整的时间要素对时间要素所在的新闻原句设置时刻信息。
36.优选的,地震新闻信息抽取方法,其中,第一实体中的元素包括:实体名、实体类型、发震时刻,发震地点,震级,震源深度,经纬度。
37.优选的,地震新闻信息抽取方法,其中,第二实体包括实体人物信息和实体机构信息。
38.还包括一种地震新闻信息抽取系统,其中,包括以下步骤:
39.链接模块,用于将实体库中的第一实体链接到新闻文本上,并且链接有第一实体的新闻文本记为第一处理文本;
40.识别模块,用于对第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
41.数字类社会属性模块,用于通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
42.事件实体关系提取模块,用于对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对时间要素所在的新闻原句进行实体识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到第二数组中的关系动词列表中的至少一个关系动词,并依次将第三实体、第三实体对应的关系动词、时刻信息和新闻原句关联成第四数组后输出;
43.组合模块,用于将第一数组和第四数组进行组合,以得到第五数组,并根据时刻信息的顺序依次输出第五数组。
44.上述技术方案具有如下优点或有益效果:
45.第一、实现了从新闻文本中提取新闻文本的数字类社会属性;
46.第二、实现了从新闻文本中提取新闻事件与相关实体,并形成新闻事件与相关实体的关系网络。
47.第三、实现了基于时间线形成全面的新闻事件脉络。
附图说明
48.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
49.图1为本发明地震新闻信息抽取方法的实施例的流程图;
50.图2为本发明地震新闻信息抽取方法的实施例的步骤s1的流程图;
51.图3为本发明地震新闻信息抽取方法的实施例的步骤s2的流程图;
52.图4为本发明地震新闻信息抽取方法的实施例的步骤s3的流程图;
53.图5为本发明地震新闻信息抽取方法的实施例的步骤s4的流程图;
54.图6为本发明地震新闻信息抽取系统的实施例的原理框图。
具体实施方式
55.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
56.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
57.下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
58.本发明包括一种地震新闻信息抽取方法,如图1所示,包括以下步骤:
59.步骤s1,将实体库中的第一实体链接到新闻文本上,并且链接有第一实体的新闻文本记为第一处理文本;
60.步骤s2,对第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
61.步骤s3,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
62.步骤s4,对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对时间要素所在的新闻原句进行实体识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到第二数组中的关系动词列表中的至少一个关系动词,并依次将第三实体、第三实体对应的关系动词、时刻信息、新闻原句和时间要素关联成第四数组后输出;
63.步骤s5,将第一数组和第四数组进行组合,以得到第五数组,并根据时刻信息的时间顺序依次输出第五数组。
64.在上述实施例中,通过预设的数字类社会属性和正则表达式提取得到第一数字类社会属性新闻数组,从而实现从新闻文本中提取新闻文本的数字类社会属性;
65.通过实体列表以及关系词表识别得到第三实体和第三实体对应的关系动词列表,并且根据地震事件与实体关系表获取得到关系动词列表中的至少一个关系动词,从而实现了从新闻文本中提取第一实体、第二实体与第三实体之间的关系网络,进而实现了新闻事件(即第一实体)与相关实体(即第二实体和第三实体)的关系网络;
66.根据时刻信息的时间顺序依次输出第五数组,从而实现基于时间线形成全面的新闻事件脉络。
67.进一步地,在上述实施例中,如图2所示,步骤s1具体包括以下步骤:
68.步骤s11,对新闻文本进行实体识别,以于新闻文本中识别得到对应于第一实体的第一实体数据;
69.步骤s12,将第一实体链接至第一实体数据。
70.在上述实施例中,通过将第一实体链接至第一实体数据,从而实现新闻文本的实体链接。
71.作为优选的实施方式,可以将中国地震局地震目录上的地震数据实时注册进实体库,以得到第一实体;
72.随后根据第一实体对新闻文本进行实体识别,以于新闻文本中识别得到对应于第一实体的第一实体数据;
73.接着,将第一实体链接至第一实体数据,并且对链接有第一实体的新闻文本设置有唯一的新闻文本标签。
74.从而通过实体库使得实体链接的信息来源更加全面,使得实体链接更加准确。
75.其中,第一实体对应于唯一的实体id,并且第一实体包括七个实体属性:实体名、实体类型、发震时刻,发震地点,震级,震源深度,经纬度。
76.在上述实施例中,根据实体识别算法对第一处理文本进行实体识别,以识别得到第二实体;其中第二实体对应设置有唯一的实体id,并且第二实体包括实体人物信息和实体机构信息,实体人物信息和实体机构信息分别包括以下属性:第二实体(fullname)、第二实体对应的实体类别(category)和第二实体于新闻文本中的名称(name)。
77.进一步地,在上述实施例中,对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本,如图3所示,具体包括以下步骤:
78.步骤s21,获取并将新闻文本中的待删除字符删除,以得到删除待删除字符后的新闻文本;
79.步骤s22,获取根据分句字符对删除待删除字符后的新闻文本进行分句,以得到新闻原句。
80.在上述实施例中,待删除字符可以包括换行符、空格字符以及特殊字符;
81.分句字符可以包括句号和分号。
82.作为优选的实施方式,首先将将新闻文本中的待删除字符删除,随后根据句号和分号对删除待删除字符后的新闻文本进行分句,以得到新闻原句。
83.进一步地,在上述实施例中,如图4所示,步骤s3具体包括以下步骤:
84.步骤s31,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组;
85.在上述实施例中,通过预设的数字类社会属性和正则表达式对第二处理文本进行第一轮提取,输出结果为提取出的第一数字类社会属性新闻数组。数字类社会属性包括八大类二十八小类,数字类社会属性如下表1所示:
86.[0087][0088]
表1
[0089]
步骤s32,将第一数字类社会属性新闻数组加载到分词模块上,采用分词模块对第二处理文本中的新闻原句进行分词,以得到对应于新闻原句的分词结果;
[0090]
作为优选的实施方式,可以采用jieba分词词典,即将第一数字类社会属性新闻数组加载到jieba分词词典上,并通过jieba分词词典中的jieba分词模块分词模块对第二处理文本中的新闻原句进行分词,以得到对应于新闻原句的分词结果。
[0091]
步骤s33,遍历第一数字类社会属性新闻数组中的每个元素,并判断第一数字类社会属性新闻数组中的元素是否为分词结果,并将不是分词结果的元素删除,以得到第二数字类社会属性新闻数组;
[0092]
步骤s34,对第二数字类社会属性新闻数组中的元素的非阿拉伯数字进行识别,并将识别得到的非阿拉伯数字转化为阿拉伯数字;
[0093]
在上述实施例中,对第二数字类社会属性新闻数组中的每个元素进行归一化处理,以将识别得到的非阿拉伯数字(例如汉字数字或英文数字)转化为阿拉伯数字,随后提取出每个元素的数字。
[0094]
步骤s35,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出。
[0095]
在上述实施例中,根据元素所处的位置,查找到元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出,其中第一数组中的元素、元素对应的阿拉伯数字和元素所在的新闻原句成键值对关系,并且第一数组为json格式的数组。
[0096]
进一步地,在上述实施例中,如图5所示,步骤s4具体包括以下步骤:
[0097]
步骤s41,对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息;
[0098]
在上述实施例中,时间要素可以为准确时间以及模糊时间,模糊时间诸如“13日下午”,“15日早上”等。
[0099]
作为优选的实施方式,根据模糊时间表将模糊时间转化为预设对应时间,并根据预设对应时间对模糊时间所在的新闻原句设置时刻信息;
[0100]
其中模糊时间表如下表2所示:
[0101]
模糊时间预设对应时间
凌晨0时黎明3时早晨9时中午12时下午15时傍晚17时晚上19时深夜23时
[0102]
表2。
[0103]
在上表2中,例如,新闻文本中出现模糊时间——凌晨时,可以根据上述模糊时间表将模糊时间——凌晨转化为预设对应时间——0时。
[0104]
步骤s42,根据实体列表以及关系词表对新闻原句进行实体和关系动词的识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出;
[0105]
步骤s43,根据地震事件与实体关系表的优先级顺序提取得到第二数组中的关系动词列表中的至少一个关系动词;
[0106]
在上述实施例中,将第二数组中的关系动词列表里得到的关系动词按照地震事件与实体关系表的内自上而下的优先级顺序进行提取,地震事件与实体关系表如下表3所示:
[0107]
[0108][0109]
表3
[0110]
步骤s44,根据时刻信息转换函数将时刻信息转化为预设格式的时刻信息数据;
[0111]
在上述实施例中,预设格式的时刻信息数据为13位的timestamp格式,例如 1387173699000,其中1387173699000用于表示:自1970年1月1日至某时的毫秒数。
[0112]
步骤s45,将第三实体、第三实体对应的关系动词、时刻信息对应的时刻信息数据、新闻原句和时间要素关联成第四数组后输出。
[0113]
进一步地,在上述实施例中,步骤s4还包括:
[0114]
当新闻原句不包括时间要素时,根据与新闻原句相邻的新闻原句中的时间要素设置新闻原句的时刻信息。
[0115]
作为优选的实施方式,当新闻文本包括四条新闻原句时,即此时的第二处理文本包括四条新闻原句,并且此时的第一条新闻原句、第三条新闻原句和第四条新闻原句均包括时间要素,而第二条新闻原句不包括时间要素,此时,可以选择与第二条新闻原句相邻的第一条新闻原句或第三条新闻原句的时间要素设置第二条新闻原句的时刻信息,如下表4所示:
[0116][0117]
表4
[0118]
在上表4中,第二条新闻原句的时刻信息可以根据第一条新闻原句的时间要素进行设置。
[0119]
进一步地,在上述实施例中,步骤s4还包括:
[0120]
判断第二处理文本的时间要素是否完整;
[0121]
若否,根据新闻文本中的发稿时间对时间要素进行补充完整,以方便后续根据完整的时间要素对时间要素所在的新闻原句设置时刻信息。
[0122]
在上述实施例中,当时间要素缺少年份、月份的时间时,可以通过新闻文本中的发稿时间进行补充。
[0123]
作为优选的实施方式,以6.17xxx省xxx市xxx县地震为例的新闻文本为例,其中上述新闻文本包括新闻标题(新闻文本为6.17xxx省xxx市xxx县地震),新闻内容和发稿日期;
[0124]
首先,对新闻文本中的新闻标题进行实体识别,以得到第一实体数据,并根据第一实体数据与实体库中获取与第一实体数据相对应的第一实体,并将第一实体链接至第一实体数据,上述新闻文本对应的第一实体包括:实体id,事件名、事件类型、发生时刻,发生地点,震级,震源深度,经纬度;如下表5所示:
[0125][0126]
表5
[0127]
随后,对第一处理文本进行实体识别,以识别得到第二实体和第二实体对应的实体标签,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本,其中识别得到第二实体如下表6所示:
[0128][0129]
表6
[0130]
接着,通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出。
[0131]
第一数组如下表7所示:
[0132][0133][0134]
表7
[0135]
然后,对第二处理文本的时间信息进行识别,并根据时间信息对时间信息所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对新闻原句进行实体和关系动词的识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关
系表的优先级顺序提取得到第二数组中的关系动词列表中的至少一个关系动词,并将第三实体、第三实体对应的关系动词、时刻信息对应的时刻信息数据、新闻原句和时间要素关联成第四数组后输出,其中,第三实体对应于实体id和实体类型。第四数组如下表8所示:
[0136][0137]
表8
[0138]
还包括一种地震新闻信息抽取系统,如图6所示,包括以下步骤:
[0139]
链接模块1,用于将实体库中的第一实体链接到新闻文本上,并且链接有第一实体的新闻文本记为第一处理文本;
[0140]
识别模块2,与链接模块1连接,用于对第一处理文本进行实体识别,以识别得到第二实体,并对识别后的新闻文本进行分句处理,以得到包括至少一个新闻原句的第二处理文本;
[0141]
数字类社会属性模块3,与识别模块2链接,用于通过预设的数字类社会属性和正则表达式对第二处理文本进行实体识别,以识别得到第一数字类社会属性新闻数组,并根据第一数字类社会属性新闻数组对第二处理文本进行分词,以得到分词结果,并根据分词结果将不存在于分词结果中的第一数字类社会属性新闻数组中的元素删除,以得到第二数字类社会属性新闻数组,将第二数字类社会属性新闻数组中的元素中的非阿拉伯数字转化为阿拉伯数字,并于分词后的新闻文本中获取元素所在的新闻原句,将元素、元素对应的阿拉伯数字和元素所在的新闻原句关联成第一数组后输出;
[0142]
事件实体关系提取模块4,与识别模块2连接,用于对第二处理文本的时间要素进行识别,并根据时间要素对时间要素所在的新闻原句设置时刻信息,并根据实体列表以及关系词表对时间要素所在的新闻原句进行实体识别,以识别得到新闻原句中的第三实体和第三实体对应的关系动词列表,并将第三实体、第三实体对应的关系动词列表和时刻信息关联成第二数组后输出,根据地震事件与实体关系表的优先级顺序获取得到第二数组中的关系动词列表中的至少一个关系动词,并依次将第三实体、第三实体对应的关系动词、时刻信息和新闻原句关联成第四数组后输出;
[0143]
组合模块5,分别与数字类社会属性模块3和事件实体关系提取模块4连接,用于将第一数组和第四数组进行组合,以得到第五数组,并根据时刻信息的顺序依次输出第五数组。
[0144]
在上述实施例中,本发明地震新闻信息抽取系统的具体实施方式与上述地震新闻
信息抽取方法各实施例基本相同,在此不再赘述。
[0145]
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1