一种基于事件抽取的舆情分析方法、装置及相关组件与流程

文档序号:28946167发布日期:2022-02-19 09:01阅读:166来源:国知局
一种基于事件抽取的舆情分析方法、装置及相关组件与流程

1.本发明涉及信息抽取领域,尤其涉及一种基于事件抽取的舆情分析方法、装置及相关组件。


背景技术:

2.在新闻舆情分析任务中,现有的方法主要分为两种:一种是直接对新闻文本进行正负面评分,另一种是使用ner模型识别出新闻文本中的核心要素(如公司名、法人等),针对文本内容对核心要素进行评分。
3.以上两种方法都只能给出一个宏观的评分,对于新闻文本中实际发生的事情未做解析,给出的结果用户并不能获取详细的信息,仍然需要一条新闻,一条新闻的去阅读,大大降低了用户的阅读体验。


技术实现要素:

4.本发明的目的是提供一种基于事件抽取的舆情分析方法、装置及相关组件,旨在解决现有的新闻舆情分析方法输出的结果具有局限性,无法满足用户针对关心的事件进行快速了解的问题。
5.为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种基于事件抽取的舆情分析方法,其包括:
6.利用语言表征模型对新闻文本进行文本特征提取,并对提取的文本特征进行多分类,得到不同类型的事件;
7.利用命名实体识别方法抽取每一所述事件的论元信息,得到事件论元;
8.将所述事件与所述事件论元进行匹配组装,得到结构化事件信息;
9.按预设的配制规则的配制信息对预训练的评分模型进行参数化初始化,利用所述评分模型对所述结构化事件信息进行打分,得到对应的正负面评分。
10.另外,本发明要解决的技术问题是还在于提供一种基于事件抽取的舆情分析装置,其包括:
11.提取单元,用于利用语言表征模型对新闻文本进行文本特征提取,并对提取的文本特征进行多分类,得到不同类型的事件;
12.抽取单元,用于利用命名实体识别方法抽取每一所述事件的论元信息,得到事件论元;
13.匹配组装单元,用于将所述事件与所述事件论元进行匹配组装,得到结构化事件信息;
14.评分单元,用于按预设的配制规则的配制信息对预训练的评分模型进行参数化初始化,利用所述评分模型对所述结构化事件信息进行打分,得到对应的正负面评分。
15.另外,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实
现上述第一方面所述的基于事件抽取的舆情分析方法。
16.另外,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于事件抽取的舆情分析方法。
17.本发明实施例公开了一种基于事件抽取的舆情分析方法、装置及相关组件,其中,方法包括:利用语言表征模型对新闻文本进行文本特征提取,并对提取的文本特征进行多分类,得到不同类型的事件;利用命名实体识别方法抽取每一所述事件的论元信息,得到事件论元;将所述事件与所述事件论元进行匹配组装,得到结构化事件信息;按预设的配制规则的配制信息对预训练的评分模型进行参数化初始化,利用所述评分模型对所述结构化事件信息进行打分,得到对应的正负面评分。该方法通过对事件与事件论元进行匹配组装,定向输出用户关心的事件信息,并得到对应事件的评分,方便用户快速了解新闻文本中感兴趣的内容。
附图说明
18.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1为本发明实施例提供的基于事件抽取的舆情分析方法的流程示意图;
20.图2为本发明实施例提供的基于事件抽取的舆情分析方法的子流程示意图;
21.图3为本发明实施例提供的基于事件抽取的舆情分析装置的示意性框图;
22.图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
25.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
26.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
27.请参阅图1,图1为本发明实施例提供的基于事件抽取的舆情分析方法的流程示意图;
28.如图1所示,该方法包括步骤s101~s104。
29.s101、利用语言表征模型对新闻文本进行文本特征提取,并对提取的文本特征进
行多分类,得到不同类型的事件;
30.s102、利用命名实体识别方法抽取每一所述事件的论元信息,得到事件论元;
31.s103、将所述事件与所述事件论元进行匹配组装,得到结构化事件信息;
32.s104、按预设的配制规则的配制信息对预训练的评分模型进行参数化初始化,利用所述评分模型对所述结构化事件信息进行打分,得到对应的正负面评分。
33.本技术的分析方法将新闻文本中的内容进行文本特征提取,然后将提取出来的事件与事件论元进行匹配组装,定向输出用户关心的事件信息,并得到对应事件的评分,方便用户快速了解新闻文本中感兴趣的内容,不再需要用户重新阅读全部的新闻文本。需要说明的是,结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。
34.参照图2,在本实施例中,所述步骤s101包括:
35.s201、将新闻文本进行中文的分词,并将分词后的文本段落输入至bert模型中,得到每一文本段落的embedding矩阵,其中,所述文本段落的embedding的矩阵包含各个分词的embedding向量;
36.s202、将每一文本段落的embedding矩阵输入至前馈神经网络中,得到每一类事件的分类概率;
37.s203、将每一所述事件的分类概率分别与预设的事件概率阈值进行比较,若所述事件的分类概率大于预设的事件概率阈值,则判定所述新闻文本出现了对应类型的事件,反之则没有出现对应类型的事件。
38.在本实施例中,步骤s202中的前馈神经网络即所述步骤s201中的bert模型中的一部分,embedding在神经网络中是用于在embedding空间中查找最近邻、作为监督性学习任务的输入、用于可视化不同离散变量之间的关系。
39.本实施例用例子一进行辅助阐述本技术的分析方法,例子一新闻文本具体内容为:“2019年9月4日,a集团有限公司将152万股进行质押,本次质押占b汽车的总股比的0.08%,目前b汽车的累计质押股份已达到43.2%。继2019年亏损111.9亿元之后,2021年1月29日,b汽车发布2020年度业绩预告:归属于上市公司股东的净利润亏损越60亿元-90亿元,归属于上市公司股东的净资产为-1.8亿元至-31.8亿元之间。同时今年6月,公司法人c被d中级人民法院限制高消费”。
40.首先,利用语言表征模型对例子一所述的新闻文本进行中文的分词,分词后得到三段文本段落,分别为“2019年9月4日,a集团有限公司将152万股进行质押,本次质押占b汽车的总股比的0.08%,目前b汽车的累计质押股份已达到43.2%。”、“继2019年亏损111.9亿元之后,2021年1月29日,b汽车发布2020年度业绩预告:归属于上市公司股东的净利润亏损越60亿元-90亿元,归属于上市公司股东的净资产为-1.8亿元至-31.8亿元之间。”、“同时今年6月,公司法人c被d中级人民法院限制高消费”。”41.将上述三个文本段落分别输入至bert模型(bidirectionalencoder representations from transformer)进行计算,最后得到每一类事件的分类概率,在例子一中,将事件概率阈值设为0.5,只要通过bert模型得到的事件分类概率超过0.5,则判定例子一种出现了对应类型的事件,所以例子一分别得到三种类型的事件,事件一:“新增质押”事件、事件二:“亏损”事件、事件三:“限制消费”事件。
42.在所述步骤s102中,需要说明的是命名实体识别方法即ner(named entity recognition)方法,其中,命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。ner系统就是从非结构化的文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。
43.以例子一为例,通过ner方法得到的事件论元为:“新增质押-出质人”:“a集团有限公司”、“新增质押-质押物”:“152万股”、“新增质押-质押物所属公司”:“b汽车”、“亏损-企业名称”:“b汽车”、“亏损-事件时间”:“2019年”、“亏损-亏损规模”:“111.9亿元”、“亏损-事件时间”:“2020年”、“亏损-亏损规模”:“60亿元~90亿元”、“限制消费-事件时间”:“今年6月”、“限制消费-涉及人物”:“c”、“限制消费-执行法院”:“d中级人民法院”。
44.在本实施例中,所述步骤s103,包括:
45.s301、基于预先设置的码表,将相同类型的事件进行归类;
46.s302、基于预先设置的码表,将归类为同一事件下的事件论元进行组装。
47.在本实施例中,需要说明的是,码表是预先定义好的,且码表明确定义了事件类型以及事件下的事件论元属性,用户可以根据码表进行具体属性和数值的配制,在判定新闻文本出现了对应类型的事件之后,根据码表中的定义信息,将相同类型的事件进行归类,并将归类为同一事件下的事件论元进行组装,在例子一中由于三个文本段落分别包含不同的事件,但在其他的新闻文本中,可能出现更多的文本段落,而且有几个文本段落中阐述的事件为同一类型,例如假设同一新闻文本中有两个文本段落经过bert模型的分类得出两者为同一类型的事件,且码表中有明确定义了该事件的属性,则将这两个事件归于同一类,通过这种方式,能够减少输出的结构化事件信息,进而减少用户反复看到具有相同事件的内容的情况。
48.在本实施例中,所述步骤s302,包括:
49.s401、若同一事件下的事件论元只有一个,则直接组装成一个事件;
50.s402、若同一事件下的事件论元有多个,则将重复的事件论元按照预设的文本距离拆分成多个事件。
51.以例子一举例,如果相同类型事件的事件论元都只有一个,则直接组装为一个事件,如“限制消费”和“新增质押”事件;如果相同类型事件的事件论元有多个,则将其重复的论元按文本距离拆分成至多个事件,如亏损事件,此时会输出两个事件:{企业名称:b汽车,“亏损-事件时间”:“2019年”,“亏损-亏损规模”:“111.9亿元”}、{企业名称:b汽车,亏损规模:60亿元~90亿元,事件时间:2020年}。
52.在具体一实施例中,所述步骤s104,包括:
53.s501、根据输入的监控实体,判断是否命中匹配组装后的所述结构化信息,若所述监控实体中的配置指令命中匹配组装后的所述结构化信息,则给予命中的所述结构化信息第一权重,反之则给予命中的所述结构化信息第二权重,并输出对应的正负面评分,其中,所述第一权重大于所述第二权重。
54.以例子一为例,假设码表中定义有亏损事件“亏损”:{“企业名称”,“亏损规模”,“事件时间”},则用户输入的监控实体可配置成“亏损规模大于50亿元”或“事件时间在2020年后”,即根据用户的需要配置关注的事件类型、实体名称、各事件论元的具体数值等。又比
如用户还可配置关注的企业名单为“b汽车”或“a集团有限公司”,关注的人物名单如“c”,通过用户输入的监控实体,使得涉及上述的公司和人物会被定时爬取解析,再通过输入的监控实体与得到的结构化信息进行比较,判断出监控实体中的配置指令是否命中匹配组装后的所述结构化信息,需要说明的是,本技术中的评分模型也为bert模型,在该bert评分模型中,输出的正负面评分即能代表用户的关心程度,假设公司a对于公司经营类事件比较关注,如“亏损”事件,则给“亏损”事件更大的权重,另外两类事件的权重较小,此时该条新闻的正负面评分为-1,如公司b对司法类和财务类事件比较关注,则“限制消费”和“新增质押”的权重更大,此时该条新闻的正负面评分为-2。
55.在具体一实施例中,所述步骤s402之后,包括:
56.s601、将拆分后的所有事件按照文本顺序排列得到第一顺位事件、第二顺位事件、第三顺位事件、

、第x顺位事件;
57.s602、将第二顺位事件的所有事件论元与第一顺位的所有事件论元对应进行匹配,若第二顺位事件的所有事件论元均与第一顺位的所有事件论元对应匹配成功,则将第二顺位事件标记为第一类标记事件,若第二顺位事件的所有事件论元与第一顺位的所有事件论言对应匹配失败,则将第二顺位事件标记为第二类标记事件;
58.s603、将第三顺位事件的所有事件论元与第一顺位的所有事件论元对应进行匹配,若第三顺位事件的所有事件论元均与第一顺位的所有事件论元对应匹配成功,则将第三顺位事件标记为第一类标记事件,若第三顺位事件的所有事件论元与第一顺位的所有事件论言对应匹配失败,则将第三顺位事件的所有事件论元与第二顺位事件的所有事件论元对应进行匹配,若第三顺位事件的所有事件论元与第二顺位事件的所有事件论元对应匹配成功,则将第三顺位事件标记为第一类标记事件,若第三顺位事件的所有事件论元与第二顺位事件的所有事件论元对应匹配失败,则将第三顺位事件标记为第二类标记事件;
59.s604、遍历匹配拆分后的所有的顺位事件,将标记为第一类标记事件的顺位事件进行删除。
60.在本实施例中,需要说明的是,第x顺位事件即通过所述步骤s402拆分后的不同的事件的总数;其中,通过后一顺位事件分别与所有前面的顺位事件进行匹配,能够判断出新闻文本中是否具有重复内容的顺位事件,若是有,则将重复的顺位事件进行删除,进而方便用户查看新闻文本,同时,将重复的顺位事件进行删除后,使得后续评分模型的评分更加准确。假设新闻文本中重复引用了相同的事件,即两个事件描述的内容的相同的,若是不对其中一个事件进行删除,则会导致该事件占全部事件的分量不同,而且会增加评分模型的评分时。
61.本技术中的分析方法可定向抽取用户关心的事件类型,方便用户对新闻文本的内容进行了解;对解析的事件用户可自行配置,并且同一个事件不同的用户可以根据自己的配置得到不同的评分;解析信息的知识化,本技术将新闻文本的信息拆分成了不同的事件,更符合新闻文本真实的风格,能更好的梳理出文本中复杂的信息。
62.本发明实施例还提供一种基于事件抽取的舆情分析装置,该基于事件抽取的舆情分析装置用于执行前述基于事件抽取的舆情分析方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于事件抽取的舆情分析装置的示意性框图。
63.如图3所示,基于事件抽取的舆情分析装置700,包括:
64.提取单元701,用于利用语言表征模型对新闻文本进行文本特征提取,并对提取的文本特征进行多分类,得到不同类型的事件;
65.抽取单元702,用于利用命名实体识别方法抽取每一所述事件的论元信息,得到事件论元;
66.匹配组装单元703,用于将所述事件与所述事件论元进行匹配组装,得到结构化事件信息;
67.评分单元704,用于按预设的配制规则的配制信息对预训练的评分模型进行参数化初始化,利用所述评分模型对所述结构化事件信息进行打分,得到对应的正负面评分。
68.该装置可定向抽取用户关心的事件类型,方便用户对新闻文本的内容进行了解;对解析的事件用户可自行配置,并且同一个事件不同的用户可以根据自己的配置得到不同的评分;解析信息的知识化,本技术将新闻文本的信息拆分成了不同的事件,更符合新闻文本真实的风格,能更好的梳理出文本中复杂的信息。
69.具体一实施例中,所述匹配组装单元703包括:
70.匹配单元801,用于基于预先设置的码表,将相同类型的事件进行归类;
71.组装单元802,用于基于预先设置的码表,将归类为同一事件下的事件论元进行组装。
72.通过这种方式,能够减少结构化事件信息,进而减少用户反复看到具有相同事件的内容的情况。
73.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
74.上述基于事件抽取的舆情分析装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
75.请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备1100是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
76.参阅图4,该计算机设备1100包括通过系统总线1101连接的处理器1102、存储器和网络接口1105,其中,存储器可以包括非易失性存储介质1103和内存储器1104。
77.该非易失性存储介质1103可存储操作系统11031和计算机程序11032。该计算机程序11032被执行时,可使得处理器1102执行基于事件抽取的舆情分析方法。
78.该处理器1102用于提供计算和控制能力,支撑整个计算机设备1100的运行。
79.该内存储器1104为非易失性存储介质1103中的计算机程序11032的运行提供环境,该计算机程序11032被处理器1102执行时,可使得处理器1102执行基于事件抽取的舆情分析方法。
80.该网络接口1105用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备1100的限定,具体的计算机设备1100可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
81.本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存
储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
82.应当理解,在本发明实施例中,处理器1102可以是中央处理单元(central processing unit,cpu),该处理器1102还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
83.在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的基于事件抽取的舆情分析方法。
84.所述存储介质为实体的、非瞬时性的存储介质,例如可以是u盘、移动硬盘、只读存储器(read-only memory,rom)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
85.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
86.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1