一种基于文本结构的文本分析方法、系统、设备和介质

文档序号:30387812发布日期:2022-06-11 11:55阅读:130来源:国知局
一种基于文本结构的文本分析方法、系统、设备和介质

1.本发明涉及数据挖掘领域,具体涉及文本分析领域,特别是涉及一种基于文本结构的文本分析方法、系统、设备和介质。


背景技术:

2.利用各类公开信息进行数据挖掘一直以来都是自然语言处理领域研究发展的重要方向。但是从作者撰写的公开文本到最终的预测结果,其中长篇幅文章的处理复杂性、作者撰写时的主观随意性都给预测的准确性带来了巨大挑战。项目前期的考察表明,不考虑长篇幅文章的组织结构,直接对长文本内容建模,得到的预测结果并非理想的解决方法。这类思路的有些方法尽管取得了一些看似比较理想的预测准确性,但其算法忽略了长文本的组织结构,只考虑文本内容,在结果的可解释性上难以服众。
3.相较于用户评论等短文本数据,长文本的篇幅大大增加,处理的复杂度、困难度也随之增加。在短文本建模处理中表现优秀的模型,在长文本处理中往往表现平平,有的“抓不住要点”,有的算法复杂度太高、耗时耗力。
4.目前有许多工作研究如何设计更好的模型以高效、恰当地处理长文本数据,下面分别介绍:
5.基于长短期记忆算法(long short-term memory)的改造模型在机器阅读领域取得了不错成绩,如长短期记忆神经网络(cheng等,2016)。多时间尺度长短时记忆神经网络(multi-timescale long short-term memory neural network,liu等,2015)是长文本建模领域的先驱,该模型不仅解决了lstm模型处理长文本效率很低的缺陷,而且还能捕捉到文本中相隔较远的词语间的联系,是对lstm在长文本机器阅读领域的优秀改造。但是该模型结构简单,只能依照文本词汇的前后顺序学习,缺乏对文本结构化理解的能力。
6.文本卷积神经网络(text convolutional neural networks,kim,2014)是对cnn在文本领域的改造,使之能够处理不定长的文本数据,在数据集上取得了很好的效果,从结构上也可以看作动态卷积神经网络(dynamic convolutional neural networks,kalchbrenner等,2014)的简化版本。但是这样的模型结构依然忽视了文章作者写作时划分的段落层次,不能很好地理解文本。
7.注意力机制在长文本机器阅读领域也有着巨大的贡献。分级注意网络(hierarchical attention networks,yang等,2016)关注长文本的结构属性,将文章分为:文章、句、词三个等级,在每一句中着重关注权重最高的词,再在文章层面着重关注权重高的句子,从而完成机器对文章的理解。这种方法从思路上非常接近人类阅读的习惯,具有极强的可解释性。这种模型结构的缺点是:没有在应用场景下展示出其优越性,也就是说,尽管它做到了基于文本结构的理解,但是并没有找到很好的应用场景来表现这种基于文本结构理解的优势。
8.自google于2018年提出bert以来,其在文本处理领域的强悍有目共睹。在长文本机器阅读领域的各式改造版本也应运而生。自适应注意网络(sukhbaatar等,2019)改造了
bert模型(devlin等,2018)计算全局自注意力的缺陷,改为学习一定窗口跨度内的,大大节约了算力。但是,这一模型再度忽视了文本结构,人为指定的窗口跨度依然生硬地切割文本,造成理解的偏差。
9.长文本transformer(longformer,beltagy等,2020)继续改造bert中的注意力机制,先后使用滑窗机制、空洞滑窗机制、融合全局信息的滑窗机制,大幅降低了自注意力机制的计算量和内存消耗,且取得了不错的效果。但是这一模型对文本结构的重视依然不够,对高度结构化的文章,模型的表现依然不尽理想。


技术实现要素:

10.针对传统长文本机器阅读忽视文本结构的问题,本发明的目的是提供一种基于文本结构的文本分析方法、系统、设备和介质,通过挖掘文本结构中蕴含的信息,结合文本内容进行预测,能够有效提高预测精度。
11.为实现上述目的,本发明采取以下技术方案:
12.第一方面,本发明提供一种基于文本结构的文本分析方法,其包括以下步骤:
13.对获取的待分析文本进行解析,得到其文本结构;
14.分别对待分析文本的各文本结构进行机器阅读,得到各文本结构所对应的嵌入向量;
15.将得到的各嵌入向量进行融合,得到融合的文章嵌入向量;
16.基于融合得到的文章嵌入向量以及预先构件的预测网络模型,得到文本分析结果。
17.进一步,所述对待分析文本进行解析,得到其文本结构的方法,包括:
18.从网站上爬取待分析文本的原始html文件;
19.遍历原始html文件的每个节点;
20.判断原始html文件中是否有《a-sum》标签,如果有则将《a-sum》标签下面的内容作为文章的摘要;
21.再判断原始html文件是否具有《header》标签,如果有则将《header》标签下面的内容作为段落标题,否则将单独成一行的加粗内容作为段落标题;
22.提取段落标题下的文本内容作为段落内容;
23.将段落标题和段落内容按顺序编号,得到段落标题及与其匹配的段落内容。
24.进一步,所述对待分析文本的各文本结构进行机器阅读的方法,包括:
25.将得到的摘要部分输入预先构建的第一transformer网络,得到摘要的嵌入向量;
26.将各段落标题分别输入预先构建的第二transformer网络,得到各段落标题的嵌入向量;
27.将各段落标题对应的段落内容分别输入到预先构建的longformer网络,得到段落内容对应的嵌入向量。
28.进一步,所述将得到的各嵌入向量进行融合,得到融合的文章嵌入向量的方法,包括:
29.将段落标题与对应的段落内容的嵌入向量进行融合,得到段落嵌入向量;
30.将各段落嵌入向量进行融合,得到文章内容嵌入向量;
31.将摘要嵌入向量与文章内容嵌入向量进行融合,得到整个待分析文本的文章向量。
32.进一步,所述将段落标题与对应的段落内容的嵌入向量进行融合的方法,包括:
33.将段落标题的嵌入向量与段落内容的嵌入向量对位取平均数完成融合,得到段落嵌入向量。
34.进一步,所述将各段落嵌入向量进行融合,得到文章内容嵌入向量的方法,包括:
35.对各段落嵌入向量进行融合时,将各段落嵌入向量对位取平均值完成融合,得到文章内容嵌入向量。
36.进一步,所述基于融合得到的文章嵌入向量得到文本分析结果的方法,包括:
37.将所有待分析文本的文章嵌入向量进行批归一化;
38.将批归一化后的文章嵌入向量输入单层神经网络中降维,通过softmax算法得到三种潜在分类结果中概率最高的分类结果。
39.第二方面,本发明提供一种基于文本结构的文本分析系统,该系统包括:
40.文本解析模块,用于对获取的待分析文本进行解析,得到其文本结构;
41.文本阅读模块,用于分别对待分析文本的各文本结构进行机器阅读,得到各文本结构所对应的嵌入向量;
42.向量融合模块,用于将得到的各嵌入向量进行融合,得到融合的文章嵌入向量;
43.预测模块,用于基于融合得到的文章嵌入向量得到文本分析结果。
44.第三方面,本发明提供一种处理设备,所述处理设备至少包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器运行所述计算机程序时执行以实现所述基于文本结构的文本分析方法的步骤。
45.第四方面,本发明提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现所述基于文本结构的文本分析方法的步骤。
46.本发明由于采取以上技术方案,其具有以下优点:
47.1、文章结构的充分利用。本发明考虑了文章结构对于机器理解的重要意义。传统的机器阅读方法往往平等看待所有单词,只是通过注意力机制加强某个词汇的表示,并没有站在文章结构的高度进行阅读。本发明提出的方法充分考虑了分析文章的特有结构,依照摘要-段落{段落标题-段落内容}的结构进行解析,使模型具有了分结构阅读的能力。
48.2、段落标题与段落内容的注意力交互。本发明在longformer的基础上,结合分析文章的应用实际,对滑窗注意力机制进一步优化,用段落标题的语义强化对段落内容的语义表示。这种注意力交互方法既大大减少了transformer的自注意力机制对算力、内存的消耗,同时兼顾了实际的应用场景,提升了longformer机器阅读的能力。
49.因此,本发明可以广泛应用于文本分析领域。
附图说明
50.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在整个附图中,用相同的附图标记表示相同的部件。在附图中:
51.图1是本发明与传统方法的对比示意图;
52.图2是本发明的基于文本结构的文本分析方法流程图;
53.图3是本发明的总体研究方案;
54.图4是本发明的文章结构解析流程图;
55.图5是本发明的各结构机器阅读流程图;
56.图6是本发明的各结构向量融合流程图;
57.图7是本发明实施例中的股票涨跌预测流程图。
具体实施方式
58.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
59.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
60.本发明通过分析后发现:在分析类文章的开头部分中,常见作者总结、归纳自己的观点,作为总结或摘要,以期概括本文中心思想并节约读者时间。这是非常重要的文本结构信息和内容信息,在对这类分析文章进行机器阅读时,自然需要将这部分内容予以考虑。因此,本发明通过单独提取该部分内容作为独立的向量再与其他部分提取出的向量进行融合,能比当前其他未提取该部分内容的预测方法具有更高的可解释性。
61.同时,立足于文本结构,本发明还观察到许多作者具有撰写段落标题的写作习惯,段落标题往往体现了作者谋篇布局的框架和行文写作的思路,是全文的“骨干”。虽然其字数较少,却往往承担了关键词、主题词的作用,重要性不言而喻。而段落标题后面的段落内容是围绕标题展开的一系列论证阐述,起到加强标题态度的作用,是全文的“血肉”。对于二者间的映射关系,传统的机器阅读方法将其视为平等的关系,并不能很好地学习到二者的主从结构,进而对文章的结构缺乏洞见,如果再基于这一带有缺陷的学习结果进行预测,其结果自然难堪大任。因此,本发明利用段落标题的独特格式特征,将其独立识别为“标题”,再将标题与标题后的段落内容进行捆绑,实现段落标题与段落内容的一一对应,从而为机器阅读长文本提供可行的学习结构。以解决长久以来机器阅读无法有效学习长文本信息的难点。
62.对于一篇长文本,前两条方法保证了对文本每个局部结构的机器阅读,而对于文章整体,需要宏观整体的分析各结构之间的联系,再进一步学习。为此,本发明设计了一个融合学习方法,使得模型最终结果不仅包括了每个局部的信息,还涵盖了局部之间的关联的信息。
63.根据以上分析,如图1所示,本发明在一些实施例中,提供了一种基于文本结构的文本分析方法,主要由对文章总结或摘要内容的深度学习方法、对段落标题及段落内容的深度学习方法、段落标题与段落内容向量的融合以及摘要向量与各段落向量的融合构成。通过提取待分析文本的文章结构,针对摘要或总结、段落标题、段落内容等不同位置的内容
分别进行建模提取嵌入向量,再将提取的嵌入向量进行融合用于预测。本发明能够充分利用文章内部固有的段落结构特性,同时兼顾对文章内容的建模分析,使得算法比以往各类方法都具有更强的可解释性,预测表现也获得了不小提升。
64.与之相对应地,本发明的另一些实施例中,提供一种基于文本结构的文本分析系统、设备和介质。
65.实施例1
66.如图2、图3所示,本实施例提供一种基于文本结构的文本分析方法,包括文章的结构解析过程和各结构的阅读过程,其中,文章的结构解析过程包括:摘要、段落标题的识别与段落标题及其附属内容的绑定;各结构的阅读过程包括:摘要的机器阅读、段落标题的机器阅读、段落内容的机器阅读、段落标题与段落内容向量的融合以及段落向量与摘要向量的融合,实现出一套通用的分析文章的机器阅读方法。具体的,包括以下步骤:
67.1)对获取的待分析文本进行解析,得到其文本结构;
68.2)分别对待分析文本的各文本结构进行机器阅读,得到各文本结构所对应的嵌入向量;
69.3)将得到的各嵌入向量进行融合,得到融合的文章嵌入向量;
70.4)基于融合得到的文章嵌入向量以及预先构建的预测模型,得到文本分析结果。
71.在一些实现中,上述步骤1)中,本实施例对获取的待分析文本进行解析后,得到的文本结构主要包括摘要或总结、段落标题及与其匹配的段落内容。
72.进一步地,如图4所示,本实施例中对待分析文本进行解析的方法,包括以下步骤:
73.1.1)从网站上爬取待分析文本的原始html文件;
74.1.2)遍历原始html文件的每个节点;
75.1.3)判断原始html文件中是否有《a-sum》标签(《a-sum》为html中指示浏览器显示为摘要的字段),如果有则将《a-sum》标签下面的内容作为文章的摘要;
76.其中,如果摘要中出现网址链接,这是作者在摘要中的广告,与文章内容无关,予以滤去;
77.1.4)判断原始html文件中是否具有正常的《header》标签(即html文件中指示浏览器显示为标题的字段),如果有则将《header》标签下面的内容作为段落标题,否则将单独成一行的加粗内容作为段落标题;
78.特别地,当《header》标签下面的内容或单行加粗的内容中有图片时,则过滤掉图片标题,仅保留文字部分作为段落标题;
79.1.5)提取段落标题下的文本内容作为段落内容;
80.其中,当段落标题下存在图片、有序列表、无序列表等非文本内容时,过滤掉该非文本内容,同时过滤掉免责声明等其他无意义非文本内容;
81.1.6)将段落标题和段落内容按顺序编号,得到段落标题及与其匹配的段落内容。
82.其中,将段落标题和段落内容按顺序编号,是为了通过标题或内容的序号实现了二者的捆绑和定位。例如:header_1,para_1,header_2,para_2,
……
。如果某文章开头即是内容,没有与之匹配的段落标题,则跳过这个标题,整篇文章的段落标题和内容记为para_1,header_2,para_2,
……

83.进一步地,如图2所示,上述步骤2)中,对待分析文本的各文本结构进行机器阅读
的方法,具体包括以下步骤:
84.2.1)将得到的摘要部分输入预先构建的第一transformer网络,得到摘要的嵌入向量。
85.优选地,本实施例中,第一transformer网络只使用encoder部分,其注意力头设置为6、词向量长度设置为512。对于整个摘要部分,采用第一transformer网络计算出所有单词的向量表示后,取各向量表示的算数平均数,作为摘要部分机器阅读的嵌入向量。
86.具体地,本实施例中,使用transformer网络的encoder层,该encoder层包括若干block单元,每一block单元均包括自注意力模块和前馈网络模块。其中,自注意力模块是一个通过词序列中其他词的向量修正某一个词的向量的算法模块。更具体地,输入block单元的各个词的向量序列会先与注意力头(一套参数矩阵)作积,得到该注意力头对应的q矩阵、k矩阵和v矩阵,再通过q矩阵与k矩阵的乘积与归一化,将结果与v矩阵数乘加和,得到该注意力头对应的词向量z。重复上述步骤,用不同的注意力头,得到不同的词向量z,将其与归一化后的结果加和、堆叠,作为结果输出至后面的前馈网络模块。在前馈网络模块中,其输入是上一步自注意力模块中输出的堆叠而成的z矩阵,将其通过两层线性层的全连接网络,输出更复杂的拟合结果。
87.在整个transformer网络的计算过程中,首先输入网络的是根据词向量表将由词序列构成的文章转化为由词向量构成的向量序列,这个序列进入第一个encoder层的自注意力模块,经多个注意力头学习,得到前后序列修正后的向量序列,再通过前馈网络模块,进一步拟合。接着,前馈网络的拟合结果输入下一个block层,重复前面的步骤若干次,得到文本最终的向量表示。
88.这个模型优势在于能够通过词的上下文文本增强词的语义信息,这种增强正是通过encoder层的词向量表示出来的。
89.2.2)将各段落标题分别输入预先构建的第二transformer网络,得到各段落标题的嵌入向量。
90.优选地,本实施例中,第二transformer网络的注意力头设置为2,为减少算力消耗,其他参数与第一transformer网络相同。
91.2.3)将各段落标题对应的段落内容分别输入到预先构建的longformer网络,得到段落内容对应的嵌入向量。
92.优选地,本实施例中,采用longformer网络对各段落标题所匹配的段落内容进行机器阅读。在longformer注意力机制的基础上,增加对段落标题词向量的注意力计算。具体操作方面,本实施例先得到段落内容部分每个单词的向量表示,再取平均值作为段落内容部分的嵌入向量。
93.具体地,longformer网络结果是对前文transformer网络结构的优化。longformer对encoder层有所修改,每个encoder层包括若干block单元,每一block单元均包括滑动注意力模块和前馈网络模块。
94.其中,滑动注意力模块是longformer对transformer的重大改进。它不再全盘考虑整个词序列,而只计算一个窗口内的词向量,用其修正某一个词的向量,大大降低了计算负荷。更具体地,输入block的各个词的向量序列会先按滑动注意力模块的窗口长度切分,在窗口内部的词向量与注意力头(一套参数矩阵)作积,得到该注意力头对应的q矩阵、k矩阵
和v矩阵,窗口外部的词向量不参与计算。再通过q与k的乘积与归一化,将结果与v矩阵数乘加和,得到该注意力头对应的词向量z。重复上述步骤,用不同的注意力头,得到不同的词向量z,将其与归一化后的结果加和、堆叠,作为结果输出至后面的前馈网络模块。
95.在前馈网络模块中,输入的是上一步自注意力模块中输出的堆叠而成的z矩阵,将其通过两层线性层的全连接网络,输出更复杂的拟合结果。
96.在整个longformerr网络的计算过程中,首先输入网络的是根据词向量表将由词序列构成的文章转化为由词向量构成的向量序列,这个序列进入第一个encoder层的滑动注意力模块,根据窗口长度切分、再经多个注意力头学习,得到前后序列修正后的向量序列,再通过前馈网络模块,进一步拟合。接着,前馈网络的拟合结果输入下一个block层,重复前面的步骤若干次,得到文本最终的向量表示。
97.进一步地,上述步骤3)中,具体包括以下步骤:
98.3.1)将段落标题与对应的段落内容的嵌入向量进行融合,得到段落嵌入向量;
99.其中,将段落标题与对应的段落内容的嵌入向量进行融合时,直接将段落标题的嵌入向量与段落内容的嵌入向量对位取平均数完成融合,而不在一维嵌入生成多行的段落内容向量。
100.3.2)将各段落嵌入向量进行融合,得到文章内容嵌入向量;
101.其中,对各段落嵌入向量进行融合时,将各段落嵌入向量对位取平均值完成融合,得到文章内容嵌入向量。
102.3.3)将摘要嵌入向量与文章内容嵌入向量进行融合,得到整个待分析文本的文章向量。
103.其中,对摘要嵌入向量与文章内容嵌入向量进行融合时,将文章内容嵌入向量与摘要嵌入向量直接叠摞为两层,生成的两行向量即为整个待分析文本的文章嵌入向量。
104.进一步地,上述步骤4)中,具体包括以下步骤:
105.4.1)将所有待分析文本的文章嵌入向量进行批归一化;
106.4.2)将批归一化后的文章嵌入向量输入单层神经网络中降维,通过softmax算法得到文章嵌入向量的所属分类结果。
107.实施例2
108.本实施例以美国股票分析网站seekingalpha.com中analysis模块属于标准普尔500企业、撰写日期在2018-2019年的全部股票分析文章为例进行介绍。需要说明的是,因数据来源具有独特性,不同数据来源的文章,其结构解析细节一定有所不同,本节意在强调的是文章结构解析的流程。下文相关实操的细节均是为了具体阐释这一流程而设。当数据来源有所变化时,需根据来源的具体情况做出必要的修改。
109.1)文章结构的解析
110.如图4所示,解析主要分为三个步骤:解析摘要、解析段落标题、捆绑段落标题及其下属段落内容。
111.解析摘要。经过观察,网站中股票分析文章的摘要部分,均由名为“sasource”的class标注,故以“sasource”为关键词,定位出摘要所在位置。另外,很多分析师会在摘要中留下自己的推特链接为团队引流,这类信息对于股票分析自然毫无用处,在解析时必须滤去。
112.解析段落标题。网站为撰写股票分析文章的分析师提供了标准的段落标题格式,在html中表示为“《h2》”或“《h3》”。如果分析师遵照这一格式撰写格式规范的分析文章,其段落标题在网页中就应该以“《h2》”或“《h3》”引导显示。但事实上,仅有少数分析师的文章表现如此。一部分文章中,作者将空格、图片等内容错误地刷上了标题格式,导致“《h2》”或“《h3》”引导的并非真正的段落标题,对于这种情况,需要去掉其段落标题的格式。一部分文章中,作者用另一种错误的格式替代了正确的段落标题格式,导致作者真正想表现的段落标题并没有以“《h2》”或“《h3》”引导,而以加粗(html文件中以“《b》”引导)、强调文本(html文件中以“《em》”引导)、斜体(html文件中以“《i》”引导)或项目符号(html文件中以“《ul》”或“《ol》”引导)表示,对这类真正但没有正确表示的段落标题,代码需要检查其上下文的统属关系,确认其段落标题的地位。本实施例在文章结构的解析阶段期望把所有文章都解析为:{摘要,{段落标题1,段落内容1},
……
,{段落标题n,段落内容n}}的样式。在上一步实现对文章段落标题的精准解析后,段落内容的确认似乎只需把相邻两个段落标题间的文字划为上一个段落标题的段落内容即可。但事实并非如此。一部分文章中,在摘要之后直接开始叙述背景,造成“段落标题1”的缺失,对于这种情况,本发明的文章结构解析阶段直接跳过“段落标题1”,从而使得这类文章被解析为{摘要,{段落标题1(空的),段落内容1},
……
,{段落标题n,段落内容n}}。一部分文章中,段落标题之后只有一张图。而在解析时,只爬取文本的python程序并不会将图片爬取下来,这就造成两个段落标题相邻的状况,对于这种情况,本发明的文章结构解析阶段将图片所在的段落内容赋为空,从而使得这类文章被解析为{摘要,{段落标题1,段落内容1},
……
,{段落标题i,段落内容i(空的)},{段落标题i+1,段落内容i+1}
……
,{段落标题n,段落内容n}}。
113.2)各结构的机器阅读
114.如图5所示,将文章按第一阶段的过程完成解析后,就要进行各部分的机器阅读工作。本发明将文章内容分为了三个部分,每个部分都使用了适应自身情况的机器阅读算法,详细说明如下:
115.摘要部分的机器阅读。前文提到过,摘要部分篇幅不长,属于机器阅读领域的短文本阅读。本实施例对应使用了领域内主流的短文本阅读算法—transformer,对其进行机器阅读。本实施例transformer的超参数,注意力头设置为6、词向量长度为512等,只使用transformer中的encoder部分,得到加强后的每个单词的向量表示。对于整个摘要部分,计算出所有单词向量表示后,简单取算数平均数,得到摘要部分机器阅读的嵌入向量。
116.段落标题部分的机器阅读。如前文所言,段落标题部分往往只有不到十个单词,属于短文本阅读。本发明针对这一部分的机器阅读方法也为transformer,但在注意力头设置方面设为2,减少算力消耗,其他超参数与第一部分相同。
117.段落内容部分的机器阅读。如前文所言,段落内容部分属于长文本,对应的机器阅读方法采用longformer。transformer中自注意力机制要求计算目标词与全文所有单词的语义关联,这在动辄篇幅数千词的长文本机器阅读中引起的计算代价是无法想象的。因此,longformer改进了自注意力机制计算量大的这一缺陷,设计了多种新颖的注意力计算方法(如:注意力滑窗、间隔注意力滑窗、融合全局的注意力滑窗等),使注意力的计算代价降至可接受范围内。以longformer的注意力算法预训练另一长文本阅读算法roberta(liu等,2019)后,使得roberta取得了更为优异的结果。由此可见,longformer在长文本机器阅读领
域足以胜任。但由于本发明特有的应用情景使得我们必须考虑段落内容与段落标题的关联,故在longformer注意力机制的基础上,增加对段落标题词向量的注意力计算。具体操作方面,本发明参考了longformer原始论文的超参数设置,得到段落内容部分每个单词的向量表示,再取平均值作为段落内容部分的嵌入向量。
118.3)各结构向量的融合
119.如图6所示,本发明所指的向量的融合,包括:段落标题与对应段落内容向量的融合、摘要向量与各段落向量的融合。
120.段落标题与对应段落内容向量的融合。由于在各部分机器阅读的步骤中,生成段落内容向量时已经通过注意力机制充分考虑了段落标题向量,故在段落向量生成时,直接将段落标题向量与段落内容向量对位取平均数完成融合,而不在一维嵌入生成多行的段落内容向量。
121.摘要向量与各段落向量的融合。这步是生成文章向量的最后一步。在这一步中,本实施例先将各段落向量求平均值得到文章内容向量,再将其与摘要向量直接叠摞为两层而不进行任何运算,生成的两行的向量即为整篇股票分析文章的文章嵌入向量。
122.4)股票涨跌的预测
123.如图7所示,在并行化处理得到多篇股票分析文章的文章嵌入向量后,进行批归一化(batch normalization),再放入单层神经网络中,通过softmax算法得到最终预测的涨跌分类。
124.在本实施例中,涨跌的分类是三分类问题。在真实值上,如果涨跌不超过0.05%本实施例视为不涨不跌(即0),涨幅超过0.05%视为涨(即1),跌幅超过0.05%视为跌(即-1)。本实施例爬取了标准普尔500企业在股票分析文章发布后15天、30天、90天、180天的涨跌结果作为真实值,以期考察本发明算法在不同时间维度的预测效果。
125.实施例3
126.上述实施例1提供了一种基于文本结构的文本分析方法,与之相对应地,本实施例提供一种基于文本结构的文本分析系统。本实施例提供的系统可以实施实施例1的一种基于文本结构的文本分析方法,该分析系统可以通过软件、硬件或软硬结合的方式来实现。例如,该系统可以包括集成的或分开的功能模块或功能单元来执行实施例1各方法中的对应步骤。由于本实施例的识别系统基本相似于方法实施例,所以本实施例描述过程比较简单,相关之处可以参见实施例1的部分说明即可,本实施例的系统的实施例仅仅是示意性的。
127.本实施例提供的一种基于文本结构的文本分析系统,包括:
128.文本解析模块,用于对获取的待分析文本进行解析,得到其文本结构;
129.文本阅读模块,用于分别对待分析文本的各文本结构进行机器阅读,得到各文本结构所对应的嵌入向量;
130.向量融合模块,用于将得到的各嵌入向量进行融合,得到融合的文章嵌入向量;
131.预测模块,用于基于融合得到的文章嵌入向量得到文本分析结果。
132.实施例4
133.本实施例提供一种与本实施例1所提供的一种基于文本结构的文本分析方法对应的处理设备,处理设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行实施例1的方法。
134.所述处理设备包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,以完成相互间的通信。存储器中存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行本实施例1所提供的一种基于文本结构的文本分析方法。
135.在一些实现中,存储器可以是高速随机存取存储器(ram:random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
136.在另一些实现中,处理器可以为中央处理器(cpu)、数字信号处理器(dsp)等各种类型通用处理器,在此不做限定。
137.实施例5
138.本实施例1的一种基于文本结构的文本分析方法可被具体实现为一种计算机程序产品,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本实施例1所述的一种基于文本结构的文本分析方法的计算机可读程序指令。
139.计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
140.需要说明的是,附图中的流程图和框图显示了根据本技术的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
141.最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
142.上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1