本技术涉及人工智能以及自然语言处理,具体涉及一种金融文本信息的识别方法及装置。
背景技术:
1、在目前文本生成技术日渐成熟的情况下,文本生成模型极有可能被用于生成虚假金融信息来扰乱当前金融市场。银行从业人员以及相关的客户极有可能受到虚假信息的影响,从而导致对于目前金融市场情况的误判。目前人工识别培训成本高昂、识别效率和准确率低下。
技术实现思路
1、针对现有技术中的问题,本技术实施例提供一种金融文本信息的识别方法及装置,能够至少部分地解决现有技术中存在的问题。
2、一方面,本技术实施例提供一种金融文本信息的识别方法,包括:
3、获取金融文本信息识别请求,其中,所述请求中包括待识别的金融文本信息;
4、根据所述待识别的金融文本信息,生成输入特征;
5、将所述输入特征输入训练好的金融文本信息识别模型,得到所述金融文本信息识别模型输出的所述金融文本信息的类型,所述类型包括虚假生成信息或真实信息。
6、在一些实施例中,所述根据所述待识别的金融文本信息,生成输入特征包括:
7、对所述金融文本信息进行分割,生成至少两个语句,所述语句包括标题语句和正文语句;
8、将每个所述正文语句分别与所述标题语句进行组合,生成至少两个句对;
9、根据所述至少两个句对以及所述金融文本信息,生成输入特征。
10、在一些实施例中,所述根据所述至少两个句对以及所述金融文本信息,生成输入特征包括:
11、将所述至少两个句对输入预设的词向量模型,得到所述词向量模型输出的皮尔逊相关系数矩阵;
12、将所述至少两个句对输入预设的第一bert模型,得到所述第一bert模型输出的语义矩阵;
13、将所述待识别的金融文本信息输入预设的第二bert模型,得到所述第二bert模型输出的特征矩阵;
14、对所述皮尔逊相关系数矩阵、语义矩阵以及特征矩阵进行融合,生成输入特征。
15、在一些实施例中,所述预设的词向量模型是利用真实的金融文本信息训练得到的;和/或
16、所述预设的第一bert模型是利用sts-b数据集对预训练的bert模型进行语义相似性的增量训练得到的;和/或
17、所述预设的第二bert模型是利用真实的金融文本信息以及虚假生成的金融文本信息对预训练的bert模型进行增量训练得到的。
18、在一些实施例中,所述金融文本信息识别模型的训练过程如下:
19、获取训练样本集中的金融文本信息,其中,所述训练样本集中包括真实的金融文本信息和虚假生成的金融文本信息,其中,所述虚假生成的金融文本信息是利用文本生成模型根据真实的金融文本信息生成的;
20、根据所述金融文本信息生成输入特征;
21、以所述输入特征为输入、以所述金融文本信息的类型为标签对预设的分类器进行训练,得到金融文本信息识别模型。
22、在一些实施例中,所述方法还包括:
23、发送所述金融文本信息的类型。
24、在一些实施例中,所述金融文本信息识别请求中还包括请求方的用户名和用户密码;所述根据所述待识别的金融文本信息,生成输入特征包括:
25、根据所述用户名和用户密码验证所述金融文本信息识别请求的合法性;
26、若所述金融文本信息识别请求合法,则根据所述待识别的金融文本信息,生成输入特征。
27、另一方面,本技术实施例提供一种金融文本信息的识别装置,包括:
28、获取模块,用于获取金融文本信息识别请求,其中,所述请求中包括待识别的金融文本信息;
29、生成模块,用于根据所述待识别的金融文本信息,生成输入特征;
30、识别模块,用于将所述输入特征输入训练好的金融文本信息识别模型,得到所述金融文本信息识别模型输出的所述金融文本信息的类型,所述类型包括虚假生成信息或真实信息。
31、在一些实施例中,所述生成模块具体用于:
32、对所述金融文本信息进行分割,生成至少两个语句,所述语句包括标题语句和正文语句;
33、将每个所述正文语句分别与所述标题语句进行组合,生成至少两个句对;
34、根据所述至少两个句对以及所述金融文本信息,生成输入特征。
35、在一些实施例中,所述生成模块根据所述至少两个句对以及所述金融文本信息,生成输入特征包括:
36、将所述至少两个句对输入预设的词向量模型,得到所述词向量模型输出的皮尔逊相关系数矩阵;
37、将所述至少两个句对输入预设的第一bert模型,得到所述第一bert模型输出的语义矩阵;
38、将所述待识别的金融文本信息输入预设的第二bert模型,得到所述第二bert模型输出的特征矩阵;
39、对所述皮尔逊相关系数矩阵、语义矩阵以及特征矩阵进行融合,生成输入特征。
40、在一些实施例中,所述预设的词向量模型是利用真实的金融文本信息训练得到的;和/或
41、所述预设的第一bert模型是利用sts-b数据集对预训练的bert模型进行语义相似性的增量训练得到的;和/或
42、所述预设的第二bert模型是利用真实的金融文本信息以及虚假生成的金融文本信息对预训练的bert模型进行增量训练得到的。
43、在一些实施例中,所述装置还包括训练模块,所述训练模块具体用于:
44、获取训练样本集中的金融文本信息,其中,所述训练样本集中包括真实的金融文本信息和虚假生成的金融文本信息,其中,所述虚假生成的金融文本信息是利用文本生成模型根据真实的金融文本信息生成的;
45、根据所述金融文本信息生成输入特征;
46、以所述输入特征为输入、以所述金融文本信息的类型为标签对预设的分类器进行训练,得到金融文本信息识别模型。
47、在一些实施例中,所述装置还包括:
48、发送模块,用于发送所述金融文本信息的类型。
49、在一些实施例中,所述金融文本信息识别请求中还包括请求方的用户名和用户密码;所述生成模块具体用于:
50、根据所述用户名和用户密码验证所述金融文本信息识别请求的合法性;
51、若所述金融文本信息识别请求合法,则根据所述待识别的金融文本信息,生成输入特征。
52、本技术实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的金融文本信息的识别方法的步骤。
53、本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述的金融文本信息的识别方法的步骤。
54、本技术实施例提供的金融文本信息的识别方法及装置,通过获取金融文本信息识别请求,其中,所述请求中包括待识别的金融文本信息;根据所述待识别的金融文本信息,生成输入特征;将所述输入特征输入训练好的金融文本信息识别模型,得到所述金融文本信息识别模型输出的所述金融文本信息的类型,所述类型包括虚假生成信息或真实信息。这样,通过预训练模型识别金融文本信息的真实性,解决了目前人工识别培训成本高昂、识别效率低下和准确率的问题,实现了方便快捷地验证金融文本信息的真实性,提高了金融机构的服务水平。