一种基于大数据的金融业务信息检索方法及系统与流程

文档序号:31677803发布日期:2022-09-28 03:19阅读:71来源:国知局
一种基于大数据的金融业务信息检索方法及系统与流程

1.本发明涉及人工智能领域,具体涉及一种基于大数据的金融业务信息检索方法及系统。


背景技术:

2.在对证券信息查询时,由于检索词相对较少,需要对检索词进行扩充,保障得到全面的信息,现有基于语义关系的伪相关反馈扩展查询方法,通过理解检索词的语义关系,得到更为准确的检索词扩展。
3.但是即使得到检索词的语义关系后,能够从大量的证券信息数据中筛选出相关信息,但是数据信息量过大,即使相关性很强的信息数据可能有一大堆,而检索数据排序靠前的往往是一类信息,因此即使采用语义关系,也不能百分百保证每次都能得到检索者想要的查询数据。
4.因此本方案提出了一种基于大数据的金融业务信息检索方法及系统,对检索结果进行重排序,保证检索得到的信息与检测词之间相关性和检索结果的全面性,满足检索者的检索需求。


技术实现要素:

5.本发明提供一种基于大数据的金融业务信息检索方法,以解决现有的问题,包括:获取每个检索信息中与检索词相似度大于阈值的词汇作为近似词汇;根据相似度值得到每个检索信息的相似度向量,获取每个检索信息相似度向量的主成分方向,计算每个检索信息在第一主成分方向上的投影值;计算每个检索信息到聚类结果中心点的距离;计算每个检索信息的评分值;获取每个检索信息的可信度,计算每个检索信息的可靠性;计算每个检索信息的重要性,根据每个检索信息的重要性进行排序。
6.根据本发明提出的技术手段,通过分析检索信息与检索词之间的相似度以及差异性对每个检索信息进行评分,并采用体裁分类对每个检索信息的可靠性进行分析,综合得到每个检索信息的重要性,从而对检索信息进行排序,保证了检索结果的准确度,能够满足检索者的检索需求。
7.本发明采用如下技术方案,一种基于大数据的金融业务信息检索方法,包括:
8.获取检索完成后所利用检索词得到的多个检索信息,获取每个检索信息中的所有词汇;
9.计算每个检索信息中各个词汇与检索词的相似度,获取每个检索信息中与检索词相似度大于阈值的词汇作为近似词汇;
10.根据每个检索信息中每个近似词汇与检索词的相似度值得到每个检索信息的相似度向量,根据每个检索信息相似度向量得到每个检索信息的主成分方向,计算每个检索信息在其主成分方向上的投影值;
11.对所有检索信息主成分方向上的投影值进行排序,根据每个检索信息的序号和投
影值生成每个检索信息的一维向量,对每个检索信息的一维向量进行聚类,将每个检索信息一维向量的聚类结果到聚类中心的距离作为每个检索信息的差异度;
12.根据每个检索信息中各个词汇与检索词的相似度和每个检索信息的差异度计算每个检索信息的评分值;
13.对每个检索信息进行体裁分类得到每个检索信息的类别,根据每个检索信息所属类别的可信度和该检索信息的时间值计算每个检索信息的可靠性;
14.根据每个检索信息的评分值和可靠性计算每个检索信息的重要性,根据每个检索信息的重要性对每个检索信息进行排序。
15.进一步的,一种基于大数据的金融业务信息检索方法,计算每个检索信息中各个词汇的词向量与检索词的词向量之间的余弦距离值,将所述余弦距离值作为每个检索信息中各个词汇与检索词的相似度。
16.进一步的,一种基于大数据的金融业务信息检索方法,对所有检索信息的相似度向量进行聚类的方法为:
17.对每个检索信息的相似度向量进行主成分计算,获取每个检索信息在第一主成分方向上的投影值;所述第一主成分方向为最大特征值的方向;
18.对每个检索信息的投影值进行排序,将每个检索信息的序号和对应投影值生成一维向量,对该向量进行聚类。
19.进一步的,一种基于大数据的金融业务信息检索方法,将所有非聚类中心检索信息对应的最大差异程度,作为所有聚类中心对应检索信息的差异度。
20.进一步的,一种基于大数据的金融业务信息检索方法,获取每个检索信息可信度的方法为:
21.将每个检索信息的所有词向量组成的矩阵输入svm体裁分类模型中,获取每个检索信息体裁分类的结果:
22.所述体裁分类的结果包括:观点评论类别、新闻报道类别以及通知公告类别,根据每个检索信息所属的体裁类别得到对应每条检索信息的可信度。
23.进一步的,一种基于大数据的金融业务信息检索方法,获取每个检索信息中的时间值与当前时间的差值,根据每个检索信息的可信度和每个检索信息的时间差值计算每个检索信息的可靠性,表达式为:
24.ckk=exp(-tk)
×
kxk25.其中,ckk表示第k个检索信息的可靠性,tk表示第k个检索信息中的时间值与当前时间的差值,kxk表示第k个检索信息的可信度。
26.进一步的,一种基于大数据的金融业务信息检索方法,计算每个检索信息的重要性的方法为:
27.zyk=ckk×
pfk28.其中,zyk表示第k个检索信息的重要性,ckk表示第k个检索信息的可靠性,pfk表示第k个检索信息的评分值;
29.根据每个检索信息的重要性值从大到小对检索信息重新排序,完成检索。
30.进一步的,本发明还提出了一种基于大数据的金融业务信息检索系统,包括:信息检索模块、相似度比较模块、差异度计算模块、评分值计算模块、体裁分类模块以及检索信
息排序模块;
31.信息检索模块,用于获取检索完成后所利用检索词得到的多个检索信息,获取每个检索信息中的所有词汇;
32.相似度比较模块,用于计算每个检索信息中各个词汇与检索词的相似度,获取每个检索信息中与检索词相似度大于阈值的词汇作为近似词汇;
33.差异度计算模块,用于根据每个检索信息中每个近似词汇与检索词的相似度值得到每个检索信息的相似度向量,根据每个检索信息相似度向量得到每个检索信息的主成分方向,计算每个检索信息在其主成分方向上的投影值;
34.对所有检索信息主成分方向上的投影值进行排序,根据每个检索信息的序号和投影值生成每个检索信息的一维向量,对每个检索信息的一维向量进行聚类,将每个检索信息一维向量的聚类结果到聚类中心的距离作为每个检索信息的差异度;
35.评分值计算模块,用于根据每个检索信息中各个词汇与检索词的相似度和每个检索信息的差异度计算每个检索信息的评分值;
36.体裁分类模块,用于对每个检索信息进行体裁分类得到每个检索信息的类别,根据每个检索信息所属类别的可信度和该检索信息的时间值计算每个检索信息的可靠性;
37.检索信息排序模块,用于根据每个检索信息的评分值和可靠性计算每个检索信息的重要性,根据每个检索信息的重要性对每个检索信息进行排序。
38.本发明的有益效果是:根据本发明提出的技术手段,通过分析检索信息与检索词之间的相似度以及差异性对每个检索信息进行评分,并采用体裁分类对每个检索信息的可靠性进行分析,综合得到每个检索信息的重要性,从而对检索信息进行排序,保证了检索结果的准确度,能够满足检索者的检索需求。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
40.图1为本发明实施例的一种基于大数据的金融业务信息检索方法结构示意图;
41.图2为本发明实施例的一种基于大数据的金融业务信息检索系统流程示意图。
具体实施方式
42.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.如图1所示,给出了本发明是实力的一种基于大数据的金融业务信息检索方法结构示意图,包括:
44.101.获取检索完成后所利用检索词得到的多个检索信息,获取每个检索信息中的所有词汇。
45.本发明所针对的具体场景为:通过搜索引擎,检索证券信息。
46.通过现有bm25算法进行初次检索,得到每条检索信息的词项权重c,其中选择前k个检索信息进行分析,本发明设k=10,根据可能检索场景的复杂性或者全面性要求可进行调整。
47.其中bert与预训练好的模型可以通过计算机介质利用互联网进行下载。
48.将第k个检索信息,输入到训练好的bert神经网络模型,得到第k个检索信息各词汇的词向量,并将检索词送入到训练好的bert神经网络模型中,得到检索词向量。
49.102.计算每个检索信息中各个词汇与检索词的相似度,获取每个检索信息中与检索词相似度大于阈值的词汇作为近似词汇。
50.计算每个检索信息中各个词汇的词向量与检索词的词向量之间的余弦距离值,将所述余弦距离值作为每个检索信息中各个词汇与检索词的相似度。
51.通过计算第k个检索信息各词汇的词向量,与检索词向量的余弦距离值作为对应的相似度值xs,即得到第k个检索信息中第m个词汇与检索词的相似度xs
km
.但是由于每段检索信息所包含的证券信息内容并不一致.所以每段检索信息中的m值并不一致,所以统计所有检索信息中出现的所有词汇,和其与检索词的相似度,设定阈值xsr,当xs
km
》xsr时,则认为所出现的词汇都认为是近似词汇(要求不重复),其中xsr为超参数,可由实施者根据具体实施场景进行调整.本发明设xsr=0.8。
52.103.根据每个检索信息中每个近似词汇与检索词的相似度值得到每个检索信息的相似度向量,获取每个检索信息相似度向量的主成分方向,计算每个检索信息在第一主成分方向上的投影值。
53.进而得到近似词汇的总个数m,并统计各近似词汇在对应各段检索信息中与检索词的相似度值xs,由于各段检索信息不可能包含所有的近似词汇,所以每段检索信息中没有出现过的近似词汇所对应的相似度为0,否则就填上对应的相似度值。
54.这样每个检索信息得到一个1*m的相似度向量,进而可得到一个k*m的相似度数组,将相似度数组,利用pca算法,获得主成分方向,其中具有最大特征值的方向为第一主成分方向,各检索信息在第一主成分方向上的投影值分散最开,所以得到第k个检索信息在第一主成分方向上的投影值tk。
55.104.对所有检索信息主成分方向上的投影值进行排序,根据每个检索信息的序号和投影值生成每个检索信息的一维向量,对每个检索信息的一维向量进行聚类,将每个检索信息一维向量的聚类结果到聚类中心的距离作为每个检索信息的差异度。
56.但是内容相近的检索信息,可能差异值比较小,而不同类型之间的检索信息差异比较大,所以对获得所有投影值进行排序,将各检索信息的序号和投影值生成一维向量,进而得到一个m*2的向量,对其采用均值漂移算法进行聚类,共得到j个类别。
57.每个类别的检索信息近似,但是由于在进行均匀漂移时,某个近似词汇的聚类结果处于一个聚类边缘,其可能具有少部分的相似的,则说明该信息是具有全面性价值,如果距离聚类中心过近,很可能具有大量的重复信息,所以可认为各聚类中心所对应的检索信息为该类型主要检索信息。
58.计算第k条检索信息与对应类别中心点的距离值cyk作为第k条检索信息与同类型检索信息的差异度,其中对于聚类中心所对应的检索信息的评分pfk,取所有非聚类中心检
索信息对应的最大差异程度max(cyk),做为所有聚类中心所对应检索信息的差异程度。
59.对所有检索信息的相似度向量进行聚类的方法为:
60.对每个检索信息的投影值进行排序,将每个检索信息的序号和对应投影值生成一维向量,对该向量进行聚类。
61.将所有非聚类中心检索信息对应的最大差异程度,作为所有聚类中心对应检索信息的差异度。
62.105.根据每个检索信息的各个词汇与检索词的相似度和每个检索信息之间的差异度计算每个检索信息的评分值。
63.所以可以得到当前第k条非聚类中心的检索信息的评分pfk:
64.pfk=cyk×
xsk65.其中,xsk为当前第k条检索信息所具有词汇与检索词之间的相似度。其值越大,说明第k条检索信息与检索词之间的关联性越强,正常来说应当越靠前,但是可能会造成前个检索信息都是同类信息,使得检索人无法得到更加全面的证券信息。
66.cyk为当前第k条检索信息与同类型检索信息的差异程度,其值越大,说明第k条检索信息与同类型检索信息的差异越大,该信息具有的全面性价值越高。
67.pfk的值越大,排名应当越靠前,所有的关联性越强,具有的全面性价值更高。
68.106.对每个检索信息进行体裁分类得到每个检索信息的类别,根据每个检索信息类别的可信度和每个检索信息的时间值计算每个检索信息的可靠性。
69.本发明中的体裁分类,借鉴现有的体裁分类方法,构建的语料集是一个平衡语料集,共有3000篇文档,其中能够,观点评论、新闻报道和通知公告每个体裁类别各1000篇。
70.体裁分类试验中,中文文本的分词使用elus系统完成,系统的性能评价采用目前文本分类常用的评价方法,针对每一个类别,采用精度(precision,p)、召回率(recall,r)和f1测试值(f1 measure,f1)来评价,由于实验所采用的数据集是一个平衡语料库,系统整体性能评价采用的是平局f值(averagef1),为了减少实验误差,采用5次交叉验证,所有的性能取5次交叉验证的平均值。
71.本发明的svm工具包采用libsvm,核函数选用线性核,所有的参数都取其默认值。
72.将第k条检索信息的所有词向量组成的矩阵,输入到svm体裁分类模型中,得到当前第k条检索信息体裁分类的结果。
73.本发明中,如果属于观点评论类别,则对应的可信度为a;如果属于新闻报道,则对应的可信度为b;如果属于通知公告,则对应的可信度为c。其中a,b,c为超参数可根据具体实施场景获取,本发明设,a=0.2,b=0.5,c=0.8,因为公告的可信度大于新闻报道的可信度,新闻报道的可信度大于观点评论的可信度。
74.获取每个检索信息可信度的方法为:
75.将每个检索信息的所有词向量组成的矩阵输入svm体裁分类模型中,获取每个检索信息体裁分类的结果:
76.所述体裁分类的结果包括:观点评论类别、新闻报道类别以及通知公告类别,根据每个检索信息所属的体裁类别得到对应每条检索信息的可信度。
77.根据第k条检索信息所属类别,得到第k条检索信息的可信度kxk,其值越大可信性越强。再获取第k条检索信息中的时间值和当前时间的差值tk,其值越大说明当前信息越不
可靠,所以得到第k条检索信息的可靠性。
78.获取每个检索信息中的时间值与当前时间的差值,计算每个检索信息的可靠性,表达式为:
79.ckk=exp(-tk)
×
kxk80.其中,ckk表示第k个检索信息的可靠性,tk表示第k个检索信息中的时间值与当前时间的差值,kxk表示第k个检索信息的可信度。
81.107.根据每个检索信息的评分值和可靠性计算每个检索信息的重要性,根据每个检索信息的重要性对每个检索信息进行排序
82.计算每个检索信息的重要性的方法为:
83.zyk=ckk×
pfk84.其中,zyk表示第k个检索信息的重要性,ckk表示第k个检索信息的可靠性,pfk表示第k个检索信息的评分值;
85.pfk为第k条检索信息的评分,所以其值越大,排名应当越靠前,所具有的关联性越强,具有的全面性价值更高。
86.ckk为第k条检索信息的可靠性,其值越大,第k条检索信息越可靠,因为证券信息要求有较高的实时性和信息来源的可靠性
87.zyk的值越大,对第k条检索信息重要,因为当第k条检索信息与检索词具有高度关联并且具有全面性价值的同时,信息来源可靠,时间间隔短,则表示第k条检索信息越重要。
88.在得到第k条检索信息的重要性zyk后,按照重要性zyk的值从大到小进行重新排序,得到新的检索序列,完成证券信息检索。
89.如图2所示,给出了本发明实施例一种基于大数据的金融业务信息检索系统,包括:信息检索模块、相似度比较模块、差异度计算模块、评分值计算模块、体裁分类模块以及检索信息排序模块;
90.信息检索模块,用于获取检索完成后所利用检索词得到的多个检索信息,获取每个检索信息中的所有词汇;
91.相似度比较模块,用于计算每个检索信息中各个词汇与检索词的相似度,获取每个检索信息中与检索词相似度大于阈值的词汇作为近似词汇;
92.差异度计算模块,用于根据每个检索信息中每个近似词汇与检索词的相似度值得到每个检索信息的相似度向量,根据每个检索信息相似度向量得到每个检索信息的主成分方向,计算每个检索信息在其主成分方向上的投影值;
93.对所有检索信息主成分方向上的投影值进行排序,根据每个检索信息的序号和投影值生成每个检索信息的一维向量,对每个检索信息的一维向量进行聚类,将每个检索信息一维向量的聚类结果到聚类中心的距离作为每个检索信息的差异度;
94.评分值计算模块,用于根据每个检索信息中各个词汇与检索词的相似度和每个检索信息的差异度计算每个检索信息的评分值;
95.体裁分类模块,用于对每个检索信息进行体裁分类得到每个检索信息的类别,根据每个检索信息所属类别的可信度和该检索信息的时间值计算每个检索信息的可靠性;
96.检索信息排序模块,用于根据每个检索信息的评分值和可靠性计算每个检索信息的重要性,根据每个检索信息的重要性对每个检索信息进行排序。
97.根据本发明提出的技术手段,通过分析检索信息与检索词之间的相似度以及差异性对每个检索信息进行评分,并采用体裁分类对每个检索信息的可靠性进行分析,综合得到每个检索信息的重要性,从而对检索信息进行排序,保证了检索结果的准确度,能够满足检索者的检索需求。
98.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1