一种金融资讯的获取方法与流程

文档序号:30962966发布日期:2022-07-30 14:46阅读:126来源:国知局
一种金融资讯的获取方法与流程

1.本发明涉及数据处理技术领域,特别涉及一种金融资讯的获取方法。


背景技术:

2.证券市场与金融投资在现代社会中占有重要的地位。股票市场的建模和预测研究对我国的经济发展和金融建设具有重要意义,一直为人们所关注,股市行情受国家政策、经济形势、公司发展状况以及投资者心理等诸多因素的影响。
3.随着互联网技术的迅速发展和广发普及,普通投资者有越来越多的渠道获得更多的互联网信息。越来越多的财经网站每天都会推送大量的有关于各个公司的财经新闻以及媒体或者专家对于各个公司近来状况的解读,所以投资者会受到来自各个方面新闻信息的影响,这些新闻信息会影响投资者的判断。
4.那么多论文、文献里如何提取对某个方面有用的资讯就成为一个重要的问题,这个问题关系到提高工作效率的问题。


技术实现要素:

5.本发明要解决的技术问题是提供一种金融资讯的获取方法,解决通过关键词来选择资讯的问题。
6.为了解决上述技术问题,本发明的技术方案为:一种金融资讯的获取方法,包括以下步骤:
7.(一)设置金融关键词库,在金融关键词库设置所关注金融资讯的同义词组,同义词组设置有一个或多个关键词;
8.(二)将每个同义词组都设置有与其相匹配的权重系数组合,所述权重系数组合又分为同义词组里所述关键词出现第一次的权重系数k1,直至出现第n次的权重系数kn,n为大于1.5的自然数,kn=k1*(1/2)
n-1
,所述k1大于kn,所述k1大于1.0,n为所述同义词组里所有关键词出现次数之和;
9.(三)通过资讯接口导入多篇资讯,将每一篇资讯视为一个统计单元;
10.(四)按照关键词库里的同义词组里关键词逐一查找,统计所述统计单元里所出现的w1关键词及w1关键词所在同义词组里所有关键词出现的次数之和x,x为自然数;
11.(五)统计出所述统计单元里所述w1关键词所在同义词组里所有关键词的权重系数之和,其公式为:q1=k1*[(1/2)
1-1
+

+(1/2)
x-1
],得出q1,x为大于1.5的自然数,当x=1时q1=k1;直至统计出所述统计单元里出现的第y个wy关键词的权重系数之和并得出qy,y为大于1.5的自然数,当只有一个关键词时所述统计单元里所有关键词权重系数之和的乘积m=q1;
[0012]
(六)统计出所述统计单元里字数l,l为大于1.5的自然数;
[0013]
(七)统计出所述统计单元里所有关键词权重系数之积m=q1

*

qy/l;
[0014]
(八)统计出所有统计单元的m;
[0015]
(九)将所有统计单元的m大于某一设定值m0导出,即得到所关注的金融资讯。
[0016]
作为本发明的一种优选方案,k1大于kn。
[0017]
作为本发明的一种优选方案,kn大于1.0。
[0018]
作为本发明的一种优选方案,资讯接口包括杂志、期刊、网页、电视台节目的文字版本。
[0019]
作为本发明的一种优选方案,m0为本方法所截取金融资讯的标准值,m值大于m0的资讯将收录在金融资讯里。
[0020]
作为本发明的一种优选方案,金融关键词库包括熊市、牛市上市、多头市场、空头市场、长空、长多、死多、跳空、吊空、实多、跌停板价、除息、除权、市盈率、整理、套牢、多杀多、扎空、关卡、支撑线、k线、缺口、对冲、对冲基金、买空、卖空、利多、利空、开盘价、收盘价、报价、最高价、最低价、抢帽子、坐轿子、抬轿子、洗盘、回档、反弹、拨档。
[0021]
作为本发明的一种优选方案,金融关键词库包括增值套现、回购、风险投资基金、增长型基金、收购基金、共同购买权、债转股、呆账、现金流量表、汇率机制、筹资融资、急剧增长、套期保值、原始股、拆借、投资回收期、并购、直销、账面收益、在线金融、传销、调控、变现、杀价、盘活。
[0022]
采用本技术方案的有益效果:通过将关键词设置权重系数来确定与所关注资讯的关联远近,通过在一个资讯里所有关键词权重系数之积来确定该句子与所关注资讯内容远近,通过金融词汇在整篇文件所占的分量来确认是否与金融相关,通过将所有资讯里q大于q0资讯导出,即得到金融资讯,通过设置同义词组,解决了不同称谓对统计的影响,大大提高了获取信息的准确性。
附图说明
[0023]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0024]
图1为本发明的立体图。
具体实施方式
[0025]
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0026]
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
[0027]
参考附图,一种金融资讯的获取方法,包括以下步骤:
[0028]
(一)设置金融关键词库,在金融关键词库设置所关注金融资讯的同义词组,同义词组设置有一个或多个关键词;如同义词组里美国、usa,也有人叫漂亮国,所以将美国、
usa、漂亮国设置为一个同义词组,又如中国人民银行,有媒体称其为央妈,也有称为央行,那么中国人民银行、央妈、央行设置为一个同义词组;
[0029]
(二)将每个同义词组都设置有与其相匹配的权重系数组合,所述权重系数组合又分为同义词组里所述关键词出现第一次的权重系数k1,直至出现第n次的权重系数kn,n为大于1.5的自然数,kn=k1*(1/2)
n-1
,所述k1大于kn,所述k1大于1.0,kn=k1*(1/2)
n-1
,n为所述同义词组里所有关键词出现次数之和;也就说后面出现这个关键词,那么其权重系数就越来越小,越来越弱,如w1关键词,其第一次出现时的权重系数为k1,第二次出现时的权重系数为k1/2,第三次出现时的权重系数为k1/4,直至出现第n次的权重系数k1*(1/2)
n-1
;之所以要将后面出现的关键词的权重系数设置的越来越小,就防止一个关键词的影响过大而导致摘要提取走样;如第一次出现的权重系数为5.0,那么第二次出现的权重系数为2.5,那么第三次出现的权重系数为1.25,第n次的权重系数5.0*(1/2)
n-1
;如w1关键词的第一次的权重系数k1为5.0,关键词w2的第一次的权重系数k1为5.8,关键词w3的第一次的权重系数k1为3.0,每个关键词的第一次的权重系数k1与其他关键词的第一次的权重系数k1可以相同,也可以不相同;同义词组里的所有关键词都可以按一个关键词来统计,视为等同,如中国人民银行、央妈、央行,在同一个统计单元里,中国人民银行出现了10次,央妈出现了5次,央行出现了3次,那么则视为中国人民银行出现了18次,央妈、央行则不再统计了,如果没有设置同义词组,那么则成了三个关键词了,如中国人民银行的权重系数k1为5.0,按照同义词组来统计,那么其权重最大也不会超过10,5.0*2=10.0,但是如果没有设置同义词组,那么其权重最大可以为125,即5.0*5.0*5.0=125,这样统计就没有准确性了;
[0030]
(三)通过资讯接口导入多篇资讯,将每一篇资讯视为一个统计单元;
[0031]
(四)按照关键词库里的同义词组里关键词逐一查找,统计所述统计单元里所出现的w1关键词及w1关键词所在同义词组里所有关键词出现的次数之和x,x为自然数;
[0032]
(五)统计出所述统计单元里所述w1关键词所在同义词组里所有关键词的权重系数之和,其公式为:q1=k1*[(1/2)
1-1
+

+(1/2)
x-1
],得出q1,x为大于1.5的自然数,当x=1时q1=k1,这时k1为所述w1关键词的k1,如中国人民银行、央妈、央行,在同一个统计单元里,中国人民银行出现了10次,央妈出现了5次,央行出现了3次,那么则视为中国人民银行出现了18次,央妈、央行则不再统计了,q1=k1*[(1/2)
1-1
+

+(1/2)
x-1
],x=18,得到q1的值;统计完一个同义词组就接着统计下一个同义词组,直至统计出所述统计单元里出现的第y个wy关键词的权重系数之和并得出qy,y为大于1.5的自然数,这时k1为所述wy关键词的k1;当只有一个关键词时所述统计单元里所有关键词权重系数之和的乘积m=q1,w1关键词和wy关键词不是同一个同义词组里的关键词;
[0033]
(六)统计出所述统计单元里字数l,l为大于1.5的自然数;如果没有这个限制,那么10万字数的文章和1000字的文章所统计出来的m值,那10万字的肯定比1000字的大,而不管是不是金融资讯了;
[0034]
(七)统计出所述统计单元里所有关键词权重系数之积m=q1

*

qy/l;
[0035]
(八)统计出所有统计单元的m;
[0036]
(九)将所有统计单元的m大于某一设定值m0导出,即得到所关注的金融资讯。
[0037]
优选的,k1大于kn。
[0038]
优选的,kn大于1.0。
[0039]
优选的,资讯接口包括杂志、期刊、网页、电视台节目的文字版本。
[0040]
优选的,m0为本方法所截取金融资讯的标准值,m值大于m0的资讯将收录在金融资讯里。
[0041]
优选的,金融关键词库包括熊市、牛市上市、多头市场、空头市场、长空、长多、死多、跳空、吊空、实多、跌停板价、除息、除权、市盈率、整理、套牢、多杀多、扎空、关卡、支撑线、k线、缺口、对冲、对冲基金、买空、卖空、利多、利空、开盘价、收盘价、报价、最高价、最低价、抢帽子、坐轿子、抬轿子、洗盘、回档、反弹、拨档。
[0042]
优选的,金融关键词库包括增值套现、回购、风险投资基金、增长型基金、收购基金、共同购买权、债转股、呆账、现金流量表、汇率机制、筹资融资、急剧增长、套期保值、原始股、拆借、投资回收期、并购、直销、账面收益、在线金融、传销、调控、变现、杀价、盘活。
[0043]
本发明通过将关键词设置权重系数来确定与所关注金融资讯的关联远近,通过在一个资讯里所有关键词权重系数之积来确定该资讯与所关注金融资讯内容远近,通过所有资讯里m大于m0资讯导出,通过金融词汇在整篇文件所占的分量来确认是否与金融相关,即得到金融资讯。
[0044]
本发明有益技术效果有:
[0045]
1.通过关键词的重要性来设置关键词的第一次出现的权重系数k1,确保获取的内容为重要信息;
[0046]
2.通过关键词出现次数来使权重系数k1等比数列变化,确保获取的内容不会因一个关键词多次出现而摘录失真;
[0047]
3.通过多个关键词的权重系数之和的乘积来确定资讯与所关注金融资讯的关联性,确保关键词多的重要性重要的资讯摘取出来;
[0048]
4.本发明获取金融资讯,能够有效果减少阅读量,节省时间;
[0049]
5.通过设置同义词组,解决了不同称谓对统计的影响,大大提高了获取信息的准确性。
[0050]
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1