资讯分析与展示方法、装置、电子设备及存储介质与流程

文档序号:29435109发布日期:2022-03-30 08:21阅读:105来源:国知局
资讯分析与展示方法、装置、电子设备及存储介质与流程

1.本技术涉及计算机技术领域,具体而言,涉及一种资讯分析与展示方 法、装置、电子设备及存储介质。


背景技术:

2.随着移动互联网的迅速发展和普及,网络新闻和资讯的数量以爆发式 增长。与基金相关的资讯来源广、数量大,如何在这海量的信息中,及时、 全面、精准地捕捉到基金相关的重要资讯,作为投资决策的支撑和依据, 是基金投资人或投资机构关注的问题。
3.目前向用户推送基金相关信息的技术主要基于以下两类:
4.一类是基于关键字,利用余弦相似度等方法计算基金关键字与资讯关 键字向量之间的相似度,根据相似度进行资讯推送和展示。这类方法会遗 漏重要的间接相关资讯。
5.另一类是基于用户的浏览行为,浏览行为包括点击量、浏览时长等, 通过分析具有相似浏览行为的一类用户的关注资讯特征,来完成资讯推送 和展示。这类方法存在冷启动问题,极易遗漏新出现的重要资讯。


技术实现要素:

6.本技术实施例的目的在于提供一种资讯分析和展示方法、装置、电子 设备及存储介质,用于改善现有基金资讯分析和展示方法容易遗漏重要资 讯、不利于用户掌握关键信息的问题。
7.第一方面,本发明实施例提供了一种资讯分析和展示方法,包括:获 取目标网站的金融、经济类新闻资讯数据或博客、论坛数据;确定每一条 所述资讯数据与目标基金的关系;根据每一条所述资讯数据及每一条所述 资讯数据与所述目标基金的关系,确定每一条所述资讯数据对所述目标基 金的重要性;将重要性大于预设阈值的资讯数据进行排序展示。本技术实 施例中,通过对收集到的资讯数据进行与目标基金的关系判定,关系包括 直接相关及间接相关关系,再根据此关系及该资讯本身进行对目标基金的 重要性评定,重要性越高的资讯数据即为对目标基金来说越重要的资讯数 据,也是用户越需要掌握的资讯,将重要性超过阈值的资讯根据重要性排 序展示给用户,从而实现帮助用户获取与目标基金相关的资讯并甄选出其 中高相关性和高重要性的资讯,再进行直观展示,便于用户高效地掌握关 键信息。
8.结合第一方面实施例的一种可能的实施方式,确定每一条所述资讯数 据与目标基金的关系,包括:对每一条所述资讯数据进行关键字提取;基 于每一条所述资讯数据对应的关键字,得到该条资讯数据对应的实体对象; 根据每一条资讯数据对应的实体对象,得到每一条所述资讯数据与所述目 标基金的关系。本技术实施例中,在判定资讯数据与目标基金的关系时, 需要确定资讯数据的实体对象,从而得到该条资讯数据与目标基金的关系, 这样做不仅可以提高判定效率、快速找到资讯与目标基金的关系,而且可 以提高其准确度。
9.结合第一方面实施例的一种可能的实施方式,对每一条所述资讯数据 进行关键字提取,包括:对每一条所述资讯数据进行文本内容预处理;对 预处理后的每一条所述资讯数据进行关键字提取;其中,对每一条所述资 讯数据进行文本内容预处理,包括:去除无用字符、去除表情符号、将繁 体字转换成简体字。本技术实施例中,文本预处理的作用有去除如标点符 号、语气词、连接词、表情符号等与无关的字符,将文本中的繁体字转换 为简体字,从而提升提取关键字的效率及准确性。
10.结合第一方面实施例的一种可能的实施方式,基于每一条所述资讯数 据对应的关键字,得到该条资讯数据对应的实体对象,包括:针对每一条 所述资讯数据,将该条资讯数据对应的关键字中的所有名词均作为候选实 体对象;针对每一个所述候选实体对象,将该候选实体对象及该候选实体 对象预设长度的前后文共同转换为该候选实体对象对应的第一向量wn;将 每个所述候选实体对象对应的第一向量wn与预设的所述目标基金的知识图 谱中的每个实体对象所对应的第二向量vm进行余弦相似度计算,得到 sim
nm
;选取该条资讯数据的所有余弦相似度计算结果中的最大余弦相似度 max
sim
=max(sim
11
,...,sim
nm
),若该最大余弦相似度大于预设阈值,则将所述 最大余弦相似度所对应的第二向量的实体对象em=argmax(sim
11
,...,sim
nm
)作 为该条资讯数据的实体对象(argmax为取最大值对应的位置函数);若该 最大余弦相似度小于预设阈值,则认为该条资讯中不包含目标基金的知识 图谱中的实体对象。本技术实施例中,将资讯数据关键字中的所有名词均 作为候选实体对象,再基于nlp(natural language processing,自然语言 处理)技术,将每个候选实体在原资讯的上下文文本内容转换为向量,并 和预设知识图谱中实体的向量进行余弦相似度计算,之后将最大余弦相似 度所对应的在知识图谱中的实体对象作为该条资讯数据的实体对象,该实 体对象的确定方式可以快速、准确的确定每条资讯数据对应的实体对象。
11.结合第一方面实施例的一种可能的实施方式,根据每一条资讯数据对 应的实体对象,得到每一条所述资讯数据与所述目标基金的关系,包括: 针对每一条资讯数据对应的实体对象,将预设的所述目标基金的知识图谱 中该条资讯数据对应的实体对象所对应的与目标基金的关系,作为该条资 讯数据与所述目标基金的关系。本技术实施例中,通过引入知识图谱,将 资讯数据的实体对象和知识图谱的实体对象进行匹配,得到实体对象和目 标基金的关系,这样不仅能够有效提升相关性的判定速度,而且可以提高 其准确性。
12.结合第一方面实施例的一种可能的实施方式,根据每一条所述资讯数 据及每一条所述资讯数据与所述目标基金的关系,确定每一条所述资讯数 据对所述目标基金的重要性,包括:针对每一条所述资讯数据,获取该条 资讯数据对应的实体对象或该实体对象的父节点对应的实体对象占所述目 标基金的仓位比例,以及获取该条资讯数据的关键字;将该条资讯数据提 取出的关键字、该条资讯数据与所述目标基金的关系、该条资讯数据对应 的实体对象或该实体对象的父节点对应的实体对象占所述目标基金的仓位 比例均输入预设的重要性分析模型中进行处理;得到该条资讯数据对所述 目标基金的重要性。本技术实施例中,在确定资讯数据对目标基金的重要 性时,通过对关键字数据、关系数据以及仓位比例数据进行分析,可以由 多个维度客观分析得到资讯数据对目标基金的重要性,以使分析结果更准 确。
13.结合第一方面实施例的一种可能的实施方式,所述方法还包括:获取 多条训练样
本数据,每条所述训练样本数据包括:资讯数据的关键字、资 讯数据与目标基金的关系、资讯数据对应的实体对象或该实体对象的父节 点对应的实体对象所占目标基金的仓位比例、重要性标签;利用所述多条 训练样本数据对初始的重要性分析模型进行训练,得到训练好的所述重要 性分析模型。本技术实施例中,通过以资讯数据的关键字、资讯数据与目 标基金的关系、资讯数据对应的实体对象或该实体对象的父节点对应的实 体对象所占目标基金的仓位比例构成模型输入的训练数据,以重要性作为 数据标签的方式进行训练,能够得到一个可以从多个维度分析资讯重要性 的评估模型,这样得到的重要性能更加准确。
14.第二方面,本发明实施例提供了一种资讯分析与展示装置,包括:获 取模块,用于获取目标网站的金融、经济类新闻资讯数据或博客、论坛数 据;分析模块,用于确定每一条所述资讯数据与目标基金的关系,以及根 据每一条所述资讯数据及每一条所述资讯数据与所述目标基金的关系,确 定每一条所述资讯数据对所述目标基金的重要性;展示模块,用于将重要 性大于预设阈值的资讯数据进行排序展示。
15.第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理 器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处 理器,用于调用存储于所述存储器中的程序,以执行上述第一方面实施例 或/和结合第一方面实施例的任一可能的实施方式提供的方法。
16.第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储 有计算机程序,所述计算机程序被处理器运行时,以执行上述第一方面实 施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。
17.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说 明书中变得显而易见,或者通过实施本技术实施例而了解。本技术的目的 和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和 获得。
附图说明
18.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例 中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术 的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人 员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相 关的附图。
19.图1为本技术实施例提供的一种资讯分析与展示方法的流程示意图。
20.图2为图1中s200的流程示意图。
21.图3为本技术实施例提供的一种基金知识图谱的示意图。
22.图4为本技术实施例提供的一种资讯分析与展示方法所展示的资讯数 据的示意图。
23.图5为本技术实施例提供的一种资讯分析与展示装置的模块框图。
24.图6为本技术实施例提供的一种电子设备的结构框图。
具体实施方式
25.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进 行描述。
26.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在
一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释。同时,在本技术的描述中诸如“第一”、“第二”等之类的关系术 语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定 要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而 且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从 而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素, 而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、 物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一 个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设 备中还存在另外的相同要素。
27.再者,本技术中的术语“和/或”,仅仅是一种描述关联对象的关联关系, 表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时 存在a和b,单独存在b这三种情况。
28.鉴于现有资讯分析和展示方法存在的缺陷,本技术实施例提供了一种 全新的资讯分析和展示方法,用于及时、全面、精准地自动化收集与基金 直接相关及间接相关的资讯,可以减少对重要资讯遗漏的情况,并对资讯 与目标基金的关系和重要性进行智能化分析,可以大幅提高对资讯的分析 能力和效率;在此基础上进行直观展示,可以增加资讯的可读性。该方法 能够帮助用户获取与目标基金相关(包括直接相关及间接相关)的资讯并 甄选出其中高相关性和高重要性的资讯,再进行直观展示,便于用户高效 地掌握关键信息。
29.为了便于理解,下面将结合图1对本技术实施例提供的资讯分析与展 示方法进行说明。
30.s100:获取目标网站的金融、经济类新闻资讯数据或博客、论坛数据。
31.互联网上与基金有关的资讯信息数量大、来源广,一种实施方式下, 可以使用基于python scrapy框架构建网络爬虫,爬取金融、经济类新闻或 博客、论坛数据等资讯,资讯的来源包括:国际时政及财经、宏观政策、 投资热点、盘前、午评、资金流入流出、热点主题新闻、点击榜、港股及 外围市场、基金频道、微博数据、公众号等。在爬虫广泛收集资讯数据后 将搜集到的资讯数据存储起来,作为进行后续分析和展示的基础数据。
32.一种实施方式下,获取的多条资讯数据,可以是事先获取之后存储到 数据库或磁盘,在需要时,直接从对应位置获取即可;当然也可以是实时 从网络抓取的。
33.s200:确定每一条所述资讯数据与目标基金的关系。
34.基金的相关新闻资讯包括直接相关和间接相关两类新闻资讯。顾名思 义,直接相关的新闻资讯是与该基金显式相关的资讯,如该基金的持仓变 化、基金经理的更换等。而间接相关的资讯,往往从字面上看不出与该基 金有关联关系,如某公司发布了半年报,而该基金重仓持有该公司的股票; 又如某原材料近期库存不足、价格大幅上涨等,而该原材料供应会直接影 响某公司的产能。
35.与目标基金直接相关(如资讯内容为“汇添富股票下跌”)或间接相关(如 资讯内容为“硅晶圆价格上涨”,其中硅晶圆为汇添富的重仓股的重要原材 料)的资讯数据,对于用户来说都是十分重要的,因此判定资讯数据与目 标基金的关系可以有效提升用户对于基金关键信息的掌握深度和广度。
36.一种实施方式下,确定每一条资讯数据与目标基金的关系可以是获取 用户针对
每一条资讯数据输入的与目标基金的关系,将该关系确定为每一 条资讯数据与目标基金的关系。该种实施方式下,由用户进行关系确定, 计算机响应用户操作的即可获取对应的关系。
37.又一种实施方式下,确定每一条所述资讯数据与目标基金的关系的过 程可以如图2所示,包括s201、s202、s203。下面结合图2进行说明。
38.s201:对每一条所述资讯数据进行关键字提取。
39.s201步骤的一种实施方式下,可以直接对每一条资讯数据进行关键字 提取,得到每一条资讯数据对应的关键字。
40.上述提取关键字可以基于tf-idf(term frequency

inverse documentfrequency,词频-逆文本频率指数)、textrank(为一种文本重要性排序算 法)、lda(linear discriminant analysis,线性判别分析)等模型对文本进 行处理,从而提取出关键字。进行关键字提取的一种实施方式,可以基于 keybert(为一种关键字提取技术)框架的
ꢀ“
paraphrase-multilingual-minilm-l12-v2”或
ꢀ“
paraphrase-multilingual-mpnet-base-v2”模型,结合jieba(为一种中文分词 库)进行分词、词性标注操作,对资讯数据的文本进行关键字提取,即使 用bert(bidirectional encoder representation from transformers,预训练的 语言表征模型)嵌入和余弦相似度计算来生成与资讯本身最相似的子短语, 例如,输入资讯为“股票1业绩增速回落,实控人频频减持,张三、李四大佬 也要折了腰?”,输出提取的关键字为:[(

股票1业绩回落’,0.6587),(

股 票1实控人减持’,0.5276),(

张三李四折了腰’,0.3529)]。
[0041]
s201步骤的又一种实施方式下,对每一条所述资讯数据进行关键字提 取的处理可以是:先对每一条资讯数据进行文本内容预处理,之后对预处 理后的每一条资讯数据进行关键字提取,其中,对每一条资讯数据进行文 本内容预处理,包括:去除无用字符、去除表情符号、将繁体字转换成简 体字。在这种实施方式下,先对每一条资讯数据进行文本内容预处理,可 以有效减少文本字符的长度,另一方面能够简化模型从而可以大幅提升提 取关键字的效率以及准确性。
[0042]
s202:基于每一条所述资讯数据对应的关键字,得到该条资讯数据对 应的实体对象。
[0043]
资讯数据的关键字中的所有名词是资讯数据所涉及到的实体,可以通 过对这些候选实体进行分析,从而得出资讯数据的实体对象(主体)。
[0044]
s202步骤的第一种实施方式下,可以是:针对每一条资讯数据,将该 条资讯数据对应的关键字中的所有名词均作为候选实体对象,之后针对每 一个所述候选实体对象,将该候选实体对象及该候选实体对象预设长度的 前后文共同转换为该候选实体对象对应的第一向量wn;然后再将每个候选 实体对象对应的第一向量wn与预设的所述目标基金的知识图谱中的每个实 体对象及该实体对象的描述所对应的第二向量vm进行余弦相似度计算,得 到sim
nm
;选取该条资讯数据的所有余弦相似度计算结果中的最大余弦相似 度max
sim
=max(sim
11
,...,sim
nm
),若该最大余弦相似度大于预设阈值,则将所 述最大余弦相似度所对应的第二向量的实体对象em=argmax(sim
11
,...,sim
nm
) 作为该条资讯数据的实体对象(argmax为取最大值对应的位置函数);若 该最大余弦相似度小于预设阈值,则认为该条资讯中不包含目标基金的知 识图谱中的实体对象。
[0045]
在上述s202步骤的第一种实施方式下,先将该条资讯数据关键字中的 所有名词作为多个候选实体对象,对每一个候选实体对象,获取该候选实 体对象的前后文,前后文可取长度范围为0~128个字符,前后文长度可以 不相同,例如,可以取某个候选实体对象的前8个字符和后8个字符,也 可以取某个候选实体对象前16个字符和后16字符,还可以取某个候选实 体对象的前20个字符和后10个字符。
[0046]
再将获取到的每一个候选实体对象以及该候选实体对象的预设长度的 前后文一同转化为第一向量,即每一个候选实体对象及其前后文对应到一 个第一向量wn,转换向量的过程可以是基于s201步骤的关键字提取部分 所提到的模型框架进行转换,也可以基于word2vec等模型框架完成,在此 不作限制。
[0047]
接着将得到的每个第一向量wn均与预设的目标基金的知识图谱中每个 实体对象及其描述所对应的第二向量vm进行余弦相似度计算,得到sim
nm
; 取所有余弦相似度计算结果中的最大值max
sim
=max(sim
11
,...,sim
nm
),若该最 大余弦相似度大于预设阈值,则将所述最大余弦相似度所对应的第二向量 的实体对象em=argmax(sim
11
,...,sim
nm
)作为该条资讯数据的实体对象(主 体),从而可以确定出资讯数据的实体对象。
[0048]
为了便于理解上述s202步骤的第一种实施方式,下面举例进行说明, 假设该条资讯数据包括2个候选实体对象,该2个候选实体对象分别对应 的第一向量为w1、w2,假设预设的目标基金的知识图谱中包括5个实体对 象,该5个实体对象及其描述分别对应的第二向量为v1、v2、v3、v4、v5, 将w1、w2分别与v1、v2、v3、v4、v5进行余弦相似度计算,则会有10个 余弦相似度结果,取10个余弦相似度结果中的最大值,假设最大值是由 w2和v2计算得到,且该余弦相似度最大值大于预设阈值,则该条资讯数据 的实体对象为v2所对应的实体对象。
[0049]
对于s202中的目标基金的知识图谱,构建知识图谱的第一种实施方式 可以是:获取用于构建目标基金的知识图谱的基础数据,例如可以是通过 上述的方式(如上述s100中获取目标网站的金融、经济类新闻资讯数据或 博客、论坛数据的方式)获取基金公告或年报、新闻等基础数据;再对获 取到的基础数据进行筛选与分析,获取每条基础数据中的实体对象、以及 实体对象与目标基金的关系,之后,基于获取到的实体对象及实体对象与 目标基金的关系,构建目标基金的知识图谱。
[0050]
构建知识图谱的第二种实施方式可以是:基于金融数据服务机构提供 的专业基金数据库中的结构化数据构建知识图谱,专业基金数据库中包含 基金的基本信息、持仓信息、行情数据、年报等信息,可提取出构建基金 知识图谱需要的实体对象及其与目标基金的关系等数据。
[0051]
为了便于理解,以目标基金为“汇添富”基金为例,汇添富基金的知识图 谱如图3所示。基金知识图谱中,实体对象包括:汇添富、韦尔股份、海 康威视等。实体与目标基金的关系包括:重仓股,如汇添富基金重仓持有 韦尔股份;主要原材料,如晶圆是韦尔股份的最主要原材料;基金经理, 如张朋任职汇添富基金经理;重仓债券,如汇添富基金重仓持有三花转债; 大股东,如龚虹嘉是韦尔股份的大股东;供应商,如某公司是韦尔股份的 主要供应商等等。
[0052]
上述两种构建知识图谱的实施方式中,获取每条基础数据中的所有实 体对象,可以是:针对每条基础数据,先对该条基础数据进行文本内容预 处理,再基于预处理后的基础数据进行关键字提取,然后再对关键字中的 名词进行实体消岐(解决“一词多义”现象)
练好的重要性分析模型。之后,在应用模型时,只需要将资讯数据的关键 字、资讯数据与目标基金的关系输入重要性分析模型中进行重要性分析, 便可输出资讯数据对目标基金的重要性。
[0063]
由本技术进行模型训练的第二种实施方式,可以是:获取多条训练样 本数据,每条训练样本数据包括资讯数据的关键字、资讯数据与目标基金 的关系、资讯数据对应的实体对象占目标基金的仓位比例或者是该资讯数 据对应的实体对象的父节点所对应的实体对象占目标基金的仓位比例、重 要性标签;之后利用多条训练样本数据对初始的重要性分析模型进行训练, 以使重要性分析模型能够学习资讯数据的关键字、资讯数据与目标基金的 关系、资讯数据对应的实体对象或该资讯数据对应的实体对象的父节点所 对应的实体对象占目标基金的仓位比例这三者和重要性标签之间的对应关 系,从而得到训练好的重要性分析模型。之后,在应用模型时,只需要将 资讯数据的关键字、资讯数据与目标基金的关系、资讯数据对应的实体对 象或者是该资讯数据对应的实体对象的父节点所对应的实体对象占目标基 金的仓位比例输入重要性分析模型中进行重要性分析,便可输出资讯数据 对目标基金的重要性。
[0064]
其中,具体的模型训练过程已经为本领域所熟知,在此不再介绍。
[0065]
由本技术进行模型训练的训练数据中,资讯数据的获取方式可以如上 述方式(如s100中获取目标网站的金融、经济类新闻资讯数据或博客、论 坛数据的获取方式)进行获取,也可以是事先存储的历史资讯数据。
[0066]
由本技术进行模型训练的训练数据中,资讯数据的关键字的获取方式 可以如上述方式(如s201中对每一条所述资讯数据进行关键字提取)进行 获取。
[0067]
由本技术进行模型训练的训练数据中,资讯数据与目标基金的关系的 获取方式可以是如上述方式(先如s202中基于每一条所述资讯数据对应的 关键字,得到该条资讯数据对应的实体对象,再如s203根据每一条资讯数 据对应的实体对象,得到每一条所述资讯数据与所述目标基金的关系)进 行获取,也可以是人工输入的方式获取资讯数据与目标基金的关系。
[0068]
由本技术进行模型训练的训练数据中,资讯数据对应的实体对象占目 标基金的仓位比例的获取方式如上述方式(如s100中,通过爬虫爬取需要 的数据)进行获取,或者可以是人工输入的方式。如果资讯数据的实体对 象不属于目标基金的持仓股票或债券,则以特殊符号(na或999等)表示, 如韦尔股份占汇添富基金仓位比例为6.97%,张朋占汇添富基金仓位比例为 999。
[0069]
由本技术进行模型训练的训练数据中,重要性标签的获取方式可以为 人工给资讯数据对目标基金的重要性进行评级。本技术中的重要性可以按 照等级进行划分为从无关到非常重要的多个等级,如重要性等级按等级-程 度划分为:0-无关紧要;1-次要;2-重要;3-非常重要,例如,“晶圆大幅 涨价”对于汇添富基金的重要性为3-非常重要。
[0070]
对于重要性分析模型的训练,另一种实施方式下,获取预设的重要性 分析模型可以是从第三方获取,其训练过程可以是由第三方进行模型训练。
[0071]
s400:将重要性大于预设阈值的资讯数据进行排序展示。
[0072]
s400步骤的一种实施方式下,在取得所有资讯数据对目标基金的重要 性后,或是每取得一条资讯数据对目标基金的重要性后,重要性大于阈值 的资讯数据进入待展示列
表;重要性不大于阈值的资讯数据或关系为“未 发现相关关系”的资讯数据不进行展示,该两类资讯数据不进入待展示列 表。
[0073]
其中阈值可以根据本技术实施例中的重要性等级划分,如阈值设定为 次要(重要性等级1),即只有重要(重要性等级2)和非常重要(重要性 等级3)的资讯数据会进入待展示列表,最终的展示界面如图4所示,其中 展示顺序可以为待展示列表按照时间顺序或重要性顺序等进行排序,展示 界面的要素包括:资讯数据与目标基金的关系、资讯标题、资讯来源、资 讯发布时间、资讯正文等。
[0074]
s400步骤的另一种实施方式下,可以展示待展示列表中,预设个数的 资讯数据,如预设个数为20,则展示界面将展示待展示列表中前20条资讯 数据。
[0075]
对于资讯数据存储,一种实施方式下可以采用关系型数据库进行存储, 如mysql数据库,或是又一种实施方式下基于分布式数据库(如hbase) 的方式存储资讯数据。
[0076]
本技术实施例还提供了一种资讯分析和展示装置100,如图5所示,该 资讯分析和展示装置100,包括:获取模块110、分析模块120、展示模块 130。
[0077]
获取模块110,用于获取目标网站的金融、经济类新闻资讯数据或博客、 论坛数据。
[0078]
分析模块120,用于确定每一条所述资讯数据与所述目标基金的关系, 以及根据每一条所述资讯数据及每一条所述资讯数据与所述目标基金的关 系,确定每一条所述资讯数据对所述目标基金的重要性。
[0079]
展示模块130,用于将重要性大于预设阈值的资讯数据进行排序展示。
[0080]
可选地,分析模块120,用于对每一条所述资讯数据进行关键字提取; 基于每一条所述资讯数据对应的关键字,得到该条资讯数据对应的实体对 象;根据每一条资讯数据对应的实体对象,得到每一条所述资讯数据与所 述目标基金的关系。
[0081]
可选地,分析模块120,用于对每一条所述资讯数据进行文本内容预处 理;对预处理后的每一条所述资讯数据进行关键字提取;其中,对每一条 所述资讯数据进行文本内容预处理,包括:去除无用字符、去除表情符号、 将繁体字转换成简体字。
[0082]
可选地,分析模块120,用于将资讯数据提取出的关键字、该条资讯数 据与所述目标基金的关系、该条资讯数据对应的实体对象或者该资讯数据 对应的实体对象的父节点所对应的实体对象占所述目标基金的仓位比例均 输入预设的重要性分析模型中进行处理;得到该条资讯数据对所述目标基 金的重要性。
[0083]
资讯分析与展示装置100还包括:训练模块,用于对本技术实施例中 的重要性分析模型进行训练,其中获取模块110还可以用于获取训练模块 所需的多条训练数据,所述训练数据包括资讯数据的关键字、资讯数据与 目标基金的关系、资讯数据对应的实体对象或该资讯数据对应的实体对象 的父节点所对应的实体对象所占的目标基金的仓位比例以及重要性标签。
[0084]
本技术实施例所提供的资讯分析与展示装置100,其实现原理及产生的 技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之 处,可参考前述方法实施例中相应内容。
[0085]
如图6所示,图6示出了本技术实施例提供的一种电子设备200的结 构框图。所述电子设备200包括:收发器210、存储器220、通讯总线230 以及处理器240。
[0086]
所述收发器210、所述存储器220、处理器240各元件相互之间直接或 间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可 通过一条或多条通讯总线230或信号线实现电性连接。其中,收发器210 用于收发数据。存储器220用于存储计算机程序,如存储有图5中所示的 软件功能模块,即资讯分析与展示装置100。其中,资讯分析与展示装置 100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器220 中或固化在所述电子设备200的操作系统(operating system,os)中的软 件功能模块。所述处理器240,用于执行存储器220中存储的可执行模块, 例如资讯分析与展示装置100包括的软件功能模块或计算机程序。例如, 处理器240,用于获取目标网站的金融、经济类新闻资讯数据或博客、论坛 数据;确定每一条所述资讯数据与所述目标基金的关系;根据每一条所述 资讯数据及每一条所述资讯数据与所述目标基金的关系,确定每一条所述 资讯数据对所述目标基金的重要性;将重要性大于预设阈值的资讯数据进 行排序展示。
[0087]
其中,存储器220可以是,但不限于,随机存取存储器 (random access memory,ram),只读存储器(read only memory,rom), 可编程只读存储器(programmable read-only memory,prom),可擦除 只读存储器(erasable programmable read-only memory,eprom),电可 擦除只读存储器(electric erasable programmable read-only memory, eeprom)等。
[0088]
处理器240可能是一种集成电路芯片,具有信号的处理能力。上述的 处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、 网络处理器(network processor,np)等;还可以是数字信号处理器(digitalsignal processor,dsp)、专用集成电路(application specific integrated circuit, asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他 可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现 或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器 可以是微处理器或者该处理器240也可以是任何常规的处理器等。
[0089]
其中,上述的电子设备200,包括但不限于交换机、路由器等。
[0090]
本技术实施例还提供了一种非易失性的计算机可读取存储介质(以下 简称存储介质),该存储介质上存储有计算机程序,该计算机程序被计算 机如上述的电子设备200运行时,执行上述所示的资讯分析与展示方法。
[0091]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每 个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同 相似的部分互相参见即可。
[0092]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法, 也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的, 例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方 法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流 程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所 述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能 的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标 注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方 框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依 所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及 框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的 基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0093]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个 独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集 成形成一个独立的部分。
[0094]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本技术 的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部 分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机 可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计 算机,笔记本电脑,服务器,或者电子设备等)执行本技术各个实施例所述 方法的全部或部分步骤。而前述的计算机可读存储介质包括:u盘、移动 硬盘、只读存储器(read-only memory,rom)、随机存取存储器(randomaccess memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0095]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可 轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术 的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1