一种发现互联网金融舆情监管目标的方法与流程

文档序号:14389955阅读:385来源:国知局
一种发现互联网金融舆情监管目标的方法与流程

本发明涉及互联网金融大数据领域,尤其涉及一种发现互联网金融舆情监管目标的方法。



背景技术:

近年来随着互联网技术的发展和普及,传统金融机构与互联网企业结合,利用互联网技术提供金融类相关服务,以互联网为平台开展各类金融活动,传统金融机构与互联网企业结合的模式为广大网民带来方便的同时产生诸多弊端。由于信息不透明,行业准入门槛低,相关服务以及资金缺乏监管等原因,造成部分企业资金断裂、无法按约定履行金融合同乃至毁约,给相关参与者造成巨大经济损失,给社会造成巨大不良影响。

舆情监测是现有互联网监测中的一种重要解决方案,舆情监测众多方式中,关键词监测是一种行之有效的手段,通过配置关键词能够对目标在互联网的信息进行监测,及时有效进行预警,但互联网金融企业众多,需要一种能够及时发现互联网金融的监管目标并形成监测关键词的方法。



技术实现要素:

本发明的目的在于提供一种发现互联网金融舆情监管目标的方法,从而解决现有技术中存在的前述问题。

为了实现上述目的,本发明所述发现互联网金融舆情监管目标的方法,所述方法包括:

s1,实时获取备选互联网金融企业的网站地址,并将所述网站地址存储在网页待解析库中;

s2,对网页待解析库中新增的网站地址所对应的网页解析,得到备选互联网金融企业的名称,将验证成功后的名称作为互联网金融企业监测目标,完成发现互联网金融舆情监管目标。

优选地,s1中,通过搜索和/或门户网站扫描,实时获取备选互联网金融企业的网站地址。

更优选地,通过搜索,实时获取备选互联网金融企业的网站地址,具体为:

设置互联网金融行业搜索目标关键词集合,通过自动化采集搜索方式在搜索引擎检索,将搜索引擎返回结果中前三页的每个搜索结果对应的网站地址作为备选互联网金融企业的网站地址。

更优选地,通过门户网站扫描,实时获取备选互联网金融企业的网站地址,具体为:通过扫描互联网金融企业门户网站的网贷平台推荐、查询功能,获取新出现的互联网金融企业的网站页面所对应的网站地址,并将该网站地址作为备选互联网金融企业的网站地址。

优选地,在实时获取备选互联网金融企业的网站地址与将网站地址存储在网页待解析库之间还包括:判断获取的任意一个备选互联网金融企业的网站地址a是否被采集过,如果是,则忽略该网站地址a;如果否,则将该网站地址a存储到网页待解析库中。

优选地,s2具体按照下述实现:

s21,获取网页待解析库中任意一个新增网站地址b对应的网页,判断所述网页是否为互联网金融企业的网站首页,如果是,则进入s22;如果否,则忽略新增网站地址b,继续判断下一个新增网站地址;

s22,从所述互联网金融企业的网站首页上获取页面标题信息;

解析页面标题信息,通过页面标题信息中的分隔符将页面标题信息划分为多段,对每一段进行分词,将分词结果作为新产生的关键词存入标题分词结果库;所述分隔符包括下划线、横杠;

s23,在预先建立的金融语料库的基础上,通过加权方式计算新产生关键词的出现率,得出现率排序低的词,将排序低的词组合为备选互联网金融企业的名称集合;

s24,在icp备案网站验证得到的备选互联网金融企业的名称集合中的名称是否合法,如果是,则记录备选互联网金融企业的名称及企业信息,并将备选互联网金融企业的名称作为该企业的监测关键词。

更优选地,s21中,判断所述网页为互联网金融企业的网站首页的依据:所述网页中存在注册入口标识、icp备案信息标识和特定的首页栏目标识;所述特定的首页栏目包括联系我们标识、关于团队标识和免责声明标识。

更优选地,s23中,通过加权方式计算新产生关键词的出现率,按出现率从低到高排序,将排序靠前的三个词作为出现率排序低的词。

更优选地,s22中还包括:从所述互联网金融企业的网站首页上获取锚文本外链;

判断锚文本外链对应的网站地址是否被采集过,如果未被采集,则将锚文本外链对应的网站地址作为新增网站地址存储于网页待解析库;如果已经被采集过,忽略该锚文本外链对应的网站地址,判断下一个锚文本外链对应的网站地址。

本发明的有益效果是:

本发明所述方法自动发现互联网金融企业目标,找到其对应的网站地址,通过初期配置后自循环发现,不需要长期人工干预,通过长期运行有效地发现新增互联网金融企业目标。

本发明所述方法发现互联网金融企业的简称,形成互联网金融企业舆情监测的关键词目标列表。

附图说明

图1是所述发现互联网金融舆情监管目标的方法s1的流程示意图;

图2是所述发现互联网金融舆情监管目标的方法s2的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。

本发明所述方法通过对互联网内容进行搜集,结合各类通道的信息,不发现新互联网金融类企业,形成互联网金融企业监测关键词,并将其作为监测目标给其他舆情监测类业务提供支持。

实施例

参照图1,本实施例所述发现互联网金融舆情监管目标的方法,所述方法包括:

s1,实时获取备选互联网金融企业的网站地址,并将网站地址存储在网页待解析库中;

s2,对网页待解析库中新增的网站地址所对应的网页解析,得到备选互联网金融企业的名称,将验证成功后的名称作为互联网金融企业监测目标,完成发现互联网金融舆情监管目标,同时不断丰富搜索关键词库和网页待解析库。

更详细的说明:

(一)s1中,通过搜索和/或门户网站扫描,实时获取备选互联网金融企业的网站地址。

1.1通过搜索,实时获取备选互联网金融企业的网站地址,具体为:设置互联网金融行业搜索目标关键词集合,通过自动化采集搜索方式在搜索引擎检索,将搜索引擎返回结果中前三页的每个搜索结果对应的网站地址作为备选互联网金融企业的网站地址。

搜索引擎包括但不限于百度商业搜索、搜狗商业搜索。一般来说新的互联网金融企业的网站上线后需要在商业搜索引擎进行推广,其相关检索排名比较靠前,因此本申请只解析搜索引擎返回结果中前三页的网页地址。

1.2通过门户网站扫描,实时获取备选互联网金融企业的网站地址,具体为:通过扫描互联网金融企业门户网站的网贷平台推荐、查询功能,获取新出现的互联网金融企业的网站页面所对应的网站地址,并将该网站地址作为备选互联网金融企业的网站地址。

(二)在实时获取备选互联网金融企业的网站地址与将网站地址存储在网页待解析库之间还包括:判断获取的任意一个备选互联网金融企业的网站地址a是否被采集过,如果是,则忽略该网站地址a;如果否,则将该网站地址a存储到网页待解析库中。

(三)s2具体按照下述实现:

s21,获取网页待解析库中任意一个新增网站地址b对应的网页,判断所述网页是否为互联网金融企业的网站首页,如果是,则进入s22;如果否,则忽略新增网站地址b,继续判断下一个新增网站地址;;

s22,从所述互联网金融企业的网站首页上获取页面标题信息;

解析页面标题信息,通过页面标题信息中的分隔符将页面标题信息划分为多段,对每一段进行分词,将分词结果作为新产生的关键词存入标题分词结果库;所述分隔符包括下划线、横杠;

s23,在预先建立的金融语料库的基础上,通过加权方式计算新产生关键词的出现率,得出现率排序低的词,将排序低的词组合成备选互联网金融企业的名称集合;除出现率最低的词外的其余新产生的关键词加入互联网金融行业搜索目标关键词集合;

s24,在icp备案网站验证得到的备选互联网金融企业的名称是否合法,如果是,则记录所述备选互联网金融企业的名称及企业信息,并将备选互联网金融企业的名称作为该企业的监测关键词。

其中,s21中,判断所述网页为互联网金融企业的网站首页的依据:所述网页中存在注册入口标识、icp备案信息标识和特定的首页栏目标识;所述特定的首页栏目包括联系我们标识、关于团队标识和免责声明标识。

其中,s23中,通过加权方式计算新产生关键词的出现率,按出现率从低到高排序,将排序靠前的三个词作为出现率排序低的词。

其中,s22中还包括:从所述互联网金融企业的网站首页上获取锚文本外链;

判断锚文本外链对应的网站地址是否被采集过,如果未被采集,则将锚文本外链对应的网站地址作为新增网站地址存储于网页待解析库;如果已经被采集过,忽略该锚文本外链对应的网站地址,判断下一个锚文本外链对应的网站地址。

更具体的实施例:

图1示出了本实施例一个实施例的流程图,该实施例给出了一种自动化发现互联网金融企业网站的方法。参考图1,本实施例包括下列步骤:

s101:配置互联网金融搜索关键词集合。

s102:更新互联网金融搜索关键词集合。

s103:对互联网金融搜索关键词集合中的目标进行搜索,解析搜索返回结果,取结果中前三页的网页地址,判断是否曾经进行过采集,如果没有则采集该网页,放入网页待解析库中。

s104:扫描互联网金融门户网站中的互联网金融平台推荐、查询功能发现新出现的互联网金融网站页面,放入网页待解析库中。

s105:重复执行s102,s103,s104。

参考图2,本实施例中对网页待解析库中的页面进行解析,找到备选企业名称并进行验证,形成互联网金融企业监测目标,同时不断丰富搜索关键词库和网页待解析库,包括下列步骤:

s201:对网页待解析库中的网页进行解析,判断是否为互联网金融网站首页,判断方法为网页是否有注册入口,是否有icp备案信息,是否有特定的首页栏目,例如关于团队,联系我们,免责声明等等。

s202:对于判定为互联网金融网站首页的页面,解析页面title信息和锚文本外链。

s203:对于锚文本外链的地址是否曾经进行过采集,如果没有采集过该类网页,则放入网页待解析库中。

s204:对title信息进行解析,通过title中常见的下划线、横杠分隔符将其进行划分,对每一段进行分词,将分词结果存入title分词结果库,找到新产生的关键词。

s205:对每个title新产生的关键词,结合已经积累的金融语料库通过计算tf-idf的方式找到最不常见的前三个词,作为备选企业名称,其余词加入互联网金融行业搜索目标关键词集合。

s206:对备选企业名称在icp备案相关网站进行查询,如果能够命中,则记录该企业的信息,备选企业名称即可作为在该企业的监测关键词。

通过采用本发明公开的上述技术方案,得到了如下有益的效果:

本发明所述方法自动发现互联网金融企业目标,找到其对应的网站地址,通过初期配置后自循环发现,不需要长期人工干预,通过长期运行有效地发现新增互联网金融企业目标。

本发明所述方法发现互联网金融企业的简称,形成互联网金融企业舆情监测的关键词目标列表。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1