一种信息风险等级五级分类方法及系统与流程

文档序号:13137970阅读:1317来源:国知局
一种信息风险等级五级分类方法及系统与流程

本发明涉及互联网技术领域,特别涉及一种信息风险等级五级分类方法及系统。



背景技术:

在大数据兴起之前,商业银行等传统金融机构,主流风控策略是以央行征信报告以及本行内的交易信息,主体自行提供的财务信息等为主要数据源,辅以最高院的主体涉诉信息,以专家经验或专家规则为评判策略。而这些信息相对滞后并且数量不全,往往会使银行在信审时漏掉大量重要风险线索;在贷款后难以实时发现风险问题,作出及时的处理方案。

随着互联时代的到来,在消费、投资、商业合作等领域,大众越来越习惯通过网络来收集特定客体的风险信息,诸如法律纠纷、消费者投诉、曝光台等信息,以达到筛选风险对象,降低行为风险的目的。

但是随着互联网发展,通过传统搜索引擎或政府网站来检索目标客体风险信息的方式,已经不能满足大众对于风险信息的检索需求。

一方面,国内主要搜索引擎,诸如百度、搜狗、360等搜索网站,其收录内容重复且有限,并能够通过特定的优化手段,将负面信息稀释和沉底,使大众难以检索到有效风险信息。

另一方面,大量未被主要搜索引擎收录的负面信息,广泛的分布在各个网络站点,人力难以完整收集。以涉诉信息为例,最高法院网站收录的涉诉信息仅不到3000万条,其他涉诉信息广泛的分布在各地方法院网站之中,很难通过人力进行完整收集。

因此,随着大数据时代的到来,越来越多的大数据企业开始提供越来越多种类的风险信息在线检索服务。不过目前市场上的风险信息检索服务,大多仍停留在类百度的瀑布流信息呈现方式,但仍需要检索方对检索数据进行大量的专业分析工作,才能实现检索价值。市场缺少能够直接提供风险数据细分和风险信息标识等专业服务的互联网风险信息检索提炼技术。



技术实现要素:

本发明的目的旨在至少解决所述技术缺陷之一。

为此,本发明的目的在于提出一种信息风险等级五级分类方法及系统。

为了实现上述目的,本发明的实施例提供一种信息风险等级五级分类方法,包括如下步骤:

步骤s1,建立风险信息数据库,其中,所述风险信息数据库存储有各个企业的相关风险信息,根据所述风险信息数据库中的风险数据建立数据训练评分模型,其中,所述数据训练评分模型将所述风险信息数据库中的风险数据划分多个风险等级,其中,所述多个风险等级包括:警报、负向、中性、正向和利好五个等级;

步骤s2,接收用户输入的关键词,根据所述关键词在所述风险信息数据库中查找对应的风险数据,并以不同数据领域对上述查找到的风险数据进行划分呈现;

步骤s3,将步骤s2中的与关键词对应的风险数据,依据所述数据训练评分模型设定的风险等级,分别以各个风险等级形式对风险数据进行罗列显示,以提供给用户查看,以有所述用户根据对提示的警报和负向风险数据,采取防范措施。

进一步,在所述步骤s1中,所述风险信息数据库中的风险信息,包括:涉诉信息、工商信息、税务信息、媒体信息、上市公司、冻结查封环保信息、食品药品监督、质检信息、卫生信息、社会信息、知识产权、招投标、招聘信息、低压信息、网贷黑名单、央行银监和车管所。

进一步,在所述步骤s1中,对所述风险信息数据库中的风险数据进行特征分析,获取最优数据子集,并采用规则归纳的机器学习方法进行训练,以区分数据的属性,并在确定数据的等级分类后,对该数据添加对应的等级标签。

进一步,在所述步骤s3之后,对同一领域下不同数据维度对应的风险数据进行呈现,其中,所述数据维度包括:裁判文书、执行公告、失信公告、法院公告、案件流程、开庭公告、司法曝光台、司法拍卖、破产信息、起诉书、抗诉书、不起诉决定书、刑事申述、检察院法律文书、听证公告、送达公告、悬赏公告、减刑假释和其他公告。

进一步,还包括如下步骤:对设置等级标签后的风险数据进行复核校正。

本发明实施例的信息风险等级五级分类系统,包括:数据训练评分模型模块、关键词查找模块、风险等级划分模块、数据呈现模块,其中,

所述数据训练评分模型模块用于建立风险信息数据库,其中,所述风险信息数据库存储有各个企业的相关风险信息,根据所述风险信息数据库中的风险数据建立数据训练评分模型,其中,所述数据训练评分模型将所述风险信息数据库中的风险数据划分多个风险等级,其中,所述多个风险等级包括:警报、负向、中性、正向和利好五个等级;

所述关键词查找模块用于接收用户输入的关键词,根据所述关键词在所述风险信息数据库中查找对应的风险数据,并以不同数据领域对上述查找到的风险数据通过所述数据程序模块进行划分呈现;

所述风险等级划分模块用于将与关键词对应的风险数据,依据所述数据训练评分模型设定的风险等级,分别以各个风险等级形式对风险数据进行罗列显示,以提供给用户查看,以有所述用户根据对提示的警报和负向风险数据,采取防范措施。

进一步,所述风险信息数据库中的风险信息,包括:涉诉信息、工商信息、税务信息、媒体信息、上市公司、冻结查封环保信息、食品药品监督、质检信息、卫生信息、社会信息、知识产权、招投标、招聘信息、低压信息、网贷黑名单、央行银监和车管所。

进一步,所述数据训练评分模型模块对所述风险信息数据库中的风险数据进行特征分析,获取最优数据子集,并采用规则归纳的机器学习方法进行训练,以区分数据的属性,并在确定数据的等级分类后,对该数据添加对应的等级标签。

进一步,所述数据呈现模块对同一领域下不同数据维度对应的风险数据进行呈现,其中,所述数据维度包括:裁判文书、执行公告、失信公告、法院公告、案件流程、开庭公告、司法曝光台、司法拍卖、破产信息、起诉书、抗诉书、不起诉决定书、刑事申述、检察院法律文书、听证公告、送达公告、悬赏公告、减刑假释和其他公告。

进一步,对设置等级标签后的风险数据进行复核校正。

根据本发明实施例的信息风险等级五级分类方法及系统,采取的信息风险等级五级分类技术,有效解决了风险信息检索中,信息重复、信息嘈杂、信息读取提取难度大、信息权重不明、信息风险等级不明等难题,不但可以实现检索条件叠加,检索内容有效性更强,而且通过对目标内容的整合和提炼,对其风险等级、关键词、标题、内容摘要、相关条数进行梳理呈现,极大提高了检索者对信息的理解效率。本发明有效实现了“检索即结果”的搜索目的,对于每一项被检索风险信息,都进行了风险等级标注,让检索方对检索内容一目了然,重点鲜明突出。

本发明通过创新性的检索结果呈现方式来进行外部呈现。检索者在搜索框输入相关的关键词,检索结果通过去重提炼,按照风险等级的高低依次排列后,得到的每一条搜索结果都含有风险等级评定、信息类型、信息细分维度、关键信息提炼等内容。以裁判文书为例,每一条被检索到的裁判文书都包含有风险等级、信息类型、审核时间、处理机构、原告、案由等内容,极大提高了检索者对信息的理解效率。另外,检索者还可以根据具体数据类型,对检索数据进行超过100种的数据细分,达到细分维度数据的精准到达。

本发明区别于传统主流搜索引擎的检索特点,通过对监控频道的全面信息采集和智能清洗,实现了更全面的风险信息检索和输出。单条信息风险等级标识和核心摘要生成,以及特定关键词风险报告自动生成的技术实现,更方便了使用者对信息的理解和使用,通过对检索信息的多重智能处理,很好的实现了风险信息检索领域“检索即结果”的实用目的。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明实施例的信息风险等级五级分类方法的流程图;

图2为根据本发明实施例的信息风险等级五级分类系统的结构图;

图3a和图3b为根据本发明实施例的搜索入口原型界面图;

图4为根据本发明实施例的搜索页面原型界面图;

图5为根据本发明实施例的风险导航的原型界面图;

图6为根据本发明实施例的领域区域原型界面图;

图7为根据本发明实施例的维度区域原型界面图;

图8为根据本发明实施例的信息风险等级五级分类前端界面。

具体实施方式

下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

如图1所示,本发明实施例的信息风险等级五级分类方法,包括如下步骤:

步骤s1,建立风险信息数据库,其中,风险信息数据库存储有各个企业的相关风险信息,根据风险信息数据库中的风险数据建立数据训练评分模型,其中,数据训练评分模型将风险信息数据库中的风险数据划分多个风险等级。其中,多个风险等级包括:警报、负向、中性、正向和利好五个等级。

下面参考表1对五个风险等级的划分标准进行说明。风险评定标准以司法诉讼与新闻舆情为标准。

1.司法诉讼风险等级划分标准

单条风险等级标准:

表1

需要说明的是,a和b的金额是在特定场景下的标准,不同的场景及客户,其对应的数值是不一样的,支持用户自行配置。

司法诉讼总体风险等级评判如下:

出现严重警报,风险等级为严重警报;

5条(含)以上警报,风险等级为严重警报;

5条(含)以上关注,风险等级为警报。

2.新闻舆情等级划分标准

利好:企业注资

正向:除企业注资外的正面信息

中性:中性信息

负向:除警报外的负面信息

警报:重大投诉、事故、群体事件、新闻媒体曝光类负面信息

新闻舆情总体风险等级:与司法诉讼整体风险等级处理模式相同,出现负面新闻(无论是否有正面)时,5条(含)以上风险等级总体提升一级;全部为正向和利好时,风险等级为正向。

在本发明的一个实施例中,风险信息数据库中的风险信息,包括:涉诉信息、工商信息、税务信息、媒体信息、上市公司、冻结查封环保信息、食品药品监督、质检信息、卫生信息、社会信息、知识产权、招投标、招聘信息、低压信息、网贷黑名单、央行银监和车管所。

需要说明的是,风险信息数据库中存储的风险信息不限于上述,还可以包括其他信息,由管理员根据风险管控的评判标准的变化进行添加,在此不再赘述。

具体地,对风险信息数据库中的风险数据进行特征分析,获取最优数据子集。其中,特征选择是指从全部特征中选取一个特征子集,使得使构造出来的模型效果更好,推广能力更强。

特征选择的过程如下:从全部特征中选择一个最优的子集,使得其在一定的评价标准下,在当前训练和测试数据上表现最好。

从这个层面上理解,特征选择可以看作三个问题:

1.从原始特征集中选出固定数目的特征,使得分类器的错误率最小这是一个无约束的组合优化问题;

2.对于给定的允许错误率,求维数最小的特征子集,这是一种有约束的最优化问题;

3.在错误率和特征子集的维数之间进行折中。

上述3个问题都是一个np(non-deterministicpolynomial,非确定多项式)难问题,当特征维度较小时,实现起来可行,但是当维度较大时,实现起来的复杂度很大,所以实际应用中很难实用。上述三种特征选择都属于np难的问题。由于求最优解的计算量太大,需要在一定的时间限制下寻找能得到较好次优解的算法。

然后,采用规则归纳的机器学习方法进行训练,以区分数据的属性,并在确定数据的等级分类后,采用人工智能学习方法对该数据添加对应的等级标签。

具体地,上述五级风险等级是通过大量的司法、媒体舆情等数据进行特征抽取分析,建立数据训练评分模型,通过ner,自然语言分词、链接和显著性、情感分析、事实提取等技术对数据打标签,人工数据抽检分析测试,反复训练数据训练评分模型,从而达到数据五级分类指标。

机器学习(machinelearning)是一种使获取知识自动化的计算方法的学习。目的是使计算机获取新的知识或技能,从而不断改善自身的性能。机器学习技术被广泛用于分类(classification)、预测(prediction)、关联(association)以及侦查(detection)等目的。

本系统采用的是规则归纳(ruleinduction)的机器学习方法,该技术利用训练集中产生的一棵决策树或一组决策规则来进行分类。其优点在于易于处理大型数据,适合进行分类和预测。

对于整理后的不同数据,其数据间有明确以及清晰的分类标准。因此,利用机器学习技术中的规则归纳方法,先人工整理并提取数据,准备相关分类的训练集文本放置到相应的目录下,自动机器学习训练,并借此来确定用来区分的属性,当分类属性确定好后,可以通过分析对新的数据进行合适的分类,为数据打上标签。

需要说明的是,本发明进一步对设置等级标签后的风险数据进行复核校正。具体地,在数据通过人工智能分析打标签后,通过人工核实数据标签准确率,如有问题上传数据进行反复训练,从而达到数据分类的准确率。

步骤s2,接收用户输入的关键词,根据关键词在风险信息数据库中查找对应的风险数据,并以不同数据领域对上述查找到的风险数据进行划分呈现。

步骤s3,将步骤s2中的与关键词对应的风险数据,依据数据训练评分模型设定的风险等级,分别以各个风险等级形式对风险数据进行罗列显示,以提供给用户查看,以有用户根据对提示的警报和负向风险数据,采取防范措施。

在本步骤中,对同一领域下不同数据维度对应的风险数据进行呈现,其中,数据维度包括:裁判文书、执行公告、失信公告、法院公告、案件流程、开庭公告、司法曝光台、司法拍卖、破产信息、起诉书、抗诉书、不起诉决定书、刑事申述、检察院法律文书、听证公告、送达公告、悬赏公告、减刑假释和其他公告。

如图2所示,本发明实施例的信息风险等级五级分类系统,包括:数据训练评分模型模块1、关键词查找模块2、风险等级划分模块3、数据呈现模块4。

具体地,数据训练评分模型模块1用于建立风险信息数据库,其中,风险信息数据库存储有各个企业的相关风险信息,根据风险信息数据库中的风险数据建立数据训练评分模型,其中,数据训练评分模型将风险信息数据库中的风险数据划分多个风险等级,其中,多个风险等级包括:警报、负向、中性、正向和利好五个等级。

下面参考表1对五个风险等级的划分标准进行说明。风险评定标准以司法诉讼与新闻舆情为标准。

1.司法诉讼风险等级划分标准

单条风险等级标准:

表1

需要说明的是,a和b的金额是在特定场景下的标准,不同的场景及客户,其对应的数值是不一样的,支持用户自行配置。

司法诉讼总体风险等级评判如下:

出现严重警报,风险等级为严重警报;

5条(含)以上警报,风险等级为严重警报;

5条(含)以上关注,风险等级为警报。

2.新闻舆情等级划分标准

利好:企业注资

正向:除企业注资外的正面信息

中性:中性信息

负向:除警报外的负面信息

警报:重大投诉、事故、群体事件、新闻媒体曝光类负面信息

新闻舆情总体风险等级:与司法诉讼整体风险等级处理模式相同,出现负面新闻(无论是否有正面)时,5条(含)以上风险等级总体提升一级;全部为正向和利好时,风险等级为正向。

在本发明的一个实施例中,风险信息数据库中的风险信息,包括:涉诉信息、工商信息、税务信息、媒体信息、上市公司、冻结查封环保信息、食品药品监督、质检信息、卫生信息、社会信息、知识产权、招投标、招聘信息、低压信息、网贷黑名单、央行银监和车管所。

需要说明的是,风险信息数据库中存储的风险信息不限于上述,还可以包括其他信息,由管理员根据风险管控的评判标准的变化进行添加,在此不再赘述。

具体地,数据训练评分模型模块1对风险信息数据库中的风险数据进行特征分析,获取最优数据子集,并采用规则归纳的机器学习方法进行训练,以区分数据的属性,并在确定数据的等级分类后,对该数据添加对应的等级标签。

特征选择是指从全部特征中选取一个特征子集,使得使构造出来的模型效果更好,推广能力更强。

特征选择的过程如下:从全部特征中选择一个最优的子集,使得其在一定的评价标准下,在当前训练和测试数据上表现最好。

从这个层面上理解,特征选择可以看作三个问题:

1.从原始特征集中选出固定数目的特征,使得分类器的错误率最小这是一个无约束的组合优化问题;

2.对于给定的允许错误率,求维数最小的特征子集,这是一种有约束的最优化问题;

3.在错误率和特征子集的维数之间进行折中。

上述3个问题都是一个np(non-deterministicpolynomial,非确定多项式)难问题,当特征维度较小时,实现起来可行,但是当维度较大时,实现起来的复杂度很大,所以实际应用中很难实用。上述三种特征选择都属于np难的问题。由于求最优解的计算量太大,需要在一定的时间限制下寻找能得到较好次优解的算法。

然后,采用规则归纳的机器学习方法进行训练,以区分数据的属性,并在确定数据的等级分类后,采用人工智能学习方法对该数据添加对应的等级标签。

具体地,上述五级风险等级是通过大量的司法、媒体舆情等数据进行特征抽取分析,建立数据训练评分模型,通过ner,自然语言分词、链接和显著性、情感分析、事实提取等技术对数据打标签,人工数据抽检分析测试,反复训练数据训练评分模型,从而达到数据五级分类指标。

机器学习(machinelearning)是一种使获取知识自动化的计算方法的学习。目的是使计算机获取新的知识或技能,从而不断改善自身的性能。机器学习技术被广泛用于分类(classification)、预测(prediction)、关联(association)以及侦查(detection)等目的。

本系统采用的是规则归纳(ruleinduction)的机器学习方法,该技术利用训练集中产生的一棵决策树或一组决策规则来进行分类。其优点在于易于处理大型数据,适合进行分类和预测。

对于整理后的不同数据,其数据间有明确以及清晰的分类标准。因此,利用机器学习技术中的规则归纳方法,先人工整理并提取数据,准备相关分类的训练集文本放置到相应的目录下,自动机器学习训练,并借此来确定用来区分的属性,当分类属性确定好后,可以通过分析对新的数据进行合适的分类,为数据打上标签。

此外,进一步对设置等级标签后的风险数据进行复核校正。具体地,在数据通过人工智能分析打标签后,通过人工核实数据标签准确率,如有问题上传数据进行反复训练,从而达到数据分类的准确率。

关键词查找模块2用于接收用户输入的关键词,根据关键词在风险信息数据库中查找对应的风险数据,并以不同数据领域对上述查找到的风险数据通过数据程序模块进行划分呈现。

风险等级划分模块3用于将与关键词对应的风险数据,依据数据训练评分模型设定的风险等级,分别以各个风险等级形式对风险数据进行罗列显示,以提供给用户查看,以有用户根据对提示的警报和负向风险数据,采取防范措施。

在本发明的一个实施例中,数据呈现模块4对同一领域下不同数据维度对应的风险数据进行呈现,其中,数据维度包括:裁判文书、执行公告、失信公告、法院公告、案件流程、开庭公告、司法曝光台、司法拍卖、破产信息、起诉书、抗诉书、不起诉决定书、刑事申述、检察院法律文书、听证公告、送达公告、悬赏公告、减刑假释和其他公告。

本发明通过创新性的检索结果呈现方式来进行外部呈现。

在第一种外部呈现方式(例1)中,检索者在搜索框输入相关的关键词,检索结果通过去重提炼,按照风险等级的高低依次排列后,得到的每一条搜索结果都含有风险等级评定、信息类型、信息细分维度、关键信息提炼等内容。以裁判文书为例,每一条被检索到的裁判文书都包含有风险等级、信息类型、审核时间、处理机构、原告、案由等内容,极大提高了检索者对信息的理解效率。另外,检索者还可以根据具体数据类型,对检索数据进行超过100种的数据细分,达到细分维度数据的精准到达。

在第二种外部呈现方式中,检索者在搜索框输入相关的关键词,即可即时得到专业的风险评估报告,包括了企业评分、操作建议、企业资质、涉诉信息等内容简述,每一份风险评定材料都可追溯到数据源头,每一项版块数据(如企业基本信息、司法诉讼、风险点筛查等)都可进一步展开,可供展开的细分维度多达几十项,并能够实现对既定检索目标的定期更新,更进一步的实现了“检索即结果”的风险信息处理目标。

图3a和图3b为根据本发明实施例的搜索入口原型界面图。图4为根据本发明实施例的搜索页面原型界面图。通过关键字搜索,展示全文,支持有数领域高亮显示,通过领域和维度划分,更清晰的找到所需数据,数据划分风险5级,每条数据都有自己的风险机制,快速筛选严重警报数据,第一时间进行预防措施。图5为根据本发明实施例的风险导航的原型界面图。进入搜索界面,搜索结果按照风险导航分类显示。图6为根据本发明实施例的领域区域原型界面图。数据领域列表显示当前19个领域,筛选条件分为时间和关键字两个方面,适用于所有数据领域,点击单一领域跳转到该领域下的维度。图7为根据本发明实施例的维度区域原型界面图。此区域显示某一领域下的数据维度(例:此原型为涉诉信息下的数据维度)。图8为根据本发明实施例的信息风险等级五级分类前端界面。从图中可以看出,将关键词的相关风险信息分别以五级风险分类显示,并且每个类别下的数量均显示给用户,便于统计查看。

本发明基于人工智能的数据五级分,对大量的风险信息进行了风险等级划分,包括利好、正向、中性、负向、警报,帮助银行及时找到有效信息,及早作出处理。并且本发明为人工智能系统,客观采集、解析并评估贷款单位,杜绝了人为操作带来的风险。

根据本发明实施例的信息风险等级五级分类方法及系统,采取的信息风险等级五级分类技术,有效解决了风险信息检索中,信息重复、信息嘈杂、信息读取提取难度大、信息权重不明、信息风险等级不明等难题,不但可以实现检索条件叠加,检索内容有效性更强,而且通过对目标内容的整合和提炼,对其风险等级、关键词、标题、内容摘要、相关条数进行梳理呈现,极大提高了检索者对信息的理解效率。本发明有效实现了“检索即结果”的搜索目的,对于每一项被检索风险信息,都进行了风险等级标注,让检索方对检索内容一目了然,重点鲜明突出。

本发明通过创新性的检索结果呈现方式来进行外部呈现。检索者在搜索框输入相关的关键词,检索结果通过去重提炼,按照风险等级的高低依次排列后,得到的每一条搜索结果都含有风险等级评定、信息类型、信息细分维度、关键信息提炼等内容。以裁判文书为例,每一条被检索到的裁判文书都包含有风险等级、信息类型、审核时间、处理机构、原告、案由等内容,极大提高了检索者对信息的理解效率。另外,检索者还可以根据具体数据类型,对检索数据进行超过100种的数据细分,达到细分维度数据的精准到达。

本发明区别于传统主流搜索引擎的检索特点,通过对监控频道的全面信息采集和智能清洗,实现了更全面的风险信息检索和输出。单条信息风险等级标识和核心摘要生成,以及特定关键词风险报告自动生成的技术实现,更方便了使用者对信息的理解和使用,通过对检索信息的多重智能处理,很好的实现了风险信息检索领域“检索即结果”的实用目的。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1