一种信息处理的方法及装置与流程

文档序号:11919054阅读:149来源:国知局
一种信息处理的方法及装置与流程

本发明实施例涉及信息处理的技术领域,尤其涉及一种信息处理的方法及装置。



背景技术:

当前,全球正进行着物联网、移动互联网、云计算等新一轮信息技术变革,信息资源已经成为重要的上市公司监管利器。基于信息化武装的的股转系统不仅成为推动信息监管变革的重要引擎,也会对上市企业的监管过程带来深刻变化。但目前处理相关文档的手段还是基于最古老的人工肉眼扫描方式。这不仅需要投入大量的人力,耗费宝贵的时间和精力。

虽然目前已经开始使用新的文件管理系统进行结构化信息简单录入式存储,但过往文件及历史文件还需要人工处理。



技术实现要素:

本发明实施例的目的在于提出一种信息处理的方法及装置,旨在解决如何实现对历史、现有及未来的所有半结构化文件按照业务规则进行针对性的提取、入库、分析的目的。

为达此目的,本发明实施例采用以下技术方案:

第一方面,一种信息处理的方法,所述方法包括:

在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。

优选地,所述根据预设的业务提取规则判断公告所属的业务类型之后,还包括:

对识别不属于业务类型的公告加入到问题公告列表,以使得对应管理员及业务管理员进行验证和处理。

优选地,所述根据预设的业务提取规则判断公告所属的业务类型之后,还包括:

使用分页列表形式对抽取结果整体情况进行展示,公告列表用于提供日期时间范围和业务类型的筛选功能,并实现对数据项的选择、反选和全选功能;

所述公告列表的上方包括公告日期时间范围、业务类型的筛选选项,所述筛选选项用于接收变更筛选条件后即时刷新公告列表内容;所述公告列表的每页显示条数依照系统全局配置和用户首选项决定的,超过每页显示条数的公告通过分页进行显示;所述公告列表的审核状态包括:未审核、已审核、驳回和已完成。

优选地,所述根据预设的业务提取规则判断公告所属的业务类型之后,还包括:

根据当前选定的时间范围和业务类型,统计符合条件公告数量并在公告表的最上方进行提示。

优选地,所述方法还包括:

通过所述公告列表页面中的审核按钮接收用户触发的进入数据审核页面的请求,以使得所述用户根据数据记录对应的原始公告对抽取结果进行人工校对;

进入审核页面后,所述公告列表页面顶部显示从某种业务类型的公告抽取出来的数据指标及其值,并显示对应的原始预设类型的公告;

接收所述用户点击的指标项的按键后,在当前页面中提供给所述用户进行数据准确性确认的界面;

若所述用户对抽取有误的指标项进行修改,则对原始数据进行更新,所述公告列表中相应的数据记录由未审核变为已审核;

接收所述用户点击的返回按钮,并返回到公告列表页面。

优选地,所述方法还包括:

通过监管责任列表接收用户向管理员分配的管理员权限,所述监管责任列表是公司管理员对监管员及挂牌公司和券商进行授权的入口;

若当前情况属于预设特殊情况时,接收所述管理员根据所述管理员权限进行操作,所述管理员权限包括负责查看和处理本管理员管辖范围的挂牌公司公告;

根据所述操作反馈问题公告并生成通知单完成挂牌公司相应的业务处理。

第二方面,一种信息处理的装置,所述装置包括:

第一获取模块,用于在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

第二获取模块,用于获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

查询模块,用于针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

生成模块,用于针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。

优选地,所述装置还包括:

加入模块,用于在根据预设的业务提取规则判断公告所属的业务类型之后,对识别不属于业务类型的公告加入到问题公告列表,以使得对应管理员及业务管理员进行验证和处理;

展示模块,用于在根据预设的业务提取规则判断公告所属的业务类型之后,使用分页列表形式对抽取结果整体情况进行展示,公告列表用于提供日期时间范围和业务类型的筛选功能,并实现对数据项的选择、反选和全选功能;所述公告列表的上方包括公告日期时间范围、业务类型的筛选选项,所述筛选选项用于接收变更筛选条件后即时刷新公告列表内容;所述公告列表的每页显示条数依照系统全局配置和用户首选项决定的,超过每页显示条数的公告通过分页进行显示;所述公告列表的审核状态包括:未审核、已审核、驳回和已完成;

统计模块,用于在根据预设的业务提取规则判断公告所属的业务类型之后,根据当前选定的时间范围和业务类型,统计符合条件公告数量并在公告表的最上方进行提示。

优选地,所述装置还包括:

第一处理模块,用于通过所述公告列表页面中的审核按钮接收用户触发的进入数据审核页面的请求,以使得所述用户根据数据记录对应的原始公告对抽取结果进行人工校对;进入审核页面后,所述公告列表页面顶部显示从某种业务类型的公告抽取出来的数据指标及其值,并显示对应的原始预设类型的公告;接收所述用户点击的指标项的按键后,在当前页面中提供给所述用户进行数据准确性确认的界面;若所述用户对抽取有误的指标项进行修改,则对原始数据进行更新,所述公告列表中相应的数据记录由未审核变为已审核;接收所述用户点击的返回按钮,并返回到公告列表页面。

优选地,所述装置还包括:

第二处理模块,用于通过监管责任列表接收用户向管理员分配的管理员权限,所述监管责任列表是公司管理员对监管员及挂牌公司和券商进行授权的入口;若当前情况属于预设特殊情况时,接收所述管理员根据所述管理员权限进行操作,所述管理员权限包括负责查看和处理本管理员管辖范围的挂牌公司公告;根据所述操作反馈问题公告并生成通知单完成挂牌公司相应的业务处理。

本发明实施例提供的一种信息处理的方法及装置,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。本系统可以面向所有企事业单位,针对单位文件整体的识别分析,进行简单的业务配置并根据标准化功能,实现智能化识别。通过本项目的实施,将显著提升企事业单位的办公效率;大幅缩减了对于手动填单、人为关联的工作量。将多个工具类系统进行集成,完善了整个系统的多样性和规范性。

附图说明

图1是本发明实施例提供的一种信息处理的方法的流程示意图;

图2是本发明实施例提供的另一种信息处理的方法的流程示意图;

图3是本发明实施例提供的另一种信息处理的方法的流程示意图;

图4是本发明实施例提供的另一种信息处理的方法的流程示意图;

图5是本发明实施例提供的另一种信息处理的方法的流程示意图;

图6是本发明实施例提供的另一种信息处理的方法的流程示意图;

图7是本发明实施例通过的一种信息处理的装置的功能模块示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。

参考图1,图1是本发明实施例提供的一种信息处理的方法的流程示意图。

如图1所示,所述信息处理的方法包括:

步骤101,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

具体的,采用自主研发的半结构化文档识别技术,结合业务规则库,进行复杂的文档结构化提取。系统基于现有的信息披露平台,获取券商、企业发布的公告信息,完成PDF公告文件的信息结构化过程,识别公告对应的业务类型并提取对应的业务指标项信息。

具体的,系统通过互联网,每日定时从固定网址进行披露信息抓取。主要文件包括:

首页-信息披露-公司公告-挂牌公司

首页-信息披露-公司公告-两网及退市公司

首页-信息披露-业务周知-挂牌公司

首页-信息披露-业务周知-两网及退市公司

四个分页的全部新增公告的代码、标题、日期,以及公告正式文件。

因网络、系统故障或目标网站问题抓取失败时,每隔30分钟进行再次尝试,至业务管理员用户登录时仍存在未成功的抓取任务,则进行页面显示。

具体的,可以通过neeqpretreatment:提取字段的正则信息,以PDF/WORD/EXCEL文件及其相关联的数据库信息作为数据源,将半结构化文件进行结构化提取,并将信息提取到全文数据库和关系型数据库中。

或者,通过crawler爬虫程序从相关网站获取半结构化文件及其相关信息。文件写到本地,描述信息写到数据库中,由neeqpretreatment进行调用。

或者,通过fileimport:从mongdb等数据库中获取xbrl等文件数据,获取相关业务数据。并根据不同数据进行关联分析。

步骤102,获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

具体的,系统通过获取的公告网站标题以及公告文件内的正文标题,依据预设的业务提取规则判断公告所属的业务类型。使用核心技术识别文件内容关键信息。

对识别或不属于业务类型的公告加入到问题公告列表,由对应管理员及业务管理员进行验证和处理。

步骤103,针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

具体的,针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询。系统默认查询公告时间范围是7天(参数可配)。

具体的,通过rule正则表达式等相关技术进行文件标题、文件地址、文件内容的多重筛选过滤。

具体的,基于SOLR自主开发了一套基于简单查询、组合查询、拼音查询等多功能的检索系统;系统根据用户指定的关键词、时间范围按照多维度检索,(券商纬度、公告分类纬度等),用户录入的关键词支持单个或多个关键词的组合,提供用户多种查询方式和多种查询结果,以满足用户检索需求。

步骤104,针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。

具体的,系统针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单,整体识别技术通过简单的界面展示,方便所有人进行快捷部署。

系统采用自主研发的规则管理设计,结合正则表达式提供的校验功能,集合而成了一套可扩展可应用的综合性嵌入式功能模块。

系统通过采用规则库管理,释放了规则对于整个系统的耦合性。并增加了整个产品的可扩展能力及知识积累能力,本系统通过核心功能和规则库的解耦,实现了产品的高复用性。

本发明实施例提供的一种信息处理的方法,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。本系统可以面向所有企事业单位,针对单位文件整体的识别分析,进行简单的业务配置并根据标准化功能,实现智能化识别。通过本项目的实施,将显著提升企事业单位的办公效率;大幅缩减了对于手动填单、人为关联的工作量。将多个工具类系统进行集成,完善了整个系统的多样性和规范性。

参考图2,图2是本发明实施例提供的另一种信息处理的方法的流程示意图。

如图2所示,所述信息处理的方法包括:

步骤201,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

步骤202,获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

步骤203,对识别不属于业务类型的公告加入到问题公告列表,以使得对应管理员及业务管理员进行验证和处理;

步骤204,针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

步骤205,针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。

参考图3,图3是本发明实施例提供的另一种信息处理的方法的流程示意图。

如图3所示,所述信息处理的方法包括:

步骤301,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

步骤302,获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

步骤303,使用分页列表形式对抽取结果整体情况进行展示,公告列表用于提供日期时间范围和业务类型的筛选功能,并实现对数据项的选择、反选和全选功能;所述公告列表的上方包括公告日期时间范围、业务类型的筛选选项,所述筛选选项用于接收变更筛选条件后即时刷新公告列表内容;所述公告列表的每页显示条数依照系统全局配置和用户首选项决定的,超过每页显示条数的公告通过分页进行显示;所述公告列表的审核状态包括:未审核、已审核、驳回和已完成;

步骤304,针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

步骤305,针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。

参考图4,图4是本发明实施例提供的另一种信息处理的方法的流程示意图。

如图4所示,所述信息处理的方法包括:

步骤401,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

步骤402,获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

步骤403,根据当前选定的时间范围和业务类型,统计符合条件公告数量并在公告表的最上方进行提示;

步骤404,针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

步骤405,针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。

参考图5,图5是本发明实施例提供的另一种信息处理的方法的流程示意图。

如图5所示,所述信息处理的方法包括:

步骤501,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

步骤502,获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

步骤503,根据当前选定的时间范围和业务类型,统计符合条件公告数量并在公告表的最上方进行提示;

步骤504,通过所述公告列表页面中的审核按钮接收用户触发的进入数据审核页面的请求,以使得所述用户根据数据记录对应的原始公告对抽取结果进行人工校对;进入审核页面后,所述公告列表页面顶部显示从某种业务类型的公告抽取出来的数据指标及其值,并显示对应的原始预设类型的公告;接收所述用户点击的指标项的按键后,在当前页面中提供给所述用户进行数据准确性确认的界面;若所述用户对抽取有误的指标项进行修改,则对原始数据进行更新,所述公告列表中相应的数据记录由未审核变为已审核;接收所述用户点击的返回按钮,并返回到公告列表页面;

具体的,通过公告列表页面中的审核按钮,进入数据审核页面,根据该条数据记录对应的原始公告对抽取结果进行人工校对。

进入审核页面后,顶部显示从某种业务类型的公告抽取出来的数据指标及其值,接着显示相应的原始PDF/WORD/EXCEL类型的公告(可以滚动、全屏显示完整的公告)。点击某个指标项,可以快速在公告中DXXW到对其进行信息抽取的位置,并在当前页面中框中,供审核人员进行数据准确性确认。审核人员可以根据原始公告的实际情况,对抽取有误的指标项进行修改,点击确认按钮,可以对数据库中的原始数据进行更新,同时公告列表中相应的数据记录也由未审核变为已审核。点击返回按钮,回到公告列表页面。

具体的,采用自主研发的提取信息追溯技术,可以追溯现有信息出处并进行高亮展示、精准DXXW。同时提供手动编辑功能,支持对特殊文件的人为GXXK(主要针对一些涵盖图片及扫描件信息的处理)。

系统基于挂牌公司上传的年报、业务通知单信息,在上报的过程中,用户可通过本功能进行反复纠错,提高业务数据的准确性、一致性。

步骤505,针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

步骤506,针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。

参考图6,图6是本发明实施例提供的另一种信息处理的方法的流程示意图。

在图1至图5的基础上,以在图1的基础上为例,如图6所示,所述信息处理的方法包括:

步骤601,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

步骤602,获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

步骤603,针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

步骤604,针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单;

步骤605,通过监管责任列表接收用户向管理员分配的管理员权限,所述监管责任列表是公司管理员对监管员及挂牌公司和券商进行授权的入口;若当前情况属于预设特殊情况时,接收所述管理员根据所述管理员权限进行操作,所述管理员权限包括负责查看和处理本管理员管辖范围的挂牌公司公告;根据所述操作反馈问题公告并生成通知单完成挂牌公司相应的业务处理。

参考图7,图7是本发明实施例通过的一种信息处理的装置的功能模块示意图。

如图7所示,所述装置包括:

第一获取模块701,用于在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;

第二获取模块702,用于获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;

查询模块703,用于针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;

生成模块704,用于针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。

优选地,所述装置还包括:

加入模块,用于在根据预设的业务提取规则判断公告所属的业务类型之后,对识别不属于业务类型的公告加入到问题公告列表,以使得对应管理员及业务管理员进行验证和处理;

展示模块,用于在根据预设的业务提取规则判断公告所属的业务类型之后,使用分页列表形式对抽取结果整体情况进行展示,公告列表用于提供日期时间范围和业务类型的筛选功能,并实现对数据项的选择、反选和全选功能;所述公告列表的上方包括公告日期时间范围、业务类型的筛选选项,所述筛选选项用于接收变更筛选条件后即时刷新公告列表内容;所述公告列表的每页显示条数依照系统全局配置和用户首选项决定的,超过每页显示条数的公告通过分页进行显示;所述公告列表的审核状态包括:未审核、已审核、驳回和已完成;

统计模块,用于在根据预设的业务提取规则判断公告所属的业务类型之后,根据当前选定的时间范围和业务类型,统计符合条件公告数量并在公告表的最上方进行提示。

优选地,所述装置还包括:

第一处理模块,用于通过所述公告列表页面中的审核按钮接收用户触发的进入数据审核页面的请求,以使得所述用户根据数据记录对应的原始公告对抽取结果进行人工校对;进入审核页面后,所述公告列表页面顶部显示从某种业务类型的公告抽取出来的数据指标及其值,并显示对应的原始预设类型的公告;接收所述用户点击的指标项的按键后,在当前页面中提供给所述用户进行数据准确性确认的界面;若所述用户对抽取有误的指标项进行修改,则对原始数据进行更新,所述公告列表中相应的数据记录由未审核变为已审核;接收所述用户点击的返回按钮,并返回到公告列表页面。

优选地,所述装置还包括:

第二处理模块,用于通过监管责任列表接收用户向管理员分配的管理员权限,所述监管责任列表是公司管理员对监管员及挂牌公司和券商进行授权的入口;若当前情况属于预设特殊情况时,接收所述管理员根据所述管理员权限进行操作,所述管理员权限包括负责查看和处理本管理员管辖范围的挂牌公司公告;根据所述操作反馈问题公告并生成通知单完成挂牌公司相应的业务处理。

本发明实施例提供的一种信息处理的装置,在预设时间阈值内从预设网址获取披露信息,所述披露信息包括公司公告的挂牌公司、公司公告的两网及退市公司、业务周知的挂牌公司、业务周知的两网及退市公司、全部新增公告的代码、标题、日期以及公告正式文件;获取公告网站标题以及公告文件内的正文标题,根据预设的业务提取规则判断公告所属的业务类型;针对网站披露的所有挂牌公司公告数据进行关键词检索,检索的关键词支持单个关键词和多个关键词的组合查询;针对不同业务类型公告内容按照设定的规则进行内容抽取,抽取结果生成通知单。本系统可以面向所有企事业单位,针对单位文件整体的识别分析,进行简单的业务配置并根据标准化功能,实现智能化识别。通过本项目的实施,将显著提升企事业单位的办公效率;大幅缩减了对于手动填单、人为关联的工作量。将多个工具类系统进行集成,完善了整个系统的多样性和规范性。

以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1