本申请涉及计算机技术领域,特别是合格投资者线上评估方法、装置、计算机设备和存储介质。
背景技术:
合格投资者是指有着丰富投资经验并能够自负盈亏的专业人事,知悉并自行承担公司债券的投资风险,并符合下列资质条件之一:经有关金融监管部门批准设立的金融机构;净资产不低于人民币1000万元的企事业单位法人或合伙企业;合格境外机构投资者(qfii);人民币合格境外机构投资者(rqfii);名下金融资产不低于人民币300万元的个人投资者;经中国证监会认可的其他合格投资者。其中,金融机构包括证券公司、基金管理公司及其子公司、期货公司、商业银行、保险公司和信托公司等,以及经中国证券投资基金业协会登记的私募基金管理人。上述金融机构面向投资者发行的理财产品,包括但不限于证券公司资产管理产品、基金及基金子公司产品、期货公司资产管理产品、银行理财产品、保险产品、信托产品以及经基金业协会备案的私募基金。
目前对于合格投资者的认证方式主要采用线下与线上相结合的方式,先在线下提交材料或者线上提交材料,然后由后台相关人员提取材料并进行审核,使得整个认证流程耗时长、人工参与度高、客户体验较差。
技术实现要素:
基于此,有必要针对目前合格投资者认证流程耗时长、人工参与度高、客户体验较差等问题,提供合格投资者线上评估方法、装置、计算机设备和存储介质。
一种合格投资者线上评估方法,具体包括如下步骤:获取投资者上传的认证材料图像;从所述认证材料图像中提取多个要素信息;所述要素信息用于评估投资者的合格等级;获取每个所述要素信息对应的评分参考信息;分别根据每个所述要素信息对应的评分参考信息对每个所述要素信息进行分数评估,得到每个所述要素信息对应的分数;计算所述多个要素信息对应的分数的总分数;根据分数区间与合格等级区间之间的映射关系,得到与所述总分数对应的所述合格等级。
在一个实施例中,所述从所述认证材料图像中提取多个要素信息,包括:对所述认证材料图像进行二值化处理,得到二值化图像;对所述二值化图像进行文字识别,得到多个所述要素信息。
在一个实施例中,所述对所述认证材料图像进行二值化处理,得到二值化图像,包括:
根据像素点在rgb颜色空间中的三个颜色分量的亮度值求取所述认证材料图像中每个像素点在yuv颜色空间中的亮度值;将每个像素点在所述yuv颜色空间中的亮度值设置为所述认证材料图像中每个像素点的灰度值,得到灰度图像;对所述灰度图像进行背景噪声滤除,得到降噪图像;将所述降噪图像中各像素点的灰度值的平均值设置为二值化阈值,根据所述二值化阈值对所述降噪图像进行二值化处理,得到所述二值化图像。
在一个实施例中,所述在yuv颜色空间中的亮度值的表达式为:y=0.3r+0.59g+0.11b;其中,y表示像素点在yuv颜色空间中的亮度值,r表示像素点在rgb颜色空间中的红色分量的亮度值,g表示像素点在rgb颜色空间中的绿色分量的亮度值,b表示像素点在rgb颜色空间中的蓝色分量的亮度值。
在一个实施例中,所述对所述二值化图像进行文字识别,得到多个所述要素信息,包括:
统计所述二值化图像中每行像素点中黑色像素点的个数;依据每行像素点中黑色像素点的个数确定所述二值化图像的水平投影,根据所述水平投影确定所述二值化图像中每个文字行的位置,根据文字行之间的空白间隙形成的所述水平投影的空白间隙将所述二值化图像中各文字行分割开,得到多个单行文字图像;从左至右识别所述单行文字图像中单字符的两侧边界,根据所述单字符的两侧边界切分出所述单字符对应的单字符图像;从所述单字符图像中提取所述单字符的字符特征;通过字符分类器识别所述字符特征,得到所述单字符对应的单字符信息;将每个所述单字符信息进行语义关联组合,得到组合后的要素关键词,根据所述要素关键词获取多个所述要素信息。
在一个实施例中,所述计算所述多个要素信息对应的分数的总分数,包括:根据预先为投资者分配的身份识别号为投资者分配对应的累加器;所述身份识别号用于标识投资者;将所述累加器的值初始化为0;根据投资者的身份识别号获取投资者对应的多个所述要素信息;通过所述累加器对投资者的各所述要素信息对应的分数进行相加,得到所述总分数。
在一个实施例中,所述要素信息包括投资者风险承担能力信息。
基于相同的技术构思,本申请还提供了一种合格投资者线上评估装置,包括获取模块和处理模块。
所述获取模块,用于获取投资者上传的认证材料图像。
所述处理模块,用于从所述认证材料图像中提取多个要素信息;所述要素信息用于评估投资者的合格等级。
所述获取模块还用于获取每个所述要素信息对应的评分参考信息。
所述处理模块还用于分别根据每个所述要素信息对应的评分参考信息对每个所述要素信息进行分数评估,得到每个所述要素信息对应的分数;计算所述多个要素信息对应的分数的总分数;根据分数区间与合格等级区间之间的映射关系,得到与所述总分数对应的所述合格等级。
在一个实施例中,所述处理模块具体用于对所述认证材料图像进行二值化处理,得到二值化图像;对所述二值化图像进行文字识别,得到多个所述要素信息。
在一个实施例中,所述处理模块具体用于根据像素点在rgb颜色空间中的三个颜色分量的亮度值求取所述认证材料图像中每个像素点在yuv颜色空间中的亮度值;将每个像素点在所述yuv颜色空间中的亮度值设置为所述认证材料图像中每个像素点的灰度值,得到灰度图像;对所述灰度图像进行背景噪声滤除,得到降噪图像;将所述降噪图像中各像素点的灰度值的平均值设置为二值化阈值,根据所述二值化阈值对所述降噪图像进行二值化处理,得到所述二值化图像。
在一个实施例中,所述在yuv颜色空间中的亮度值的表达式为:
y=0.3r+0.59g+0.11b;
其中,y表示像素点在所述yuv颜色空间中的亮度值,r表示像素点在所述rgb颜色空间中的红色分量的亮度值,g表示像素点在所述rgb颜色空间中的绿色分量的亮度值,b表示像素点在所述rgb颜色空间中的蓝色分量的亮度值。
在一个实施例中,所述处理模块具体用于统计所述二值化图像中每行像素点中黑色像素点的个数;依据每行像素点中黑色像素点的个数确定所述二值化图像的水平投影,根据所述水平投影确定所述二值化图像中每个文字行的位置,根据文字行之间的空白间隙形成的所述水平投影的空白间隙将所述二值化图像中各文字行分割开,得到多个单行文字图像。从左至右识别所述单行文字图像中单字符的两侧边界,根据所述单字符的两侧边界切分出所述单字符对应的单字符图像。从所述单字符图像中提取所述单字符的字符特征。通过字符分类器识别所述字符特征,得到所述单字符对应的单字符信息。将每个所述单字符信息进行语义关联组合,得到组合后的要素关键词,根据所述要素关键词获取多个所述要素信息。
在一个实施例中,所述处理模块具体用于根据预先为投资者分配的身份识别号为投资者分配对应的累加器。所述身份识别号用于标识投资者。将所述累加器的值初始化为0。根据投资者的身份识别号获取投资者对应的多个所述要素信息。通过所述累加器对投资者的各所述要素信息对应的分数进行相加,得到所述总分数。
在一个实施例中,所述要素信息包括投资者风险承担能力信息。
基于相同的技术构思,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述合格投资者线上评估方法的步骤。
基于相同的技术构思,本申请还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述合格投资者线上评估方法的步骤。
上述合格投资者线上评估方法、装置、计算机设备和存储介质,通过对上传的认证材料图像进行预处理,得到便于文字识别的二值化图像;对二值化图像进行文字识别处理,提取相关的要素信息;根据分数区间与合格等级区间之间的映射关系以及要素信息,评估出投资者的合格等级,降低了人工成本,提高了合格投资者认证的效率。
附图说明
通过详细阅读下文具体实施方式的详细描述,各种其他的有点和益处对于本领域内普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是本申请的限制。
图1为本申请一个实施例中一种合格投资者线上评估方法的流程图;
图2为本申请一个实施例中从认证材料图像中提取要素信息的方法流程图;
图3为本申请一个实施例中一种合格投资者线上评估装置的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可以包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、程序、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、程序、步骤、操作、元件、组件和/或它们的组。
图1为本申请一个实施例中一种合格投资者线上评估方法的流程图,如图1所示,可以包括如下步骤s1-s5:
s1、获取投资者上传的认证材料图像。
投资者上传的认证材料图像包括投资者身份证明材料、投资者风险承担能力证明材料、投资者承诺书相关材料等图像。投资者风险承担能力证明材料包含收入证明或者银行存款证明材料、最近若干年年均收入的证明材料。最近若干年年均收入的证明材料包含税务机关出具的收入纳税证明、银行出具的工资收入流水单或其他收入证明。银行存款证明为加盖中国境内银行业务章的本外币定、活期存单、存折等证明文件。
s2、从所述认证材料图像中提取多个要素信息。
所述要素信息用于评估投资者的合格等级。所述要素信息包括投资者的身份认证信息和风险承担能力信息等。
如图2所示,在一个实施例中,步骤s2包括以下步骤s21-s22:
s21、对所述认证材料图像进行二值化处理,得到二值化图像。
图像二值化的目的是最大限度的将图象中感兴趣的部分保留下来。投资者上传的认证材料图像一般为彩色的,经过二值化后,图像只剩下两种颜色,即黑和白,其中一个颜色用作图像的背景,另一个颜色就是要识别的文字,这样大大减少了文字处理的计算量。
在一个实施例中,步骤s21包括以下步骤s211-s213:
s211、根据像素点在rgb颜色空间中的三个颜色分量的亮度值求取所述认证材料图像中每个像素点在yuv颜色空间中的亮度值;将每个像素点在所述yuv颜色空间中的亮度值设置为所述认证材料图像中每个像素点的灰度值,得到灰度图像。
图像的灰度化处理是将彩色图像转化成为灰度图像的过程。在rgb颜色空间中,图像的每个像素点的颜色由红色(red)、绿色(green)、蓝色(blue)三个分量决定,而每个分量有256种值可取,这样一个像素点可以有1600多万(256*256*256)的颜色的变化范围。而灰度图像是三个分量相同的一种特殊的彩色图像,其一个像素点的变化范围为256种,所以将各种格式的图像转变成灰度图像以使后续的图像的计算量变得少一些。灰度图像的描述与彩色图像一样仍然反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。
在yuv颜色空间中,y的分量的物理意义是像素点的亮度,由该值反映亮度等级,根据yuv颜色空间和rgb颜色空间的变化关系,可建立亮度值y与三个分量的亮度值r、g、b之间的对应关系,一般按加权的方法转换,亮度值y中三基色亮度值r、g、b的权重比一般大概为3:6:1。
本实施例中,像素点在yuv颜色空间中的亮度值的表达式为:
y=0.3r+0.59g+0.11b;
其中,y表示像素点在所述yuv颜色空间中的亮度值,r表示像素点在所述rgb颜色空间中的红色分量的亮度值,g表示像素点在所述rgb颜色空间中的绿色分量的亮度值,b表示像素点在所述rgb颜色空间中的蓝色分量的亮度值。
s212、对所述灰度图像进行背景噪声滤除,得到降噪图像。
通过邻域像素算法判别所述灰度图像的背景噪声。设置灰度阈值,对于所述灰度图像中灰度值大于灰度阈值的邻域像素点,判别为背景色;如果一个像素点的上下左右4个像素点有超过2个的像素点属于背景色,那么该像素点就是背景噪声。去除背景噪声,使得所述灰度图像的文字排除背景干扰,更加容易识别。
s213、将所述降噪图像中各像素点的灰度值的平均值设置为二值化阈值,根据所述二值化阈值对所述降噪图像进行二值化处理,得到所述二值化图像。
计算出所述降噪图像中各像素点的灰度值的平均值;以各灰度值的平均值作为二值化阈值,对所述降噪图像进行二值化处理,得到黑白图像,即所述二值化图像。
s22、对所述二值化图像进行文字识别,得到多个所述要素信息。
文字识别采用光学字符识别(opticalcharacterrecognition,ocr),通过检测暗、亮的模式确定所述二值化图像上文字形状,然后用字符识别的方法把形状翻译成计算机文字的过程。
在一个实施例中,步骤s22包括以下步骤s221-s225:
s221、逐行扫描所述二值化图像中的像素点,统计所述二值化图像中每行像素点中黑色像素点的个数;依据每行像素点中黑色像素点的个数确定所述二值化图像的水平投影,根据所述水平投影确定所述二值化图像中每个文字行的位置,根据文字行之间的空白间隙形成的所述水平投影的空白间隙将所述二值化图像中各文字行分割开,得到多个单行文字图像。其中,前景像素是相对于背景像素的。
s222、从左至右识别所述单行文字图像中单字符的两侧边界,根据所述单字符的两侧边界切分出所述单字符对应的单字符图像。
其中,单字符包括文字、数字、字母、标点符号等。
s223、从所述单字符图像中提取所述单字符的字符特征。
字符特征包括字符的中心位置、笔画方向、端点、交点、折点、特定背景点、行或列前景像素数目、笔画分布状况等。
s224、通过字符分类器识别所述字符特征,得到所述单字符对应的单字符信息。
每个不同的字符都能通过特征来和其他字符进行区分,根据根据字符特征对各单字符进行识别。
字符分类器是用来进行文字识别的,根据单字符图像中的字符特征判断该单字符应该识别成哪个字。在进行实际识别前,对字符分类器进行训练,人工选取一定量的单字符图像样本,对各单字符图像样本做对应的结果标注,将做有结果标注的单字符图像样本的字符特征输入到字符分类器中,进行字符识别训练。
s225、将每个所述单字符信息进行语义关联组合,得到组合后的要素关键词,根据所述要素关键词获取多个所述要素信息。
识别出单字符之后,对各单字符进行前后进行语义关联,并从组合后的词组中提取要素关键词,用于提取要素信息。预先存储参考要素关键词,以参考要素关键词为参考,对单字符前后组合的词组进行识别,如果识别出为所需的组合词组,则将该词组确定为要素关键词。例如,对各单字符进行前后关联,组合成‘银行存款余额’要素关键词,将‘存款余额’要素关键词之后表示数值的字符组合,即得到投资者银行存款的相关证明数据。
对提取的相关证明数据进行关联存储,将存储的属于同一投资者的相关证明数据存储建立联系,便于后续的数据收集。具体地,为投资者分配对应的id;通过id对存储的属于同一投资者的相关证明数据进行标识,建立要素信息的关联。
s3、获取每个所述要素信息对应的评分参考信息;分别根据每个所述要素信息对应的评分参考信息对每个所述要素信息进行分数评估,得到每个所述要素信息对应的分数。
对投资者资质进行评估时,需要对投资者各评定项目进行打分。每项评定项目都有相应的评分参考信息,评分参考信息用于对与评定项目相对应的要素信息进行分数评估,得到与评定项目相对应的分数。例如,根据与年均收入对应的要素信息确定投资者的年均收入是否大于等于五十万,如果是,则根据评分参考信息为投资者的本项评定项目打出对应的分数;同理,根据与银行存款对应的要素信息确定投资者的银行存款是否大于等于两百万,如果是,则根据评分参考信息为投资者的本项评定项目打出对应的分数。
s4、计算所述多个要素信息对应的分数的总分数。
对投资者的各所述要素信息所对应的分数进行统计求和,最终得到投资者资质评估的总分数。
在一个实施例中,步骤s4包括以下步骤s41-s44:
s41、根据预先为投资者分配的身份识别号为投资者分配对应的累加器;所述身份识别号用于标识投资者。
s42、将所述累加器的值初始化为0。
s43、根据投资者的身份识别号获取投资者对应的多个所述要素信息。
如前所述,投资者对应的各要素信息已通过id进行关联存储,识别各要素信息的id,可找到属于同一投资者的要素信息。
s44、通过所述累加器对投资者的各所述要素信息对应的分数进行相加,得到所述总分数。
s5、根据分数区间与合格等级区间之间的映射关系,得到与所述总分数对应的所述合格等级。
在一个实施例中,将合格等级区间从高到低划分为:a、b、c、d和e,共5个级别。相应地,将分数区间从高到低划分为:90-100、80-90、70-80、60-70以及60以下,共5个分数段。
匹配所述总分数所对应的分数段,依据所述总分数所对应的分数段确定投资者所对应的合格等级。例如,所述总分数为85分,则对应于80-90的分数段,相应地,投资者的合格等级评估结果为b级。
在一个实施例中,通过认证中心ab复核岗的工作人员对投资者上传的认证材料图像进行人工审核,给出一初步的审核结论。将步骤s5评估出的合格等级与认证中心ab复核岗给出的审核结论进行比较,当步骤s5评估出的合格等级与认证中心ab复核岗给出的审核结论相一致时,得出最终评估结论。对于认证中心ab复核岗给出审核结论,将其归集到对应的投资者的id之下。
上述实施例,通过对上传的认证材料图像进行预处理,得到便于文字识别的二值化图像;对二值化图像进行文字识别处理,提取相关的要素信息;根据分数区间与合格等级区间之间的映射关系以及要素信息,评估出投资者的合格等级,降低了人工成本,提高了合格投资者认证的效率。
基于相同的技术构思,本申请还提供了一种合格投资者线上评估装置,如图3所示,该装置包括获取模块和处理模块。
所述获取模块,用于获取投资者上传的认证材料图像。
所述处理模块,用于从所述认证材料图像中提取多个要素信息;所述要素信息用于评估投资者的合格等级。
所述获取模块还用于获取每个所述要素信息对应的评分参考信息。
所述处理模块还用于分别根据每个所述要素信息对应的评分参考信息对每个所述要素信息进行分数评估,得到每个所述要素信息对应的分数;计算所述多个要素信息对应的分数的总分数;根据分数区间与合格等级区间之间的映射关系,得到与所述总分数对应的所述合格等级。
在一个实施例中,所述处理模块具体用于对所述认证材料图像进行二值化处理,得到二值化图像;对所述二值化图像进行文字识别,得到多个所述要素信息。
在一个实施例中,所述处理模块具体用于根据像素点在rgb颜色空间中的三个颜色分量的亮度值求取所述认证材料图像中每个像素点在yuv颜色空间中的亮度值;将每个像素点在所述yuv颜色空间中的亮度值设置为所述认证材料图像中每个像素点的灰度值,得到灰度图像;对所述灰度图像进行背景噪声滤除,得到降噪图像;将所述降噪图像中各像素点的灰度值的平均值设置为二值化阈值,根据所述二值化阈值对所述降噪图像进行二值化处理,得到所述二值化图像。
在一个实施例中,所述在yuv颜色空间中的亮度值的表达式为:
y=0.3r+0.59g+0.11b;
其中,y表示像素点在所述yuv颜色空间中的亮度值,r表示像素点在所述rgb颜色空间中的红色分量的亮度值,g表示像素点在所述rgb颜色空间中的绿色分量的亮度值,b表示像素点在所述rgb颜色空间中的蓝色分量的亮度值。
在一个实施例中,所述处理模块具体用于统计所述二值化图像中每行像素点中黑色像素点的个数;依据每行像素点中黑色像素点的个数确定所述二值化图像的水平投影,根据所述水平投影确定所述二值化图像中每个文字行的位置,根据文字行之间的空白间隙形成的所述水平投影的空白间隙将所述二值化图像中各文字行分割开,得到多个单行文字图像。从左至右识别所述单行文字图像中单字符的两侧边界,根据所述单字符的两侧边界切分出所述单字符对应的单字符图像。从所述单字符图像中提取所述单字符的字符特征。通过字符分类器识别所述字符特征,得到所述单字符对应的单字符信息。将每个所述单字符信息进行语义关联组合,得到组合后的要素关键词,根据所述要素关键词获取多个所述要素信息。
在一个实施例中,所述处理模块具体用于根据预先为投资者分配的身份识别号为投资者分配对应的累加器。所述身份识别号用于标识投资者。将所述累加器的值初始化为0。根据投资者的身份识别号获取投资者对应的多个所述要素信息。通过所述累加器对投资者的各所述要素信息对应的分数进行相加,得到所述总分数。
在一个实施例中,所述要素信息包括投资者风险承担能力信息。
上述实施例,通过对上传的认证材料图像进行预处理,得到便于文字识别的二值化图像;对二值化图像进行文字识别处理,提取相关的要素信息;根据分数区间与合格等级区间之间的映射关系以及要素信息,评估出投资者的合格等级,降低了人工成本,提高了合格投资者认证的效率。
基于相同的技术构思,本申请还提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述各实施例中的所述合格投资者线上评估方法中的步骤。
基于相同的技术构思,本申请还提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中的所述合格投资者线上评估方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。