本发明涉及信息技术领域,具体涉及一种基于词频分析的企业评价方法及系统。
背景技术:
企业评价一般从管理与经营情况、财务状况、成长能力等方面进行评价,从而形成企业的量化评分体系,对企业进行量化评价。
目前国内一级市场的企业的量化评分体系,在获取企业各方面分数时,存在以下问题:财务数据无法获取,或获取的数据不真实、不完整;企业的管理和经营情况受市场环境等各方面因素影响,很难对企业进行批量、快速的评价。
技术实现要素:
本发明的目的在于提供一种基于词频分析的企业评价方法及系统,在企业的真实财务数据无法获取的情况下,能够批量、快速的对企业进行评价。
为实现上述目的,本发明的技术方案提供了一种基于词频分析的企业评价方法,包括:
步骤s1、对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
步骤s2、将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表a1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表a2;
步骤s3、提取所述词汇词频表a1和所述词汇词频表a2中共有的词汇,形成共有词汇词频表b1,然后从所述共有词汇词频表b1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表b2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表a1中的词频与其在所述词汇词频表a2中的词频之商;
步骤s4、将共有词汇词频商表b2中的词汇分成若干种评分类别;
步骤s5、对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
步骤s6、根据所述共有词汇词频商表b2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;
步骤s7、根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价。
进一步地,所述根据该保存的检索结果得到企业的词袋模型包括:
去除该保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值;
对每一个剩余的检索结果进行预处理,得到企业的词袋模型。
进一步地,所述对每一个剩余的检索结果进行预处理包括:
对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇,得到企业的词袋模型。
进一步地,所述步骤s6包括:
对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表b2中该评分类别的词汇,若否,则确定所述待评价企业在该评分类别的分数为预设的初始分数k,若是,采用以下方式计算所述待评价企业在该评分类别的分数m:
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表b2中该评分类别的词汇的数量,li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
进一步地,所述步骤s7包括:
计算所述待评价企业在所述若干种评分类别上的分数的平均值;
判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
为实现上述目的,本发明的技术方案还提供了一种基于词频分析的企业评价系统,包括:
第一处理模块,用于对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
第二处理模块,用于将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表a1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表a2;
第三处理模块,用于提取所述词汇词频表a1和所述词汇词频表a2中共有的词汇,形成共有词汇词频表b1,然后从所述共有词汇词频表b1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表b2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表a1中的词频与其在所述词汇词频表a2中的词频之商;
分类模块,用于将共有词汇词频商表b2中的词汇分成若干种评分类别;
第四处理模块,用于对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
分数确定模块,用于根据所述共有词汇词频商表b2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;
评价模块,用于根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价。
进一步地,所述第一处理模块以及所述第四处理模块根据保存的检索结果得到企业的词袋模型的方式包括:
去除保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值;
对每一个剩余的检索结果进行预处理,得到企业的词袋模型。
进一步地,所述第一处理模块以及所述第四处理模块对每一个剩余的检索结果进行预处理的方式包括:
对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇,得到企业的词袋模型。
进一步地,所述分数确定模块包括:
判断单元,用于对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表b2中该评分类别的词汇;
分数计算单元,用于若所述判断单元的判断结果为否,则确定所述待评价企业在该评分类别的分数为预设的初始分数k,若所述判断单元的判断结果为是,采用以下方式计算所述待评价企业在该评分类别的分数m:
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表b2中该评分类别的词汇的数量,li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
进一步地,所述评价模块包括:
平均值计算单元,用于计算所述待评价企业在所述若干种评分类别上的分数的平均值;
处理单元,用于判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
本发明提供的基于词频分析的企业评价方法,在企业的真实财务数据无法获取的情况下,能够批量、快速的对企业进行评价。
附图说明
图1是本发明实施方式提供的一种基于词频分析的企业评价方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
参见图1,图1是本发明实施方式提供的一种基于词频分析的企业评价方法的流程图,该基于词频分析的企业评价方法包括:
步骤s1、对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
其中,上述留存企业可以为用户认为的自身需要的企业,如可以是用户认为的优秀企业,上述放弃企业可以为用户认为的自身不需要的企业,如可以是用户认为的一般企业;
例如,可以将已有企业按需要进行分类:留存企业和放弃企业,然后以企业名称的全称为关键词,采用爬虫技术,在搜索引擎中检索企业信息,并将得到的前两页检索结果页面中的检索结果(每一个检索结果为一篇文章)保存下来;
步骤s2、将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表a1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表a2;
通过将上述所有的留存企业的词汇进行合并,并计算每个词汇的词频,从而得到留存企业的词汇词频表a1;同样,通过将上述所有放弃企业的词汇进行合并,并计算每个词汇的词频,得到放弃企业的词汇词频表a2;
步骤s3、提取所述词汇词频表a1和所述词汇词频表a2中共有的词汇,形成共有词汇词频表b1,然后从所述共有词汇词频表b1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表b2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表a1中的词频与其在所述词汇词频表a2中的词频之商;
具体地,首先提取两个词频表a1和a2共有的词汇,组成新的共有词汇词频表b1,然后从词汇词频表b1选取若干个对企业评价有价值的词汇,选取的方式可以采用人工方式(如人工标注)进行选取,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表b2,其中:
词汇的词频商=该词汇在a1中的词频/该词汇在a2中的词频;
步骤s4、将共有词汇词频商表b2中的词汇分成若干种评分类别;
例如,可以按照预设的分类规则对共有词汇词频商表b2中的词汇进行分类,分类为:市场前景、行业前景、技术、团队、规模、声誉;
步骤s5、对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
例如,可以以待评价企业的企业名称的全称为关键词,采用爬虫技术,在搜索引擎中检索企业信息,并将得到的前两页检索结果页面中的检索结果(每一个检索结果为一篇文章)保存下来;
步骤s6、根据所述共有词汇词频商表b2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;
步骤s7、根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价,例如,具体评价方式如下:计算所述待评价企业在所述若干种评分类别上的分数的平均值;判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
本发明实施方式提供的基于词频分析的企业评价方法,在企业的真实财务数据无法获取的情况下,能够批量、快速的对企业进行评价。
其中,在本发明实施方式中,步骤s1和步骤s5可以同时进行,也可以先执行步骤s1,后执行步骤s5,也可以先执行步骤s5,后执行步骤s1,本发明对此不作具体限定。
其中,在本发明实施方式中,在上述的步骤s1和s5中,所述根据该保存的检索结果得到企业的词袋模型包括:
步骤a:去除该保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值,例如,为防止信息冗余,当两篇文章的编辑距离太近时(即小于或等于预设距离阈值),删除其中的任意一篇;
步骤b:对每一个剩余的检索结果进行预处理,得到企业的词袋模型,具体地,该预处理包括:对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇(同一个企业的词袋模型中不包含两个相同的词汇),得到企业的词袋模型;
例如,首先对文章进行分词,并去除纯数字、日期,将英文都转成小写形式,当企业信息中词汇有重复时,去除重复词汇,得到每个企业的词袋模型。
其中,在本发明实施方式中,所述步骤s6可以包括:
对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表b2中该评分类别的词汇,若否,则确定所述待评价企业在该评分类别的分数为预设的初始分数k,若是,采用以下方式计算所述待评价企业在该评分类别的分数m:
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表b2中该评分类别的词汇的数量,li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
例如,设置初始分数k为100分,将待评价企业的词袋模型c1与共有词汇词频商表b2的词汇进行对比,当词袋模型c1中的词汇w同时属于b2时,且根据w在b2中的评分类别,计算待评价企业在每个评分类别上的分数,其中,对于每一种评分类别,若待评价企业的词袋模型包含共有词汇词频商表b2中该评分类别的词汇,则采用上述公式计算待评价企业在该评分类别的分数,若待评价企业的词袋模型未包含共有词汇词频商表b2中该评分类别的任何词汇(也即b2中该评分类别中的词汇不包含c1中的任一词汇),则待评价企业在该评分类别的分数为初始分数100。
本发明提供的基于词频分析的企业评价方法,在真实财务数据无法获取的情况,能够对企业的六个维度:市场前景、行业前景、技术、团队、规模、声誉,作出快速评价,尤其针对一级市场的企业,能够实现个性化的批量评价,对企业质量进行有效量化。
此外,本发明实施方式还提供了一种基于词频分析的企业评价系统,包括:
第一处理模块,用于对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
第二处理模块,用于将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表a1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表a2;
第三处理模块,用于提取所述词汇词频表a1和所述词汇词频表a2中共有的词汇,形成共有词汇词频表b1,然后从所述共有词汇词频表b1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表b2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表a1中的词频与其在所述词汇词频表a2中的词频之商;
分类模块,用于将共有词汇词频商表b2中的词汇分成若干种评分类别;
第四处理模块,用于对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
分数确定模块,用于根据所述共有词汇词频商表b2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;
评价模块,用于根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价。
其中,在本发明实施方式中,所述第一处理模块以及所述第四处理模块根据保存的检索结果得到企业的词袋模型的方式包括:
去除保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值;
对每一个剩余的检索结果进行预处理,得到企业的词袋模型。
其中,在本发明实施方式中,所述第一处理模块以及所述第四处理模块对每一个剩余的检索结果进行预处理的方式包括:
对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇,得到企业的词袋模型。
其中,在本发明实施方式中,所述分数确定模块包括:
判断单元,用于对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表b2中该评分类别的词汇;
分数计算单元,用于若所述判断单元的判断结果为否,则确定所述待评价企业在该评分类别的分数为预设的初始分数k,若所述判断单元的判断结果为是,采用以下方式计算所述待评价企业在该评分类别的分数m:
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表b2中该评分类别的词汇的数量,li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
其中,在本发明实施方式中,所述评价模块包括:
平均值计算单元,用于计算所述待评价企业在所述若干种评分类别上的分数的平均值;
处理单元,用于判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。