企业新闻分析方法及系统的制作方法

文档序号:10612818阅读:378来源:国知局
企业新闻分析方法及系统的制作方法
【专利摘要】本发明提供一种企业新闻分析方法及系统,其中企业新闻分析方法包括:判断并接收目标企业全称;拆分目标企业全称,获取目标企业简称;根据目标企业全称和目标企业简称,自动在互联网中搜取目标企业的关联新闻;采用评价分析方法对关联新闻进行分析,并给出对目标企业的信誉评价。本发明的企业新闻分析方法及系统能够使得用户快速、准确地得出对目标企业的信誉评价。
【专利说明】
企业新闻分析方法及系统
技术领域
[0001]本发明涉及大数据应用分析领域,尤其涉及一种企业新闻分析方法及系统。
【背景技术】
[0002]在金融信贷领域,风险控制人员往往需要对目标企业进行企业舆论形象调查,从而对该企业给出客观评价。
[0003]传统企业舆论调查方法是通过人为地收集企业舆论信息,并人为查看舆论信息内容,从而给出相应评价。但是,这种传统方法的缺点是,对信息获取以及信息分析的效率低,不仅费时费力,而且出现信息遗漏的概率大。

【发明内容】

[0004]本发明要解决的技术问题是提供一种企业新闻分析方法及系统,使得用户能够快速、准确地得出对目标企业的信誉评价。
[0005]为解决上述技术问题,本发明提供的技术方案是:
[0006]—方面,本发明提供一种企业新闻分析方法,应用于计算机中,包括:判断并接收目标企业全称;拆分目标企业全称,获取目标企业简称;根据目标企业全称和目标企业简称,自动在互联网中搜取目标企业的关联新闻;采用评价分析方法对关联新闻进行分析,并给出对目标企业的信誉评价。
[0007]进一步地,采用网络爬虫技术搜取关联新闻。
[0008]进一步地,进行分析步骤之前,还包括:统计目标企业全称和目标企业简称在与目标企业关联度较低的每一条关联新闻中的出现频率,并将出现频率低于一定范围的关联新闻判定为不相关新闻并筛除。
[0009]进一步地,进行分析步骤之前,还包括:计算关联新闻的标题之间的相似度,并将相似度高于一定范围的关联新闻判断为重复新闻并筛除。
[0010]进一步地,评价分析方法包括正负向评价分析方法和/或关联人物及关联企业分析方法,其中,正负向评价分析方法为:对关联新闻采用隐式语义索引法或关键词分析方法对目标企业进行正向评价和负向评价;关联人物及关联企业分析方法为:抽取每一条关联新闻中的组织机构名称和个人名称,并采用聚类方法对抽取到的组织机构名称和个人名称进行聚类,通过统计目标企业与每个聚类同时出现在所有关联新闻中的频率,获得目标企业的关联人物及关联企业,其中,聚类所获得的每一个类别代表一个企业或个人,且组织机构名称包括企业全称或简称。
[0011]进一步地,隐式语义索引法为,采用预先建立的正负向分类器对每一条关联新闻进行正负向评价。
[0012]进一步地,关键词分析方法为,通过提取每一条关联新闻中的正向关键词词频和负向关键词词频,并采用预先建立的关键词库进行比较,获得每一条关联新闻的正负向评价。
[0013]另一方面,本发明提供一种企业新闻分析系统,应用于计算机中,包括:企业名称输入模块,判断并接收目标企业全称;企业名称拆分模块,将接收到的目标企业全称,拆分成目标企业简称;关联新闻获取模块,根据企业名称拆分模块中的目标企业全称和目标企业简称,自动在互联网中搜取目标企业的关联新闻;关联新闻分析模块,对关联新闻获取模块所获取到的关联新闻进行分析,并给出对目标企业的信誉评价。
[0014]进一步地,还包括关联新闻筛选模块,关联新闻筛选模块对关联新闻获取模块中所获得的关联新闻进行筛选。
[0015]进一步地,关联新闻筛选模块包括不相关新闻筛除单元和去重单元,不相关新闻筛除单元,统计全称和简称在与目标企业关联度较低的每一条关联新闻中的出现频率,并将出现频率低于一定范围的关联新闻判定为不相关新闻并筛除;去重单元,计算关联新闻的标题之间的相似度,并将相似度高于一定范围的关联新闻判断为重复新闻并筛除。
[0016]发明实施例的企业新闻分析方法及系统,应用于计算机中,通过将用户输入的需要查询的目标企业名称与企业名单词库内的词条进行匹配,给出相应候选企业全称,例如,若用户输入的是目标企业的简称,则会给出相应的候选企业全称,供用户选择。在接收到目标企业全称后,将按照一定的规则对目标企业全称进行拆分,从而获得目标企业简称,例如,若目标企业全称为“杭州第一科技有限公司”,则“有限”和“公司”这两个常见词汇将首先被筛选掉,再去掉地名“杭州”,也就是说,最后得到的目标企业的简称为“第一科技” O同时使用目标企业全称和目标企业简称在互联网环境中对目标企业情况进行搜索,具体地,例如,对于某一条新闻,若该新闻标题、摘要和正文中出现有目标企业全称或简称,则该条新闻将被获取。同时使用目标企业全称和目标企业简称来获取与目标企业相关联的关联新闻,可以使得所搜索的关联新闻更加充分、全面。此外,需要说明的是,通过统计目标企业在互联网上的关联新闻的总量及关联新闻的来源,可以评估该目标企业的媒体曝光率和影响力。此外,对于所获得的所有关联新闻,采用适当的评价分析方法进行分析,并给出一个比较直观的对目标企业的信誉评价结果,如此,可以相当大地减少评价一个目标企业所需要的时间,也可以大大节省人力。
[0017]因此,本发明提供的企业新闻分析方法及系统,能够使得用户快速、准确地得出对目标企业的信誉评价。
【附图说明】
[0018]图1是本发明实施例一提供的企业新闻分析方法的流程图;
[0019]图2是本发明实施例二提供的企业新闻分析系统的框图;
[0020]图3是本发明实施例二提供的企业新闻分析系统的框图。
【具体实施方式】
[0021]下面通过具体的实施例进一步说明本发明,但是,应当理解为,这些实施例仅仅是用于更详细具体地说明之用,而不应理解为用于以任何形式限制本发明。
[0022]实施例一
[0023]结合图1,本发明实施例提供一种企业新闻分析方法,应用于计算机中,本发明实施例的企业新闻分析方法的具体步骤包括:
[0024]步骤SlOl:判断并接收目标企业全称;
[0025]步骤S102:拆分目标企业全称,获取目标企业简称;
[0026]步骤S103:根据目标企业全称和目标企业简称,自动在互联网中搜取目标企业的关联新闻;
[0027]步骤S104:采用评价分析方法对关联新闻进行分析,并给出对目标企业的信誉评价。
[0028]本发明实施例的企业新闻分析方法,应用于计算机中,通过将用户输入的需要查询的目标企业名称与企业名单词库内的词条进行匹配,给出相应候选企业全称,例如,若用户输入的是目标企业的简称,则会给出相应的候选企业全称,供用户选择。在接收到目标企业全称后,将按照一定的规则对目标企业全称进行拆分,从而获得目标企业简称,例如,若目标企业全称为“杭州第一科技有限公司”,则“有限”和“公司”这两个常见词汇将首先被筛选掉,再去掉地名“杭州”,也就是说,最后得到的目标企业的简称为“第一科技”。同时使用目标企业全称和目标企业简称在互联网环境中对目标企业情况进行搜索,具体地,例如,对于某一条新闻,若该新闻标题、摘要和正文中出现有目标企业全称或简称,则该条新闻将被获取。同时使用目标企业全称和目标企业简称来获取与目标企业相关联的关联新闻,可以使得所搜索的关联新闻更加充分、全面。此外,需要说明的是,通过统计目标企业在互联网上的关联新闻的总量及关联新闻的来源,可以评估该目标企业的媒体曝光率和影响力。此夕卜,对于所获得的所有关联新闻,采用适当的评价分析方法进行分析,并给出一个比较直观的对目标企业的信誉评价结果,如此,可以相当大地减少评价一个目标企业所需要的时间,也可以大大节省人力。
[0029]因此,本发明实施例提供的企业新闻分析方法及系统,能够使得用户快速、准确地得出对目标企业的信誉评价。
[0030]优选地,步骤S103中,采用网络爬虫技术搜取关联新闻。由于网络爬虫技术的搜索效果显著且应用成熟,使用网络爬虫技术来获取互联网中的与目标企业相关联的新闻信息,能够确保所获取的关联新闻的全面性。
[0031 ]进一步优选地,进行分析步骤之前,还包括:统计目标企业全称和目标企业简称在与目标企业关联度较低的每一条关联新闻中的出现频率,并将出现频率低于一定范围的关联新闻判定为不相关新闻并筛除。关联新闻的获取是通过目标企业全称和目标企业简称来实现,在获取到的所有关联新闻中,存在与目标企业关联度较低的关联新闻(例如,该目标企业的招聘文章)。对于与目标企业关联度较低的关联新闻,将统计目标企业全称或目标企业简称在该关联新闻摘要、正文中的出现频率,若出现频率低于某一阈值,则将该条关联新闻认定为不相关新闻并将其筛除。此外,对于招聘类文章,则是直接针对新闻标题和摘要中的“招聘”进行关键字识别,将该则新闻进行筛除。
[0032]进一步优选地,进行分析步骤之前,还包括:计算关联新闻的标题之间的相似度,并将相似度高于一定范围的关联新闻判断为重复新闻并筛除。由于互联网新闻往往被多家媒体转载,致使所获得的关联新闻的重复较多。本实施例是通过判断所有关联新闻的标题相似度来对所获得的关联新闻进行去重。具体地,首先对所获得的每条关联新闻的标题进行分词,将所有标题的分词结果汇总,形成“词空间”,并将每个标题转化为“词空间”内的向量,此外,为了方便相似度计算,每个标题的词向量将被进行归一化。更加具体地,对于任意两条关联新闻的标题所对应的两个词向量,通过计算两个词向量之间的余弦来获得它们之间的相似度。例如,假定关联新闻A的标题所对应的经过归一化后的词向量为a,以及关联新闻B所对应的经过归一化后的词向量为b,若向量a与向量b之间的余弦值为I,此时,关联新闻A与关联新闻B的相似度评估结果为“完全相同”;若向量a与向量b之间的余弦值为O,此时,关联新闻A与关联新闻B的相似度评估结果为“完全不同”。也就是说,向量a与向量b之间的余弦值越小,则关联新闻A与关联新闻B之间的相似度越低。优选地,本实施例设定的阈值为(0,0.5],即,当两个标题向量的余弦值超过该阈值则认为相似度过高,并将其认定为重复新闻,且选择保留新闻所对应媒体中影响力较大的那条关联新闻。此外,需要说明的是,所设定的阈值并非固定不变,可以根据实际情况进行调整。
[0033]此外,需要说明的是,筛除出现频率低于一定范围的关联新闻的步骤与筛除相似度高于一定范围的关联新闻的步骤,这两个步骤并无先后顺序,只要在进行分析步骤之前进行即可。
[0034]进一步优选地,步骤S104中,评价分析方法包括正负向评价分析方法和/或关联人物及关联企业分析方法,其中,正负向评价分析方法为:对关联新闻采用隐式语义索引法或关键词分析方法对目标企业进行正向评价和负向评价;关联人物及关联企业分析方法为:采用实体抽取算法抽取每一条关联新闻中的组织机构名称和个人名称,并采用聚类方法对抽取到的组织机构名称和个人名称进行聚类,通过统计目标企业与每个聚类同时出现在所有关联新闻中的频率,获得目标企业的关联人物及关联企业,其中,聚类所获得的每一个类别代表一个企业或个人,且组织机构名称包括企业全称或简称。通过对目标企业的每条关联新闻进行正负向评价分析,可以评估企业的媒体口碑。通过对目标企业的关联新闻进行关联人物及关联企业分析,可以得到目标企业的关系网络。
[0035]具体地,隐式语义索引法为,采用预先建立的正负向分类器对每一条关联新闻进行正负向评价。其中,需要说明的是,隐式语义索引是通过海量文献找出词汇间的关联,当两个词汇或者一组词汇大量在同文档内出现时,这两个词汇或者这一组词汇被判定为语义相关。本实施例提前采用一定数量的新闻样本通过隐式语义索引模型(Latent SemanticIndexing Model)进行有监督训练,从而获得一个正负向分类器。更加具体地,在分类器训练阶段,本实施例是将所有的新闻样本用于LSI模型训练,从而获得从词频向量到概念向量的转换矩阵。之后,对于每一条新闻样本,将首先获得一个词频向量,并通过LSI模型获得一个对应的概念向量,每条新闻的概念向量被表达为概念空间内的一个坐标点。通过LSI模型学习,能够选出能最大限度分离正负样本的η个概念维度,并选取概念空间中由这η个概念维度构成的超平面作为正向负向分类器。在对关联新闻的分析阶段,对待评价的关联新闻内的所有词汇的词频,形成稀疏词频向量,通过LSI模型将稀疏词向量投射到概念空间,通过正向负向分类器即可得到关联新闻的正向负向评价分析结果。
[0036]需要说明的是,本实施例的LSI模型为隐式语义索引模型的简称,二者在概念上是等同的。
[0037]进一步优选地,关键词分析方法为,通过提取每一条关联新闻中的正向关键词词频和负向关键词词频,并采用预先建立的关键词库进行比较,获得每一条关联新闻的正负向评价。具体地,本实施例中的关键词库为,首先部分正向新闻样本和部分负向新闻样本内提取关键词,并通过所提取的这些关键词构建关于正向和负向词汇的基本关键词库,此外,还对该基本关键词库进行扩充,具体的扩充方法为,以Google开源包word2vec方法为算法基础,利用采集并经过处理的新闻样本为材料对关键词库进行扩充,从而获得本实施例的关键词库。在对关联新闻的分析阶段,,对待评价的关联新闻进行处理时,分别提取正向关键词词频和负向关键词词频,通过将关键词词频与关键词库进行比较得到每一条关联新闻的正负向评价分析结果。
[0038]实施例二
[0039]结合图2所示,本实施例提供一种企业新闻分析系统,应用于计算机中,本实施例的企业新闻分析系统包括:企业名称输入模块I,判断并接收目标企业全称;企业名称拆分模块2,将企业名称输入模块I中接收到的目标企业全称,拆分成目标企业简称;关联新闻获取模块3,根据企业名称拆分模块2中的目标企业全称和目标企业简称,自动在互联网中搜取目标企业的关联新闻;关联新闻分析模块4,对关联新闻获取模块3所获取到的关联新闻进行分析,并给出对目标企业的信誉评价。
[0040]本发明的企业新闻分析系统,应用于计算机中,通过将用户输入的需要查询的目标企业名称与企业名单词库内的词条进行匹配,给出相应候选企业全称,例如,若用户输入的是目标企业的简称,则会给出相应的候选企业全称,供用户选择。在接收到目标企业全称后,将按照一定的规则对目标企业全称进行拆分,从而获得目标企业简称,例如,若目标企业全称为“杭州第一科技有限公司”,则“有限”和“公司”这两个常见词汇将首先被筛选掉,再去掉地名“杭州”,也就是说,最后得到的目标企业的简称为“第一科技” ο同时使用目标企业全称和目标企业简称在互联网环境中对目标企业情况进行搜索,具体地,例如,对于某一条新闻,若该新闻标题、摘要和正文中出现有目标企业全称或简称,则该条新闻将被获取。同时使用目标企业全称和目标企业简称来获取与目标企业相关联的关联新闻,可以使得所搜索的关联新闻更加充分、全面。此外,对于所获得的所有关联新闻,采用适当的评价分析方法进行分析,并给出一个比较直观的对目标企业的信誉评价结果,如此,可以相当大地减少评价一个目标企业所需要的时间,也可以大大节省人力。
[0041]因此,本发明提供的企业新闻分析方法及系统,能够使得用户快速、准确地得出对目标企业的信誉评价。
[0042]优选地,还包括关联新闻筛选模块5,如图3所示,关联新闻筛选模块5对关联新闻获取模块3中所获得的关联新闻进行筛选。
[0043]进一步优选地,关联新闻筛选模块5包括不相关新闻筛除单元和去重单元,不相关新闻筛除单元,统计全称和简称在与目标企业关联度较低的每一条关联新闻中的出现频率,并将出现频率低于一定范围的关联新闻判定为不相关新闻并筛除;去重单元,计算关联新闻的标题之间的相似度,并将相似度高于一定范围的关联新闻判断为重复新闻并筛除。
[0044]尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。
【主权项】
1.一种企业新闻分析方法,应用于计算机中,其特征在于,所述方法包括: 判断并接收目标企业全称; 拆分所述目标企业全称,获取目标企业简称; 根据所述目标企业全称和所述目标企业简称,自动在互联网中搜取目标企业的关联新闻; 采用评价分析方法对所述关联新闻进行分析,并给出对所述目标企业的信誉评价。2.根据权利要求1所述的企业新闻分析方法,其特征在于,所述搜取目标企业的关联新闻步骤中,采用网络爬虫技术搜取所述关联新闻。3.根据权利要求1所述的企业新闻分析方法,其特征在于,所述进行分析步骤之前,还包括:统计所述目标企业全称和所述目标企业简称在与所述目标企业关联度较低的所述每一条关联新闻中的出现频率,并将出现频率低于一定范围的所述关联新闻判定为不相关新闻并师除。4.根据权利要求1所述的企业新闻分析方法,其特征在于,所述进行分析步骤之前,还包括:计算所述关联新闻的标题之间的相似度,并将相似度高于一定范围的所述关联新闻判断为重复新闻并筛除。5.根据权利要求1至4中任一项所述的企业新闻分析方法,其特征在于, 所述进行分析步骤中,所述评价分析方法包括正负向评价分析方法和/或关联人物及关联企业分析方法,其中, 所述正负向评价分析方法为:对所述关联新闻采用隐式语义索引法或关键词分析方法对所述目标企业进行正向评价和负向评价; 所述关联人物及关联企业分析方法为:抽取所述每一条关联新闻中的组织机构名称和个人名称,并采用聚类方法对抽取到的所述组织机构名称和个人名称进行聚类,通过统计所述目标企业与每个聚类同时出现在所述所有关联新闻中的频率,获得所述目标企业的关联人物及关联企业,其中,聚类所获得的每一个类别代表一个企业或个人,且所述组织机构名称包括企业全称或简称。6.根据权利要求5所述的企业新闻分析方法,其特征在于,所述隐式语义索引法为,采用预先建立的正负向分类器对所述每一条关联新闻进行正负向评价。7.根据权利要求5所述的企业新闻分析方法,其特征在于,所述关键词分析方法为,通过提取所述每一条关联新闻中的正向关键词词频和负向关键词词频,并采用预先建立的关键词库进行比较,获得所述每一条关联新闻的正负向评价。8.一种企业新闻分析系统,应用于计算机中,其特征在于,该系统包括: 企业名称输入模块:判断并接收目标企业全称; 企业名称拆分模块:将所述企业名称输入模块中接收到的目标企业全称,拆分成目标企业简称; 关联新闻获取模块:根据所述企业名称拆分模块中的所述目标企业全称和所述目标企业简称,自动在互联网中搜取目标企业的关联新闻; 关联新闻分析模块:对所述关联新闻获取模块所获取到的所述关联新闻进行分析,并给出对目标企业的信誉评价。9.根据权利要求8所述的企业新闻分析系统,其特征在于,还包括关联新闻筛选模块,所述关联新闻筛选模块对所述关联新闻获取模块中所获得的关联新闻进行筛选。10.根据权利要求9所述的企业新闻分析系统,其特征在于,所述关联新闻筛选模块包括不相关新闻筛除单元和去重单元; 所述不相关新闻筛除单元,统计所述目标企业全称和所述目标企业简称在与所述目标企业关联度较低的所述每一条关联新闻中的出现频率,并将所述出现频率低于一定范围的所述关联新闻判定为不相关新闻并筛除; 所述去重单元,计算所述关联新闻的标题之间的相似度,并将所述相似度高于一定范围的所述关联新闻判断为重复新闻并筛除。
【文档编号】G06F17/30GK105975491SQ201610266431
【公开日】2016年9月28日
【申请日】2016年4月26日
【发明人】周智, 胡洋吉
【申请人】重庆誉存企业信用管理有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1