一种对企业信息中自然语义的专家学习拟合方法及系统与流程

文档序号:12034701阅读:242来源:国知局
一种对企业信息中自然语义的专家学习拟合方法及系统与流程

本发明涉及计算机网络技术领域,特别涉及一种对企业信息中自然语义的专家学习拟合方法及系统。



背景技术:

现有的企业信息综合网站,大都是对企业信息的简单罗列,并且是主要针对单一企业的信息汇总和分析。现有技术的缺点是存在缺少一种对企业之间的相互关系进行分析的方式。其中,如何分析各个企业的基本信息,然后通过自然语义的方式对企业信息的含义进行识别,以实现计算机自动化对该企业关系分析,是当前需要解决的技术问题。



技术实现要素:

本发明的目的旨在至少解决所述技术缺陷之一。

为此,本发明的目的在于提出一种对企业信息中自然语义的专家学习拟合方法及系统。

为了实现上述目的,本发明的实施例提供一种对企业信息中自然语义的专家学习拟合方法,包括:

步骤s1,爬取互联网上的企业名称和企业信息;

步骤s2,对获取的企业信息进行分词操作;

步骤s3,建立企业搜索网站,允许用户输入企业名称或关键词进行搜索,在向用户显示企业时,将分词信息嵌入到企业介绍中,以在接收到用户的点击操作时,检测用户点击的词汇,并自动启动对该词汇的搜索;

步骤s4,统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,所述字典记录有该企业的产业链特征词汇;

步骤s5,将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图;

步骤s6,根据所述企业之间的关联关系图,搜索出与该企业相关的业务关联企业。

进一步,在所述步骤s1中,爬取的数据源包括:企业官网、广告黄页、行业门户。

进一步,在所述步骤s2中,采用字典匹配法、词频统计法进行分词操作。

进一步,在所述步骤s4中,将点击频率高的词汇以特殊标记进行突出显示。

进一步,在所述步骤s5中,所述企业之间共同的特征包括:多个企业的特征词汇中的相同词汇或近义词。

本发明实施例还提供一种对企业信息中自然语义的专家学习拟合系统,包括:爬取模块,用于爬取互联网上的企业名称和企业信息;分词模块,用于爬取的企业信息进行分词操作;词汇搜索模块,用于建立企业搜索网站,并运行用户输入企业名称或关键词进行搜索,在向用户显示企业时,将分词信息嵌入到企业介绍中,并在接收到用户的点击操作时,检测用户点击的词汇,自动启动对该词汇的搜索;过滤及字典建立模块,用于统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,其中,所述字典记录有该企业的产业链特征词汇;关联关系图建立模块,用于将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图;关联企业搜索模块,用于根据所述企业之间的关联关系图,搜索出与该企业相关的业务关联企业。

进一步,所述爬取模块爬取的数据源包括:企业官网、广告黄页、行业门户。

进一步,所述过滤及字典建立模块用于采用字典匹配法、词频统计法进行分词操作。

进一步,所述过滤及字典建立模块用于将点击频率高的词汇以特殊标记进行突出显示。

进一步,在所述步骤s5中,所述企业之间共同的特征包括:多个企业的特征词汇中的相同词汇或近义词。

根据本发明实施例的对企业信息中自然语义的专家学习拟合方法及系统,通过建立计算机和专家交互学习系统,使得计算机能够以较高的准确率从企业介绍文本中识别出描述该企业特征的词汇,进而根据这些特征词汇构造企业与企业之间的关联关系,然后再次引入专家交互学习系统,使得计算机能够学习到有关产业链结构的知识,进而自动拟合出相关企业之间的产业链结构,即上下游关系和竞争关系。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明实施例的对企业信息中自然语义的专家学习拟合方法的流程图;

图2为根据本发明实施例的对企业信息中自然语义的专家学习拟合系统的结构图;

图3为根据本发明实施例的新的搜索的示意图;

图4为根据本发明实施例的业务关联企业的示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

如图1所示,本发明实施例的对企业信息中自然语义的专家学习拟合方法,包括如下步骤:

步骤s1,爬取互联网上的企业名称和企业信息。

在本发明的一个实施例中,爬取的数据源包括:企业官网、广告黄页、行业门户等。需要说明的是,爬取的数据源不限于上述举例,还可以为其他数据源,在此不再赘述。

步骤s2,对获取的企业信息进行分词操作。在本步骤中,采用字典匹配法、词频统计法进行分词操作。

下面分别对两种分词方法进行说明。

(1)字典匹配法:字典法是根据字典中的词汇逐个到文本中查找,查找命中就记录为一个词。

(2)词频统计法:词频法不依赖字典,而是计算文本中任意两个字同时出现的频率进行统计,频率计算以大量自然文本为语料库,同时出现频率高的字成为词的可能性较大。分词完成后需要去除助词、副词、连接词等等无意义词,依赖现有通用字典完成。另外还需要建立自己的自定义词典,将在企业搜索环境中意义不大的词也去除掉,例如“有限”、“公司”、“创新”等词。

步骤s3,建立企业搜索网站,允许用户输入企业名称或关键词进行搜索。网站能够无广告干扰地、清晰明确地输出相关企业的介绍以及官方网站。这个应用对关注企业创新和产业链形势的专家来说是非常有意义的,可以节约大量时间。

在向用户显示企业时,将分词信息嵌入到企业介绍中,以在接收到用户的点击操作时,检测用户点击的词汇,并自动启动对该词汇的搜索。即,用户可以点击介绍文本中的词汇发起一个新的搜索。

如图3所示,显示分词界面,包括多个分词信息。如果用户(专家)点击“移动通讯”则系统会自动发起一个新的搜索,这个操作方便了专家发起新的查询,查询与当前企业相关的其它企业。

步骤s4,统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,字典记录有该企业的产业链特征词汇。

在本步骤中,将点击频率高的词汇以特殊标记进行突出显示。

如图3所示,对于分词中有些显然不属于企业特征,例如“统一”、“开放”、“创新奖”等等,专家们点击这些词发起新的查询的概率显然比较低。而“移动通讯”、“数码电子”、“照明”、“手机制造商”等等词汇被点击的概率会比较高。因此通过统计专家点击词的频率就可以过滤出该企业的特征词汇,当点击次数足够多时就可以建立出一个新的字典,这个字典列举出了产业链特征词汇,并且会被不断丰富完善。计算机在分词之后可以把这个字典中出现的词以较高的亮度显示出来,甚至只显示字典中出现的词。

步骤s5,将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图。

需要说明的是,企业之间共同的特征包括:多个企业的特征词汇中的相同词汇或近义词。即,共同特征不限于完全相同的企业特征词汇,还可以为意义较为相近的特征词汇,具体如何判断是否为近义词可以通过现有的查找近义词的算法获取,在此不再赘述。

步骤s6,根据企业之间的关联关系图,搜索出与该企业相关的业务关联企业。

在本步骤中,将企业之间共同的特征词作为连接点连接不同的企业,形成企业之间的关联关系。如图4所示,通过查询该图可以帮助专家快速搜索到业务关联企业。

参考图4,公司1包括特征词1、2、3、6、9;公司2包括特征词2、3、4、5、6、7;公司3包括特征词6、7、8、9。从图中,可以清楚的看出,公司1与公司2的特征词交集为特征词2和3,公司1和公司3的特征词交集为特征词6和9,公司2和3的特征词交集为特征词7。从上述公司之间的特征词关系,可以快速判断出企业之间的相互关系,并进而通过结构化加工就可以更加清晰地显示竞争关系和上下游关系。

如图2所示,本发明实施例的对企业信息中自然语义的专家学习拟合系统,包括:爬取模块1、分词模块2、词汇搜索模块3、过滤及字典建立模块4、关联关系图建立模块5和关联企业搜索模块6。

具体的,爬取模块1用于爬取互联网上的企业名称和企业信息。

在本发明的一个实施例中,爬取模块1爬取的数据源包括:企业官网、广告黄页、行业门户。需要说明的是,爬取的数据源不限于上述举例,还可以为其他数据源,在此不再赘述。

分词模块2用于爬取的企业信息进行分词操作。下面分别对两种分词方法进行说明。

(1)字典匹配法:字典法是根据字典中的词汇逐个到文本中查找,查找命中就记录为一个词。

(2)词频统计法:词频法不依赖字典,而是计算文本中任意两个字同时出现的频率进行统计,频率计算以大量自然文本为语料库,同时出现频率高的字成为词的可能性较大。分词完成后需要去除助词、副词、连接词等等无意义词,依赖现有通用字典完成。另外还需要建立自己的自定义词典,将在企业搜索环境中意义不大的词也去除掉,例如“有限”、“公司”、“创新”等词。

词汇搜索模块3用于建立企业搜索网站,允许用户输入企业名称或关键词进行搜索。网站能够无广告干扰地、清晰明确地输出相关企业的介绍以及官方网站。这个应用对关注企业创新和产业链形势的专家来说是非常有意义的,可以节约大量时间。

词汇搜索模块3在向用户显示企业时,将分词信息嵌入到企业介绍中,以在接收到用户的点击操作时,检测用户点击的词汇,并自动启动对该词汇的搜索。即,用户可以点击介绍文本中的词汇发起一个新的搜索。

词汇搜索模块3用于统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,其中,字典记录有该企业的产业链特征词汇。

如图3所示,显示分词界面,包括多个分词信息。如果用户(专家)点击“移动通讯”则系统会自动发起一个新的搜索,这个操作方便了专家发起新的查询,查询与当前企业相关的其它企业。

具体地,过滤及字典建立模块4用于统计用户对各个词语的点击频率,过滤出点击频率高的多个词汇作为该企业的特征词汇,并利用上述词汇创立一个新型的字典,字典记录有该企业的产业链特征词汇。

在本发明的一个实施例中,过滤及字典建立模块4用于将点击频率高的词汇以特殊标记进行突出显示。

如图3所示,对于分词中有些显然不属于企业特征,例如“统一”、“开放”、“创新奖”等等,专家们点击这些词发起新的查询的概率显然比较低。而“移动通讯”、“数码电子”、“照明”、“手机制造商”等等词汇被点击的概率会比较高。因此通过统计专家点击词的频率就可以过滤出该企业的特征词汇,当点击次数足够多时就可以建立出一个新的字典,这个字典列举出了产业链特征词汇,并且会被不断丰富完善。计算机在分词之后可以把这个字典中出现的词以较高的亮度显示出来,甚至只显示字典中出现的词。

关联关系图建立模块5用于将企业之间共同的特征作为连接点,连接不同的企业,以形成企业之间的关联关系图。

需要说明的是,企业之间共同的特征包括:多个企业的特征词汇中的相同词汇或近义词。即,共同特征不限于完全相同的企业特征词汇,还可以为意义较为相近的特征词汇,具体如何判断是否为近义词可以通过现有的查找近义词的算法获取,在此不再赘述。

关联企业搜索模块6用于根据企业之间的关联关系图,搜索出与该企业相关的业务关联企业。

关联企业搜索模块6将企业之间共同的特征词作为连接点连接不同的企业,形成企业之间的关联关系。如图4所示,通过查询该图可以帮助专家快速搜索到业务关联企业。

参考图4,公司1包括特征词1、2、3、6、9;公司2包括特征词2、3、4、5、6、7;公司3包括特征词6、7、8、9。从图中,可以清楚的看出,公司1与公司2的特征词交集为特征词2和3,公司1和公司3的特征词交集为特征词6和9,公司2和3的特征词交集为特征词7。从上述公司之间的特征词关系,可以快速判断出企业之间的相互关系,并进而通过结构化加工就可以更加清晰地显示竞争关系和上下游关系。

根据本发明实施例的对企业信息中自然语义的专家学习拟合方法及系统,通过建立计算机和专家交互学习系统,使得计算机能够以较高的准确率从企业介绍文本中识别出描述该企业特征的词汇,进而根据这些特征词汇构造企业与企业之间的关联关系,然后再次引入专家交互学习系统,使得计算机能够学习到有关产业链结构的知识,进而自动拟合出相关企业之间的产业链结构,即上下游关系和竞争关系。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1