一种企业标签的获取方法、获取装置、存储介质和计算机设备与流程

文档序号:24123156发布日期:2021-03-02 12:21阅读:48来源:国知局
一种企业标签的获取方法、获取装置、存储介质和计算机设备与流程

[0001]
本发明涉及金融行业企业分类技术领域,尤其涉及一种企业标签的获取方法、获取装置、存储介质和计算机设备。


背景技术:

[0002]
随着科学技术的进步和经济的飞速发展,一些企业为了扩大发展范围,需要引进投资人对其进行投资,对于投资人而言,选择企业时往往需要从海量的数据中获取感兴趣的内容,大大降低了投资人查找投资企业的效率。


技术实现要素:

[0003]
本发明所解决的技术问题是提供一种企业标签的获取方法、获取装置、存储介质和计算机设备,投资人利用对企业标签进行企业查找,提高了企业查找的效率。
[0004]
本发明所采用的技术方案内容具体如下:
[0005]
一种企业标签的获取方法,包括如下步骤:
[0006]
获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
[0007]
对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;
[0008]
获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;
[0009]
获取每个所述候选关键词的热度值;
[0010]
根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;
[0011]
将权重优化值超过预设阈值的候选关键词确定为企业标签。
[0012]
作为上述方案的优选,获取每个所述候选关键词的初始权重:
[0013]
根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数r
i1
,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,r
i1
=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,r
i1
=1;
[0014]
根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数r
i2
,且其中:a
i
为第i个候选关键词的重复次数,n为所述候选关键词的个数;
[0015]
根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数r
i3
,且当所述候选关键词可以独立表意时,r
i3
=1;当所述候选关键词不能独立表意时,r
i3
=0;
[0016]
根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参
数r
i4
,且当所述候选关键词为动词、形容词、数量词和代词时,r
i4
=0;当所述候选关键词为名词时,r
i4
=1;
[0017]
根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ω
i0
,则其中:n为所述候选关键词的个数。
[0018]
作为上述方案的优选,获取每个所述候选关键词和其他文本类型的候选关键词的相似度值包括如下步骤:
[0019]
根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量a,且第一向量为a=(r
i1
,r
i2
,r
i3
,r
i4
),其中:r
i1
,r
i2
,r
i3
,r
i4
分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;
[0020]
根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量b,且第一向量为b=(r
j1
,r
j2
,r
j3
,r
j4
),其中:r
j1
,r
j2
,r
j3
,r
j4
分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词;
[0021]
利用第一向量和第二向量计算所述候选关键词和所述关联词的相似度值,且相似度值的计算公式为:
[0022]
作为上述方案的优选,获取每个所述候选关键词的热度值包括如下步骤:
[0023]
将候选关键词作为统计项目统计候选关键词的词汇热度;
[0024]
将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;
[0025]
将所述词汇热度和所述集合热度相加,得到候选关键词的检索热度。
[0026]
作为上述方案的优选,所述词汇热度和所述集合热度的统计方法相同,且该统计方法为:
[0027]
设定统计起始时间,将统计起始时间与所述整体热度或所述词汇热度或所述集合热度的计算时间之间的时长划分为若干个时间段;
[0028]
按照距离当前时间越远对热度值贡献程度越低的方式对所述整体热度或所述词汇热度或所述集合热度进行加权处理,即:其中:λ
j
为第j个时间段对应的权重值,且越靠近热度值计算的时间段,其对应的权重值越大;β
ij
为在第j个时间段内所述整体热度或所述词汇热度或所述集合热度的统计项目被采集到的次数。
[0029]
作为上述方案的优选,根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值的计算公式为:
[0030][0031]
本发明还公开了一种企业标签的获取装置,包括第一获取模块、第二获取模块、第三获取模块、第四获取模块、计算模块和确定模块,其中:所述第一获取模块获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
所述第二获取模块对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;所述第三获取模块获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;所述第四获取模块获取每个所述候选关键词的热度值;所述计算模块根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;所述确定模块将权重优化值超过预设阈值的候选关键词确定为企业标签。
[0032]
本发明还公开了一种计算机设备,包括存储器以及与所述存储器相连接的处理器,所述存储器存储计算机程序,所述计算机程序被所述处理器执行时实现实现所述的企业标签的获取方法的步骤。
[0033]
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的企业标签的获取方法的步骤。
[0034]
与现有技术相比,本发明的有益效果在于:
[0035]
本发明公开的企业标签的获取方法,其不仅基于用于描述企业的企业基本信息文本、企业投融资文本以及企业商业模式文本等待提取文本进行关键词提取,而且,还根据候选关键词的位置、词性、重复次数、独立表意能力和热度等对候选关键词进行了筛选,可以将投资人更为关注的候选关键词作为企业标签,使得投资人通过所述企业标签可以快速查找到目标企业。
[0036]
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0037]
图1为较优选实施例的企业标签的获取方法的应用环境图;
[0038]
图2为较优选实施例的企业标签的获取方法的流程示意图;
[0039]
图3为较优选实施例的企业标签的获取装置的结构框图;
[0040]
图4为图3中第二获取模块的结构框图;
[0041]
图5为图3中第三获取模块的结构框图;
[0042]
图6为图3中第四获取模块的结构框图;
[0043]
图7为较优选实施例的计算机设备的结构框图;
[0044]
其中,各附图标记为:
[0045]
1、终端;2、服务器;3、第一获取模块;4、第二获取模块;5、第三获取模块;6、第四获取模块;7、计算模块;8、确定模块;9、第一获取单元;10、第二获取单元;11、第三获取单元;12、第四获取单元;13、第一计算单元;14、第一构建单元;15、第二构建单元;16、第二计算单元;17、第一统计单元;18、第二统计单元;19、第三计算单元。
具体实施方式
[0046]
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下:
[0047]
实施例一
[0048]
如图1所示是本发明的企业标签的获取方法的应用环境图,企业标签的获取方法应用于企业标签的获取系统,该企业标签的获取系统包括终端1和服务器2,所述终端1和所述服务器2通过网络连接,所述终端1具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑、便携式可穿戴设备等中的至少一种,所述服务器2可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0049]
如图2所示,在一个实施例中,本发明提供了一种企业标签的获取方法,以该方法应用于图1中的服务器2为例进行说明,包括如下步骤:
[0050]
获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;
[0051]
对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重,由于文本类型不同,对每个文本类型的所述待提取文本进行分词得到候选关键词包括用于反映企业基本信息的基本信息关键词、用于反映企业投融资信息的投融资关键词和用于反映企业商业模式的商业模式关键词。
[0052]
获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;
[0053]
获取每个所述候选关键词的热度值;
[0054]
根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;
[0055]
将权重优化值超过预设阈值的候选关键词确定为企业标签。
[0056]
本发明公开的企业标签的获取方法,其不仅基于用于描述企业的企业基本信息文本、企业投融资文本以及企业商业模式文本等待提取文本进行关键词提取,而且,还根据候选关键词的位置、词性、重复次数、独立表意能力和热度等对候选关键词进行了筛选,可以将投资人更为关注的候选关键词作为企业标签,使得投资人通过所述企业标签可以快速查找到目标企业。
[0057]
作为上述方案的优选,获取每个所述候选关键词的初始权重:
[0058]
根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数r
i1
,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,r
i1
=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,r
i1
=1。
[0059]
根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数r
i2
,且其中:a
i
为第i个候选关键词的重复次数,n为所述候选关键词的个数。
[0060]
根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数r
i3
,且当所述候选关键词可以独立表意时,r
i3
=1;当所述候选关键词不能独立表意时,r
i3
=0。
[0061]
根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数r
i4
,且当所述候选关键词为动词、形容词、数量词和代词时,r
i4
=0;当所述候选关键词为名词时,r
i4
=1。
[0062]
根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选
关键词的初始权重ω
i0
,则其中:n为所述候选关键词的个数。
[0063]
应该理解的是,每个所述候选关键词的初始权重是基于某个候选关键词所在的待提取文本而确定的。
[0064]
作为上述方案的优选,获取每个所述候选关键词和其他文本类型的候选关键词的相似度值包括如下步骤:
[0065]
根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量a,且第一向量为a=(r
i1
,r
i2
,r
i3
,r
i4
),其中:r
i1
,r
i2
,r
i3
,r
i4
分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数。
[0066]
根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量b,且第一向量为b=(r
j1
,r
j2
,r
j3
,r
j4
),其中:r
j1
,r
j2
,r
j3
,r
j4
分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词,即第i个候选关键词和第j个所述候选关键词的所在的待提取文本的文本类型不同。
[0067]
利用第一向量和第二向量计算所述候选关键词和所述关联词的相似度值,且相似度值的计算公式为:
[0068]
作为上述方案的优选,获取每个所述候选关键词的热度值包括如下步骤:
[0069]
将候选关键词作为统计项目统计候选关键词的词汇热度,其可以反映出投资人对每个候选关键词的关注热度,使得投资人关注热度比较高的候选关键词能够得到累计统计。
[0070]
将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度,其可以反映出投资人对多个候选关键词同时关注时的热度。
[0071]
将所述词汇热度和所述集合热度相加,得到投资人对候选关键词的检索热度。
[0072]
将所述词汇热度和所述集合热度相加,得到投资人对候选关键词的检索热度,通过对投资人在搜索引擎查找企业时输入的检索信息进行上述两个维度的统计,增强了统计的完整性,使得投资人输入候选关键词、以及候选关键词的集合都能够得到统计。
[0073]
应该理解的是,所述候选关键词的热度值应为投资人利用搜索引擎查找企业或投融资项目时输入的词汇。
[0074]
作为上述方案的优选,所述词汇热度和所述集合热度的统计方法相同,所述词汇热度和所述集合热度进行统计时引入了“时间降温”的概念,即距离当前时间越远则对热度值的贡献越低。因为现有的热点企业很多,热点企业在热点期后随时间推移可能很快地被其他热点企业取代,因此距离当前时间更近的热点企业对于投资人来说更有吸引力,因此,基于这一因素的考虑,该统计方法为:
[0075]
设定统计起始时间,将统计起始时间与所述整体热度或所述词汇热度或所述集合热度的计算时间之间的时长划分为若干个时间段;
[0076]
按照距离当前时间越远对热度值贡献程度越低的方式对所述整体热度或所述词
汇热度或所述集合热度进行加权处理,即:其中:λ
j
为第j个时间段对应的权重值,且越靠近热度值计算的时间段,其对应的权重值越大;β
ij
为在第j个时间段内所述整体热度或所述词汇热度或所述集合热度的统计项目被采集到的次数。
[0077]
基于“时间降温”的考虑对所述词汇热度和所述集合热度进行统计时,可以确保热点的候选关键词具有更高的热度值。
[0078]
另外,λ
j
的取值可以采用不同的取值方法,例如:各个时间段对应的权重值按等差分布的方式取值,则第i个时间段对应的权重值为:或者,各个时间段对应的权重值按比例分布的方式取值,第j个时间段对应的权重值为:或者,λ
j
的取值还可以根据热点企业的更新速率确定。
[0079]
作为上述方案的优选,根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值的计算公式为:
[0080][0081]
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0082]
实施例二
[0083]
本发明还公开了一种企业标签的获取装置,包括第一获取模块3、第二获取模块4、第三获取模块5、第四获取模块6、计算模块7和确定模块8,其中:所述第一获取模块3获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;所述第二获取模块4对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;所述第三获取模块5获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;所述第四获取模块6获取每个所述候选关键词的热度值;所述计算模块7根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;所述确定模块8将权重优化值超过预设阈值的候选关键词确定为企业标签。
[0084]
由于文本类型不同,对每个文本类型的所述待提取文本进行分词得到候选关键词包括用于反映企业基本信息的基本信息关键词、用于反映企业投融资信息的投融资关键词和用于反映企业商业模式的商业模式关键词。
[0085]
作为进一步优选的方案,如图4所示,所述第二获取模块4包括第一获取单元9、第二获取单元10、第三获取单元11、第四获取单元12和第一计算单元13,其中:
[0086]
所述第一获取单元9根据所述候选关键词在所述待提取文本中的位置,得到所述
候选关键词的位置参数r
i1
,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,r
i1
=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,r
i1
=1;
[0087]
所述第二获取单元10根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数r
i2
,且其中:a
i
为第i个候选关键词的重复次数,n为所述候选关键词的个数;
[0088]
所述第三获取单元11根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数r
i3
,且当所述候选关键词可以独立表意时,r
i3
=1;当所述候选关键词不能独立表意时,r
i3
=0;
[0089]
所述第四获取单元12根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数r
i4
,且当所述候选关键词为动词、形容词、数量词和代词时,r
i4
=0;当所述候选关键词为名词时,r
i4
=1;
[0090]
所述第一计算单元13根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ω
i0
,则其中:n为所述候选关键词的个数。
[0091]
应该理解的是,每个所述候选关键词的初始权重是基于某个候选关键词所在的待提取文本而确定的。
[0092]
作为进一步优选的方案,如图5所示,所述第三获取模块5包括第一构建单元14、第二构建单元15和第二计算单元16,其中:
[0093]
所述第一构建单元14根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量a,且第一向量为a=(r
i1
,r
i2
,r
i3
,r
i4
),其中:r
i1
,r
i2
,r
i3
,r
i4
分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;
[0094]
所述第二构建单元15根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量b,且第一向量为b=(r
j1
,r
j2
,r
j3
,r
j4
),其中:r
j1
,r
j2
,r
j3
,r
j4
分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词,即第i个候选关键词和第j个所述候选关键词的所在的待提取文本的文本类型不同;
[0095]
所述第二计算单元16利用第一向量和第二向量计算所述候选关键词和所述关联词的相似度值,且相似度值的计算公式为:
[0096]
作为进一步优选的方案,如图6所示,所述第四获取模块6包括第一统计单元17、第二统计单元18和第三计算单元19,其中:
[0097]
所述第一统计单元17将候选关键词作为统计项目统计候选关键词的词汇热度;
[0098]
所述第二统计单元18将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;
[0099]
所述第三计算单元19将所述词汇热度和所述集合热度相加,得到投资人对企业的检索热度。
[0100]
需要说明的是,在本实施例中,所述词汇热度和所述集合热度的统计方法与实施例一相同。
[0101]
作为进一步优选的方案,所述计算模块7根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值,且计算公式为:
[0102]
需要说明的是,所述企业标签的获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0103]
实施例三
[0104]
本发明还公开了一种计算机设备,所述计算机设备可以为服务器,如图7所示,所述计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储操作行为数据、商品信息数据等等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现所述企业标签的获取方法的步骤。
[0105]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0106]
在其他实施例中,提供了一种计算机设备,包括存储器以及与所述存储器相连接的处理器,所述存储器存储计算机程序,所述计算机程序被所述处理器执行时实现实现所述的企业标签的获取方法的步骤,具体包括如下步骤:获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;获取每个所述候选关键词的热度值;根据每个所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;将权重优化值超过预设阈值的候选关键词确定为企业标签。
[0107]
由于文本类型不同,对每个文本类型的所述待提取文本进行分词得到候选关键词包括用于反映企业基本信息的基本信息关键词、用于反映企业投融资信息的投融资关键词和用于反映企业商业模式的商业模式关键词。
[0108]
在其他一些实施例中,处理器执行计算机程序时实现获取每个所述候选关键词的初始权重的步骤时,具体包括如下步骤:(1)根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数r
i1
,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,r
i1
=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,r
i1
=1;(2)根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的
重复参数r
i2
,且,且其中:a
i
为第i个候选关键词的重复次数,n为所述候选关键词的个数;(3)根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数r
i3
,且当所述候选关键词可以独立表意时,r
i3
=1;当所述候选关键词不能独立表意时,r
i3
=0;(4)根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数r
i4
,且当所述候选关键词为动词、形容词、数量词和代词时,r
i4
=0;当所述候选关键词为名词时,r
i4
=1;(5)根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ω
i0
,则其中:n为所述候选关键词的个数。
[0109]
应该理解的是,每个所述候选关键词的初始权重是基于某个候选关键词所在的待提取文本而确定的。
[0110]
在其他一些实施例中,处理器执行计算机程序时实现获取每个所述候选关键词和其他文本类型的候选关键词的相似度值的步骤时,具体包括如下步骤:(1)根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量a,且第一向量为a=(r
i1
,r
i2
,r
i3
,r
i4
),其中:r
i1
,r
i2
,r
i3
,r
i4
分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;(2)根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量b,且第一向量为b=(r
j1
,r
j2
,r
j3
,r
j4
),其中:r
j1
,r
j2
,r
j3
,r
j4
分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词,即第i个候选关键词和第j个所述候选关键词的所在的待提取文本的文本类型不同;(3)利用第一向量和第二向量计算所述候选关键词和所述关联词的相似度值,且相似度值的计算公式为:
[0111]
在其他一些实施例中,处理器执行计算机程序时实现获取每个所述候选关键词的热度值的步骤时,具体包括如下步骤:获取投资人检索企业时输入的检索信息;利用分词技术对检索信息进行分词处理以获取候选关键词,并将候选关键词作为统计项目统计候选关键词的词汇热度;将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;将所述整体热度、所述词汇热度和所述集合热度相加,得到投资人对企业的检索热度。
[0112]
需要说明的是,在本实施例中,所述整体热度、所述词汇热度和所述集合热度的统计方法与实施例一相同。所述整体热度主要用于体现投资人对完整检索信息的关注程度。
[0113]
实施例四
[0114]
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:获取待提取文本,所述待提取文本包括至少一个企业基本信息文本、至少一个企业投融资文本以及至少一个企业商业模式文本,并根据所述待提取文本的内容确定所述待提取文本的文本类型;对每个文本类型的所述待提取文本进行分词得到候选关键词,并获取每个所述候选关键词的初始权重;获取每个所述候选关键词和其他文本类型的候选关键词的相似度值;获取每个所述候选关键词的热度值;根据每个
所述候选关键词的相似度值、热度值和初始权重,得到每个所述候选关键词的权重优化值;将权重优化值超过预设阈值的候选关键词确定为企业标签。
[0115]
由于文本类型不同,对每个文本类型的所述待提取文本进行分词得到候选关键词包括用于反映企业基本信息的基本信息关键词、用于反映企业投融资信息的投融资关键词和用于反映企业商业模式的商业模式关键词。
[0116]
在其他一些实施例中,所述计算机程序被处理器执行时实现获取每个所述候选关键词的初始权重的步骤时,具体包括如下步骤:(1)根据所述候选关键词在所述待提取文本中的位置,得到所述候选关键词的位置参数r
i1
,且当所述候选关键词同时出现在所述待提取文本的标题和正文时,r
i1
=2;当所述候选关键词同时出现在所述待提取文本的标题或正文时,r
i1
=1;(2)根据所述候选关键词在所述待提取文本中的重复次数,得到所述候选关键词的重复参数r
i2
,且其中:a
i
为第i个候选关键词的重复次数,n为所述候选关键词的个数;(3)根据所述候选关键词在所述待提取文本中的独立表意能力,得到所述候选关键词的表达参数r
i3
,且当所述候选关键词可以独立表意时,r
i3
=1;当所述候选关键词不能独立表意时,r
i3
=0;(4)根据所述候选关键词在所述待提取文本中的词性,得到所述候选关键词的词性参数r
i4
,且当所述候选关键词为动词、形容词、数量词和代词时,r
i4
=0;当所述候选关键词为名词时,r
i4
=1;(5)根据所述位置参数、所述重复参数、所述表达参数和所述词性参数,得到所述候选关键词的初始权重ω
i0
,则其中:n为所述候选关键词的个数。
[0117]
应该理解的是,每个所述候选关键词的初始权重是基于某个候选关键词所在的待提取文本而确定的。
[0118]
在其他一些实施例中,所述计算机程序被处理器执行时实现获取每个所述候选关键词和其他文本类型的候选关键词的相似度值的步骤时,具体包括如下步骤:(1)根据所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第一向量a,且第一向量为a=(r
i1
,r
i2
,r
i3
,r
i4
),其中:r
i1
,r
i2
,r
i3
,r
i4
分别第i个候选关键词的位置参数、重复参数、表达参数和词性参数;(2)根据关联词所述候选关键词的所述位置参数、所述重复参数、所述表达参数和所述词性参数构造第二向量b,且第一向量为b=(r
j1
,r
j2
,r
j3
,r
j4
),其中:r
j1
,r
j2
,r
j3
,r
j4
分别为第j个所述候选关键词的位置参数、重复参数、表达参数和词性参数,且所述关联词为其他文本类型的候选关键词,即第i个候选关键词和第j个所述候选关键词的所在的待提取文本的文本类型不同;(3)利用第一向量和第二向量计算所述候选关键词和所述关联词的相似度值,且相似度值的计算公式为:
[0119]
在其他一些实施例中,所述计算机程序被处理器执行时实现获取每个所述候选关键词的热度值的步骤时,具体包括如下步骤:获取投资人检索企业时输入的检索信息;利用分词技术对检索信息进行分词处理以获取候选关键词,并将候选关键词作为统计项目统计候选关键词的词汇热度;将各候选关键词的集合作为统计项目统计投资人同时关注多个候选关键词的集合热度;将所述整体热度、所述词汇热度和所述集合热度相加,得到投资人对
企业的检索热度。
[0120]
需要说明的是,在本实施例中,所述整体热度、所述词汇热度和所述集合热度的统计方法与实施例一相同。所述整体热度主要用于体现投资人对完整检索信息的关注程度。
[0121]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性存储器和/或易失性存储器,其中:(1)非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存;(2)易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0122]
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0123]
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1