本发明属于文本分析,尤其涉及一种特定金融词库的自动化制采方法、系统、设备及存储介质。
背景技术:
1、目前,随着科技的进步和人工智能的发展,以数据的生成、采集、存储、加工、分析、服务为主的战略性产业就是大家所熟悉的大数据产业。目前,大数据产业已经渗透到各个领域,逐渐改变着人们的思维模式和工作形式,成为支撑我国经济社会发展的优势产业,也是激活数据要素潜能的关键支撑。由于社会对大数据认识参差不齐,大数据思维尚未普及,就导致了数据价值难以充分释放。为了获取基础信息中的隐藏信息,为了提高信息的附加值,数据挖掘应运而生。但是近年来,大量数据还未被挖掘,文本分析领域也尚未形成完整的体系。在面对不用领域的数据时,要想有针对性的深度挖掘各个领域的隐藏信息也就成为数据挖掘领域的难点和痛点。大数据赋予了每个行业新的机会,金融行业也不例外。目前,金融领域正以其数据量大、对数据变现渴望强烈而发展得最快、最引人瞩目。但是,即使文本分析具有普适性,也很难应用在所有场景,面对数据挖掘难点和个性化信息挖掘工具的缺失,金融数据价值挖掘正陷入无法进一步完善的困境。因此,通过构建金融信息深度挖掘模型,建立特定金融词库,可以实现对企业信息和新闻资讯的快速提取,提高对信息的效能附加,为建立金融企业、新闻资讯、风险预警等标签库奠定坚实的基础。
2、通过上述分析,现有技术存在的问题及缺陷为:
3、1)数据量很大,但数据价值无法充分释放。金融领域产生的数据量非常大,但由于对数据的认知和理解不够,数据的潜在价值未被充分挖掘和利用。
4、2)缺乏针对性的深度数据挖掘工具。虽然文本分析在理论上具有普适性,但实际应用中难以覆盖所有场景。针对金融领域的特点,缺乏定制化的深度数据挖掘工具和方法。
5、3)无法建立完整的金融信息体系。由于数据挖掘技术和方法不成熟,难以建立涵盖企业信息、新闻资讯、风险预警等的金融信息标签库和知识图谱。
6、4)数据挖掘面临技术难点。在海量复杂的数据中发现有价值的信息,建立起数据之间的关联,这些都是数据挖掘技术需要解决的难点,而这些难点在金融领域的数据分析中尤为突出。
技术实现思路
1、针对现有技术存在的问题,本发明提供了一种特定金融词库的自动化制采方法、系统、设备及存储介质。
2、本发明是这样实现的,一种特定金融词库的自动化制采方法,所述特定金融词库的自动化制采方法基于隐性要素关联的短语抽取模型,根据文章语言规则和语句构成,以动词为原点,结合n-gram语言模型,自动化统计词语间的关联概率,智能定位适配名词,构建重要动名词短语,实现关键智能化短语抽取;基于多因子单边计算分级鉴定模型,根据各因子计算公式,单向获取每个动名词短语的三因子值:位置值、频率值和关联值,利用因子判断公式鉴定所涉因子对于短语的限定有效性,结合重要值计算公式,实现动名词短语重要程度的自动化鉴定;有效集合量级as抽取模型,通过深度挖掘短语的总数量、最终短语抽取数量、短语集合聚类的均值与总和的关系,构建均值-总和对数内关联关系公式,实现有效短语的最大量级实时抽取。
3、进一步,所述特定金融词库的自动化制采方法包括以下步骤:
4、第一步,采集数据,确定数据采集方法,通过技术爬虫的方法前往各大网站采集相关数据;确定数据采集来源,从大型知名金融、经济、新闻、国家网站采集金融经济类文章,组成语料集;
5、第二步,清洗数据,对采集回来的数据进行清洗,去掉重复数据或重复率80%以上的文章;去掉全文不包含公司名称的文章,获取有效数据;
6、第三步,聚合数据,根据公司全称、简称、股票名称、股票代码进行全文匹配,抽取文章主题,再根据公司名称分别抽取各名称所在句,以“。”为分界线,组成目标集;
7、第四步,数据分词,对采集回来的有效文本,利用n-gram语言模型进行智能分词,以方便文本挖掘与分析,根据基础词典进行词性标记;
8、第五步,抽取短语,根据基于隐性要素关联的短语抽取模型,基于文章语言规则和语句构成,以动词为原点,利用n-gram语言模型统计词语间的关联概率,智能定位适配名词组成动名词短语,并抽取出来组成待处理动名词短语集;
9、第六步,合并数据,去掉含有无效和无意义词语的短语;添加满足条件的短语至待处理动名词短语集;将前次剩余的待处理动名词短语集与本次的待处理动名词短语集合并;
10、第七步,计算重要值,确定短语重要值参考因子为位置值、频率值、关联值;
11、第八步,抽取特征词,根据第七步得出的三因子的限定有效性,分别通过不同的抽取规则进行特征短语抽取;
12、第九步,建立特定词库,将最终的特征短语集经过语法精简和人工核验后,与公司名称建立一对一的关联关系,并添加到特定词库中;
13、第十步,扩充词库,设定文章采集频率,根据预设时间和频率,自动采集最新的文章,并重复以上所有步骤扩充特定金融词库。
14、进一步,所述第一步采集数据包括:
15、①确定采集数据的对象名单,名单包括大型知名金融、经济、新闻、国家信息网站;
16、②确定采集数据的内容,内容涵盖标题、正文、发布时间、发布平台;
17、③确定采集数据的方法,通过爬虫技术的方法前往各大网站采集相关数据。
18、所述第二步清洗数据包括:
19、①清洗重复数据,对采集回来的数据检测重复率,去掉重复数据或重复率80%以上的文章;
20、②清洗无效数据,去掉全文不包含公司名称的文章,删除无效、过时、关联性弱的数据,保证数据的有效性。
21、所述第三步数据聚合包括:
22、①定位抽取主题,识别文章中所有的公司名称,根据公司名称分别定位各名称所在句;
23、②确定抽取规则,将上述步骤中定位的语句,以“。”为结尾完整的抽取出来。
24、进一步,所述第四步数据分词包括:
25、①智能分词,对采集回来的有效文本,利用n-gram语言模型进行智能分词,以方便文本挖掘与分析;
26、②进行词性标记,基于基础词典,对所有分词进行词性标记。
27、所述第五步抽取短语包括:根据基于隐性要素关联的短语抽取模型,基于文章语言规则和语句构成,以动词为原点,利用n-gram语言模型统计词语间的关联概率,智能定位适配名词组成动名词短语,并抽取出来组成待处理动名词短语集;
28、①判断组合词,根据语言规则和语句构成法则,判断两个及两个以上相邻的词语之前是否存在必然联系;若存在必然联系,则将两个及以上的词语视作一个组合词;
29、②标记动词,根据主题、特殊词、特殊字筛选出最相关语句,基于语法规则,重点标记所有关键动词;
30、③定位名词,基于n-gram语言模型,根据下述公式,统计语句中每一组相邻两个词语的关联概率p(wi|wi-1),寻找关键动词与所有名词之间的关联关系,根据概率排序定位关键名词:
31、
32、其中,c(wi-1wi)是指两个词语连续出现的频率,c(wi-1)是每一个词语出现在样本集的频率;
33、④抽取短语,抽取出所有以wi为关键动词构成的p(wi|wi-1)>0的动名词短语(wi-1,wi)组成待处理动名词短语集。
34、进一步,所述第六步合并数据包括:
35、①筛选数据,去掉含有数字、年份等与特殊词库无直接关联关系的无效和无意义词语的短语;
36、②添加数据,根据步骤五中得到的每一组相邻两个词语的关联概率p(wi|wi-1),当满足条件则添加短语(wm,wi-1,…,wi)至待处理动名词短语集;
37、③合并数据,将前次制采中剩余的待处理动名词短语集与本次的待处理动名词短语集合并。
38、所述第七步计算重要值im包括:确定短语重要值参考因子为位置值、频率值、关联值,基于多因子单边计算分级鉴定模型,分别计算位置值po、频率值fr、关联值re;
39、①计算位置值po,位置值是根据预设的位置及其分值,标记每一个短语所在的位置,由其相关位置值求和可得,是位于0-1之前的小数;根据预设的位置种类,得到所有短语的位置共存在10种,分别是标题、首段首句、首段中间句、首段末句、中间段首句、中间段中间句、中间段末句、末段首句、末段中间句、末段末句;
40、②计算频率值fr,频率值是根据预设的频率统计值所在区间的对应频率值加权得,是位于0-1之前的自然数;首先要对待处理动名词短语集中的动名词短语和名词分别进行词频统计,根据得到的词频,在预设的对应表中找到动名词短语频率值f1和名词频率值f2,根据不同的情况设置不同的权重w1与w2,满足条件w1+w2=1,且w1>w2,根据公式f1*w1+f2*w2,最终计算出动名词短语的总频率值fr;
41、③计算关联值re,关联值是基于n-gram模型,分别计算每一组动名词短语的关联度;根据公式计算和记录每一组动名词短语的关联值re(p(w1,w2,...,wm)),若满足条件将(wm,wi)的关联值替换成该乘积;
42、④计算重要值im,根据位置值、频率值、关联值三因子对短语的限定有效性,采用不同的计算规则计算出最终的重要值;构建重要值函数g(po,fr),根据因子判断公式评估三因子的限定有效性;
43、当位置值和频率值对短语选取的影响程度远大于关联值,即短语的重要值参考因子为位置值和频率值,此时重要值计算公式为
44、当关联值对短语选取的影响程度远大于位置值和频率值,即短语的重要值参考因子为关联值,此时重要值计算公式为im=re。
45、进一步,所述第八步抽取特征词包括:根据步骤七得出的三因子的限定有效性,分别通过不同的抽取规则进行特征短语抽取,未抽取到的短语添加到待处理动名词短语集;
46、①当重要值主要参考要素为位置值和频率值时,根据重要值从高到低排序,取30%的动名词短语进行抽取;
47、②当重要值主要参考要素为关联值时,将所有短语按照re从高到低进行排序,根据有效集合量级as抽取模型进行抽取;
48、文章中总短语数量为n,最终抽取前m个短语,每一个短语的关联值为re(m),平均值函数为avg(),求和函数为sum();
49、构建均值-总和as内关联关系公式,寻找满足条件的max(m)即本次抽取可实现的最大抽取量级,最终抽取前m个动名词短语。
50、所述第九步建立特定词库包括:
51、①人工核验,人工检验目前所有抽取出的特征短语,经过进一步的语法精简,最终得到有效的特征短语;
52、②存储数据,将每一个特征短语与公司名称建立一对一的关联关系,存入数据库中;
53、③建立特定词库,将所有与主题建立关系的特征短语,添加至特定金融词库中。
54、所述第十步扩充词库包括:
55、①确定数据采集频率,根据不同网站不同板块文章更新频率,预设不同的采集时间和采集频率,自动采集最新的文章;
56、②扩充词库,将自动采集的文章,重复上述所有步骤,扩充特定金融词库。
57、本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述特定金融词库的自动化制采方法。
58、本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述特定金融词库的自动化制采方法。
59、本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现执行所述特定金融词库的自动化制采方法。
60、本发明的另一目的在于提供一种实施所述特定金融词库的自动化制采方法的特定金融词库的自动化制采系统,所述特定金融词库的自动化制采系统包括:
61、采集数据模块,用于确定数据采集方法,通过技术爬虫的方法前往各大网站采集相关数据;确定数据采集来源,从大型知名金融、经济、新闻、国家网站采集金融经济类文章,组成语料集;
62、清洗数据模块,用于对采集回来的数据进行清洗,去掉重复数据或重复率80%以上的文章;去掉全文不包含公司名称的文章,获取有效数据;
63、聚合数据模块,用于根据公司全称、简称、股票名称、股票代码等进行全文匹配,抽取文章主题,再根据公司名称等分别抽取各名称所在句,以“。”为分界线,组成目标集;
64、数据分词模块,用于对采集回来的有效文本,利用n-gram语言模型进行智能分词,以方便文本挖掘与分析,根据基础词典进行词性标记;
65、抽取短语模块,用于根据基于隐性要素关联的短语抽取模型,基于文章语言规则和语句构成,以动词为原点,利用n-gram语言模型统计词语间的关联概率,智能定位适配名词组成动名词短语,并抽取出来组成待处理动名词短语集;
66、合并数据模块,用于去掉含有无效和无意义词语的短语;添加满足条件的短语至待处理动名词短语集;将前次剩余的待处理动名词短语集与本次的待处理动名词短语集合并;
67、计算重要值模块,用于确定短语重要值参考因子为位置值、频率值、关联值;
68、抽取特征词模块,用于根据得出的三因子的限定有效性,分别通过不同的抽取规则进行特征短语抽取;
69、建立特定词库模块,用于将最终的特征短语集经过语法精简和人工核验后,与公司名称建立一对一的关联关系,并添加到特定词库中;
70、扩充词库模块,用于设定文章采集频率,根据预设时间和频率,自动采集最新的文章,并重复以上所有步骤扩充特定金融词库。
71、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
72、第一、本发明基于隐性要素关联的短语抽取模型,可根据文章语言规则和语句构成,以动词为原点,结合n-gram语言模型,自动化统计词语间的关联概率,智能定位适配名词,构建重要动名词短语,实现关键智能化短语抽取。本发明基于多因子单边计算分级鉴定模型,可根据各因子计算公式,单向获取每个动名词短语的三因子值:位置值、频率值、和关联值,利用因子判断公式鉴定所涉因子对于短语的限定有效性,结合重要值计算公式,实现动名词短语重要程度的自动化鉴定。本发明有效集合量级as抽取模型,可通过深度挖掘短语的总数量、最终短语抽取数量、短语集合聚类的均值与总和的关系,构建均值-总和对数内关联关系公式,实现有效短语的最大量级实时抽取。
73、第二,本发明可以实现金融领域内文本信息的快速定位和有效提取。根据不同的采集标的,可以快速识别和定位信息中的重要内容,有效提炼关键信息,有助于建立金融企业、新闻资讯、风险分析、客户需求等个性化标签,在企业、信息、客户三者之间建立大数据关联关系,提高信息挖掘的深度与广度。
74、本发明可以实现金融领域内文本信息的快速定位和有效提取。根据不同的采集标的,可以快速识别和定位信息中的重要内容,有效提炼关键信息,有助于建立金融企业、新闻资讯、风险分析、客户需求等个性化标签,在企业、信息、客户三者之间建立大数据关联关系,提高信息挖掘的深度与广度。
75、第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
76、1、本技术是基于当代文本的大众行文方式建立的可扩展、适用性和可用性较为广泛的特定金融词库。该词库可作为金融领域多方向标签化的基础词库。例如证券市场股市涨跌标签、企业经营状况标签、企业风险标签、企业资质标签等多种标签。现阶段,基于企业/行业标签体系,可以实现企业评级、风险预警、政府招商等多场景应用。本发明可以对所有文本进行实时分析,实时拓展词库,以适应最新的场景需求,具备及时性和高度适应性,应用范围较广。同时该技术还可应用至其他专业特定领域。
77、2、将动名词短语作为关键要素,以最简洁的方式体现主语,即可以规避多重名词、形容词等冗杂的表现形式,又可以很直白的展现出主语的关键内容,该技术具有较高的可复用性,且最终形成的词库具有较好的可拓展性和适用性。
78、3、目前大多研究员针对普适性算法、技术进行研究和开发,认为普适性算法可以适用大多场景。理论上,普适性算法的确适用场景更为广泛,但是在特定金融领域或特定金融场景,普适性算法缺乏应变性,最终实现效果不佳,正确率较低。