一种基于关键词提取的综合信息分析方法及系统与流程

文档序号:37920424发布日期:2024-05-10 23:59阅读:8来源:国知局
一种基于关键词提取的综合信息分析方法及系统与流程

本发明涉及使用统计方法,尤其涉及一种基于关键词提取的综合信息分析方法及系统。


背景技术:

1、随着生活节奏的不断加快,人们对于日常阅读的速度需求对应提高,关键词可以从给定的文本中自动提取出最具代表性和信息量最大的关键词或短语,用于总结文本内容、主题归类、搜索引擎优化、情感分析,可以快速判断文本的主要内容和重点,从而更好地理解作者的意图和论述,因此采用关键词提取以有助于人们进行快速阅读。

2、目前常用的关键词提取方法为中国专利申请公开号:cn108241611 b公开了一种关键词提取方法以及提取设备,用于更加准确的反映了真实的热门信息。该发明实施例方法包括:获取第一文本集合中各第一文本的关键词和第二文本集合中各第二文本的关键词,根据所述各第一文本的关键词得到第一数据;根据各第二文本的关键词得到第二数据,根据第一数据和第二数据计算第一关键词集合中各第一关键词的权重系数;基于第一关键词集合,根据权重系数确定目标关键词。该发明实施例还提供了一种提取设备。该发明实施例能够更加准确的反映了真实的热门信息。

3、但是,上述方法存在以下问题:仅仅通过文本提取的关键词,无法实现对文本推理逻辑的整体理解,导致信息的不完整,关键词存在歧义或产生误解,进而导致信息传递准确性下降。


技术实现思路

1、为此,本发明提供一种基于关键词提取的综合信息分析方法及系统,用以克服现有技术中仅仅通过文本提取的关键词,无法实现对文本推理逻辑的整体理解,导致信息的不完整,关键词存在歧义或产生误解,进而导致信息传递准确性下降的问题。

2、为实现上述目的,本发明提供一种基于关键词提取的综合信息分析方法,包括:

3、步骤s1,对目标文本进行专有名词识别以及预处理,以生成清洗文本;

4、步骤s2,获取所述清洗文本的关键词以及关键词的关联因子,并根据关键词对应的关联因子与标准因子的比较结果对关键词进行语段关联以生成关联文本;

5、步骤s3,获取所述清洗文本的逻辑顺序,并对具有逻辑顺序的所述关键词进行逻辑关联以生成逻辑关键词;

6、步骤s4,对所述关联文本中的逻辑关键词进行二次语段关联以生成完备关联文本;

7、其中,所述目标文本包括若干文档,所述预处理包括去除停用词以及词干归一化,所述清洗文本包括文字部以及图片部。

8、进一步地,通过语段特征提取以及图片特征提取以获取词频,将词频由高至低进行排列,生成词频表,从词频表中选取预设数量的词频对应的单词作为关键词。

9、进一步地,所述语段特征提取为对所述清洗文本中的文字部进行分词,依次统计独一单词在清洗文本中的词频;

10、所述图片特征提取为对所述清洗文本中的图片部进行分析,使其转化为相同语义的文字部后进行分词,依次统计独一单词在清洗文本中的词频。

11、进一步地,所述词频p由以下公式确定:

12、

13、其中,x为独一单词在清洗文本中出现的次数,x0为清洗文本中总单词数;

14、其中,x0=x1+x2;

15、其中,x1为清洗文本中文字部的单词数,x2为清洗文本中图片部转化为相同语义的文字部的单词数。

16、进一步地,所述关联因子α由下式确定:

17、

18、其中,y0为所述清洗文本包括的文档总数,y为关键词出现在的文档的数量,p为关键词对应的词频。

19、进一步地,根据所述关键词对应的关联因子与所述标准因子的比较结果,对所述关键词进行语段关联;

20、其中,若所述关联因子不小于所述标准因子,对所述关键词以第一数量的语段进行关联;

21、若所述关联因子大于所述标准因子,对所述关键词以第二数量的语段进行关联;

22、其中,所述第一数量大于所述第二数量。

23、进一步地,对所述关键词进行关联的语段为关键词在该语段中的词频由高至低排列,选取所述第一数量或所述第二数量对应的语段作为关联语段。

24、进一步地,所述逻辑关联为对在所述目标文本中具有逻辑顺序的若干关键词进行逻辑标明以生成逻辑关键词;

25、其中,通过语义分析以获取所述逻辑顺序。

26、进一步地,若所述逻辑关键词对应的关联文本所包括的关联语段中不含逻辑语段,则对逻辑语段进行二次语段关联以生成所述完备关联文本;

27、其中,所述逻辑语段为引导所述逻辑关键词的逻辑顺序的语段。

28、另一方面,本发明还提供一种基于关键词提取的综合信息分析系统,包括:

29、预处理单元,其用以对目标文本进行专有名词识别以及预处理,以生成清洗文本;

30、关联单元,其与所述预处理单元相连,用以获取所述清洗文本的关键词以及关键词的关联因子,并根据关键词对应的关联因子与标准因子的比较结果对关键词进行语段关联以生成关联文本;

31、逻辑组织单元,其与所述预处理单元相连,用以获取所述清洗文本的逻辑顺序,并对具有逻辑顺序的所述关键词进行逻辑关联以生成逻辑关键词;

32、检测单元,其与所述关联单元以及所述逻辑组织单元相连,用以检测所述关联文本中是否包括所述逻辑关键词,并对逻辑关键词对应的关联文本所包括的关联语段是否含有逻辑语段,以生成检测结果;

33、生成单元,其与所述检测单元以及所述关联单元相连,用以对所述逻辑关键词对应的关联文本所包括的关联语段不含逻辑语段的关联文本进行二次语段关联该逻辑语段以生成完备关联文本。

34、与现有技术相比,本发明的有益效果在于,本发明通过获取清洗文本的词频,从中选取关键词,通过对关键词的关联因子进行计算,精确对关键词进行语段关联,生成关联文本,实现优化文本摘要和自动化生成,通过对关键词的语段关联计算,可以生成具有逻辑连贯性的关联文本,同时加强信息理解和沟通效果,精确的语段关联可以使文章或文本更易于理解和阅读,通过关键词的关联,读者可以更好地理解文章中不同段落之间的逻辑关系和信息流动,有助于提高信息传递和沟通的效果,在保证信息完整性的同时,从而有效提升了关键词表示信息的准确性。

35、进一步地,通过对目标文本的预处理去除停用词可以减少模型需要处理的文本数据量,从而提高自然语言处理模型的训练和提取效率,同时提高关键词提取准确率,词干归一化可以将词汇的不同形式转换为其基本形式,减少词汇的变体,使得相似的词语能够被视为同一词汇,从而改善特征表示的一致性,有利于提高文本分类、提取等任务的准确性,在保证信息完整性的同时,进一步地有效提升了关键词表示信息的准确性。

36、进一步地,本发明通过对逻辑关键词对应的关联文本所包括的关联语段不含逻辑语段的关联文本进行二次语段关联该逻辑语段以生成完备关联文本,通过对逻辑关键词的关联文本进行二次语段关联,可以将不同语段之间的逻辑关系更好地连接起来,增强文本的连贯性和逻辑性,同时通过二次语段关联生成完备的关联文本,可以提高自动生成文本的质量和效果,使得文本能够更好地覆盖和表达相关的内容,在保证信息完整性的同时,进一步地有效提升了关键词表示信息的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1