一种基于语义分析模型的信息检索分析方法及系统与流程

文档序号:36179463发布日期:2023-11-29 11:20阅读:61来源:国知局

本发明涉及数据处理,更具体涉及一种基于语义分析模型的信息检索分析方法及系统。


背景技术:

1、在信息技术的不断创新和发展下,语义分析技术逐渐崭露头角,在很多领域得到广泛应用,特别是在信息平台上通过输入一个文本并从文本中提取关键词来检索需要的信息,例如从人员管理平台上查找人员信息,或者从工厂生产管理平台上查找产品的生产信息,取得了很好的检索效果,例如:中国专利cn116737875a,该发明公开了一种技能语义相似度检索方法,包括:建立技能语义文本数据以及生成自定义技能词典;基于所述技能语义文本数据和自定义技能词典训练word2vec技能语义向量模型;通过技能语义向量模型和技能语义文本数据建立es技能语义数据库;并利用所述es技能语义数据库进行检索;使用技能语义句向量模型计算语义相似度得分;结合es技能语义数据库的检索结果和语义相似度得分计算最终得分结果,并对所述最终得分结果进行阈值过滤;该发明有效且高效地提高了检索结果的相关性和准确性。还例如:美国专利us20220027569a1,该发明提供了一种语义检索方法、装置和存储介质。该方法可以包括:接收查询信息,基于预先构建的知识图谱对查询信息进行序列标注,得到序列标注结果,该序列标注结果包括知识图谱的预定信息部分和语义检索。基于知识图谱构造一组与序列标注结果匹配的候选实体;将候选实体集合中的实体与序列标注结果中的语义检索部分进行语义匹配,得到语义相关度高于预设阈值的实体集合。上述两篇专利都是通过录入信息进行语义检索获取查询结果,但是,当录入信息出现错误时不能对检索关键词进行自动校正,同时也没有通过用户对检索结果的选择反过来调整语义关系库中关键词跟近似词之间的语义相似度,从而使得提高语义检索的精度。


技术实现思路

1、为了更好的解决上述问题,本发明提供一种基于语义分析模型的信息检索分析方法,所述方法包括如下步骤:

2、步骤s1:文本收集单元接收录入的第一文本信息,并提取所述第一文本信息中的第一关键词;

3、步骤s2:基于所述第一关键词在语义关系库中查找与所述第一关键词语义相似度大于第一阈值的第一近似词,在所述语义关系库中查找不到所述第一近似词时,通过语义分析单元计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词;

4、步骤s3:检索单元基于所述第一关键词和所述第一近似词对目标文档进行检索,在通过所述第一关键词和所述第一近似词都在所述目标文档中获取不到检索结果时,基于所述第一关键词在所述第一文档中查找语义相似度大于第二阈值且小于所述第一阈值的第二近似词,并以所述第二近似词在所述目标文档中检索,并获取检索结果;

5、步骤s4:所述检索结果按照与所述第一关键词、所述第一近似词或者所述第二近似词的对应关系进行排序显示,同时还基于用户对所述检索结果的选择更新所述语义关系库。

6、作为本发明一种更优选的技术方案,在所述步骤s2和所述步骤s3中,在通过所述第一关键词在所述第一文档中获取不到所述第一近似词和所述第二近似词时,执行步骤s5:通过校正单元基于校正数据库和历史检索记录对所述第一关键词进行校正,基于校正后的关键词重复所述步骤s2和所述步骤s3的方法获取所述检索结果,并根据所述文本收集单元在预设时间内获取的第二文本信息来更新所述校正数据库。

7、作为本发明一种更优选的技术方案,所述步骤s2中,通过语义分析单元计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词,包括如下步骤:

8、步骤s21:通过所述语义分析单元中的语义分析模型将所述第一关键词和至少一个所述第一文档中的词语转换为词向量,通过计算所述第一关键词的词向量和所述第一文档中词语的词向量之间的余弦值分别获取所述第一关键词和所述第一文档中词语之间的语义相似度;

9、步骤s22:通过所述第一关键词和所述第一文档中词语之间的语义相似度,获取与所述第一关键词相似度大于第一阈值的第一近似词;

10、步骤s23:在所述第一文档中查找不到所述第一近似词时,通过从网络上获取与所述第一关键词语义相似度大于所述第一阈值的词语作为所述第一近似词。

11、作为本发明一种更优选的技术方案,所述步骤s5,包括如下步骤:

12、步骤s51:基于所述第一关键词在所述校正数据库中查找与所述第一关键词对应的校正关键词,在能够获取到所述校正关键词时,将所述校正关键词替换掉所述第一关键词,并基于所述校正关键词,重复执行所述步骤s2-步骤s4,并获取检索结果;否者,执行步骤s52;

13、步骤s52:在所述校正数据库中,查找不到与所述第一关键词对应的所述校正关键词时,计算所述第一关键词与历史检索记录中文本信息所包含词语进行字音或者字形相似度计算,获取与所述第一关键词字音或者字形相似度大于第三阈值的第二关键词,并基于所述第二关键词重复所述步骤s2和所述步骤s3,重新获取所述检索结果;

14、步骤s53:在所述步骤s52所述检索结果中任意一项被用户点击查看,并在预设时间内,在所述文本收集单元没有获取第二文本信息或者再次获取的所述第二文本信息中的第三关键词与所述第一关键词的语义相似度小于第四阈值时,将所述第一关键词对应的检索历史信息删除,并将所述第一关键词和所述第二关键词的对应关系存储在校正数据库中;反之,在所述预设时间内,所述文本收集单元重新获取到所述第二文本信息且所述第二文本信息中的所述第三关键词与所述第一关键词的语义相似度大于所述第四阈值时,在重复所述步骤s2-步骤s3也没有获取到检索结果时,提示用户检索结果不存在,并分别删除所述第一关键词和所述第三关键词对应的历史检索记录。

15、作为本发明一种更优选的技术方案,所述步骤s4包括如下步骤:

16、步骤s41:在所述检索结果的数量是若干个时,其中通过所述第一关键词获取的所述检索结果最靠前,通过所述第一近似词和所述第二近似词获取的所述检索结果,根据所述第一近似词和所述第二近似词与所述第一关键词的语义相似度进行排序,其中,所述第一近似词和所述第二近似词与所述第一关键词的语义相似度越高,所述第一近似词和所述第二近似词对应的检索结果越靠前;

17、步骤s42:用户根据排好序的所述检索结果进行选择用户需要的所述检索结果,并根据用户选择的所述检索结果调整所述语义关系库中所述第一关键词和所述第一近似词、第二近似词的语义关系;在所述用户选择的所述检索结果是基于所述第一近似词或者所述第二近似词时,则增加所述第一近似词或者所述第二近似词与所述第一关键词的语义相关度,反之,则不增加所述第一近似词或者所述第二近似词与所述第一关键词的语义相关度。

18、作为本发明一种更优选的技术方案,所述第一文档是与所述目标文档相关的一个或者若干个文本信息。

19、本发明还提供一种基于语义分析模型的信息检索分析系统,用于实现上述的一种基于语义分析模型的信息检索分析方法,所述系统包括:

20、文本收集单元,用于接收录入的第一文本信息,并提取所述第一文本信息中的第一关键词;

21、查找单元,用于基于所述第一关键词在语义关系库中查找与所述第一关键词语义相似度大于第一阈值的第一近似词;

22、第一存储单元,用于存储第一文档;

23、语义分析单元配置为:在所述语义关系库中查找不到所述第一近似词时,计算所述第一关键词与存储在第一存储单元中若干个第一文档中词语之间的语义相似度,并获取与所述第一关键词语义相似度大于所述第一阈值的第一近似词;

24、检索单元配置为:基于所述第一关键词和所述第一近似词对目标文档进行检索,在通过所述第一关键词和所述第一近似词都在所述目标文档中获取不到检索结果时,基于所述第一关键词在所述第一文档中查找语义相似度大于第二阈值且小于所述第一阈值的第二近似词,并以所述第二近似词在所述目标文档中检索,并获取检索结果;

25、排序单元,用于将所述检索结果按照与所述第一关键词、所述第一近似词或者所述第二近似词的对应关系进行排序显示;并基于用户对所述检索结果的选择进行更新。

26、与现有技术相比,本发明的有益效果至少如下所述:

27、本发明通过文本收集单元从录入的第一文本信息中提取第一关键词,为了使得检索结果更加精准通过语义关系数据库中查找与第一关键词语义相似度大于第一阈值的第一近似词,在查找不到时通过语义分析单元计算第一关键词和第一文档中词语的语义相似度,获取与第一关键词语义相似度大于第一阈值的第一近似词,并通过第一关键词和第一近似词进行检索,在通过第一关键词和第一近似词查找不到检索结果时,有可能是第一关键词和第一近似词不够精准,因此从第一文档中获取相似度大于第二阈值且小于所述第一阈值的第二近似词,并进行检索,从而提高了检索结果的精确性和全面性;在第一关键词、第一近似词及第二近似词都不能从目标文档中获取检索结果时,有可能是第一关键词录入出错,为了获取用户需要的检索结果,可以通过校正单元通过校正数据库和历史检索记录对第一关键词进行自动校正,提高用户的检索效率,还通过将获取的检索结果按照与第一关键词的语义相似度进行排序,并根据用户对检索结果的选择来增加选中检索结果对应第一近似词和第二近似词与第一关键词的语义相似度,并更新至语义关系库中,通过上述技术方案的相互配合,使用户下次通过第一关键词进行检索时,获取更加精准的检索结果,同时也提高了检索效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1