一种核电核燃料数据的模糊匹配字符串查找方法及系统与流程

文档序号:36922660发布日期:2024-02-02 21:49阅读:14来源:国知局
一种核电核燃料数据的模糊匹配字符串查找方法及系统与流程

本发明涉及核电核燃料数据管理,以及计算机软件领域,用于字符串比较和查找的方法。


背景技术:

1、核电站依靠反应堆内部的核燃料提供能源,并通过稳定的冷却剂介质(比如:氦气、水)在堆芯吸收核燃料裂变释放的热能后,通过蒸汽发生器再把热量传递给二回路产生蒸汽(或直接进入汽轮机),实现推动汽轮机做功,带动发电机发电。

2、存放在反应堆实现核反应的核燃料,需要定期更换新的核燃料组件,将裂变损耗的乏燃料取出。鉴于核燃料组件在核电厂的重要性,因此核燃料从反应堆装卸的整个流程需要精细化管理,确保核燃料从运输、装料、更换、退役的整个过程能够清晰完整地回溯。

3、核燃料在压水堆装卸操作过程的具体记录可以描述为:新燃料组件唯一编码,数据记录时间,核燃料操作责任人,核燃料存放(储存)空间位置等关键数据进行记录。

4、核燃料装料过程的全周期管理,必然会形成庞大的数据信息,这些数据信息涉及英文、中文等多种字符载体和数据编码格式。为了确保数据在回溯、查找、读取的快速运行,需要特别制定一套有效的数据读取策略和方法,确保字符串信息读取、录入、传输过程的准确性。


技术实现思路

1、鉴于上述现有存在的问题,提出了本发明。通过目标字符串的分词和预处理,以及集成对应的语言库,可以在搜索时快速定位到相关的信息,提高搜索效率;采用字符距离算法计算编辑距离,可以对搜索结果进行初步过滤,减少不准确的匹配结果。同时,采用ac自动机算法进行中文字符串的查找和验证匹配度,可以进一步提高搜索的准确性;通过对经常搜索的模式串进行缓存,可以在下次搜索时直接使用缓存的结果,减少重复搜索的时间和精力。

2、因此,提供了一种核电核燃料数据的模糊匹配字符串查找方法。

3、为解决上述技术问题,本发明提供如下技术方案,一种核电核燃料数据的模糊匹配字符串查找方法,包括:

4、对目标字符串进行分词和预处理,集成对应语言库;采用字符距离算法,计算编辑距离,进行初步过滤;采用ac自动机算法进行中文字符串的查找及验证匹配度,查找后针对经常搜索的模式串进行缓存。

5、作为本发明所述的核电核燃料数据的模糊匹配字符串查找方法的一种优选方案,其中:所述预处理包括将目标字符串进行分词、去除停用词、词干提取和词形还原、统计各个词汇在目标字符串中出现的次数、词汇权重计算以及预处理结果存储。

6、作为本发明所述的核电核燃料数据的模糊匹配字符串查找方法的一种优选方案,其中:所述编辑距离包括采用动态规划算法,定义一个n+1行、m+1列的二维数组d,初始化d0,0为0,di,0为i的插入操作,d0,j为j的删除操作,按照以下公式递推计算di,j:

7、di,j=min(di-1,j+1,di,j-1+1,di-1,j-1+cost)

8、若si=tj,则cost=0,若si≠tj,则cost=1。

9、其中,s为目标字符串长度为n,t为模式串长度为m,di,j为s前i个字符和t前j个字符之间的编辑距离,di-1,j+1为在s中插入一个字符,di,j-1+1为在t中插入一个字符,di-1,j-1+cost为替换、匹配字符。

10、作为本发明所述的核电核燃料数据的模糊匹配字符串查找方法的一种优选方案,其中:所述初步过滤包括当编辑距离越小时,表示s和t的相似度simω越高,调用similarity函数,计算两个单词之间的相似度simω:

11、

12、当dn,m越小,simω越高,设定过滤阈值x,当simω>x(0<x<1)时,则匹配成功,进行初步过滤,设定20字符以下为初步过滤条件,当长度超过20字符时,直接过滤掉,不进行深入匹配,反之,进行下一步匹配。

13、当simω≤x(0<x<1)时,则匹配不成功,继续搜索其他模式串,判断是否存在匹配成功的情况,当与其他字符串匹配成功后继续进行初步过滤,当与其他字符串匹配后仍未成功时,将此目标字符串标记为“未匹配”,存储在对应数据库中等待其他字符串进行匹配,其中,n1、n2为目标字符串长度1、2,dn,m为编辑距离,表示s和t之间的最小编辑次数。

14、作为本发明所述的核电核燃料数据的模糊匹配字符串查找方法的一种优选方案,其中:所述中文字符串的查找包括运用build方法构建ac自动机,然后利用add_pattern方法向ac自动机中添加模式串,根据search方法在文本串上进行匹配查找模式串,具体过程如下:将所有模式串构建成一棵trie树,对于节点x,添加一个指向失败节点的边,当匹配失败时,从边转移到失败节点,继续匹配,若节点x没有指向失败节点的边,则将节点x的失败节点设置为根节点,若节点x的父节点也没有指向失败节点的边,则继续向上查找父节点的失败节点,直到找到一个有指向失败节点的边为止。

15、将模式串逐个添加到ac自动机中,每个模式串对应一个规则,每个规则包含一个前缀编码和后缀编码,分别表示模式串的前缀和后缀,从根节点开始,按照目标字符串中的字符顺序依次匹配字符:当遇到与规则n的前缀编码匹配的字符时,则将规则n的后缀编码加入匹配结果列表中,并将匹配位置的后移与规则n的前缀编码长度相等,根据当前节点的状态转移图转移到下一个节点,然后继续匹配下一个字符,直到到达字符串的末尾,将匹配结果列表中的所有后缀编码拼接起来,得到最终的匹配结果,若在目标字符串中成功匹配到一个至多个模式串,则返回匹配结果,反之,返回匹配失败。

16、作为本发明所述的核电核燃料数据的模糊匹配字符串查找方法的一种优选方案,其中:所述验证匹配度包括利用字符串哈希算法进行多个模式串的匹配验证:

17、

18、其中,s为输入的字符串,a、b、c、d、e为哈希系数,s0、s1、s2为字符串中的每个字符。

19、当目标字符串匹配到一个模式串时,不进行字符串哈希验证,返回匹配结果,当目标字符串匹配到多个模式串时,利用哈希值判断是否匹配:若哈希值相同,则保留字符串的匹配结果;若哈希值不同,则两个字符串一定不同,则匹配失败,删除此模式串的匹配,进一步精准匹配模式串。

20、作为本发明所述的核电核燃料数据的模糊匹配字符串查找方法的一种优选方案,其中:所述针对经常搜索的模式串进行缓存包括缓存策略采用lru算法:在开始处理用户查询之前,缓存为空,当用户输入查询关键词时,将查询关键词与核电核燃料数据中的相关数据进行模糊匹配,将经常搜索的模式串预先存储在缓存中,在将匹配的数据添加到缓存后,检查缓存是否已满:若缓存未满,继续处理下一个用户查询,若缓存已满,需要执行缓存更新操作,在更新缓存时,删除访问次数最少的数据,将访问次数最多的数据添加到缓存的末尾,当用户查询与已缓存的数据匹配时,直接从缓存中获取相关数据,无需再次查询数据库,设置清理阈值为10天,当数据n在缓存中的时间超过10天且没有被访问时,将数据n从缓存中删除:

21、lru(a)=max(0,a-l)

22、其中,a表示访问次数,l表示缓存大小,当a>l时,删除a的最少访问次数。

23、本发明的另外一个目的是提供了一种核电核燃料数据的模糊匹配字符串查找方法的系统,为核电核燃料数据的模糊匹配字符串查找提供了一种高效、准确且具有较强适应性和灵活性的解决方案,对于核电核燃料数据的管理和使用具有重要的实际意义。

24、一种核电核燃料数据的模糊匹配字符串查找系统,其特征在于,包括分词预处理模块、模糊匹配模块、字符串查找模块及缓存模块。

25、所述分词预处理模块,对输入的文本进行分词为单个的词汇、短语。

26、所述模糊匹配模块,采用字符距离算法计算目标字符串和模式串之间的编辑距离,判断相似度。

27、所述字符串查找模块,在模糊匹配的结果中进行字符串查找,找出与用户输入的关键字相匹配的字符串。

28、所述缓存模块,将经常搜索的模式串预先存储在缓存中,避免重复计算。

29、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现一种核电核燃料数据的模糊匹配字符串查找所述的方法的步骤。

30、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现一种核电核燃料数据的模糊匹配字符串查找所述的方法的步骤。

31、本发明的有益效果:在搜索时快速定位到相关的信息,初步过滤和精确查找,能够减少无效搜索,进一步提高搜索效率;对目标字符串进行精确匹配,减少错误匹配的可能性,从而提高搜索的准确性;对于经常搜索的模式串进行缓存,减少重复搜索的时间和精力;可以适应不同场景和需求,如对于词汇的拼写错误、同义词或近义词等,都可以进行较为准确的匹配和查找。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1