工业品型号的索引构建、检索方法及计算机可读存储介质与流程

文档序号:35863917发布日期:2023-10-26 20:09阅读:35来源:国知局
工业品型号的索引构建、检索方法及计算机可读存储介质与流程

本发明涉及型号检索,具体地涉及一种工业品型号的索引构建方法、检索方法及计算机可读存储介质。


背景技术:

1、随着信息化时代的飞速发展,在工作和生活中人们越来越多地倾向于通过网络平台来进行商品选择、购买等操作。网络平台通过搜索引擎对用户输入的商品名称中的关键词进行检索、匹配,以便用户进行选购。

2、然而对于工业品而言,用户在采购时往往会使用工业品型号来进行检索。但工业品型号与自然语言的构成不同,通常是由数字、字母以及符号组成的无语义代码。传统搜索引擎基于关键词提取的搜索算法在工业品型号的检索中无法有效地进行关键词提取和语义分析。

3、现有技术中,部分平台只能对工业品型号进行完全匹配,若无完全匹配的型号,则检索结果为空,无法进一步通过模糊匹配获得相似商品,容错率低且检索效率低下。再则,因为工业品型号中通常由一个序列号对应一种工业品,一种工业品下包含多种类型,一个类型下又会包含多个参数,一种工业品就可能对应成千上万个工业品型号。由此,建立完全匹配的型号搜索引擎,其型号数据库中的数据量会是十分庞大的,相应的存储计算所需要的内存也十分庞大。而且,通过完全匹配的方式进行工业品型号检索,数据库中的数据量越多,检索需要的计算量就越大,检索时间就越长。对于用户而言,输入待检索的工业品型号后,必须经过一段并不短的检索等待时间,还很可能得到为空的检索结果,检索体验并不理想。

4、因此,亟待一种技术方案,能够解决工业品型号检索的内存占用大、检索时间长以及检索结果质量较低的问题。


技术实现思路

1、针对以上问题,本发明提供了一种工业品型号的索引构建方法、检索方法及计算机可读存储介质,索引构建方法能够将工业品型号进行模板化,对工业品型号中搜索区分度较低的数据进行并模板替换,从而大大减少搜索匹配的数据量,优化存储空间,同时通过该索引进行检索时搜索候选数大大减少,有效地提升了搜索速度和命中率。

2、本发明的技术方案中,提供了一种工业品型号的索引构建方法,包括:

3、型号模板化步骤s1:使用通配符替换工业品型号的字符串中的数字字符,得到型号模板;

4、索引建立步骤s2:根据型号模板建立型号模板索引。

5、根据本发明的技术方案,检索候选数据库中的数据量减少,相应地在进行工业品型号检索时需要的计算量也会明显下降,从而能够优化工业品型号索引的存储空间,降低存储计算占用的内存。同时,因为检索候选数据库中的数据量减少,计算量下降,也能够有效地提升了工业品型号检索的检索速度和命中率。

6、优选地,本发明的技术方案中,索引构建方法还包括

7、字符单元评分步骤s3:得到型号模板后,将每个型号模板的字符串进行n元分割,得到l-(n-1)个字符单元,并对每个字符单元进行评分,其中l为型号模板的字符串长度,n为字符单元的字符串长度。

8、根据本发明的技术方案,以n元分割得到的字符单元作为检索匹配的字段,而无需与检索候选数据库中的全部数据进行匹配,从而进一步地检索时的计算量,提高工业品型号检索速度,优化用户检索体验。

9、进一步地,本发明的技术方案中,字符单元评分步骤s3包括:

10、局部评分步骤s31:根据公式s=1+i/n计算字符单元对应于每个型号模板的局部评分,其中,s为字符单元的局部评分,i为字符单元的首字符坐标,n为型号模板中的字符单元总数;

11、评分去重步骤s32:字符单元对应于多个型号模板具有多个局部评分,取属于同一工业品类型的多个型号模板对应的局部评分的平均数作为字符单元对应于该工业品类型的局部评分;

12、全局评分步骤s33:取字符单元对应于全部工业品类型的局部评分的和作为该字符单元的全局评分。

13、根据本发明的技术方案,字符单元的全局评分越低,字符单元的区分度就越高,在索引中就越有价值,可以作为检索匹配时优先匹配的字段,以提高检索速度和命中率。

14、优选地,本发明的技术方案中,索引构建方法中的索引建立步骤s2还包括:

15、型号模板索引建立步骤s20:根据型号模板的字符串长度l排序型号模板,建立型号模板索引;

16、倒排索引建立步骤s21:根据每个型号模板在型号模板索引中的序号建立倒排索引;

17、长度哈希索引建立步骤s22:根据每个字符单元对应的型号模板的字符串长度l和型号模板在倒排索引中的坐标,建立长度哈希索引。

18、根据上述方案,在型号模板索引中可找到候选型号模板,在倒排索引中可找到候选型号模板在型号模板索引中的序号,在长度哈希索引中可找到候选型号模板在倒排索引中的坐标,三层索引结构逐级缩小检索范围,以降低检索计算量,提高检索速度。

19、本发明的技术方案中,还提供了一种工业品型号根据上述型号模板索引进行的检索方法,包括:

20、型号模板化步骤s01:使用通配符替换待检型号的字符串中的数字字符,得到待检型号模板;

21、字符单元评分步骤s02:将待检型号模板进行n元分割,得到l-(n-1)个字符单元,查找每个字符单元对应的评分;

22、签名筛选步骤s03:字符单元按照评分和编辑距离进行排序,选取前t+1个相互没有重叠的字符单元作为待检型号模板的签名,t为编辑距离阈值;

23、模板筛选步骤s04:根据待检型号模板的签名和字符串长度l,在型号模板索引中筛选对应的候选型号模板;

24、模板验证步骤s05,根据候选型号模板与待检型号模板之间的编辑距离对每个候选型号模板进行打分,并根据得分确定目标型号模板;

25、模板填充步骤s06,用待检型号中的数字字符替换目标型号模板中的通配符,得到目标型号。

26、根据本发明的技术方案,上述检索方法不依赖于型号公式,可用于任何型号字符串。同时,型号模板化后可减少候选的型号数量,防止大量相似型号带来的系统存储空间不必要的消耗。将型号模板进行分割后,通过打分机制,将高频的位置靠后的字符单元筛去,留下位置靠前且低频的字符单元作为型号模板的签名,并与通过倒排索引和长度哈希索引的建立,进一步缩减候选型号的数量,大大减少了搜索计算量,提高了搜索速度。

27、优选地,在本发明的技术方案中,检索方法的模板筛选步骤s04包括:

28、长度哈希索引步骤s041:根据待检型号模板的字符串长度l和签名,在长度哈希索引中查找待检型号模板在倒排索引中的坐标;

29、倒排索引步骤s042:根据待检型号模板在倒排索引中的坐标,在倒排索引中查找对应的候选型号模板的序号;

30、模板索引步骤s043:根据候选型号模板的序号,在型号模板索引中筛选对应的候选型号模板。

31、根据上述方案,在型号模板索引中可找到候选型号模板,在倒排索引中可找到候选型号模板在型号模板索引中的序号,在长度哈希索引中可找到候选型号模板在倒排索引中的坐标,三层索引结构逐级缩小检索范围,以降低检索计算量,提高检索速度。

32、在本发明的技术方案中,检索方法的模板筛选步骤s04中的候选型号模板的字符串长度范围为[l-t,l+t]。

33、优选地,在本发明的技术方案中,若模板筛选步骤s04中未筛选到对应的候选型号模板,则增大编辑距离阈值t,重新进行签名筛选步骤s03。

34、根据本发明的技术方案,在进行模糊检索时,通过编辑距离机制兼顾检索速度和检索范围,尽可能避免检索结果落空,给用户以更加高效实用的检索体验。

35、作为优选,在本发明的技术方案中,模板验证步骤s05中打分的公式为:

36、

37、其中,score为候选型号模板的评分,ed为编辑距离算符,s1为待检型号模板和候选型号模板中的一个,s2为待检型号模板和候选型号模板中的另一个,l1为s1的字符串长度,l2为s2的字符串长度,l1>l2。

38、通过上述打分公式验证候选型号模板,在多个候选型号模板中,选择的评分最高的候选型号模板作为目标型号模板。根据上述公式,若字符串s1和s2为包含关系,即s1∈s2或s2∈s1时,则候选型号模板可以额外加分。并且,通配符对编辑距离无影响。

39、在本发明的技术方案中还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的工业品型号的检索方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1