一种电气型号搜索方法与流程

文档序号:12802703阅读:724来源:国知局

本发明涉及计算机软件领域,尤其涉及的是一种电气型号搜索方法。



背景技术:

文本信息检索指的是从信息资源的集合中查找文档所需内容的过程。如何从大量的数据中查找和获取有效信息是该领域持之以恒研究的问题。常见的信息检索技术包括了布尔查询,向量空间模型,概率模型和推理网络模型。

目前的常见的通用文本搜索算法都是基于文本相似度来进行的,比如simhash算法。在电器型号搜索中,完全基于相似性的算法会导致忽略重要因素,过分注重字符数多的文本内容,不能达到完全匹配a系列和b系列的相应参数。

因此,现有技术存在缺陷,需要改进。



技术实现要素:

本发明所要解决的技术问题是:提供一种有效提升电气型号文本搜索效率和搜索准确度的电气型号搜索方法。

本发明的技术方案如下:一种电气型号搜索方法,包括如下步骤:s1:输入查询文本,根据查询文本的前缀,使用文本向量分类算法计算查询文本可能的类别,当查询到文本所属类别,则使用该类别的属性抽取模板,根据模板学习到查询文本中的对应属性值,当未查询到文本所属类别时,则返回重新执行步骤s1;s2:抽取型号库中与查询文本所属类别对应类别的元器件,并形成类别系列集合;s3:对比所有形成的类别系列集合,根据查询文本属性值匹配最优可选组合,输出最优可选组合的型号文本以及价格,计算该次匹配结果的评价;s4:根据匹配结果评价对输出的各系列最优可选组合按高到低排序,结束本次搜索。

应用于上述技术方案,所述的电气型号搜索方法中,步骤s1中,使用文本向量分类算法计算查询文本可能的类别时,其具体为:s11:搜集现有所有电器元件系列的前缀,并构造元器件系列前缀树;s12:在前缀树中查询查询文本所属系列,进一步根据系列类别字典查询系列所属类别;其中,当查询不到对应类别时,则根据查询文本生成的词频向量计算与各类别余弦相似性,根据阈值筛选得到查询文件对应的所属类别;当输出无类别时,则返回重新执行步骤s1。

应用于各个上述技术方案,所述的电气型号搜索方法中,步骤s12中,电器元件系列所属类别字典构造方式如下:提取电器元件系列集在互联网上公开的属性名称,根据海明距离将属性名称分为12大类;遍历电气元件系列集合,统计每个系列的属性类别频次构造系列-属性向量;利用k-means聚类算法聚合系列-属性向量集,将系列集划分为26种类别。

应用于各个上述技术方案,所述的电气型号搜索方法中,步骤s12中,文本向量余弦相似度计算公式如下:

这里的ai和bi分别代表向量a和b的各分量,相似性的范围在0到1之间,1代表完全相同,0代表两文本完全独立。

应用于各个上述技术方案,所述的电气型号搜索方法中,步骤s3中,文本属性值匹配最优可选组合规则如下:遍历类别系列集合,根据属性名称匹配对应系列属性,对于每次匹配,当完全匹配,则评价值+1;当属性属于数值类,并匹配到的最优数值在±10%以内,则评价值+0.5,否则-0.5;当属性属于因子类,并匹配到的文本余弦相似度在±30%以内,则评价值+0.5,否则-0.5;完成一次匹配后,最终评价值等于评价值除以匹配次数。

采用上述方案,本发明根据输入的查询文本解析生成电气元件类别以及对应标准属性值,模糊地全局搜索型号库,根据属性值匹配规则生成对应型号文本和价格,采用了更加复杂且人性化的垂直搜索方式,引入了信息抽取技术以提取文档中的结构化信息,并且,其通过引入电气领域专业知识,从而有效提升电气型号文本搜索效率和搜索准确度。

具体实施方式

以下具体实施例,对本发明进行详细说明。

本实施例提供了一种电气型号搜索方法,该电气型号搜索方法根据输入的查询文本解析生成电气元件类别以及对应标准属性值,模糊地全局搜索型号库,根据属性值匹配规则生成对应型号文本和价格。

其执行步骤如下:

首先,根据输入的查询文本,根据前缀和文本向量分类算法计算查询文本可能的类别,若能查询到文本所属类别,则使用该类别的属性抽取模板,根据模板学习到查询文本中的对应属性值。

然后,抽取型号库中对应类别的元器件形成类别系列集合,遍历类别系列集合,根据查询文本属性值匹配最优可选组合,输出型号文本以及价格,计算该次匹配结果的评价。

最后,根据匹配结果评价对输出的各系列最优可选组合按高到低排序。

其中,在根据前缀和文本向量分类算法计算查询文本可能的类别时,其是搜集现有所有电器元件系列前缀构造元器件系列前缀树,根据前缀树查询将查询文本所属系列,进一步根据系列类别字典查询系列所属类别,若查询不到对应类别,则根据查询文本生成的词频向量计算与各类别余弦相似性,根据阈值筛选得到对应类别。若输出无类别,则结束本次搜索。

其中,电器元件系列所属类别字典构造方式如下:提取电器元件系列集在互联网上公开的属性名称,根据海明距离将属性名称分为12大类。遍历电气元件系列集合,统计每个系列的属性类别频次构造系列-属性向量。利用k-means聚类算法聚合系列-属性向量集,将系列集划分为26种类别。

并且,文本属性值匹配最优可选组合规则如下:遍历类别系列集合,根据属性名称匹配对应系列属性,对于每次匹配,若完全匹配,则评价值+1;若属性属于数值类,若匹配到的最优数值在±10%以内,则评价值+0.5,否则-0.5;若属性属于因子类,若匹配到的文本余弦相似度在±30%以内,则评价值+0.5,否则-0.5。完成一次匹配后,最终评价值等于评价值除以匹配次数。

并且,文本向量余弦相似度计算公式如下:

这里的ai和bi分别代表向量a和b的各分量,相似性的范围在0到1之间,1代表完全相同,0代表两文本完全独立。

其中,一个实施为:

设输入查询文本为[“ic65n65a/1p”,“60a/3p30ma”,],根据前缀查询可得[微断,none_type],预处理60a/3p30ma,过滤斜杠空格等无效字符,计算词频向量得到{60:1,a:2,p:1,m:1},计算该向量和各类别的预选相似性,设置阈值为0.3,得到候选类别(微断漏电,塑壳漏电),则最终类别为[微断,(微断漏电,塑壳漏电)]。

根据类别模板提取类别属性值,类别模板如下:

模板扫描后得到对应属性值如下:

抽取型号数据库中属于微断、微断漏电和塑壳漏电的型号数据,形成诸如以下数据结构:

通过规则匹配后,然后对查询结果进行评价,以ic65n65a/1p为例:

按匹配得分排序后输出,即完成了该次搜索。

以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1