一种基于ocr的商品查询关键字自动生成方法

文档序号:10725706阅读:216来源:国知局
一种基于ocr的商品查询关键字自动生成方法
【专利摘要】本发明公开了一种基于OCR的商品查询关键字自动生成方法,首先建立商品信息数据库。然后利用OCR技术提取产品包装图中的文字信息,获得包含产品信息的单词组。接着通过计算单词组与数据库中单词的相似性,矫正错误字符,完成单词组标准化。接着通过打分规则将得分最高的商品类别作为单词组所代表产品的类别。随后选择该商品类别对应的单词共生表并计算单词组中各单词的共生性得分来过滤掉无用单词。最后,通过该商品类别的品牌打分表和打分规则选择得分最高的品牌作为单词组代表产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字供用户检索使用。本发明计算效率高,对数据库的更新方便,极大地提高用户查询商品信息时的正确性。
【专利说明】
一种基于OCR的商品查询关键字自动生成方法
技术领域
[0001] 本发明属于信息检索技术领域,尤其涉及一种在OCR基础上的商品关键字自动生 成方法。
【背景技术】
[0002] 互联网以及手持智能终端在过去的10年间经历了爆炸式的发展,这极大地丰富了 人们的信息获取途径并改变了人们的生活方式,越来越多的人选择通过电商完成购物。借 助各种电商网站上详细的产品信息以及其它购买者对商品的评价,人们可以更好地进行购 物选择。但是当购物者在商场、书店等地购物时,查询商品的具体信息就变得较为困难。通 常人们的做法是阅读产品包装并人为提取组织其中可能的关键字,之后再输入到搜索引擎 中进行查询。但手工提取产品关键字的过程费时费力,而且对于购物者来说精确选择关键 字较为困难,更为糟糕的是一些无用单词可能会干扰查询结果。
[0003] 0CR(0ptical Character Recognition,光学字符识别)能对图像中的文本信息进 行分析识别处理,通过检测暗、亮的模式确定其形状,用字符识别方法将形状翻译成计算机 文字。随着带有拍照功能的手持智能终端的广泛普及,利用OCR技术对拍摄的商品包装照片 中的文字信息进行提取显得水到渠成。但是,OCR识别出来的信息存在大量噪音,且存在一 些无用信息。如果不对这些信息进行进一步的分析,其结果很可能影响用户的使用。因此需 要对OCR识别的信息进一步分析整合。

【发明内容】

[0004] 为了解决上述技术问题,本发明提供了一种基于OCR的商品查询关键字自动生成 方法,在获取一张用手持智能终端拍摄的产品包装图后,OCR将会对该产品图片进行文字提 取并返回一个包含大量噪音和无用信息的字符数据集,之后通过矫正错误字符(标准化)、 选择商品类别、过滤无用信息、确定产品品牌四个过程最终生成合理的产品关键字。
[0005] 本发明所采用的技术方案是:一种基于OCR的商品查询关键字自动生成方法,其特 征在于:首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单 词表形成商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品 查询关键字自动生成;其中所述商品查询关键字自动生成包括以下步骤:
[0006] 步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符 数据集进行预处理,去掉单个字符长度的单词和无用符号(非数字、非字母的符号),形成包 含产品信息的一个单词组;
[0007] 步骤2:分别米用Levenshtein Distance和Damerau-Levenshtein Distance两种 编辑距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似 性,并把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性 值;将单词组中对数据库所有单词的相似性都低于给定阈值t s的单词丢弃;对于剩余的单 词,使用数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成 单词组的标准化工作;
[0008] 步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在 的商品类别作为单词组所代表产品的商品类别;
[0009] 否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每 个商品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别 作为单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类 别作为单词组所代表产品的类别;否则无法判断;
[0010] 步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一 个单词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均 一致,不丢弃任何单词,否则认为得分低于给定的阈值的单词代表的是无用信息,丢弃该 单词,完成单词过滤;
[0011] 步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后 的单词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商 品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的 品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。
[0012] 作为优选,所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综 合所有的单词表形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商 品类别下形成一个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单 词表、单词共生表和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表 存入数据库中。
[0013] 作为优选,所述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综 合所有的单词表形成商品类别打分表,其具体实现过程是:
[0014] 步骤A.1:在电商网站上按照不同商品类别爬取产品的名称、品牌并建立产品信息 表,所述产品信息表属性包括产品序号(Pid)、产品品牌(brand)、产品名(name);
[0015] 步骤A. 2:在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将 大写字母全部转为小写字母;(2)将"/"两边的单词分开,如cleanse/tone转为 cleansetone; (3)去除无用字符(不是数字或英文字母表中的字母)(4)去除表示单位的单 词;形成修剪后的产品名表;所述产品名表属性包括产品序号(pid)、修剪后的产品名 (prunedname);
[0016] 步骤A. 3:基于修剪后的产品名表,对于每个商品类别下出现的单词,统计每个单 词的出现次数以及产品名中含有该单词的产品的pid,形成单词表,所述产品名表属性包括 产品序号(pid)、修剪后的产品名(prunedname);
[0017] 步骤A. 4:基于所有单词表,生成一个商品类别打分表,表中的每一项代表一个单 词在对应的商品类别下的出现比例,计算公式如下:
[0019]其中N表示单词表包含的单词总数;N。表示商品类别数目;P[i][j]表示单词i在商 品类另ll j下的出现比例;nunu j表示单词i在商品类别j下出现的次数;t o t a 1 _nunu表示单词i 在所有商品类别中出现的总次数;
[0020] 步骤A. 5:对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对 应的两个单词的共生性得分,计算公式如下:
[0022]其中η为该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得 分;word_numi贝lj表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词 i和单词j在修剪后的产品名中同时出现的次数;pre^ext^表示单词i和单词j在修剪后的 产品名中紧挨着出现次数;
[0023] 步骤A.6:对于每一个商品类别各生成一个品牌打分表WordBrand,其中的每一项 代表一个单词对一个品牌的贡献得分,计算公式如下:
[0025] 其中η表示该商品类别包含的单词总数;Nb表示该商品类别包含的品牌数目; WordBrand[ i ] [ j ]表示单词i对品牌j的贡献得分;Nij表示在某一商品类别中含有单词i且品 牌为j的产品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度;
[0026] 步骤A. 7:将所有的表存入数据库中。
[0027] 作为优选,步骤2中相似性的计算公式为:
[0029]其中s为OCR返回的单词组中的一个单词;W为数据库单词表中所有的单词;N为数 据库单词表包含的单词总数;Ed为编辑距离的计算方法;Similar ity(s,wi)表示单词组中 的单词s与数据库中单词Wi的相似性;Length(s)表示单词s的长度;Length(wi)表示单词Wi 的长度;
[0030]作为优选,步骤2中所述Tse [0,1]。
[0031] 作为优选,步骤3中所述根据标准化后的产品信息单词组对不同的商品类别进行 打分,商品类别打分规则为:若某单词只在一个商品类别中出现,则根据表1进行打分;
[0032] 表1单词只在一个商品类别中出现时该商品类别得分规则
[0033]
[0034]
[0035] 若单词在多个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分 表中对应项的值乘以给定的数值Cm;其中对应项是该单词在商品类别的出现比例。
[0036] 作为优选,Tsce[0,l],TLe[l,15],gradee[l,100],Cme[l,20]〇
[0037] 作为优选,步骤4中所述共生性得分计算公式为:
[0039] 其中stdWordNum表示单词组中的单词个数;app_proportioru表示标准化后单词 组中单词i的共生性得分;acm_nunu代表单词组中与单词i在单词共生表中对应的值大于给 定阈值τ。的单词个数;outlierNum表示单词组中与其它单词均不共生的单词个数。
[0040] 作为优选,所述Tae [0,1],1:。£ [0,1]。
[0041 ]作为优选,步骤5中所述对所有品牌的打分过程如下:
[0042]步骤5.1:根据步骤3确定的商品类别选择相应的品牌打分表WordBrand,根据该品 牌打分表和过滤后的单词组对相应商品类型下的所有品牌进行打分;计算公式为:
[0044]其中Nb为该商品类别包含的品牌数目;sc〇re[k]为品牌k的得分;N f为过滤后的单 词组含有的单词总数;indexOf (wordi)表示单词wordi在该商品类别单词表中的wid;
[0045] 步骤5.2:给定不同的数值k,将单词组中任意k个单词组合,若该单词组合只在一 个品牌中的出现,该品牌增加分值gradel;若在多个品牌中出现,则对应的多个品牌增加分 值grade2。
[0046] 作为优选,所述ke [1,10],gradel e [1,30],grade2e [1,30]。
[0047] 本发明中提出的基于OCR的商品查询关键字自动生成技术,计算量很小,对于硬件 要求很低,具有很高的效率;使用的数据库以及表格很小,更新方便;能够极大地提高用户 查询商品信息时的正确性,改善用户的购物体验。
【附图说明】
[0048]图1:本发明实施例的流程图。
[0049] 图2:本发明实施例的数据库示意图。
[0050] 图3:本发明实施例中样例产品的包装图。
[0051 ]图4:本发明实施例中OCR返回的识别结果图。
[0052]图5:本发明实施例中经过预处理的OCR识别结果图。
[0053]图6:本发明实施例中商品类别得分与选择的商品类别结果图。
[0054]图7:本发明实施例中单词组过滤后的结果图。
[0055] 图8:本发明实施例中选取的品牌以及最终生成的商品查询关键词结果图。
[0056] 图9:本发明实施例中利用生成的商品查询关键词在搜索引擎中查询的结果图。
【具体实施方式】
[0057] 为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发 明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不 用于限定本发明。
[0058]请见图1,本发明提供一种基于OCR的商品查询关键字自动生成方法,其特征在于: 首先构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成 商品类别打分表,并所有的表存入数据库中;然后基于商品类别打分表进行商品查询关键 字自动生成;
[0059] 构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表 形成商品类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一 个产品信息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表 和品牌打分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中;其 具体实现过程是:
[0060] 步骤A.1,在亚马逊网站上按照不同商品类别(日用品,红酒,书籍)爬取产品的名 称、品牌(其中书籍的品牌为作者名)并建立产品信息表(属性为:产品序号(pid)、产品品牌 (brand)、产品名(name)),分别为commodity、wine、book〇
[0061] 步骤A. 2,在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将 大写字母全部转为小写字母;(2)将"/"两边的单词分开,如cleanse/tone转为 cleansetone; (3)去除无用字符(不是数字或英文字母表中的字母)(4)去除表示单位的单 词;形成修剪后的产品名表;所述产品名表属性包括产品序号(pid)、修剪后的产品名 (prunedname);形成3个修剪后的产品名表(属性为:产品序号(p i d)、修剪后的产品名 (prunedname)),分别为commodity_pruned、wine_pruned、book_pruned 〇
[0062] 步骤A. 3,基于修剪后的产品名表,对于每个商品类别下出现的单词(即修剪后的 产品名中含有的所有单词),统计每个单词的出现次数以及产品名中含有该单词的产品的 pid,形成3个单词表(属性为单词序号(wid)、单词(word)、单词数目(num)、产品序号 (pid)),分别为commodity_words、wine_words、book_words。数据库中的产品信息表,产品 名表,单词表见图2。
[0063] 步骤A.4,基于数据库中的所有单词表,生成一个商品类别打分表,请见表2,表中 的每一项代表一个单词在对应的商品类别下的出现比例,计算公式如下:
[0065]其中N表示数据库单词表包含的单词总数;P[i][j]表示单词i在商品类别j下的出 现比例;numi j表示单词i在商品类别j下出现的次数;to tal_numi表示单词i在三个商品类别 中出现的总次数。
[0066]表2商品类别打分表的结构
[0068] 步骤A. 5,对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对 应的两个单词的共生性得分,计算公式如下:
[0070]其中η表示该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得 分;word_numi贝lj表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词 i和单词j在修剪后的产品名中同时出现的次数;pre^ext^表示单词i和单词j在修剪后的 产品名中紧挨着出现的次数。
[0071 ] 步骤A. 6,对于每一个商品类别各生成一个品牌打分表WordBrand,其中的每一项 代表一个单词对一个品牌的贡献得分,计算公式如下:
[0073] 其中η表示该商品类别包含的单词总数;Nb表示该商品类别包含的品牌数目; WordBrand[ i ] [ j ]表示单词i对品牌j的贡献得分;Nij表示在某一商品类别中含有单词i且品 牌为j的产品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度。
[0074] 然后进行商品查询关键字自动生成,具体包括以下步骤:
[0075] 步骤1:利用OCR技术提取产品包装图(图3)的全部可识别文字信息,识别结果如图 4,并对返回的识别结果进行简单预处理,去掉单个字符长度的单词和一些无用符号(例如: "I"等),形成包含产品信息的一个单词组,预处理后结果如图5。
[0076] 步骤2:米用两种编辑距离方法Levenshtein Distance和Damerau-Levenshtein Distance,分别计算OCR返回的单词组中每个单词与数据库单词表中所有单词的相似性,并 把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值。将单 词组中对数据库所有单词的相似性都低于阈值0.5的单词丢弃。对于剩余的单词,使用数据 库中与其相似性值最大的单词来替换,并保存各自的最大相似性值S max,完成单词组的标准 化工作。相似性的计算公式如下:
[0078]其中s为OCR返回的单词组中的一个单词;W为数据库单词表中的所有单词;N为数 据库单词表所包含的单词总数;Ed为编辑距离的计算方法;Similarity (s,wi)表示单词组 中的单词S与数据库中单词Wi的相似性。
[0079]步骤3:若标准化后的产品信息单词组中含有某一产品品牌(比如01ay、Nivea等), 则直接将该品牌所在的商品类别作为单词组所代表产品的商品类别,步骤3结束。否则就根 据标准化后的单词组对不同的商品类别进行打分,并且对于每个商品类别,记录单词组中 只在该商品类别中出现的单词的个数。将得分最高的商品类别作为单词组所代表产品的类 另IJ;若所有商品类别的得分相同,则独占单词数最多的商品类别作为单词组所代表产品的 类别。对商品类别打分规则为:若某单词只在一个商品类别出现,根据表3打分;若单词在多 个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分表中对应项的值乘以 常数5。三个商品类别得分及选择结果如图6所示。
[0080] 表3单词只在一个商品类别中出现时该商品类别得分规则
[0081]
[0082]步骤4:对于确定了产品类别的单词组选择相应的单词共生表,对于单词组中的每 一个单词,计算其与单词组中其它单词的共生性得分。若单词组中每个单词的共生性得分 均一致,不丢弃任何单词。否则认为得分低于0.2的单词代表的是无用信息,丢弃该单词,完 成单词过滤,单词组过滤后的结果如图7所示。共生性得分计算公式如下:
[0084] 其中app_proportiom为标准化后单词组中第i个单词的共生性得分;acm_numi代 表单词组中与第i个单词在单词共生表中对应的值大于0.05的单词个数;stdWordNum为单 词组中的单词个数;outlierNum为单词组中与其它单词均不共生的单词个数。
[0085]步骤5:若过滤后的产品信息单词组中含有某一产品品牌(比如01ay、Nivea等),将 该品牌名结合过滤后的单词组作为商品查询关键字返回,商品查询关键字生成过程结束。 否则通过过滤后的产品信息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高 的品牌作为该产品的品牌名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。 选取的品牌以及最终生成的商品查询关键词结果如图8所示。利用生成的商品查询关键词 在搜索引擎中查询的结果如图9所示(红框标出的为目标商品)。
[0086]在步骤5中,对所有品牌的打分过程如下:
[0087]步骤5.1,否则根据步骤3确定的商品类别选择相应的品牌打分表WordBrand,根据 该品牌打分表和过滤后的单词组对相应商品类型下的所有品牌进行打分。计算公式为:
[0089]其中sc〇re[k]代表品牌k的得分;Nf为过滤后的单词组中含有的单词总数;N b为相 应商品类型下品牌的个数;indexOf (wordi)为单词wordi在该商品类别单词表中的wid。
[0090]步骤5.2,令数值k分别等于1、2、3,根据表4对所有品牌打分。
[0091] 表4不同k取值时的品牌得分规则
[0092]
[0093] 应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0094] 应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本 发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权 利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发 明的请求保护范围应以所附权利要求为准。
【主权项】
1. 一种基于OCR的商品查询关键字自动生成方法,其特征在于:首先构建所有商品的产 品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品类别打分表,并所 有的表存入数据库中;然后基于商品类别打分表进行商品查询关键字自动生成;其中所述 商品查询关键字自动生成包括W下步骤: 步骤1:利用OCR技术提取产品包装图中的全部可识别文字信息,并对返回的字符数据 集进行预处理,去掉单个字符长度的单词和非数字、非字母的符号,形成包含产品信息的一 个单词组; 步骤2:分别义用Levenshtein Distance和Damerau-Levenshtein Distance两种编辑 距离方法,计算步骤1中获得的单词组中每个单词与数据库单词表中所有单词的相似性,并 把两个相似性结果的调和平均值作为该单词对数据库单词表中每个单词的相似性值;将单 词组中对数据库所有单词的相似性都低于给定阔值Ts的单词丢弃;对于剩余的单词,使用 数据库中与其相似性值最大的单词来替换,并保存各自的最大相似性值Smax,完成单词组的 标准化工作; 步骤3:若标准化后的产品信息单词组中含有某一产品品牌,则直接将该品牌所在的商 品类别作为单词组所代表产品的商品类别; 否则就根据标准化后的产品信息单词组对不同的商品类别进行打分,并且对于每个商 品类别,记录单词组中只在该商品类别中出现的单词的个数,将得分最高的商品类别作为 单词组所代表产品的类别;若所有商品类别的得分相同,则独占单词数最多的商品类别作 为单词组所代表产品的类别;否则无法判断; 步骤4:对确定了商品类别的单词组选择相应的单词共生表,对于单词组中的每一个单 词,计算其与单词组中其它单词的共生性得分;若单词组中每个单词的共生性得分均一致, 不丢弃任何单词,否则认为得分低于给定的阔值Ta的单词代表的是无用信息,丢弃该单词, 完成单词过滤; 步骤5:若过滤后的商品信息单词组中含有某一产品品牌,将该品牌名结合过滤后的单 词组作为商品查询关键字返回,商品查询关键字生成过程结束;否则通过过滤后的商品信 息单词组和对应的品牌打分表对所有品牌的打分,选取得分最高的品牌作为该产品的品牌 名,将该品牌名结合过滤后的单词组作为商品查询关键字返回。2. 根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述 构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商品 类别打分表,是在电商网站上进行商品信息的爬取,在每一个商品类别下形成一个产品信 息表;经过对每一个产品信息表的进一步处理生成产品名表、单词表、单词共生表和品牌打 分表;综合所有的单词表形成一个商品类别打分表,将所有的表存入数据库中。3. 根据权利要求1或2所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所 述构建所有商品的产品名表、单词表、单词共生表和品牌打分表,综合所有的单词表形成商 品类别打分表,其具体实现过程是: 步骤A.1:在电商网站上按照不同商品类别爬取产品的名称、品牌并建立产品信息表, 所述广品?目息表属性包括广品序号P id、广品品牌brand、广品名name; 步骤A. 2:在每个商品类别下,对每个产品的产品名进行修剪,修剪规则为:(1)将大写 字母全部转为小写字母;(2)将7"两边的单词分开;(3)去除无用字符,无用字符包括不是 数字或英文字母表中的字母;(4)去除表示单位的单词;形成修剪后的产品名表;所述产品 名表属性包括产品序号P i d、修剪后的产品名prunedname; 步骤A.3:基于修剪后的产品名表,对于每个商品类别下出现的单词,统计每个单词的 出现次数W及产品名中含有该单词的产品的pid,形成单词表,所述单词表属性为包括单词 序号wid、单词word、单词数目num、产品序号pid; 步骤A.4:基于所有单词表,生成一个商品类别打分表,表中的每一项代表一个单词在 对应的商品类别下的出现比例,计算公式如下:其中N表示单词表包含的单词总数;Nc表示商品类别数目;P[i][j]表示单词i在商品类 另Ij j下的出现比例;numi康示单词i在商品类另Ij j下出现的次数;to ta l_num康示单词i在所 有商品类别中出现的总次数; 步骤A. 5:对于每一个商品类别各生成一个单词共生表ACM,其中的每一项代表对应的 两个单词的共生性得分,计算公式如下:其中η为该商品类别包含的单词总数;ACM[i][j]表示单词i和单词j的共生性得分; word_numi则表示单词i在该商品类别中出现的次数;word_numij表示该商品类别中单词i和 单词j在修剪后的产品名中同时出现的次数;示单词i和单词j在修剪后的产品 名中紧挨着出现次数; 步骤A. 6:对于每一个商品类别各生成一个品牌打分表Wor犯rand,其中的每一项代表 一个单词对一个品牌的贡献得分,计算公式如下:其中η表示该商品类别包含的单词总数;化表示该商品类别包含的品牌数目;Wor地rand [i][j]表示单词i对品牌j的贡献得分;Νυ表示在某一商品类别中含有单词i且品牌为j的产 品的个数,namelengthk表示含有单词i且品牌为j的产品k修剪后的产品名长度; 步骤A. 7:将所有的表存入数据库中。4.根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤2 中相似性的计算公式为:其中S为OCR返回的单词组中的一个单词;W为数据库单词表中所有的单词;N为数据库 单词表包含的单词总数;Ed为编辑距离的计算方法;Similarity (s,wi)表示单词组中的单 词S与数据库中单词Wi的相似性;Length(s)表示单词S的长度;Length(wi)表示单词Wi的长 度。5. 根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤2 中所述Tse[〇,l]。6. 根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤3 中所述根据标准化后的产品信息单词组对不同的商品类别进行打分,商品类别打分规则 为:若某单词只在一个商品类别中出现,则根据表1进行打分; 表1单词只在一个商品类别中出现时该商品类别得分规则若单词在多个商品类别中出现,每个商品类别的加分值为该单词在商品类别打分表中 对应项的值乘W给定的数值Cm;其中对应项是该单词在商品类别的出现比例。7. 根据权利要求6所述的基于OCR的商品查询关键字自动生成方法,其特征在于 [0, l],TLe [1,15]'grade e[l, 100],Cme [1,20]。8. 根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤4 中所述共生性得分计算公式为:其中stdWordNum表示单词组中的单词个数;app_p;ropodioni表示标准化后单词组中单 词i的共生性得分;acm_numi代表单词组中与单词i在单词共生表中对应的值大于给定阔值 Tc的单词个数;outlierNum表示单词组中与其它单词均不共生的单词个数。9. 根据权利要求8所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所述Ta e[〇,i],Tce[〇,i]。10. 根据权利要求1所述的基于OCR的商品查询关键字自动生成方法,其特征在于,步骤 5中所述对所有品牌的打分过程如下: 步骤5.1:根据步骤3确定的商品类别选择相应的品牌打分表Wor地rand,根据该品牌打 分表和过滤后的单词组对相应商品类型下的所有品牌进行打分;计算公式为:其中化为该商品类别包含的品牌数目;score[k]为品牌k的得分;化为过滤后的单词组 含有的单词总数;indexOf (wordi)表示单词wordi在该商品类别单词表中的wid; 步骤5.2:给定不同的数值k,将单词组中任意k个单词组合,若该单词组合只在一个品 牌中的出现,该品牌增加分值gradel;若在多个品牌中出现,则对应的多个品牌增加分值 gr曰de2〇11.根据权利要求10所述的基于OCR的商品查询关键字自动生成方法,其特征在于:所 述kE [1,10],gradel E [1,30],grade2E [1,30] D
【文档编号】G06K9/32GK106096609SQ201610428913
【公开日】2016年11月9日
【申请日】2016年6月16日
【发明人】黄浩, 钟林杌, 李宗鹏, 颜钱
【申请人】武汉大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1