一种大量字符串的近似匹配方法

文档序号:6583467阅读:308来源:国知局
专利名称:一种大量字符串的近似匹配方法
技术领域
本发明涉及的是一种产品数据的匹配方法,具体涉及的是一种应用在电子商务中
大量字符串的近似匹配方法。
背景技术
随着电子商务的迅猛发展,基于B2C模式的电子商务网站竞争也愈演愈烈,其核 心体现在所销售的每个产品之间的价格,活动和服务的差异。所以,每天实时了解外界网站 产品的各项数据,进而做出正确的销售策略,提高竞争力,变得势在必行。
目前应用在电子商务领域产品近似匹配方法的算法有以下两种
—、编辑距离算法 用于判断字符串之间相似程度,等于将一个字符串通过基本变换转化为另一个字 符串所需的最小代价。编辑距离可以计算的不同长度字符串之间的相似度。距离算法用来 决定索引文件中的项与指定目标项的相似程度。它是两个字符串之间相似度的一个度量方 法,编辑距离就是用来计算从一个字符串转换到另一个字符串所需的最少插入、删除和替 换的字符个数。例如,"three"与"tree"两个字符串的编辑距离为l,因为只需要删除一个 字符,两个字符串就一样了。 Three和tree编辑距离为l,因为只做一次删除操作。概念很 容易理解,但在字符串的近似匹配算法的本质和变换却非常复杂,需要深入研究以应用到 实际场景。已广泛应用的场景有
1 、生物计算DNA基因突变
2、语音识别
3、拼写检查
4、抄袭检测 缺点仅能计算2个字符串的相似度,无法得到其中一个字符串为另一字符串的 子串或子序列的长度。如用在电子商务产品匹配中,其中所匹配对方的产品编号被包含于 产品名称中,那么使用此算法匹配计算比较困难。
二、最长公共子序列算法 —个数列S,如果分别是两个或多个已知数列的子序列,且是所有符合此条件序列 中最长的,则S称为已知序列的最长公共子序列。它运用了动态规划原理。已广泛应用的 场景有 1、信息检索
2、数据清理
3、抄袭识别
4、DNA序列对比例S1 = ACCGGTCGAGTGCGCGGAAGCCGGCCGAA
S2 = GTCGTTCGGAATGCCGTTGCTCTGTAAA 比较两个字符串的目标之一,就是要知道它们到底有"多么"的相似。相似度的衡量可以有很多标准,例如我们可以说,如果其中一个字符串是另外一个字符串的子序列,他 们就是相似的。上面的S1, S2都不是另外一个的子序列。或者我们也可以这样定义相似
度如果只用很少的修正操作(比如替换或者插入、删除)就能让一个字符串变成另一个,
就说它们是相似的。还可以这样定义对两个字符串,Sl和S2,找到一个序列S3, S3中出 现的全部元素都既出现在Sl中又出现在S2中,而且出现的顺序相同,但是可以不连续在 这个前提下能找到的最长的S3越长,就说Sl和S2越相似。在上面的例子中,能找到的最 长的S3为GTCGTCGGAAGCCGGCCGAA 缺点计算出的最长公共子序列字符串为不连续的,不支持回朔。所以在电子商务 产品匹配中有一定几率匹配不准确。 目前在构造产品匹配的大量字符的最佳匹配算法中,没有一个合适的模型,本文 选择了以稳定婚姻对称算法为基础构造非对称多对多模型。稳定婚姻对称算法
有一个社团里有n个女生和n个男生,每位女生按照她的偏爱程度将男生排序,同 时每位男生也按照自己的偏爱程度将女生排序。然后将这n个女生和n个男生配成完备婚 姻如图l所示。 缺点需要提前构造好每个人所偏爱对象的序列,如用在电子商务产品匹配中,缺 乏构造优选列表的算法。 因此,目前各个中大型的电子商务网站,都会使用优秀的网页信息追踪或爬虫工 具软件,来抓取外界的商品数据,但它有一定的前提性和局限性 1、外界网站的某些商品却少关键属性或规格做为直接的比较依据进行匹配抓 取;比如产品"Creative ZEN 4GB BLACK Mp3Mp4Video Player withExpandable SD Card Slot ",这是某一 B2C网站的这一产品名称,然而每个B2C网站的产品命名方式是不同的,所 以如果信息列表中缺少了产品编号,匹配抓取的准确率会降低。 2、同类同系列商品的属性或规格非常相似,造成抓取数据的准确率降低,需要人 工来进行区分匹配,因此降低了效率。比如产品名称"Epson Light Blacklnk Cartridge T096720"和"Epson Matte Black Ink Cartridge T096820",产品编号分别为"T096720" 和"T096820",主属性的字符串相似度非常高,如果同时匹配抓取到了这两条产品的话,就 还需要人工来进行选择最佳匹配对象,其查找效率低下,实时性差。 随着电子商务发展的势头越来越强劲,电子商务的数据挖掘后期的数据加工、处 理、转化将是一个非常有前景的领域,因此,现有产品数据的匹配有待进一步的改善。

发明内容
本发明目的是在于,克服现有技术的不足,而提供一种基于本体的多算法模型,增 加属性分析来自动选择算法,使其匹配结果稳定性好、匹配率高,可以根据不同的应用场 景,利用不同的字符串近似匹配算法构造优选列表的一种大量字符串的近似匹配方法。
为了实现上述目的,本发明的技术方案如下 —种大量字符串的近似匹配方法,其特征在于,其方法步骤如下
(1)选择一个待匹配对象的主要匹配参数;
(2)调整参数权重值,主要设置了以下3种参数; (a)、商品编号近似匹配,编辑距离算法或最长公共子序列算法计算的参数值;
4
(b)、商品名字近似匹配的编辑距离算法或最长公共子序列算法计算的参数值;
(c)、商品的价格区间比对的参数值; (3)利用稳定婚姻非对称算法构造一个多对多匹配模型,稳定婚姻非对称算法是 在稳定婚姻算法基础上的创新。 (4)针对多对多模型中的匹配项,并根据编辑距离算法或最长公共子序列构造一 个优选列表。 进一步,所述步骤(1)中主要匹配参数是对目标数据按某种方式归类(例如品牌 或分类)后,根据产品数据来源选择容易区分的特征匹配属性。 进一步,所述的目标数据是通过搜索引擎技术获得互联网上商品的大量产品属性 来收集数据。 本发明是基于稳定婚姻非对称算法,构造大量字符串的多对多匹配模型,此模型 的匹配项的优选列表用到了字符串的近似匹配算法中的编辑距离算法和最长公共子序列 算法。在己方和对方的产品进行产品编号与产品编号,产品名称与产品名称,产品编号与产 品名称,价格与价格,销售类型与销售类型这些产品组件属性之间结合这3种算法技术,设 定一定的参数权重进行的自动运算得出最佳匹配。 本发明增加了属性分析来自动选择算法,用于商品的识别和自动匹配,综合考虑
商品组件概念和属性组件概念的语义相似度,提出基于商品本体结构语义相似度匹配算 法,解决了本体于外界之间商品信息自动匹配问题,准确率也达到了较为理想的结果。 本发明与目前大量字符串的匹配方法相比,建立模型后,匹配结果的稳定性好,匹 配率高,实时快速,可以根据不同的应用场景,利用不同的字符串近似匹配算法构造优选列 表,解决了目前很多传统的人工复杂操作,效率不高的问题,并能够在最短的时间内做出针 对性地产品决策,加强产品竞争力,提高网站运行效率,改进系统性能,具有良好的发展和 应用前景。


以下结合附图和具体实施方式
来进一步说明本发明。
图1为通过现有稳定婚姻对称算法的女生和男生配成完备婚姻图;
图2为本发明的构造优选列表的女生和男生配成完备婚姻图。
图3为本发明的流程图。
具体实施例方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结 合具体图示,进一步阐述本发明。 本发明是基于稳定婚姻非对称算法,构造大量字符串的多对多匹配模型,此模型 的匹配项的优选列表用到了字符串的近似匹配算法中的编辑距离算法和最长公共子序列 算法。在己方和对方的产品进行产品编号与产品编号,产品名称与产品名称,产品编号与产 品名称,价格与价格,销售类型与销售类型这些产品组件属性之间结合这3种算法技术,设 定一定的参数权重进行的自动运算得出最佳匹配。
参见图3,本发明的具体匹配方法如下
(1)通过搜索引擎技术获得互联网上商品的大量产品属性数据,收集目标数据;
(2)对目标数据按某种方式归类(例如品牌或分类)后,根据产品数据来源选择容 易区分的特征匹配属性作为匹配参数,例如产品名等
(3)调整参数权重值,主要设置了以下3种参数; (a)、商品编号近似匹配,编辑距离算法或最长公共子序列算法计算的参数值;
(b)、商品名字近似匹配的编辑距离算法或最长公共子序列算法计算的参数值;
(c)、商品的价格区间比对的参数值; (4)选定需要匹配的源数据,根据稳定婚姻非对称算法构造一个多对多匹配模 型; (5)针对多对多模型中的匹配项,通过编辑距离算法或最长公共子序列构造一个 匹配项的优选列表,不同的场景可以选择不同的字符串近似匹配算法。 (5)利用本方法运算后得到最终处理结果,其中可以根据产品的品牌或分类信息 将运算量縮小到一个较小的计算单元,提高算法效率。 值得注意的是,本发明增加了属性分析来自动选择算法,用于商品的识别和自动 匹配,综合考虑商品组件概念和属性组件概念的语义相似度,提出基于商品本体结构语义 相似度匹配算法,解决了本体于外界之间商品信息自动匹配问题,准确率也达到了较为理 想的结果。 举例来说,有一个社团里有n个女生和n个男生,每位女生按照她的偏爱程度将男 生排序,同时每位男生也按照自己的偏爱程度将女生排序。然后根据女生和男生的偏爱程 度建立匹配参数,选定需要匹配的源数据,根据稳定婚姻非对称算法构造一个多对多匹配 模型,即男生与女生偏爱相同的构造;再根据编辑距离算法或最长公共子序列构造优选列 表的算法(如图2),这n个女生和n个男生配成完备婚姻。 基于上述,本发明将是数据管理、信息处理领域研究、开发和应用的最活跃的分支
之一。它帮助决策者解决了目前很多传统的人工复杂操作,效率不高的问题。它能帮助企
业实时快速的了解消费趋势、市场走向,在最短的时间内做出针对性地产品决策,加强产品
竞争力,提高网站运行效率,改进系统性能,具有良好的发展和应用前景。 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术
人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本
发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变
化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其
等效物界定。
权利要求
一种大量字符串的近似匹配方法,其特征在于,其方法步骤如下(1)选择一个待匹配对象的主要匹配参数;(2)调整参数权重值,主要设置了以下3种参数;(a)、商品编号近似匹配,编辑距离算法或最长公共子序列算法计算的参数值;(b)、商品名字近似匹配的编辑距离算法或最长公共子序列算法计算的参数值;(c)、商品的价格区间比对的参数值;(3)利用稳定婚姻非对称算法构造一个多对多匹配模型;(4)针对多对多模型中的匹配项,并根据编辑距离算法或最长公共子序列构造一个优选列表。
2. 根据权利要求l所述的一种大量字符串的近似匹配方法,其特征在于,所述步骤(1) 中主要匹配参数是对目标数据按某种方式归类(例如品牌或分类)后,根据产品数据来源 选择容易区分的特征匹配属性。
3. 根据权利要求2所述的一种大量字符串的近似匹配方法,其特征在于,所述的目标 数据是通过搜索引擎技术获得互联网上商品的大量产品属性来收集数据。
全文摘要
本发明公开的是一种大量字符串的近似匹配方法,其方法步骤(1)选择一个待匹配对象的主要匹配参数;(2)调整参数权重值;(3)利用稳定婚姻非对称算法构造一个多对多匹配模型;(4)针对多对多模型中的匹配项,并根据编辑距离算法或最长公共子序列构造一个优选列表。本发明基于本体的多算法模型,增加属性分析来自动选择算法,建立模型后,匹配结果的稳定性好,匹配率高,实时快速,可以根据不同的应用场景,利用不同的字符串近似匹配算法构造优选列表,并能够在最短的时间内做出针对性地产品决策,加强产品竞争力,提高网站运行效率,改进系统性能,具有良好的发展和应用前景。
文档编号G06F17/30GK101702171SQ200910219048
公开日2010年5月5日 申请日期2009年11月19日 优先权日2009年11月19日
发明者宋卫卫, 王皓伊, 蒋以仁 申请人:新蛋信息技术(西安)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1