一种物联网数据相似度处理方法_2

文档序号:9453107阅读:来源:国知局
行替换;
[0037]N4、对替换后的农产品名称进行比较,完全相等则两者相似度Sim(Ak,Bk) = 1,否 则Sim(Ak,Bk) =0。
[0038] 优选地,如图3所示,所述产品价格转换匹配策略函数Strategy_PriCe〇包括以 下步骤:
[0039]P1、先定义一个map实体:map〈string,double>price;
[0040]P2、执行以下语句使单位与换算值对应起来:
[0041]price[〃元 / 公斤〃]=1;
[0042]price["元 / 斤"]=2;
[0043]price[〃元 / 千克〃]=1;
[0044]price["元/1000克"]=1 ;
[0045]price["元/500克"]=2;
[0046]price["元/100克"]=10 ;
[0047]price["元 / 克"]=1000 ;
[0048]price["元 / 吨"]=0? 001。
[0049] 表示的意思就是如果"X元/公斤"要转化为单位"元/千克"的话,就要用x乘以 1,如果"x元/斤"要转化为单位"元/千克"的话,就要用x乘以2,其它依此类推;
[0050] P3、对于记录A的价格属性值Ak,先把价格的数值和单位分割开来,分割的方法是 从字符串的第一位开始,依次往后面搜索,直到找到第一个不属于'〇'到'9'之间,并且不 是'的字符P[i]为止,此时P[0]到P[i]这部分是价格的数值,把它们保存在字符串a 中,剩下的一部分就是单位,把它们保存在字符串b中;
[0051]P4、使用atof()函数把字符串a转化为double型数值,保存在double型变量cl 中;
[0052]P5、执行cl* =price[b]语句,使cl乘以单位b的换算值,并保存在cl当中,此 时cl就是转换后的输入的价格的数值;
[0053] P6、对记录B使用同样的方法得到价格属性值Bk的最终转换后的数值c2 ;
[0054] P7、判断cl-c2〈 = 0. 000001的值是否为真来确定输入的两个价格是否一样。如 果为真Sim(Ak,Bk) = 1,否则Sim(Ak,Bk) = 0。
[0055] 进一步地,如图4所示,所述规范化日期匹配策略函数Strategy_Date〇包括以下 步骤:
[0056] D1、从rl的第一个字符开始依次往后面搜索,如果找到一个不属于9'之间 的字符rl[i],那么它就是第一个分隔符,把它转化为' /',即rl[i] = ' /',这时从第一个字 符到第i_l个字符就是年份;
[0057] D2、如果rl[i+l]不为字符'0',那么直接进入步骤3 ;如果rl[i+l]为字符'0', 那么从i+2位置开始到字符串的最后把它们全部前移一位,即rl[i+1、i+2.. .] =rl[i+2、 i+3....];
[0058]D3、把i+1的值保存到j当中,从第i+1个字符开始,依次往后面搜索,直到找到一 个不属于' 9'之间的字符rl[i]为止,那么它就是第二个分隔符,把它转化为'/',即 rl[i] = ' /',这时从第j个字符到第i_l个字符就是月份,并且是已经去掉了前缀0的月 份;
[0059]D4、重复步骤D2来消除日期号当中的前缀0;到这里,第一个输入的日期字符串rl 就完成了分隔符的转化以及前缀〇的消除;
[0060] D5、对于输入日期字符串r2,然后用上面同样的方法完成对r2的处理;处理完后, 利用公另
计算rl与r2的相似度。
[0061] 进一步地,如图5所示,所述规范化产地匹配策略函数Strategy_Origin()包括以 下步骤:
[0062] 01、创建集合Sprov、Scity、Scoun分别保存所有省级行政区划、市级行政区划以 及县级行政区划;
[0063] 02、把记录A的产地属性值进行中文分词,分好后的词放到集合Sprov、Scity、 Scoun中检索其属于哪一级别的行政区划,以区分省、市、县,然后让记录A的省、市、县分别 保存在Aprov、Acity、Acoun中,对其中缺失的行政区划级别赋空值NULL。对记录B的产地 属性值做同样的处理,使8的省、市、县分别保存在8口1~〇¥、8〇;^7、8〇〇1111中 ;
[0064] 03、把缺失的行政区划级别补充完整。利用行政区划的特征从下至上补全缺失的 行政区划级别,对于不可以补全的部分,不做处理。
[0065]以上对本发明实施例所提供的一种一种数据相似度处理方法进行了详细介绍,对 于本领域的一般技术人员,依据本发明实施例的思想,在【具体实施方式】及应用范围上均会 有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡依本发明设计思想所 做的任何改变都在本发明的保护范围之内。
【主权项】
1. 一种物联网数据相似度处理方法,其特征在于:包括以下步骤: 51、 从WEB交易平台中获取多条产品记录,选出具有多个相同属性的两条产品记录,分 别为第一产品记录和第二产品记录; 52、 将第一产品记录的属性保存在第一数组中,将第二产品记录的属性保存在第二数 组中; 53、 对第一产品记录和第二产品记录的各属性分别按相应的属性函数计算相应的属性 相似度值,并将多个属性的属性相似度值保存在第三数组中; 54、 根据第一产品记录和第二产品记录各属性的重要程度、并通过权重函数计算各属 性的权重值,并将多个属性的权重值保存在第四数组中; 55、 结合属性相似度值的第三数组和权重值的第四数组,通过整体相似度函数计算第 一产品记录和第二产品记录的整体相似度。2. 根据权利要求1所述的一种物联网数据相似度处理方法,其特征在于:所述步骤S3 中,属性函数包括产品别称匹配策略函数、产品价格转换匹配策略函数、规范化日期匹配策 略函数、规范化产地匹配策略函数和编辑距离算法函数。3. 根据权利要求1所述的一种物联网数据相似度处理方法,其特征在于:所述步骤S2 中,第一产品记录的属性按照产品名称、价格、生产日期、产地的顺序先后放入多个第一属 性数组中,多个第一属性数组构成所述第一数组。4. 根据权利要求1所述的一种物联网数据相似度处理方法,其特征在于:所述步骤S2 中,第二产品记录的属性按照产品名称、价格、生产日期、产地的顺序先后放入多个第二属 性数组中,多个第二属性数组构成所述第二数组。
【专利摘要】本发明提供一种物联网数据相似度处理方法,包括以下步骤:获取多条产品记录,选出具有多个相同属性的第一产品记录和第二产品记录;将第一产品记录的属性保存在第一数组中,将第二产品记录的属性保存在第二数组中;对第一产品记录和第二产品记录的各属性分别按相应的属性函数计算相应的属性相似度值;根据第一产品记录和第二产品记录各属性的重要程度、并通过权重函数计算各属性的权重值;结合属性相似度值的第三数组和权重值的第四数组,通过整体相似度函数计算第一产品记录和第二产品记录的整体相似度。本申请将具有相同属性的两条产品记录按照各自的属性相似度和属性权重值进行整体相似度的计算,其处理速度快、可以节省大量的时间成本。
【IPC分类】G06F17/30
【公开号】CN105205107
【申请号】CN201510535354
【发明人】谢东, 肖东, 成运
【申请人】湖南人文科技学院
【公开日】2015年12月30日
【申请日】2015年8月27日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1