一种基于网上交易平台的数据处理方法和装置的制作方法

文档序号:6335279阅读:188来源:国知局
专利名称:一种基于网上交易平台的数据处理方法和装置的制作方法
技术领域
本申请涉及网络数据处理领域,特别涉及一种基于网上交易平台的数据处理方法和装置。
背景技术
网上交易平台是一个第三方的交易安全保障平台,主要作用是为了保障交易双方在网上进行交易的安全,诚信等问题。应用于网上交易平台的网站称为电子商务网站,在实际应用场景中,用户通过电子商务网站购买产品时,比较关注的产品信息一般是价格信息。 垂直网站是专注意于某些特定的领域或某种特定的需求的网站,一般提供有关这个领域或此种需求的较为全面和深入的信息和相关服务。目前在互联网中,如果需要知道某个产品在网上交易平台下的相关价格信息,通常是通过垂直网站提供的价格来获得的,但是垂直网站的价格一般是通过如下方式获得 由线下市场的成交行情计算获得;直接使用产品的生产厂商的标示价格信息中获得;直接采用销售这类产品的用户报价中获利。但在实际应用中,生产厂商的标示价格信息,有可能会偏离市场行情,而某一个用户报价又不能代表大多数用户的价格信息,不能反映市场状况,并且,一些没有在网上交易平台进行成交的产品对于垂直网站来讲也不能通过成交行情给出价格信息。因此,现有技术中,仅依据垂直网站给某个产品提供的价格信息,可能会使得产品的价格信息不够准确;,这不能满足用户对网上交易平台的价格信息数据准确性的要求; 同时,也势必会增加用户针对价格信息的查询次数和时间,进而导致网上交易平台的服务器处理速度和性能的下降。总之,目前需要本领域技术人员迫切解决的一个技术问题就是如何能够创新地提出一种基于网上交易平台的数据处理方法,以解决现有技术因为不满足用户对于网上交易平台的数据准确性需求,导致的服务器处理速度和性能都下降的技术问题。

发明内容
本申请所要解决的技术问题是提供一种基于网上交易平台的数据处理方法,用以解决现有技术因为不满足用户对于网上交易平台的数据准确性需求,导致的服务器处理速度和性能都下降的技术问题。本申请还提供了一种基于网上交易平台的数据处理装置,用以保证上述方法在实际中的实现及应用。为了解决上述问题,本申请公开了一种基于网上交易平台的数据处理方法,包括依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性;分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的价格信息;当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。本申请公开了一种基于网上交易平台的数据处理装置,包括检索模块,用于依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;分类模块,用于按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性;计算价格模块,用于分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息;所述价格信息为各类产品在其对应的销售属性下的价格信息;显示模块,用于当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。与现有技术相比,本申请包括以下优点在本申请中,通过在数据库中检索得到的某一类目的产品信息,按照这些产品的固定属性和销售属性对其进行分类,最重要的是相同的产品类中的产品都具有相同的产品属性和销售属性,其中,销售属性为除了所述产品属性之外对产品的价格产生影响的属性。可以看出,在本实施例中,得到的产品类将影响产品的价格信息的销售属性也考虑进去了,此时,再对产品类进行聚类分析算法得到产品的平均价格信息,那么对于网上交易平台的服务器来讲,如果接收到用户关于某个产品的价格的查询操作,就可以将计算出的对应该产品的平均价格信息反馈给用户,这样对于用户来讲其所得到的价格信息也是更为合理和真实的,从而可以使得用户不再向网上交易平台的服务器重复或者反复进行查询交互操作,在网上交易平台服务器上运行本申请实施例公开的方法和系统,能使服务器的运行速度和运行性能上都得到改善。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。


为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请的一种基于网上交易平台的数据处理方法实施例一的流程图;图2为方法实施例一中产品“联想1300”的销售属性和固定属性的界面示意图;图3是方法实施例一中对一个产品类中的产品采用聚类分析算法计算得到对应各类产品的价格信息的流程图;图4为产品“诺基亚5230”在“全国联保”和“店铺三包”两种销售属性下的平均价格信息的界面示意图5是本申请的一种基于网上交易平台的数据处理方法实施例2的流程图;图6是与图4相对应的产品“诺基亚5230”在过去三个月内的价格信息的趋势示意图;图7本申请中对于第二产品类中的价格信息进行产品的平均价格信息计算的具体例子流程图;图8是本申请的一种基于网上交易平台的数据处理装置实施例一的结构框图;图9是本申请装置实施例一中计算价格模块的结构框图;图10是本申请的一种基于网上交易平台的数据处理装置实施例二的结构框图。
具体实施例方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请可用于众多通用或专用的计算装置环境或配置中。例如个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本申请的主要思想之一可以包括,通过在数据库中检索得到的某一类目的产品信息,按照这些产品的固定属性和销售属性对其进行分类,最重要的是相同的产品类中的产品都具有相同的产品属性和销售属性,其中,销售属性为除了所述产品属性之外对产品的价格产生影响的属性。可以看出,在本实施例中,得到的产品类将影响产品的价格信息的销售属性也考虑进去了,此时再对产品类进行聚类分析算法得到产品的平均价格信息,那么对于网上交易平台的服务器来讲,如果接收到用户关于某个产品的价格的查询操作,就可以将计算出的对应该产品的平均价格信息反馈给用户,这样对于用户来讲其所得到的价格信息也是更为合理和真实的,从而可以使得用户不再向网上交易平台的服务器重复或者反复进行查询交互操作,在网上交易平台服务器上运行本申请实施例公开的方法和系统,能使服务器的运行速度和运行性能上都得到改善。参考图1,示出了本申请一种基于网上交易平台的数据处理方法实施例一的流程图,可以包括以下步骤步骤101 依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息。在本申请实施例中,所述数据库中可以保存在网上交易平台进行交易时涉及到相关交易信息,可以包括产品信息、产品成交信息和卖方用户信息等,其中,所述产品信息具体包括产品标识和产品价格信息,当然,还可以包括该产品所属的卖方用户标识;而产品成交信息可以包括产品成交价格信息、成交件数信息、卖方用户标识、买方用户标识;卖方用户信息具体可以包括卖家信用度信息,30天累计成交次数信息,卖方用户的在线产品数量信息,差评率信息等。在本申请实施例中,只需采用产品信息中的产品标识和产品价格信息即可。所述类目是对产品进行分类之后的行业细分信息,例如手机、笔记本、面霜和防晒霜等,都属类目信息。而本申请实施例中产品指的是在网上交易平台上可以进行线上交易的一个具体物品。步骤102 按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的所述产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性。获得一个类目下的产品信息之后,依据产品标识可以找到对应的产品,就可以知道产品的产品属性和销售属性信息。其中所述产品属性为一个产品所具有的固定属性,是一个产品所具有的固定的功能特性,例如Nokia N73是一款产品,Nokia N73的同款产品都具备Nokia N73的一些固定属性。例如,该产品的品牌属性是“Nokia”,外观样式为“直板”, 摄像头是“320万像素”等。虽然功能特性相同的产品一般认为是同一款产品,但是由于包装等非功能属性也可能会导致销售价格不同。因为除了功能特性以外,同一款产品也可以有不同的价格、不同的套餐优惠、或者不同的售后服务、甚至新旧程度等非产品本身的属性。所述销售属性则是除了所述固定属性之外能够影响所述产品的一些其他属性,即是针对于同一款的各种产品,排除来自产品的属性之外,剩余的属性中能对价格有影响的属性。例如,同一款化妆品,具有多款销售包装,那么各种包装的容量不同就会导致销售价格不同;或者,售后服务类型,化妆品容量等。所以在同一款产品也有可能因为销售属性的不同而进行细分,例如产品“大宝美容洗面奶”有销售属性为“容量”,对应的容量的销售属性值有300ml和100ml,这两者的价格便会有所不同。但是无论该产品的容量是300ml还是100ml,它们的功能特性其实是一致的。参考图2所示,为产品“联想1300”的销售属性和固定属性的界面示意图。需要说明的是,在本申请实施例中获取到的平均价格信息是同一款产品且销售属性也相同的那类产品的价格信息。步骤103 分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的价格信息。所述聚类分析算法可以采用例如K-MEANS算法。使用聚类分析方法(K-MEANS算法),对产品价格信息进行聚类,进而选取聚类之后的最大簇,合并该最大簇的邻近簇,直到合并后的最大簇中的元素超过一个预设阈值,再依据这最大簇中的价格信息得出产品的平均价格信息。需要说明的是,在本申请实施例中计算得到的价格信息为某一类产品在其销售属性下所对应的价格信息,在实际应用中即便是同一类产品,例如,大宝洗面奶,但是如果销售属性不同,例如,一类产品的销售属性为100ml,而另一类产品的销售属性为300ml, 那么这两类大宝洗面奶的价格信息也是不同的。具体的,在对一个产品类中的产品采用聚类分析算法计算得到对应各类产品的价格信息的实施过程,则可以参考图3,具体可以包括
步骤301 按照预置的价格范围信息对所述一个产品类中的产品的价格信息进行过滤ο需要说明的是,在得到产品类之后,所述产品类中的产品属性和销售属性都相同, 但不是产品的价格都需要参考,因此在需要对产品类中产品涉及到的价格信息进行过滤。 在进行过滤时,对于具有标示价格信息的产品,可以预先设定标示价格比例区间,例如上限为2倍,下限为0. 5倍,然后再使用标识价格信息计算出标示价格范围信息中的价格上限信息和价格下限信息,然后用所述价格上限信息和价格下限信息来过滤价格信息。需要说明的是,如果过滤后的商品数量与过滤前的商品数量的比例大小低于一定阈值,就可以认为过滤无效,该阈值可以设置为0. 5。即是过滤后如果某个产品类中一半的产品都被过滤掉了,可以认为本次过滤过程并不是优选方式,因此仍然使用过滤前的价格信息为源数据,如果过滤后的商品数量与过滤前的商品数量的比例大小不低于一定阈值, 则认为本次过滤有效,就将用过滤后的价格信息作为源数据。另外,因为产品都属于特定的类目,例如诺基亚N73属于手机类目,而ThinkPad XlOO属于笔记本类目,可以预先给每个类目设定了上限价格(pricejnax)与下限价格 (pricejnin),用来限定该类目下产品的有效价格区间信息,而价格信息超出该价格区间信息的产品价格信息可以认为属于无效信息。因此,在产品类中的产类没有标示价格信息时, 可以预设该产品类所属的类目价格的价格上、下限信息,在实际应用中根据类目可以设定不同的值,例如手机类目下限价格信息可以为100,上限价格信息可以为100000 ;而笔记本电脑类目的下限价格信息可以为100,上限价格信息可以为500000,来对该产品类中的产品价格信息进行过滤。步骤302 将过滤后该产品类所包括的价格信息按照聚类分析算法和预置个数分为若干簇。在获得过滤后的产品类中产品的价格信息之后,在每个产品类中,对价格信息使用聚类分析方法(如K-MEANS算法),将该产品类中的产品分为N组。这里的N—般可以取值为10,这样能提升算法效率和聚类效果。根据K-means聚类算法的原理,同一簇中的元素都是临近的元素,那么在本申请实施例中则是价格信息比较相近的意思。例如对于一个产品类,该类中的产品价格分别为1、102、3、4、5、100、101、104、8 ;经过本实施例中公开的聚类方法,会分为如下2簇1、3、4、5、8102、100、101、104。步骤303 在所述若干簇价格信息中将价格信息最多的价格信息簇与其临近价格信息簇进行合并。在得到若干簇之后,取出其中包含商品数最多的一组,且为了保证留下的簇中总共包含的元素足够多,具有充分的代表性,左右合并该组的近邻,直到合并后的产品数量超过设定的阈值,例如合并后的产品数量占整个产品类的5%。步骤304 按照合并后的价格信息簇中的多个价格信息计算该合并后的价格信息簇的平均价格信息。计算合并最终得到的价格信息簇中的平均价格信息,在计算平均价格信息时,可以计算加权平均,也可以直接计算平均值。计算得到某个产品类的平均价格信息之后,可以将该产品类的产品关键词与所述平均价格信息关联起来,后续可以保存至数据库中,以便于查询使用。
8
步骤104 当接收到产品关键词时,将与该产品关键词对应的产品类的平均价格信息进行显示。当接收到用户查询的产品关键词信息时,依据该产品关键词的信息查找到该产品类的平均价格信息,向用户进行显示。需要说明的是,本实施例中的平均价格信息,是某个产品在某个销售属性下的平均价格信息。例如,参考图4所示,为产品“诺基亚5230”在“全国联保”和“店铺三包”两种销售属性下的平均价格信息的界面示意图。在本申请实施例中,在对产品分类时需要同时依据其固定属性和销售属性,因为销售属性也在很大程度上影响产品的价格信息,所以本申请实施例中依据销售属性对产品分类之后,就可以依据聚类分析方法计算出同时满足固定属性和销售属性的一类产品的平均价格信息,从而更为合理真实的反映出该产品的价格信息,在方便用户查看价格信息的同时,也减少了用户与网上交易平台服务器之间的交互次数和重复查询操作,提升了网上交易平台服务器的运行性能。参考图5,其示出了本申请一种基于网上交易平台的数据处理方法实施例二的流程图,可以包括以下步骤步骤501 依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息。步骤502 对所述产品信息采用虚假产品识别模型进行过滤,得到过滤掉虚假产品的产品信息。在本实施例中,还需要包括对获取得到的产品信息采用虚假产品识别模型进行过滤的过程,因为在实际应用中,有一些产品可能已经下架,或者是用户恶意发布的一些不真实的产品信息,这些产品信息中的产品价格信息都不适合用作本申请实施例中对于产品价格信息的计算过程,因此,需要采用训练好的虚假产品识别模型进行过滤,以得到过滤掉虚假产品的真实产品信息。该虚假产品识别模型还可以定期进行更新,虚假产品识别模型不是本申请实施例所关注的重点,在此不再进行赘述。步骤503 按照所述产品信息中的产品标识将产品进行第一次分类,以得到多个第一产品类,所述第一产品类中的产品具有相同的产品属性。这里的产品属性指的是产品所具有的固定属性,按照产品属性对产品信息中的产品进行第一次分类时,可以将产品分为多个第一产品类,每个第一产品类中的产品的功能和特性都相同。例如,300ml的大宝美容洗面奶,和IOOml的大宝美容洗面奶就属于同一个第一产品类,但是玫琳凯柔性洗面霜则属于另一个第一产品类。步骤504 分别对所述多个第一产品类按照该类产品中的销售属性进行第二次分类,以得到多个第二产品类,所述第二产品类具有相同的销售属性。在得到多个第一产品类之后,还需要按照产品的销售属性对第一产品类中的产品进行第二次产品分类,而每一个第二产品类中的产品具有相同的销售属性。例如,第一用户的产品300ml的大宝美容洗面奶,第二用户的产品是IOOml的大宝美容洗面奶,而第三用户的产品是300ml的大宝美容洗面奶,这三个产品虽然都属于同一个第一产品类,但是在进行第二次分类的时候,第一用户的产品就和第三用户的产品属于同一个第二产品类,而第二用户的产品就会属于另一个第二产品类。
步骤505 按照预置的价格范围信息对所述第二产品类中的产品的价格信息进行过滤ο这里预置的价格范围信息即是指的是,按照预先指定出的价格信息上限和价格信息下限,对同一个第二产品类中的产品的价格信息进行过滤。属于该价格范围信息之内的价格信息就保留,不属于该价格范围信息之外的价格信息就删除。本步骤具体在实现时,可以采用如下方式步骤Al 当所述产品类中的产品不具有标示价格信息时,采用该产品所属类目的预置类目价格范围信息对所述价格信息进行过滤,以得到过滤后的价格信息集合。这里的标示价格信息可以认为是产品出厂时的厂商标示价格信息,即是如果产品不具有厂商标示价格信息,则按照预置类目价格范围信息对产品价格信息进行过滤,过滤后的价格信息集合中的价格信息都落在所述预置类目价格范围之内。步骤A2 当所述产品类中的产品具有标示价格信息时,依据预置的价格比例范围信息计算得到标示价格范围信息,并依据该标示价格范围信息对所述一个产品类中的产品的价格信息进行过滤。当某个第二产品类中的产品都具有标示价格信息时,则按照预置的价格比例范围计算得到产品类中的产品标示价格范围信息,并依据该标示价格范围信息对同一个第二产品类中的产品的价格信息进行过滤。步骤A3 依据过滤后得到的产品价格信息获取本次过滤的过滤强度,判断所述过滤强度是否低于某一预设阈值,如果是,则仍旧采用过滤前的价格信息,如果否,则将本次过滤后的价格信息作为过滤后的价格信息集合。将过滤后得到的产品价格信息的个数除以过滤前得到的产品价格信息的个数之和,即可得到本次过滤的过滤强度,再将该过滤强度与某一预设阈值进行比较,如果低于该预设阈值,例如0. 5,则仍旧采用过滤前的价格信息,因为此时一半以上的产品价格信息已经过滤掉了,所以认为此次的过滤是无效的。如果过滤强度大于该预设阈值,则将本次过滤后的价格信息作为过滤后的价格信息集合。步骤506 将过滤后该产品类所包括的价格信息按照聚类分析算法和预置簇数分为若干价格信息簇。在本步骤中,需要按照聚类分析算法和预置的簇数将该第二产品类中存在的价格信息分为若干簇。需要说明的是,一般簇的个数可以设置为10个,其中聚类分析算法有很多种,本领域技术人员可以根据需求选择某一个聚类分析算法。步骤Bl 依据所述过滤后的价格信息集合的平均值和预置簇的总数选取初始簇的中心点。在得到了预置簇数个价格信息簇之后,依据预置簇的个数以及价格信息集合的均值选取出初始簇的中心点,选取出初始簇的目的是查找到这些簇中的最大簇,即是包括价格信息个数最多的那个簇,以便于后续基于最大簇来计算该产品类在当前销售属性下的平均价格信息。步骤B2 依据初始簇的中心点并按照聚类分析算法对所述价格信息集合进行迭代聚类,直至达到收敛以得到该所述预置簇数的簇的集合。在本步骤中,具体可以按照K-MEANS算法进行迭代聚类,直至收敛时,最终得到了满足预置簇数的簇的集合。步骤B3 从所述簇的集合中选取价格信息足够多的簇作为最终得到的若干簇。在所述簇的集合中选取出价格信息足够多的簇作为最终得到的若干簇,用以后续进行价格信息的计算。步骤507 在所述若干簇价格信息中将价格信息最多的价格信息簇与其临近价格信息簇进行合并。步骤Cl 按照各个簇的中心点值对所述若干簇进行排序,并获取所述若干簇中包含价格信息最多的最大簇。在进行合并时,需要按照各个簇的中心点值查找到包含价格信息最多的最大簇。步骤C2 按照排序后的顺序合并所述最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。在按照排序后的顺序合并最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。步骤508 按照合并后的价格信息簇中的多个价格信息计算该合并后的价格信息簇的平均价格信息。步骤Dl 判断是否设置了产品参考价格信息,如果是,则进入步骤D2,如果否,则进入步骤D3。步骤D2 当所述若干簇中簇的个数大于1,按照各个簇的中心点值对所述若干簇进行排序之后,第二个簇为最终得到的若干簇,且该第二个簇包含的价格信息个数大于最终得到的若干簇中总价格信息个数的0. 4倍时,则将该第二个簇的平均价格信息作为该类产品的平均价格信息。步骤D3 按照所述合并后的价格信息簇中计算所述簇的加权平均价格信息。步骤509 当接收到产品关键词时,将与该产品关键词对应的产品类的平均价格信息进行显示。需要说明的是,在本实施例中的所述步骤509之后还可以包括步骤510 将查询得到的固定时间段内的平均价格信息采用曲线图进行示意。参考图6所示,为与图4相对应的产品“诺基亚5230”在过去三个月内的价格信息的趋势示意图。在本实施例中,除了可以提升服务器的运行性能之外,还可以将某个产品的价格信息采用趋势图的方式向用户进行示意,同时采用的聚类分析分析算法中的K-MEANS算法,更能增加平均价格信息计算过程的准确性,这样就更进一步的提升用户查询产品价格时的精确度,从而进一步的提升服务器的运行性能。参考图7所示,为了便于本领域技术人员对本申请的理解,这里对于第二产品类中的价格信息进行产品的平均价格信息的计算,给出一个具体的例子,在该例子中将重点讲解得到了第二产品类之后平均价格信息的计算过程,可以包括以下步骤步骤701 当所述产品类中的产品具有标示价格信息时,依据预置的价格比例范围信息计算得到标示价格范围信息,并依据该标示价格范围信息对所述一个产品类中的产品的价格信息进行过滤。有某一产品的η个商品的价格集合A= Ia1, a2,…,,对具有标示价格信息的产品,通过标示价格信息Pref进行价格信息的过滤,其中假设预置的价格比例范围为[S1ot, ^ligh),则可以依据所述标示价格信息计算出标示价格范围[Plmt,I\igh),其中,Plmt = Pref · Slow, Phigh = Pref · Shigho在产品类中的产品具有标示价格信息时,可以采用[P1ot,Phigh) 对价格信息进行过滤,以得到过滤后的价格信息集合Aref =Aref = Iai I a, e [Plow, Phigh],i = 1…η}。具体的,[S1ot,Shigh)可以取值为
,其中,CPlow为价格下限信息,CPhigh为价格上限信息,采用该价格上下限信息用来标定类目下商品的有效价格区间,若产品的价格信息超出该价格上下线范围时就认为该价格信息属于无效价格信息,最终得到价格信息集合-Aref = IaiIai e [CPlow,CPhigh],i = l...n}。步骤704 依据所述过滤后的价格信息集合的平均值和预置的簇的总数选取初始簇的中心点。在实际计算过程中,需要根据所述价格信息集合的均值选取初始簇的中心点,假设m为预置的簇的总数,则中心点位置为C = (CiICenter(Ci) = 2i ‘ E(Aref)/m, i = 1, ...,m}。步骤705 依据初始簇的中心点并按照聚类分析算法对所述价格信息集合进行迭代聚类,直至达到收敛得到该所述预置个数的簇的集合。在实际中可以按照K-MEANS算法进行迭代聚类,直至收敛时即可得到簇的集合 Cres0在本步骤中,判断迭代收敛的条件可以为两次迭代的中心点的距离平方和小于阈值 tdis,例如,经过κ次的迭代,最近的两个中心点集合CV1, Ck的中心点,则在满足下列条件的
m
时候1( -!, ,-Ck,簇的集合Cres就为Ck。需要说明的是,上
i=1 ,
述条件中的tdis = 0. 00001。步骤706 从所述簇的集合中选取价格信息足够多的簇作为最终得到的若干簇。在本步骤则需要从簇的集合中保留包含足够多价格信息的簇,
m
Ckeep = \ ck Count(Ck) > t^^Countiql^ ε C [需要说明的是,一般情况
下,预先设定tmin为0. 05。
12
步骤707 按照各个簇的中心点值对所述若干簇进行排序,并获取所述若干簇中包含价格信息最多的最大簇。对留下的簇按照中心点的值进行排序。找出包含元素最多的簇cb。步骤708 按照排序后的顺序合并所述最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。接着再找出最大簇左右邻近的簇并进行合并,直到合并后的最大簇包含的价格信息的总数比例大于阈值t。1;即是满足如下条件
r
权利要求
1.一种基于网上交易平台的数据处理方法,其特征在于,包括依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性;分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的价格信息;当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。
2.根据权利要求1所述的方法,其特征在于,所述按照产品的产品属性和销售属性对所述产品进行分类之前,还包括对所述产品采用虚假产品识别模型进行过滤,以得到过滤掉虚假商品的产品信息。
3.根据权利要求1所述的方法,其特征在于,所述分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息之后,还包括将各个产品类的产品信息与计算得到的价格信息之间的对应关系保存至数据库中。
4.根据权利要求3所述的方法,其特征在于,所述按照产品的产品属性和销售属性对所述产品进行分类,具体包括按照所述产品信息中的产品标识将产品进行第一次分类,以得到多个第一产品类,所述第一产品类中的产品具有相同的产品属性;分别对所述多个第一产品类按照该类产品中的销售属性进行第二次分类,以得到多个第二产品类,所述第二产品类具有相同的销售属性。
5.根据权利要求1所述的方法,其特征在于,对一个产品类中的产品采用聚类分析算法计算得到对应该类产品的各种价格信息,具体包括按照预置的价格范围信息对所述一个产品类中的产品的价格信息进行过滤; 将过滤后该产品类所包括的价格信息按照聚类分析算法和预置个数分为若干簇; 在所述若干簇价格信息中将价格信息最多的价格信息簇与其临近价格信息簇进行合并;按照合并后的价格信息簇中的多个价格信息计算该合并后的价格信息簇的平均价格 fn息ο
6.根据权利要求5所述的方法,其特征在于,所述按照预置的价格范围信息对所述一个产品类中的产品的价格信息进行过滤,具体包括当所述产品类中的产品不具有标示价格信息时,采用该产品所属类目的预置类目价格范围信息对所述价格信息进行过滤,以得到过滤后的价格信息集合;当所述产品类中的产品具有标示价格信息时,依据预置的价格比例范围信息计算得到标示价格范围信息,并依据该标示价格范围信息对所述一个产品类中的产品的价格信息进行过滤;再依据过滤后得到的产品价格信息获取本次过滤的过滤强度,判断所述过滤强度是否低于某一预设阈值,如果是,则仍旧采用过滤前的价格信息,如果否,则将本次过滤后的价格信息作为过滤后的价格信息集合。
7.根据权利要求6所述的方法,其特征在于,所述将过滤后该产品类所包括的价格信息按照聚类分析算法和预置个数分为若干簇,具体包括依据所述过滤后的价格信息集合的平均值和预置簇的总数选取初始簇的中心点;依据初始簇的中心点并按照聚类分析算法对所述价格信息集合进行迭代聚类,直至达到收敛得到该所述预置个数的簇的集合;从所述簇的集合中选取价格信息足够多的簇作为最终得到的若干簇。
8.根据权利要求5所述的方法,其特征在于,在所述若干组产品中将价格信息最多的价格信息簇与其临近价格信息簇进行合并,具体包括按照各个簇的中心点值对所述若干簇进行排序,并获取所述若干簇中包含价格信息最多的最大簇;按照排序后的顺序合并所述最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。
9.根据权利要求5所述的方法,其特征在于,所述按照合并后的价格信息簇中的多个产品价格信息计算该合并后的价格信息簇的平均价格信息,具体包括判断是否设置了产品参考价格信息,如果是,则当所述若干簇中簇的个数大于1,当按照各个簇的中心点值对所述若干簇进行排序之后,第二个簇为最终得到的若干簇,且该第二个簇包含的价格信息个数大于最终得到的若干簇中总价格信息个数的0. 4倍时,则将该第二个簇的平均价格信息作为该类产品的平均价格信息;如果否,则按照所述合并后的价格信息簇中计算所述簇的加权平均价格信息。
10.一种基于网上交易平台的数据处理装置,其特征在于,包括检索模块,用于依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;分类模块,用于按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性;计算价格模块,用于分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息;所述价格信息为各类产品在其对应的销售属性下的价格信息;显示模块,用于当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。
全文摘要
本申请提供了一种基于网上交易平台的数据处理方法和装置,所述方法包括依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性;分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的价格信息;当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。本申请实施例公开的方法和装置,能使服务器的运行速度和运行性能上都得到改善。
文档编号G06Q30/06GK102467726SQ20101053300
公开日2012年5月23日 申请日期2010年11月4日 优先权日2010年11月4日
发明者雷青 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1