一种属性值的检测方法和检测装置的制造方法

文档序号:8395889阅读:221来源:国知局
一种属性值的检测方法和检测装置的制造方法
【技术领域】
[0001]本申请涉及数据处理领域,尤其涉及一种属性值的检测方法和检测装置。
【背景技术】
[0002]电子商务网站上卖家进行Offer (产品信息)发布的时候,少部分卖家会在Key (属性)下填写更多的与该属性无关的Value (属性值)信息或不符合该属性类型的Value信息,试图操纵Offer在搜索结果中的排名。所述属性是描述产品信息的特征的维度,例如:颜色、尺寸、裙长等,属性值则是产品信息在相应维度中体现的具体内容,例如属性为“颜色”,则属性值可以包括:红色、蓝色、绿色等。
[0003]当与属性无关的Value信息或不符合属性类型的Value信息较多时,可能会导致搜索结果不够准确,进而影响搜索的效率和可靠性,如果这些信息在买家的搜索过程中曝光,还会对用户体验产生负面影响。
[0004]现有的解决方案是对每个类目的所有属性通过对运营人员配置的合法Value进行收集得到合法Value集合,并根据Value的类型定义属性的类型,对于Value不符合属性的类型又不在合法Value集合里的情况视作属性滥用作弊。
[0005]现有解决方案的缺点是:一般电子商务网站上的商品类目体系巨大,而且每个类目下的属性数量较多,由于不同的属性可能具有不同的类型以及Value特征,每当新增加一个类目时需要重新判断属性类型与合法Value,现有方法不具有可扩展性,所以目前的方法只能对于少数几个类目下的属性进行规则的添加,要完成整个网站的所有属性的规则制定几乎不可能。另外由于目前基于运营人员配置的合法属性值样本不够齐全,容易导致对属性类型的判断失误。

【发明内容】

[0006]本申请要解决的技术问题是如何高效、可靠地检测各属性的属性值是否合法,且具备较好的可扩展性。
[0007]为了解决上述问题,本申请提供了一种属性值的检测方法,包括:
[0008]从保存产品信息的网站服务器获取所述产品信息中各属性的各属性值,并识别各属性值的字符类型;
[0009]对各属性分别统计:该属性中属性值的总数,以及该属性中各字符类型的属性值的数量;根据统计结果计算出该属性中各字符类型的属性值所占的比例;
[0010]分别根据各属性中各字符类型的属性值所占的比例,识别该属性的类型;
[0011]根据识别出的类型,以及预先存储的各类型对应的检测策略,分别判断各类型属性中的各属性值是否合法。
[0012]可选地,所述属性值的字符类型包括:
[0013]纯中文、纯英文、整数、小数、英文数字混合、中文英文数字混合、以及其它类型。
[0014]可选地,所述属性的类型包括:
[0015]数值类型、型号类型及中文类型;
[0016]所述分别根据各属性中各字符类型的属性值所占的比例,识别该属性的类型的步骤包括:
[0017]分别对各类目的各属性,当该属性中字符类型为纯英文的属性值的比例,加上字符类型为英文数字混合的属性值的比例大于第一预定阈值时,将该属性的类型识别为型号类型;当该属性中字符类型为整数的属性值的比例加上字符类型为小数的属性值的比例大于第二预定阈值时,将该属性的类型识别为数值类型;将其余的属性识别为中文类型。
[0018]可选地,所述第一预定阈值为50%,所述第二预定阈值为50%。
[0019]可选地,所述根据识别出的类型,以及预先存储的该类型所对应的检测策略,判断该类型的属性中的各属性值是否合法的步骤包括:
[0020]对于数值类型的各属性,分别判断该属性中的各属性值是否包含数字或表示数字的中文,如果不包含则判断该属性值为非法;如果包含,则判断该属性值中除了数字或表示数字的中文之外的字符是否为单位,如果不是则判断该属性值为非法;
[0021]对于型号类型的各属性,分别判断该属性中的各属性值是否仅包括数字、英文和预定符号,如果不是则判断该属性值为非法;如果是则判断所述预定符号在该属性值所有字符中所占的比例是否小于或等于第三预定阈值,如果不是则判断该属性值为非法;
[0022]对于中文类型的各属性,分别计算该属性中各属性值的信息熵,将信息熵不位于预定范围的属性值判断为非法;对于信息熵位于所述预定范围的各属性值,如果不是该属性的合法属性值,且该属性值分词后得到的组成部分不包含该属性的合法组成部分,且存在词性不属于该属性的合法词性的组成部分,则判断该属性值为非法;所述属性的合法属性值是指该属性中的出现概率大于第四预定阈值的属性值;所述属性的合法组成部分是指该属性中的各属性值进行分词所得到的各组成部分中出现概率大于第五预定阈值的组成部分;所述属性的合法词性是指该属性的属性值进行分词所得到的各所述组成部分的词性中出现次数最多的词性。
[0023]可选地,所述的方法还包括:
[0024]将匹配预定非法特征的属性值识别为非法属性值;
[0025]所述预定非法特征包括以下情况之一或其任意组合:
[0026]属性值的长度超过该属性中其他属性值的平均长度的预定倍数;
[0027]同一个属性值在本属性或其他属性中重复出现的次数超过预定阈值;
[0028]属性值为空;
[0029]属性值中的字符全部或部分为不属于预定符号集合的符号。
[0030]本申请还提供了一种属性值的检测装置,包括:
[0031]字符类型识别模块,用于从保存产品信息的网站服务器获取所述产品信息中各属性的各属性值,并识别各属性值的字符类型;
[0032]统计模块,用于对各属性分别统计:该属性中属性值的总数,以及该属性中各字符类型的属性值的数量;根据统计结果计算出该属性中各字符类型的属性值所占的比例;
[0033]属性类型识别模块,用于分别根据各属性中各字符类型的属性值所占的比例,识别该属性的类型;
[0034]判断模块,用于根据识别出的类型,以及预先存储的各类型对应的检测策略,分别判断各类型属性中的各属性值是否合法。
[0035]可选地,所述属性值的字符类型包括:
[0036]纯中文、纯英文、整数、小数、英文数字混合、中文英文数字混合、以及其它类型。
[0037]可选地,所述属性的类型包括:
[0038]数值类型、型号类型及中文类型;
[0039]所述属性类型识别模块分别根据各属性中各字符类型的属性值所占的比例,识别该属性的类型是指:
[0040]所述属性类型识别模块分别对各类目的各属性,当该属性中字符类型为纯英文的属性值的比例,加上字符类型为英文数字混合的属性值的比例大于第一预定阈值时,将该属性的类型识别为型号类型;当该属性中字符类型为整数的属性值的比例加上字符类型为小数的属性值的比例大于第二预定阈值时,将该属性的类型识别为数值类型;将其余的属性识别为中文类型。
[0041]可选地,所述第一预定阈值为50%,所述第二预定阈值为50%。
[0042]可选地,所述判断模块包括:
[0043]数值类型属性处理子模块,用于对于数值类型的各属性,分别判断该属性中的各属性值是否包含数字或表示数字的中文,如果不包含则判断该属性值为非法;如果包含,则判断该属性值中除了数字或表示数字的中文之外的字符是否为单位,如果不是则判断该属性值为非法;
[0044]型号类型属性处理子模块,用于对于型号类型的各属性,分别判断该属性中的各属性值是否仅包括数字、英文和预定符号,如果不是则判断该属性值为非法;如果是则判断所述预定符号在该属性值所有字符中所占的比例是否小于或等于第三预定阈值,如果不是则判断该属性值为非法;
[0045]中文类型属性处理子模块,用于对于中文类型的各属性,分别计算该属性中各属性值的信息熵,将信息熵不位于预定范围的属性值判断为非法;对于信息熵位于所述预定范围的各属性值,如果不是该属性的合法属性值,且该属性值分词后得到的组成部分不包含该属性的合法组成部分,且存在词性不属于该属性的合法词性的组成部分,则判断该属性值为非法;所述属性的合法属性值是指该属性中的出现概率大于第四预定阈值的属性值;所述属性的合法组成部分是指该属性中的各属性值进行分词所得到的各组成部分中出现概率大于第五预定阈值的组成部分;所述属性的合法词性是指该属性的属性值进行分词所得到的各所述组成部分的词性中出现次数最多的词性;
[0046]分配子模块,用于分别将各属性中的属性值根据该属性的类型相应分配给所述数值类型属性处理子模块、型号类型属性处理子模块、中文类型属性处理子模块中的一个。
[0047]可选地,所述的装置还包括:
[0048]非法属性值识别模块,用于将匹配预定非法特征的属性值识别为非法属性值;所述预定非法特征包括以下情况之一或其任意组合:
[0049]属性值的长度超过该属性中其他属性值的平均长度的预定倍数;
[0050]同一个属性值在本属性或其他属性中重复出现的次数超过预定阈值;
[0051]属性值为空;
[0052]属性值中的字符全部或部分为不属于预定符号集合的符号。
[0053]本申请的至少一个实施例通过获取各类目各属性中已发布的属性值并进行归类、统计,根据所得到的属性值概率分布信息能够一次性生成各属性的检测规则,效率较高;如果加入新的类目或属性也能够快速获得检测规则,扩展性好;由于获取的属性值样本全面,因此可靠性较高。本申请的又一个实施例针对属性类型为中文类型时属性值的特点设计了检测方案,通过统计得到属性值分词后各Term (组成部分)的概率分布信息和词性
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1