一种发布商品信息的方法及装置的制作方法

文档序号:6603290阅读:165来源:国知局
专利名称:一种发布商品信息的方法及装置的制作方法
技术领域
本申请涉及计算机网站技术,特别涉及一种发布商品信息的方法及装置。
背景技术
在电子商务领域中,一个商品的描述内容(例如,商品标题)包含了该产品的重要信息,例如,参阅图1所示,某商品的标题为“&New arrived&Fashionwind coat, ladies' coat, fashion coat, women' s wind coat (Wholesale price +Dodropship),,,这个商品标题记录了商品的相关信息,可以向用户准确展现该商品为一件女士风衣。但是,该商品标题却存在信息冗余,重复词汇罗列堆砌的问题,如,“i^ashion wind coat ","fashion coat”、“ladies' coat”和“women' swind coat”这些词汇重复出现,造成了商品信息的冗余,这样,严重降低了商品信息的简洁性和准确性,并且在用户搜索该商品时,也会由于商品信息的冗余,而造成搜索效率的下降,系统需要耗费大量的资源进行信息比对和排查, 从而降低了识别检索效率,也增加了系统的运行负荷。

发明内容
本申请提供一种发布商品信息的方法及装置,用以提高商品信息的准确性和简洁性,从而降低系统后期检索时的运行负荷。本申请提供的具体技术方案如下一种发布商品信息的方法,包括接收用户输入的商品信息,并对所述商品信息进行解析;根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;确定所述置信度达到设定阈值时,阻止发布所述商品信息。一种网站服务器,包括通信单元,用于接收用户输入的商品信息;解析单元,用于对所述商品信息进行解析,并根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;第一处理单元,用于根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;第二处理单元,用于在确定所述置信度达到设定阈值时,阻止发布所述商品信息。综上所述,本申请实施例中,网站服务器在商品信息发布之前,根据预设规则对其包含的词汇的罗列堆砌程度进行评估,确定商品信息罗列堆砌时,阻止商品信息的发布,或者,建议修改后再重新发布。这样,可以有效提高商品信息的简洁性和准确性,从而在后续检索过程中大幅度降低系统运行负荷,保证了电子商务网站的正常运行,确保了网站的服务质量。


图1为现有技术下商品标题示意图;图2为本申请实施例中网站服务器功能结构示意图;图3为本申请实施例中分类器原理示意图;图4为本申请实施例中网站服务器发布商品信息流程图。
具体实施例方式在电子商务领域中,为了提高所发布的商品信息的准确性和简洁性,从而降低系统后续检索时的运行负荷,本申请实施例中,电子商务网站的服务器接收用户输入的商品信息,并对所述商品信息进行解析,再根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度,以及根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度,并在确定所述置信度达到设定阈值时,阻止发布所述商品信息;本申请实施例中,罗列堆砌分为对相同商品的罗列和对不同商品的堆砌。相同商品的罗列指的是在商品标题中使用多种描述同一商品名称的词语或词组甚至多次出现同一关键词语,不同商品的堆砌是指在商品标题中堆砌了多种商品名称,比如“mp3 player, mp4 player, ipod, walkman"0罗列堆砌程度,是指同一商品名称重复罗列出现的程度,或者多种商品名称堆砌的程度。下面结合附图对本申请优选的实施方式进行详细说明。参阅图2所示,本申请实施例中,用于管理电子商务网站的网站服务器包括通信单元10、解析单元11、第一解析单元12和第二解析单元13,其中,通信单元10,用于接收用户输入的商品信息;解析单元11,用于对所述商品信息进行解析,并根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;计算单元12,用于根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;所谓置信度即是指将所述的商品信息判断为罗列堆砌信息的可靠程度如图2所示,上述计算单元12进一步包括第一计算子单元120和第二计算子单元 121,其中,第一计算子单元120,用于将所述各指定特征属性的取值,作为基于最大熵原理的条件概率模型的给定信息;第二计算子单元121,用于采用条件概率模型计算在所述给定信息的情况下,所述商品信息为罗列堆砌信息的后验概率,并将所述后验概率作为商品信息为罗列堆砌信息的
置信度。执行单元13,用于在确定所述置信度达到设定阈值时,阻止发布所述商品信息。如图2所示,网站服务器中还可以包括策略单元14,用于在执行单元13阻止发布所述商品信息后,根据所述解析结果确定造成所述商品信息包含的词汇罗列堆砌的关键词汇,并通过通信单10向用户返回所述关键词汇,提示用户基于该关键词汇对商品信息进行修改;以及在向用户返回所述关键词汇时,向该用户通知相应的修改策略。
基于上述原理,本申请实施例中,采用基于机器学习的罗列堆砌识别算法,对用户指示发布的商品信息进行检测,在确定商品信息包含的词汇的罗列堆砌程序的置信度达到设定阈值时,阻止商品信息的发布。本实施例中,较佳地,采用基于最大熵原理的条件概率模型来计算上述置信度,其公式如下所示少l々 = ^eXp|^>,/)(U))公式 1
z\x) V J其中 ye{titl e is mess,title is not mess},表不y 有 title is mess禾口 tetle is notmess两种取值,具体采用哪一取值,根据预设参量决定,如,y取值为title ismess 时,表示计算出的P (y I Χ)为标题包含罗列堆砌信息的后验概率;Χ为商品信息的指定特征属性,其具体含义将在后续实施例中进行详细阐述。^为最大熵模型针对各指定特征属性的特征值,λ ^是当前商品信息的各指定特征属性对应的权重,可以根据经验值预先设置; Z(X)是归一化因子,也可以根据经验值预先设置。在实际中,还可以采用线性回归等机器学习模型来建立条件概率模型。在实际中, 还可以采用支持向量机模型,虽然不是条件概率模型,但是计算的分值也可以用来作为置信度。基于上述公式1,可以构建罗列堆砌分类器,输入为商品信息,输出为分类结果,即商品信息包含的词汇是否罗列堆砌的置信度,假设,类1为title ismess ;类2为title is not mess,则上述分类器的结构示意图如图3所示。本申请实施例中,在基于机器学习的罗列堆砌识别算法时,针对商品信息所获取的指定特征属性分为词法特征属性或/和句法特征属性。下面以商品信息为商品标题为例,对这两类特征属性分别作出介绍。首先,根据商品标题的解析结果获得其词法特征属性,该词法特征属性包括1、商品标题包含的逗号个数。商品标题中包含逗号的个数,一定程度上反映了该商品标题所包含词汇为罗列堆砌的可能性。通常情况下,商品标题中逗号个数越多,商品标题包含词汇为罗列堆砌的可能性越大。例如,在商品标题‘‘#24 Baseball Jersey, Baseball Jerseys, Jerseys, SportsJerseys, Sport Jersey,Jersey,24# Baseball Jersey,,中,ig号个数为 6。2、商品标题的句长(如,词汇个数+逗号个数)。通常情况下,因为罗列堆砌的商品标题包含了比较多的冗余信息,因此,商品标题的句长越长,商品标题所包含词汇为罗列堆砌的可能性越大。例如,在罗列堆砌标题“100 % Original Asus P6T7 WS SuperComputerMotherboard, ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard"中,句i为 18。3、商品标题去重后包含的词汇个数与商品标题中词汇总数的比率通常情况下,经过去根处理后的商品标题中,去重复后词汇的个数占原商品标题中词汇总数的比例越小,标题为罗列堆砌的可能性越大。其中,所谓去根处理,即是去除英文词汇的后缀,保留词干,若是中文标题,则根据省略去根处理这一操作步骤,下同,不再赘述。例如,商品标题为 “100% Original Asus P6T7 WS SuperComputerMotherboard, ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard,,,经过去根处理后,对应的词汇串为 “100% OriginAsus P6T7 WS SuperComput Motherboard ASUS Motherboard ComputMotherboard Comput Mainboard Motherboard,,(个数为 14), 去除重复词汇后的句子为 “100% Origin Asus P6T7 WS SuperComput Motherboard ComputMainboarcK个数为9),则该商品标题去重后词汇个数与总词汇个数的比率为9/14。4、商品标题中出现频率最高的词汇的出现次数。通常情况下,在商品标题中某一词汇的出现频率越高,商品标题针对该词汇对应的商品进行罗列堆砌的可能性越大。例如,在商品标题“09 branded handbag, designer handbag, new stylehandbag, fashion handbag, ladies' handbag, elegant handbag" ψ, ^jlWCiIfIjp , HiMM^-B. 高的词汇为“handbag”,而出现次数为6。显而易见,该商品标题是针对对商品“handbag” 进行罗列堆砌的。5、按照预设规则将商品标题划分为若干片段后每个片段中指定位置的词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率。通常情况,上述预设规则包含但不限于按照商品标题中的逗号所在位置将商品标题划分为若干片段,或/和按照商品标题中出现频率最高的词汇所在位置将商品标题划分为若干片段。上述两种方式仅为举例,不排除其他划分方式的实施。a)以逗号划分为例,将商品标题按照其包含的逗号所在位置划分为若干片段后, 指定由每个片段的最后一个词汇组成一个集合。如果在该集合中,去重后词汇个数与集合中词汇总数的比率越低,则该商品标题包含的词汇为罗列堆砌的可能性越大。例如,在商品标题"Paypal-Fashion sunglasses, ED sunglasses, CA sunglasses, Brand name sunglasses, designer sunglasses"中,首先经过i司 去 t艮后,根据逗号分块后得到的片段集合为{ “I^aypal-Fashion sunglass", "ED sunglass", "CAsunglass","Brand nam sunglass","design sunglass,,},各片段块最后一个i司夕匚的集合为{ “sunglass", “sunglass", “sunglass", “sunglass", “sunglass"},去重后的i司合为{ “sunglass”}。则每个片段最后一个词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率为1/5。b)再次以逗号划分为例,将商品标题按照其包含的逗号所在位置划分为若干片段后,指定由每个片段最后两个词汇组成一个集合,如果在该集合中,去重后bi-gram词汇 (即由各片段最后两个词汇组成的词汇)个数与集合中bi-gram词汇总数的比率越低,则该商品标题包含的词汇为罗列堆砌的可能性越大。例如,商品标题为"Degree name card holder, business card holder, name cardcase, business card case, card holder, credit card holder,,,i^iii司^CIit艮禾口iS 号划分后,得到的片段集合为{ “Degree nam card hold”,“busi card hold”,“namcard cas”,“busi card cas”,“card hold”,“credit card hold” },每个片段最后两个词汇组
7成的集合为{ "card hold", "card hold", "card cas", "card cas”,“cardhold”,“card hold”},去重后的集合为{ "card hold", "card cas”}。则去重后bi-gram词汇个数与集合中bi-gram词汇总数的比率为1/3。c)以按出现频率最高的词汇进行片段划分为例,将商品标题按照其包含的出现频率最高的词汇划分为若干片段后,指定由每个片段最后一个词汇组成一个集合,则该集合中去重后的词汇个数与集合中词汇总数的比率越低,该商品标题所包含词汇为罗列堆砌的可能性越大。例如,商品标题为"New style Brand tshirt Polo tshirt Fashion tshirt mens Topquality tshirt Paypal ”,经过词汇去根处理后,得到的句子为“New styl Brand tshirtPolo tshirt Fashion tshirt men Top qualiti tshirt Payp''^^, [^3 ^ ! 的词汇为“tshirt”。用“tshirt”做为分隔符对该句子进行分割,得到的片段集合为{“New styl Brand tshirt,,,"Polo tshirt,,,"Fashion tshirt,,,"men Topqualiti tshirt,,, “Payp” },指定由每个片段最后一个词汇组成的集合为{ "tshirt", "tshirt", "tshirt", “tshirt”,“hyp”},去重后的词汇集合为{ “tshirt”,“hyp”},则每个片段最后一个词汇组成的集合中,去重后词汇个数与集合中词汇总数的比率为2/5。实际应用中,上述a)、b)和c)中介绍的片段划分方式和相应的比率计算方式,可以实施其中的一种,也可以为了提高最终计算结果的精确性而组合性实施,组合方式任意, 在此不再赘述。6、按照预设规则将商品标题划分为若干片段后,每个片段的方差。仍以逗号划分为例,商品标题根据包含的逗号所在位置划分成若干片段后,每个片段对应了相应的片段长度,即包含词汇的个数。通常情况下,这些片段组成的集合中,片段长度的方差越小,则该商品标题包含的词汇为罗列堆砌的可能性越大。例如,在商品标题"Paypal-Fashion sunglasses, ED sunglasses, CA sunglasses, Brand name sunglasses, designer sunglasses,,中,经过词汇去根禾口逗号戈lj 分后得到的片段集合为{ "Paypal-Fashion sunglass,,,"ED sunglass,,,"CA sunglass,,, "Brand nam sunglass","design sunglass”}。则片段对应的长度集合为{2,2,2,3,2},相应的片段长度的方差为0.2。本实施例中,除了要根据商品标题的解析结果获得其词法特征属性,还要根据该解析结果获得商品标题的句法特征属性,这其中包括先要对商品标题进行词性标注,即针对商品标题包含的每一个词汇标注对应的词性,例如,名词、动词、形容词、副词等等。词性的类别比较少(例如,Penn TreeBank定义的词性有36种),因此,基于词性特征的属性比基于词汇特征的属性更具有泛化能力,可以扩展本申请技术方案的应用范围。为了进一步提高其泛化性,本实施例中,定义了词性的超类,即把词性分为名词(N),动词(V),形容词 (JJ),副词(ADV),介词(T0),数词(DT)等。基于上述原理,本申请实施例中,所谓的句法特征属性包括1、商品标题去重后包含的词汇的词性个数与商品标题中词汇的词性总数的比率。通常情况下,商品标题去重复后所包含词汇的词性个数占原商品标题中词汇的词性总数的比率越低,该商品标题包含的词汇为罗列堆砌的可能性越大。例如,商品标题为 “100% Original Asus P6T7 WS SuperComputerMotherboard,ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard,,,其分别对应的词性为“DT JJ N DT N N N, N N, N N, N N,N”,去重后得到的词性集合为{ “DT”,“JJ”, “N”}。那么,去重复后包含的词汇的词性个数占原商品标题中词汇词性总数的比率为3/14。2、商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率。在电子商务领域中,商品标题中的名词具有更丰富的信息,描述了该商品的比较重要的信息,而且商品名称一般都为名词。因此,通常情况下,商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率越小,商品标题包含的词汇为罗列堆砌的可能性越大。例如,商品标题为 “100% Original Asus P6T7 WS SuperComputerMotherboard, ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard,,中的名词为"Asus WS Supercomputer MotherboardASUS Motherboard Computer Motherboard Computer Mainboard Motherboard”,去除重复后得到的名词集合为{ “Asus”,“WS”, “Supercomputer”,“Motherboard”,“Mainboard”},则商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率为5/11。3、出现频率最高的词性的出现次数。以bi-gram词性为例,为了提高对没有标点符号的罗列堆砌的商品标题的识别, 较佳地,可以考察标题中连续两个词性(即bi-gram词汇)的出现频率,通常情况下,如果连续两个词性的出现频率越高,则该商品标题包含的词汇为罗列堆砌的可能性越大。例如,商品标题 % "Power Amplifier Audio Amplifier Professional PowerAmplifier Karaoke Amplifier Pa Pro Amplifier”,其对应的词性序列为 “JJ N JJ NJJ N N N N N N N”,从中抽取出的的 bi-gram 词性集合为{ "JJ N”,“N JJ”,“JJN”,“N JJ", "JJ N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N” },其中,出现频率最高的 bi-gram词性序列为“N N”,次数为7。4、按照预设规则将商品信息划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。其中,所谓按照预设规则将商品信息划分为若干片段,包含但不限于,按照商品信息中的逗号所在位置将商品标题划分为若干片段、或/和,按照商品信息中出现频率最高的词汇所在位置将商品标题划分为若干片段。较佳地,仍以bi-gram词性为例,通常情况下,商品信息划分为若干片段后,指定由每个片段最后两个词汇的词性组成的集合中,去重后bi-gram词性个数与集合中 bi-gram词性总数的比率越低,则该商品标题所包含词汇为罗列堆砌的可能性越大。例如,商品标题为 “100% Original Asus P6T7 WS SuperComputerMotherboard, ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard,,,其中,每个片段最后两个词汇的词性组成的集合为{ “N N”,“N N”,“N N”,“N N”,“N”},(最后一个片段只有一个词汇,则bi-gram词性序列为“N”),则去重后的集合为{ “N N”,“N”},那么,这两个集合元素数目之间的比率为2/5。本申请实施例中,商品信息还可以包含其他内容,例如,商品描述信息、商品介绍信息等等,本实施例仅以商品信息为商品标题为例进行阐述。基于上述原理,参阅图4所示,本申请实施例中,仍以商品标题为例,网站服务器对用户指示发布的商品标题进行评估的详细流程如下步骤400 接收用户输入的商品标题。步骤410 用于对所述商品标题进行解析,并根据解析结果获得所述商品标题的指定特征属性的取值,该指定特征属性用于描述商品标题所包含词汇的罗列堆砌程度。本实施例中,所谓的指定特征属性包含词法特征属性或/和词法特征属性,其中,词法特征属性包含以下任意一种或任意组合商品标题包含的逗号个数;商品标题的句长;商品标题去重后包含的词汇个数与商品标题中词汇总数的比率;商品标题中出现频率最高的词汇的出现次数;按照预设规则将商品标题划分为若干片段后,将每个片段中指定位置的词汇组成集合,针对该集合去重后的词汇个数与集合中词汇总数的比率;按照预设规则将商品标题划分为若干片段后,每个片段的方差;句法特征属性包含以下任意一种或任意组合商品标题去重后包含的词汇的词性个数与信息标题中词汇的词性总数的比率;商品标题中为名词的词汇去重后的个数与为名词的词汇总数的比率;出现频率最高的词性的出现次数;按照预设规则将商品标题划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。步骤420 根据各指定特征属性的取值,基于最大熵原理,计算所述商品标题为罗列堆砌信息的置信度。本实施例中,所谓基于最大熵原理,计算所述商品标题为罗列堆砌信息
的置信度,即是将各指定特征属性的取值,作为基于最大熵原理的条件概率模型 f \
的给定信息;再采用条件概率模型计算在所述给定信息
V J/
的情况下,所述商品标题为罗列堆砌信息的后验概率ρ (y IX),并将该后验概率ρ (y IX)作为商品标题为罗列堆砌信息的置信度。步骤430 将所述置信度与设定阈值进行比较,确定所述置信度达到设定阈值时, 阻止发布所述商品标题。实际应用中,网站服务器阻止发布用户输入的商品标题后,还应根据步骤410中获得的解析结果,确定造成商品标题包含的词汇罗列堆砌的关键词汇,如,“handbag”, 并向用户返回该关键词汇,提示用户基于该关键词汇对商品标题进行修改,如,将对针对 "handbag"的多次重复描述进行简化,压缩,将针对“handbag”的多种形容词汇尽量在一句话中呈现。进一步地,网站服务器还可以将本地自动修改后的商品标题作为修改策略呈现给用户,以供用户参考和选择。基于上述实施例,下面以一些具体的实验数据对上述流程进行进一步阐述。在实际应用中,各指定特征属性的取值都将被被归一化为0-1的数值,然后分段映射到整数,以简化后续计算流程。例如,6被归一化到0. 3(即6/20,20为归一化参数,可以根据被归一化的数据的取值而具体设定),并映射为整数3。针对这一特征,本实施例中, 将归一化后的数值与整数之间的映射关系设置为0_>0,(0,0.05]->1,(0. 05,0. 15]->2, (0. 15,0. 3]->3,(0. 3,0. 5]->4,(0. 5,1]->5。以下实施例中所有映射操作均基于此原理,将不再赘述。那么,本实施例中,商品标题为“#24 Baseball Jersey, BaseballJerseys,
Σ+Ο,少)Jerseys, Sports Jerseys, Sport Jersey, Jersey,24# Baseball Jersey,,,/[段设f艮据商品标题的解析结果获得的指定特征属性的取值分别为商品标题包含的逗号个数逗号个数为6,经归一化处理后转化为0. 3,再经映射处理,转化为整数3 ;其对应于λ (χ, y),其中,假设λ工的取值为0. 0653117,^ (x, y)的取
权利要求
1.一种发布商品信息的方法,其特征在于,包括 接收用户输入的商品信息,并对所述商品信息进行解析;根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;确定所述置信度达到设定阈值时,阻止发布所述商品信息。
2.根据权利要求1所述的方法,其特征在于,所述根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度,包括将所述各指定特征属性的取值,作为基于最大熵原理的条件概率模型的给定信息; 采用条件概率模型计算在所述给定信息的情况下,所述商品信息为罗列堆砌信息的后验概率,并将所述后验概率作为商品信息为罗列堆砌信息的置信度。
3.如权利要求1或2所述的方法,其特征在于,所述指定特征属性包含词法特征属性或 /和句法特征属性;其中,所述词法特征属性包含以下任意一种或任意组合商品信息包含的逗号个数;商品信息的句长;商品信息去重后包含的词汇个数与商品信息中词汇总数的比率;商品信息中出现频率最高的词汇的出现次数;按照预设规则将商品信息划分为若干片段后,将每个片段中指定位置的词汇组成集合,针对该集合去重后的词汇个数与集合中词汇总数的比率;按照预设规则将商品信息划分为若干片段后,每个片段的方差;所述句法特征属性包含以下任意一种或任意组合商品信息去重后包含的词汇的词性个数与信息标题中词汇的词性总数的比率;商品信息中为名词的词汇去重后的个数与为名词的词汇总数的比率;出现频率最高的词性的出现次数;按照预设规则将商品信息划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。
4.如权利要求3所述的方法,其特征在于,所述按照预设规则将商品信息划分为若干片段,包括按照商品信息中的逗号所在位置将商品标题划分为若干片段; 或/和按照商品信息中出现频率最高的词汇所在位置将商品标题划分为若干片段。
5.如权利要求1或2所述的方法,其特征在于,阻止发布所述商品信息后,还包括 根据所述解析结果确定造成所述商品信息包含的词汇罗列堆砌的关键词汇; 向用户返回所述关键词汇,提示用户基于该关键词汇对商品信息进行修改。
6.如权利要求5所述的方法,其特征在于,向用户返回所述关键词汇时,向该用户通知相应的修改策略。
7.—种网站服务器,其特征在于,包括 通信单元,用于接收用户输入的商品信息;解析单元,用于对所述商品信息进行解析,并根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;计算单元,用于根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;执行单元,用于在确定所述置信度达到设定阈值时,阻止发布所述商品信息。
8.根据权利要求7所述的网站服务器,其特征在于,所述计算单元包括第一计算子单元,用于将所述各指定特征属性的取值,作为基于最大熵原理的条件概率模型的给定信息;第二计算子单元,用于采用条件概率模型计算在所述给定信息的情况下,所述商品信息为罗列堆砌信息的后验概率,并将所述后验概率作为商品信息为罗列堆砌信息的置信度。
9.如权利要求7或8所述的网站服务器,其特征在于,所述指定特征属性包含词法特征属性或/和句法特征属性;其中,所述词法特征属性包含以下任意一种或任意组合商品信息包含的逗号个数;商品信息的句长;商品信息去重后包含的词汇个数与商品信息中词汇总数的比率;商品信息中出现频率最高的词汇的出现次数;按照预设规则将商品信息划分为若干片段后,将每个片段中指定位置的词汇组成集合,针对该集合去重后的词汇个数与集合中词汇总数的比率;按照预设规则将商品信息划分为若干片段后,每个片段的方差;所述句法特征属性包含以下任意一种或任意组合商品信息去重后包含的词汇的词性个数与信息标题中词汇的词性总数的比率;商品信息中为名词的词汇去重后的个数与为名词的词汇总数的比率;出现频率最高的词性的出现次数;按照预设规则将商品信息划分为若干片段后,每个片段中指定位置的词汇的词性组成的集合中,去重后的词性个数与集合中词性总数的比率。
10.如权利要求7或8所述的网站服务器,其特征在于,还包括策略单元,用于在所述第二处理单元阻止发布所述商品信息后,根据所述解析结果确定造成所述商品信息包含的词汇罗列堆砌的关键词汇,并通过所述通信单元向用户返回所述关键词汇,提示用户基于该关键词汇对商品信息进行修改。
11.如权利要求10所述的网站服务器,其特征在于,所述策略单元向用户返回所述关键词汇时,向该用户通知相应的修改策略。
全文摘要
本申请涉及计算机领域,公开了一种发布商品信息的方法及装置,用以降低系统后期检索时的运行负荷,该方法为接收用户输入的商品信息,并对所述商品信息进行解析;根据解析结果获得所述商品信息的指定特征属性的取值,所述指定特征属性用于描述商品信息所包含词汇的罗列堆砌程度;根据各指定特征属性的取值,基于最大熵原理,计算所述商品信息为罗列堆砌信息的置信度;确定所述置信度达到设定阈值时,阻止发布所述商品信息,或者建议修改商品信息再重发。这样,可以有效提高商品信息的简洁性和准确性,从而在后续检索过程中大幅度降低系统运行负荷,保证了电子商务网站的正常运行,确保了网站的服务质量。本申请同时公开了一种网站服务器。
文档编号G06F17/30GK102262765SQ20101018744
公开日2011年11月30日 申请日期2010年5月27日 优先权日2010年5月27日
发明者张勤, 张寿松, 林锋 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1