1.一种信息发布方法,包括:
对用户输入的检索词进行扩展;
计算扩展的结果与多个行业类别中的每个行业类别的相关度得分;以及
向用户发布与所述检索词具有最高相关度得分的行业类别相关联的信息。
2.如权利要求1所述的方法,其中对用户输入的检索词进行扩展的步骤包括:
将所述检索词作为关键字检索有关所述检索词的语料;以及
根据所述检索词的语料生成表征所述检索词的特征向量,作为所述扩展的结果。
3.如权利要求2所述的方法,其中所述检索词的特征向量包含表征从所述检索词的语料中提取的文本分割结果、上下文信息和/或相邻词组合信息的特征。
4.如权利要求3所述的方法,
其中表征从所述检索词的语料中提取的文本分割结果的特征通过下式计算:
f1k=Seg(Corpus(k))
其中,Seg是文本分割函数,Corpus(k)表示检索词k的语料,
其中表征从所述检索词的语料中提取的上下文信息的特征通过下式计算:
其中,NGram表示N-Gram算法,Corpus(k)表示检索词k的语料,并且
其中表征从所述检索词的语料中提取的相邻词组合信息的特征通过下式计算:
f3k=Combination(f1k)
其中,Combination是相邻词组合函数。
5.如权利要求2至4中任一项所述的方法,其中计算扩展的结果与多个行业类别中的每个行业类别的相关度得分的步骤包括:分别在多个计算节点上利用已经过分布式分类模型训练的多个支持向量机模型分别计算所述特征向量与所述多个行业类别的相关度得分,并且
其中,所述分布式分类模型训练包括:
将训练数据分别发送至所述多个计算节点;以及
利用所述训练数据在每个计算节点上训练与一个行业类别相关的支持向量机模型。
6.如权利要求5所述的方法,其中所述训练数据包括已标记行业类别的多个预设的关键字的特征向量。
7.如权利要求6所述的方法,其中已标记行业类别的每个预设的关键字的特征向量包含表征从该预设的关键字的语料中提取的文本分割结果、上下文信息和/或相邻词组合信息的特征。
8.如权利要求6或7所述的方法,其中利用所述训练数据在每个计算节点上训练与一个行业类别相关的支持向量机模型的步骤包括:
在每个计算节点上将接收到的所述训练数据分割成多个数据段;以及
在每个计算节点上顺序处理所述多个数据段,以训练支持向量机模型。
9.如权利要求8所述的方法,其中在每个计算节点上顺序处理所述多个数据段的步骤包括:
在每个计算节点上处理完所述多个数据段中的每个数据段后,存储该数据段中最接近数据分割面的数据样本,并且在处理下一个数据段时,将所存储的数据样本添加至所述下一个数据段进行处理。
10.一种信息发布系统,包括:
扩展装置,对用户输入的检索词进行扩展;
计算装置,计算所述扩展装置的扩展结果与多个行业类别中的每个行业类别的相关度得分;以及
发布装置,向用户发布与所述检索词具有最高相关度得分的行业类别相关联的信息。