训练分类模型的方法及装置、对搜索词分类的方法及装置的制造方法

文档序号:9818334阅读:377来源:国知局
训练分类模型的方法及装置、对搜索词分类的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网领域,尤其涉及训练分类模型的方法及装置、对搜索词分类的 方法及装置。
【背景技术】
[0002] 随着互联网的快速发展,网站平台(例如汽车之家)可以提供大量的例如资讯、新 闻、广告等内容,以满足用户对信息的需求。然而,用户在面对大量信息时,经常需要输入搜 索词并通过搜索引擎进行搜索,以获取用户所需要的内容。在根据搜索词进行搜索时,一个 重要的环节是对搜索词进行分类,以确定用户的搜索意图。现有的搜索方案中,通常采用规 则分类的方式,以判断搜索词是否与关键词表匹配。
[0003] 然而,规则分类方式的识别范围很有限,分类的召回率较低。

【发明内容】

[0004] 为此,本发明提供一种新的分类方案,有效的解决了上面至少一个问题。
[0005] 根据本发明的一个方面,提供一种训练搜索词分类模型的方法,适于在计算设备 中执行。该计算设备包括关键词存储器,适于存储关键词分类词典。该词典中每个关键词具 有代表用户搜索意图的类别信息,该方法包括以下步骤。从用户历史搜索记录中获取搜索 词的集合,并获取该集合中每个搜索词的类别。其中每个搜索词的类别是基于关键词分类 词典得到的。获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分 词的分类贡献度特征。获取每个搜索词中类别与其相同的每个分词的关联词。所获取的每 个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。利用每个搜索词的 类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型。
[0006] 可选地,在根据本发明的训练搜索词分类模型的方法中,获取该搜索词的集合中 每个搜索词的类别的步骤包括:如果这个搜索词包括所述关键词分类词典中一个关键词, 则将这个关键词的类别作为这个搜索词的类别;如果这个搜索词包括所述关键词分类词典 中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为该搜索词的类别。
[0007] 可选地,在根据本发明的训练搜索词分类模型的方法中,获取每个搜索词中与其 类别相同的分词的步骤包括:利用所述关键词分类词典对每个搜索词执行分词操作,并提 取类别与这个搜索词相同的分词;利用下述公式计算所提取的每个分词的分类贡献特征:t = l/(n+x)其中,t为该分词的分类贡献值,η表示类别与这个搜索词相同的分词总数,X的取 值范围为0.01-0.5。
[0008] 可选地,在根据本发明的训练搜索词分类模型的方法中,获取每个搜索词中类别 与其相同的每个分词的关联词的步骤包括:获取预定网站的至少一部分网页信息;利用所 述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合;对该分词集合执 行词聚类操作,以获取所获取的网页信息对应的词聚类模型;基于该词聚类模型,对所述每 个分词执行词扩展操作,以获取每个分词的关联词。
[0009] 可选地,在根据本发明的训练搜索词分类模型的方法中,利用所述关键词分类词 典对所获取的网页信息执行分词操作,以生成分词集合的步骤包括:对执行分词操作所获 取的分词执行去重操作,并将去重后的所有分词作为所述分词集合。
[0010] 可选地,在根据本发明的训练搜索词分类模型的方法中,对所述分词集合执行词 聚类操作的步骤包括:利用w〇rd2VeC对该分词集合执行词聚类操作。
[0011] 可选地,在根据本发明的训练搜索词分类模型的方法中,表示这个关联词与相关 联分词语义相似度的特征为余弦距离。分类模型为SVM模型。
[0012] 可选地,在根据本发明的训练搜索词分类模型的方法中,利用每个搜索词的类别、 每个搜索词中类别与其相同的分词和每个分词的关联词来训练分类模型的步骤包括:将每 个搜索词的类别、类别与这个搜索词相同的分词和类别与这个搜索词相同的每个分词的关 联词转化为用向量表示的一条样本;利用所生成的每条样本对分类模型的参数进行训练。
[0013] 根据本发明又一个方面,提供一种对搜索词分类的方法,适于在计算设备中执行。 该方法包括以下步骤。对搜索词执行分词操作以生成一个或多个分词。将所生成的每个分 词作为该搜索词的一个第一特征项,每个第一特征项的属性包括这个第一特征项的权重特 征。查询每个第一特征项的关联词,并将这个第一特征项的每个关联词作为这个搜索词的 一个第二特征项。每个第二特征项的属性包括该第二特征项与相关联的第一特征项的相似 度特征值。将该搜索词的第一特征项和第二特征项代入到分类模型中,以返回这个搜索词 的类别。
[0014] 可选地,在根据本发明的对搜索词分类的方法中,每个第一特征项的权重特征为 词频权重,该词频权重为这个第一特征项在所述搜索词中出现的次数与该搜索词的分词总 数的比值。
[0015] 可选地,在根据本发明的对搜索词分类的方法中,计算设备包括关键词存储器,适 于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图的类别信息,在对搜 索词执行分词操作之前,该方法还包括:对用户输入的搜索词进行归一化操作;根据关键词 分类词典对经过归一化处理的搜索词执行分类查询,并返回所查询到的第一分类结果;如 果未查询到该搜索词的第一分类结果,对该搜索词执行纠错操作,并对经过纠错的搜索词 再次执行分类查询以返回第二分类结果;如果成功返回对搜索词的第一分类结果或第二分 类结果,则不再执行对搜索词的分词操作。
[0016] 可选地,根据本发明的对搜索词分类的方法还包括:如果对经过纠错的搜索词执 行分类查询未返回第二分类结果,则对该搜索词执行模式串提取操作,以获取该搜索词的 第三分类结果,并在获取第三分类结果成功时不再执行所述分词操作。
[0017] 可选地,在根据本发明的对搜索词分类的方法中,在对所述搜索词执行分词操作 之后,且生成所述第一特征项和第二特征项之前,该方法还包括:基于该分词操作得到的所 有分词,如果所有分词包括所述关键词分类词典中一个关键词,则将这个关键词的类别作 为这个搜索词的类别;如果所有分词包括所述关键词分类词典中多个关键词,则将这多个 关键词中优先级最高的关键词的类别作为该搜索词的类别;在基于所有分词得到这个搜索 词的类别时,不再生成所述第一特征项和所述第二特征项。
[0018] 可选地,在根据本发明的对搜索词分类的方法中,分类模型是通过根据本发明的 训练搜索词分类模型的方法得到的。
[0019] 根据本发明又一个方面,提供一种训练搜索词分类模型的装置,适于在计算设备 中驻留。该装置包括关键词存储器、第一获取单元、第二获取单元、第三获取单元和训练单 元。关键词存储器适于存储关键词分类词典。该词典中每个关键词具有代表用户搜索意图 的类别信息。第一获取单元适于从用户历史搜索记录中获取搜索词的集合,并获取该集合 中每个搜索词的类别。其中每个搜索词的类别是基于关键词分类词典得到的。第二获取单 元适于获取每个搜索词中类别与其相同的分词。所获取的每个分词的属性包括该分词的分 类贡献度特征。第三获取单元适于获取每个搜索词中类别与其相同的每个分词的关联词。 所获取的每个关联词的属性包括表示这个关联词与相关联分词语义相似度的特征。训练单 元适于利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来 训练分类模型。
[0020] 可选地,在根据本发明的训练搜索词分类模型的装置中,第一获取单元适于根据 下述方式获取该搜索词的集合中每个搜索词的类别:如果这个搜索词包括所述关键词分类 词典中一个关键词,则将这个关键词的类别作为这个搜索词的类别;如果这个搜索词包括 所述关键词分类词典中多个关键词,则将这多个关键词中优先级最高的关键词的类别作为 该搜索词的类别。
[0021] 可选地,在根据本发明的训练搜索词分类模型的装置中,第二获取单元适于根据 下述方式获取每个搜索词中与其类别相同的分词:利用所述关键词分类词典对每个搜索词 执行分词操作,并提取类别与这个搜索词相同的分词;利用下述公式计算所提取的每个分 词的分类贡献特征:t = l/(n+x)其中,t为该分词的分类贡献值,η表示类别与这个搜索词相 同的分词总数,X的取值范围为0.01-0.5。
[0022]可选地,在根据本发明的训练搜索词分类模型的装置中,第三获取单元适于根据 下述方式获取每个搜索词中类别与其相同的每个分词的关联词:获取预定网站的至少一部 分网页信息;利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集 合;对该分词集合执行词聚类操作,以获取所获取的网页信息对应的词聚类模型;基于该词 聚类模型,对所述每个分词执行词扩展操作,以获取每个分词的关联词。
[0023] 可选地,在根据本发明的训练搜索词分类模型的装置中,第三获取单元根据下述 方式利用所述关键词分类词典对所获取的网页信息执行分词操作,以生成分词集合:对执 行分词操作所获取的分词执行去重操作,并将去重后的所有分词作为所述分词集合。
[0024] 可选地,在根据本发明的训练搜索词分类模型的装置中,第三获取单元根据下述 方式对所述分词集合执行词聚类操作:利用w〇rd2 VeC对该分词集合执行词聚类操作。
[0025] 可选地,在根据本发明的训练搜索词分类模型的装置中,表示一个关联词与相关 联分词语义相似度的特征为余弦距离。分类模型为SVM模型。
[0026] 可选地,在根据本发明的训练搜索词分类模型的装置中,训练单元适于根据下述 方式利用每个搜索词的类别、每个搜索词中类别与其相同的分词和每个分词的关联词来训 练分类模型:将每个搜索词的类别、类别与这个搜索词相同的分词和类别与这个搜索词相 同的每个分词的关联词转化为用向量表不的一条样本;利用所生成的每条样本对分类模型 的参数进行训练。
[0027] 根据本发明又一个方面,提供一种对搜索词分类的装置,适于在计算设备中驻留。 该装置包括分词单元、扩展单元和第一分类单元。分词单元适于对搜索词执行分词操作,并 将所生成的每个分词作为该搜索词的一个第一特征项。每个第一特征项的属性包括这个第 一特征项的权重特征。扩展单元适于查询每个第一特征项的关联词,并将这个第一特征项 的每个关联词作为这个搜索词的一个第二特征项。每个第二特征项的属性包括该第二特征 项与相关联的第一特征项的相似度特征值。第一分类单元适于将该搜索词的第一特征项和 第二特征项代入到分类模型中,以返回这个搜索词的类别。
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1