一种获取信息类别的方法和装置的制造方法_3

文档序号:9547189阅读:来源:国知局
[0108]步骤S302:根据用户浏览的网页的网页标识,获取该网页对应的第一特征词集合,该第一特征词集合用于存储该网页包括的特征词;
[0109]其中,在步骤S302之前,去除该浏览记录中包括的重复的网页标识。
[0110]对于相同的网页标识,去除重复的网页标识,并记录网页标识对应的数目。
[0111]步骤S302可以包括以下步骤(1)至⑶:
[0112](1)、根据用户浏览的网页的网页标识,获取网页包括的网页内容;
[0113]其中,网页包括的网页内容可以为网页包括的网页标题或者网页包括的网页摘要坐寸。
[0114]步骤⑴具体可以为:
[0115]根据用户浏览的网页的网页标识从中下载该网页标识对应的网页内容。
[0116](2)、对该网页内容进行分词,得到该网页内容包括的分词;
[0117]对网页内容进行分词的方法为现有的任一分词方法,在本发明实施例中,对网页内容进行分词的方法不作具体限定。
[0118]如,将网页内容作为待切分词串,以最大正向匹配的方法对待切分词串进行切分,并使用条件随机场的方法对待切分词串中以最大正向匹配的方法进行切分时存在歧义的片段进行校正,得到分词结果。
[0119](3)、从该网页内容包括的分词中去除满足第二预设词性的分词,将剩下的分词作为网页包括的特征词并组成网页对应的第一特征词集合。
[0120]第二预设词性包括语气词、停用词以及近义词等。语气词为任一表示语气的词,如,啊、呵呵或者嗯等。停用词为任一表示停顿的词,如的、我、你或者就等。近义词为意思相近的词。第一特征词集合中包括至少一个特征词。
[0121]获取网页内容包括的分词中的所有近义词组,从每个近义词组中选择一个近义词,并从网页内容包括的分词中去除语气词、停用词以及除选择的近义词之外的其他近义词,将剩下的分词作为网页包括的特征词,并组成网页对应的第一特征词集合。
[0122]步骤S303:根据该第一特征词集合与信息类别和第二特征词集合的对应关系,获取该网页属于的信息类别;
[0123]其中,步骤S303可以包括以下步骤(1)至(3):
[0124](1)、计算该第一特征词集合与信息类别和第二特征词集合的对应关系中的每个第二特征词集合之间的匹配度;
[0125]获取信息类别和第二特征词集合的对应关系中的每个第二特征词集合,计算该第一特征词集合与信息类别和第二特征词集合的对应关系中的每个第二特征词集合之间的匹配度。
[0126]事先存储信息类别和第二特征词集合的对应关系。获取信息类别和第二特征词集合的对应关系中的每个第二特征词集合,第二特征词集合中包括信息类别对应的至少一个特征词。
[0127]其中,计算特征词与特征词之间的匹配度的方法为现有的任一计算特征词与特征词之间的匹配度的方法,在本发明实施例中,对计算特征词与特征词之间的匹配度的方法不作具体限定。
[0128]其中,需要说明的是,在本步骤中,分别计算第一特征词集合中包括的每个特征词分别与每个第二特征词集合中包括的每个特征词之间的匹配度。
[0129](2)、选择与该第一特征词集合之间的匹配度最大的第二特征词集合;
[0130](3)、将选择的第二特征词集合对应的信息类别确定为该网页属于的信息类别。
[0131]步骤S304:统计各信息类别包括的网页数目;
[0132]步骤S305:将各信息类别包括的网页数目分别确定为用户对各信息类别的兴趣度;
[0133]信息类别包括的网页数目越多,说明用户对该信息类别的兴趣度越高,因此,将各信息类别包括的网页数目分别确定为用户对各信息类别的兴趣度。
[0134]步骤S306:获取兴趣度满足第二预设条件的信息类别,并将获取的信息类别作为用户感兴趣的信息类别;
[0135]其中,第二预设条件可以为用户兴趣度大于第二预设阈值的信息类别;或者,第二预设条件为用户兴趣度最大的第二预设个数。
[0136]如果第二预设条件为用户兴趣度大于第二预设阈值,步骤S306可以为:
[0137]获取用户兴趣度大于第二预设阈值的信息类别,将用户兴趣度大于第二预设阈值的消息类别确定为用户兴趣度满足第二预设条件的信息类别,并将获取的信息类别作为用户感兴趣的信息类别。
[0138]如果第二预设条件为用户兴趣度最大的第二预设个数,步骤S306可以为:
[0139]获取用户兴趣度最大的第二预设个数个信息类别,将用户兴趣度最大的第二预设个数个信息类别确定为用户兴趣度满足第二预设条件的信息类别,并将获取的信息类别作为用户感兴趣的信息类别。
[0140]第二预设个数可以根据需要进行设置并更改,如,第二预设个数为3或者5等。
[0141]步骤S307:将用户的用户标识和用户感兴趣度的信息类别存储在用户标识与信息类别的对应关系中。
[0142]将用户的用户标识和用户感兴趣的信息类别存储在用户标识与信息类别的对应关系中,可以根据用户的用户标识从用户标识和信息类别的对应关系中获取用户感兴趣的信息类别,并根据用户感兴趣的信息类别为用户推荐用户感兴趣的信息类别对应的信息或去芦品坐^ 厂 ΡΠ ο
[0143]在本发明实施例中,服务器根据浏览记录中包括的用户浏览的网页的网页标识,获取该网页对应的第一特征词集合,根据该网页对应的第一特征词集合与信息类别和第二特征词集合的对应关系,获取该网页属于的信息类别,将各信息类别包括的网页数目分别确定为用户对各信息类别的兴趣度,获取兴趣度满足第二预设条件的信息类别,并将获取的信息类别作为用户感兴趣的信息类别,从而能够提高获取用户感兴趣的信息类别的准确度。
[0144]实施例4
[0145]本发明实施例提供了一种获取信息类别的装置。参见图4,其中,该装置包括:
[0146]第一获取模块401,用于获取用户浏览网页的浏览记录,浏览记录至少包括用户浏览的网页的网页标识;
[0147]第二获取模块402,用于根据浏览记录获取用户对各信息类别的兴趣度;
[0148]第三获取模块403,用于获取兴趣度满足第一预设条件的信息类别,并将获取的信息类别作为用户感兴趣的信息类别。
[0149]进一步地,第二获取模块402,包括:
[0150]第一确定单元,用于根据浏览记录,确定用户浏览的网页属于的信息类别;
[0151]统计单元,用于统计各信息类别包括的网页数目;
[0152]第二确定单元,用于将各信息类别包括的网页数目分别确定为用户对各信息类别的兴趣度。
[0153]进一步地,第一确定单元,包括:
[0154]获取子单元,用于根据用户浏览的网页的网页标识,获取网页对应的第一特征词集合,第一特征词集合用于存储网页包括的特征词;
[0155]计算子单元,用于计算第一特征词集合与信息类别和第二特征词集合的对应关系中的每个第二特征词集合之间的匹配度;
[0156]选择子单元,用于选择与第一特征词集合之间的匹配度最大的第二特征词集合;
[0157]确定子单元,用于将选择的第二特征词集合对应的信息类别确定为网页属于的信息类别。
[0158]进一步地,获取子单元,用于根据用户浏览的网页的网页标识,获取网页包括的网页内容,对网页内容进行分词,得到网页内容包括的分词,从网页内容包括的分词中去除满足第一预设词性的分词,将剩下的分词作为网页包括的特征词并组成网页对应的第一特征词集合。
[0159]进一步地,计算子单元,用于获取信息类别和第二特征词集合的对应关系中的第二特征词集合,计算第一特征词集合中包括的每个特征词分别与获取的第二特征词集合中包括的每个特征词之间的匹配度,计算第一特征词集合中包括的每个特征词分别与获取的第二特征词集合中包括的每个特征词之间的匹配度的平均值,将平均值作为第一特征词集合与获取的第二特征词集合之间的匹配度。
[0160]进一步地,该装置还包括:
[0161]添加模块,用于将第一特征词集合中包括的特征词添加到选择的第二特征词集合中。
[0162]进一步地,该装置还包括:
[0163]第一存储模块,用于将用户的用户标识和用户感兴趣度的信息类别存储在用户标识与信息类别的对应关系中。
[0164]在本发明实施例中,服务器根据浏览记录获取用户对各信息类别的兴趣度,获取兴趣度满足第一预设条件的信息类别,并将获取的信息类
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1