一种访问对象的数据处理方法及装置的制造方法_2

文档序号:9524191阅读:来源:国知局
Resource Planning企业资源计划)系统中的个人资料等业务数据。另容易想到的是,本发明实施例中可以采用现有的分词方法,对所述标题名进行划分,得到至少两个分词,譬如,将一访问对象A的标题名拆分为a、b、c、d和e五个分词,可表不为A (a、b、c、d、e),其中,一个访问对象的标题名唯一对应一个划分分词的结果。
[0041]优选的,将访问对象的标题名划分为至少两个分词之后,可以包括:判断所述至少两个分词是否有效,若有效,则执行所述获取所述至少两个分词对应的访问频率信息的步骤,即得到分词后需要先对分词进行有效判定,对于有效的分词才进行访问频率信息的获取并以此组成多元组,其中,所述判断所述至少两个分词是否有效可以具体包括:
[0042]将所述至少两个分词中的每个分词与预置的分词数据库一一进行对比;若在所述分词数据库中查询到所述分词,则判断出所述分词有效;以及若在所述分词数据库中没有查询到所述分词,则判断出所述分词无效。可以理解的是,所述分词数据库可以预先存储在所述服务器12中。
[0043]在步骤S202中,获取所述至少两个分词对应的访问频率信息,并生成与所述访问对象一一对应的多元组,所述多元组中包含携带访问频率信息的所述至少两个分词。
[0044]优选的,可以根据所有有效的分词以及分词的访问频率信息生成与所述访问对象唯一对应的多元组,假设访问对象A的标题名拆分为(a、b、c、d、e),且所有所述分词判定为有效,则获取所有分词的访问频率信息,所述访问频率信息可以具体为一个分词词频统计比值,所述分词词频统计比值是在某一预设时间段内统计获得的,如a = 0.2,b = 0.5,c=0.8, d = 0.2, e = 0.3,则生成访问对象A的唯一对应的多元组可以表示为A(a = 0.2,b = 0.5, c = 0.8, d = 0.2, e = 0.3)。
[0045]在步骤S203中,在两个访问对象对应的多元组中,提取共同包含的第一分词及所述第一分词携带的访问频率信息,并对所述第一分词进行协同过滤分析,生成所述第一分词的协同过滤分值,所述第一分词为所述至少两个分词中的至少一个。
[0046]可具体的,对于每个访问对象,在获取到携带有访问频率信息的多元组后,可以针对其中任意两个访问对象的多元组进行分析,以了解该两个访问对象之间的相关性。假设访问对象A唯一对应的多元组为A(a = 0.2,b = 0.5, c = 0.8, d = 0.2, e = 0.3),访问对象 B 唯一对应的多元组为 B (a = 0.2, c = 0.8, d = 0.2, e = 0.3, f = 0.4, g = 0.7),对于访问对象A和访问对象B,其共同包含的第一分词包括a、c、d和e,则使用传统的协同过滤方法对所述第一分词进行协同过滤分析,生成所述第一分词的协同过滤分值。
[0047]可以理解的是,第一分词为所述多元组分词中的至少一个,所述第一分词的选取数量可以由用户预设定;假设用户需要以共同包含的第一分词d和e为主作为多元组之间的相关性衡量,则可以仅仅对d和e进行协同过滤分析,生成对应的协同过滤分值;在一些较为精准的场合,用户可以以所有的共同包含的第一分词a、c、d和e为主作为多元组之间的相关性衡量,对a、c、d和e均进行协同过滤分析,生成对应的协同过滤分值,本实施例对此不作具体限定。
[0048]在步骤S204中,根据所述第一分词的协同过滤分值和所述第一分词携带的访问频率信息,生成所述两个访问对象相互之间的相关度。
[0049]假设针对于所述访问对象A和访问对象B,对第一分词a、c、d和e均进行协同过滤分析,生成对应的协同过滤分值为Pa、Pc、Pd和Pe,其后根据Pa、Pc、Pd和Pe,以及a、c、d和e对应携带的访问频率信息,生成所述访问对象A和访问对象B相互之间的相关度。
[0050]在步骤S205中,根据当前访问的访问对象,以及所述当前访问的访问对象对应的相关度将相应的访问对象进行推荐。
[0051]在某些实施方式中,当服务器12获取到客户端11当前访问的访问对象时,基于所述步骤201至所述步骤204生成的访问对象相互之间的相关度,根据所述当前访问的访问对象,可以快速且准确地获取到与所述当前访问的访问对象相关的访问对象,并将所述相关的访问对象推荐至所述客户端11。
[0052]由上述可知,本实施例中,将访问对象的标题名划分为至少两个分词,并根据所述至少两个分词访问频率信息,生成包含携带访问频率信息的至少两个分词的多元组;其次,针对两个访问对象的多元组,对共同包含的第一分词进行协同过滤分析并生成第一分词协同过滤分值;最后,根据第一分词的协同过滤分值和第一分词携带的访问频率信息,从而生成两个访问对象相互之间的相关度,将相关的访问对象进行推荐;本发明实施例中,由于利用了访问对象的标题名以及访问对象标题名分词的访问频率信息,对访问对象进行了全面的考虑,尤其是对于新录入的访问对象,不仅可以客观地体现出了访问对象之间的相关性,而且提高访问对象之间的相关度信息计算的准确率。
[0053]请参阅图3,图3为本发明第二实施例提供的访问对象的处理方法的流程示意图。
[0054]在步骤S301中,对于每一个访问对象,获取访问对象的标题名,将所述标题名划分为至少两个分词。
[0055]可以理解的是,所述访问对象可以为商品或者为音视频或者如ERP企业资源计划系统中的个人资料等业务数据。本发明实施例中,对于每一个访问对象,在获取到所述访问对象及其标题名后,可以采用现有的分词方法,对所述标题名进行划分,得到至少两个分词;譬如,将一访问对象A的标题名拆分为a、b、c、d和e五个分词,可分词结果可以表示为A (a、b、c、d、e),其中,一个访问对象的标题名唯一对应一个划分分词的结果。
[0056]另容易想到的是,由于所述访问对象的标题名对访问对象的特点和属性等有一定的表征意义,因此,根据所述访问对象的标题名在进行访问对象之间相关性的考虑上更加有代表性。
[0057]在步骤S302中,判断所述至少两个分词是否有效。
[0058]优选的,由于所述访问对象的标题名存在一些符号,如“()”等,因此对于每一个访问对象,需要对划分后的分词进行有效判定,对于有效的分词才进行分词访问频率信息的获取并以此组成多元组。本发明实施例中,有效判定的步骤可以具体包括:
[0059]将所述至少两个分词中的每个分词与预置的分词数据库一一进行对比;若在所述分词数据库中查询到所述分词,则判断出所述分词有效;以及若在所述分词数据库中没有查询到所述分词,则判断出所述分词无效。可以理解的是,所述分词数据库可以预先存储在所述服务器12中,所述分词数据库中的分词是经过大量统计后确定,按照分词统计数量的多少或者按照分词的词性(如名词、形容词)等规则进行预先存储,此处不作具体限定。
[0060]若判断出所述分词有效,则执行步骤S303a,若判断出所述分词无效,则执行步骤S303b:
[0061 ] 在步骤S303a中,获取所述分词对应的访问频率信息。
[0062]优选的,所述分词对应的访问频率信息可以具体为一个分词词频统计比值,可以基于以下方式获得:
[0063]每个访问对象,对于所述至少两个分词中的每个分词,在预设时间段内统计包含所述分词的页面访问次数;其中,所述预设时间段可以是一个月或者三个月或者半年等;
[0064]在所述预设时间段内统计包含所述分词的标题的页面访问次数;以及
[0065]将所述包含所述分词的标题的页面访问次数与所述包含所述分词的页面访问次数的比值,作为所述分词的访问频率信息。
[0066]假设,所述访问对象A的标题名的分词a、b、c、d和e判定为全部有效,则访问对象A的标题名分词结果表示为A(a、b、c、d、e),获取的分词的访问频率信息为a = 0.2,b =0.5, c = 0.8, d = 0.2, e = 0.3。
[0067]在步骤S303b中,删除无效分词。
[0068]假设,所述访问对象A的标题名的分词a、b、c、d判定为有效,e判定为无效,则访问对象A的标题名分词结果表示为A (a、b、c、d)。
[0069]在步骤S304中,根据分词及所述分词对应的访问频率信息,生成与所述访问对象一一对应的多元组。
[0070]本实施例中,所述多元组中包含携带访问频率信息的至少两个分词,若访问对象A的标题名分词结果表示为A(a、b、c、d、e),获取的分词的访问频率信息为a = 0.2,b = 0.5,c = 0.8, d = 0.2, e = 0.3,则生成访问对象A的唯一对应的多元组可以表示为A (a = 0.2,b = 0.5, c = 0.8, d = 0.2, e = 0.3)。
[0071]在步骤S305中,对于两个访问对象,提取对应多元组中共同包含的第一分词及所述第一分词携带的访问频率信息。
[0072]对于每个访问对象,所述服务器12在获取到携带有访问频率信息的多元组后,可以针对其中任意两个访问对象的多元组进行分析,以了解该两个访问对象之间的相关性;假设所述服务器12获取到的访问对象Α唯一对应的多元组为A (a = 0.2,b = 0.5,c =0.8,d = 0.2,e = 0.3),获取到的访问对象B唯一对应的多元组为B (a = 0.2,c
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1