信息搜索方法和系统的制作方法_2

文档序号:9417372阅读:来源:国知局
br>[0047]电商网站的图书频道,如京东网站的图书频道。
[0048]爬取的图书资源中会包括图书的信息,以及图书对应的相关数据,相关数据可以包括用户评价数据,和/或,图书自身描述数据。用户评价数据例如包括:用户对图书的评论、评分、满意度等,图书自身描述数据例如包括:作者,出版社,中文或外文图书等。
[0049]S32:对所述相关数据进行序列模式挖掘,确定所述学习领域的学习路线。
[0050]序列模式挖掘(sequence pattern mining)是指挖掘相对时间或其他模式出现频率高的模式。在本实施例中,由于人类的学习过程是有潜在的行为模式,通过序列模式挖掘,可以获取人们通过图书获取知识的行为序列。
[0051]—些实施例中,参见图4,所述对所述相关数据进行序列模式挖掘,确定所述学习领域的学习路线,包括:
[0052]S42:对所述相关数据进行信息抽取。
[0053]信息抽取主要依赖自然语言处理技术实现。
[0054]其中,信息抽取可以包括:实体抽取,概念抽取,情感分析,关系抽取。
[0055]例如,以图5所示的图书以及对应的用户评论51为例,上述四种抽取分别是指:
[0056]实体抽取:是自然语言处理的关键基础技术。这里的实体指的是命名实体,是指识别文本中具有特定意义的实体,主要包括人名、书名、地名、机构名、专有名词等。例如图5里提到的“C++”、“C++程序设计教程”、“深入浅出MFC”、“Lippman”等都是实体。
[0057]概念抽取:指的是语义概念,一般会利用上下文关系进行语义消歧,得到一个最终概念。例如入门”、“比较难”、“不适合初学者”(消歧后变成“难度适中”)、“进阶”等都是概念。
[0058]情感分析:是指情感倾向性分析,又称意见挖掘(opin1n mining),它的目的是通过分析带有主观情感或者褒贬倾向的主观性文本,挖掘其中的观点或评价信息,以其更加直观的方式或者形式呈现给大家。例如:通过“CP4是非常权威的,毕竟Lippman大大是……”可以推断出,该评论对CP4是好评的。
[0059]关系抽取:实体抽取那一步抽取出的知识要素是以离散的形式存在的,只能反映文本中包含哪些实体,却不能反映出知识要素之间的关系,但关系抽取能把实体直接的关系挖掘出来,例如图5的“侯捷的《深入浅出MFC》”,我们可以提取出“侯捷”与“《深入浅出MFC》”是作者与作品的关系。
[0060]信息提取的数据可以为后续数据挖掘提供基础数据。
[0061]S43:根据信息抽取的结果,对图书进行聚类。
[0062]例如,经过上述的实体抽取,概念抽取,情感分析,关系抽取后,可以得到表征图书不同方面的信息,之后可以根据不同方面的信息进行聚类。例如,对应每本图书,根据上述不同的信息抽取,可以获取图书类别的权重,作者权威的权重,图书评分的权重,难易程度的权重等,之后再根据要聚类的类别以及相应的权重,将图书聚类到不同类别中。
[0063]例如,参见图6,以C语言学习路径为例,将C语言相关图书聚成3个大簇,分别为“入门级”簇(偏易)、“中级”簇、“高级”簇(偏难)。
[0064]S44:在聚类后得到的每个簇族中,对图书进行打分,并在每个簇族内选择得分较高的预设个数的图书。
[0065]例如,在每个簇族中,依据图书自身描述信息(如:作者是否知名、出版社是否知名、是国内图书还是国外图书等)和用户评价信息(如:评分、满意度等)指标,对每个簇族内的图书打分,再进行排序,选择TopN本图书作为代表,参与后面的难易度排序。
[0066]通过图书打分可以获取权威性高、具有代表性的图书。
[0067]可以理解的是,信息抽取得到的结果可以作为后续各流程的基础数据,后续各流程在使用信息抽取的结果时,可以使用一种或多种信息抽取的结果,还可以对信息抽取的结果进行挖掘分析。
[0068]例如,参见图7,打分时的自身描述信息71可以采用实体抽取和关系抽取的结果,例如“出版社”、“人民邮电出版社”都是实体,组成key-value对应关系。
[0069]又例如,参见图8,用户评价信息81采用了实体抽取和关系抽取的结果,最后的结果,总评分:9.2,评价人数:3868,五星占比:67.0%等。
[0070]S45:对选择出的图书进行难易度排序,得到所述学习领域的学习路线。
[0071]可以根据信息抽取的结果对选择出的图书进行难易度排序。
[0072]例如,当用户评价信息中包括如图9所示的评价内容91时,表明该书不适合入门,难度系数可以设置为中间档位。
[0073]又例如,当用户评价信息中包括如图10所示的评价内容101时,表明该书偏高阶,难度系数设置为偏大的系数。
[0074]难易度排序的结果可以利用机器学习排序(Learning To Rank)的方法获得,本实施例利用 LambdaMART (可参考:http: //research, microsoft.com/pubs/132652/MSR-TR-2010-82.pdf)排序算法对图书进行排序。
[0075]难易度排序后的结果111可以如图11所示,该难易度排序结果可以作为学习路线进行展示。其中,难易度排序后的结果的横轴表示学习耗时,纵轴表示难度系数,难度系数可以根据机器学习排序算法得到,学习耗时可以根据实体抽取获取的时间确定,或者,可以根据难易程度和学习经验,推断得到。
[0076]S33:将所述学习路线与所述学习领域关联存储。
[0077]例如,参见图4,将学习路线与学习领域关联存储在服务端的检索系统中(S46)。
[0078]本实施例中,通过获取图书相关数据,可以提高知识的权威性,通过序列模式挖掘获取学习路线,可以为用户挖掘和整理出权威有效以及简便的学习路径。具体的,通过对用户对图书评论和评分的挖掘,进行信息抽取,用户情感分析,通过聚类算法获取同一知识领域内多个簇族,从每个簇族中选出权威性最高的N个(N可人工指定),然后再依据学习难易程度排序,连点成线,整理成知识,减少用户寻找答案的时间,让搜索引擎更懂用户的意图,直接解答用户的疑惑。以图文并茂、良好交互体验的方式,让人们更便捷地获取信息、找到所求。通过对用户评论和评分数据和图书描述信息的挖掘,构造图书评价特征和图书自身属性特征,借鉴蚁群算法中路径发现的思路,运用聚类算法和排序算法,获取用户频繁路径(frequent path),最终得到一条行之有效、经过前人检验的成长曲线。
[0079]—些实施例中,所述搜索结果页上还包括如下项中的至少一项:
[0080]评论栏,点赞按钮,分享按钮,购买按钮。
[0081]其中,购买按钮例如为图2中所示的“批量购买”按钮,该按钮可以设置在学习路线的左下角。评论栏,点赞按钮,分享按钮可以设置在学习路线的右下角。可以理解的是,上述各按钮的设置位置只是示例,还可以设置在其他位置,例如对应每个图书设置。
[0082]通过评论栏,点赞按钮,分享按钮,可以供用户交流学习心得、反馈信息、分享经验,增加学习路线的可信度,对后台系统而言,可以获取更多用户数据,将更有利于提供更优的且个性化的学习路径,从而实现正向循环。
[0083]一些实施例中,参见图12,该方法还可以包括:
[0084]S121:当用户点击该按钮后,跳转到预设的购买网页。
[0085]例如,用户点击“批量购买”按钮后,可以跳转到图13所示的包含购物信息131的购买页面。
[0086]本实施例中,提供了流量变现的新模式,完成from query to transact1n,真正实现流量闭环,连接人与服
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1