信息搜索方法和系统的制作方法_2

文档序号：9417372阅读：来源：国知局

br>[0047]电商网站的图书频道，如京东网站的图书频道。
[0048]爬取的图书资源中会包括图书的信息，以及图书对应的相关数据，相关数据可以包括用户评价数据，和/或，图书自身描述数据。用户评价数据例如包括:用户对图书的评论、评分、满意度等，图书自身描述数据例如包括:作者，出版社，中文或外文图书等。
[0049]S32:对所述相关数据进行序列模式挖掘，确定所述学习领域的学习路线。
[0050]序列模式挖掘(sequence pattern mining)是指挖掘相对时间或其他模式出现频率高的模式。在本实施例中，由于人类的学习过程是有潜在的行为模式，通过序列模式挖掘，可以获取人们通过图书获取知识的行为序列。
[0051]—些实施例中，参见图4，所述对所述相关数据进行序列模式挖掘，确定所述学习领域的学习路线，包括:
[0052]S42:对所述相关数据进行信息抽取。
[0053]信息抽取主要依赖自然语言处理技术实现。
[0054]其中，信息抽取可以包括:实体抽取，概念抽取，情感分析，关系抽取。
[0055]例如，以图5所示的图书以及对应的用户评论51为例，上述四种抽取分别是指:
[0056]实体抽取:是自然语言处理的关键基础技术。这里的实体指的是命名实体，是指识别文本中具有特定意义的实体，主要包括人名、书名、地名、机构名、专有名词等。例如图5里提到的“C++”、“C++程序设计教程”、“深入浅出MFC”、“Lippman”等都是实体。
[0057]概念抽取:指的是语义概念，一般会利用上下文关系进行语义消歧，得到一个最终概念。例如入门”、“比较难”、“不适合初学者”(消歧后变成“难度适中”)、“进阶”等都是概念。
[0058]情感分析:是指情感倾向性分析，又称意见挖掘(opin1n mining)，它的目的是通过分析带有主观情感或者褒贬倾向的主观性文本，挖掘其中的观点或评价信息，以其更加直观的方式或者形式呈现给大家。例如:通过“CP4是非常权威的，毕竟Lippman大大是……”可以推断出，该评论对CP4是好评的。
[0059]关系抽取:实体抽取那一步抽取出的知识要素是以离散的形式存在的，只能反映文本中包含哪些实体，却不能反映出知识要素之间的关系，但关系抽取能把实体直接的关系挖掘出来，例如图5的“侯捷的《深入浅出MFC》”，我们可以提取出“侯捷”与“《深入浅出MFC》”是作者与作品的关系。
[0060]信息提取的数据可以为后续数据挖掘提供基础数据。
[0061]S43:根据信息抽取的结果，对图书进行聚类。
[0062]例如，经过上述的实体抽取，概念抽取，情感分析，关系抽取后，可以得到表征图书不同方面的信息，之后可以根据不同方面的信息进行聚类。例如，对应每本图书，根据上述不同的信息抽取，可以获取图书类别的权重，作者权威的权重，图书评分的权重，难易程度的权重等，之后再根据要聚类的类别以及相应的权重，将图书聚类到不同类别中。
[0063]例如，参见图6，以C语言学习路径为例，将C语言相关图书聚成3个大簇，分别为“入门级”簇(偏易)、“中级”簇、“高级”簇(偏难)。
[0064]S44:在聚类后得到的每个簇族中，对图书进行打分，并在每个簇族内选择得分较高的预设个数的图书。
[0065]例如，在每个簇族中，依据图书自身描述信息(如:作者是否知名、出版社是否知名、是国内图书还是国外图书等)和用户评价信息(如:评分、满意度等)指标，对每个簇族内的图书打分，再进行排序，选择TopN本图书作为代表，参与后面的难易度排序。
[0066]通过图书打分可以获取权威性高、具有代表性的图书。
[0067]可以理解的是，信息抽取得到的结果可以作为后续各流程的基础数据，后续各流程在使用信息抽取的结果时，可以使用一种或多种信息抽取的结果，还可以对信息抽取的结果进行挖掘分析。
[0068]例如，参见图7，打分时的自身描述信息71可以采用实体抽取和关系抽取的结果，例如“出版社”、“人民邮电出版社”都是实体，组成key-value对应关系。
[0069]又例如，参见图8，用户评价信息81采用了实体抽取和关系抽取的结果，最后的结果，总评分:9.2，评价人数:3868,五星占比:67.0%等。
[0070]S45:对选择出的图书进行难易度排序，得到所述学习领域的学习路线。
[0071]可以根据信息抽取的结果对选择出的图书进行难易度排序。
[0072]例如，当用户评价信息中包括如图9所示的评价内容91时，表明该书不适合入门，难度系数可以设置为中间档位。
[0073]又例如，当用户评价信息中包括如图10所示的评价内容101时，表明该书偏高阶，难度系数设置为偏大的系数。
[0074]难易度排序的结果可以利用机器学习排序(Learning To Rank)的方法获得，本实施例利用 LambdaMART (可参考:http: //research, microsoft.com/pubs/132652/MSR-TR-2010-82.pdf)排序算法对图书进行排序。
[0075]难易度排序后的结果111可以如图11所示，该难易度排序结果可以作为学习路线进行展示。其中，难易度排序后的结果的横轴表示学习耗时，纵轴表示难度系数，难度系数可以根据机器学习排序算法得到，学习耗时可以根据实体抽取获取的时间确定，或者，可以根据难易程度和学习经验，推断得到。
[0076]S33:将所述学习路线与所述学习领域关联存储。
[0077]例如，参见图4，将学习路线与学习领域关联存储在服务端的检索系统中(S46)。
[0078]本实施例中，通过获取图书相关数据，可以提高知识的权威性，通过序列模式挖掘获取学习路线，可以为用户挖掘和整理出权威有效以及简便的学习路径。具体的，通过对用户对图书评论和评分的挖掘，进行信息抽取，用户情感分析，通过聚类算法获取同一知识领域内多个簇族，从每个簇族中选出权威性最高的N个(N可人工指定)，然后再依据学习难易程度排序，连点成线，整理成知识，减少用户寻找答案的时间，让搜索引擎更懂用户的意图，直接解答用户的疑惑。以图文并茂、良好交互体验的方式，让人们更便捷地获取信息、找到所求。通过对用户评论和评分数据和图书描述信息的挖掘，构造图书评价特征和图书自身属性特征，借鉴蚁群算法中路径发现的思路，运用聚类算法和排序算法，获取用户频繁路径(frequent path)，最终得到一条行之有效、经过前人检验的成长曲线。
[0079]—些实施例中，所述搜索结果页上还包括如下项中的至少一项:
[0080]评论栏，点赞按钮，分享按钮，购买按钮。
[0081]其中，购买按钮例如为图2中所示的“批量购买”按钮，该按钮可以设置在学习路线的左下角。评论栏，点赞按钮，分享按钮可以设置在学习路线的右下角。可以理解的是，上述各按钮的设置位置只是示例，还可以设置在其他位置，例如对应每个图书设置。
[0082]通过评论栏，点赞按钮，分享按钮，可以供用户交流学习心得、反馈信息、分享经验，增加学习路线的可信度，对后台系统而言，可以获取更多用户数据，将更有利于提供更优的且个性化的学习路径，从而实现正向循环。
[0083]一些实施例中，参见图12，该方法还可以包括:
[0084]S121:当用户点击该按钮后，跳转到预设的购买网页。
[0085]例如，用户点击“批量购买”按钮后，可以跳转到图13所示的包含购物信息131的购买页面。
[0086]本实施例中，提供了流量变现的新模式，完成from query to transact1n，真正实现流量闭环，连接人与服

完整全部详细技术资料下载

当前第2页1 2 3 4