一种提供聚合类型的智能摘要的方法和装置的制造方法_2

文档序号:9810712阅读:来源:国知局
摘要信息,重新生成包含所述摘要信息的搜索结果项。该方法可以缩短用户信息寻找路径,改善用户的体验,使得用户界面更加友好。此外,本发明的技术方案还能够有效的提高信息获取效率,将原来需要多次劳动才能得到的结论通过将查询词进行聚合方式进行集成综合处理,同时直接向用户提供对搜索结果项对应页面具体内容的决策性意见,从而大大简化了用户的操作。
[0055]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0056]通过阅读下文【具体实施方式】的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出【具体实施方式】的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0057]图1为本发明的提供聚合类型的智能摘要的方法流程图;
[0058]图2为本发明的聚类和结构化数据模板处理方法流程图;
[0059]图3为本发明的根据列表摘要模板对搜索结果项进行结构化数据模板处理方法流程图;
[0060]图4为本发明的提供聚合类型的智能摘要的装置示意图。
【具体实施方式】
[0061]下面结合附图和具体的实施方式对本发明的技术方案作进一步的描述。
[0062]图1为本发明的提供聚合类型的智能回答的方法流程图。
[0063]根据本发明的一个方面,提供了一种提供聚合类型的智能摘要的方法,包括:
[0064]步骤1、对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;
[0065]步骤2、获取与用户查询词对应的搜索结果项;
[0066]步骤3、检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;
[0067]步骤4、如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
[0068]本发明的方法可以由网络设备执行。其中,网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
[0069]下面对方法的每一个步骤做进一步详细具体的说明。
[0070]图2为本发明的聚类和结构化数据模板处理方法流程图。
[0071]具体的,所述对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:
[0072]S101、根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;
[0073]S102、根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;
[0074]S103、提取所述热门搜索结果项对应链接的热门落地页;
[0075]S104、检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;
[0076]S105、如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。
[0077]具体地,用户通过用户终端设备在搜索引擎的输入框中输入查询词,并通过用户终端设备发送至网络设备;网络设备接收到该查询词,对该查询词进行切词处理,来确定一个或多个查询关键词;随后,基于一个或多个查询关键词在网页索引库中进行匹配来获取相应的搜索结果项,随后对搜索结果项进行排序,获取与查询词相匹配的排序后的一个或多个搜索结果项。
[0078]对查询词进行聚合具体为:对该查询词进行语义匹配处理,从而获取与所述查询词匹配的聚合问题。其中,语义匹配的方法包括但不限于最少词数法和最大匹配法。
[0079]落地页是指搜索结果项对应URL链接指向的页面。进一步地,落地页中可包括满足用户查询需求的多个子页面信息。
[0080]热度信息可通过在一定时间内用户的搜索次数、对搜索结果的浏览时长等维度来确定,对用户输入的多个查询词基于热度信息来排序后,选择排序靠前的第一预定数量的查询词作为热门查询词;对热门查询词进行搜索、排序等处理后,获取每一查询词相应的经排序的搜索结果项,选取与每一热门查询词相应的排序靠前的第二预定数量的搜索结果项,如排序前两位的搜索结果项,作为热门搜索结果项;提取热门搜索结果项对应URL指向的热门落地页;根据从热门落地页中提取到的平级图文列表字段,生成与热门搜索结果项相匹配的列表摘要模板。
[0081]图3为本发明的根据列表摘要模板对搜索结果项进行结构化数据模板处理方法流程图。具体的,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:
[0082]首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
[0083]具体的,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:
[0084]S201、提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;
[0085]S202、基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。
[0086]具体的,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:
[0087]从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
[0088]具体的,当检测到搜索结果项的链接对应落地页的HTML文件中包括预定的平级图文列表字段,则将已提取到落地页中平级图文列表字段的数据信息,填充至预生成的列表摘要模板进行结构化处理,重新生成包含列表摘要信息的搜索结果项。例如,列表摘要模板包括标题、图片及URL相应的填充位置,落地页的HTML文件中每组data数组包括url/title/img三个字段数据,提取每组data数组包括的url/title/img字段的数据;接着,在列表摘要模板的每个填充位置处相应写入url/title/img字段的数据,可生成列表摘要信息;接着再与排序后的一个或多个搜索结果的标题和URL相结合,重新生成包含列表摘要信息的搜索结果项。
[0089]例如,预先从互联网中爬取到可作为落地页的一个或多个网页,对一个或多个落地页的HTML文件进行解析,基于预定义的平级图文列表字段在HTML文件进行查找并提取一个或多个落地页的HTML文件中的平级图文列表字段,根据所提取的平级图文列表字段,生成与一个或多个落地页相匹配的列表摘要模板,其中,列表摘要模板中包括待填充位置,用于填充相应的字段数据。
[0090]具体的,所述平级图文列表字段包括以下一种或多种的组合:
[0091 ]列表类型标记语言字段;
[0092]统一资源定位符、标题信息相关联记录的多个标记语言字段;
[0093]统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。
[0094]其中,平级图文列表字段包括以下一种或多种的组合:
[0095]列表类型标记语言字段;例如,在网页的HTML文件中,列表类型标记语言字段可包括type定值中的datali st字段,指示HTML文件中包括多个data数组,在网页中可展现为列表形式;
[0096]统一资源定位符、标题信息相关联记录的多个标记语言字段;例如,网页的HTML文件中包括多个data数组,每一 da
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1