一种提供聚合类型的智能摘要的方法和装置的制造方法_3

文档序号:9810712阅读:来源:国知局
ta数组均包括url/title两个字段,分别对应于URL和标题,多个data数组在网页中可展现为列表形式;
[0097]统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段;例如,网页的HTML文件中包括多个data数组,每一 data数组均包括url/title/img三个字段,分别对应于URL、标题和图片,多个data数组在网页中可展现为列表形式。可选地,网页的HTML文件中还可包括imgsize字段,该imgsize字段表示每个data数组中的图片大小;例如,imgsize字段取值为:big:大图;或small:小图;或no img:无图。
[0098]具体地,检测排序后的一个或多个搜索结果项对应链接的落地页是否包含平级图文列表字段的方式可为:读取排序后的一个或多个搜索结果项对应链接的落地页的HTML文件,并检测HTML文件中是否包括预定的平级图文列表字段。
[0099]根据本发明的另一方面,提供了一种提供聚合类型的智能摘要的装置,包括:
[0100]聚类模块,用于对群体用户历史查询词进行聚类;
[0101]结构化数据模板处理模块,用于对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;
[0102]获取模块,用于获取与用户查询词对应的搜索结果项;
[0103]检测模块,用于检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;
[0104]生成模块,用于当检测模块的检测结果为“是”的时候,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
[0105]本发明的上述功能模块可以但并不限于由网络设备执行。其中,网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
[0106]下面对装置的每一个功能模块做进一步详细具体的说明。
[0107]具体的,所述对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:
[0108]根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;
[0109]根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;
[0110]提取所述热门搜索结果项对应链接的热门落地页;
[0111]检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;
[0112]如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。
[0113]具体地,用户通过用户终端设备在搜索引擎的输入框中输入查询词,并通过用户终端设备发送至网络设备;网络设备接收到该查询词,对该查询词进行切词处理,来确定一个或多个查询关键词;随后,基于一个或多个查询关键词在网页索引库中进行匹配来获取相应的搜索结果项,随后对搜索结果项进行排序,获取与查询词相匹配的排序后的一个或多个搜索结果项。
[0114]对查询词进行聚合具体为:对该查询词进行语义匹配处理,从而获取与所述查询词匹配的聚合问题。其中,语义匹配的方法包括但不限于最少词数法和最大匹配法。
[0115]落地页是指搜索结果项对应URL链接指向的页面。进一步地,落地页中可包括满足用户查询需求的多个子页面信息。
[0116]例如,热度信息可通过在一定时间内用户的搜索次数、对搜索结果的浏览时长等维度来确定,对用户输入的多个查询词基于热度信息来排序后,选择排序靠前的第一预定数量的查询词作为热门查询词;对热门查询词进行搜索、排序等处理后,获取每一查询词相应的经排序的搜索结果项,选取与每一热门查询词相应的排序靠前的第二预定数量的搜索结果项,如排序前两位的搜索结果项,作为热门搜索结果项;提取热门搜索结果项对应URL指向的热门落地页;根据从热门落地页中提取到的平级图文列表字段,生成与热门搜索结果项相匹配的列表摘要模板。
[0117]具体的,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:
[0118]首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。
[0119]具体的,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:
[0120]提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;
[0121]基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。
[0122]具体的,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:
[0123]从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。
[0124]具体的,当检测到搜索结果项的链接对应落地页的HTML文件中包括预定的平级图文列表字段,则将已提取到落地页中平级图文列表字段的数据信息,填充至预生成的列表摘要模板进行结构化处理,重新生成包含列表摘要信息的搜索结果项。例如,列表摘要模板包括标题、图片及URL相应的填充位置,落地页的HTML文件中每组data数组包括url/title/img三个字段数据,提取每组data数组包括的url/title/img字段的数据;接着,在列表摘要模板的每个填充位置处相应写入url/title/img字段的数据,可生成列表摘要信息;接着再与排序后的一个或多个搜索结果的标题和URL相结合,重新生成包含列表摘要信息的搜索结果项。
[0125]例如,预先从互联网中爬取到可作为落地页的一个或多个网页,对一个或多个落地页的HTML文件进行解析,基于预定义的平级图文列表字段在HTML文件进行查找并提取一个或多个落地页的HTML文件中的平级图文列表字段,根据所提取的平级图文列表字段,生成与一个或多个落地页相匹配的列表摘要模板,其中,列表摘要模板中包括待填充位置,用于填充相应的字段数据。
[0126]具体的,所述平级图文列表字段包括以下一种或多种的组合:
[0127]列表类型标记语言字段;
[0128]统一资源定位符、标题信息相关联记录的多个标记语言字段;
[0129]统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。
[0130]其中,平级图文列表字段包括以下一种或多种的组合:
[0131]列表类型标记语言字段;例如,在网页的HTML文件中,列表类型标记语言字段可包括type定值中的datali st字段,指示HTML文件中包括多个data数组,在网页中可展现为列表形式;
[0132]统一资源定位符、标题信息相关联记录的多个标记语言字段;例如,网页的HTML文件中包括多个data数组,每一 data数组均包括url/title两个字段,分别对应于URL和标题,多个data数组在网页中可展现为列表形式;
[0133]统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段;例如,网页的HTML文件中包括多个data数组,每一 data数组均包括url/title/img三个字段,分别对应于URL、标题和图片,多个data数组在网页中可展现为列表形式。可选地,网页的HTML文件中还可包括imgsize字段,该imgsize字段表示每个data数组中的图片大小;例如,imgsize字段取值为:big:大图;或small:小图;或no img:无图。
[0134]具体地,检测排序
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1