提供数据搜索的方法及装置与流程

文档序号:14528848阅读:154来源:国知局
提供数据搜索的方法及装置与流程

本发明涉及数据处理技术,尤其涉及提供数据搜索的方法及装置。



背景技术:

进行数据搜索时,网络侧接收来自用户终端的包含原始关键词的搜索指令,由原始关键词搜索出数据,返回给用户终端。搜索出的数据包括页面内容数据,页面内容数据为与关键词直接相关的数据,如包含原始关键词的数据;页面内容数据包含标题、正文等信息。同时,网络侧还基于页面内容数据提取出关键词,展示在页面中,以供用户进行数据搜索。之后,用户终端便可点击页面上的关键词,进一步搜索。页面上展示的这部分关键词为用户很可能会关注的,展示在页面上,便于操作,提升了用户进行数据搜索的体验,也为用户提供了较多的选择。

参见图1,为采用现有技术方案展示的页面实例,该实例为用户通过原始关键词“街拍”搜索到的页面;其中的关键词“欧美”、“美女”和“街拍”,从页面内容数据的标题中提取。

现有方案只基于页面内容数据提供用以进行数据搜索的关键词,这部分关键词比较局限,仅和页面内容数据相关,限制了进一步搜索的范围。



技术实现要素:

本发明提供了一种提供数据搜索的方法,该方法能够基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词,提升了相关搜索的多样性。

本发明提供了一种提供数据搜索的装置,该装置能够基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词,提升了相关搜索的多样性。

一种提供数据搜索的方法,该方法包括:

接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据;

从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;

对关键词集合中的关键词进行相关度排序;

在排序中从相关度最高的关键词开始,提取出设定个数的关键词;

在页面展示页面内容数据、页面推荐数据和提取的关键词。

一种提供数据搜索的装置,该装置包括关键词提取单元、排序单元和展示单元;

所述关键词提取单元,用于接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据;从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;

所述排序单元,用于对所述关键词集合中的关键词进行相关度排序;

所述展示单元,用于在所述排序中从相关度最高的关键词开始,提取出设定个数的关键词;在页面展示页面内容数据、页面推荐数据和提取的关键词。

从上述方案可以看出,本发明获取页面内容数据和页面推荐数据后,从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;对关键词集合中的关键词进行相关度排序,再从排序中提取出设定个数的关键词,展示在页面上。从而,实现了基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词,提升了相关搜索的多样性。

附图说明

图1为采用现有技术方案展示的页面实例;

图2为本发明提供数据搜索的方法示意性流程图;

图3为采用本发明方案展示的网页实例;

图4为本发明提供数据搜索的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。

本发明提供了一种基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词的方法。参见图2,为本发明提供数据搜索的方法示意性流程图,其包括以下步骤:

步骤201,接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据。

与原始关键词直接相关的数据为页面内容数据,如包含关键词的数据;页面内容数据包含标题、正文等信息。

与原始关键词间接关联的数据为页面推荐数据,例如为搜索原始关键词的其它用户在后续搜索到的其它数据。举例说明,由当前用户输入的原始关键词“街拍”搜索到的包含“街拍”的数据,为页面内容数据;其它用户在搜索原始关键词“街拍”后,相继通过其它原始关键词搜索到的数据包括“非主流忧伤唯美欧美女生”、“帕丽斯希尔顿七月街拍记录”等,这部分数据为与原始关键词“街拍”间接关联的页面推荐数据。

步骤202,从页面内容数据和页面推荐数据中提取关键词,组成关键词集合。

从指定的数据中提取出关键词为已有技术,这里不赘述。

步骤203,对关键词集合中的关键词进行相关度排序。

相关度体现了关键词集合中各关键词对当前数据搜索的相关程度。根据实际需要,相关度可通过多种方法计算得到,下面进行举例说明。

方式一:计算关键词集合中各关键词的关联度,按照关联度对关键词进行排序,关联度体现了某关键词所在页面相对于当前页面的关联程度,本方式中,所述关联度为所述相关度。现有方案在搜索日志中记录了各页面之间的关联度,本发明从搜索日志便可获取某页面相对于另一页面的关联程度,进而确定出从所述某一页面提取的关键词的关联度。计算某页面相对于另一页面的关联度,为已有方技术,可采用多种方式实现,例如,假设所述某页面为A页面,所述另一页面为B页面,统计出搜索A页面且相继搜索B页面的用户总数,用用户总数除以设定基数,将得到的值作为A页面相对于B页面的关联度;除以设定基数,是为了使得到的关联度的取值范围在[0,1]内。

方式二:计算关键词集合中各关键词的关联度,将各关键词的关联度与搜索热度进行相乘,按照相乘结果进行排序,所述相乘结果为所述相关度。

关键词集合中的关键词可能各不相同,也可能部分相同。若各不相同,本步骤分别计算出各关键词的相关度,对各关键词按相关度进行排序。.

若存在相同的关键词,需要对相同的关键词计算得到一个相关度,将计算得到的相关度作为该关键词进行排序的相关度。根据实际需要,可采用多种方式对相同的关键词计算得到一个相关度,例如,将相同关键词的关联度进行直接相加或加权相加,将相加结果作为该关键词最终的关联度。确定关键词集合中各关键词的关联度时,将从页面内容数据中提取的关键词的关联度确定为1;所述加权相加包括:将相同关键词中最高数值的关联度作为加数,将其它关联度分别乘以0.5,将得到的相乘结果作为被加数,用所述加数与所述被加数进行相加,得到的结果为所述相加结果。

步骤204,在排序中从相关度最高的关键词开始,提取出设定个数的关键词。

所述设定个数例如为3,本步骤将从排序中提取出相关度最高的3个关键词。

步骤205,在页面展示页面内容数据、页面推荐数据和提取的关键词。

之后,便可点击页面展示的关键词,进行数据搜索,包括:接收来自用户终端的搜索指令,所述搜索指令包含从页面选择的关键词;由搜索指令包含的关键词搜索出数据,返回给用户终端。

下面举一实例对图2的流程进行说明,由用户输入的原始关键词获取页面内容数据和页面推荐数据,这里将页面内容数据用P1表示,页面推荐数据为三部分,分别用P2、P3、P4表示,Wn表示从页面提取出的关键词,n为自然数。而后,从页面内容数据和页面推荐数据中提取关键词,包括:

P1->[W1:1,w2:1]

P2->[W1:0.9,w3:0.9]

P3->[W4:0.7,w5:0.7]

P4->[W6:0.5,w3:0.5]

各关键词后面还附上了各关键词的关联度,其中,将从页面内容数据中提取的关键词的关联度确定为1;组成的关键词集合为[W1,W2,W1,W3,W4,W5,W6,W3]。关键词集合中,W1和W3出现了两次,进行加权相加,即:将相同关键词中最高数值的关联度作为加数,将其它关联度分别乘以0.5,将得到的相乘结果作为被加数,用所述加数与所述被加数进行相加,得到的结果为所述相加结果;W1的关联度为:1+(0.9*0.5)=1.45,W3的相关度为:0.9+(0.5*0.5)=1.15,最终得到的关联度为:

[W1:1.45,W2:1,W3:1.15,W4:0.7,W5:0.7,W6:0.5]

进一步地,可进行归一化,得到:

[W1:1,W2:0.67,W3:0.79,W4:0.48,W5:0.48,W6:0.35]

然后,获取各关键词的搜索热度,与相应的关联度进行相乘,得到的相乘结果为该关键词的相关度,而后,按照得到的各关键词的相乘结果进行排序。现有方案在搜索日志中记录了统计得到的各关键词的搜索热度,搜索热度为关键词在用户搜索查询串中的热度,体现了用户点击关键词的概率;从搜索日志中便可获取某关键词的搜索热度。本实例中,各关键词的搜索热度为:

[W1:0.8,W2:0.2,W3:0.7,W4:0.4,W5:0.7,W6:0.9]

将关联度与搜索热度进行相乘,并按照相乘结果进行排序,得到:

[W1:0.8,W3:0.55,W5:0.34,W6:0.32,W4:0.19,W2:0.13]

假设设定个数为5,则在页面展示的关键词包括[W1,W3,W5,W6,W4]。

图3为采用本发明方案展示的页面实例,该实例为用户通过原始关键词“街拍”搜索到的页面,页面底部“网友还喜欢”的内容为页面推荐数据,为搜索“街拍”的其它用户相继搜索到的其它数据;除“网友还喜欢”部分的其它内容为页面内容数据,其中的关键词“欧美”、“美女”、“街拍”、“非主流”和“女生”,从页面内容数据和页面推荐数据中提取。

本发明由用户输入的原始关键词获取页面内容数据和页面推荐数据后,从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;对关键词集合中的关键词进行相关度排序,再从排序中提取出设定个数的关键词,展示在页面上。从而,实现了基于页面内容数据和页面推荐数据提供用以进行数据搜索的关键词,便于操作,提升了用户进行数据搜索的体验,也为用户提供了更多的选择。

参见图4,为本发明提供数据搜索的装置结构示意图,该装置包括关键词提取单元、排序单元和展示单元;

所述关键词提取单元,用于接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据;从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;

所述排序单元,用于对所述关键词集合中的关键词进行相关度排序;

所述展示单元,用于在所述排序中从相关度最高的关键词开始,提取出设定个数的关键词;在页面展示页面内容数据、页面推荐数据和提取的关键词。

可选地,所述排序单元包括第一排序子单元,用于计算关键词集合中各关键词的关联度,按照关联度对关键词进行排序,所述关联度为所述相关度。

可选地,所述排序单元包括第二排序子单元,用于计算关键词集合中各关键词的关联度,将各关键词的关联度与搜索热度进行相乘,按照相乘结果进行排序,所述相乘结果为所述相关度。

可选地,该装置还包括搜索单元,用于接收来自用户终端的搜索指令,所述搜索指令包含从页面选择的关键词;由搜索指令包含的关键词搜索出数据,返回给用户终端。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1