进行数据搜索的方法及搜索服务器的制造方法

文档序号:6508678阅读:237来源:国知局
进行数据搜索的方法及搜索服务器的制造方法
【专利摘要】本发明公开了进行数据搜索的方法及搜索服务器,其中,该方法包括:从搜索日志中提取出设定时间段内的搜索记录;从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv;由查询词的特征参数确定查询词是否为异常查询词;对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。本发明方案能够提高数据搜索时显示提示词的准确性。
【专利说明】进行数据搜索的方法及搜索服务器

【技术领域】
[0001] 本发明涉及数据处理技术,尤其涉及进行数据搜索的方法及搜索服务器。

【背景技术】
[0002] 现有技术中,进行数据搜索时,用户在搜索网页的查询栏中输入查询词,向搜索服 务器发送包含查询词的查询请求,接收搜索服务器反馈关于查询词的搜索条目;之后,用户 可点击搜索条目,以切换到该搜索条目对应的网页查询详细内容。
[0003] 在用户输入查询词的过程中,搜索服务器会根据用户输入的过程信息反馈联想 词,以显示在网页的智能提示栏中;用户可直接点击联想词,以作为查询词,发送给搜索服 务器。并且,在显示搜索条目时,网页在相关搜索栏还会显示与查询词关联的相关搜索词, 一般地,相关搜索栏置于网页下端。
[0004] 举例进行说明,想要输入的查询词为ABC,当输入到AB时,即过程信息为AB,联想 词里包括ABC、阿波罗、ABB等,这时可以直接选中ABC;进行查询之后,相关搜索栏中显示的 相关搜索词包括智能ABC输入法、ABC儿歌等。
[0005] 用户的搜索行为记录在搜索日志中,搜索服务器对搜索日志进行分析,来确定各 查询词的联想词和相关搜索词。分析方法有多种,举例说明:对于查询词ABC,如果搜索日 志中记录的以"ABC公司最好"为查询词进行查询的次数大于设定阈值,则将"ABC公司最 好"作为ABC的联想词和相关搜索词,分别放入联想词库和相关搜索词库中。这里,将联想 词和相关搜索词统称为提示词。
[0006] 在实际运用中,存在采用机器操作频繁输入查询词,以增加某查询词的搜索次数, 进而将其设置到联想词库和相关搜索词库中,以提高该查询词为用户点击的几率。这导致 搜索时显示提示词的准确性较低。
[0007] 目前,机器操作一般具有搜索频率较高的特点,例如为1分钟10次查询,因而,为 了避免机器操作,常采用如下的解决方式:对用户关于某查询词的搜索频率进行判断,如果 大于设定阈值,例如大于1分钟5次,则判断为机器操作,对其进行标记,不将其作为提示 词。但该方式存在以下缺陷:如果机器操作时将搜索频率降低,例如为1分钟1次,则无法 对其进行避免,仍为将其确定为提示词,导致搜索时显示提示词的准确性很低。


【发明内容】

[0008] 本发明提供了一种进行数据搜索的方法,该方法能够提高数据搜索时显示提示词 的准确性。
[0009] 本发明提供了一种进行数据搜索的搜索服务器,该搜索服务器提高数据搜索时显 示提示词的准确性。
[0010] 一种进行数据搜索的方法,该方法包括:
[0011] 从搜索日志中提取出设定时间段内的搜索记录;
[0012] 从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的 总次数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv ;
[0013] 由查询词的特征参数确定查询词是否为异常查询词;
[0014] 对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
[0015] 一种进行数据搜索的搜索服务器,该搜索服务器包括搜索记录提取单元、特征参 数统计单元、异常查询词确定单元和标记单元;
[0016] 所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给 所述特征参数统计单元;
[0017] 所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所 述异常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查 询前驱行为为空的查询次数NoReferQv ;
[0018] 所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词;
[0019] 所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
[0020] 从上述方案可以看出,本发明中,从搜索日志中提取出设定时间段内的搜索记 录;对提取出的搜索记录进行分析,从搜索记录中统计出对应查询词的特征参数,所述 特征参数包括查询词被查询的总次数Q v,查询词对应的查询前驱行为为空的查询次数 NoReferQv ;根据Qv、NoReferQv进行判断,确定出异常查询词;对异常查询词进行标记,以 使联想词库和相关搜索词库中的异常查询词不用于后续的搜索处理。本发明基于查询词被 查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv,进行异常查询 词的判断,而不采用基于搜索频率来确定异常查询词,这样,对于机器操作搜索频率较低的 情况,可避免将其确定为提示词,从而,提高了数据搜索时显示提示词的准确性。

【专利附图】

【附图说明】
[0021] 图1为本发明进行数据搜索的方法示意性流程图;
[0022] 图2为本发明进行数据搜索的方法流程图实例;
[0023] 图3为本发明进行数据搜索的系统结构示意图。

【具体实施方式】
[0024] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本 发明进一步详细说明。
[0025] 本发明基于查询词的多个特征参数确定其是否为异常查询词,而不再仅基于搜索 频率来确定异常查询词;这样,对于机器操作搜索频率较低的情况,可避免将其确定为提示 词,提高了数据搜索时显示提示词的准确性。
[0026] 参见图1,为本发明进行数据搜索的方法示意性流程图,其包括以下步骤:
[0027] 步骤101,从搜索日志中提取出设定时间段内的搜索记录。
[0028] 用户的搜索行为记录在搜索日志中,包括对每次搜索的搜索时间、查询词、每 次搜索后对搜索条目进行点击的次数,搜索行为输入的统一资源定位符(URL,Uniform Resource Locator)地址等等。
[0029] 根据需要,可以从搜索日志中提取出设定时间段的搜索记录,设定时间段例如为2 天。
[0030] 步骤102,从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词 被查询的总次数Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv。
[0031] 用于确定异常查询词的特征参数可根据需要设置,例如包括本步骤上述的两项, 下面进行说明,设定时间段内记载的搜索记录中包含关于多个查询词的搜索行为,针对每 个查询词分别统计出其特征参数。
[0032] 针对某一查询词,Qv为设定时间段内该查询词被搜索的总次数,对设定时间段内 关于该查询词的搜索行为进行累加,得到的结果便为总次数。
[0033] 搜索记录中还包含各次搜索行为输入的URL地址,正常地,针对某次搜索行为,用 户先输入前驱行为URL地址,然后再输入关于查询词的URL地址;一般地,前驱行为URL地 址为搜索网站主页。举例说明,前驱行为URL地址为www. bdui. com,用户输入查询词"专 利",相应地,后续记录的URL地址为"http://www. bdui. com/s ? wd=专利&rsv......";正 常地,搜索行为中记录有前驱行为URL地址;如果为机器操作,则直接多次输入后续URL地 址,而没有前驱行为URL地址,这里统计出某查询词没有前驱行为URL地址的次数,作为前 驱行为为空的查询次数NoreferQv。对应地,搜索记录中包含前驱行为URL地址的搜索行便 为前驱行为非空的搜索,统计出某查询词有前驱行为URL地址的次数,作为前驱行为非空 的查询次数referQv。
[0034] 通过搜索记录,还可获知用户搜索各次查询词之后是否对搜索条目进行了点击, 例如搜索关于查询词"专利"的搜索条目后,是否点击了搜索条目;对有点击的搜索行为数 目进行统计,得到的结果作为有点击行为的查询次数CQv。进一步地,还可以统计针对搜索 条目的点击次数,针对某查询词,将针对该查询词搜索条目进行点击的次数进行统计,得到 的结果作为对搜索条目的点击次数Clicks。
[0035] 所述特征参数还可以包括CQv、NoEentryQv、SentryQv和URLQv中的至少一种,关 于NoEentryQv、SentryQv和URLQv,后续将分别进行说明。
[0036] 步骤103,由查询词的特征参数确定查询词是否为异常查询词。
[0037] 基于特征参数包含的不同内容,确定查询词是否为异常查询词具体方式也相应不 同。下面进行具体说明。
[0038] 特征参数包含Qv和NoReferQv时,本步骤可具体包括:判断NoReferQv/Qv是否大 于第一设定阈值,如果是,则将查询词确定为异常查询词。
[0039] 若所述特征参数还包括对查询词对应的查询结果有点击行为的查询次数CQv,所 述判断NoReferQv/Qv不大于第一设定阈值之后,该方法还包括:
[0040] 判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查 询词确定为异常查询词。
[0041] 如果判断出不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值时,可以将 查询词确定为非异常查询词。
[0042] 进一步地,所述判断NoReferQv/Qv是否大于第一设定阈值之前,该方法还包括:
[0043] 判断Qv是否大于第四设定阈值,如果是,则执行所述判断NoReferQv/Qv是否大于 第一设定阈值的步骤,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询 〇
[0044] 步骤104,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
[0045] 具体标记时,可以对联想词库和相关搜索词库中的异常查询词进行标记;或者,生 成异常词列表,将确定出的异常查询词添加到异常词列表中。
[0046] 后续进行数据搜索,向用户反馈提示词时,可以结合标记,不向用户反馈异常查询 词;具体地:
[0047] 接收包含过程信息的查询过程输入信息;
[0048] 从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想 词,将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示;
[0049] 接收包含查询词的查询请求;
[0050] 从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜 索栏中进行显示。
[0051] 本发明中,从搜索日志中提取出设定时间段内的搜索记录;对提取出的搜索记录 进行分析,从搜索记录中统计出对应查询词的多个特征参数,包括:Qv、NoReferQv ;根据 Qv、NoReferQv进行判断,确定出异常查询词;对异常查询词进行标记,以使联想词库和相 关搜索词库中的异常查询词不用于后续的搜索处理。本发明基于查询词被查询的总次数 Qv,查询词对应的查询前驱行为为空的查询次数NoReferQv,进行异常查询词的判断,而不 采用基于搜索频率来确定异常查询词,这样,对于机器操作搜索频率较低的情况,可避免将 其确定为提示词,从而,提高了数据搜索时显示提示词的准确性。
[0052] 除了上述提到的根据Qv、NoReferQv和CQv进行判断,以确定出异常查询词。为了 提高向用户显示提示词的准确性,还可以结合更多的特征参数或结合进一步的判断步骤确 定异常查询词,下面进行举例说明:
[0053] 实例一:
[0054] 特征参数还包含查询词对应的搜索行为没有标明来源渠道的查询次数 NoEentryQv,以及查询词对应的搜索行为来源渠道为特定渠道的查询次数SentryQv。
[0055] -般地,针对某查询词,其搜索记录中包含有搜索行为的来源,该来源具体如URL 地址来源;对于机器操作,某些情况没有来源渠道,这里,对没有来源渠道的搜索行为次数 进行统计,得到的总值表示为NoEentryQv。
[0056] 通过记录的URL地址,可以获知来源渠道;确定SentryQv的方法包括:对于某查 询词,对设定时间段内的搜索行为来源渠道进行统计,统计出关于各来源渠道的搜索次数, 如果某来源渠道的搜索次数所占比例存在异常,则将该来源渠道确定为特定渠道,将关于 该特定渠道的搜索行为进行统计,将得到的总次数作为SentryQv。举例说明,针对查询词 "刘德华",从三个来源渠道进行搜索,搜索行为总次数为1000次,三个入口分别为ha 〇123 网页、新浪网页和百度网页,搜索次数分别为200、300和500次,这属于正常行为;如果搜索 行为总次数为1000次,从ha 〇123网页、新浪网页和百度网页口三个入访问的搜索次数分别 为20、40、940次,则确定从百度网页进行访问的搜索行为为特定渠道来源的行为,这种情 况多为机器操作,则SentryQv为940。
[0057] 相应地,步骤103所述判断不满足CQv/Qv小于第二设定阈值且Qv大于第三设定 阈值之后,该方法还包括:
[0058] 判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询 词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询 T^lJ 〇
[0059] 实例二:
[0060] 特征参数包含URL信息错误次数URLQv,所述URLQv表示查询词对应的URL信息中 含有的标签与实际情况不相符合的次数。
[0061] 搜索记录中还包含各次搜索行为输入的URL地址,正常地,针对某次搜索行为,用 户先输入前驱行为URL地址,然后再输入关于查询词的URL地址,前驱行为URL地址为搜索 网站主页;一般地,各次输入的URL地址是一致的;如果不一致,则多为机器操作,统计出这 种搜索行为的次数,作为URLQv。
[0062] 例如,前驱行为URL地址为www. bdui. com,用户输入查询词"专利",后续记录的 URL 地址为 "http://www. bdui. com/s ? wd=专利 &rsv......",该地址中包含 "www. bdui. com",与前面的地址信息一致,确定两者一致;如果后续记录的地址为"http://www. bbb. com/s ? wd=专利......",与"www. bdui. com"不一致,则确定为机器操作,与实际情况不 相符合。
[0063] 相应地,所述判断NoEentryQv/Qv不大于第六设定阈值之后,该方法还包括:
[0064] 判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
[0065] 下面通过图2的流程,对本发明进行数据搜索的方法举例说明,其包括以下步骤:
[0066] 步骤201,从搜索日志中提取出设定时间段内的搜索记录。
[0067] 步骤202,从搜索记录中统计出对应查询词的特征参数。
[0068] 本实例中,特征参数包括表1所示的统计项,其中Uv为针对某查询词,进行搜索行 为的用户数目总和。
[0069]

【权利要求】
1. 一种进行数据搜索的方法,其特征在于,该方法包括: 从搜索日志中提取出设定时间段内的搜索记录; 从搜索记录中统计出对应查询词的特征参数,所述特征参数包括查询词被查询的总次 数Qv和查询词对应的查询前驱行为为空的查询次数NoReferQv ; 由查询词的特征参数确定查询词是否为异常查询词; 对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
2. 如权利要求1所述的方法,其特征在于,所述特征参数还包括CQv、NoEentryQv、 SentryQv和URLQv中的至少一种。
3. 如权利要求1所述的方法,其特征在于,所述由查询词的特征参数确定查询词是否 为异常查询词,包括:判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定 为异常查询词。
4. 如权利要求3所述的方法,其特征在于,所述特征参数还包括对查询词对应的查询 结果有点击行为的查询次数CQv,判断NoReferQv/Qv不大于第一设定阈值之后,该方法还 包括: 判断是否满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈值,如果是,则将查询词 确定为异常查询词。
5. 如权利要求4所述的方法,其特征在于,所述判断NoReferQv/Qv是否大于第一设定 阈值之前,该方法还包括: 判断Qv是否大于第四设定阈值,如果是,则执行所述判断NoReferQv/Qv是否大于第一 设定阈值的步骤,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词。
6. 如权利要求4或5所述的方法,其特征在于,所述特征参数还包含查询词对应的搜索 行为没有标明来源渠道的查询次数NoEentryQv,以及查询词对应的搜索行为来源渠道为特 定渠道的查询次数SentryQv ;判断不满足CQv/Qv小于第二设定阈值且Qv大于第三设定阈 值之后,该方法还包括: 判断SentryQv/Qv是否大于第五设定阈值,如果是,则将查询词确定为异常查询词;否 则判断NoEentryQv/Qv是否大于第六设定阈值,如果是,则将查询词确定为异常查询词。
7. 如权利要求6所述的方法,其特征在于,所述特征参数还包含统一资源定位符URL信 息错误次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符 合的次数;所述判断NoEentryQv/Qv不大于第六设定阈值之后,该方法还包括: 判断URLQv/Qv是否大于第七设定阈值,如果是,则将查询词确定为异常查询词。
8. 如权利要求1所述的方法,其特征在于,该方法还包括: 接收包含过程信息的查询过程输入信息; 从联想词库中获取与过程信息关联的联想词,去除其中标记为异常查询词的联想词, 将剩余的联想词反馈给搜索客户端在智能提示栏中进行显示; 接收包含查询词的查询请求; 从相关搜索词库中获取与查询词关联的相关搜索词,反馈给搜索客户端在相关搜索栏 中进行显示。
9. 一种进行数据搜索的搜索服务器,其特征在于,该搜索服务器包括搜索记录提取单 元、特征参数统计单元、异常查询词确定单元和标记单元; 所述搜索记录提取单元,从搜索日志中提取出设定时间段内的搜索记录,发送给所述 特征参数统计单元; 所述特征参数统计单元,从搜索记录中统计出对应查询词的特征参数,发送给所述异 常查询词确定单元,所述特征参数包括查询词被查询的总次数Qv和查询词对应的查询前 驱行为为空的查询次数NoReferQv ; 所述异常查询词确定单元,由查询词的特征参数确定查询词是否为异常查询词; 所述标记单元,对异常查询词进行标记,以使异常查询词不用于后续的搜索处理。
10. 如权利要求9所述的搜索服务器,其特征在于,所述特征参数还包括CQv、 NoEentryQv、SentryQv 和 URLQv 中的至少一种。
11. 如权利要求9所述的搜索服务器,其特征在于,所述异常查询词确定单元包括第一 判断子单元,判断NoReferQv/Qv是否大于第一设定阈值,如果是,则将查询词确定为异常 查询词。
12. 如权利要求11所述的搜索服务器,其特征在于,所述特征参数还包括对查询词对 应的查询结果有点击行为的查询次数CQv,所述异常查询词确定单元还包括第二判断子单 元,判断NoReferQv/Qv不大于第一设定阈值之后,向所述第二判断子单元发送启动指令; 所述第二判断子单元,接收启动指令,判断是否满足CQv/Qv小于第二设定阈值且Qv大 于第三设定阈值,如果是,则将查询词确定为异常查询词。
13. 如权利要求12所述的搜索服务器,其特征在于,所述异常查询词确定单元还包括 第三判断子单元,判断Qv是否大于第四设定阈值,如果是,则向所述第一判断子单元发送 启动指令,第四设定阈值小于第三设置阈值;否则,将查询词确定为非异常查询词; 所述第一判断子单元在接收启动指令后才对查询词的特征参数进行判断。
14. 如权利要求12或13所述的搜索服务器,其特征在于,所述特征参数还包含查询词 对应的搜索行为没有标明来源渠道的查询次数SentryQv,以及查询词对应的搜索行为来源 渠道为特定渠道的查询次数NoEentryQv;所述异常查询词确定单元还包括第四判断子单 元; 所述第二判断子单元,判断查询词的特征参数不满足CQv/Qv小于第二设定阈值且Qv 大于第三设定阈值时,向所述第四判断子单元发送启动指令; 所述第四判断子单元,接收启动指令,判断SentryQv/Qv是否大于第五设定阈值,如果 是,则将查询词确定为异常查询词;否则判断NoEentryQv/Qv是否大于第六设定阈值,如果 是,则将查询词确定为异常查询词。
15. 如权利要求14所述的搜索服务器,其特征在于,所述特征参数还包含URL信息错误 次数URLQv,所述URLQv表示查询词对应的URL信息中含有的标签与实际情况不相符合的次 数;所述异常查询词确定单元还包括第五判断子单元; 所述第四判断子单元判断出NoEentryQv/Qv不大于第六设定阈值时,向所述第五判断 子单元发送启动指令; 所述第五判断子单元,接收启动指令,判断URLQv/Qv是否大于第七设定阈值,如果是, 则将查询词确定为异常查询词。
16. 如权利要求9所述的搜索服务器,其特征在于,该搜索服务器还包括搜索反馈单 元,接收包含过程信息的查询过程输入信息;从联想词库中获取与过程信息关联的联想词, 去除其中标记为异常查询词的联想词,将剩余的联想词反馈给搜索客户端在智能提示栏中 进行显示;接收包含查询词的查询请求,从相关搜索词库中获取与查询词关联的相关搜索 词,反馈给搜索客户端在相关搜索栏中进行显示。
【文档编号】G06F17/30GK104424215SQ201310370878
【公开日】2015年3月18日 申请日期:2013年8月23日 优先权日:2013年8月23日
【发明者】王顼, 唐文宁, 禹荣凌, 岑植旺 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1