头部用户搜索词纠错方法、装置、设备及存储介质与流程

文档序号:37920209发布日期:2024-05-10 23:59阅读:7来源:国知局
头部用户搜索词纠错方法、装置、设备及存储介质与流程

本发明涉及大模型领域,特别公开了一种头部用户搜索词纠错方法、装置、设备及存储介质。


背景技术:

1、基于搜索引擎的中文关键字纠错系统是基于当前流行的搜索引擎所设计的一个用户帮助系统,它的主要功能是发现用户使用搜索引擎在输入关键字时可能发生的错误,并给向用户推荐可能正确的关键字。纠错系统使用分词与纠错并行处理的方法,可以纠正中文输入中可能出现的选字错误,注音错误和字形错误等常见错误。

2、传统的搜索词纠错方案一般是通过构建语料库来获得有效的平行语料进行纠错。但在一些垂直的搜索领域下,由于搜索词含有大量专有名词,传统的搜索词纠错方案直接进行应用可能存在难以直接获取平行语料对,搜索人名时出现拼音、字形都无法完全匹配的情况出现。为此目前也有了一些针对垂直搜索领域的搜索词纠错方案,但这些纠错方案需要依赖于历史数据来构建纠错词对,且在纠错出现错误时,仅能显示错误的纠错结果,无法满足用户的实际使用需求。


技术实现思路

1、本发明提供了一种头部用户搜索词纠错方法、装置、设备及存储介质,能至少部分的改善上述问题。

2、为实现上述目的,本发明采用以下技术方案:

3、一种头部用户搜索词纠错方法,其包括:

4、获取用户搜索词中,搜索词频大于m,且词频排序在n以上的头部用户搜索词;

5、对每个头部用户搜索词,计算其与其他头部用户搜索词的文字编辑距离以及拼音编辑距离;

6、根据所述文字编辑距离、拼音编辑距离以及预设的阈值,判断任意两个头部用户搜索词是否相关,并对相关的头部用户搜索词进行聚类;

7、根据n个头部用户搜索词进行用户搜索,并记录搜索的头部用户的用户信息;

8、根据所述用户信息,向每个聚类设置一个主用户,得到最终聚类结果,即纠错词对;

9、将所述纠错词对应用到用户环境中,根据纠错词对每天被点击的情况,调节所述阈值及搜词词频,并上传到用户环境的纠错词对,以进行头部用户的搜索词纠错。

10、优选地,所述m为5,n为1000;若头部用户搜索词的字数为3个字及以下,则阈值为0.43,若头部用户搜索词的字数为3个字以上,则阈值为0.7。

11、优选地,所述用户信息包括粉丝量、粉丝增量、近7日点击率。

12、优选地,还包括:

13、收集相关的纠错数据,并使用cnn网络作为主干网络训练一个自动打标纠错词对的模型;其中,训练输入的纠错数据包括原搜索词和纠错词的中文编辑距离,搜索词是否为头部用户包含的词,搜索词频,头部用户的粉丝量,纠错词词频,输出为是否纠错的标记。

14、优选地,还包括:

15、在每天的设定时间读取上一天的用户搜索词和对应的点击词,生成新的纠错词对,并更新到用户环境中。

16、优选地,还包括:

17、读取设定的历史时间范围内的包含用户搜索词和对应的纠错词的纠错词对;

18、如果某个用户搜索词在所述历史时间范围只被搜索,而对应的纠错词未被点击,则认为该纠错词对为错误的纠错词对,在用户环境中删去所述纠错词对。

19、优选地,还包括:

20、在接收到用户搜索词时,判断所述用户搜索词是否被纠错;

21、若所述用户搜索词未被纠错,则显示与所述用户搜索词对应的搜索结果;

22、若所述用户搜索词被纠错,则获取其对应的纠错词的搜索结果以及所述用户搜索词的搜索结果,并同时显示若干条纠错词的搜索结果以及所述用户搜索词的搜索结果;其中,若干条纠错词的搜索结果显示在所述用户搜索词的搜索结果之前。

23、本发明实施例还提供了一种头部用户搜索词纠错装置,其包括:

24、头部用户搜索词获取单元,用于获取用户搜索词中,搜索词频大于m,且词频排序在n以上的头部用户搜索词;

25、距离计算单元,用于对每个头部用户搜索词,计算其与其他头部用户搜索词的文字编辑距离以及拼音编辑距离;

26、聚类单元,用于根据所述文字编辑距离、拼音编辑距离以及预设的阈值,判断任意两个头部用户搜索词是否相关,并对相关的头部用户搜索词进行聚类;

27、记录单元,用于根据n个头部用户搜索词进行用户搜索,并记录搜索的头部用户的用户信息;

28、聚类设置单元,用于根据所述用户信息,向每个聚类设置一个主用户,得到最终聚类结果,即纠错词对;

29、调节单元,用于将所述纠错词对应用到用户环境中,根据纠错词对每天被点击的情况,调节所述阈值及搜词词频,并上传到用户环境的纠错词对,以进行头部用户的搜索词纠错。

30、本发明实施例还提供了一种头部用户搜索词纠错设备,其包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的头部用户搜索词纠错方法。

31、本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上述的头部用户搜索词纠错方法。

32、与现有技术相比,本实施例至少具有如下优点:

33、1、不需要历史数据,只要每天收集用户的搜索点击数据,通过训练机器学习模型,能够全自动执行数据打标的工作;

34、2、自动删除错误的纠错词对,纠错的结果至多只展示两个,极大程度减少纠错失败对用户的影响;

35、3、纠错速度极快,在10ms内,包含接口响应,不会影响原先的搜索效率。



技术特征:

1.一种头部用户搜索词纠错方法,其特征在于,包括:

2.根据权利要求1所述的头部用户搜索词纠错方法,其特征在于,所述m为5,n为1000;若头部用户搜索词的字数为3个字及以下,则阈值为0.43,若头部用户搜索词的字数为3个字以上,则阈值为0.7。

3.根据权利要求1所述的头部用户搜索词纠错方法,其特征在于,所述用户信息包括粉丝量、粉丝增量、近7日点击率。

4.根据权利要求1所述的头部用户搜索词纠错方法,其特征在于,还包括:

5.根据权利要求1所述的头部用户搜索词纠错方法,其特征在于,还包括:

6.根据权利要求1所述的头部用户搜索词纠错方法,其特征在于,还包括:

7.根据权利要求1所述的头部用户搜索词纠错方法,其特征在于,还包括:

8.一种头部用户搜索词纠错装置,其特征在于,包括:

9.一种头部用户搜索词纠错设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至7任意一项所述的头部用户搜索词纠错方法。

10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至7任意一项所述的头部用户搜索词纠错方法。


技术总结
本发明公开了一种头部用户搜索词纠错方法、装置、设备及存储介质,方法包括:获取用户搜索词中,搜索词频大于M,且词频排序在N以上的头部用户搜索词;对头部用户搜索词,计算其与其他头部用户搜索词的文字编辑距离及拼音编辑距离;根据文字编辑距离、拼音编辑距离及阈值,判断任意两个头部用户搜索词是否相关,并对相关的头部用户搜索词进行聚类;根据N个头部用户搜索词进行用户搜索,并记录搜索的头部用户的用户信息;根据用户信息,向每个聚类设置一个主用户,得到最终聚类结果,即纠错词对;将纠错词对应用到用户环境中,根据纠错词对每天被点击的情况,调节所述阈值及搜词词频,并上传到用户环境的纠错词对,以进行头部用户的搜索词纠错。

技术研发人员:陈鑫,邢东进,杨洪进
受保护的技术使用者:厦门蝉羽网络科技有限公司
技术研发日:
技术公布日:2024/5/9
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1