行业词典的建立方法和装置及行业识别方法和装置的制造方法

文档序号:8943042阅读:178来源:国知局
行业词典的建立方法和装置及行业识别方法和装置的制造方法
【技术领域】
[0001]本发明实施例涉及信息识别技术领域,尤其涉及一种行业词典的建立方法和装置及行业识别方法和装置。
【背景技术】
[0002]现有对于搜索行为的行业识别主要基于人工生成的词表,只有当搜索词命中词表时,才能进行行业的识别。
[0003]存在的缺陷在于:人工生成的词表对于搜索词的覆盖率低;对于某些对应多个行业的特殊的搜索词,利用人工生成的词表,每一个搜索词只对应一个行业,导致行业识别准确率较低。

【发明内容】

[0004]本发明实施例提供一种行业词典的建立方法和装置,以实现行业词典的自动化建立。
[0005]本发明实施例还提供一种行业识别方法和装置,以提高对查询串的覆盖率,并提高查询串的行业识别的准确率。
[0006]第一方面,本发明实施例提供了一种行业词典的建立方法,包括:
[0007]获取用户搜索行为日志;
[0008]从所述用户搜索行为日志中提取各搜索词,以及对应的被点击的搜索结果;
[0009]根据所述被点击的搜索结果确定搜索词所属行业,将所述搜索词作为精确索引词,建立并保存所述精确索引词和对应的行业的词条对,形成精确词典。
[0010]第二方面,本发明实施例提供了一种行业词典的建立装置,包括:
[0011]日志获取模块,用于获取用户搜索行为日志;
[0012]提取模块,用于从所述用户搜索行为日志中提取各搜索词,以及对应的被点击的搜索结果;
[0013]精确词典形成模块,用于根据所述被点击的搜索结果确定搜索词所属行业,将所述搜索词作为精确索引词,建立并保存所述精确索引词和对应的行业的词条对,形成精确词典。
[0014]第三方面,本发明实施例提供了一种行业识别方法,基于本发明任意实施例提供的行业词典的建立方法所建立的词典实现,包括:
[0015]获取用户输入的查询串;
[0016]在预先建立的精确词典中精确匹配所述查询串,将匹配成功的精确索引词所对应的行业作为所述查询串对应的行业,并返回所述查询串对应的行业。
[0017]第四方面,本发明实施例提供了一种行业识别装置,基于本发明任意实施例提供的行业词典的建立装置所建立的词典实现,包括:
[0018]查询串获取模块,用于获取用户输入的查询串;
[0019]行业识别模块,用于在预先建立的精确词典中精确匹配所述查询串,将匹配成功的精确索引词所对应的行业作为所述查询串对应的行业,并返回所述查询串对应的行业。
[0020]本发明实施例提供的行业词典的建立方法和装置,基于用户搜索行为日志的分析,可以自动地建立精确词典,随着用户搜索行为日志的更新,可以不断更新精确词典中的词条对,提高了精确词典对搜索词的覆盖率;由于被点击的搜索结果通常反映的是用户的搜索需求,因此根据被点击的搜索结果确定搜索词所属行业,得到的词条对的准确率高;同时,对于精确词典中的每个精确索引词,由于对精确索引词的对应的所有被点击的搜索结果均进行了分析,避免了某些精确索引词与行业的一对多对应关系的遗漏,提高了精确词典的词条对的准确率。
[0021]本发明实施例提供的行业识别方法和装置,由于精确词典是基于用户搜索行为日志的分析自动地建立的,随着用户搜索行为日志的更新,可以不断更新精确词典中的词条对,提高了精确词典对查询串的覆盖率;利用精确词典,可以实现对查询串的行业识别,尤其是对搜索频率较高的查询串的行业识别,既可以是一对一关系的精确识别,也可以是一对多关系的精确识别,提尚了对查询串的彳丁业识别的准确率。
【附图说明】
[0022]为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1a为本发明实施例一提供的一种行业词典的建立方法的流程示意图;
[0024]图1b为本发明实施例一提供的行业词典的建立方法中一种根据被点击的搜索结果形成精确词典的方法流程示意图;
[0025]图2为本发明实施例四提供的一种行业词典的建立装置的结构示意图;
[0026]图3为本发明实施例五提供的一种行业识别方法的流程示意图;
[0027]图4为本发明实施例六提供的一种行业识别装置的结构示意图。
【具体实施方式】
[0028]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0029]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0030]还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的各幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
[0031]实施例一
[0032]请参阅图la,为本发明实施例一提供的一种行业词典的建立方法的流程示意图。本发明实施例的方法可以由配置以硬件和/或软件实现的行业词典的建立装置来执行,该实现装置典型的是配置于能够提供信息搜索服务的服务器中。
[0033]该方法包括:操作110?操作130。
[0034]110、获取用户搜索行为日志。
[0035]用户通过各种搜索引擎进行搜索是一种常见的获取信息的方式。用户的每一次搜索操作,搜索引擎都会形成相应的用户搜索行为日志,不仅包括用户输入的搜索词,还包括相应的搜索结果,以及用户对某些具体的搜索结果的点击等信息。
[0036]本操作中对用户搜索行为日志的来源不进行限制,既可以是移动终端的用户搜索行为日志,也可以是PC端的用户搜索行为日志。进一步地,对于移动终端和/或PC端而言,既可以是某一垂直频道分类搜索(例如,百度搜索引擎中“网页”这一垂直分类搜索)对应的用户搜索行为日志,还可以是多个垂直频道分类搜索(例如,百度搜索引擎中“网页”和“地图”两个垂直分类搜索)对应的用户搜索行为日志,还可以扩大到全平台的用户搜索行为日志。
[0037]本操作中,通常是获取设定时间内(例如3个月)的用户搜索行为日志。
[0038]120、从所述用户搜索行为日志中提取各搜索词,以及对应的被点击的搜索结果。
[0039]130、根据所述被点击的搜索结果确定搜索词所属行业,将所述搜索词作为精确索引词,建立并保存所述精确索引词和对应的行业的词条对,形成精确词典。
[0040]在对于同一搜索词的多次搜索过程中,由于不同用户的搜索需求不同,导致有的搜索结果的被点击,有的搜索结果不被点击,由于被点击的搜索结果通常反映的是用户的搜索需求,因此根据被点击的搜索结果确定搜索词所属行业,基于此,得到的词条对的准确率高。
[0041]对于有些搜索词,根据被点击的搜索结果只能确定这些搜索词只对应一个行业;而对于另外一些搜索词,根据被点击的搜索结果可以确定这些搜索词同时对应多个行业,因此,精确词典中的词条对有两种形式,一种是一对一的词条对,一种是一对多的词条对。
[0042]例如,假设搜索词为“肯德基”,被点击的搜索结果有:包含有肯德基门店信息的搜索结果,包含有肯德基网上订餐的搜索结果,以及包含有肯德基团购信息的搜索结果,根据这些被点击的搜索结果,可
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1