确定词信息熵及利用词信息熵的搜索方法及其设备的制作方法

文档序号:6598947阅读:256来源:国知局
专利名称:确定词信息熵及利用词信息熵的搜索方法及其设备的制作方法
技术领域
本申请涉及计算机网络领域,尤其涉及一种确定词信息熵的方法及设备,以及利用确定的词信息熵进行搜索的方法及设备。
背景技术
搜索请求(Query)是搜索引擎场景下特有的短文本,用户通过搜索请求描述想要检索的信息,搜索引擎通过搜索请求中描述的信息检索数据库,返回用户想要的结果。用户发起的一次搜索请求平均由2. 4个词语组成(例如真丝连衣裙、直板手机),一般情况下用户使用自然文本作为搜索请求,而不是使用与、或、非之类的语句,因此搜索引擎根据接收到的搜索请求进行检索时,需要根据搜索请求中的信息量确定用户的意图进行搜索,并将搜索的结果返回给用户。词语信息量的度量即为词信息熵,一条信息的信息量大小与该信息的信息量是否准确有直接的关系。例如如果要搞清楚一件不确定的事,或是对相关信息一无所知的事, 就需要了解大量的信息;相反,如果已经对某件事已经有了较多的了解,则不需要太多的信息就能搞清楚。从这个角度出发,可以认为信息量的度量就等于不确定性的多少。因此,利用词信息熵的概念来确定搜索请求中的信息量,进而根据搜索请求中的信息量确定用户的真实意图并进行搜索。目前计算词信息熵的方式是利用公式TF/IDF实现的,其中,TF表示一个词语在文档集合中出现的总次数,IDF表示文档集合中出现该词语的文档的个数。针对某一个词语计算出的TF/IDF值越大,表示该词语越重要,反之,则表示该词语越不重要。上述通过TF/IDF公式计算词信息熵的方式适用于大文本(如字数较多的文档), 对于搜索请求之类的短文本,由于一个搜索请求平均只包含2. 4个词语,而一个词语在一个搜索请求中很少会出现多次,因此,采用TF/IDF公式计算词信息熵时,无法区分搜索请求中各词语的重要度。例如如果一个搜索请求是“新款手机”,则采用TF/IDF公式计算词信息熵时,无法区分常用的修饰词“新款”和表达中心意图的词“手机”的重要度。为了实现针对短文本的词信息熵的计算,目前提出了一种基于语料的标题和描述统计词语重要度的方法。其原理是将文档(即大文本)的标题看作是一个搜索请求,利用标题中词语在描述中出现的频度信息为每个词语计算一个词信息熵。此算法避免了单纯在短文本中使用TF/IDF公式计算词信息熵的缺点,但该方法将文档的标题视为搜索请求,而标题中的词语不一定是文档中出现频次最高的词语,因此,可能会导致计算出的各词语的词信息熵与用户发起搜索请求的真实意图有偏差,使得搜索结果准确度较低。

发明内容
—方面,本申请提供一种确定词信息熵的方法及设备,用以解决现有技术中存在的对搜索请求中词语的词信息熵的确定存在偏差的问题。另一方面,本申请还提供一种搜索方法,用以解决在搜索请求没有完全匹配的搜索结果时,怎样提高搜索结果准确性的问题。一种确定词信息熵的方法,所述方法包括确定用户输入的各搜索请求所属的类目;根据所属的类目将所述搜索请求划分为多组;对每组内的搜索请求分词;统计分词后得到的各词语在每组内出现的概率;根据所述概率确定各词语的用于搜索的词信息熵值。一种确定词信息熵的设备,所述设备包括类目确定模块,用于确定用户输入的各搜索请求所属的类目;分组模块,用于根据所属的类目将所述搜索请求划分为多组;分词模块,用于对每组内的搜索请求分词;概率确定模块,用于统计分词后得到的各词语在每组内出现的概率;词信息熵值确定模块,用于根据所述概率确定各词语的用于搜索的词信息熵值。一种利用词信息熵的搜索方法,包括根据用户输入的一搜索请求,判断是否存在与所述一搜索请求匹配的搜索结果;若不存在与所述一搜索请求匹配的搜索结果,则根据保存的各词语及各词语对应的词信息熵值,在所述一搜索请求分词后得到的词语中选择词信息熵值小于设定阈值的至少一个词语进行搜索;其中,各词语及各词语对应的词信息熵值是通过以下方式确定的根据用户输入的各搜索请求所属的类目将所述搜索请求划分为多组,在对每组内的搜索请求分词后,根据统计分词后得到的各词语在每组内出现的概率确定各词语的词信
息熵值。一种利用词信息熵的搜索设备,包括词信息熵值确定模块,用于根据用户输入的各搜索请求所属的类目将所述搜索请求划分为多组,在对每组内的搜索请求分词后,根据统计分词后得到的各词语在每组内出现的概率确定各词语的词信息熵值;判断模块,用于判断是否存在与用户输入的一搜索请求匹配的搜索结果;词语选择模块,用于在不存在与所述一搜索请求匹配的搜索结果时,根据所述词信息熵值确定模块中的各词语及各词语对应的词信息熵值,在所述一搜索请求分词后得到的词语中选择词信息熵值小于设定阈值的至少一个词语;搜索模块,用于根据选择的词语进行搜索。本申请实施例具有如下有益效果由于本申请中将搜索请求按照所属的类目进行分组,形成一个类似于“大文本”的数据组,在此基础上计算词语的词信息熵值,可以准确地度量词语的重要程度,计算出的词信息熵值准确;进一步地,利用计算出的词信息熵值确定出搜索请求中重要的词语,以便于在搜索请求没有完全匹配的搜索结果时,将重要程度较高的词语的匹配结果优先展示给用户,提高搜索结果的准确性。


6
图1为本申请实施例一确定词信息熵的方法示意图;图2为本申请实施例二利用利用词信息熵的进行搜索的方法示意图;图3(a)和图3(b)为本申请实施例四确定词信息熵的设备结构示意图;图4为本申请实施例五利用词信息熵的搜索设备结构示意图。
具体实施例方式为了实现本申请实施例目的,提出了一种新的确定词信息熵的方案,通过将搜索请求按类目分组实现搜索请求的聚合,形成一个类似于“大文本”的数据组;将聚合在一起的搜索请求进行分词,根据分词后得到的各词语在不同搜索请求组内的出现概率计算词语的词信息熵,可以有效地度量词语的重要性,以便于在未搜索出与搜索请求直接匹配的搜索结果时,可以以搜索请求中词信息熵最小的词语为关键字进行搜索,使搜索结果在最大程度上符合用户的意图。下面结合说明书附图对本申请实施例进行详细说明。实施例一本申请实施例一提供了一种确定词信息熵的方法,其示意图如图1所示,包括以下步骤步骤101 接收用户输入的多个搜索请求,并确定各搜索请求所属的类目。在本实施例中,用户输入的搜索请求是平均只包含约2 3个词语的短文本。本实施例不限定确定搜索请求所属类目的方案,下面给出两种可用的方案第一种方案使用用户行为数据自动挖掘搜索请求所属类目。在网络日志(web log)中从搜索请求到类目的直接点击行为往往受页面布局干扰,且数据较稀疏。因此需要一个间接的方法获得搜索请求所属类目。本申请实施例可以将在搜索对话框内输入搜索请求搜索跳转后的页面所属的类目确定为搜索请求所属的类目。 具体地,通过跳转后的目标页面访问路径中的导入网址(reference url, refurl),确定所述搜索请求能够访问的已经确定所属类目的目标页面,由于每一目标页面都有一个类目, 则将所述搜索请求能够访问的目标页面所属的类目作为搜索请求所属的类目,从而将该搜索请求映射到确定的类目上。在第一种方案的情况下,由于根据网页中当前的实际导入网址确定搜索请求所属的类目,使得确定结果的真实性较高。第二种方案手动挖掘搜索请求所属的类目。通过预先设定的对应关系将搜索请求指向对应的类目,具体地,根据预设的类目和词语的对应关系,将搜索请求中的词语对应的类目作为搜索请求所属的类目。在第二种方案的情况下,可以根据对应关系直接、快速地确定搜索请求所属的类目,提高类目确定过程的效率。需要说明的是,一个搜索请求可以属于一个类目,也可以属于多个类目,具体的分属情况可以根据类目的划分方式不同而不同。例如如果在商品的类目包含“手机类目”和 “电池类目”,则内容是“手机电池”的一个搜索请求可以同时属于“手机类目,,和“电池类目,,;如果在商品的类目包含“手机类目,,但不包含“电池类目”,则内容是“手机电池”的一个搜索请求属于“手机类目”。步骤102 根据搜索请求所属的类目,将所述搜索请求划分为多组。
较优的划分原则可以是同一组内的搜索请求属于相同的类目。在本步骤中,将搜索请求按照所属的类目进行划分,划分后每组内包含的搜索请求可以看作是“大文本”,携带了多个搜索请求的信息量,后续可以在此基础上计算各词语的词信息熵。步骤103 将每组内的搜索请求分词,得到搜索请求分词后的词语。在本步骤中将搜索请求分词即为将搜索请求的内容按照词义进行划分。例如内容为“新款手机”的搜索请求分词后可以得到“新款”和“手机”两个词语。步骤104 统计分词后得到的各词语在每组出现的概率。在本步骤中,将所述同一词语在每个组出现的次数分别除以该词语在所有组出现的次数之和,得到的商值为所述同一词语在该组内出现的概率,具体的计算公式如公式(1) 所示
权利要求
1.一种确定词信息熵的方法,其特征在于包括以下步骤 确定用户输入的各搜索请求所属的类目;根据所属的类目将所述搜索请求划分为多组; 对每组内的搜索请求分词; 统计分词后得到的各词语在每组内出现的概率; 根据所述概率确定各词语的用于搜索的词信息熵值。
2.如权利要求1所述的方法,其特征在于,确定搜索请求所属的类目的方式为根据所述搜索请求确定能够访问的已经确定所属类目的目标网页,将所述目标网页所属的类目作为所述搜索请求所属的类目。
3.如权利要求1所述的方法,其特征在于,确定搜索请求所属的类目的方式为根据预设的类目和词语的对应关系,将搜索请求中的词语对应的类目作为搜索请求所属的类目。
4.如权利要求1 3任一所述的方法,其特征在于,在确定词语的词信息熵值之后,还包括如下词信息熵值更新步骤确定用户再次输入的各搜索请求所属的类目;根据所属的类目将再次输入的所述搜索请求划分为多组;将再次输入的各搜索请求划分得到的多组与之前得到的多组合并;对再次输入的各搜索请求进行分词;重新统计全部词语在合并后的各组内出现的概率;根据各词语在每组内出现的概率重新确定各词语的用于搜索的词信息熵值。
5.如权利要求4所述的方法,其特征在于,在确定词语的词信息熵值之后,词信息熵值更新之前,所述方法还包括以下步骤收集用户再次输入的各搜索请求并对再次输入的搜索请求进行累加; 在累加后的搜索请求的数量达到设定门限值时,根据累加后的搜索请求执行所述词信息熵值更新步骤。
6.如权利要求4所述的方法,其特征在于,在确定词语的词信息熵值之后,词信息熵值更新之前,所述方法还包括以下步骤收集用户再次输入的各搜索请求;在经过设定的时间周期时,根据收集的搜索请求执行所述词信息熵值更新步骤。
7.如权利要求4所述的方法,其特征在于,所述词语的词信息熵值通过以下公式确定
8.一种利用词信息熵的搜索方法,其特征在于包括根据用户输入的一搜索请求,判断是否存在与所述一搜索请求匹配的搜索结果; 若不存在与所述一搜索请求匹配的搜索结果,则根据保存的各词语及各词语对应的词信息熵值,在所述一搜索请求分词后得到的词语中选择词信息熵值小于设定阈值的至少一个词语进行搜索;其中,各词语及各词语对应的词信息熵值是通过以下方式确定的 根据用户输入的各搜索请求所属的类目将所述搜索请求划分为多组,在对每组内的搜索请求分词后,根据统计分词后得到的各词语在每组内出现的概率确定各词语的词信息熵值。
9.一种确定词信息熵的设备,其特征在于包括类目确定模块,用于确定用户输入的各搜索请求所属的类目; 分组模块,用于根据所属的类目将所述搜索请求划分为多组; 分词模块,用于对每组内的搜索请求分词;概率确定模块,用于统计分词后得到的各词语在每组内出现的概率; 词信息熵值确定模块,用于根据所述概率确定各词语的用于搜索的词信息熵值。
10.如权利要求9所述的确定词信息熵的设备,其特征在于,所述类目确定模块,具体用于根据所述搜索请求确定能够访问的已经确定所属类目的目标网页,将所述目标网页所属的类目作为所述搜索请求所属的类目。
11.如权利要求9所述的确定词信息熵的设备,其特征在于,所述类目确定模块,具体用于根据预设的类目和词语的对应关系,将搜索请求中的词语对应的类目作为搜索请求所属的类目。
12.如权利要求9 11任一所述的确定词信息熵的设备,其特征在于, 所述类目确定模块,还用于确定用户再次输入的各搜索请求所属的类目;所述分组模块,还用于根据所属的类目将再次输入的所述搜索请求划分为多组; 所述确定词信息熵的设备还包括合并模块,用于将再次输入的搜索请求划分得到的多组与之前得到的多组合并;所述分词模块,还用于对再次输入的各搜索请求进行分词; 所述概率确定模块,还用于重新统计全部词语在合并后的各组内出现的概率; 所述词信息熵值确定模块,还用于根据重新统计的各词语在合并后的各组内出现的概率重新确定各词语的用于搜索的词信息熵值。
13.如权利要求12所述的确定词信息熵的设备,其特征在于,所述确定词信息熵的设备还包括第一收集模块,用于收集再次输入的各搜索请求并对再次输入的搜索请求的数量进行累加;第一触发模块,用于在累加后的搜索请求的数量达到设定门限值时,根据累加后的搜索请求触发所述类目确定模块。
14.如权利要求12所述的确定词信息熵的设备,其特征在于,所述确定词信息熵的设备还包括第二收集模块,用于收集再次输入的各搜索请求;第二触发模块,用于在经过设定的时间周期时,根据收集的搜索请求触发所述类目确定模块。
15.如权利要求12所述的确定词信息熵的设备,其特征在于,所述词信息熵值确定模块,具体用于通过以下公式确定词语的词信息熵值
16. 一种利用词信息熵的搜索设备,其特征在于包括词信息熵值确定模块,用于根据用户输入的各搜索请求所属的类目将所述搜索请求划分为多组,在对每组内的搜索请求分词后,根据统计分词后得到的各词语在每组内出现的概率确定各词语的词信息熵值;判断模块,用于判断是否存在与用户输入的一搜索请求匹配的搜索结果; 词语选择模块,用于在不存在与所述一搜索请求匹配的搜索结果时,根据所述词信息熵值确定模块中的各词语及各词语对应的词信息熵值,在所述一搜索请求分词后得到的词语中选择词信息熵值小于设定阈值的至少一个词语; 搜索模块,用于根据选择的词语进行搜索。
全文摘要
本申请公开了一种确定词信息熵及利用词信息熵的搜索方法及其设备,主要内容包括将各搜索请求按照所属的类目进行分组,形成一个类似于“大文本”的数据组,在此基础上计算词语的词信息熵值,可以准确地度量词语的重要程度,计算出的词信息熵值准确;进一步地,利用计算出的词信息熵值确定出搜索请求中重要的词语,以便于在搜索请求没有完全匹配的搜索结果时,将重要程度较高的词语的匹配结果优先展示给用户,提高搜索结果的准确性。
文档编号G06F17/27GK102193929SQ20101012056
公开日2011年9月21日 申请日期2010年3月8日 优先权日2010年3月8日
发明者金凯民 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1