用户搜索串的意图识别方法及装置与流程

文档序号:15797537发布日期:2018-11-02 21:11阅读:148来源:国知局
用户搜索串的意图识别方法及装置与流程

本发明涉及计算机应用技术领域,特别涉及一种用户搜索串的意图识别方法及装置。

背景技术

随着互联网的高速发展,用户通过输入用户搜索串后,计算机设备对互联网上的信息进行组织和处理,并将处理后的信息进行展示给用户。为提供更精确的搜索结果,通常对用户搜索串的意图进行识别。

现有的意图识别方法中,通常针对某种意图类型,构建文本信息的文字模型。获取用户搜索串后,通过对用户搜索串与文字模型中的文本信息进行匹配运算,根据匹配运算后的匹配程度识别用户搜索串的意图类型。

然而,上述意图识别方法仅采用模型匹配等方式对用户搜索串进行文本匹配运算,无法针对用户搜索串中与意图类型相关的意图信息进行识别,大大降低了对用户搜索串进行意图识别的准确性。



技术实现要素:

为了解决相关技术中对用户搜索串进行意图识别的准确性较低的技术问题,本发明提供了一种用户搜索串的意图识别方法及装置。

一种用户搜索串的意图识别方法,包括:

在预置的意图类型词库中,进行用户搜索串与核心词的匹配运算,得到所述用户搜索串与所述意图类型词库中各核心词之间的匹配度,所述核心词是与所述意图类型词库相应的意图类型相对应的;

在所述用户搜索串与所述意图类型词库相应的意图类型之间进行权值计算获得权值控制参数;

通过所述权值控制参数和所述匹配度得到所述用户搜索串相对所述意图类型词库的意图强度值;

由所述意图强度值获得所述用户搜索串对应的意图类型。

一种用户搜索串的意图识别装置,包括:

匹配运算模块,用于在预置的意图类型词库中,进行用户搜索串与核心词的匹配运算,得到所述用户搜索串与所述意图类型词库中各核心词之间的匹配度,所述核心词是与所述意图类型词库相应的意图类型相对应的;

权值控制参数获取模块,用于在所述用户搜索串与所述意图类型词库相应的意图类型之间进行权值计算获得权值控制参数;

意图强度值获取模块,用于通过所述权值控制参数和所述匹配度得到所述用户搜索串相对所述意图类型词库的意图强度值;

意图类型识别模块,用于由所述意图强度值获得所述用户搜索串对应的意图类型。

本发明的实施例提供的技术方案可以包括以下有益效果:

对用户搜索串进行意图识别时,在预置的意图类型词库中进行用户搜索串与核心词的匹配运算,得到用户搜索串与意图类型词库中各核心词之间的匹配度,核心词是与意图类型词库相应的意图类型相对应的,在用户搜索串与意图类型词库相应的意图类型之间进行权值计算获得权值控制参数,通过权值控制参数和匹配度得到用户搜索串相对意图类型词库的意图强度值,并由意图强度值获得用户搜索串对应的意图类型。由于用户搜索串与意图类型词库之间的意图强度值充分考虑了用户搜索串相对意图类型的权值,进而通过权值对匹配度的权重进行调节,进而根据得到用户搜索串相对该意图类型词库之间的意图强度值,识别用户搜索串的意图类型,大大提高了对用户搜索串进行意图识别的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的一个实施环境的示意图。

图2是根据一示例性实施例示出的一种用户搜索串的意图识别方法流程图。

图3是根据图2示出的另一种用户搜索串的意图识别方法流程图。

图4是图3示出的另一种用户搜索串的意图识别方法流程图。

图5是图2对应实施例示出的用户搜索串的意图识别方法中步骤s110的一种具体实现流程图。

图6是图2对应实施例示出的用户搜索串的意图识别方法中步骤s120的一种具体实现流程图。

图7是图2对应实施例示出的用户搜索串的意图识别方法中步骤s130的一种具体实现流程图。

图8是根据一示例性实施例示出的用户搜索串“cinema”对应的时间序列;

图9是根据一示例性实施例示出对用户搜索串的突发性进行识别的方法示意图。

图10是根据一示例性实施例示出的构建好的时间语言模型的一个子集;

图11是据一示例性实施例示出的进行用户搜索串的新闻意图识别的框架图。

图12是根据图11示出的进行用户搜索串的意图识别的框架图而示出的一种进行新闻意图识别的方法示意图。

图13是根据一示例性实施例示出的一种用户搜索串的意图识别装置框图。

图14是根据图13对应实施例示出的另一种用户搜索串的意图识别装置框图。

图15是根据图14对应实施例示出的另一种用户搜索串的意图识别装置框图。

图16是图13对应实施例示出的匹配运算模块110的框图。

图17是图13对应实施例示出的权值控制参数获取模块120的框图。

图18是图13对应实施例示出的权值控制参数获取模块130的框图。

图19是根据一示例性实施例示出的一种终端的结构框图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在一个实施例中,本公开涉及的实施环境包括:计算机设备和装设在计算机设备上的意图识别模组。其中,计算机设备具有独立操作系统,独立运行空间,可以安装软件以及第三方服务商提供的软件,例如,计算机设备可以是各种智能系统处理设备等。意图识别模组是能够对用户搜索串进行意图识别的硬件模块。

图1是根据本公开所涉及的一个实施环境的示意图。该实施环境包括:终端100以及与终端100进行相互之间数据传输的服务器200。

终端100和服务器200之间的关联方式,包括但不限于以wifi等无线网络或者有线宽带实现的二者之间往来的数据关联方式,具体关联方式不受本实施例的限制。

终端100在获取搜索关键字后,将搜索关键词与存储于服务器200中的各核心词进行匹配运算,并在用户搜索串与意图类型词库相应的意图类型之间进行权值计算获得权值控制参数,通过权值控制参数和匹配度得到用户搜索串相对意图类型词库的意图强度值,获得用户搜索串对应的意图类型。

终端100可以是手机、电脑等计算机设备,具体实现方式不受本实施例的限制。

图2是根据一示例性实施例示出的一种用户搜索串的意图识别方法流程图。如图2所示,该用户搜索串的意图识别方法可以包括以下步骤。

在步骤s110中,在预置的意图类型词库中,进行用户搜索串与核心词的匹配运算,得到用户搜索串与意图类型词库中各核心词之间的匹配度。

用户搜索串是进行搜索时输入的文字串。

意图类型词库是在对用户搜索串进行意图识别之前预先设置的,意图类型词库与意图类型相对应,可以一个意图类型词库对应一种意图类型,也可以多个意图类型词库对应一种意图类型。每个意图类型词库中包含与其对应的意图类型相符的核心词。

实现用户搜索串与预置的意图类型词库中的核心词之间的匹配运算,可以通过kmp(theknuth-morris-prattalgorithm,克努特-莫里斯-普拉特)文本匹配算法进行匹配运算,也可以通过bm(boyer-moore)算法进行匹配运算,还可以通过其他的文本匹配算法进行匹配运算,在此不作限定。

在步骤s120中,在用户搜索串与意图类型词库相应的意图类型之间进行权值计算获得权值控制参数。

权值控制参数是对用户搜索串与意图类型之间相关程度的控制参数。

可以理解的是,不同意图类型对应的意图类型词库中的部分核心词可能存在一定程度的相似性。

而由于用户搜索串与意图类型词库中各核心词之间的匹配度仅仅是在文本匹配运算而得到的,当用户搜索串与不同意图类型对应的意图类型词库中的部分核心词之间的匹配度相近时,此时完全根据匹配度将无法准确识别用户搜索串的意图类型。因此,有必要利用权值控制参数对相应意图类型相符的匹配度权重进行调节。

例如,用户搜索串a与小说意图类型对应的小说意图类型词库x中的核心词x1之间的匹配度为0.9,用户搜索串a与新闻意图类型对应的新闻意图类型词库y中的核心词y1之间的匹配度也为0.9。而用户搜索串a还包含最近的时间信息,因此,用户搜索串a的意图类型为新闻意图类型的可能性更大,从而通过权值控制参数加大用户搜索串a与新闻类型之间的权重。

在步骤s130中,通过权值控制参数和匹配度得到用户搜索串相对意图类型词库的意图强度值。

意图强度值表征用户搜索串与意图类型词库之间的匹配程度。意图强度值越大,用户搜索串与意图类型词库之间的匹配程度就越高。

获取用户搜索串相对意图类型词库的意图强度值,可以根据用户搜索串与意图类型词库中各核心词之间最大的匹配度,与权值控制参数相乘得到用户搜索串相对该意图类型词库的意图强度值;也可以根据用户搜索串与意图类型词库中各核心词之间匹配度的平均值,与权值控制参数相乘得到用户搜索串相对该意图类型词库的意图强度值;还可以通过其他的方式获取用户搜索串相对意图类型词库的意图强度值。

在步骤s140中,由意图强度值获得用户搜索串对应的意图类型。

由于意图类型词库均有其对应的意图类型,因而根据用户搜索串相对意图类型词库的意图强度值可以识别该用户搜索串对应的意图类型。

在一个示例性实施例中,通过将意图强度值最大的意图类型词库对应的意图类型识别为该用户搜索串对应的意图类型。

通过如上所述的方法,在获取用户搜索值与意图类型词库中个核心词之间的匹配度后,并通过对应意图类型相关的权值控制参数对匹配度的权重进行调节,得到用户搜索串相对该意图类型词库的意图强度值,进而识别用户搜索串的意图类型,大大提高了对用户搜索串进行意图识别的准确性。

图3是根据图2对应示例性实施例示出的一种用户搜索串的意图识别方法流程图。该用户搜索串的意图识别方法中,核心词包括热词核心词,如图3所示,步骤s110之前,该用户搜索串的意图识别方法还可以包括以下步骤。

在步骤s210中,根据意图类型词库所对应的意图类型进行文本信息抓取,获得意图类型下的热词核心词。

如前所述的,在对用户搜索串进行意图识别时,需对用户搜索串与预置的意图类型词库中的核心词进行匹配运算。因此,需预先构建意图类型词库,在意图类型词库中添加核心词。

文本信息抓取是对各信息进行文本提取。

在一示例性实施例中,为新闻意图类型对应的新闻意图类型词库进行文本信息抓取。通过预置的时间间隔在指定网站中提取新闻热词,例如,百度新闻热词页面下社会、科技、娱乐、体育等板块的热点新闻标题,新浪微博热搜榜及热点热搜榜的热词等。

在进行文本信息抓取后,将抓取到的文本信息作为意图类型下的热词核心词。

可选的,为避免因抓取到的文本信息重复而导致意图类型下的热词核心词重复,进而加大对用户搜索串进行匹配运算时的运算量,对抓取到的文本信息进行去重,再将去重后的文本信息作为意图类型下的热词核心词。

可选的,根据意图类型词库所对应的意图类型,按照预置的时间间隔进行文本信息抓取,从而对意图类型词库中的热词核心词进行动态更新,提高用户搜索串与意图类型词库中的核心词匹配运算时的准确性。

在步骤s220中,对热词核心词执行分词操作获得热词核心词对应的核心分词。

分词操作是将指的是将一个文字序列切分成一个一个单独的词。

如前所述,热词核心词是对文本信息进行抓取后而获得的。而文本信息可能为一个词,也可能为多个词,还可能为其他形式。

因此,通过对热词核心词进行分词操作,将热词核心词切分成一个一个单独的词,进而以切分后一个一个单独的词对用户搜索串进行匹配运算,保证匹配运算的准确度。

对热词核心词执行分词操作的方式有多种。可以基于字符串将热词核心词机械地切分为一个一个的分词,得到该热词核心词对应的核心分词;也可以对热词核心词进行语义分析,进而基于语义将热词核心词切分为一个一个的分词,得到该热词核心词对应的核心分词;还可以通过其他的方式对热词核心词执行分词操作。

在步骤s230中,将热词核心词对应的核心分词及热词核心词关联存储于意图类型对应的意图类型词库中。

由于热词核心词是根据意图类型进行文本抓取而得到的,因而将热词核心及对应的核心分词关联存储于该意图类型对应的意图类型词库中,在后续对用户搜索串进行意图识别时,采用意图类型词库中的核心词对用户搜索串进行匹配运算,保证意图识别的准确性。

图4是根据图3对应示例性实施例示出的一种用户搜索串的意图识别方法流程图。该用户搜索串的意图识别方法中,核心词包括还用户核心词,如图4所示,步骤s130之后,该用户搜索串的意图识别方法还可以包括以下步骤。

在步骤s310中,在意图强度值达到预设的用户核心词临界强度时,判断最大的匹配度对应的核心词是否为热词核心词,若为是(y),则执行步骤s320。

用户核心词是根据用户搜索串而补充的核心词。

用户核心词临界强度是预先设置的,当意图强度值达到用户核心词临界强度时,表明用户搜索串与对应的意图类型的匹配程度较高。为进一步提高以后意图识别的准确性,通过对最大匹配度对应的核心词进行判断,当该核心词为热词核心词时,将该用户搜索串作为意图类型词库中新增的用户核心词,补充至意图类型词库。

在步骤s320中,将用户搜索串作为意图类型词库中新增的用户核心词,补充至意图类型词库。

可以理解的是,用户核心词源于用户搜索串,继承了用户搜索串的特性;而热词核心词源于抓取的文本信息,因而相比热词核心词,用户核心词与用户搜索串的匹配度更高。

在以后对用户搜索串进行意图识别时,通过将热词核心词与用户核心词均与用户搜索串进行匹配运算,避免因热词核心词语用户搜索串的匹配度不高而对用户搜索串的意图识别错误,从而提高对用户搜索串进行意图识别的准确性。

图5是根据一示例性实施例示出的对步骤s110的细节的描述。该步骤s110可以包括以下步骤。

在步骤s111中,对用户搜索串执行分词操作,得到用户搜索串的搜索分词。

如前所述的对热词核心词执行分词操作类似,对用户搜索串执行分词操作时将用户搜索串切分成一个一个单独的词,得到用户搜索串的搜索分词。

在步骤s112中,针对意图类型词库中的每一核心词,将搜索分词与核心词对应的核心分词进行匹配运算,得到搜索分词与核心分词之间的匹配值。

在对用户搜索串与意图类型词库中核心词进行匹配运算时,对用户搜索串的搜索分词与意图类型词库中每一个核心词对应的核心分词进行匹配运算。

实现搜索分词与核心词对应的核心分词之间的匹配运算,可以通过kmp(theknuth-morris-pratt,克努特-莫里斯-普拉特)文本匹配算法进行匹配运算,也可以通过bm(boyer-moore)算法进行匹配运算,还可以通过其他的文本匹配算法进行匹配运算,在此不作限定。

在步骤s113中,由匹配值获得用户搜索串和核心词之间的匹配度。

实现由搜索分词与核心分词之间的匹配值获得用户搜索串和核心词之间的匹配度,可以在搜索分词与核心词对应的核心分词之间的匹配值中,选取最大的匹配值作为用户搜索串和核心词之间的匹配度;也可以在搜索分词与核心词对应的核心分词之间的匹配值中,计算匹配值的平均值,将该平均值作为用户搜索串和核心词之间的匹配度;还可以采用其他的方式获得用户搜索串和核心词之间的匹配度。

通过如上所述的方法,在对用户搜索串与核心词进行匹配运算时,通过对用户搜索串执行分词操作,将获得的搜索分词与核心词对应的核心分词进行匹配运算,根据获得的搜索分词与核心词对应的核心分词之间的匹配值,获取用户搜索串与核心词之间的匹配度,由于分词操作得到的搜索分词更精确的体现了用户搜索串的文本语义,从而提高了匹配运算的精度,提高了对用户搜索串进行意图识别的准确性。

根据图5对应示例性实施例示出的用户搜索串的意图识别方法中,该方法中还包括为对应于核心词的核心分词配置的相关联的关联分词,图5中的步骤s113之前,该用户搜索串的意图识别方法还可以包括以下步骤。

在步骤中,针对意图类型词库中的每一核心词,将搜索分词与核心词对应的核心分词相关联的关联分词进行匹配运算,得到搜索分词与关联分词之间的匹配值。

关联分词与核心分词相关联,在一示例性实施例中,关联分词包括同义分词、相关分词。在核心分词与搜索分词匹配运算时,关联到该核心分词相关联的关联分词,对关联分词与搜索分词也进行匹配运算。

在一具体的示例性实施例中,对用户搜索串a和核心词b进行匹配运算。a={w1,w2,...,wn}和b={w1,w2,...,wn}分别表示对用户搜索串a和核心词b进行分词操作后得到分词集合。根据每个分词在文本中出现的次数得到词频信息,从idf(inversedocumentfrequency,反文档频率)词典获取每个词的idf,由此得到用户搜索串a和核心词b对应的tf*idf向量空间计算用户搜索串a和核心词b的变种广义jaccard相似度的计算公式详见公式(1):

其中,α和β分别取[0,1]的某个数值,分别表示对同义分词和相关分词的进行降权,例如,α=0.7,β=0.3。另外,当α,β都取0时,就是广义的jaccard相似度计算公式。

计算用户搜索串a和核心词b的变种词形相似度的计算公式详见公式(2):

其中α,β的意义同公式(1)。变种词形相似度主要考虑用户搜索串a的搜索分词个数、核心词b对应的核心分词个数以及分词总个数,不仅考虑了关联分词的作用,而且利用idf区分不同词语。由于分词的idf表达了其在语料库中的区分度,因而利用idf来区分不同分词的不同作用。

最后基于上述变种jaccard相似度和变种词形相似度,计算用户搜索串a与核心词b之间匹配度,即通过将变种jaccard相似度和变种词形相似度进行加权平均,具体计算公式详见(3):

similarity(a,b)=λ·v_jaccard(a,b)+(1-λ)·v_struct(a,b)(3)

其中λ∈[0,1]。

由于变种jaccard相似度计算方法主要针对长文本,而变种词形相似度则用于衡量两个句子词形上的相似度,基于上述变种jaccard相似度和变种词形相似度进行加权平均,使计算出的用户搜索串a和核心词b之间的匹配度综合考虑长文本和短文本,提高了匹配度计算的准确性。

可选的,λ=0.5。

利用如上所述的方法,通过预先为对应于核心词的核心分词配置相关联的关联分词,在对用户搜索串的搜索分词与核心词的核心分词进行匹配运算时,对用户搜索串的搜索分词与核心分词的关联分词也进行匹配运算,使获取到的用户搜索串与核心词之间的匹配度考虑到核心分词的关联分词,从而使用户搜索串与核心词之间的匹配度更加精确,提高了对用户搜索串进行意图识别的准确性。

图6是根据一示例性实施例示出的对步骤s120的细节的描述。如图6所示,该方法中还包括与意图类型的意图权重对应的关键分词,该步骤s120可以包括以下步骤。

在步骤s121中,将关键分词与搜索分词进行对比,判断是否存在与搜索分词相同的关键分词,若为是(y),则执行步骤s122。

关键分词与意图类型存在一定的相关程度,关键分词可以是多种类型的分词,例如,可以是与意图类型相接近的分词,也可以是与意图类型偏离较远的分词,还可以是其他类型的分词。

通过将关键分词与用户搜索串的搜索分词进行对比,确定相同的关键分词,进而获取该关键分词对应的意图权重。

在步骤s122中,按照关键分词对应的意图权重,计算用户搜索串相对意图类型的权值控制参数。

意图权重为关键分词与意图类型的相关程度。意图权重越大,则该关键分词与意图类型的相关程度就越大。

每一个关键分词均有其对应的意图权重。

在一示例性实施例中,预置有与新闻意图类型相关的关键分词。关键分词分为非新闻意图类型分词和时间类型分词。非新闻意图类型分词包括“电视剧”、“电影”等,包含非新闻意图类型分词的用户搜索串的意图通常是明确的某电视剧或者电影等,而非新闻,因而设置较低的意图权重;时间类型分词包括距离现在超过一个月的分词和距离现在10天以内的分词,时间信息距离现在超出一个月时间,通常认为该用户搜索串的意图是希望获取指定时间的信息而非最新的新闻,因而设置较低的意图权重,而时间信息距离现在10天内的,通常认为该用户搜索串的意图是想获取最新的新闻,因而设置较高的意图权重。

通过对比,某种意图类型的一个或多个关键分词类型中,可能存在某个关键分词类型中有多个与搜索分词相同的关键分词,也有可能存在某个关键分词类型中没有与搜索分词相同的关键分词。因此,有必要根据与搜索分词相同的关键分词对应的意图权重,计算用户搜索串相对意图类型的权值控制参数。

当某个关键分词类型中没有与搜索分词相同的搜索分词时,则搜索分词相对该关键分词类型的意图权重为基准权重,即意图权重为1。

根据与搜索分词相同的关键分词对应的意图权重,计算用户搜索串相对意图类型的权值控制参数的方式有多种。可以根据意图类型对应的多种关键分词类型,在每一种关键分词类型中选取偏离基准权重最大的意图权重,进而对各个关键分词类型中选取的意图权重进行相乘,得到用户搜索串相对该意图类型的权值控制参数;也可以在每一种关键分词类型中选取偏离基准权重最大和最小的意图权重,进而计算这两个意图权重的平均值,作为用户搜索串相对该意图类型的权值控制参数;还可以通过其他方式计算用户搜索串相对意图类型的权值控制参数。

在一示例性实施例中,预置有与新闻意图类型相关的关键分词。关键分词分为两种类型:非新闻意图类型和时间类型。非新闻意图类型分词包括“电视剧”、“电影”等,包含非新闻意图类型分词的用户搜索串的意图通常是明确的某电视剧或者电影,而非新闻,其新闻意图权重为0.65;时间类型分词包括距离现在超过一个月的分词和距离现在10天以内的分词,时间信息距离现在超出一个月时间,通常认为该用户搜索串的意图是希望获取指定时间的信息而非最新的新闻,其新闻意图权重为0.65,而时间信息距离现在10天内的,通常认为该用户搜索串的意图是想获取最新的新闻,其新闻意图权重为1.5。当用户搜索串a中存在一个与非新闻意图类型分词相同的搜索分词,以及一个与距离现在10天以内时间类型分词相同的搜索分词,则用户搜索串a相对新闻意图类型的权值控制参数为0.65*1.5=0.975。

利用如上所述的方法,通过预置有与意图类型的意图权重对应的关键分词,根据关键分词与搜索分词的异同,调节用户搜索串相对意图类型的权值,更深层次识别用户搜索串的意图,提高了对用户搜索串进行意图识别的准确性。

图7是根据一示例性实施例示出的对步骤s130的细节的描述。如图7所示,预置有与意图类型的意图权重对应的关键分词,该步骤s130可以包括以下步骤。

在步骤s131中,在用户搜索串与意图类型词库中各核心词之间的匹配度中,选取最大的匹配度。

在步骤s132中,根据最大的匹配度及对应意图类型的权值控制参数,得到用户搜索串相对意图类型的意图强度值。

在一示例性实施例中,通过将最大的匹配度与对应意图类型的权值控制参数相乘,实现对匹配度的权值进行调节,得到用户搜索串相对该意图类型的意图强度值。

利用如上所述的方法,选取最大的匹配值,并采用对应意图类型的权值控制参数对该最大匹配度的权值进行调节,通过同时考虑文本匹配度及用户搜索串深层次的意图,获取用户搜索串相对该意图类型的意图强度值,进而识别用户搜索串的意图类型,提高了对用户搜索串进行意图识别的准确性。

下面结合具体的应用场景来详细阐述如上用户搜索串的意图识别方法。该用户搜索串的意图识别方法运行于计算机设备中,通过该用户搜索串的意图识别方法,识别用户搜索串的新闻意图。

首先,简单介绍目前现有的对用户搜索串的新闻意图进行识别的方法。

目前,识别用户搜索串的新闻意图的方法主要有两类,一类是通过构建搜索串的时序序列,来挖掘一些具有突发性的用户搜索串,另一类是通过挖掘新闻语料库或者用户历史搜索日志,识别用户搜索串潜在的时间属性。

第一类,利用搜索日志为每一个用户搜索串构建一个时间序列,该时间序列的横轴是时间参数,纵轴为这个用户搜索串在每一天中被搜索的总次数。图8是根据一示例性实施例示出的用户搜索串“cinema”对应的时间序列。通过设定滑动窗口大小,并且计算每个滑动窗口的平均值,得到滑动平均值,再利用所有滑动平均值的均值和方差计算一个阈值,当对应时期的被搜索的次数大于该阈值时,则认为这个用户搜索串相对这个时期具有突发性。图9是根据一示例性实施例示出对用户搜索串的突发性进行识别的方法示意图。由于该方法依赖于分析用户搜索串关于历史时间序列的变化模式,将具有突发性的用户搜索串(如图9中的bursts)认为具有新闻意图,这也导致在识别网络新的用户搜索串时存在一定的延迟。

另一类是通过挖掘新闻语料库或者历史用户搜索日志,构建时间语言模型,以此来识别用户搜索串的潜在时间意图。首先利用经过标注的新闻语料“newyorktimesannotatedcorpus”构建时间语言模型,图10是根据一示例性实施例示出的构建好的时间语言模型的一个子集。其次利用构建好的时间语言模型识别用户搜索串的时间属性。这种方法用于识别历史事件的用户搜索串的时间属性效果很显著,但该方法强烈依赖于新闻语料库的时新程度和覆盖面,一旦新出现的网络新词没有出现在语料库中,就无法识别该用户搜索串的时间属性。

在一个具体的应用场景中,对用户搜索串的新闻意图识别方法运行于一计算机设备中。具体的,图11是据一示例性实施例示出的进行用户搜索串的新闻意图识别的框架图。获取用户搜索串后,在预置的新闻意图类型词库中,进行用户搜索串与核心词的匹配运算,并根据用户搜索串动态获取相对新闻意图类型的权值控制参数,再通过权值控制参数和匹配运算得到用户搜索串相对新闻意图类型词库的意图强度值,最后根据意图强度值识别用户搜索串是否具有新闻意图。另外,预置的新闻意图类型词库中的核心词是预先为新闻意图类型词库进行文本信息抓取而获得的。

图12是在图11示出的进行用户搜索串的新闻意图识别的框架下进行新闻意图识别的方法示意图。

步骤s1191,文本信息抓取。根据新闻意图类型,进行文本信息抓取。

步骤s1192,构建新闻意图类型词库。根据抓取的文本信息生成热词核心词,构建新闻意图类型词库。

步骤s1110,获取用户搜索串。

步骤s1120,分词操作。对用户搜索串执行分词操作,得到用户搜索串的搜索分词。

步骤s1130,分词匹配运算。将搜索分词与新闻意图类型词库中每一核心词对应的核心分词及关联分词分别进行匹配运算,得到搜索分词与核心分词之间的匹配值,以及搜索分词与关联分词之间的匹配值。

步骤s1140,获取用户搜索串的新闻意图匹配度。由搜索分词与核心分词之间的匹配值,以及搜索分词与关联分词之间的匹配值,并向这些匹配值分配一定的权重比例,获得用户搜索串和核心词之间的匹配度。

步骤s1150,获取权值控制参数。确定与搜索分词相同的关键分词,按照关键分词对应的意图权重,计算用户搜索串相对新闻意图类型的权值控制参数。

步骤s1160,新闻意图强度值计算。根据最大的匹配度及对应意图类型的权值控制参数,得到用户搜索串相对意图类型的意图强度值。

步骤s1170,新闻意图识别。根据新闻意图强度值识别用户搜索串是否具有新闻意图。

步骤s1180,补充用户核心词。在新闻意图强度值达到预设的用户核心词临界强度,且最大的匹配度对应的核心词为热词核心词时,将用户搜索串作为新闻意图类型词库中新增的用户核心词,补充至新闻意图类型词库。

下述为本发明装置实施例,可以用于执行上述用户搜索串的意图识别方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明用户搜索串的意图识别方法实施例。

图13是根据一示例性实施例示出的一种用户搜索串的意图识别装置框图,该装置包括但不限于:匹配运算模块110、权值控制参数获取模块120、意图强度值获取模块130及意图类型识别模块140。

匹配运算模块110,用于在预置的意图类型词库中,进行用户搜索串与核心词的匹配运算,得到用户搜索串与意图类型词库中各核心词之间的匹配度,核心词是与意图类型词库相应的意图类型相对应的;

权值控制参数获取模块120,用于在用户搜索串与意图类型词库相应的意图类型之间进行权值计算获得权值控制参数;

意图强度值获取模块130,用于通过权值控制参数和匹配度得到用户搜索串相对意图类型词库的意图强度值;

意图类型识别模块140,用于由意图强度值获得用户搜索串对应的意图类型。

上述装置中各个模块的功能和作用的实现过程具体详见上述用户搜索串的意图识别方法中对应步骤的实现过程,在此不再赘述。

可选的,如图14所示,根据图13示出的用户搜索串的意图识别装置框图,核心词包括热词核心词,该装置还包括但不限于:文本抓取模块210、核心词分词模块220和热词存储模块230。

文本抓取模块210,用于根据意图类型词库所对应的意图类型进行文本信息抓取,获得意图类型下的热词核心词;

核心词分词模块220,用于对热词核心词执行分词操作获得热词核心词对应的核心分词;

热词存储模块230,用于将热词核心词对应的核心分词及热词核心词关联存储于意图类型对应的意图类型词库中。

可选的,如图15所示,根据图14示出的用户搜索串的意图识别装置框图,核心词还包括用户核心词,该装置还包括但不限于:热词核心词判断模块310和用户核心词补充模块320。

热词核心词判断模块310,用于在意图强度值达到预设的用户核心词临界强度时,判断最大的匹配度对应的核心词是否为热词核心词;

用户核心词补充模块320,用于在最大的匹配度对应的核心词为热词核心词时,将用户搜索串作为意图类型词库中新增的用户核心词,补充至意图类型词库。

可选的,如图16所示,图13中的匹配运算模块110包括但不限于:搜索串分词子模块111、分词匹配运算子模块112和匹配度获取子模块113。

搜索串分词子模块111,用于对用户搜索串执行分词操作,得到用户搜索串的搜索分词;

分词匹配运算子模块112,用于针对意图类型词库中的每一核心词,将搜索分词与核心词对应的核心分词进行匹配运算,得到搜索分词与核心分词之间的匹配值;

匹配度获取子模块113,用于由匹配值获得用户搜索串和核心词之间的匹配度。

可选的,预先为对应于核心词的核心分词配置相关联的关联分词,图16示出的匹配运算模块110还包括但不限于:关联分词匹配运算子模块。

关联分词匹配运算子模块,用于针对意图类型词库中的每一核心词,将搜索分词与核心词对应的核心分词相关联的关联分词进行匹配运算,得到搜索分词与关联分词之间的匹配值。

可选的,如图17所示,该方法还包括与意图类型的意图权重对应的关键分词,图13中的权值控制参数获取模块120还可以包括:分词对比子模块121和权值控制参数计算子模块122。

分词对比子模块121,用于将关键分词与搜索分词进行对比,判断是否存在与搜索分词相同的关键分词;

权值控制参数计算子模块122,用于若存在与搜索分词相同的关键分词,则按照关键分词对应的意图权重,计算用户搜索串相对意图类型的权值控制参数。

可选的,如图18所示,意图强度值获取模块130包括但不限于:匹配度选取子模块131和意图强度值获取子模块132。

匹配度选取子模块131,用于在用户搜索串与意图类型词库中各核心词之间的匹配度中,选取最大的匹配度;

意图强度值获取子模块132,用于根据最大的匹配度及对应意图类型的权值控制参数,得到用户搜索串相对意图类型的意图强度值。

图19是根据一示例性实施例示出的一种终端100的框图。参考图19,终端100可以包括以下一个或者多个组件:处理组件101,存储器102,电源组件103,多媒体组件104,音频组件105,传感器组件107以及通信组件108。其中,上述组件并不全是必须的,终端100可以根据自身功能需求增加其他组件或减少某些组件,本实施例不作限定。

处理组件101通常控制终端100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作以及记录操作相关联的操作等。处理组件101可以包括一个或多个处理器109来执行指令,以完成上述操作的全部或部分步骤。此外,处理组件101可以包括一个或多个模块,便于处理组件101和其他组件之间的交互。例如,处理组件101可以包括多媒体模块,以方便多媒体组件104和处理组件101之间的交互。

存储器102被配置为存储各种类型的数据以支持在终端100的操作。这些数据的示例包括用于在终端100上操作的任何应用程序或方法的指令。存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如sram(staticrandomaccessmemory,静态随机存取存储器),eeprom(electricallyerasableprogrammableread-onlymemory,电可擦除可编程只读存储器),eprom(erasableprogrammablereadonlymemory,可擦除可编程只读存储器),prom(programmableread-onlymemory,可编程只读存储器),rom(read-onlymemory,只读存储器),磁存储器,快闪存储器,磁盘或光盘。存储器102中还存储有一个或多个模块,该一个或多个模块被配置成由该一个或多个处理器109执行,以完成图2、图3、图4、图5、图6和图7任一所示方法中的全部或者部分步骤。

电源组件103为终端100的各种组件提供电力。电源组件103可以包括电源管理系统,一个或多个电源,及其他与为终端100生成、管理和分配电力相关联的组件。

多媒体组件104包括在所述终端100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括lcd(liquidcrystaldisplay,液晶显示器)和tp(touchpanel,触摸面板)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件105被配置为输出和/或输入音频信号。例如,音频组件105包括一个麦克风,当终端100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或经由通信组件108发送。在一些实施例中,音频组件105还包括一个扬声器,用于输出音频信号。

传感器组件107包括一个或多个传感器,用于为终端100提供各个方面的状态评估。例如,传感器组件107可以检测到终端100的打开/关闭状态,组件的相对定位,传感器组件107还可以检测终端100或终端100一个组件的位置改变以及终端100的温度变化。在一些实施例中,该传感器组件107还可以包括磁传感器,压力传感器或温度传感器。

通信组件108被配置为便于终端100和其他设备之间有线或无线方式的通信。终端100可以接入基于通信标准的无线网络,如wifi(wireless-fidelity,无线网络),2g或3g,或它们的组合。在一个示例性实施例中,通信组件108经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件108还包括nfc(nearfieldcommunication,近场通信)模块,以促进短程通信。例如,在nfc模块可基于rfid(radiofrequencyidentification,射频识别)技术,irda(infrareddataassociation,红外数据协会)技术,uwb(ultra-wideband,超宽带)技术,bt(bluetooth,蓝牙)技术和其他技术来实现。

在示例性实施例中,终端100可以被一个或多个asic(applicationspecificintegratedcircuit,应用专用集成电路)、dsp(digitalsignalprocessing,数字信号处理器)、pld(programmablelogicdevice,可编程逻辑器件)、fpga(field-programmablegatearray,现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

该实施例中的终端的处理器执行操作的具体方式已经在有关该用户搜索串的意图识别方法的实施例中执行了详细描述,此处将不再做详细阐述说明。

在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器102,上述指令可由终端100的处理器109执行以完成上述用户搜索串的意图识别方法。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,本领域技术人员可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1