构建语义查询词模板的方法及装置与流程

文档序号:11830050阅读:252来源:国知局
构建语义查询词模板的方法及装置与流程

本发明涉及信息技术领域,特别涉及一种构建语义查询词模板的方法及装置。



背景技术:

在搜索引擎中,用户有时候会输入一些语义层面的查询词,简称为语义查询词,例如,在音乐搜索中输入的“粤语歌曲”、“睡觉前听的歌曲”、“经典老歌”等。由于这些语义查询词缺乏针对性,如果对于这些语义查询词直接按照普通的关键词匹配方式进行查询,很难查询出用户所需的查询结果。为了解决这个问题,通常需要构建语义查询词模板,且构建的每个语义查询词模板中包含一个核心词,当用户输入的任一语义查询词中包含任一语义查询词模板中的核心词时,将使用该语义查询词模板为用户进行搜索。例如,若用户输入的语义查询词为“少儿歌曲”,该语义查询词包含语义查询词模板“***歌曲”中的核心词“歌曲”,则将使用语义查询词模板“***歌曲”为用户进行搜索。

现有技术在构建语义查询词模板时,通常采用人工观察的方法从互联网上的海量查询词中识别出语义查询词,之后根据识别出的语义查询词,构建语义查询词模板。而在该过程中,由于互联网上的查询词的数量较多,采用人工观察的方法构建语义查询词模板,不仅速度较慢,而且成本较高。



技术实现要素:

为了解决相关技术的问题,本发明实施例提供了一种构建语义查询词模板的方法及装置。所述技术方案如下:

一方面,提供了一种构建语义查询词模板的方法,所述方法包括:

获取种子语义查询词模板,所述种子语义查询词模板中至少包含一个核心词;

根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括所述核心词和语义修饰词;

根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词;

基于所述每个语义修饰词的相似词,构建语义查询词模板。

另一方面,提供了一种构建语义查询词模板的装置,所述装置包括:

获取模块,用于获取种子语义查询词模板,所述种子语义查询词模板中至少包含一个核心词;

第一查询模块,用于根据所述种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括所述核心词和语义修饰词;

第二查询模块,用于根据每个目标词的语义修饰词进行查询,得到所述每个语义修饰词的相似词;

构建模块,用于基于所述每个语义修饰词的相似词,构建语义查询词模板。

本发明实施例提供的技术方案带来的有益效果是:

根据种子语义查询词模板中包含的核心词进行查询,在查询过程中不断地基于原有的核心词进行扩展,从而自动地挖掘出大量的语义查询词模板,在该过程中,无需用户进行观察,不仅降低了成本,而且提高了构建速度。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种构建语义查询词模板的方法流程图;

图2是本发明另一个实施例提供的一种构建语义查询词模板的方法流程图;

图3是本发明另一个实施例提供的一种根据点击率计算相似性的示意图;

图4是本发明另一个实施例提供的构建语义查询词模板的示例图;

图5是本发明另一个实施例提供的一种构建语义查询词模板的装置结构示意图;

图6是本发明另一个实施例提供的一种构建语义查询词模板的装置框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

随着信息技术的发展,互联网上的信息呈爆炸式增长,为了能够快速地获取到所需的信息,越来越多的用户借助搜索引擎进行查询。在借助搜索引擎查询的过程中,用户可能会在搜索引擎中输入一些语义查询词,例如,“儿童童话”、“少儿歌曲”、“轻音乐”等等。由于这些语义查询词缺乏针对性,如果根据这些语义查询词直接进行查询,查询出的结果查询结果很难满足用户的需求。为了更好地为用户查询出符合需求的查询结果,目前主要借助构建的语义查询词模板进行搜索。而在构建语义查询词模板时,如果采用人工观察的方式,不仅速度慢,而且成本较高,为此,本发明实施例提供了一种构建语义查询词模板的方法,参见图1,本实施例提供的方法流程包括:

101、获取种子语义查询词模板,种子语义查询词模板中至少包含一个核心词。

102、根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括核心词和语义修饰词。

103、根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词。

104、基于每个语义修饰词的相似词,构建语义查询词模板。

本发明实施例提供的方法,根据种子语义查询词模板中包含的核心词进行查询,在查询过程中不断地基于原有的核心词进行扩展,从而自动地挖掘出大量的语义查询词模板,在该过程中,无需用户进行观察,不仅降低了成本,而且提高了构建速度。

在本发明的另一个实施例中,根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,包括:

查询互联网查询词集合中是否存在包含种子语义查询词模板中的核心词的互联网查询词;

当互联网查询词集合中存在包含核心词的互联网查询词,将包含核心词的互联网查询词作为目标词。

在本发明的另一个实施例中,根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词,包括:

计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度;

按照相似度由高到低的顺序,对每个互联网查询词进行排序,得到排序结果;

根据排序结果,将位数在第一指定位数之前的互联网查询词作为语义修饰词之间的相似词。

在本发明的另一个实施例中,计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度,包括:

获取目标词的语义修饰词在指定文档中的第一点击率;

获取互联网查询词集合中任一互联网查询词在指定文档中的第二点击率;

根据第一点击率及第二点击率,计算目标词的语义修饰词与互联网查询词之间的相似度。

在本发明的另一个实施例中,根据第一点击率及第二点击率,计算目标词 的语义修饰词与互联网查询词之间的相似度,包括:

根据第一点击率,生成第一向量;

根据第二点击率,生成第二向量;

计算第一向量和第二向量的夹角余旋值;

将夹角余弦值作为目标词的语义修饰词与互联网查询词之间的相似度;

其中,第一向量及第二向量的维数与指定文档的个数相等。

在本发明的另一个实施例中,基于每个语义修饰词的相似词,构建语义查询词模板,包括:

去除每个语义修饰词的相似词中包含的语义修饰词,得到每个语义修饰词的语义扩展词;

对语义扩展词进行合并,得到目标语义扩展词;

去除目标语义扩展词中的噪音词,得到语义查询词模板。

在本发明的另一个实施例中,去除目标语义扩展词中的噪音词,得到语义查询词模板,包括:

按照频次由高到低,对目标语义扩展词进行排序,得到排序结果;

根据排序结果,将位数在第二指定位数之前的目标语义扩展词作为语义查询词模板。

上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。

本发明实施例提供了一种构建语义查询词模板的方法,参见图2,本实施例提供的方法流程包括:

201、服务器获取种子语义查询词模板,该种子语义查询词模板中至少包含一个核心词。

在搜索引擎中,语义查询词为用户输入的一些语义层面的查询词,例如, 在音乐搜索引擎中,用户输入的“80年歌曲”、“经典老歌”、“革命歌曲”等等。语义查询词与一般的查询词不同,语义查询词是一类语义模糊的查询词,搜索引擎在根据语义查询词进行查询时,需要采用一些算法进行语义相似性分析,从而进行查询,且此时用户需求的查询结果可能并不是某一指定的查询结果,往往是一类查询结果,例如,当用户在搜索引擎中输入“香港经典电影”时,由于经典电影为一个范畴,此时搜索引擎需要为用户提供多种查询结果,以供用户选择。一般的查询词的语义比较清晰,搜索引擎在根据一般查询词进行查询时,可直接采用关键词匹配的方式进行查询,且此时仅为用户提供一种特定的查询结果,例如,当用户在影视剧搜索引擎中输入“甲方乙方”,此时搜索引擎仅需为用户提供“甲方乙方”的相关影视信息。

在本实施例中,种子语义查询词模板为在构建语义查询词模板之前,用户预先指定的查询词模板,种子语义查询词模板一般由“***”及一个核心词组成,例如,在音乐搜索中,用户预先指定的“***欧美歌曲”、“***钢琴曲”等等。其中,核心词为在搜索引擎中进行查询的关键词,该核心词的词性可以为名词、形容词等,本实施例不对核心词的词性作具体的限定。例如,该核心词可以为上述所述的“欧美歌曲”、“钢琴曲”等等。

服务器在获取种子语义查询词模板时,用户可随机从互联网上获取预设数量的查询词,并去除查询词中的部分文字,得到查询关键字,进而将查询关键字输入到服务器中,服务器获取用户输入的查询关键字,并将该查询关键字作为种子语义查询词模板。其中,预设数量可以为10个、20个、30个等,本发明实施例不对预设数量作具体的限定。当然,为了提高构建语义查询词模板的速度,种子语义查询词模板的数量越多越好。

202、服务器根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括核心词和语义修饰词。

为了更好地为用户提供搜索服务,本实施例提供的方法需要基于用户指定的种子语义查询词模板,构建大量语义查询词模板。在此过程中,服务器需要 先根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词。其中,目标词中包含任一种子语义查询词模板中核心词及语义修饰词。例如,种子语义查询词模板中的核心词为“儿童歌曲”,则根据该核心词,查询出的包含“儿童歌曲”的词均可称为目标词,例如,“儿童歌曲大全”、“儿童歌曲列表”、“好听的儿童歌曲”等等。

服务器在根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词时,可先查询互联网查询词集合中是否存在包含种子语义查询词模板中的核心词的互联网查询词,当互联网查询词集合中存在包含核心词的互联网查询词,则将包含核心词的互联网查询词作为目标词。例如,互联网语义查询词集合中包含的互联网查询词为“少儿歌曲大全”、“少儿歌曲列表”、“好听的少儿歌曲”、“老歌大全”、“推荐几首老歌”、“影视歌曲有哪些”、“经典电影”等等,种子语义查询词模板中的核心词为“好听的”,由于互联网查询词集合中存在包含“好听的”的互联网查询词“好听的少儿歌曲”,则将该互联网查询词“好听的少儿歌曲”作为目标词,其中,“好听的”为该目标词的核心词,“少儿歌曲”为该目标词的语义修饰词。

203、服务器根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词。

由于上述步骤202中根据种子语义查询词模板中的核心词查询出的目标词的数量是有限的,依据有限的目标词构建的语义查询词模板,依然不能满足用户的搜索需求,此时,需要进一步地扩大用于构建语义查询词模板的语义查询词数量。在该过程中,服务器可将每个目标词的语义修饰词作为本次查询的核心词进行查询,以得到每个语义修饰词的相似词。

需要说明的是,本步骤中进行的查询为相似性查询,该相似性查询与上述步骤202的查询并不相同,上述步骤202中的查询为一种根据关键词匹配的查询方式,采用该种方式查询出查询结果中需包含核心词;而相似性查询方式相对于关键词匹配查询方式更为宽泛,采用该种查询方式查询出的查询结果只要 与查询词相似度达到一定程度,均可将该查询结果作为符合用户查询需求的查询结果。

具体实施时,服务器根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词的方式,包括但不限于如下(1)~(3):

(1)、服务器计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度。

在实际应用中,服务器在计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度时,可根据对文档的点击率进行计算,具体地,若语义修饰词及任一互联网查询词查询出的文档中的点击率相近,则说明该语义修饰词与该互联网查询词具有相似性;还可根据用户输入字符串的相似度进行计算,具体地,若语义修饰词中包含的字符串与某一互联网查询词中包含的字符串相似度达到一定的比例,如60%、75%、80%等等,则说明该语义修饰词与该互联网查询词具有相似性,例如,语义修饰词中包含4个字符串,互联网查询词中也包含4个字符串,且语义修饰词中的字符串与互联网查询词中的字符串有3个相同,此时该语义查询词中的字符串与互联网查询词中的字符串的相似度达到75%。当然,除了采用上述几种方式计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度外,还可以采用其他方式,本实施例对此不再一一说明。

针对上述几种计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度的方式,下面以根据对指定文档的点击率为例进行详述。具体参见下述(a)~(c):

(a)、服务器获取目标词的语义修饰词在指定文档中的第一点击率。

其中,指定文档的数量至少为两个,且指定文档为服务器根据语义修饰词及任一互联网查询词同时查询出的文档。第一点击率中包含着用户对指定文档中包含的每个文档的文档点击率,第一文点击率中包含的文档点击率的数量与指定文档中包含的文档数量相同。当指定文档中包含文档一、文档二、文档三 时,第一点击率中包含对文档一的文档点击率、对文档二的文档点击率及对文档三的文档点击率。另外,由于在指定时间内用户对指定文档中的每个文档都的点击情况是不同的,因此,第一点击率中包含的至少两个文档点击率也是不尽相同,且如果在指定时间内用户对指定文档中的某一文档并未进行点击,则该文档的点击率将为0%。

关于服务器获取目标词的语义修饰词在指定文档的第一点击率的方式,包括但限于:收集指定时间内用户指定文档的点击结果,基于收集到的点击结果,得到第一点击率。

(b)、服务器获取互联网查询词集合中任一互联网查询词在指定文档中的第二点击率。

其中,第二点击率中包含着用户对指定文档中包含的每个文档的文档点击率,第二文点击率中包含的文档点击率的数量与指定文档中包含的文档数量相同。当指定文档中包含文档一、文档二、文档三、文档四时,第二点击率中包含对文档一的文档点击率、对文档二的文档点击率、对文档三的文档点击率及对文档四的文档点击率。另外,由于在指定时间内用户对指定文档中的每个文档都的点击情况是不同的,因此,第二点击率中包含的至少两个文档点击率也是不尽相同,且如果在指定时间内用户对指定文档中的某一文档并未进行点击,则该文档的点击率将为0%。

(c)、服务器根据第一点击率及第二点击率,计算目标词的语义修饰词与互联网查询词的相似度。

关于服务器根据第一点击率及第二点击率,计算目标词的语义修饰词与互联网查询词的相似度的方式,包括但不限于如下(c1)~(c3):

(c1)、服务器根据第一点击率,生成第一向量。

其中,第一向量的维数与指定文档的个数相等,当指定文档的个数为4个时,第一向量将为四维向量;当指定文档的个数为6个时,第一向量将为六维向量。服务器在根据第一点击率,生成第一向量时,可将直接将第一点击率中 包含的每个文档的点击率作为第一向量的坐标,当指定文档中包含n(n≥2)个文档,文档一的点击率为a1,文档二的点击率为a2,…,文档n的点击率为an,则第一向量为A=(a1,a2,…,an)。例如,若指定文档中包含的文档个数为3个,分别为文档一、文档二、文档三,其中,文档一的点击率为30%、文档二的点击率为40%,文档三的点击率为30%,则服务器根据第一点击率,生成的第一向量为(0.3,0.4,0.3)。

(c2)、服务器根据第二点击率,生成第二向量。

其中,第二向量的维数与指定文档的个数相等,当指定文档的个数为4个时,第二向量将为四维向量;当指定文档的个数为6个时第二向量将为六维向量。服务器在根据第二点击率,生成第二向量时,可将直接将第二点击率中包含的每个文档的点击率作为第二向量的坐标,当指定文档中包含n(n≥2)个文档,文档一的点击率为b1,文档二的点击率为b2,…,文档n的点击率为bn,则第一向量为B=(b1,b2,…,bn)。若指定文档中包含的文档个数为3个,分别为文档一、文档二、文档三,其中,文档一的点击率为20%、文档二的点击率为50%,文档三的点击率为30%,则服务器根据第二点击率,生成的第二向量为(0.2,0.5,0.3)。

(c3)、服务器计算第一向量和第二向量的夹角余旋值,进而该夹角余弦值作为目标词的语义修饰词与互联网查询词之间的相似度。

基于上述(c1)和(c2)生成的第一向量A和第二向量B,服务器在计算第一向量的夹角余弦值时,可采用如下公式进行计算:

<mrow> <mi>Cos</mi> <mo>&lt;</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>></mo> <mo>=</mo> <mfrac> <mrow> <msub> <mi>a</mi> <mn>1</mn> </msub> <msub> <mi>b</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>a</mi> <mn>2</mn> </msub> <msub> <mi>b</mi> <mn>2</mn> </msub> <mo>+</mo> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mi>anbn</mi> </mrow> <mrow> <msqrt> <msubsup> <mi>a</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>a</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>+</mo> <msubsup> <mi>a</mi> <mi>n</mi> <mn>2</mn> </msubsup> </msqrt> <msqrt> <msubsup> <mi>b</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>+</mo> <msubsup> <mi>b</mi> <mi>n</mi> <mn>2</mn> </msubsup> </msqrt> </mrow> </mfrac> <mo>.</mo> </mrow>

对于上述根据对指定文档的点击率计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询之间的相似度的方式,下面以图3为例进行详述。

参见图3,指定文档中包含的文档为文档一、文档二、文档三及文档四,根据目标词的语义修饰词进行查询时,文档一的点击率为20%,文档二的点击率 为50%,文档三的点击率为30%,文档四的点击率为0%,则服务器生成的第一向量A为(0.2,0.5,0.3,0);根据某一互联网查询词进行查询时,文档一的点击率为0%,文档二的点击率为20%,文档三的点击率为50%,文档四的点击率为30%,则服务器生成的第二向量B为(0,0.2,0.5,0.3)。第一向量A和第二向量B的夹角余弦值为:

<mrow> <mi>Cos</mi> <mo>&lt;</mo> <mi>A</mi> <mo>,</mo> <mi>B</mi> <mo>></mo> <mo>=</mo> <mfrac> <mrow> <msub> <mi>a</mi> <mn>1</mn> </msub> <msub> <mi>b</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>a</mi> <mn>2</mn> </msub> <msub> <mi>b</mi> <mn>2</mn> </msub> <mo>+</mo> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mi>anbn</mi> </mrow> <mrow> <msqrt> <msubsup> <mi>a</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>a</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>+</mo> <msubsup> <mi>a</mi> <mi>n</mi> <mn>2</mn> </msubsup> </msqrt> <msqrt> <msubsup> <mi>b</mi> <mn>1</mn> <mn>2</mn> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>+</mo> <msubsup> <mi>b</mi> <mi>n</mi> <mn>2</mn> </msubsup> </msqrt> </mrow> </mfrac> <mo>=</mo> </mrow>

<mrow> <mfrac> <mrow> <mn>0.2</mn> <mo>&times;</mo> <mn>0</mn> <mo>+</mo> <mn>0.5</mn> <mo>&times;</mo> <mn>0.2</mn> <mo>+</mo> <mn>0.3</mn> <mo>&times;</mo> <mn>0.4</mn> <mo>+</mo> <mn>0</mn> <mo>&times;</mo> <mn>0.3</mn> </mrow> <mrow> <msqrt> <msup> <mn>0.2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0.5</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0.3</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0</mn> <mn>2</mn> </msup> </msqrt> <msqrt> <msup> <mn>0</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0.2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0.5</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0.3</mn> <mn>2</mn> </msup> </msqrt> </mrow> </mfrac> <mo>=</mo> <mn>0.181</mn> <mo>,</mo> </mrow>即目标词的语义修饰词与该互联网查询词之间的相似度为0.181。

(2)、按照相似度由高到低的顺序,服务器对每个互联网查询词进行排序,得到排序结果。

为了提高构建的语义查询词模板的精度,当通过采用上述方式计算了任一目标词的语义修饰词与每个互联网查询词之间的相似度之后,本实施例提供的方法还将对按照相似度由高到低的顺序,对每个互联网查询词进行排序,从而得到排序结果。当然,还可按照其他方式,对每个互联网查询词进行排序,本实施例在此不再一一说明。

需要说明的是,在按照相似度由高到低的顺序对每个互联网查询词进行排序的过程中,当至少两个互联网查询词与目标词的语义修饰词的相似度相同时,可为这些相似度相同的互联网查询词赋予相同的位数。

(3)、服务器根据排序结果,将位数在第一指定位数之前的互联网查询词作为语义修饰词的相似词。

其中,第一指定位数可以为10、20、30等,本实施例不对第一指定位数作具体的限定。以选取第一指定位数10为例,服务器可将位数在前10位的互联网查询词作为语义修饰词的相似词。

204、基于每个语义修饰词的相似词,服务器构建语义查询词模板。

基于原有的种子语义查询词模板,通过采用上述步骤202~203的查询,服 务器将获取到大量的相似词,之后根据每个语义修饰词的相似词,服务器可构建出语义查询词模板。

基于每个语义修饰词的相似词,服务器在构建语义查询词模板时,可采用如下(1)~(3):

(1)、服务器去除每个语义修饰词的相似词中包含的语义修饰词,得到每个语义修饰词的语义扩展词。

在根据目标词的语义修饰词进行查询时,得到的相似词中不仅包含语义修饰词,还包括对该语义修饰词扩展得到的词,也即是语义扩展词。当将每个语义修饰词的相似词中包含的语义修饰词去除之后,即可获取到每个语义修饰词的语义扩展词。在该过程中,如果得到的相似词中包含的是语义修饰词相近的词,则可将该语义修饰词相近的词去除,以得到该语义修饰词的语义扩展词。

(2)、服务器对语义扩展词进行合并,得到目标语义扩展词。

由于上述(1)中得到的语义修饰词的语义扩展词可能是相同的,根据相同的语义扩展词得到的语义查询词模板也是相同的,为了避免构建的语义查询词模板的中出现重复模板,服务器还将对语义扩展词执行合并操作。通过对语义扩展词进行合并,可得到目标语义扩展词。另外,在对语义扩展词进行合并的过程中,服务器还将记录每个语义扩展词出现的频次。

(3)、服务器去除目标语义扩展词中的噪音词,得到语义查询词模板。

由于在进行查询的过程中,可能会受到其他互联网词汇的干扰,导致得到的目标语义扩展词中可能会存在噪音词,为了提高构建的语义查询词模板的精度,常常需要将这些噪音词去除,以得到语义查询词模板。又由于噪声词的频次一般较低,因此,服务器在去除目标语义扩展词中的噪音词,得到语义查询词模板时,可按照每个目标语义扩展词出现的频次由高到低,对目标语义扩展词进行排序,得到排序结果,进而根据排序结果,将位数在第二指定位数之前的目标语义扩展词作为语义查询词模板。其中,第二指定位数可以为5位、6位、7位等,本实施例不对第二指定位数作具体的限定。

针对上述构建语义查询词模板的整个过程,为了便于理解,下面将以图4为例进行详细说明。

第一步,用户预先指定一个模板“经典**”,服务器获取该模板,并将该模板作为种子语义查询词模板。

第二步,服务器根据种子语义查询词模板中的核心词“经典”进行查询,查询出目标词“经典少儿歌曲”、“经典老歌”和“经典影视歌曲”。其中,目标词“经典少儿歌曲”的语义修饰词为“少儿歌曲”,目标词“经典老歌”的语义修饰词为“老歌”,目标词“经典影视歌曲”的语义修饰词为“影视歌曲”。

第三步,分别根据目标词的语义修饰词进行查询。当根据目标词的语义修饰词“少儿歌曲”进行查询时,可查询出相似词“少儿歌曲大全”、“少儿歌曲列表”、“好听的少儿歌曲”;当根据目标词的语义修饰词“老歌”进行查询时,可查询出相似词“老歌大全”、“好听的老歌”、“推荐几首老歌”;当根据目标词的语义修饰词“影视歌曲”进行查询时,可查询出相似词“好听的影视歌曲”、“推荐几首影视歌曲”、“影视歌曲有哪些”。

第四步,去除得到的相似词中的语义修饰词,即去除“少儿歌曲大全”、“少儿歌曲列表”、“好听的少儿歌曲”中的“少儿歌曲”,得到语义扩展词为“***大全”、“***列表”、“好听的***”,去除“老歌大全”、“好听的老歌”、“推荐几首老歌”中的“老歌”,得到语义扩展词为“***大全”、“好听的***”、“推荐几首***”,去除“好听的影视歌曲”、“推荐几首影视歌曲”、“影视歌曲有哪些”中的“影视歌曲”,得到语义扩展词为“好听的***”、“推荐几首***”、“***有哪些”。将这些语义扩展词进行合并,得到目标语义扩展词,并按照目标语义扩展词出现的频次进行排序,根据排序结果,去除噪声词,最终得到语义查询词模板为“***大全”、“***列表”、“好听的***”、“推荐几首***”、“***有哪些”。

205、服务器判断得到的语义查询词模板数量是否满足需要,如果是,则流程结束,如果否,则将得到的语义查询词模板作为种子语义查询词模板进行二次迭代。

为了更好地根据构建的语义查询词模板为用户查询出更多符合需求的查询结果,当采用上述方法构建语义查询词模板之后,服务器还将判断语义查询词模板的数量是否符合要求。具体判断时,服务器了将得到的语义查询词模板数量与预设阈值进行比较,该预设阈值可以为2000、3000、5000等。若得到的语义查询词模板的数量大于预设阈值,则判断得到的语义查询词模板数量满足需要,此时构建语义查询词模板的流程结束;若得到的语义查询词模板的数量小于预设阈值,则判断得到的语义查询词模板数量不满足需要,此时可将得到的语义查询词模板作为种子语义查询词模板进行二次迭代,具体实现过程与上述步骤201至步骤204相同,此处不再赘述。

本发明实施例提供的方法,根据种子语义查询词模板中包含的核心词进行查询,在查询过程中不断地基于原有的核心词进行扩展,从而自动地挖掘出大量的语义查询词模板,在该过程中,无需用户进行观察,不仅降低了成本,而且提高了构建速度。

参见图5,本发明实施例提供了一种构建语义查询词模板的装置,该装置包括:

获取模块501,用于获取种子语义查询词模板,种子语义查询词模板中至少包含一个核心词;

第一查询模块502,用于根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括核心词和语义修饰词;

第二查询模块503,用于根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词;

构建模块504,用于基于每个语义修饰词的相似词,构建语义查询词模板。

在本发明的另一个实施例中,第一查询模块502,用于查询互联网查询词集合中是否存在包含种子语义查询词模板中的核心词的互联网查询词;当互联网查询词集合中存在包含核心词的互联网查询词,将包含核心词的互联网查询词 作为目标词。

在本发明的另一个实施例中,第二查询模块503,用于计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度;按照相似度由高到低的顺序,对每个互联网查询词进行排序,得到排序结果;根据排序结果,将位数在第一指定位数之前的互联网查询词作为语义修饰词的相似词。

在本发明的另一个实施例中,第二查询模块503,具体用于获取目标词的语义修饰词在指定文档中的第一点击率;获取互联网查询词集合中任一互联网查询词在指定文档中的第二点击率;根据第一点击率及第二点击率,计算目标词的语义修饰词与互联网查询词之间的相似度。

在本发明的另一个实施例中,第二查询模块503,具体用于根据第一点击率,生成第一向量;根据第二点击率,生成第二向量;计算第一向量和第二向量的夹角余旋值;将夹角余弦值作为目标词的语义修饰词与互联网查询词之间的相似度;其中,第一向量及第二向量的维数与指定文档的个数相等。

在本发明的另一个实施例,构建模块504,用于去除每个语义修饰词的相似词中包含的语义修饰词,得到每个语义修饰词的语义扩展词;对语义扩展词进行合并,得到目标语义扩展词;去除目标语义扩展词中的噪音词,得到语义查询词模板。

在本发明的另一个实施例中,构建模块504,具体用于按照频次由高到低,对目标语义扩展词进行排序,得到排序结果;根据排序结果,将位数在第二指定位数之前的目标语义扩展词作为语义查询词模板。

综上所述,本发明实施例提供的装置,根据种子语义查询词模板中包含的核心词进行查询,在查询过程中不断地基于原有的核心词进行扩展,从而自动地挖掘出大量的语义查询词模板,在该过程中,无需用户进行观察,不仅降低了成本,而且提高了构建速度。

图6是根据一示例性实施例示出的一种用于构建语义查询词模板的装置600 的框图。例如,装置600可以被提供为一构建语义查询词模板的服务器。参照图6,装置600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述的构建语义查询词模板的方法,该方法包括:

获取种子语义查询词模板,种子语义查询词模板中至少包含一个核心词;

根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,每个目标词包括核心词和语义修饰词;

根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词;

基于每个语义修饰词的相似词,构建语义查询词模板。

在本发明的另一个实施例中,根据种子语义查询词模板中的核心词进行查询,得到每个核心词的多个目标词,包括:

查询互联网查询词集合中是否存在包含种子语义查询词模板中的核心词的互联网查询词;

当互联网查询词集合中存在包含核心词的互联网查询词,将包含核心词的互联网查询词作为目标词。

在本发明的另一个实施例中,根据每个目标词的语义修饰词进行查询,得到每个语义修饰词的相似词,包括:

计算任一目标词的语义修饰词与互联网查询词集合中每个互联网查询词之间的相似度;

按照相似度由高到低的顺序,对每个互联网查询词进行排序,得到排序结果;

根据排序结果,将位数在第一指定位数之前的互联网查询词作为语义修饰词的相似词。

在本发明的另一个实施例中,计算任一目标词的语义修饰词与互联网查询 词集合中每个互联网查询词之间的相似度,包括:

获取目标词的语义修饰词在指定文档中的第一点击率;

获取互联网查询词集合中任一互联网查询词在指定文档中的第二点击率;

根据第一点击率及第二点击率,计算目标词的语义修饰词与互联网查询词之间的相似度。

在本发明的另一个实施例中,根据第一点击率及第二点击率,计算目标词的语义修饰词与互联网查询词之间的相似度,包括:

根据第一点击率,生成第一向量;

根据第二点击率,生成第二向量;

计算第一向量和第二向量的夹角余旋值;

将夹角余弦值作为目标词的语义修饰词与互联网查询词之间的相似度;

其中,第一向量及第二向量的维数与指定文档的个数相等。

在本发明的另一个实施例中,基于每个语义修饰词的相似词,构建语义查询词模板,包括:

去除每个语义修饰词的相似词中包含的语义修饰词,得到每个语义修饰词的语义扩展词;

对语义扩展词进行合并,得到目标语义扩展词;

去除目标语义扩展词中的噪音词,得到语义查询词模板。

在本发明的另一个实施例中,去除目标语义扩展词中的噪音词,得到语义查询词模板,包括:

按照频次由高到低,对目标语义扩展词进行排序,得到排序结果;

根据排序结果,将位数在第二指定位数之前的目标语义扩展词作为语义查询词模板。

服务器600还可以包括一个电源组件626被配置为执行服务器600的电源管理,一个有线或无线网络接口650被配置为将服务器600连接到网络,和一个输入输出(I/O)接口658。服务器600可以操作基于存储在存储器632的操 作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。

本发明实施例提供的装置,根据种子语义查询词模板中包含的核心词进行查询,在查询过程中不断地基于原有的核心词进行扩展,从而自动地挖掘出大量的语义查询词模板,在该过程中,无需用户进行观察,不仅降低了成本,而且提高了构建速度。

需要说明的是:上述实施例提供的构建语义查询词模板的装置在构建语义查询词模板时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将构建语义查询词模板的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的构建语义查询词模板的装置与构建语义查询词模板的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1