基于人工智能的搜索结果摘要的生成方法及装置与流程

文档序号:12124122阅读:249来源:国知局
基于人工智能的搜索结果摘要的生成方法及装置与流程

本发明涉及互联网技术,尤其涉及一种基于人工智能的搜索结果摘要的生成方法及装置。



背景技术:

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供搜索服务,将用户搜索相关的信息展示给用户的系统。据国家统计局的报道,中国网民人数已经超过了4亿,这个数据意味着中国已经超过美国成为世界上第一大网民国,且中国的网站总数量已经超过了200万。因此,如何利用搜索服务最大限度满足用户需求,对于互联网企业而言,始终是一个重要的课题。为了增强搜索引擎所提供的搜索结果的展示效果,在搜索结果中,除了页面的标题和页面的统一资源定位符(Uniform Resource Locator,URL)之外,还可以进一步包括一段来自页面的摘要。通常,搜索引擎可以采用动态摘要生成方式,即根据搜索关键词在页面中的位置,提取出周围的内容即片段例如,不完整的句子等来,在输出时将搜索关键词进行高亮显示。

然而,现有的摘要完全依赖于搜索关键词在页面中的位置周围的内容,可能会导致摘要的质量的降低。



技术实现要素:

本发明的多个方面提供一种基于人工智能的搜索结果摘要的生成方法及装置,用以提高摘要的质量。

本发明的一方面,提供一种搜索结果摘要的生成方法,包括:

获取搜索关键词;

根据所述搜索关键词,获得至少一个页面;

对所述搜索关键词进行分词处理,获得至少一个第一分词结果;以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果;

根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据;

根据所述每个页面的特征数据,获得所述每个页面的摘要;

输出包含所述每个页面的摘要的搜索结果。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据,包括:

根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量;

根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量;

根据所述每个第一分词结果的空间向量与所述每个第二分词结果的空间向量,计算所述每个第一分词结果与所述每个第二分词结果之间的相似度;

将所述每个页面的与所述每个第一分词结果之间的相似度最大的第二分词结果,作为所述每个页面的特征数据。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量,包括:

将所述至少一个第一分词结果中每个第一分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第一分词结果的正向空间向量表示;

将所述至少一个第一分词结果中每个第一分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第一分词结果的逆向空间向量表示;

根据所述每个第一分词结果的正向空间向量表示和所述每个第一分词结果的逆向空间向量表示,获得所述每个第一分词结果的空间向量。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量,包括:

将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第二分词结果的正向空间向量表示;

将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第二分词结果的逆向空间向量表示;

根据所述每个第二分词结果的正向空间向量表示和所述每个第二分词结果的逆向空间向量表示,获得所述每个第二分词结果的空间向量。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量之前,还包括:

根据用户历史行为数据,获得同一个搜索关键词所对应的正例样本和负例样本;

将同一个搜索关键词所对应的正例样本与负例样本两两组合,组成配对样本,以作为训练数据;

利用所述训练数据,构建所述神经网络。

本发明的另一方面,提供一种搜索结果摘要的生成装置,包括:

获取单元,用于获取搜索关键词;

匹配单元,用于根据所述搜索关键词,获得至少一个页面;

预处理单元,用于对所述搜索关键词进行分词处理,获得至少一个第一分词结果;以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果;

特征单元,用于根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据;

摘要单元,用于根据所述每个页面的特征数据,获得所述每个页面的摘要;

输出单元,用于输出包含所述每个页面的摘要的搜索结果。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于

根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量;

根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量;

根据所述每个第一分词结果的空间向量与所述每个第二分词结果的空间向量,计算所述每个第一分词结果与所述每个第二分词结果之间的相似度;以及

将所述每个页面的与所述每个第一分词结果之间的相似度最大的第二分词结果,作为所述每个页面的特征数据。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于

将所述至少一个第一分词结果中每个第一分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第一分词结果的正向空间向量表示;

将所述至少一个第一分词结果中每个第一分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第一分词结果的逆向空间向量表示;以及

根据所述每个第一分词结果的正向空间向量表示和所述每个第一分词结果的逆向空间向量表示,获得所述每个第一分词结果的空间向量。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,具体用于

将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第二分词结果的正向空间向量表示;

将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第二分词结果的逆向空间向量表示;以及

根据所述每个第二分词结果的正向空间向量表示和所述每个第二分词结果的逆向空间向量表示,获得所述每个第二分词结果的空间向量。

如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特征单元,还用于

根据用户历史行为数据,获得同一个搜索关键词所对应的正例样本和负例样本;

将同一个搜索关键词所对应的正例样本与负例样本两两组合,组成配对样本,以作为训练数据;以及

利用所述训练数据,构建所述神经网络。

由上述技术方案可知,本发明实施例通过根据所获取的搜索关键词,获得至少一个页面,进而对所述搜索关键词和所述至少一个页面中每个页面进行分词处理,获得至少一个第一分词结果和至少一个第二分词结果,并根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据,使得能够根据所述每个页面的特征数据,获得所述每个页面的摘要,并输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于搜索关键词在页面中的位置周围的内容,而是依赖每个页面中与搜索关键词相似的内容来生成摘要,充分利用了页面全文的内容,从而提高了摘要的质量。

另外,采用本发明所提供的技术方案,由于采用每个页面中与搜索关键词相似的内容作为生成摘要的内容单元,能够避免现有技术中由于采用搜索关键词周围的内容即片段生成摘要而导致的可读性差的问题,因此,能够有效提高摘要的可读性。

另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的搜索结果摘要的生成方法的流程示意图;

图2为本发明另一实施例提供的搜索结果摘要的生成装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。

需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的搜索结果摘要的生成方法的流程示意图,如图1所示。

101、获取搜索关键词。

102、根据所述搜索关键词,获得至少一个页面。

103、对所述搜索关键词进行分词处理,获得至少一个第一分词结果;以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果。

104、根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据。

105、根据所述每个页面的特征数据,获得所述每个页面的摘要。

106、输出包含所述每个页面的摘要的搜索结果。

需要说明的是,101~106的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。

可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。

这样,通过根据所获取的搜索关键词,获得至少一个页面,进而对所述搜索关键词和所述至少一个页面中每个页面进行分词处理,获得至少一个第一分词结果和至少一个第二分词结果,并根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据,使得能够根据所述每个页面的特征数据,获得所述每个页面的摘要,并输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于搜索关键词在页面中的位置周围的内容,而是依赖每个页面中与搜索关键词相似的内容来生成摘要,充分利用了页面全文的内容,从而提高了摘要的质量。

可选地,在本实施例的一个可能的实现方式中,在101中,具体可以采集用户所提供的所述搜索关键词。具体来说,具体可以通过用户所触发的搜索命令实现。具体可以采用但不限于下述几种方式触发搜索命令:

方式一:

用户可以在当前应用所展现的页面上所输入所述搜索关键词,然后,通过点击该页面上的搜索按钮例如,百度一下,以触发搜索命令,该搜索命令中包含所述搜索关键词。其中,用户输入所述搜索关键词的顺序可以为任意顺序。这样,在接收到该搜索命令之后,则可以解析出其中所包含的所述搜索关键词。

方式二:

采用异步加载技术例如,Ajax异步加载或Jsonp异步加载等,实时获取用户在当前应用所展现的页面上所输入的输入内容,为了与搜索关键词进行区分,此时的输入内容可以称为是输入关键词。其中,用户输入所述搜索关键词的顺序可以为任意顺序。具体地,具体可以提供Ajax接口或Jsonp接口等接口,这些接口可以使用Java、超级文本预处理(Hypertext Preprocessor,PHP)语言等语言进行编写,其具体的调用可以使用Jquery,或者原生的JavaScript等语言进行编写。

方式三:用户可以通过长按当前应用所展现的页面上的语音搜索按钮,说出想要输入的语音内容,然后,松开语音搜索按钮,以触发搜索命令,该搜索命令中包含根据所说出的语音内容转换的文本形式的搜索关键词。这样,在接收到该搜索命令之后,则可以解析出其中所包含的所述搜索关键词。

方式四:用户可以通过点击当前应用所展现的页面上的语音搜索按钮,说出想要输入的语音内容,待结束说出语音内容一段时间例如,2秒钟之后,则触发搜索命令,该搜索命令中包含根据所说出的语音内容转换的文本形式的搜索关键词。这样,在接收到该搜索命令之后,则可以解析出其中所包含的所述搜索关键词。

在获取到所述输入关键词之后,则可以执行后续操作即102~106。

可选地,在本实施例的一个可能的实现方式中,在102中,具体可以采用现有的搜索方法,获得与所述搜索关键词,对应的若干个页面。详细描述可以参见现有技术中的相关内容,此处不在赘述。

可以理解的是,本发明所涉及的页面,也可以称为Web页面或网页,可以是基于超文本标记语言(HyperText Markup Language,HTML)编写的网页(Web Page),即HTML页面,或者还可以是基于HTML和Java语言编写的网页,即Java服务器页面(Java Server Page,JSP),或者还可以为其他语言编写的网页,本实施例对此不进行特别限定。页面可以包括由一个或者多个页面标签例如,超文本标记语言(HyperText Markup Language,HTML)标签、JSP标签等,定义的一个显示区块,称为页面元素,例如,文字、图片、超链接、按钮、编辑框、下拉框等。

可选地,在本实施例的一个可能的实现方式中,在103中,具体可以采用现有的各种分词处理方法,对所述搜索关键词进行分词处理,获得至少一个第一分词结果,以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果,详细描述可以参见现有技术中的相关内容,此处不再赘述。

可选地,在本实施例的一个可能的实现方式中,在104之前,还可以进一步根据用户历史行为数据,获得同一个搜索关键词(query)所对应的正例样本和负例样本,并将同一个搜索关键词所对应的正例样本与负例样本两两组合,组成配对样本<<Q,T,1><Q,T,0>>(Q表示query,T表示样本数据,0表示负例,1表示正例),以作为训练数据。进而,则可以利用所述训练数据,构建所述神经网络。其中,所述神经网络可以包括但不限于循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)或深度神经网络(Deep Neural Network,DNN),本实施例对此不进行特别限定。

所谓的正例样本,是指点击过的页面;所谓的负例样本,是指未点击过的页面。对于同一个query,一个正例样本和一个负例样本就组成了一个训练用的数据样本即训练数据。这里的点击过的页面与未点击过的页面,具体可以是指在搜索引擎的点击日志当中所记录的,当某个用户搜索了一个query之后,选择了其中的某个搜索结果进行进一步浏览,则可以称该搜索结果所对应的页面为点击过的页面,称未选择的其他搜索结果所对应的页面为未点击的页面。

在获得了训练用的数据样本即训练数据之后,可以将query的空间向量与正例样本的空间向量之间的相似度减去query的空间向量与负例样本的空间向量之间的相似度之间的差最大化(hinge loss)作为所设计的神经网络的学习目标,来学习出神经网络的参数。

具体来说,针对一个query或者一个页面,其需要经过输入层处理、隐藏层处理和输出层处理。其中,最下层是输入层,即通过查字典的方式找出句子中某个词的词向量;以RNN为例,隐藏层的隐层向量,是通过循环单元(Recurrent Unit)的计算,逐步得到的。句子的最后一个词所得到的隐层向量,即为整个句子的向量表示。

更具体地,输入层是按照时间序列(i=1到i=T,T为大于或等于1的整数)逐次输入到神经网络的句子(即query或者页面)当中的词wi;神经网络的词向量,表示每个输入的词wi所对应的词向量(Word Embedding),它是一个长度为EMBEDDING_SIZE的列向量C(wi)。假设词表中词的大小为1000000,那么系统中输入层的输入就是一个1000000维的向量(EMBEDDING_SIZE=1000000),其中当前词对应的位置为1,词典中其他词所对应的位置为0。神经网络的隐藏层,表示所设计的神经网络在每个时间点i时的状态,是一个长度为HIDDEN_SIZE的列向量hi;最后一个词的词向量表示hT,即为句子的向量表示。query、正例样本与负例样本的空间向量分别记为CQ,

本实施方式所采用的训练方法中的第t步所得到的隐层向量h<t>通过Recurrent Unit,根据第t个词的词向量e与前一步的隐层向量h<t-1>计算而得到。具体的隐层向量h<t>计算方法,可以参见现有技术中的相关内容,此处不再赘述。

在获得了query、正例样本与负例样本的空间向量之后,可以利用余弦相似度计算公式,计算query的空间向量与正例样本的空间向量之间的相似度,记为以及query的空间向量与负例样本的空间向量之间的相似度,记为

所训练的神经网络的训练目标是,使得query的空间向量与正例样本的空间向量之间的相似度减去query的空间向量与负例样本的空间向量之间的相似度之间的差最大化(hinge loss)。在具体的实现的时候,是当减去之差,小于预设阈值(margin)时,则针对该样本进行后向梯度计算,并更新梯度。

为了能够实现这样一个深度学习网络的训练,我们需要有足够多的数据样本即训练数据,在收集到足够多的配对样本<<Q,T,1><Q,T,0>>(Q表示query,T表示样本数据,0表示负例,1表示正例)之后,则可以将这些配对样本作为所设计的神经网络的训练数据。利用随机梯度下降(Stochastic Gradient Descent,SGD)算法和反向传播(BackPropagation,BP)算法中的至少一种算法,学习所述神经网络的网络参数,例如,参数W、参数Wh、参数Wrec。其中,SGD算法和BP算法的详细描述,可以参见现有技术中的相关内容,此处不再赘述。

至此,所述神经网络构建完毕。

可选地,在本实施例的一个可能的实现方式中,在104中,具体可以根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量,以及根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量。进而,则可以根据所述每个第一分词结果的空间向量与所述每个第二分词结果的空间向量,计算所述每个第一分词结果与所述每个第二分词结果之间的相似度。然后,可以将所述每个页面的与所述每个第一分词结果之间的相似度最大的第二分词结果,作为所述每个页面的特征数据。

在一个具体的实现过程中,具体可以将所述至少一个第一分词结果中每个第一分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第一分词结果的正向空间向量表示。然后,再将所述至少一个第一分词结果中每个第一分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第一分词结果的逆向空间向量表示。接着,则可以根据所述每个第一分词结果的正向空间向量表示和所述每个第一分词结果的逆向空间向量表示,获得所述每个第一分词结果的空间向量,例如,将所述每个第一分词结果的正向空间向量表示和所述每个第一分词结果的逆向空间向量表示拼接成一个向量,作为所述每个第一分词结果的空间向量。

类似地,具体可以将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第二分词结果的正向空间向量表示。然后,再将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第二分词结果的逆向空间向量表示。接着,则可以根据所述每个第二分词结果的正向空间向量表示和所述每个第二分词结果的逆向空间向量表示,获得所述每个第二分词结果的空间向量,例如,将所述每个第二分词结果的正向空间向量表示和所述每个第二分词结果的逆向空间向量表示拼接成一个向量,作为所述每个第二分词结果的空间向量。

以多层反馈型的循环神经网络(Recurrent neural Network,RNN)为例,依次将文本即用户所提供的搜索关键词(query)或搜索结果所对应的页面中的词输入到RNN中,每次计算得到该词的抽象空间向量表示。具体可以采用双向的RNN计算,即按照文本的正向顺序输入词,得到一个正向的高维空间向量表示Vi+,然后按照文本的逆向顺序输入词,得到一个逆向的高维空间向量表示Vi-,将这两个高维空间向量表示拼接成一个向量Vi=(Vi+,Vi-),作为当前词的最终的向量空间表示即空间向量。该空间向量Vi结合了文本中,第i个词以及它前面的上下文信息和后面的上下文信息,能更好的从“词义”的角度来说明当前词的数学表示,因此,由这样的向量计算出来的词与词之间的相似度更具有说服力。

传统的摘要生成方法,主要是根据用户所提供的搜索关键词(query),在搜索结果所对应的页面中进行基于词的匹配,在出现匹配词的句子中,选取一定长度的内容作为搜索结果的摘要。其缺点在于,基于单纯的词匹配方法生成的摘要并没有考虑到一词多义、近似词的问题,例如,“苹果”既可以指水果也可以指“苹果牌手机”,“新品”和“新的”为近似词等。传统的摘要生成方法倾向于将首先匹配上的句子作为摘要,没有考虑到全文内容,以及上下文的影响,所以存在偏差,并不能从用户的兴趣角度来生成更吸引用户的摘要。本发明所提供的技术方案,可以解决传统方法中存在位置偏差的问题,同时结合了网页文章的上下文信息,将用户所提供的搜索关键词(query)中与页面中词义上最相似的词给找出来,并且利用搜索引擎中用户点击数据来训练神经网络,是真正意义上的从用户的兴趣角度出发生成页面的摘要。概括来说,本发明主要的创新点如下:

其一,分别对用户所提供的query和搜索结果所对应的页面进行切词,以切出来的每个词为单位,针对query中的每个词,找到搜索结果所对应的页面中相似度最高的词。每个query中的词都进行一次上述的处理,得到的搜索结果所对应的页面中所有最相似的词组成该页面的摘要。

其二,利用所设计的深度学习的神经网络以及所设计的深度学习的神经网络的网络参数学习方法所学习出来的深度学习网络参数,能够有效的计算出query与页面中的词在所定义的神经网络中的抽象表示,从而可以计算得到在这样的抽象空间中,query中的词与页面中的词之间的相似度。

其三,搜索引擎的用户点击数据有正例(用户点击过的搜索结果)和负例(用户未点击过的搜索结果)之分。将用户点击数据的正例与用户点击数据的负例同时作为深度学习的神经网络的输入,使用成对组合(pair-wise)的训练机制,使得每一次正例与负例输入的神经网络的输出结果即相似度之间的距离最大,可以学习得到深度网络的网络参数,用以计算query中词的抽象表示与搜索结果所对应的页面中词的抽象表示,以及query中词与搜索结果所对应的页面中词之间的相似度。

本实施例中,通过根据所获取的搜索关键词,获得至少一个页面,进而对所述搜索关键词和所述至少一个页面中每个页面进行分词处理,获得至少一个第一分词结果和至少一个第二分词结果,并根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据,使得能够根据所述每个页面的特征数据,获得所述每个页面的摘要,并输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于搜索关键词在页面中的位置周围的内容,而是依赖每个页面中与搜索关键词相似的内容来生成摘要,充分利用了页面全文的内容,从而提高了摘要的质量。

另外,采用本发明所提供的技术方案,由于采用每个页面中与搜索关键词相似的内容作为生成摘要的内容单元,能够避免现有技术中由于采用搜索关键词周围的内容即片段生成摘要而导致的可读性差的问题,因此,能够有效提高摘要的可读性。

另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的搜索结果摘要的生成装置的结构示意图,如图2所示。本实施例的搜索结果摘要的生成装置可以包括获取单元21、匹配单元22、预处理单元23、特征单元24、摘要单元25和输出单元26。其中,获取单元21,用于获取搜索关键词;匹配单元22,用于根据所述搜索关键词,获得至少一个页面;预处理单元23,用于对所述搜索关键词进行分词处理,获得至少一个第一分词结果;以及对所述至少一个页面中每个页面进行分词处理,获得至少一个第二分词结果;特征单元24,用于根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据;摘要单元25,用于根据所述每个页面的特征数据,获得所述每个页面的摘要;输出单元26,用于输出包含所述每个页面的摘要的搜索结果。

需要说明的是,本实施例所提供的搜索结果摘要的生成装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。

可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。

可选地,在本实施例的一个可能的实现方式中,所述特征单元24,具体可以用于根据所述至少一个第一分词结果中每个第一分词结果,利用神经网络,获得所述每个第一分词结果的空间向量;根据所述每个页面的所述至少一个第二分词结果中每个第二分词结果,利用所述神经网络,获得所述每个第二分词结果的空间向量;根据所述每个第一分词结果的空间向量与所述每个第二分词结果的空间向量,计算所述每个第一分词结果与所述每个第二分词结果之间的相似度;以及将所述每个页面的与所述每个第一分词结果之间的相似度最大的第二分词结果,作为所述每个页面的特征数据。

在一个具体的实现过程中,所述特征单元24,具体可以用于将所述至少一个第一分词结果中每个第一分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第一分词结果的正向空间向量表示;将所述至少一个第一分词结果中每个第一分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第一分词结果的逆向空间向量表示;以及根据所述每个第一分词结果的正向空间向量表示和所述每个第一分词结果的逆向空间向量表示,获得所述每个第一分词结果的空间向量。

在另一个具体的实现过程中,所述特征单元24,具体可以用于将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照正向顺序依次输入所述神经网络,获得所述每个第二分词结果的正向空间向量表示;将所述每个页面的所述至少一个第二分词结果中每个第二分词结果,按照逆向顺序依次输入所述神经网络,获得所述每个第二分词结果的逆向空间向量表示;以及根据所述每个第二分词结果的正向空间向量表示和所述每个第二分词结果的逆向空间向量表示,获得所述每个第二分词结果的空间向量。

可选地,在本实施例的一个可能的实现方式中,所述特征单元24,还可以进一步用于根据用户历史行为数据,获得同一个搜索关键词所对应的正例样本和负例样本;将同一个搜索关键词所对应的正例样本与负例样本两两组合,组成配对样本,以作为训练数据;以及利用所述训练数据,构建所述神经网络。

需要说明的是,图1对应的实施例中方法,可以由本实施例提供的搜索结果摘要的生成装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。

本实施例中,通过匹配单元根据获取单元所获取的搜索关键词,获得至少一个页面,进而由预处理单元对所述搜索关键词和所述至少一个页面中每个页面进行分词处理,获得至少一个第一分词结果和至少一个第二分词结果,并由特征单元根据所述至少一个第一分词结果中每个第一分词结果,与,所述每个页面的所述至少一个第二分词结果中每个第二分词结果,获得所述每个页面的与所述每个第一分词结果最相似的第二分词结果,以作为所述每个页面的特征数据,使得摘要单元能够根据所述每个页面的特征数据,获得所述每个页面的摘要,并由输出单元输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于搜索关键词在页面中的位置周围的内容,而是依赖每个页面中与搜索关键词相似的内容来生成摘要,充分利用了页面全文的内容,从而提高了摘要的质量。

另外,采用本发明所提供的技术方案,由于采用每个页面中与搜索关键词相似的内容作为生成摘要的内容单元,能够避免现有技术中由于采用搜索关键词周围的内容即片段生成摘要而导致的可读性差的问题,因此,能够有效提高摘要的可读性。

另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1