智能语义文档推荐方法、装置及计算机可读存储介质与流程

文档序号:18642658发布日期:2019-09-11 23:42阅读:134来源:国知局
智能语义文档推荐方法、装置及计算机可读存储介质与流程

本发明涉及语音语义技术领域,尤其涉及一种基于知识内容和用户行为协同的智能语义文档推荐方法、装置及计算机可读存储介质。



背景技术:

话术,表现了人们思考问题和说话的方式,有些人说话一语中的,听者可以很清楚的了解、明白说话人想表达的意思,并给出正确的反馈,而有些人说话却犹如隔靴搔痒,需要更深入的了解说话人想要表达的意思,才能给出正确的反馈。

当用户需要查阅某方面的资料时,鉴于该用户平时思考问题和说话的方式,根据该用户在搜索框中输入的文档信息,采用传统的按字面意思的文档搜索方法,诸如余弦相似度、jaccard距离、vsm等,搜索到并推荐给用户的资料可能会与所述用户真正需要资料的不相符,从而浪费用户的精力与时间,并给用户带来了不好的使用体验。



技术实现要素:

本发明提供一种智能语义文档推荐方法、装置及计算机可读存储介质,其主要目的在于提供一种个性化的文档信息搜索与推荐方案。

为实现上述目的,本发明提供的一种智能语义文档推荐方法,包括:

获取文档数据库中所有的文档信息,组成语料库;

采集用户的历史查询信息以及用户从根据所述历史查询信息得到的检索结果集中选择的文档信息,对所述历史查询信息以及用户选择的文档信息进行预处理操作,得到所述历史查询信息以及用户选择的文档信息的特征点;

将所述语料库中的文档信息作为训练集,以及将所述历史查询信息以及用户选择的文档信息的特征点作为标签集,利用所述训练集和标签集对构建的智能语义文档推荐模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述智能语义文档推荐模型损失函数中,直至所述损失函数训练值小于预设阈值时,退出训练;

接收所述用户输入的查询信息,根据所述查询信息,利用所述智能语义文档推荐模型,从所述文档数据库中进行文档检索,并对文档检索结果进行排序后输出给用户。

可选地,所述预处理操作包括:

利用全切分法对所述历史查询信息以及对应选择的文档信息进行切分,获取多种分词方式;

通过马尔可夫模型计算出每一种分词方式的概率,选择概率最大的一种分词方式中的分词结果,作为所述历史查询信息以及对应选择的文档信息的分词结果。

可选地,所述预处理操作还包括:

对所述分词结果进行关键词提取,具体计算方式如下所示:

计算所述分词结果中的任意两个词语wi和wj的依存关联度:

其中,len(wi,wj)表示词语wi和wj之间的依存路径长度,b是超参数;

计算词语wi和wj的引力:

其中,tfidf(w)是词语w的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词语wi和wj的词向量之间的欧式距离;

得到词语wi和wj之间的关联度为:

weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)

建立无向图g=(v,e),其中v是顶点的集合,e是边的集合;

计算出词语wi的重要度得分:

其中,是与顶点wi有关的集合,η为阻尼系数;

根据所述重要度得分,对所有词语进行排序,根据所述排序从所述词语中选择预设数量的关键词。

可选地,所述利用所述训练集和标签集对构建的智能语义文档推荐模型进行训练,得到训练值,包括:

搭建包括卷积神经网络模型的智能语义文档推荐模型;

对所述训练集和标签集转换为向量后输入至所述卷积神经网络模型的输入层中,并通过在所述卷积神经网络模型卷积层中预设一组过滤器对所述向量进行卷积操作,提取出特征向量;

利用所述卷积神经网络模型的池化层对所述特征向量进行池化操作并输入至全连接层,通过激活函数对所述特征向量输入分类标签,输出文本类别概率,得到所述训练值。

可选地,所述对文档检索结果进行排序,包括:

对用户从根据历史查询信息输出的检索结果集中选择的文档信息按照领域进行分类,统计出所述选择的文档信息的点击次数和贡献度,并利用线性累计加权方法计算出用户对所述选择的文档信息的兴趣程度,并根据所述感兴趣程度,对所述文档检索结果进行排序;

其中,所述线性累计加权方法包括:

预设用户u输入了n个属于领域t的查询信息:

a(u,q,t)=(1-β)vl(u,q,t)+βah(u,t)

其中,a(u,q,t)表示用户u在当前查询信息q下的兴趣,q∈t,ah(u,t)表示用户u在领域t的累积兴趣,vl(u,q,t)表示用户u在查询信息q下提供的检索结果获得的归一化票数,并且有q∈t,β是超参数。

此外,为实现上述目的,本发明还提供一种智能语义文档推荐装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的智能语义文档推荐程序,所述智能语义文档推荐程序被所述处理器执行时实现如下步骤:

获取文档数据库中所有的文档信息,组成语料库;

采集用户的历史查询信息以及用户从根据所述历史查询信息得到的检索结果集中选择的文档信息,对所述历史查询信息以及用户选择的文档信息进行预处理操作,得到所述历史查询信息以及用户选择的文档信息的特征点;

将所述语料库中的文档信息作为训练集,以及将所述历史查询信息以及用户选择的文档信息的特征点作为标签集,利用所述训练集和标签集对构建的智能语义文档推荐模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述智能语义文档推荐模型损失函数中,直至所述损失函数训练值小于预设阈值时,退出训练;

接收所述用户输入的查询信息,根据所述查询信息,利用所述智能语义文档推荐模型,从所述文档数据库中进行文档检索,并对文档检索结果进行排序后输出给用户。

可选地,所述预处理操作包括:

利用全切分法对所述历史查询信息以及对应选择的文档信息进行切分,获取多种分词方式;

通过马尔可夫模型计算出每一种分词方式的概率,选择概率最大的一种分词方式中的分词结果,作为所述历史查询信息以及对应选择的文档信息的分词结果。

可选地,所述预处理操作还包括:

对所述分词结果进行关键词提取,具体计算方式如下所示:

计算所述分词结果中的任意两个词语wi和wj的依存关联度:

其中,len(wi,wj)表示词语wj和wj之间的依存路径长度,b是超参数数;

计算词语wi和wj的引力:

其中,tfidf(w)是词语w的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词语wi和wj的词向量之间的欧式距离;

得到词语wi和wj之间的关联度为:

weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)

建立无向图g=(v,e),其中v是顶点的集合,e是边的集合;

计算出词语wi的重要度得分:

其中,是与顶点wi有关的集合,η为阻尼系数;

根据所述重要度得分,对所有词语进行排序,根据所述排序从所述词语中选择预设数量的关键词。

可选地,所述对文档检索结果进行排序,包括:

对用户从根据历史查询信息输出的检索结果集中选择的文档信息按照领域进行分类,统计出所述选择的文档信息的点击次数和贡献度,并利用线性累计加权方法计算出用户对所述选择的文档信息的兴趣程度,并根据所述感兴趣程度,对所述文档检索结果进行排序;

其中,所述线性累计加权方法包括:

预设用户u输入了n个属于领域t的查询信息:

a(u,q,t)=(1-β)vl(u,q,t)+βah(u,t)

其中,a(u,q,t)表示用户u在当前查询信息q下的兴趣,q∈t,ah(u,t)表示用户u在领域t的累积兴趣,vl(u,q,t)表示用户u在查询信息q下提供的检索结果获得的归一化票数,并且有q∈t,β是超参数。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有智能语义文档推荐程序,所述智能语义文档推荐程序可被一个或者多个处理器执行,以实现如上所述的智能语义文档推荐方法的步骤。

本发明提出的智能语义文档推荐方法、装置及计算机可读存储介质,接收用户输入的查询信息,根据所述查询信息,利用所述智能语义文档推荐模型,从所述文档数据库中进行文档检索,对文档检索结果进行排序后输出给用户,给用户提供一种个性化的文档信息搜索与推荐方案。

附图说明

图1为本发明一实施例提供的智能语义文档推荐方法的流程示意图;

图2为本发明一实施例提供的智能语义文档推荐装置的内部结构示意图;

图3为本发明一实施例提供的智能语义文档推荐装置中智能语义文档推荐程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种智能语义文档推荐方法。参照图1所示,为本发明一实施例提供的智能语义文档推荐方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

在本实施例中,智能语义文档推荐方法包括:

s1、获取文档数据库中所有的文档信息,组成语料库。

本发明较佳实施例中,所述文档数据库中存储有各种文档,该文档可以被搜索引擎利用预设的搜索策略所查询到。

s2、采集用户的历史查询信息以及用户从根据所述历史查询信息得到的检索结果集中选择的文档信息,对所述历史查询信息以及用户选择的文档信息进行预处理操作,得到所述历史查询信息以及用户选择的文档信息的特征点。

例如,用户曾经在一个搜索引擎中输入查询信息“平安寿险怎么样”,所述搜索引擎根据该输入的查询信息,以列表的形式输出n条结果集。通常情况下,该n条结果集可能是按照字面意思进行搜索并排序的。这样的搜索以及排序方式有可能使用户不能立刻找到自己所需要的内容,于是,用户可能在经过长时间的筛选之后,选择其中的一条或者几条文档信息进行点击查阅。本发明较佳实施例搜集用户在搜索引擎中输入的每一次历史查询信息以及用户从根据所述历史查询信息搜索到的输出结果集中选择的文档信息。

本发明所述预处理操作包括分词操作以及关键词提取操作。

本发明所述分词操作中对所述句子s使用全切分法进行切分,获得所有可能的中文分词方式,计算出所述每一种分词方式的概率,选出其中概率最大的一种分词方式中的分词结果,作为最终文档分词结果。

根据马尔科夫性,文档中第n个词出现的可能性只与其前面n-1个词语的出现有关,而与第n个词语之后的所有词语无关,因此,在一个由词序列{w1,w2…wm}组成的句子s中,在前n-1个词语出现的情况下,第n词语wi出现的概率为:

p(wi|w1,…wi-1)=p(wi|wi-n+1,…wi-1)

因此,所述句子s按照所述词序排列的概率为:

p(s)=p(w1w2…wm)=p(w1)p(w2|w1)…p(wm|wm-i+1,…wm-1)

其中条件概率p(wm|wm-i+1,…wm-1)表示:在字符串wm-i+1,…wm-1出现的情况下wm出现的概率,通过在大规模语料库训练的基础上,使用二元语法模型,因此,所述句子s的概率模型为:

本发明从上述计算出来的所有p(s)选择p(s)的极大值对应的分词结果作为本案的分词结果:

进一步地,本发明较佳实施例中通过关键词提取方法对所述分词结果进行关键词抽取。所述关键词提取算法是利用统计信息、词向量信息以及词语间的依存句法信息,通过构建依存关系图来计算词语之间的关联强度,利用textrank算法迭代算出词语的重要度得分,并根据句子的依存句法分析结果对所有非停用词构造无向图,利用词语之间的引力值以及依存关联度计算求得边的权重。

详细地,所关键词提取方法包括:

计算根据上述分词结果得到的任意两个词语wi和wj的依存关联度:

其中,len(wi,wj)表示词语wi和wj之间的依存路径长度,b是超参数数;

计算词语wi和wj的引力:

其中,tfidf(w)是词语w的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词语wi和wj的词向量之间的欧式距离;

得到词语wi和wj之间的关联度为:

weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)

利用textrank算法建立一个有所有分词构建的无向图g=(v,e),其中v是顶点的集合,e是边的集合,得到词语的重要度得分集合。

计算出词语wi的重要度得分:

其中,是与顶点wi有关的集合,η为阻尼系数。

进一步地,本发明较佳实施例根据所述重要度得分,对所有词语进行排序,根据所述排序从所述词语中选择预设数量的关键词,例如,选取所述词语的重要度最高分的n个词语作为关键词,从而得到所述查询信息以及用户选择的文档信息的特征点。

s3、将所述语料库中的文档信息作为训练集,以及将所述历史查询信息以及用户选择的文档信息的特征点作为标签集,利用所述训练集对构建的智能语义文档推荐模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述智能语义文档推荐模型的损失函数中,直至所述损失函数训练值小于预设阈值时,退出训练。

本发明较佳实施例中,所述智能语义文档推荐模型包括卷积神经网络。所述卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,其基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。

本发明较佳实施例中,所述卷积神经网络包含输入层、卷积层、池化层以及输出层。本发明较佳实施例对所述训练集和标签集的文本转换为向量表示,将所述向量输入至所述卷积神经网络模型的输入层中,并通过在所述卷积层中预设一组过滤器对所述向量进行卷积操作,提取出特征向量,所述过滤器可以为{filter0,filter1},分别用于在相似通道和相异通道上来生成一组特征;利用所述池化层对所述特征向量进行池化操作并输入至全连接层。

本发明较佳实施例中,预设所述训练集中的文本为z和所述标签集中的文本为t,将所述文本z中的关键词序列keyz中的每一个关键词keyz都转化为向量表示通过所述文本t中的关键词序列keyt计算keyz的语义匹配向量即用keyt中的部分关键词表示keyz,基于语义匹配向量进行分解,得到keyz与keyt间相似向量以及相异向量对所述文本z中中每一个词都进行上述操作,便得到kz的相似矩阵和相异矩阵进行合并便得到文本z和文本t的特征向量。

进一步地,本发明较佳实施例中通过softmax激活函数对所述特征向量输入分类标签,从而计算出输出的文本类别概率,并将所述文本类别概率输入至损失函数中,计算损失函数值,当所述损失函数值小于阈值时,退出训练。本发明较佳实施例中所述阈值预设为0.01。

所述softmax函数计算公式为:

其中,表示文本类别i输出的指数,分母是所有类别输出的指数和,共k个类别。

所述损失函数计算公式为:

其中,j是损失函数值,yi是所述输出的文本的类别i的真实标签,k是所述输出的文本类别数,n是所述输出的文本的样本总数。

s4、接收所述用户当前输入的查询信息,根据所述查询信息,利用所述智能语义文档推荐模型,从所述文档数据库中进行文档检索,并对文档检索结果进行排序后输出给用户。

本发明较佳实施例对用户从根据历史查询信息输出的检索结果集中选择的文档信息按照领域进行分类,统计出所述选择的文档信息的点击次数和贡献度,并利用线性累计加权方法计算出用户对所述选择的文档信息的兴趣程度,并根据所述感兴趣程度,对所述文档检索结果进行排序。

其中,所述线性累计加权方法包括:

预设用户u输入了n个属于领域t的查询信息:

a(u,q,t)=(1-β)vl(u,q,t)+βah(u,t)

其中,a(u,q,t)表示用户u在当前文档q下的兴趣,q∈t,ah(u,t)表示用户u在领域t的累积兴趣,v1(u,q,t)表示用户u在查询信息q下提供的检索结果获得的归一化票数,并且有q∈t,β是超参数。

进一步地,本案较佳实施例根据用户当前输入的查询信息,以及用户从所述智能语义文档推荐模型根据该查询信息返回的文档检索结果中选择的文档信息进一步训练所述智能语义文档推荐模型,使得所述智能语义文档推荐模型进行不断的优化和更新,为用户提供更优质的文档推荐结果。

发明还提供一种智能语义文档推荐装置。参照图2所示,为本发明一实施例提供的智能语义文档推荐装置的内部结构示意图。(对应修改)

在本实施例中,所述智能语义文档推荐装置1可以是pc(personalcomputer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该智能语义文档推荐装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。

其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是智能语义文档推荐装置1的内部存储单元,例如该智能语义文档推荐装置1的硬盘。存储器11在另一些实施例中也可以是智能语义文档推荐装置1的外部存储设备,例如智能语义文档推荐装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括智能语义文档推荐装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于智能语义文档推荐装置1的应用软件及各类数据,例如智能语义文档推荐程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行智能语义文档推荐程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该装置1与其他电子设备之间建立通信连接。

可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在智能语义文档推荐装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及智能语义文档推荐程序01的智能语义文档推荐装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对智能语义文档推荐装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

在图2所示的装置1实施例中,存储器11中存储有智能语义文档推荐程序01;处理器12执行存储器11中存储的智能语义文档推荐程序01时实现如下步骤:

步骤一、获取文档数据库中所有的文档信息,组成语料库。

本发明较佳实施例中,所述文档数据库中存储有各种文档,该文档可以被搜索引擎利用预设的搜索策略所查询到。

步骤二、采集用户的历史查询信息以及用户从根据所述历史查询信息得到的检索结果集中选择的文档信息,对所述历史查询信息以及用户选择的文档信息进行预处理操作,得到所述历史查询信息以及用户选择的文档信息的特征点。

例如,用户曾经在一个搜索引擎中输入查询信息“平安寿险怎么样”,所述搜索引擎根据该输入的查询信息,以列表的形式输出n条结果集。通常情况下,该n条结果集可能是按照字面意思进行搜索并排序的。这样的搜索以及排序方式有可能使用户不能立刻找到自己所需要的内容,于是,用户可能在经过长时间的筛选之后,选择其中的一条或者几条文档信息进行点击查阅。本发明较佳实施例搜集用户在搜索引擎中输入的每一次历史查询信息以及用户从根据所述历史查询信息搜索到的输出结果集中选择的文档信息。

本发明所述预处理操作包括分词操作以及关键词提取操作。

本发明所述分词操作中对所述句子s使用全切分法进行切分,获得所有可能的中文分词方式,计算出所述每一种分词方式的概率,选出其中概率最大的一种分词方式中的分词结果,作为最终文档分词结果。

根据马尔科夫性,文档中第n个词出现的可能性只与其前面n-1个词语的出现有关,而与第n个词语之后的所有词语无关,因此,在一个由词序列{w1,w2…wm}组成的句子s中,在前n-1个词语出现的情况下,第n词语wi出现的概率为:

p(wi|w1,…wi-1)=p(wi|wi-n+1,…wi-1)

因此,所述句子s按照所述词序排列的概率为:

p(s)=p(w1w2…wm)=p(w1)p(w2|w1)…p(wm|wm-i+1,…wm-1)

其中条件概率p(wm|wm-i+1,…wm-1)表示:在字符串wm-i+1,…wm-1出现的情况下wm出现的概率,通过在大规模语料库训练的基础上,使用二元语法模型,因此,所述句子s的概率模型为:

本发明从上述计算出来的所有p(s)选择p(s)的极大值对应的分词结果作为本案的分词结果:

进一步地,本发明较佳实施例中通过关键词提取方法对所述分词结果进行关键词抽取。所述关键词提取算法是利用统计信息、词向量信息以及词语间的依存句法信息,通过构建依存关系图来计算词语之间的关联强度,利用textrank算法迭代算出词语的重要度得分,并根据句子的依存句法分析结果对所有非停用词构造无向图,利用词语之间的引力值以及依存关联度计算求得边的权重。

详细地,所关键词提取方法包括:

计算根据上述分词结果得到的任意两个词语wi和wj的依存关联度:

其中,len(wi,wj)表示词语wi和wj之间的依存路径长度,b是超参数数;

计算词语wi和wi的引力:

其中,tfidf(w)是词语w的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词语wi和wj的词向量之间的欧式距离;

得到词语wi和wj之间的关联度为:

weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)

利用textrank算法建立一个有所有分词构建的无向图g=(v,e),其中v是顶点的集合,e是边的集合,得到词语的重要度得分集合。

计算出词语wi的重要度得分:

其中,是与顶点wi有关的集合,η为阻尼系数。

进一步地,本发明较佳实施例根据所述重要度得分,对所有词语进行排序,根据所述排序从所述词语中选择预设数量的关键词,例如,选取所述词语的重要度最高分的n个词语作为关键词,从而得到所述查询信息以及用户选择的文档信息的特征点。

步骤三、将所述语料库中的文档信息作为训练集,以及将所述历史查询信息以及用户选择的文档信息的特征点作为标签集,利用所述训练集对构建的智能语义文档推荐模型进行训练,得到训练值,将所述训练值和所述标签集输入至所述智能语义文档推荐模型的损失函数中,直至所述损失函数训练值小于预设阈值时,退出训练。

本发明较佳实施例中,所述智能语义文档推荐模型包括卷积神经网络。所述卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,其基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。

本发明较佳实施例中,所述卷积神经网络包含输入层、卷积层、池化层以及输出层。本发明较佳实施例对所述训练集和标签集的文本转换为向量表示,将所述向量输入至所述卷积神经网络模型的输入层中,并通过在所述卷积层中预设一组过滤器对所述向量进行卷积操作,提取出特征向量,所述过滤器可以为{filter0,filter1},分别用于在相似通道和相异通道上来生成一组特征;利用所述池化层对所述特征向量进行池化操作并输入至全连接层。

本发明较佳实施例中,预设所述训练集中的文本为z和所述标签集中的文本为t,将所述文本z中的关键词序列keyz中的每一个关键词keyz都转化为向量表示通过所述文本t中的关键词序列keyt计算keyz的语义匹配向量即用keyt中的部分关键词表示keyz,基于语义匹配向量进行分解,得到keyz与keyt间相似向量以及相异向量对所述文本z中中每一个词都进行上述操作,便得到kz的相似矩阵和相异矩阵进行合并便得到文本z和文本t的特征向量。

进一步地,本发明较佳实施例中通过softmax激活函数对所述特征向量输入分类标签,从而计算出输出的文本类别概率,并将所述文本类别概率输入至损失函数中,计算损失函数值,当所述损失函数值小于阈值时,退出训练。本发明较佳实施例中所述阈值预设为0.01。

所述softmax函数计算公式为:

其中,表示文本类别i输出的指数,分母是所有类别输出的指数和,共k个类别。

所述损失函数计算公式为:

其中,j是损失函数值,yi是所述输出的文本的类别i的真实标签,k是所述输出的文本类别数,n是所述输出的文本的样本总数。

步骤四、接收所述用户当前输入的查询信息,根据所述查询信息,利用所述智能语义文档推荐模型,从所述文档数据库中进行文档检索,并对文档检索结果进行排序后输出给用户。

本发明较佳实施例对用户从根据历史查询信息输出的检索结果集中选择的文档信息按照领域进行分类,统计出所述选择的文档信息的点击次数和贡献度,并利用线性累计加权方法计算出用户对所述选择的文档信息的兴趣程度,并根据所述感兴趣程度,对所述文档检索结果进行排序。

其中,所述线性累计加权方法包括:

预设用户u输入了n个属于领域t的查询信息:

a(u,q,t)=(1-β)vl(u,q,t)+βah(u,t)

其中,a(u,q,t)表示用户u在当前文档q下的兴趣,q∈t,ah(u,t)表示用户u在领域t的累积兴趣,vl(u,q,t)表示用户u在查询信息q下提供的检索结果获得的归一化票数,并且有q∈t,β是超参数。

进一步地,本案较佳实施例根据用户当前输入的查询信息,以及用户从所述智能语义文档推荐模型根据该查询信息返回的文档检索结果中选择的文档信息进一步训练所述智能语义文档推荐模型,使得所述智能语义文档推荐模型进行不断的优化和更新,为用户提供更优质的文档推荐结果。

可选地,在其他实施例中,智能语义文档推荐程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述智能语义文档推荐程序在智能语义文档推荐装置中的执行过程。

例如,参照图3所示,为本发明智能语义文档推荐装置一实施例中的智能语义文档推荐程序的程序模块示意图,该实施例中,所述智能语义文档推荐程序可以被分割为文档信息获取模块10、信息预处理模块20、模型训练模块30以及检索模块40,示例性地:

所述文档信息获取模块10用于:文档数据库中所有的文档信息,组成语料库。

所述信息预处理模块20用于:采集用户的历史查询信息以及用户从根据所述历史查询信息得到的检索结果集中选择的文档信息,对所述历史查询信息以及用户选择的文档信息进行预处理操作,得到所述查询信息以及用户选择的文档信息的特征点。

所述模型训练模块30用于:将所述语料库中的文档信息作为训练集,以及将所述查询信息以及用户选择的文档信息的特征点作为标签集,利用所述训练集和标签集对构建的智能语义文档推荐模型进行训练,得到训练值,将所述训练值输入至损失函数中,直至所述损失函数训练值小于预设阈值时,退出训练。

所述检索模块40用于:接收所述用户输入的查询信息,根据所述查询信息,利用所述智能语义文档推荐模型,从所述文档数据库中进行文档检索,并对文档检索结果进行排序后输出给用户。

上述文档信息获取模块10、信息预处理模块20、模型训练模块30以及检索模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有智能语义文档推荐程序,所述智能语义文档推荐程序可被一个或多个处理器执行,以实现如下操作:

获取文档数据库中所有的文档信息,组成语料库;

采集用户的历史查询信息以及用户从根据所述历史查询信息得到的检索结果集中选择的文档信息,对所述历史查询信息以及用户选择的文档信息进行预处理操作,得到所述查询信息以及用户选择的文档信息的特征点;

将所述语料库中的文档信息作为训练集,以及将所述查询信息以及用户选择的文档信息的特征点作为标签集,利用所述训练集和标签集对构建的智能语义文档推荐模型进行训练,得到训练值,将所述训练值输入至损失函数中,直至所述损失函数训练值小于预设阈值时,退出训练;

接收所述用户输入的查询信息,根据所述查询信息,利用所述智能语义文档推荐模型,从所述文档数据库中进行文档检索,并对文档检索结果进行排序后输出给用户。

本发明计算机可读存储介质具体实施方式与上述智能语义文档推荐装置和方法各实施例基本相同,在此不作累述。

需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1