根据用户画像的个性化搜索方法、系统、设备及存储介质与流程

文档序号:19424477发布日期:2019-12-17 15:01阅读:193来源:国知局
根据用户画像的个性化搜索方法、系统、设备及存储介质与流程

本发明实施例涉及搜索技术领域,尤其涉及一种根据用户画像的个性化搜索方法、系统、设备及存储介质。

技术背景

随着互联网的发展,许多人发表的文章可以在网络上查询到,实现了资料共享,人们可以在网络上查找到自己所需要的资料。

目前文章搜索功能的实现,通常是根据用户输入的搜索词进行搜索,搜索到包括与该搜索词匹配的关键词集的文章时,从多篇文章中查找满足条件的文章并且显示出来,不满足条件的文章被隐藏起来,再把这些被筛选出来的文章按一定的顺序排列展示出来,排列时以文章匹配度进行由大到小的排序,将该搜索结果提供给用户。而对于患者用户而言,查找的文章不能尽然满足其实际需求,查找的准确度不够。



技术实现要素:

有鉴于此,本发明实施例的目的是提供一种根据用户画像的个性化搜索方法、系统、设备及存储介质,能够根据用户画像及输入信息进行精准搜索。

为实现上述目的,本发明实施例提供了一种根据用户画像的个性化搜索方法,包括:

获取第一关键词和/或与所述第一关键词映射的第一类别词,所述第一关键词关联于患者的感兴趣类别;

获取所述患者的输入信息,根据所述输入信息获取第二关键词和/或与所述第二关键词对应的第二类别词;

根据所述第一关键词、第一类别词、第二关键词以及第二类别词获取第一文章集,其中,所述第一文章集包括至少一篇文章;

计算所述第一文章集中的每篇文章的所述第一关键词的第一权重系数、第一类别词的第二权重系数、所述第二关键词的第三权重系数以及第二类别词的第四权重系数,所述每篇文章包括所述第一关键词、第一类别词、第二关键词和/或第二类别词;

根据所述第一权重系数、所述第二权重系数、所述第三权重系数与所述第四权重系数计算得到所述每篇文章与患者搜索目标的第一匹配度;及

基于每篇文章的第一匹配度,输出搜索结果页面。

优选的,还包括获取患者的感兴趣类别的步骤,包括:

获取所述患者通过终端设备输入的个人信息,以及基于所述个人信息从指定服务器中查询所述患者的关联信息,所述关联信息包括所述患者的历史操作记录;

基于所述个人信息以及与所述关联信息,构建所述患者的用户画像,所述用户画像包括多个维度对应的多个画像标签;

根据所述用户画像获取所述患者的感兴趣类别。

优选的,获取所述患者通过终端设备输入的个人信息,以及基于所述个人信息从指定服务器中查询所述患者的关联信息的步骤,还包括预先建立疾病分类体系:

获取多个样本用户的多个样本用户信息以及与样本用户的样本关联信息;

通过tf-idf模型,从所述多个样本用户信息以及与样本用户的样本关联信息中提取多个样本关键词集:

将多个样本关键词集做为第1层样本神经网络模型的输入,以分类体系中第1个样本类别词为第1层样本神经网络模型的输出,训练第1层样本神经网络模型根据关键词预测对应的类别词的性能;

直至到第m层样本神经网络模型,停止训练,其中,2≤m≤m,m为所述分类体系包括的样本类别词总数量;

以第m-1层样本神经网络模型的训练结果以及多个样本关键词为第m层样本神经网络模型的输入,以所述分类体系中第m个样本类别词为第m层样本神经网络模型的输出,训练第m级样本神经网络模型根据关键词预测对应的类别词的性能;

将所述个人信息以及与所述患者的关联信息通过tf-idf模型提取多个关键词;

将所述多个关键词输入到所述样本神经网络模型中,经过每层样本神经网络模型的根据关键词预测对应的类别词的性能,输出得到多个关键词分别对应的多个类别词;及

将多个类别词与对应的关键词进行关联,得到所述疾病分类体系;所述疾病分类体系包括多个子疾病类别,每个子疾病类别中包括多个类别词,每个类别词对应至少一个关键词集;其中,所述多个类别词包括至少疾病成因和疾病用药。

优选的,基于所述个人信息以及与所述患者的关联信息,构建所述患者的用户画像,所述用户画像包括多个维度对应的多个画像标签的步骤,包括:

通过word2vec模型得到所述个人信息和关联信息的第一关键词的词向量;

将所述第一关键词的词向量输入到预测模型中,通过所述预测模型输出所述患者与各个画像标签的关联概率,以得到所述患者的用户画像。

优选的,将所述第一关键词的词向量输入到预测模型中,通过所述预测模型输出所述患者与各个画像标签的关联概率,以得到所述患者的用户画像的步骤,包括:

将所述疾病分类体系与所述患者建立映射关系,形成所述患者的用户画像,每个类别词对应为一个维度,每个关键词对应为一个画像标签;

将所述疾病分类体系的关键词集的词向量输入到所述预测模型中,根据所述预测模型的softmax层计算得到第一关联概率;

将所述疾病分类体系的类别词的词向量输入到所述预测模型中,根据所述预测模型的softmax层计算得到第二关联概率;

根据所述第一关联概率与所述第二关联概率得到所述患者的用户画像的关联概率。

优选的,基于所述个人信息以及与所述患者的关联信息,构建所述患者的用户画像的步骤,还包括:

分析所述患者的实时历史操作信息,根据实时历史操作信息获取患者的关注点,将关注点映射到患者的用户画像上,以更新所述患者的用户画像。

优选的,基于每篇文章的第一匹配度,输出搜索结果页面的步骤之后,还包括:

获取所述患者通过终端设备输入的搜索信息,根据所述搜索信息从指定服务器中获取所述搜索信息的第五关键词与所述第五关键词对应的第五类别词;

根据所述第五关键词与所述第五类别词获取第二文章集,其中所述第二文章集包括至少一篇文章;

所述第二文章集的每篇所述文章包括所述第五关键词和/或第五类别词,计算所述每篇文章的所述第五关键词的第五权重系数、第五类别词的第六权重系数;

根据所述第五权重系数与所述第六权重系数计算得到所述第二文章集每篇文章的第二匹配度;

基于所述第二文章集的每篇文章中的第二匹配度,输出搜索结果页面。

为实现上述目的,本发明实施例还提供了一种根据用户画像的个性化搜索系统,包括:

第一获取模块,用于获取第一关键词和/或与所述第一关键词映射的第一类别词,所述第一关键词关联于患者的感兴趣类别;

第二获取模块,用于获取所述患者的输入信息,根据所述输入信息获取第二关键词和/或与所述第二关键词对应的第二类别词;

第三获取模块,用于根据所述第一关键词、第一类别词、第二关键词以及第二类别词获取第一文章集,其中,所述第一文章集包括至少一篇文章;

第一计算模块,用于计算所述第一文章集中的每篇文章的所述第一关键词的第一权重系数、第一类别词的第二权重系数、所述第二关键词的第三权重系数以及第二类别词的第四权重系数,所述每篇文章包括所述第一关键词、第一类别词、第二关键词和/或第二类别词;

第二计算模块,用于根据所述第一权重系数、所述第二权重系数、所述第三权重系数与所述第四权重系数计算得到所述每篇文章与患者搜索目标的第一匹配度;

结果输出模块,用于基于每篇文章的第一匹配度,输出搜索结果页面。

为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的根据用户画像的个性化搜索系统,所述根据用户画像的个性化搜索系统被所述处理器执行时实现如上所述的根据用户画像的个性化搜索方法的步骤。

为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的根据用户画像的个性化搜索方法的步骤。

本发明实施例提供的根据用户画像的个性化搜索方法、系统、设备及存储介质,通过对患者的个人信息及关联信息进行分析,得到用户画像,再结合患者进行搜索的输入信息获取关键词及与关键词相关的类别词,调用带有关键词与类别词的文章集,并且对文章集的每篇文章的关键词及类别词进行权重系数的计算,再通过关键词及类别词的权重系数得到每篇文章的匹配度,进行输出搜索结果,从而提高了患者搜索文章的准确度。

附图说明

图1为本发明实施例根据用户画像的个性化搜索方法实施例一的流程图。

图2为本发明实施例图1中步骤s100的流程图。

图3为本发明实施例预先建立疾病分类体系的流程图。

图4为本发明实施例图2中步骤s100b的流程图。

图5为本发明实施例图4中步骤s100b2的流程图。

图6为本发明实施例根据用户画像的个性化搜索方法实施例二的流程图。

图7为本发明实施例根据用户画像的个性化搜索系统实施例三的程序模块示意图。

图8为本发明实施例计算机设备实施例四的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

参阅图1,示出了本发明实施例一之根据用户画像的个性化搜索方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以服务器为执行主体进行示例性描述。具体如下。

步骤s100,获取第一关键词和/或与所述第一关键词映射的第一类别词,所述第一关键词关联于患者的感兴趣类别。

具体地,预先配置第一关键词和第一类别词之间的映射关系。例如:患者对饮食比较感兴趣,或者是做菜比较感兴趣,则患者的感兴趣类别的第一类别词为饮食、食谱等,患者根据自身的病情搜索相应的饮食、食谱等,比如糖尿病患者,第一类别词即为糖尿病饮食、糖尿病食谱等,糖尿病饮食的第一关键词即为低盐低脂,进一步可以为粗杂粮如荞麦、燕麦片、玉米面、大豆及豆制品、蔬菜等。

示例性地,参阅图2,步骤s100还包括:

步骤s100a,获取患者通过终端设备输入的个人信息,以及基于所述个人信息从指定服务器中查询所述患者的关联信息,所述关联信息包括所述患者的历史操作记录。

示例性地,通过预先配置的电子页面获取患者的个人信息,所述电子页面中包括多个字段,所述多个字段对应于性别、年龄,既往病史等个人信息。

具体地,在获取相关权限的前提下,可以通过医疗共享平台等所述指定服务器中获取所述患者的电子病历,从所述电子病历中提取患者的医疗历史信息。若获取不到所述患者的电子病历,当接收到患者提供的搜索请求时,推送一些预设问答信息的电子页面以供需要患者进行选择,如随访,患教问答,药品问答等,从而获取患者针对这些预设问答信息的反馈信息。

具体地,还可通过获取患者的历史操作记录查询患者的关联信息,历史操作记录包括患者登录查询的信息及相关性文章、患者对疾病相关的文章的兴趣程度,兴趣程度可以由患者查看文章的时长、点踩、转发或者评论等历史操作信息进行分析得到。

示例性地,参阅图3,步骤s100a还包括预先建立疾病分类体系:

步骤s100aa,获取多个样本用户的多个样本用户信息以及与样本用户的样本关联信息。

步骤s100ab,通过tf-idf模型,从所述多个样本用户信息以及与样本用户的样本关联信息中提取多个样本关键词。

具体的,tf-idf(termfrequency-inversedocumentfrequency,词频-逆文件频率)模型用以评估一字词对于多个样本用户信息以及与样本用户的样本关联信息的重要程度,利用tf-idf模型求出每个字词的权重值,按大小进行排序,取权重值大于某一预设值的全部字词作为样本关键词。

步骤s100ac,将多个样本关键词集做为第1层样本神经网络模型的输入,以分类体系中第1个样本类别词为第1层样本神经网络模型的输出,训练第1层样本神经网络模型根据关键词预测对应的类别词的性能。

步骤s100ad,直至到第m层样本神经网络模型,停止训练,其中,2≤m≤m,m为所述分类体系包括的样本类别词总数量。

步骤s100ae,以第m-1层样本神经网络模型的训练结果以及多个样本关键词为第m层样本神经网络模型的输入,以所述分类体系中第m个样本类别词为第m层样本神经网络模型的输出,训练第m级样本神经网络模型根据关键词预测对应的类别词的性能。

步骤s100af,将所述个人信息以及与所述患者的关联信息通过tf-idf模型提取多个关键词。

步骤s100ag,将所述多个关键词输入到所述样本神经网络模型中,经过每层样本神经网络模型的根据关键词预测对应的类别词的性能,输出得到多个关键词分别对应的多个类别词。

步骤s100ah,将多个类别词与对应的关键词进行关联,得到所述疾病分类体系;所述疾病分类体系包括多个子疾病类别,每个子疾病类别中包括多个类别词,每个类别词对应至少一个关键词集;其中,所述多个类别词包括至少疾病成因和疾病用药。

具体地,将疾病分类体系中的关键词集输入到样本神经网络模型中,输出对应的类别词。类别词包括:疾病成因、疾病用药、疾病预防、疾病检查、疾病诊断、治疗、常识、护理、前沿资讯等;类别词可以进一步扩展其子类别词,如危害、并发症等:进一步的,以疾病成因为例,还可以将该类别词细分为:抽烟、饮酒等不良嗜好的关键词集。

步骤s100b,基于所述个人信息以及与所述关联信息,构建所述患者的用户画像,所述用户画像包括多个维度对应的多个画像标签。

示例性地,参阅图4,步骤s100b进一步包括:

步骤s100b1,通过word2vec模型得到所述个人信息和关联信息的第一关键词的词向量。

步骤s100b2,将所述第一关键词的词向量输入到预测模型中,通过所述预测模型输出所述患者与各个画像标签的关联概率,以得到所述患者的用户画像。

示例性地,参阅图5,步骤s100b2进一步包括:

步骤s100b2a,将所述疾病分类体系与所述患者建立映射关系,形成所述患者的用户画像,每个类别词对应为一个维度,每个关键词对应为一个画像标签。

步骤s100b2b,将所述疾病分类体系的关键词集的词向量输入到所述预测模型中,根据所述预测模型的softmax层计算得到第一关联概率。

步骤s100b2c,将所述疾病分类体系的类别词的词向量输入到所述预测模型中,根据所述预测模型的softmax层计算得到第二关联概率。

步骤s100b2d,根据所述第一关联概率与所述第二关联概率得到所述患者的用户画像的关联概率。

示例性地,步骤s100b进一步包括:

分析所述患者的实时历史操作信息,根据实时历史操作信息获取患者的关注点,将关注点映射到患者的用户画像上,以更新所述患者的用户画像。

具体地,若患者未给出个人信息,可以先从指定服务器中获取患者的关联信息,再通过样本神经网络模型获取患者的关联信息的疾病分类体系,并通过word2vec模型得到对应的多个词向量;将所述多个词向量输入到预测模型中,通过预测模型输出患者与各个画像标签的关联概率,以得到患者的用户画像;其中,预测模型可以是深度学习模型等。

步骤s100c,根据所述用户画像获取所述患者的感兴趣类别。

具体地,用户画像上有患者与各个画像标签的关联概率,根据关联概率确定患者的感兴趣类别,将同一类画像标签进行关联,选取关联概率大于预设范围的同类画像标签设为感兴趣类别。

步骤s102,获取所述患者的输入信息,根据所述输入信息获取第二关键词和/或与所述第二关键词对应的第二类别词。

具体地,预先配置第二关键词和第二类别词之间的映射关系。

获取第二关键词的步骤如下:根据关键词集遍历所述输入信息,以从所述输入信息中得到一个或多个第二关键词。例如:患者在搜索时,检验到患者输入饮食方向的信息,所搜索的关键词可以为xxx(症状,如糖尿病)能吃什么和不能吃什么,具体可能为蛋白质类、肉类、海鲜类等。其中蛋白质类、肉类、海鲜类等为第二类别词,猪肉、牛肉、鸡肉等为第二关键词。将猪肉、牛肉、鸡肉等为第二关键词映射到第二类别词的肉类上。

步骤s104,根据所述第一关键词、第一类别词、第二关键词以及第二类别词获取第一文章集,其中所述第一文章集包括至少一篇文章。

具体地,只要所述文章包括有至少一个所述第一关键词、第一类别词、第二关键词和/或第二类别词,就将该文章识别并筛选出来。

步骤s106,计算所述第一文章集的每篇文章的所述第一关键词的第一权重系数、第一类别词的第二权重系数、所述第二关键词的第三权重系数以及第二类别词的第四权重系数,所述每篇文章包括所述第一关键词、第一类别词、第二关键词和/或第二类别词。

示例性地,每篇所述文章包括所述第一关键词、第一类别词、第二关键词和/或第二类别词。

示例性地,若所述文章的标题与主体包含有所述关键词集或者所述类别词,而所述文章的标题与主体的权重系数不一致,所述标题的关键词集的权重系数为所述标题的权重系数加上所述关键词集的权重系数,同理,所述主体的关键词集的权重系数为所述主体的权重系数加上所述关键词集的权重系数。

具体地,通过tf-idf(termfrequency–inversedocumentfrequency,词频的逆文本频率指数)模型和lda(latentdirichletallocation,文档主题生成模型)模型计算所述第一关键词的第一权重系数、第一类别词的第二权重系数、所述第二目标关键词的第三权重系数以及第二目标类别词的第四权重系数。lda模型可以识别大规模文档集或语料库中潜藏的主题词语。

步骤s108,根据所述第一权重系数、所述第二权重系数、所述第三权重系数与所述第四权重系数计算得到所述每篇文章与患者搜索目标的第一匹配度。

具体地,将每篇所述文章的第一权重系数相加得到总第一权重系数、第二权重系数相加得到总第二权重系数、第三权重系数相加得到总第三权重系数及第四权重系数相加得到总第四权重系数,最后将所述总第一权重系数、所述总第二权重系数总第三权重系数与总第四权重系数相加得到所述第一匹配度。将所述第一文章集的每篇文章都按上述方法求得其第一匹配度。

步骤s110,基于每篇文章的第一匹配度,输出搜索结果页面。

具体地,将所述第一文章集中的每篇文章的第一匹配度进行单一性(例如:由大到小)的排序,得到所述患者的第一搜索结果,也可加入其他因素进行排序,例如竞价排名等。将所述第一搜索结果进行显示,使所述患者得到更加精确的搜索文章信息。

本发明通过对患者的个人信息及关联信息进行分析,得到用户画像,再结合患者进行搜索的输入信息获取关键词及与关键词相关的类别词,调用带有关键词与类别词的文章集,并且对文章集的每篇文章的关键词及类别词进行权重系数的计算,再通过关键词及类别词的权重系数得到每篇文章的匹配度,进行输出搜索结果,从而提高了患者搜索文章的准确度。

实施例二

请参阅6,与实施例一不同之处在于,搜索方法不同,在本实施例中,未开启个性化搜索,是只针对于患者输入信息进行的搜索方法。包括以下步骤:

步骤s120,获取所述患者通过终端设备输入的搜索信息,根据所述搜索信息从指定服务器中获取所述搜索信息的第五关键词与所述第五关键词对应的第五类别词。

具体地,建立关键词集与类别词,所述关键词集包括多个第五关键词,所述类别词包括多个第五类别词,预先配置第五关键词和第五类别词之间的映射关系。

步骤s122,根据所述第五关键词与所述第五类别词获取第二文章集,其中所述第二文章集包括至少一篇文章。

具体地,根据所述搜索信息的所述第五关键词与第五类别词获取数据库中相关的第二文章集,只要所述文章有至少一个第五关键词和/或所述第五类别词,就将该文章识别并调用出来。

步骤s124,所述第二文章集的每篇所述文章包括所述第五关键词和/或第五类别词,计算所述每篇文章的所述第五关键词的第五权重系数、第五类别词的第六权重系数。

具体地,通过tf-idf(termfrequencyinversedocumentfrequency,词频的逆文本频率指数)模型和lda(latentdirichletallocation,文档主题生成模型)模型计算所述第五关键词的第五权重系数、第五类别词的第六权重系数。

示例性地,若所述文章的标题与主体包含有所述关键词集或者所述类别词,所述文章的标题与主体的权重系数不一致,所述标题的关键词集的权重系数为所述标题的权重系数加上所述关键词集的权重系数,同理,所述主体的关键词集的权重系数为所述主体的权重系数加上所述关键词集的权重系数。

步骤s126,根据所述第五权重系数与所述第六权重系数计算得到所述第二文章集每篇文章的第二匹配度。

具体地,将每个所述关键词的第五权重系数相加得到总第五权重系数、将每个所述类别词的第六权重系数相加得到总第六权重系数,最后将所述总第五权重系数加上所述总第六权重系数得到所述第二匹配度。将所述第二文章集的每篇文章都按上述方法求得其第二匹配度。

步骤s128,基于所述第二文章集的每篇文章中的第二匹配度,输出搜索结果页面。

具体地,将所述第二文章集中的每篇文章的第二匹配度进行由大到小的排序,得到所述患者的第二搜索结果,将所述第二搜索结果进行显示,得到所述患者的搜索文章信息。

实施例三

请继续参阅图7,示出了本发明根据用户画像的个性化搜索系统实施例三的程序模块示意图。在本实施例中,根据用户画像的个性化搜索系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述根据用户画像的个性化搜索方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述根据用户画像的个性化搜索系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:

第一获取模块200,用于获取第一关键词和/或与所述第一关键词映射的第一类别词,所述第一关键词关联于患者的感兴趣类别。

具体地,预先配置第一关键词和第一类别词之间的映射关系。例如:患者对饮食比较感兴趣,或者是做菜比较感兴趣,则患者的感兴趣类别的第一类别词为饮食、食谱等,患者根据自身的病情搜索相应的饮食、食谱等,比如糖尿病患者,第一类别词即为糖尿病饮食、糖尿病食谱等,糖尿病饮食的第一关键词即为低盐低脂,进一步可以为粗杂粮如荞麦、燕麦片、玉米面、大豆及豆制品、蔬菜等。

示例性地,第一获取模块200还用于:

获取患者通过终端设备输入的个人信息,以及基于所述个人信息从指定服务器中查询所述患者的关联信息,所述关联信息包括所述患者的历史操作记录;

示例性地,通过预先配置的电子页面获取患者的个人信息,所述电子页面中包括多个字段,所述多个字段对应于性别、年龄,既往病史等个人信息。

具体地,在获取相关权限的前提下,可以通过医疗共享平台等所述指定服务器中获取所述患者的电子病历,从所述电子病历中提取患者的医疗历史信息。若获取不到所述患者的电子病历,当接收到患者提供的搜索请求时,推送一些预设问答信息的电子页面以供需要患者进行选择,如随访,患教问答,药品问答等,从而获取患者针对这些预设问答信息的反馈信息。

具体地,还可通过获取患者的历史操作记录查询患者的关联信息,所述历史操作记录包括患者登录查询的信息及相关性文章、患者对疾病相关的文章的兴趣程度,兴趣程度可以由患者查看文章的时长、点踩、转发或者评论等历史操作信息进行分析得到。

示例性地,第一获取模块200还用于预先建立疾病分类体系:

获取多个样本用户的多个样本用户信息以及与样本用户的样本关联信息;

通过tf-idf模型,从所述多个样本用户信息以及与样本用户的样本关联信息中提取多个样本关键词;

将多个样本关键词集做为第1层样本神经网络模型的输入,以分类体系中第1个样本类别词为第1层样本神经网络模型的输出,训练第1层样本神经网络模型根据关键词预测对应的类别词的性能;

直至到第m层样本神经网络模型,停止训练,其中,2≤m≤m,m为所述分类体系包括的样本类别词总数量;

以第m-1层样本神经网络模型的训练结果以及多个样本关键词为第m层样本神经网络模型的输入,以所述分类体系中第m个样本类别词为第m层样本神经网络模型的输出,训练第m级样本神经网络模型根据关键词预测对应的类别词的性能;

将所述个人信息以及与所述患者的关联信息通过tf-idf模型提取多个关键词;

将所述多个关键词输入到所述样本神经网络模型中,经过每层样本神经网络模型的根据关键词预测对应的类别词的性能,输出得到多个关键词分别对应的多个类别词;

将多个类别词与对应的关键词进行关联,得到所述疾病分类体系;所述疾病分类体系包括多个子疾病类别,每个子疾病类别中包括多个类别词,每个类别词对应至少一个关键词集;其中,所述多个类别词包括至少疾病成因和疾病用药。

具体地,将疾病分类体系中的关键词集输入到样本神经网络模型中,输出对应的类别词。类别词包括:疾病成因、疾病用药、疾病预防、疾病检查、疾病诊断、治疗、常识、护理、前沿资讯等;类别词可以进一步扩展其子类别词,如危害、并发症等:进一步的,以疾病成因为例,还可以将该类别词细分为:抽烟、饮酒等不良嗜好的关键词集。

基于所述个人信息以及与所述关联信息,构建所述患者的用户画像,所述用户画像包括多个维度对应的多个画像标签。

示例性地,第一获取模块200进一步用于:

通过word2vec模型得到所述个人信息和关联信息的第一关键词的词向量;

将所述第一关键词的词向量输入到预测模型中,通过所述预测模型输出所述患者与各个画像标签的关联概率,以得到所述患者的用户画像;

根据所述用户画像获取所述患者的感兴趣类别。

具体地,用户画像上有患者与各个画像标签的关联概率,根据关联概率确定患者的感兴趣类别,将同一类画像标签进行关联,选取关联概率大于预设范围的同类画像标签设为感兴趣类别。

示例性地,上述步骤进一步包括:

将所述疾病分类体系与所述患者建立映射关系,形成所述患者的用户画像,每个类别词对应为一个维度,每个关键词对应为一个画像标签;

将所述疾病分类体系的关键词集的词向量输入到所述预测模型中,根据所述预测模型的softmax层计算得到第一关联概率;

将所述疾病分类体系的类别词的词向量输入到所述预测模型中,根据所述预测模型的softmax层计算得到第二关联概率;

根据所述第一关联概率与所述第二关联概率得到所述患者的用户画像的关联概率。

具体的,tf-idf(termfrequency-inversedocumentfrequency,词频-逆文件频率)模型用以评估一字词对于多个样本用户信息以及与样本用户的样本关联信息的重要程度,利用tf-idf模型求出每个字词的权重值,按大小进行排序,取权重值大于某一预设值的全部字词作为样本关键词。

示例性地,第一获取模块200进一步用于:

分析所述患者的实时历史操作信息,根据实时历史操作信息获取患者的关注点,将关注点映射到患者的用户画像上,以更新所述患者的用户画像。

具体地,若患者未给出个人信息,可以先从指定服务器中获取患者的关联信息,再通过样本神经网络模型获取患者的关联信息的疾病分类体系,并通过word2vec模型得到对应的多个词向量;将所述多个词向量输入到预测模型中,通过预测模型输出患者与各个画像标签的关联概率,以得到患者的用户画像;其中,预测模型可以是深度学习模型等。

第二获取模块201,用于获取所述患者的输入信息,根据所述输入信息获取第二关键词和/或与所述第二关键词对应的第二类别词。

具体地,预先配置第二关键词和第二类别词之间的映射关系。

获取第二关键词的步骤如下:根据关键词集遍历所述输入信息,以从所述输入信息中得到一个或多个第二关键词。例如:患者在搜索时,检验到患者输入饮食方向的信息,所搜索的关键词可以为xxx(症状,如糖尿病)能吃什么和不能吃什么,具体可能为蛋白质类、肉类、海鲜类等。其中蛋白质类、肉类、海鲜类等为第二类别词,猪肉、牛肉、鸡肉等为第二关键词。将猪肉、牛肉、鸡肉等为第二关键词映射到第二类别词的肉类上。

第三获取模块202,用于根据所述第一关键词、第一类别词、第二关键词以及第二类别词获取第一文章集,其中所述第一文章集包括至少一篇文章。

具体地,只要所述文章包括有至少一个所述第一关键词、第一类别词、第二关键词和/或第二类别词,就将该文章识别并筛选出来。

第一计算模块203,用于计算所述第一文章集的每篇文章的所述第一关键词的第一权重系数、第一类别词的第二权重系数、所述第二关键词的第三权重系数以及第二类别词的第四权重系数,所述每篇文章包括所述第一关键词、第一类别词、第二关键词和/或第二类别词。

示例性地,每篇所述文章包括所述第一关键词、第一类别词、第二关键词和/或第二类别词。

示例性地,若所述文章的标题与主体包含有所述关键词集或者所述类别词,而所述文章的标题与主体的权重系数不一致,所述标题的关键词集的权重系数为所述标题的权重系数加上所述关键词集的权重系数,同理,所述主体的关键词集的权重系数为所述主体的权重系数加上所述关键词集的权重系数。

具体地,通过tf-idf(termfrequencyinversedocumentfrequency,词频的逆文本频率指数)模型和lda(latentdirichletallocation,文档主题生成模型)模型计算所述第一关键词的第一权重系数、第一类别词的第二权重系数、所述第二目标关键词的第三权重系数以及第二目标类别词的第四权重系数。

第二计算模块204,用于根据所述第一权重系数、所述第二权重系数、所述第三权重系数与所述第四权重系数计算得到所述每篇文章与患者搜索目标的第一匹配度。

具体地,将每篇所述文章的第一权重系数相加得到总第一权重系数、第二权重系数相加得到总第二权重系数、第三权重系数相加得到总第三权重系数及第四权重系数相加得到总第四权重系数,最后将所述总第一权重系数、所述总第二权重系数总第三权重系数与总第四权重系数相加得到所述第一匹配度。将所述第一文章集的每篇文章都按上述方法求得其第一匹配度。

结果输出模块205,用于基于每篇文章的第一匹配度,输出搜索结果页面。

具体地,将所述第一文章集中的每篇文章的第一匹配度进行单一性(例如:由大到小)的排序,得到所述患者的第一搜索结果,也可加入其他因素进行排序,例如竞价排名等。将所述第一搜索结果进行显示,使所述患者得到更加精确的搜索文章信息。

实施例四

参阅图8,是本发明实施例四之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图8所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及根据用户画像的个性化搜索系统20。其中:

本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例三的根据用户画像的个性化搜索系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行根据用户画像的个性化搜索系统20,以实现实施例一及二的根据用户画像的个性化搜索方法。

所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。需要指出的是,图8仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。在本实施例中,存储于存储器21中的所述根据用户画像的个性化搜索系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。

例如,图7示出了所述实现根据用户画像的个性化搜索系统20实施例三的程序模块示意图,该实施例中,所述根据用户画像的个性化搜索系统20可以被划分为第一获取模块200、第二获取模块201、第三获取模块202、第一计算模块203、第二计算模块204与结果输出模块205。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述根据用户画像的个性化搜索系统20在所述计算机设备2中的执行过程。所述程序模块200-205的具体功能在实施例三中已有详细描述,在此不再赘述。

实施例五

本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器、app应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储根据用户画像的个性化搜索系统20,被处理器执行时实现实施例一及二的根据用户画像的个性化搜索方法。

本发明实施例通过对患者的个人信息及关联信息进行分析,得到用户画像,再结合患者进行搜索的输入信息获取关键词及与关键词相关的类别词,调用带有关键词与类别词的文章集,并且对文章集的每篇文章的关键词及类别词进行权重系数的计算,再通过关键词及类别词的权重系数得到每篇文章的匹配度,进行从大到小的排序,从而提高了患者搜索文章的准确度。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1