一种基于知识图谱的线下医药零售精准推荐技术的制作方法

文档序号:15931918发布日期:2018-11-14 01:46阅读:691来源:国知局

本发明涉及计算机应用技术领域,一种基于知识图谱的线下医药零售精准推荐技术。

背景技术

目前医药零售行业内的企业竞争非常激烈,线下大型连锁药店通过增加门店数量迅速扩大企业规模以此获得市场竞争地位,而药品保健品与健康紧密相关,医药销售人员需具备医药相关的专业知识,大多连锁药店面临专业人才紧缺的问题,医药零售企业急需发展新的途径提升竞争力。

精准推荐技术可以帮助企业在海量数据中挖掘出用户的兴趣,推荐用户喜欢的商品,刺激用户消费,从而促进企业发展。企业可以通过在用户在连锁药店消费之后利用精准推荐技术进行促销推荐,由于在目前的定价规则下,药品的毛利率远低于保健品,用户又很少购买保健品,所以本技术主要解决如何在线下医药零售环境中进行精准的保健品推荐。

医药知识图谱是结合医药相关知识与语义信息处理技术来表示医药知识与其相关联系的方法,可以通过构建医药知识图谱来表示药品、保健品、用户、症状和疾病等实体以及这些实体之间的联系。

传统精准推荐技术在线下医药零售的特殊背景下进行应用的过程中存在许多问题,包括:医药商品的特殊性问题、用户医药领域知识缺乏问题、部分用户历史购药行为数据稀疏问题、大部分用户历史保健品购买数据稀疏问题、用户行为数据种类单一(均为购买行为数据)。

目前的精准推荐大多是面向电影、音乐、新闻、日常消费用品等领域,能够解决上述面向线下医药零售场景的问题的精准推荐技术很罕见。



技术实现要素:

本发明的目的旨在提供一种面向医药零售领域的一种准确性高,用户覆盖面广,适用性强的精准推荐技术。

为了实现上述目的,本发明所提供的技术是基于知识图谱与用户行为分析的精准推荐技术,包括如下五个步骤:

步骤s1,医药实体抽取。利用网络爬虫技术在互联网网站上获取医药相关数据,包括医药商品、疾病、症状、问答等数据,其中大部分数据为文本数据也包含少量结构化数据。利用命名实体识别技术,针对医药信息内容进行模板设计与模板匹配,处理医药文本数据,得到结构化的医药数据,构建医药知识图谱中的实体节点。主要的医药实体类型有:疾病、中西药、人体部位、人群、保健品、疾病问答、症状、科室等。

步骤s2,医药实体关系抽取。采用基于谓词逻辑和模板匹配的医药实体关系抽取方法,进一步发现医药实体节点之间的存在的规律,对医药实进行更深入的处理,主要是对医药实体之间进行实体关系抽取。医药实体之间的主要关系类型主要有:禁忌关系、相互作用关系、包含关系、伴随关系、辅助关系、从属关系等。

步骤s3,构建医药知识图谱。基于步骤s1中的医药实体构建知识图谱中的节点,基于步骤s2中的医药实体关系对节点进行连接,最终构成医药知识图谱。

步骤s4,提取医药零售人群标签。找到历史数据中的用户购药数据集合,从中抽取出每个用户个人的相关药品集合,然后根据医药知识图谱中的实体关系找到这些药品组合对应的疾病组合,利用独热编码(one-hotencoding)对上述疾病组合进行编码形成用户的疾病向量,采用dbsacn密度聚类算法对用户疾病向量进行聚类,最终得到人群集合,其中包含了人群类别标签和属于各个标签下的医药商品(包括药品、保健品)。

步骤s5,将人群标签加入知识图谱,并建立标签和药品、保健品的关联。

步骤s6,针对目标用户求得用户对保健品的兴趣度。

首先,构建目标用户-药品向量d=(d1,d2…,dm),表示用户曾经购买过的药品组合,其中m表示药品种类总数,di表示目标用户是否购买过药品i,若用户购买过药品i,则di=1,否则di=0;

其次,基于药品组合在医药知识图谱中与人群标签的关联,为用户构建用户画像,给用户打上人群标签,并构建m*k二维二进制药品-标签矩阵p,其中m表示用户购买的药品种类总数,k表示人群标签总数,pi,j表示药品i是否具有标签j,当药品i具有标签j时,pi,j=1,否则,pi,j=0,如公式(1)所示;

随后,基于医药知识图谱中的人群标签和保健品的关联关系,构建k*n二维二进制标签-保健品矩阵g,如式(2)所示,其中k表示人群标签总数,n表示保健品种类总数,gi,j表示标签i下是否有保健品j,当标签i下有保健品j时,gi,j=1,否则,gi,j=0;

最后,将用户-药品向量d,药品-标签矩阵p,标签-保健品矩阵g相乘,得出用户对保健品的兴趣度向量r=(r1,r2,…,rn),其中n表示保健品种类总数,计算方法如式(3)所示,ri表示用户对保健品i的兴趣度,ri计算的详细表达如式(4)所示,其中m表示药品集合,k表示人群标签集合,dx表示目标用户是否购买过药品x,px,y表示药品x是否具有人群标签y,gy,i表示人群标签y下是否有保健品i。

r=d*p*g(3)

步骤s7,产生保健品推荐结果列表。最终的推荐列表按照用户兴趣度ri排序生成。

附图说明

图1为本发明医药知识图谱的构建技术架构图。

图2为本发明医药零售领域人群标签的生成过程。

图3为本发明基于医药知识图谱的精准推荐过程。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

本发明设计的医药知识图谱的构建技术架构,参照图1,主要包含4个结构层:数据采集层、数据处理层、数据访问层、功能应用层。其中数据采集层旨在从互联网中采集医药商品、疾病、症状、问答等数据,其中大部分数据为文本数据也包含少量结构化数据。采用网络爬虫的方式采集数据,直接从互联网中获取的数据称为源数据。数据处理层旨在对采集的源数据进行中文分词、数据整合、数据清洗、相似性度量计算等操作,处理冗余信息和错误信息,消除概念的歧义,从文本源数据中提取出命名实体及属性,经过数据处理层处理之后可以保证数据格式规范统一,方便之后进行数据存储、数据分析操作。数据访问层旨在为数据采集、数据处理、数据分析提供数据访问支撑。功能应用层旨在使用数据建模、数据分析方法对知识图谱进行应用,其中主要的应用为精准推荐。

本发明的医药零售领域人群标签的生成过程,参照图2,首先找到历史数据中用户个人的购药数据集合,从中抽取出每个用户个人的相关药品集合,然后根据医药知识图谱中的实体关系找到这些药品组合对应的疾病组合。为了使得计算机能够将每个用户对应的疾病组合分类的所有特征被计算机所识别,需要采用独热编码(one-hotencoding)对上述疾病组合进行编码。知识图谱中的疾病类型有143种常见的疾病类型,进行独热编码之后的用户对应的疾病组合就编码成为了143维的疾病向量,每一个疾病类型都存在用户患有该疾病与不患该疾病两种状态,对应的两种状态分别用1和0来表示,最后将143维的数据组合成用户个人对应的疾病向量。采用了dbsacn密度聚类算法对用户疾病向量进行聚类,取10万用户数据集d={x1,x2…,x100000}作为样本,其中每位用户的购药种类数量都在10种以上,经过多次的尝试,最后采用欧式距离度量方式,取邻域半径eps=10,取邻域密度阈值minpts=100,作为dbscan聚类算法的输入,最终得到了35种人群集合,其中包含了人群类别和属于各个类别下的医药商品。

在生成人群标签的过程中,所有个人用户的相关药品组合通过医药知识图谱获取相关的疾病标签,此时,用户个人与其购买的药品组合和疾病标签已经关联了起来。同时,在医药知识图谱中获取与疾病标签相关联的保健品,此时,疾病标签与保健品也已经有了关联。在对疾病标签向量进行密度聚类得到人群集合以及人群标签的同时,我们对与疾病标签相关的药品和保健品也产生了同样的聚类效果。最终,我们可以得到与人群标签相关联的药品集合与保健品集合,并在医药知识图谱中加入35大类人群实体,并在知识图谱中加入相应的人群与保健品、药品的实体关系。

本发明基于医药知识图谱的精准推荐过程,参照图3,首先,在目标用户历史行为记录中,找到该用户曾经购买的药品a、药品b、药品c。然后,基于药品组合在医药知识图谱中与人群标签的关联,为用户构建用户画像,打上人群标签d,人群标签e,人群标签f。接着,基于医药知识图谱中的人群标签和保健品的关联关系,找到人群标签下关联的保健品g,保健品h,保健品i。在此过程中,首先生成了用户-药品向量,然后基于知识图谱获取药品-人群标签矩阵与人群标签-保健品矩阵,最终,计算用户对于保健品的兴趣度,生成推荐列表。

根据以上具体实施方式可以看出,本发明是以医药知识图谱作为基础,对医药零售用户人群标签进行建模,然后,通过对需要推荐的目标用户打上精准的人群标签,并利用构建人群标签时加入医药知识图谱的标签与药品、保健品的关联进行的用户兴趣度计算。最终,可以为所有前来药店消费的用户打上人群精准的人群标签,并基于人群标签计算用户兴趣度,从而产生精准的保健品推荐结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1