基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备与流程

文档序号：32988363发布日期：2023-01-17 23:05阅读：25来源：国知局

1.本发明涉及用户画像标签，更具体地说是指基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备。

背景技术：

2.用户画像又称作用户角色，作为一种描述目标用户、联系用户需求的有效工具，用户画像在各领域均得到了广泛的应用。作为实际用户的虚拟形象，用户画像所形成的用户角色不是脱离产品和市场之外所虚构出来的，形成的用户角色需要有代表性，即能够代表产品的主要受众和目标群体。
3.但是目前大健康领域在构建用户画像的时候，没有和用户诊疗数据进行整合，无法完整构建用户的画像，存在信息缺失，画像不完整。
4.因此，有必要设计一种新的方法，实现对诊疗数据进行挖掘，提升用户画像维度。

技术实现要素：

5.本发明的目的在于克服现有技术的缺陷，提供基于诊疗数据的用户画像标签挖掘方法、装置及计算机设备。
6.为实现上述目的，本发明采用以下技术方案：基于诊疗数据的用户画像标签挖掘方法，包括：
7.构建疾病数据库；
8.获取就诊文件的图片；
9.对所述图片进行文本识别，以得到患者信息；
10.将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较，以得到疾病及药物治疗标签；
11.将所述疾病及药物治疗标签、所述患者信息进行聚类分析，以确定强关联性的患者信息、疾病及药物治疗标签；
12.将强关联性的疾病及药物治疗标签作为用户标签进行存储，以得到新标签；
13.将所述新标签与疾病数据库中已有的数据标签进行加权统计，以得到统计结果；
14.确定所述统计结果中分数最高的标签，并进行用户画像标签的标注。
15.其进一步技术方案为：所述构建疾病数据库，包括：
16.采用图数据库创建疾病数据库；
17.将疾病诊断信息以及药物治疗方案作为节点进行存储；
18.对所述节点利用nlp自然语言处理技术进行拆词，将拆词后的结果作为数据标签并进行存储。
19.其进一步技术方案为：所述就诊文件包括病历及缴费清单文件。
20.其进一步技术方案为：所述对所述图片进行文本识别，以得到患者信息，包括：
21.利用ocr图像识别技术将所述图片转换为文本；
22.从所述文本中提取患者的相关数据，以得到患者信息。
23.其进一步技术方案为：所述患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
24.本发明还提供了基于诊疗数据的用户画像标签挖掘装置，包括：
25.数据库构建单元，用于构建疾病数据库；
26.图片获取单元，用于获取就诊文件的图片；
27.文本识别单元，用于对所述图片进行文本识别，以得到患者信息；
28.比较单元，用于将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较，以得到疾病及药物治疗标签；
29.分析单元，用于将所述疾病及药物治疗标签、所述患者信息进行聚类分析，以确定强关联性的患者信息、疾病及药物治疗标签；
30.存储单元，用于将强关联性的疾病及药物治疗标签作为用户标签进行存储，以得到新标签；
31.加权统计单元，用于将所述新标签与疾病数据库中已有的数据标签进行加权统计，以得到统计结果；
32.标签确定单元，用于确定所述统计结果中分数最高的标签，并进行用户画像标签的标注。
33.其进一步技术方案为：所述数据库构建单元包括：
34.创建子单元，用于采用图数据库创建疾病数据库；
35.节点存储子单元，用于将疾病诊断信息以及药物治疗方案作为节点进行存储；
36.拆词子单元，用于对所述节点利用nlp自然语言处理技术进行拆词，将拆词后的结果作为数据标签并进行存储。
37.其进一步技术方案为：所述文本识别单元包括：
38.转换子单元，用于利用ocr图像识别技术将所述图片转换为文本；
39.提取子单元，用于从所述文本中提取患者的相关数据，以得到患者信息。
40.本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。
41.本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。
42.本发明与现有技术相比的有益效果是：本发明通过对就诊文件的图片文字识别后，提取患者信息，并将疾病数据库内的行为数据和就诊文件进行标签化挖掘，提升了用户画像的全面性，可找出患者诊疗和患者行为的相关性，实现对诊疗数据进行挖掘，提升用户画像维度。
43.下面结合附图和具体实施例对本发明作进一步描述。
附图说明
44.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的应用场景示
意图；
46.图2为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的流程示意图；
47.图3为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的子流程示意图；
48.图4为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的子流程示意图；
49.图5为本发明实施例提供的基于诊疗数据的用户画像标签挖掘装置的示意性框图；
50.图6为本发明实施例提供的基于诊疗数据的用户画像标签挖掘装置的数据库构建单元的示意性框图；
51.图7为本发明实施例提供的基于诊疗数据的用户画像标签挖掘装置的文本识别单元的示意性框图；
52.图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
53.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
54.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
55.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
56.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
57.请参阅图1和图2，图1为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的应用场景示意图。图2为本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的示意性流程图。该基于诊疗数据的用户画像标签挖掘方法应用于服务器中。该服务器与终端进行数据交互，通过终端输入就诊文件的图片，利用图数据库和nlp自动分词技术，通过标签化挖掘系统，分层存储将患者诊疗数据标签化，和用户行为数据历史数据标签进行加权统计，并通过人工智能算法，将患者诊疗数据和用户历史行为进行聚类分析，若用户诊疗数据和用户行为数据存在比较强的相关性，则更新用户画像标签。
58.图2是本发明实施例提供的基于诊疗数据的用户画像标签挖掘方法的流程示意图。如图2所示，该方法包括以下步骤s110至s180。
59.s110、构建疾病数据库。
60.在本实施例中，疾病数据库是指将疾病诊断信息以及药物治疗方案作为节点，且
将节点的数据进行拆词形成标签后构成的数据库。
61.在一实施例中，请参阅图3，上述的步骤s110可包括步骤s111～s113。
62.s111、采用图数据库创建疾病数据库；
63.s112、将疾病诊断信息以及药物治疗方案作为节点进行存储；
64.s113、对所述节点利用nlp自然语言处理技术进行拆词，将拆词后的结果作为数据标签并进行存储。
65.在本实施例中，将历史就诊的疾病诊断信息以及药物治疗方案作为数据库的节点进行分类存储，对于每个类别内的数据采用拆词的方式确定数据标签。
66.s120、获取就诊文件的图片。
67.在本实施例中，患者在就诊结束后，从医院获得纸质打印诊疗文件。患者将纸质病历及缴费清单文件通过手机拍照并上传，上述的就诊文件包括病历及缴费清单文件。
68.s130、对所述图片进行文本识别，以得到患者信息。
69.在本实施例中，患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
70.在一实施例中，请参阅图4，上述的步骤s130可包括步骤s131～s132。
71.s131、利用ocr图像识别技术将所述图片转换为文本；
72.s132、从所述文本中提取患者的相关数据，以得到患者信息。
73.具体是先将图片转换为文本，再采用关键词或者词义识别提取相关数据。
74.s140、将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较，以得到疾病及药物治疗标签。
75.在本实施例中，疾病及药物治疗标签是指所述患者信息与节点的数据对应的信息。
76.确定患者信息中与疾病数据库中节点对应的数据同一类别的信息，以此确定与用户画像相关的数据。
77.具体地，基于内容的推荐算法的原理如下：为每种疾病构建一个疾病属性资料库；为每个用户构建一个基于诊疗数据的属性资料库；计算用户诊疗数据属性与疾病属性的相似程度，相似度高表示用户可能属于这个疾病，相似度低表示用户不属于这个疾病。
78.其中，疾病属性资料一般包含疾病定义、疾病分类、基本病因、典型症状、前兆、并发症或伴发表现、病史、相关化验、诊断标准、就诊科室、治疗目标、一般治疗方法、药物治疗方法、手术治疗方法、中医治疗方法、前沿治疗方法、日常生活管理、特殊注意事项、预防等信息。
79.用户诊疗数据属性资料包含用户电子病历、传统检验检测项目结果(生化、免疫、pcr等)、新兴检验检测项目结果(基因测序等)、医生用药选择、诊疗路径记录、网络行为数据、通过可穿戴设备收集的体征类健康管理数据等。
80.计算用户诊疗数据属性资料与疾病属性资料的相似度，受数据标准差异、个体行为差异、个体疾病发展阶段的差异，一个用户的诊疗数据属性与疾病属性资料几乎不可能完全相同，因此想要完全一样是非常困难的，因此需要对相似度进行计算。计算推荐依据：利用余弦相似度的公式来计算给定的user“u”和给定的item“i”之间的距离。余弦相似度的值越大说明u越有可能属于i。余弦相似度的具体计算方法如下：
在疾病分类的例子中：ua表示，用户u对疾病分类a的匹配(即user profiles矩阵中，症状a对应的值)。ia表示，疾病分类i是否包含疾病症状a(即item profiles矩阵中，疾病a对应的值)。当计算值越接近1，表明两个向量的夹角越接近0度，则两个向量越相似，即用户当前健康状态与疾病资料库中的某个分类越接近，从而推论出患者的健康属于当前某种状态而采取对应的推荐任务序列。
81.s150、将所述疾病及药物治疗标签、所述患者信息进行聚类分析，以确定强关联性的患者信息、疾病及药物治疗标签。
82.将疾病及药物治疗标签和患者的姓名、性别、年龄、疾病、治疗用药品进行聚类分析，若患者信息和标签信息存在强相关性，则将结构化的疾病及药物治疗标签作为用户标签进行存储。
83.s160、将强关联性的疾病及药物治疗标签作为用户标签进行存储，以得到新标签。
84.在本实施例中，新标签是指与患者信息有强关联性的疾病及药物治疗标签。
85.s170、将所述新标签与疾病数据库中已有的数据标签进行加权统计，以得到统计结果。
86.在本实施例中，统计结果是指新标签与疾病数据库中已有的数据标签进行加权求和得到的结果。
87.s180、确定所述统计结果中分数最高的标签，并进行用户画像标签的标注。
88.利用图数据库和nlp自动分词技术，通过标签化挖掘系统，分层存储将患者诊疗数据标签化和并和用户行为数据历史数据标签进行加权统计，并通过人工智能算法，将患者诊疗数据和用户历史行为进行聚类分析，若用户诊疗数据和用户行为数据存在比较强的相关性，则更新用户画像标签。
89.用户画像标签表示基于诊疗数据和用户行为与多层次目标对象的单向亲密度。对用患者的诊疗数据进行分析处理并提取特征对标签加以分析构建用户在本领域的基础画像。通过将患者行为数据和诊疗数据进行重构和挖掘分析，找到用户行为和诊疗数据的强相关性，提高患者画像泛化权重，提升了用户画像的全面性。
90.上述的基于诊疗数据的用户画像标签挖掘方法，通过对就诊文件的图片文字识别后，提取患者信息，并将疾病数据库内的行为数据和就诊文件进行标签化挖掘，提升了用户画像的全面性，可找出患者诊疗和患者行为的相关性，实现对诊疗数据进行挖掘，提升用户画像维度。
91.图5是本发明实施例提供的一种基于诊疗数据的用户画像标签挖掘装置300的示意性框图。如图5所示，对应于以上用户画像标签挖掘方法，本发明还提供一种基于诊疗数据的用户画像标签挖掘装置300。该用户画像标签挖掘装置300包括用于执行上述基于诊疗数据的用户画像标签挖掘方法的单元，该装置可以被配置于服务器中。具体地，请参阅图5，该基于诊疗数据的用户画像标签挖掘装置300包括数据库构建单元301、图片获取单元302、文本识别单元303、比较单元304、分析单元305、存储单元306、加权统计单元307以及标签确定单元308。
92.数据库构建单元301，用于构建疾病数据库；图片获取单元302，用于获取就诊文件的图片；文本识别单元303，用于对所述图片进行文本识别，以得到患者信息；比较单元304，用于将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较，以得到疾病及
药物治疗标签；分析单元305，用于将所述疾病及药物治疗标签、所述患者信息进行聚类分析，以确定强关联性的患者信息、疾病及药物治疗标签；存储单元306，用于将强关联性的疾病及药物治疗标签作为用户标签进行存储，以得到新标签；加权统计单元307，用于将所述新标签与疾病数据库中已有的数据标签进行加权统计，以得到统计结果；标签确定单元308，用于确定所述统计结果中分数最高的标签，并进行用户画像标签的标注。
93.在一实施例中，如图6所示，所述数据库构建单元301包括创建子单元3011、节点存储子单元3012以及拆词子单元3013。
94.创建子单元3011，用于采用图数据库创建疾病数据库；节点存储子单元3012，用于将疾病诊断信息以及药物治疗方案作为节点进行存储；拆词子单元3013，用于对所述节点利用nlp自然语言处理技术进行拆词，将拆词后的结果作为数据标签并进行存储。
95.在一实施例中，如图7所示，所述文本识别单元303包括转换子单元3031以及提取子单元3032。
96.转换子单元3031，用于利用ocr图像识别技术将所述图片转换为文本；提取子单元3032，用于从所述文本中提取患者的相关数据，以得到患者信息。
97.需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于诊疗数据的用户画像标签挖掘装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。
98.上述基于诊疗数据的用户画像标签挖掘装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。
99.请参阅图8，图8是本技术实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。
100.参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。
101.该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种基于诊疗数据的用户画像标签挖掘方法。
102.该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。
103.该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种基于诊疗数据的用户画像标签挖掘方法。
104.该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
105.其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：
106.构建疾病数据库；
107.获取就诊文件的图片；对所述图片进行文本识别，以得到患者信息；将所述患者信
息按照所述疾病数据库中节点对应的数据进行分类比较，以得到疾病及药物治疗标签；将所述疾病及药物治疗标签、所述患者信息进行聚类分析，以确定强关联性的患者信息、疾病及药物治疗标签；将强关联性的疾病及药物治疗标签作为用户标签进行存储，以得到新标签；将所述新标签与疾病数据库中已有的数据标签进行加权统计，以得到统计结果；确定所述统计结果中分数最高的标签，并进行用户画像标签的标注。
108.其中，所述就诊文件包括病历及缴费清单文件。
109.所述患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
110.在一实施例中，处理器502在实现所述构建疾病数据库步骤时，具体实现如下步骤：
111.采用图数据库创建疾病数据库；将疾病诊断信息以及药物治疗方案作为节点进行存储；对所述节点利用nlp自然语言处理技术进行拆词，将拆词后的结果作为数据标签并进行存储。
112.在一实施例中，处理器502在实现所述对所述图片进行文本识别，以得到患者信息步骤时，具体实现如下步骤：
113.利用ocr图像识别技术将所述图片转换为文本；从所述文本中提取患者的相关数据，以得到患者信息。
114.应当理解，在本技术实施例中，处理器502可以是中央处理单元(central processing unit，cpu)，该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
115.本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。
116.因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：
117.构建疾病数据库；获取就诊文件的图片；对所述图片进行文本识别，以得到患者信息；将所述患者信息按照所述疾病数据库中节点对应的数据进行分类比较，以得到疾病及药物治疗标签；将所述疾病及药物治疗标签、所述患者信息进行聚类分析，以确定强关联性的患者信息、疾病及药物治疗标签；将强关联性的疾病及药物治疗标签作为用户标签进行存储，以得到新标签；将所述新标签与疾病数据库中已有的数据标签进行加权统计，以得到统计结果；确定所述统计结果中分数最高的标签，并进行用户画像标签的标注。
118.其中，所述就诊文件包括病历及缴费清单文件。
119.所述患者信息包括姓名、性别、年龄、疾病以及治疗用药品。
120.在一实施例中，所述处理器在执行所述计算机程序而实现所述构建疾病数据库步骤时，具体实现如下步骤：
121.采用图数据库创建疾病数据库；将疾病诊断信息以及药物治疗方案作为节点进行
存储；对所述节点利用nlp自然语言处理技术进行拆词，将拆词后的结果作为数据标签并进行存储。
122.在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述图片进行文本识别，以得到患者信息步骤时，具体实现如下步骤：
123.利用ocr图像识别技术将所述图片转换为文本；从所述文本中提取患者的相关数据，以得到患者信息。
124.所述存储介质可以是u盘、移动硬盘、只读存储器(read-only memory，rom)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
125.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
126.在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
127.本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。
128.该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
129.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周晓悦张启东
技术所有人：杭州逸曜信息技术有限公司
我是此专利的发明人

上一篇：一种胆体涂搪设备的制作方法
上一篇：时间同步方法、终端设备和网络设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。