一种基于知识图谱和相似度度量的OneID生成方法与流程

文档序号:37464737发布日期:2024-03-28 18:47阅读:9来源:国知局
一种基于知识图谱和相似度度量的OneID生成方法与流程

本发明涉及增强数据管理,尤其涉及一种基于知识图谱和相似度度量的oneid生成方法。


背景技术:

1、知识图谱实体相似度计算可应用于搜索引擎、自然语言处理、推荐系统等许多领域种。传统的知识图谱实体相似度计算方法主要是基于结构比较的方法,例如计算实体节点的相似度和路径的相似度等。这种计算方法的主要问题在于为充分考虑实体之间的业务含义信息,无法准确的映射实体之间的业务相似度。此外,传统的知识图谱相似度计算难以处理知识图谱中的复杂关系和大规模的实体数据,在计算效率和计算性能方面受到很大限制,因此在实际应用中受到一定的限制。

2、为解决上述问题,现有技术通过文本编码器将知识图谱中的实体核关系信息转化为初始向量,通过第一图神经网络获取知识图谱中的实体向量化表示,根据图匹配算法,得到两个图之间的匹配得分矩阵;对匹配得分矩阵进行池化,获得第一得分向量,再输入多层感知机,获得两个实体的相似度得分;或是通过根据已有的知识图谱查询待计算相似度的第一实体和第二实体,从而获取与第一实体相对应的第一子图谱和与第二实体相对应的第二子图谱;通过将第一子图谱分解为对应的第一无序根集合,将第二子图谱分解为对应的第二无序跟集合;通过预设的图核计算规则、第一无序根集合和第二无序根集合,计算获取第一实体与第二实体之间的图核相似度;但上述现有技术中,在应用到医疗领域时,由于用户数据信息来源于多个业务系统且无统一标准,难以集中化管理和规范化处理用户身份信息、社会信息、社交信息、诊疗记录和购药记录等数据,同时无法实现用户的统一身份标识,方便企业在内外部各种场景下识别和管理用户,提供个性化服务,提升用户体验;

3、因此,提出一种基于知识图谱和相似度度量的oneid生成方法,用于解决现有技术中用户数据信息来源于多个业务系统且无统一标准,无法实现用户的统一身份标识的问题。


技术实现思路

1、针对现有技术的不足,本发明提供一种基于知识图谱和相似度度量的oneid生成方法,用于解决上述问题。

2、一种基于知识图谱和相似度度量的oneid生成方法,包括:获取用户医疗数据;其中,用户医疗数据包括用户的基本信息、诊疗信息、购药信息、联系人信息和收货人信息;

3、根据用户的基本信息对用户进行划分,得到确定性用户和非确定用户;

4、基于编辑距离分别计算确定性用户和非确定用户之间用户医疗数据的相似度;

5、整合用户医疗数据至知识图谱,基于知识图谱判断任一非确定用户与确定性用户是否满足预设相似度关系,生成判断结果;

6、根据判断结果生成每一用户的oneid。

7、作为本发明的一种实施例,获取用户医疗数据,包括:

8、通过预设第一方式获取用户的基本信息,包括:姓名、性别、身份证号、电话号码、出生日期、居住地和常用网络联系方式;

9、通过预设第二方式获取用户的诊疗信息,包括:用户就诊医院和用户诊疗病种;

10、通过预设第三方式获取用户的购药信息,包括:购买药品信息和购药门店信息;

11、通过预设第四方式获取用户的联系人信息,包括:联系人与用户的关系、联系人姓名和联系人电话号码;

12、通过预设第五方式获取用户的收货人信息,包括:收货人姓名、收货人电话和收货人居住地。

13、作为本发明的一种实施例,根据用户的基本信息对用户进行划分,得到确定性用户和非确定用户,包括:

14、获取用户的基本信息,对基本信息中的唯一信息进行提取,得到用户的身份证号、电话号码以及常用网络联系方式;

15、判断用户的身份证号、电话号码以及常用网络联系方式是否全部为空白信息;

16、若是,判定当前用户为非确定用户;

17、若不是,判定当前用户为确定性用户。

18、作为本发明的一种实施例,基于编辑距离分别计算确定性用户和非确定用户之间用户医疗数据的相似度,包括:

19、获取确定性用户和非确定用户的所有用户医疗数据,确定每一用户医疗数据存储时表征的字符串;

20、根据所有字符串,基于编辑距离相似度计算公式计算得到确定性用户和非确定用户之间每一用户医疗数据的相似度;

21、其中,编辑距离相似度计算公式如下:

22、

23、其中,lev为任意两个参与计算用户医疗数据表征的字符串的编辑距离,a和b为参与计算的字符串,长度分别为|a|和|b|,i和j分别表示a和b字符串的下标;

24、

25、其中,sim为字符串a和b的相似度,|a|和|b|分别为a和b的长度。

26、作为本发明的一种实施例,整合用户医疗数据至知识图谱,基于知识图谱判断任一非确定用户与确定性用户是否满足预设相似度关系,生成判断结果,包括:

27、根据每一用户的用户医疗数据生成单个知识图谱组成模块;其中,单个知识图谱组成模块分为非确定用户单个知识图谱组成模块和确定性用户单个知识图谱组成模块;

28、整合所有单个知识图谱组成模块,得到初始知识图谱;

29、获取初始知识图谱中任一非确定用户单个知识图谱组成模块,判断当前非确定用户单个知识图谱组成模块中所有用户医疗数据,与每一确定性用户单个知识图谱组成模块中所有用户医疗数据的平均相似度是否大于预设相似度阈值,生成判断结果;

30、其中,若大于,判断结果为当前非确定用户与确定性用户满足预设相似度关系;

31、若不大于,判断结果为当前非确定用户与确定性用户不满足预设相似度关系。

32、作为本发明的一种实施例,判断当前非确定用户单个知识图谱组成模块中所有用户医疗数据,与每一确定性用户单个知识图谱组成模块中所有用户医疗数据的平均相似度是否大于预设相似度阈值,生成判断结果,包括:

33、获取当前非确定用户单个知识图谱组成模块中所有用户医疗数据与每一确定性用户单个知识图谱组成模块中所有用户医疗数据的相似度;其中,相似度包括姓名相似度、性别相似度、出生日期相似度、居住地相似度、用户就诊医院相似度、用户诊疗病种相似度、购买药品信息相似度、购药门店信息相似度、联系人与用户的关系相似度、联系人姓名相似度、联系人电话号码相似度、收货人姓名相似度、收货人电话相似度和收货人居住地相似度;

34、计算得到当前非确定用户单个知识图谱组成模块中所有用户医疗数据,与每一确定性用户单个知识图谱组成模块中所有用户医疗数据的平均相似度;

35、判断平均相似度是否大于预设相似度阈值,生成判断结果。

36、作为本发明的一种实施例,一种基于知识图谱和相似度度量的oneid生成方法还包括:

37、当判断完所有非确定用户单个知识图谱组成模块与每一确定性用户单个知识图谱组成模块的平均相似度是否大于预设相似度阈值后,删除判断结果为当前非确定用户与确定性用户满足预设相似度关系的非确定用户单个知识图谱组成模块;

38、整合剩下的所有单个知识图谱组成模块,生成完整知识图谱。

39、作为本发明的一种实施例,根据判断结果生成每一用户的oneid,包括:

40、若判断结果为当前非确定用户和确定性用户为同一用户,则仅生成一个oneid用于表征当前用户;

41、若判断结果为当前非确定用户和确定性用户不为同一用户,则生成两个oneid用于分别表征当前两位用户。

42、本发明的有益效果为:

43、本发明提供一种基于知识图谱和相似度度量的oneid生成方法,用于解决业务数据孤岛和准确识别用户信息的问题,通过数据采集技术实现业务数据的集中管理,根据用户的属性信息划分为确定性用户和非确定性用户,并基于编辑距离和知识图谱计算用户之间的相似度,生成唯一标识用户身份的oneid,实现从海量业务数据中找相似用户的目标,并保证准确率和性能要求。

44、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

45、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1