本发明属于企业画像,具体而言,涉及一种结合企业画像的llm问题优化方法、介质及系统。
背景技术:
1、近年来,大语言模型(llm)在各种应用场景中广泛应用,如问答系统、数字助手、内容生成等,已经成为人工智能领域的重要技术之一。llm通过从大规模语料中学习获得强大的语言理解和生成能力,可以为用户提供高质量的自然语言交互服务。然而,llm在实际应用中也存在一些问题。
2、首先,llm大多是基于通用语料训练的,缺乏对特定领域或企业的深入了解,无法充分理解用户提出的针对性问题。llm给出的回答可能过于笼统,无法满足用户的具体需求。这种情况在垂直行业应用中尤为突出,比如金融、医疗等领域,用户提出的问题往往涉及专业知识和行业逻辑,llm很难给出准确和有价值的回答。
3、其次,llm输出的内容可能存在事实错误、逻辑混乱或表述不当等问题。这是因为llm虽然在语言生成方面表现出色,但缺乏对实际世界知识的深入理解。在某些应用场景下,这些缺陷可能导致严重的后果,比如在医疗健康咨询中给出错误的建议。因此有必要对llm的输出进行深入的内容分析和修正。
4、再次,llm在回答问题时缺乏针对性,往往无法很好地捕捉问题的关键点和用户的真实需求。如果不能准确地理解问题的背景和上下文,llm给出的回答可能并不切合实际。
5、综上所述,现有技术中由于提问者往往很难做到提出的问题很有针对性,导致llm回答与提问者期望回答存在偏差的技术问题。
技术实现思路
1、有鉴于此,本发明提供一种结合企业画像的llm问题优化方法、介质及系统,能够解决现有技术中由于提问者往往很难做到提出的问题很有针对性,导致llm回答与提问者期望回答存在偏差的技术问题
2、本发明是这样实现的:
3、本发明的第一方面提供一种结合企业画像的llm问题优化方法,包括以下步骤:
4、s10、构建企业知识图谱,包含企业基本信息、业务领域、产品服务、组织架构、核心技术、市场定位、竞争优势、发展战略以及合作伙伴;
5、s20、获取提问者的问题文本,并提取所述问题文本中的关键词集合;
6、s30、对于所述关键词集合中的每个关键词,在所述企业知识图谱中进行匹配,将匹配度大于第一阈值的企业知识图谱的节点和关系作为企业画像要素,记为第一要素;
7、s40、采用hyperloglog算法对所述第一要素进行基数估计,快速评估每个关键词与所述第一要素的相关度;
8、s50、利用word2vec模型,结合模拟退火算法,以相关度大于第二阈值的关键词为种子,对所述种子进行语义扩展,得到语义相关的扩展关键词集合;
9、s60、基于所述扩展关键词集合,在所述企业知识图谱中进行二次匹配,将匹配度大于第三阈值的企业知识图谱的节点和关系作为企业画像要素,记为第二要素;
10、s70、利用预先训练好的prompt生成模型,输入所述问题文本、所述第二要素进行融合,生成优化后的prompt;
11、s80、将所述优化后的prompt输入到llm模型中,获取初步回答,并基于所述第二要素对初步回答进行后处理,包括实体对齐、事实核查和内容补充,最终输出与企业画像高度相关的优化后回答结果。
12、具体而言,所述步骤s10,具体包括:收集企业的基本信息、业务领域、产品服务、组织架构、核心技术、市场定位、竞争优势、发展战略以及合作伙伴的相关数据,并将这些信息建模为一个知识图谱。知识图谱由节点(代表实体)和边(代表实体之间的关系)组成,企业的各类信息被抽象为不同类型的节点,节点之间的关系也被建模出来,从而将企业的各类信息整合到一个结构化的知识库中,为后续的问题优化奠定基础。
13、其中,所述步骤s20的具体步骤包括:首先从提问者那里获取原始的问题文本,然后应用自然语言处理技术对问题文本进行分词、词性标注等预处理操作,从而提取出问题文本中的关键词集合。关键词通常指问题中最能反映问题主题和信息需求的词语,提取关键词的方法包括基于词频统计、基于文本结构特征、基于语义相似度等。通过这一步骤,获得了用于后续匹配和扩展的关键词集合。
14、其中,所述步骤s30的具体步骤包括:遍历关键词集合中的每个关键词,在之前构建的企业知识图谱中进行匹配检索。对于每个关键词,计算其在知识图谱中的匹配度,如果匹配度大于第一阈值(参考值为0.75),则将该关键词对应的知识图谱节点和关系记录为第一要素。通过这一步骤,获得了与问题关键词相匹配的企业知识图谱要素,为后续的语义扩展和回答优化奠定基础。
15、其中,所述步骤s40的具体步骤包括:采用hyperloglog算法对从知识图谱中提取的第一要素(节点和关系)进行基数估计。hyperloglog算法是一种用于估计数据集基数(不同元素个数)的概率算法,其结果反映了每个关键词与第一要素的相关程度:基数越大,说明关键词与更多的图谱要素相关。通过这种方式,可以快速评估每个关键词与企业画像的相关度,为后续的语义扩展提供依据。
16、其中,所述步骤s50的具体步骤包括:首先使用预训练的word2vec模型获取每个关键词的语义embedding向量,然后采用模拟退火算法对这些embedding向量进行优化。以相关度大于第二阈值(参考值为0.65)的关键词作为种子,通过模拟退火算法搜索语义相关的扩展关键词。这样得到的扩展关键词集合,不仅包含了原始问题的关键词,还包含了语义相关的词汇,为后续的二次匹配提供更丰富的线索。
17、其中,所述步骤s60的具体步骤包括:遍历从上一步得到的扩展关键词集合,在企业知识图谱中进行第二次匹配检索。对于每个扩展关键词,计算其在知识图谱中的匹配度,如果匹配度大于第三阈值(参考值为0.85),则将该扩展关键词对应的知识图谱节点和关系记录为第二要素。通过这一步骤,获得了一组与问题更加语义相关的企业画像要素,为后续的回答优化提供更精准的输入。
18、其中,所述步骤s70的具体步骤包括:使用一个预先训练好的prompt生成模型,将原始的问题文本和从上一步得到的第二要素(语义相关的企业画像要素)作为输入,生成一个优化后的prompt。这个优化后的prompt会更好地反映问题的意图,并与企业画像信息相结合,为后续的llm问答优化提供基础。
19、其中,所述步骤s80的具体步骤包括:将步骤s70生成的优化prompt输入到一个预训练的大语言模型(llm)中,生成一个初步的回答结果。然后利用之前得到的第二要素(语义相关的企业画像)对初步回答结果进行后处理,包括实体对齐、事实核查和内容补充。通过这一系列的后处理步骤,最终输出一个高质量的、与企业画像高度相关的优化回答结果。
20、在上述技术方案的基础上,本发明的一种结合企业画像的llm问题优化方法还可以做如下改进:
21、其中,所述第一阈值的获取步骤包括:
22、收集大量企业知识图谱匹配样本数据;
23、人工标注样本中的匹配度评分(0-1之间);
24、使用机器学习算法(如决策树、随机森林等)对样本进行训练,建立匹配度预测模型;
25、在验证集上测试不同阈值,选择f1分数最高的阈值作为第一阈值。
26、所述第二阈值的获取步骤包括:
27、构建关键词-企业要素关联度评估数据集;
28、利用专家打分法对关联度进行定量评估(0-100分) ;
29、采用roc曲线分析法,计算不同阈值下的真阳性率和假阳性率;
30、选择约登指数(youden’s index)最大的点对应的阈值作为第二阈值。
31、所述第三阈值的获取步骤包括:
32、收集大量企业知识图谱二次匹配样本;
33、采用五折交叉验证,将样本分为训练集和测试集;
34、在训练集上使用网格搜索法,测试不同阈值下的匹配准确率;
35、选择测试集上准确率最高的阈值作为第三阈值。
36、第一阈值范围: 0.6-0.9,最优值: 0.75;
37、第二阈值:范围: 0.5-0.8,优值: 0.65;
38、第三阈值:围: 0.7-0.95,最优值: 0.85。
39、所述企业知识图谱表示为:
40、,其中v表示节点集合,e表示边集合;节点v∈v代表企业的各类信息实体,至少包括产品、业务领域、组织架构;边e∈e代表实体之间的语义关系,至少包括属于、合作。
41、其中,关键词提取的方法采用基于词频统计的关键词抽取:
42、,其中,表示关键词ki在提问者的问题文本q中的词频,表示关键词ki在q中出现的次数,|q|表示问题文本的总词数,将值排序并选取前n个作为关键词集合k,其中问题文本中的关键词集合。
43、其中,匹配度的计算表示为:
44、;其中,表示关键词ki与节点v之间的相似度。
45、其中,采用hyperloglog算法对所述第一要素进行基数估计,具体是:hyperloglog算法首先将每个元素xi通过哈希函数h映射到一个32位的随机数,然后记录下的最高位连续0的个数ρ即;最后,通过ρ值的平均来估计基数|s|:;其中,m为桶的数量,为修正常数。
46、其中,模拟退火算法的目标函数定义为:
47、;其中,表示关键词ki和kj的词向量余弦相似度;为关键词ki的词向量表示,为关键词kj的词向量表示;表示是一个d维的实数向量,d表示ki的词向量的维度。
48、进一步的,字符串相似度使用编辑距离或余弦相似度;语义相似度利用预训练的词向量模型。
49、进一步的,所述prompt生成模型采用transformer的生成式语言模型作为基础模型。
50、本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令在计算机中运行时,用于执行上述的一种结合企业画像的llm问题优化方法。
51、本发明的第三方面提供一种结合企业画像的llm问题优化系统,其中,包含上述的计算机可读存储介质。
52、与现有技术相比较,本发明提供的一种结合企业画像的llm问题优化方法、介质及系统的有益效果是:够充分利用企业知识图谱,深入理解问题背景,提高llm生成回答的针对性。同时,通过多轮关键词提取、语义扩展和prompt优化,可以更准确地捕捉用户需求,减少llm输出内容的事实错误和逻辑混乱。此外,后处理环节的内容分析和修正进一步确保了回答结果的准确性,解决了现有技术中由于提问者往往很难做到提出的问题很有针对性,导致llm回答与提问者期望回答存在偏差的技术问题。