一种基于词句向量在线标注保单条款查看方法、装置及系统与流程

文档序号：37933769发布日期：2024-05-11 00:12阅读：6来源：国知局

本发明涉及自然语言处理，尤其涉及一种基于词句向量在线标注保单条款查看方法、装置及系统。

背景技术：

1、自然语言处理是计算机科学和人工智能领域中关注计算机和人类(自然)语言之间相互作用的一个重要方向。这一领域的目标是研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。其研究任务包括词性标注、命名实体识别、语义角色标注、机器翻译、自动问答、情感分析、文本摘要、文本分类、关系抽取等。

2、基于词句向量在线标注保单条款查看方法属于这个技术领域，利用了词向量模型来理解和生成自然语言。词向量模型是一种将词汇表达为实数向量的技术，用于捕获词汇之间的语义和语法关系。特别是在处理自然语言任务时，词向量模型能够有效地进行词语或短语的向量化表示，从而大大提高了自然语言处理任务的性能。

3、在现有方法中，缺乏有效的文本预处理工作，常常导致文本分析的不准确和表面化，无法深入挖掘语义特征，影响了后续操作的效率和准确性。未采用先进的文本嵌入技术，导致无法有效地将文本转换为机器可处理的向量形式，难以捕捉文本的深层次含义。此外，手动分类保单条款费时费力，易出错，并且关键词的提取和索引建立通常不够精确，使得检索效率低下。编码-解码模型若缺乏自注意力机制，将难以准确提取文本的核心意义，导致用户需要阅读大量不必要的内容。

技术实现思路

1、本发明的目的是解决现有技术中存在的缺点，而提出的一种基于词句向量在线标注保单条款查看方法、装置及系统。

2、为了实现上述目的，本发明采用了如下技术方案：一种基于词句向量在线标注保单条款查看方法，包括以下步骤：

3、s1：基于原始保单条款文本，采用文本预处理算法，进行包括中文分词、去除停用词、词义消歧的预处理工作，并转换为用于机器学习模型处理的格式，生成预处理文本；

4、s2：基于所述预处理文本，采用bert嵌入算法，进行文本的向量化表示，并提取文本的深层语义特征，生成语义嵌入向量；

5、s3：基于所述语义嵌入向量，采用k-均值聚类方法，进行保单条款的自动分组，依据向量空间中的距离划分同类条款，并生成条款分类标签；

6、s4：基于所述条款分类标签，采用tf-idf提取方法，抽取多类别中的关键术语，并为后续检索和摘要生成建立索引，生成关键词索引；

7、s5：基于所述关键词索引，采用带有自注意力机制的编码-解码模型，提炼条款的核心内容，并生成条款摘要；

8、s6：将所述条款摘要融合到原保单文本中，采用强化学习布局优化算法，优化信息展示效率和用户界面的互动体验，并生成用户界面；

9、所述语义嵌入向量包括文本中每个词的上下文关联向量表示，所述条款分类标签具体为对同类保单条款的集合命名的标识，所述关键词索引具体指为每个类别的条款集合建立关键术语集，所述用户界面具体为用户通过网页或应用程序查阅、结构化展示保单条款和摘要的界面。

10、作为本发明的进一步方案，基于原始保单条款文本，采用文本预处理算法，进行包括中文分词、去除停用词、词义消歧的预处理工作，并转换为用于机器学习模型处理的格式，生成预处理文本的步骤具体为：

11、s101：基于原始保单条款文本，采用结巴分词算法，进行文本分词，并进行切词后内容组织，生成分词结果文本；

12、s102：基于所述分词结果文本，采用停用词表，对分词结果进行停用词去除，并进行去除停用词后内容重组，生成去停用词文本；

13、s103：基于所述去停用词文本，采用基于上下文的词义消歧算法，对文本中的多义词进行消歧处理，并进行消歧后内容重组，生成词义消歧文本；

14、s104：基于所述词义消歧文本，采用词袋模型，进行文本标记化，并进行机器学习模型兼容格式转换，生成预处理文本；

15、所述结巴分词算法具体为基于前缀词典进行词图扫描，所述停用词表具体为常出现但对于文本特点分析无关键作用的词，所述基于上下文的词义消歧算法具体为依据词汇的上下文信息分析其含义，所述词袋模型用于将文本转换为标记化向量表示。

16、作为本发明的进一步方案，基于所述预处理文本，采用bert嵌入算法，进行文本的向量化表示，并提取文本的深层语义特征，生成语义嵌入向量的步骤具体为：

17、s201：基于所述预处理文本，采用bert预训练模型，进行文本初始嵌入，并进行bert嵌入后内容重组，生成bert初始嵌入表示；

18、s202：基于所述bert初始嵌入表示，采用梯度下降方法，进行模型微调，并进行优化后参数获取，生成微调后的bert表示；

19、s203：基于所述微调后的bert表示，采用bert特性提取方法，提取序列输出，并进行向量序列化处理，生成序列向量表示；

20、s204：基于所述序列向量表示，采用叠加平均法，进行固定长度的向量表示获取，并进行语义数据压缩，生成语义嵌入向量；

21、所述bert预训练模型依靠深度双向transformer编码器输出文本向量表达信息，所述梯度下降方法包括随机梯度下降、小批量梯度下降和批量梯度下降，用于优化模型的权重，所述bert特性提取方法包括最后一层的输出、所有层输出的加权平均或最后四层输出的连接方式，获取词或字的向量表示，所述叠加平均法具体指取最后几层输出的加权平均值或连接，用于获得整个句子或文本片段的向量表示。

22、作为本发明的进一步方案，基于所述语义嵌入向量，采用k-均值聚类方法，进行保单条款的自动分组，依据向量空间中的距离划分同类条款，并生成条款分类标签的步骤具体为：

23、s301：基于语义嵌入向量，采用k-均值聚类算法，通过计算向量间的欧氏距离，将保单条款归类到k个集群中，生成聚类标签；

24、s302：基于所述聚类标签，进行迭代优化，使用肘部法则确定最优的k值，划分差异化的条款集群，确定最优集群数量；

25、s303：再次运行k-均值聚类算法，基于所述最优集群数量，对保单条款进行分类，获得细化聚类标签；

26、s304：对每个集群进行分析，基于所述细化聚类标签，利用质心计算方法，提取每个集群的中心点特征，确定条款的分类，获取条款分类标签；

27、所述k-均值聚类算法具体为在向量空间中随机选择k个初始聚类中心，迭代更新样本点的聚类归属，直至收敛于最优聚类，所述欧氏距离通过计算向量之间的空间距离来度量条款之间的相似性，所述肘部法则具体为通过绘制差异化k值下聚类模型的误差平方和，找到肘部点对应的k值，作为最优集群数量，所述质心计算方法具体为计算每个聚类中所有样本点的均值向量作为该聚类的质心。

28、作为本发明的进一步方案，基于所述条款分类标签，采用tf-idf提取方法，抽取多类别中的关键术语，并为后续检索和摘要生成建立索引，生成关键词索引的步骤具体为：

29、s401：基于所述条款分类标签，采用tf-idf提取方法，提取每个分类中的关键术语，生成初步关键词集合；

30、s402：对所述初步关键词集合进行清洗和筛选，使用频统计和互信息技术，剔除停用词和无关词汇，获得清洗后关键词集合；

31、s403：基于所述清洗后关键词集合，利用词性标注和句法依存分析，提炼关键术语，获取关键词；

32、s404：以所述关键词作为输入，运用倒排索引建立方法，为每个词语建立索引，便于检索和摘要生成，构建关键词索引；

33、所述tf-idf提取方法具体为计算每个词语在当前分类中的tf-idf值，突显在当前分类中的重要性，所述词频统计用于计算每个词语在关键词集合中的出现频率，所述互信息通过计算词语之间的关联度，进行词汇筛除。

34、作为本发明的进一步方案，基于所述关键词索引，采用带有自注意力机制的编码-解码模型，提炼条款的核心内容，并生成条款摘要的步骤具体为：

35、s501：基于所述关键词索引，采用自注意力机制编码-解码模型，进行深度语义分析，生成特征向量；

36、s502：基于所述特征向量，采用序列到序列学习方法，进行关键信息提炼，并生成关键信息摘要；

37、s503：基于所述关键信息摘要，采用摘要生成算法，优化信息表达，并生成条款摘要；

38、所述自注意力机制编码-解码模型具体为用于处理序列数据并且捕获长距离依赖信息的模型，通过对输入序列中的元素加权，提取关键特征，所述序列到序列学习方法具体为利用编码器的上下文信息和解码器的当前生成状态，将一系列输入转换为输出序列，所述摘要生成算法包括提取式和生成式摘要技术。

39、作为本发明的进一步方案，将所述条款摘要融合到原保单文本中，采用强化学习布局优化算法，优化信息展示效率和用户界面的互动体验，并生成用户界面的步骤具体为：

40、s601：将所述条款摘要融合到原保单文本中，采用信息融合技术，保持文本连贯性，生成融合文本；

41、s602：基于所述融合文本，采用用户界面原型设计方法，构建初步布局，生成界面原型设计；

42、s603：基于所述界面原型设计，应用用户体验评估模型，分析用户互动数据，生成用户体验评估报告；

43、s604：基于所述用户体验评估报告，采用强化学习布局优化方法，迭代改进布局，生成优化后布局；

44、s605：将所述优化后布局应用于用户界面，利用交互式设计反馈循环，细化用户体验，生成最终的用户界面。

45、一种基于词句向量在线标注保单条款查看装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述基于词句向量在线标注保单条款查看方法的步骤。

46、一种基于词句向量在线标注保单条款查看系统，所述基于词句向量在线标注保单条款查看系统用于执行上述基于词句向量在线标注保单条款查看方法，包括预处理模块、嵌入表示模块、聚类标注模块、关键词处理模块、用户交互模块；

47、所述预处理模块基于原始文本，采用结巴分词，进行分词处理，并使用停用词过滤和词义消歧技术，生成预处理文本；

48、所述嵌入表示模块运用bert预训练模型进行语义嵌入，并通过梯度下降优化，生成微调后的bert表示；

49、所述聚类标注模块基于微调后的bert表示，应用k-均值聚类算法进行保单条款分类，并利用肘部法则确定最优聚类数，生成条款分类标签；

50、所述关键词处理模块基于条款分类标签，利用tf-idf提取技术关键术语，并通过词性标注与句法依存分析提炼关键词，生成关键词索引；

51、所述用户交互模块基于关键词索引，采用自注意力机制编码-解码模型进行深度语义分析，并结合信息融合技术优化用户界面布局，生成最终用户界面。

52、作为本发明的进一步方案，所述预处理模块包括文本分词子模块、停用词处理子模块、词义消歧子模块、文本标记化子模块；

53、所述嵌入表示模块包括bert嵌入子模块、模型微调子模块、特性提取子模块、向量序列化子模块；

54、所述聚类标注模块包括k-均值聚类子模块、最优值确定子模块、细化聚类子模块、分析分类子模块；

55、所述关键词处理模块包括关键词提取子模块、关键词清洗子模块、关键词提炼子模块、关键词索引子模块；

56、所述用户交互模块包括特征向量生成子模块、关键信息提取子模块、信息融合子模块、界面设计优化子模块。

57、与现有技术相比，本发明的优点和积极效果在于：

58、本发明中，采用文本预处理和bert嵌入算法不仅提高了文本分析的深度，还确保了文本向量化表示的高质量，从而能够准确捕捉到条款中的深层语义特征。k-均值聚类方法自动化地对条款进行分类，提高了数据结构的清晰度，并为后续的检索提供了便利。tf-idf方法的应用增强了关键术语提取的精确度，为用户检索提供了高效的索引。自注意力机制的编码-解码模型进一步提炼出条款的核心内容，简化用户的阅读负担。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张博,徐伟男,周明强
技术所有人：上海商保通健康科技有限公司
我是此专利的发明人

上一篇：一种氢内燃机试验室用可移动式柔性集气罩的制作方法
上一篇：一种用于提高光学设备视场稳定性的装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。