保险产品可读性计算方法、装置、计算机设备及存储介质与流程

文档序号:31714634发布日期:2022-10-04 21:16阅读:100来源:国知局
保险产品可读性计算方法、装置、计算机设备及存储介质与流程

1.本发明涉及计算机技术领域,特别是涉及一种保险产品可读性计算方法、装置、计算机设备及存储介质。


背景技术:

2.随着社会的发展,人们的保险意识逐渐加强,现有的保险产品类别多种多样,对于普通客户而言,在购买保险时,需要花费大量的时间来了解现有的所有保险产品的具体内容,而保险产品条款往往生涩难懂。消费者保护逐渐成为金融领域的焦点,不少的学者开始探讨保险产品合同条款的可读性进而促进消费者权益保护。增加保险产品和服务的信息透明度将提高消费者议价能力,有利于从根本上维护消费者权益和金融稳定,原因在于保险产品的供给方往往拥有强大的信息优势,在设计和推销保险产品时有误导消费者的倾向,因此优化保险产品信息披露、提高消费者专业素养以消除消费者对保险产品的“认知偏差”是消费者保护的首要考虑。尤其在保险市场中,消费者对保险产品的理解和认知局限是造成消费者权益受侵害的主要原因之一。
3.然而,保险产品的条款复杂且难以理解,无法衡量一份保险条款的内容被消费者阅读和理解的难易程度。


技术实现要素:

4.基于此,为了解决上述技术问题,提供一种保险产品可读性计算方法、装置、计算机设备和存储介质,可以衡量保险条款的内容被消费者阅读和理解的难易程度。
5.一种保险产品可读性计算方法,所述方法包括:获取保险产品条款文件,提取出所述保险产品条款文件中的保险条款内容;对所述保险条款内容进行数据清洗,得到待处理保险条款内容;对所述待处理保险条款内容进行文本分析,并根据文本分析结果提取出所述待处理保险条款内容中的文本特征;根据所述文本特征计算所述待处理保险条款内容的可读性指标。
6.在其中一个实施例中,所述对所述保险条款内容进行数据清洗,得到待处理保险条款内容,包括:删除所述保险条款内容中条款前的阅读提示与目录部分;删除所述保险条款内容中的页眉与页脚内容;删除所述保险条款内容中数字字符占比高于50%的表格,将保留的正文内容作为待处理保险条款内容。
7.在其中一个实施例中,所述对所述待处理保险条款内容进行文本分析,并根据文本分析结果提取出所述待处理保险条款内容中的文本特征,包括:获取字频表,并以所述字频表为基础,对所述待处理保险条款内容进行字频统计;利用自然语言处理技术的分词功能与短语结构句法分析功能对所述待处理保险
条款内容进行分词处理及短语句法分析,得到文本分析结果;根据所述文本分析结果提取出所述待处理保险条款内容中的文本特征。
8.在其中一个实施例中,所述方法还包括:统计所述待处理保险条款内容中的总字数与总句数;根据所述字频表计算所述待处理保险条款内容中的总字频;利用所述自然语言处理技术的分词功能与短语结构句法分析功能,获取所述待处理保险条款内容中的总词数与短语句法树高度;将所述总字数、所述总句数、所述总字频、所述总词数、所述短语句法树高度作为所述文本特征。
9.在其中一个实施例中,所述根据所述文本特征计算所述待处理保险条款内容的可读性指标,包括:根据所述总字数、所述总字频计算平均字顿;根据所述总字数、所述总句数计算句子平均字数;根据所述总词数、所述短语句法树高度计算词均句法树高度;分别将所述平均字顿、所述句子平均字数、所述词均句法树高度转换为目标格式,并将转换后的所述平均字顿、所述句子平均字数、所述词均句法树高度作为所述可读性指标。
10.在其中一个实施例中,所述方法还包括:输出所述可读性指标并存储在目标文件中。
11.一种保险产品可读性计算装置,所述装置包括:内容提取模块,用于获取保险产品条款文件,提取出所述保险产品条款文件中的保险条款内容;数据清洗模块,用于对所述保险条款内容进行数据清洗,得到待处理保险条款内容;特征提取模块,用于对所述待处理保险条款内容进行文本分析,并根据文本分析结果提取出所述待处理保险条款内容中的文本特征;可读性计算模块,用于根据所述文本特征计算所述待处理保险条款内容的可读性指标。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取保险产品条款文件,提取出所述保险产品条款文件中的保险条款内容;对所述保险条款内容进行数据清洗,得到待处理保险条款内容;对所述待处理保险条款内容进行文本分析,并根据文本分析结果提取出所述待处理保险条款内容中的文本特征;根据所述文本特征计算所述待处理保险条款内容的可读性指标。
13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取保险产品条款文件,提取出所述保险产品条款文件中的保险条款内容;对所述保险条款内容进行数据清洗,得到待处理保险条款内容;
对所述待处理保险条款内容进行文本分析,并根据文本分析结果提取出所述待处理保险条款内容中的文本特征;根据所述文本特征计算所述待处理保险条款内容的可读性指标。
14.上述保险产品可读性计算方法、装置、计算机设备和存储介质,通过获取保险产品条款文件,提取出所述保险产品条款文件中的保险条款内容;对所述保险条款内容进行数据清洗,得到待处理保险条款内容;对所述待处理保险条款内容进行文本分析,并根据文本分析结果提取出所述待处理保险条款内容中的文本特征;根据所述文本特征计算所述待处理保险条款内容的可读性指标。通过对保险条款内容进行文本分析以及文本特征提取,可以计算出保险条款内容的可读性指标,从而衡量保险条款的内容被消费者阅读和理解的难易程度,进一步保护保险消费者的权益。
附图说明
15.图1为一个实施例中保险产品可读性计算方法的应用环境图;图2为一个实施例中保险产品可读性计算方法的流程示意图;图3为一个实施例中保险产品可读性计算装置的结构框图;图4为一个实施例中计算机设备的内部结构图。
具体实施方式
16.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
17.本技术实施例提供的保险产品可读性计算方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以获取保险产品条款文件,提取出保险产品条款文件中的保险条款内容;计算机设备110可以对保险条款内容进行数据清洗,得到待处理保险条款内容;计算机设备110可以对待处理保险条款内容进行文本分析,并根据文本分析结果提取出待处理保险条款内容中的文本特征;计算机设备110可以根据文本特征计算待处理保险条款内容的可读性指标。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、平板电脑等设备。
18.在一个实施例中,如图2所示,提供了一种保险产品可读性计算方法,包括以下步骤:步骤202,获取保险产品条款文件,提取出保险产品条款文件中的保险条款内容。
19.保险产品条款文件可以是记载有保险产品条款的文件,具体的,保险产品条款文件通常以pdf形式存储。计算机设备可以获取到以pdf形式存储的保险产品条款文件,进一步提取出保险产品条款文件中的保险条款内容。具体的,计算机设备可以通过使用python编程语言中的pdfplumber工具包直接对pdf形式的保险产品条款文件中的保险条款内容进行按页读取。
20.步骤204,对保险条款内容进行数据清洗,得到待处理保险条款内容。
21.计算机设备在提取出保险条款内容后,可以对保险条款内容进行数据清洗。在本实施例中,计算机设备提取出来的保险条款内容可能会存在有影响可读性指标计算但是对
阅读理解条款无影响的内容,因此,计算机设备需要对这部分内容进行数据清洗,从而得到待处理保险条款内容。
22.步骤206,对待处理保险条款内容进行文本分析,并根据文本分析结果提取出待处理保险条款内容中的文本特征。
23.计算机设备可以对待处理保险条款内容进行文本分析,具体的,计算机设备可以使用hanlp开源自然语言处理工具包进行文本分析,从而提取出文本特征。
24.步骤208,根据文本特征计算待处理保险条款内容的可读性指标。
25.其中,可读性指标可以用于表示保险产品条款被消费者阅读和理解的难易程度,可读性指标可以是一个具体的数字,还可以是一个数值范围,在此不作限定。
26.计算机设备可以根据提取出的文本特征计算出待处理保险条款内容的可读性指标。
27.在本实施例中,计算机设备通过获取保险产品条款文件,提取出保险产品条款文件中的保险条款内容;对保险条款内容进行数据清洗,得到待处理保险条款内容;对待处理保险条款内容进行文本分析,并根据文本分析结果提取出待处理保险条款内容中的文本特征;根据文本特征计算待处理保险条款内容的可读性指标。通过对保险条款内容进行文本分析以及文本特征提取,可以计算出保险条款内容的可读性指标,从而衡量保险条款的内容被消费者阅读和理解的难易程度,进一步保护保险消费者的权益。
28.在一个实施例中,提供的一种保险产品可读性计算方法还可以包括数据清洗的过程,具体过程包括:删除保险条款内容中条款前的阅读提示与目录部分;删除保险条款内容中的页眉与页脚内容;删除保险条款内容中数字字符占比高于50%的表格,将保留的正文内容作为待处理保险条款内容。
29.计算机设备可以识别出保险条款内容中的无效部分,其中,无效部分可以是影响可读性指标计算但对阅读理解条款无影响的内容。计算机设备可以删除无效部分,得到待处理保险条款内容。
30.具体的,计算机设备需要删除条款前的阅读提示与目录部分,仅保留条款的正文内容;删除条款的页眉与页脚等可能会影响指标值但对条款阅读无影响的内容;删除数字字符占比高于50%的表格,这些表格通常为附带的精算费率表。
31.计算机设备可以删除条款前的阅读提示与目录部分、条款的页眉与页脚部分、数字字符占比高于50%的表格。
32.具体的,计算机设备在删除条款前的阅读提示与目录部分时,可以通过对pdf文件起始页内容进行字符对比判定,检测“目录”、“阅读提示”等内容是否在页面中出现,如出现则删除该页面;计算机设备在删除条款的页眉与页脚部分时,可以检测pdf文件中不同页面的首行字符与尾行字符是否相同,如相同则证明存在页眉与页脚,此文件所有页面的文本内容需将首行与尾行文本删去;计算机设备在删除数字字符占比高于50%的表格时,可以对各页面的表格内容进行字符统计,如该表格数字字符占比超过50%,通常为精算费率表,删去表格内容。
33.在本实施例中,通过删除保险条款内容中的无效部分,得到待处理保险条款内容,可以提高后续计算可读性指标的计算效率。
34.在一个实施例中,提供的一种保险产品可读性计算方法还可以包括对待处理保险
条款内容进行文本分析的过程,具体过程包括:获取字频表,并以字频表为基础,对待处理保险条款内容进行字频统计;利用自然语言处理技术的分词功能与短语结构句法分析功能对待处理保险条款内容进行分词处理及短语句法分析,得到文本分析结果;根据文本分析结果提取出待处理保险条款内容中的文本特征。
35.其中,字频表可以是北京语言大学bcc语料库推出的字频表,计算机设备可以获取字频表,并以字频表为字频统计基础,使用python中的hanlp自然语言开源工具包,对待处理保险条款内容进行分词处理与短语句法分析,得到文本分析结果。
36.计算机设备可以根据文本分析结果提取出待处理保险条款内容中的文本特征。
37.在一个实施例中,提供的一种保险产品可读性计算方法还可以包括提取文本特征的过程,具体过程包括:统计待处理保险条款内容中的总字数与总句数;根据字频表计算待处理保险条款内容中的总字频;利用自然语言处理技术的分词功能与短语结构句法分析功能,获取待处理保险条款内容中的总词数与短语句法树高度;将总字数、总句数、总字频、总词数、短语句法树高度作为文本特征。
38.计算机设备可以统计待处理保险条款内容的总字数、总句数、根据字频表计算待处理保险条款内容的总字频、利用自然语言处理技术的分词功能与短语结构句法分析功能获取总词数与短语句法树高度等特征值,并将总字数、总字频、总词数、总句数、短语句法树高度作为文本特征。
39.在一个实施例中,提供的一种保险产品可读性计算方法还可以包括计算可读性指标的过程,具体过程包括:根据总字数、总字频计算平均字顿;根据总字数、总句数计算句子平均字数;根据总词数、短语句法树高度计算词均句法树高度;分别将平均字顿、句子平均字数、词均句法树高度转换为目标格式,并将转换后的平均字顿、句子平均字数、词均句法树高度作为可读性指标。
40.计算机设备可以通过对待处理保险条款内容进行汉字字符统计,对应使用bcc语料库的字频表,可计算待处理保险条款内容的平均字频值;通过对待处理保险条款内容进行句子划分,使用句号与分号作为分隔符,可计算待处理保险条款内容的句子平均字数;通过对待处理保险条款内容进行短语句法分析与分词处理,可计算词均句法树高度值。
41.具体的,计算机设备计算平均字顿的公式可以是:平均字顿=总字频/总字数;计算机设备计算句子平均字数的公式可以是:句子平均字数=总字数/总句数;计算机设备计算词均句法树高度的公式可以是:词均句法树高度=短语句法树高度/总词数。
42.进一步,计算机设备可以将平均字顿、句子平均字数、词均句法树高度转换为百分制得分格式,转换公式为:、、。计算机设备可以将转换后的平均字顿、句子平均字数、词均句法树高度作为可读性指标。
43.在一个实施例中,提供的一种保险产品可读性计算方法还可以包括数据输出的过程,具体过程包括:输出可读性指标并存储在目标文件中。
44.计算机设备可以将计算出的平均字顿、句子平均字数、词均句法树高度的得分结
果输出并存储在指定的excel文件中。
45.应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
46.在一个实施例中,如图3所示,提供了一种保险产品可读性计算装置,包括:内容提取模块310、数据清洗模块320、特征提取模块330和可读性计算模块340,其中:内容提取模块310,用于获取保险产品条款文件,提取出保险产品条款文件中的保险条款内容;数据清洗模块320,用于对保险条款内容进行数据清洗,得到待处理保险条款内容;特征提取模块330,用于对待处理保险条款内容进行文本分析,并根据文本分析结果提取出待处理保险条款内容中的文本特征;可读性计算模块340,用于根据文本特征计算待处理保险条款内容的可读性指标。
47.在一个实施例中,数据清洗模块320还用于删除保险条款内容中条款前的阅读提示与目录部分;删除保险条款内容中的页眉与页脚内容;删除保险条款内容中数字字符占比高于50%的表格,将保留的正文内容作为待处理保险条款内容。
48.在一个实施例中,特征提取模块330还用于获取字频表,并以字频表为基础,对待处理保险条款内容进行字频统计;利用自然语言处理技术的分词功能与短语结构句法分析功能对待处理保险条款内容进行分词处理及短语句法分析,得到文本分析结果;根据文本分析结果提取出待处理保险条款内容中的文本特征。
49.在一个实施例中,特征提取模块330还用于统计待处理保险条款内容中的总字数与总句数;根据字频表计算待处理保险条款内容中的总字频;利用自然语言处理技术的分词功能与短语结构句法分析功能,获取待处理保险条款内容中的总词数与短语句法树高度;将总字数、总句数、总字频、总词数、短语句法树高度作为文本特征。
50.在一个实施例中,可读性计算模块340还用于根据总字数、总字频计算平均字顿;根据总字数、总句数计算句子平均字数;根据总词数、短语句法树高度计算词均句法树高度;分别将平均字顿、句子平均字数、词均句法树高度转换为目标格式,并将转换后的平均字顿、句子平均字数、词均句法树高度作为可读性指标。
51.在一个实施例中,提供的一种保险产品可读性计算装置还可以包括结果输出模块,用于输出可读性指标并存储在目标文件中。
52.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算
机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种保险产品可读性计算方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
53.本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
54.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取保险产品条款文件,提取出保险产品条款文件中的保险条款内容;对保险条款内容进行数据清洗,得到待处理保险条款内容;对待处理保险条款内容进行文本分析,并根据文本分析结果提取出待处理保险条款内容中的文本特征;根据文本特征计算待处理保险条款内容的可读性指标。
55.在一个实施例中,处理器执行计算机程序时还实现以下步骤:删除保险条款内容中条款前的阅读提示与目录部分;删除保险条款内容中的页眉与页脚内容;删除保险条款内容中数字字符占比高于50%的表格,将保留的正文内容作为待处理保险条款内容。
56.在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取字频表,并以字频表为基础,对待处理保险条款内容进行字频统计;利用自然语言处理技术的分词功能与短语结构句法分析功能对待处理保险条款内容进行分词处理及短语句法分析,得到文本分析结果;根据文本分析结果提取出待处理保险条款内容中的文本特征。
57.在一个实施例中,处理器执行计算机程序时还实现以下步骤:统计待处理保险条款内容中的总字数与总句数;根据字频表计算待处理保险条款内容中的总字频;利用自然语言处理技术的分词功能与短语结构句法分析功能,获取待处理保险条款内容中的总词数与短语句法树高度;将总字数、总句数、总字频、总词数、短语句法树高度作为文本特征。
58.在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据总字数、总字频计算平均字顿;根据总字数、总句数计算句子平均字数;根据总词数、短语句法树高度计算词均句法树高度;分别将平均字顿、句子平均字数、词均句法树高度转换为目标格式,并将转换后的平均字顿、句子平均字数、词均句法树高度作为可读性指标。
59.在一个实施例中,处理器执行计算机程序时还实现以下步骤:输出可读性指标并存储在目标文件中。
60.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取保险产品条款文件,提取出保险产品条款文件中的保险条款内容;对保险条款内容进行数据清洗,得到待处理保险条款内容;对待处理保险条款内容进行文本分析,并根据文本分析结果提取出待处理保险条款内容中的文本特征;根据文本特征计算待处理保险条款内容的可读性指标。
61.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:删除保险条款内
容中条款前的阅读提示与目录部分;删除保险条款内容中的页眉与页脚内容;删除保险条款内容中数字字符占比高于50%的表格,将保留的正文内容作为待处理保险条款内容。
62.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取字频表,并以字频表为基础,对待处理保险条款内容进行字频统计;利用自然语言处理技术的分词功能与短语结构句法分析功能对待处理保险条款内容进行分词处理及短语句法分析,得到文本分析结果;根据文本分析结果提取出待处理保险条款内容中的文本特征。
63.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:统计待处理保险条款内容中的总字数与总句数;根据字频表计算待处理保险条款内容中的总字频;利用自然语言处理技术的分词功能与短语结构句法分析功能,获取待处理保险条款内容中的总词数与短语句法树高度;将总字数、总句数、总字频、总词数、短语句法树高度作为文本特征。
64.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据总字数、总字频计算平均字顿;根据总字数、总句数计算句子平均字数;根据总词数、短语句法树高度计算词均句法树高度;分别将平均字顿、句子平均字数、词均句法树高度转换为目标格式,并将转换后的平均字顿、句子平均字数、词均句法树高度作为可读性指标。
65.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:输出可读性指标并存储在目标文件中。
66.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
67.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
68.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1