基于可视化的古诗词特征分析方法与流程

文档序号：11829708阅读：1147来源：国知局

本发明属于可视分析领域，应用于汉语古诗词可视化分析，对诗词的特征信息进行可视化展示。

背景技术：

诗词是用高度凝练的语言表达丰富含义的特殊文体，具有凝练和跳跃的特点，用有限的诗句表达尽可能多的意境，是人类智慧在语言乃至思维层面的结晶。不同朝代、诗人创作的古诗词具有不同的规律。同时诗词创作作为文人墨客表达思想情感的载体，包含的意境与情感也不同。因此，古诗词的研究应当从多个角度考虑。

可视分析是一项近几年发展起来的新兴技术，是信息可视化和科学可视化领域发展的产物，是人们理解和诠释大规模复杂情况的有效手段和途径。它根据用户需要和数据特征，借助一定的可视化符号，对数据之间的关系进行直观的展示，加深用户对数据的理解，发现隐藏在信息中的各类知识，进行更有效的交流。从而更加客观高效地对数据进行分析。古诗词可视化的工具和技术，其中一些如标签云、弦图展示诗词中的单个字词的连接特性或研究他们之间的连接关系；像素导向技术可以用颜色来区分和展示文本中的元素内容。

技术实现要素：

针对现有技术中存在的不足，本发明提供一种基于可视化的古诗词特征分析方法，从一首诗和诗词所在的诗集为对象，分析汉语古诗词的四个方面特征规律以及这些规律之间的关系，本发明适应于汉语古诗词的可视化。

为了解决上述技术问题，本发明提出的一种基于可视化的古诗词特征分析方法，其中，古诗词特征包括古诗词的音调、平仄、声母、韵母和诗句词性，其特征在于，首先以各个独立的古诗词特征来分析古诗，利用热力图Hotmap分别分析各个特征在古诗词内部的出现规律，再加入时间信息并通过线型图Line chart探索古诗词各个特征的规律；然后，再分析各个特征之间的内部规律，用线型图Line chart对特征之间的关系进行分析，具体步骤如下：

步骤一：根据汉语标点符作为诗词的句子划分，以句子作为处理单位，对每一句进行中文分词；对于分词后的每个诗句使用自然语言处理工具分析得到语法结构，记录其中的词性；对于每一个诗句，使用汉语转拼音工具得到古诗词的拼音，并根据拼音提取声母，韵母和音调三个特征；

步骤二：根据古诗词的音调得到实际平仄结构；

步骤三：韵部的划分以《中华新韵》为准根据现代汉语发音标准及以《平水韵》为标准根据古代汉语发音标准进行划分；声部不做划分，每一种声母对应一个不同的声部；

步骤四：根据得到的诗词中每一个字的音调、平仄、声部、韵部，并结合可视化热力图Hotmap显示这些特性；其中，每一行代表一句，热力图Hotmap中每一个单元块表示一个字符，单元块的不同灰度表示不同的音调或平仄，或是不同的韵部、声部；分析某一特征的规律时，根据同一灰度的位置规律分析某一音调、平仄、声部、韵部的规律，或对比不同灰度分析多个音调、平仄、声部、韵部的规律；

步骤五：在步骤四的基础上，在每一句中加入朗读时的停顿，分析音调、平仄、声部、韵部在加入停顿后的规律；朗读时的停顿的以分词作为基础，以词为单位，词与词之间加入停顿，其中，字符和停顿都占一个单位的间隔；使用线型图Line chart分析加入停顿后的特性；线型图Line chart的横坐标表示诗词在诵读过程中的字符所处的位置，线型图Line chart的纵坐标从高到低分别表示句子的起始到结束；线内不同的符号表示不同的韵部、声部；

步骤六：分析各古诗词特征之间的相关性；统计诗词内每一句诗词对仗个数、词性种类数、韵部种类数、声部种类数、平仄差异数，用条形图在分别体现诗词中韵部种类数、声部种类数、平仄差异数与对仗个数，词性种类数之间的关系；条形图中的横坐标表示数值大小，纵坐标从高到低表示句子的起始到结束；其中，根据每一句得到的各个数值的条形图，连接各个条形图的顶点得到的折线表示数值的变化趋势；顶点符号不同的折线表示对仗个数、词性种类数、韵部种类数、声部种类数和平仄差异数不同类型的数值；

步骤七：根据步骤六中的方法，统计诗词集合内每一句诗词对仗个数、词性种类数、韵部种类数、声部种类数和平仄差异数按句子的对应位置作累加，得到每一个位置的句子的累加对仗个数、词性种类数、韵部种类数、声部种类数和平仄差异数数值，根据每首诗第一句对仗个数得到诗词集合中第一句对仗个数的总和；用条形图分别体现诗词集合中韵部种类数、声部种类数、平仄差异数与对仗个数，词性种类数之间的关系之间的关系。

与现有技术相比，本发明的有益效果是：

由于汉语古诗词的特殊性，其表现形式和创作方法的不同，古诗词属性特征的多样性难以直观的理解，现有这些研究不能很好地应用于汉语古代诗词。此外，汉语古诗词的不完整的短语限制了基于语义的文本可视化方法使用。而本发明利用可视化的方法，对汉语古诗词特征中的的音调、平仄、声母、韵母和诗句词性进行分析。首先以各个独立的诗词特征来分析古诗，利用热力图Hotmap分别分析各个属性在诗词内部的出现规律，再加入时间信息并通过线型图Line chart探索古诗词各个属性的规律。然后在分析各个特征之间的内部规律，用线型图Line chart对属性之间的关系进行分析。本发明具有以下特点：

(1)本发明通过分析各个特征在诗词中出现的规律,以及看出各个特征中某一类别的元素(如一声)在诗词中出现的变化规律。

(2)本发明根据各个特征在分词后的诗词中的位置，作为各个特征在诗词中的节奏变化，分析了这种节奏变化规律。

(3)本发明分析了各个特征之间的相互关系，发现声调，声母，韵母与词性在创作过程中的相关性，如分析某些诗人在对仗个数和平仄差异数之间具有线性关系。

附图说明

图1是本发明基于可视化的古诗词特征分析方法流程图；

图2是本发明实例一的律诗内容；

图3(a)是以热力图表示诗词音调的详细信息；

图3(b)是以热力图表示诗词平仄的详细信息；

图4(a)是诗词音调的变化；

图4(b)是诗词音调变化规律标记；

图5是本发明分析方法中诗词的平仄差异数与对仗个数、词性种类数之间相互关系的条形图；

具体实施方式

下面结合附图和具体实施例对本发明技术方案作进一步详细描述，所描述的具体实施例仅对本发明进行解释说明，并不用以限制本发明。

针对上述现有技术的不足本发明提出的对于古诗词的分析方法，主要设计诗词中四个方面的特征，如下：

(1)诗词中的音调特征

(2)诗词的声母特征

(3)诗词的韵母特征

(4)诗词的语法结构特征

定义下面的一些标准和定义：

(1)诗词集合包括朝代子集和诗人子集

(2)韵母与声母的划分，韵母的划分称作韵部，声母的划分称作声部。

(3)定义每一联包括两个句子。例如律诗，如七律我们定义了四个联,每一联包含两句.对于七律诗的8个句子，我们将前两句定义为首联，接着的第3，4句定义为颔联，5，6句定义为颈联，最后两句定义为尾联。

(4)定义数值：句子词性种类数(NPS)、句子的对仗个数，即联内句子对应位置词性相同个数(NA)、句子的韵部种类数(NFSK)、句子的声部种类数(NISK)、句子的平仄差异数，即句子实际平仄结构与所属平仄结构的差异个数(NDPS)。其中，联的对仗个数作为联内每一个句子的对仗个数。

(5)定义句子的复杂程度：句子不同词性的个数和句子所在联的对账程度。

本发明基于可视化的古诗词特征分析方法，其中，古诗词特征包括古诗词的音调、平仄、声母、韵母和诗句词性，如图1所示，首先以各个独立的古诗词特征来分析古诗，利用热力图Hotmap分别分析各个特征在古诗词内部的出现规律，再加入时间信息并通过线型图Line chart探索古诗词各个特征的规律；然后，再分析各个特征之间的内部规律，用线型图Line chart对特征之间的关系进行分析，具体步骤如下：

步骤一：根据汉语标点符作为诗词的句子划分，以句子作为处理单位，对每一句进行中文分词；对于分词后的每个诗句使用自然语言处理工具分析得到语法结构，记录其中的词性；对于每一个诗句，使用汉语转拼音工具得到古诗词的拼音，并根据拼音提取声母，韵母和音调三个特征；基于分词结果对每一句进行词性标注，标注的结果用词性标签表示。Stanford-Parser词性标签包含:NN:常用名词,NR:固有名词,NT:时间名词，VV:动词,CC:表示连词,CD:表示基数词,DT:表示限定词,IN:介词或从属连词,JJ:形容词或序数词,JJR:形容词比较级,JJS:形容词最高级,WH副词。

得到匹配的拼音，并将声母和韵母从拼音中分开。

步骤二：用音调得到平仄。根据古诗词的音调得到的实际平仄结构,估计并找出每一联实际的平仄结构对应的平仄组合原则即所属的平仄结构。

提取声调，根据现代汉语的发音标准，首先将将汉字转化为汉语拼音，它包括四个声调(其中一声和二声属于平，三声、四声属于仄)。平仄调的组合应当满足以下的规律：一是两句之间的对应关系。同时在每一联中平仄组合在不同句子中出现规律呈现相对的关系，比如首联的两句，如果第一句的某一个位置的字对应的是平，那么第二句中对应位置的字的发音应当属于仄。二是平仄组合的方式有限，他们的区别体现在结尾两个字处(平仄，仄平，平平，仄仄)。

根据诗词联的四个声调得到的实际平仄结构有时候并不完全满足四种之中的某一种平仄规则，这种不满足的情况是由于诗人在创作诗词过程中基于某种原因而放弃了严格遵守这种规则而形成的。这个时候，我们应当选择声调最接近的那个平仄规律，在选择的时候，由于平仄每两句之间的对应关系，我们要把两句诗词组合在一起考虑。

步骤三：韵部的划分根据现代汉语发音标准(以《中华新韵》为准)和古代汉语发音标准(以《平水韵》为标准)进行划分.声部不做划分，每一种声母对应一个不同的声部

声母、韵母得到声部、韵部：21个声母作为21个不同的类，韵母根据发音区别的不同(根据《中华新韵》)，分为16个韵部ong，eng，ang，en，an，ao，ou，ai，ei，m，o，ie，e，r，i，u.对于律诗的韵部的划分而言，还有一套规则《平水韵》(宋末平水人刘渊所创。平水韵依据唐人用韵情况，把汉字划分成106个韵部)，这种划分几乎涵盖了所有中国古代尤其是唐宋时期古诗所用到的字。最终我们对古诗的韵依次进行了两种划分，并在热力图hotmap中分别予以展示。

步骤四：验证是否平仄、声母、韵母的使用本身与其他特征无关，只是于古诗的节奏有关，总结出平仄，声母，韵母的某种使用规则，这种规则类似与规定好的平仄的规则，但是是诗人自己创作的，代表了诗人的独特喜好与本身的风格。因此通过把这些特征映射成不同的颜色灰度或符号，并将每一句中的不同特征分别表示在一列直线上，通过将不同句子的线并列表示，并列地观察他们的规律。

根据得到的诗词中每一个字的音调、平仄、声部、韵部，并结合可视化热力图显示这些特性。用热力图分别表示它们。其中每一行代表一句，热力图中每一个单元块表示一个字符，单元块的不同灰度表示不同的音调或平仄，或是不同的韵部、声部。分析某一特征的规律时，根据同一灰度的位置规律分析某一音调、平仄、声部、韵部的规律，或对比不同灰度分析多个音调、平仄、声部、韵部的规律。

分析音调：根据步骤一得到的音调和步骤二得到的平仄，用热力图分别表示它们，图3所示。用灰度表示音调和平仄。

分析韵母：根据步骤三得到的韵母对应的韵部(韵母按新韵和平水韵划分)，用热力图表示两种韵部信息，不同的灰度颜色代表不同的韵部种类。

分析声母：根据步骤三得到的声母对应的声部，用热力图表示声部信息，不同的灰度颜色代表不同的声部种类。

步骤五：在朗诵过程中分词处应当停顿，我们在分析的过程中加入分词，使句子的长度不只是表现在字的个数上，而是加入了停顿，有了时间上的信息。然后分析某一时间段各个句中的特征的规律。所以在横坐标表示时间信息，字符和停顿都占一个时间间隔。

在步骤四的基础上，在每一句中加入朗读时的停顿，分析音调、平仄、声部、韵部在加入停顿后的规律。朗读时的停顿的以分词作为基础，以词为单位，词与词之间加入停顿，其中，字符和停顿都占一个单位的间隔。使用线型图分析加入停顿后的特性。图的横坐标表示诗词在诵读过程中的字符所处的位置。纵坐标从高到低分别表示句子的起始到结束。或是不同的韵部、声部，如分析声母时不同符号表示不同声部。

分析音调：根据步骤一得到的分词结果、音调和步骤二得到的平仄，使用线型图别表示它们，如图4所示。每个句子用一条直线表示，每条直线上等距的节点表示字符的音调信息或词之间的空白，节点所在处为字符则用不同符号表示不同的音调，节点所在处为词与词空白则不用符号表示。

分析韵母：根据步骤一得到的分词结果，步骤三得到的韵母对应的韵部(韵母按新韵和平水韵划分)，使用线型图别表示它们。每个句子用一条直线表示，每条直线上等距的节点表示字符的音调信息或词之间的空白，节点所在处为字符则用不同符号表示不同的韵部，节点所在处为词与词空白则不用符号表示。

分析声母：根据步骤一得到的分词结果，步骤三得到的声母对应的声部，使用线型图别表示它们。每个句子用一条直线表示，每条直线上等距的节点表示字符的音调信息或词之间的空白，节点所在处为字符则用不同符号表示不同的声部，节点所在处为词与词空白则不用符号表示。

步骤六：验证古诗在创作过程中的平仄、声母、韵母的使用与句子的创作是否有某种关联，比如诗人在创作一个句子的过程中为了对仗牺牲掉了本来应该满足的平仄规则，我们希望通过对他们之间关系的展示体现这种创作过程中的关联性。在验证过程中句子的复杂以词性为基础，我们选择每一句中不同词性的个数为其中一种衡量句子复杂程度的标准，另外用中对账(每一句上下两句对应位置词性一致词)的个数作为句子复杂程度的另一个指标。然后得到实际平仄结果和平仄组合原则的差异，声部和韵部的不同类别个数。分别研究平仄的复杂(每一句的平仄)、声母复杂、韵母复杂和他们之间的关系。

如果以上在分析特征在诗词中出现的规律不明显，即各个独立的特征没有规律可言，则分析特征之间的相关性。统计诗词内每一句诗词对仗个数，词性种类数，韵部种类数，声部种类数，平仄差异数，用条形图在分别体现诗词中韵部种类数，声部种类数，平仄差异数与对仗个数，词性种类数之间的关系。条形图中的横坐标表示数值大小，纵坐标从高到低表示句子的起始到结束。其中，根据每一句得到的各个数值的条形图，连接各个条形图的顶点得到的折线表示数值的变化趋势。顶点符号不同的折线表示不同类型的数值(对仗个数，词性种类数，韵部种类数，声部种类数，平仄差异数)。

分析音调：根据步骤一得到的词性、音调和步骤二得到的平仄，得到对仗个数，词性种类数，平仄差异数，在条形图中分别表示他们。条形图中的横坐标表示数值大小，纵坐标从高到低表示句子的起始到结束。其中，根据每一句得到的各个数值的条形图，连接各个条形图的顶点得到的折线表示数值的变化趋势。

分析韵母：根据诗词的步骤一得到的词性，步骤三得到的韵母对应的韵部(韵母按新韵和平水韵划分)，得到对仗个数，词性种类数，韵部种类数。并用同样的可视化方法表示

分析声母：根据诗词的步骤一得到的词性，步骤三得到的声母对应的声部，得到对仗个数，词性种类数，声部种类数。并用同样的可视化方法表示

步骤七：在分析过程中，根据作者对诗集进行划分，将同一个作者的不同古诗中的这种信息累加起来，作为这个诗人在创作过程中关联信息的表示。最后根据得到的统计结果分析平仄、声母、韵母和词性复杂度的关系，对比它们的趋势，看他们是正向相关还是负向的相关，所以本发明使用折线图表达各个属性特征的变化趋势，并对比各个特征的。线型视图分为两部分，左半部分表示一首诗的数值，右边表示诗词所在集合的累加数值。

步骤七：根据步骤六中的方法，统计诗词集合内每一句诗词对仗个数，词性种类数，韵部种类数，声部种类数，平仄差异数按句子的对应位置作累加，得到每一个位置的句子的累加对仗个数，词性种类数，韵部种类数，声部种类数，平仄差异数数值，如根据每首诗第一句对仗个数得到诗词集合中第一句对仗个数的总和。用条形图分别体现诗词集合中韵部种类数，声部种类数，平仄差异数与对仗个数，词性种类数之间的关系之间的关系。

分析音调：对于诗集中的每一首诗，根据步骤一得到的词性、音调和步骤二得到的平仄，得到对仗个数，词性种类数，平仄差异数，累加每首诗的数值。图5所示，诗集总对仗个数等于每首诗对仗个数总和(N＝N1+N2+N3…),总词性种类数等于每首诗词性种类数总和(N＝N1+N2+N3…),诗集总平仄差异数等于每首诗平仄差异数总和(N＝N1+N2+N3…)并在条形图中分别表示他们。

分析韵母：对于诗集中的每一首诗，步骤三得到的韵母对应的韵部(韵母按新韵和平水韵划分)，得到对仗个数，词性种类数，韵部种类数，累加每首诗的数值。在条形图中分别表示他们。

分析声母：对于诗集中的每一首诗，步骤三得到的声母对应的声部，得到对仗个数，词性种类数，声部种类数，累加每首诗的数值。在条形图中分别表示他们。

实施例1

实例一以律诗《钱塘湖春行》为例(图2所示)，通过步骤一分析语法结构得到词性；提取声母，韵母和音调三个属性。步骤二根据音调判断平仄结构。步骤三得到声母和韵母对应的韵部。步骤四得到音调和平仄的热力图表示(图3(a)和图3(b)所示)。

步骤五得到的图4描述了诗词中音调的使用与古诗的节奏的关系，图4(a)为诗词的音调信息在时间轴上的展示，图4(b)中深色曲线所连接的星号(表示三声调)在诗词内部的运动规律，这种规律和红心(表示二声)在结尾处的变化具有相似性，浅色曲线所连接的箭头(表示四声)在诗词内部的运动规律，和星号(表示三声)在开头出的变化具有相似性。

步骤六和七得到图5中的折线图，从中看出，左边是白居易《钱塘湖春行》的属性(句子实际平仄结构与所属平仄结构的差异NDPS与对仗个数NA,句子词性种类数NPS)变化，变化的规律并不明显，而右边是白居易整个诗集的属性变化的总和，可以看出对仗个数NA和句子实际平仄结构与所属平仄结构的差异NDPS的变化规律具有一致性。这说明白居易在创作过程中因为考虑到对仗而牺牲掉了平仄规律，使得句子复杂以后句子实际平仄结构与所属平仄结构的差异NDP也增加了。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李克非;张怡;刘腾;
技术所有人：天津大学;
我是此专利的发明人

上一篇：一种防尘纸箱的制作方法与工艺
上一篇：基于词向量的针对电影评论信息的情感分析系统及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。