一种基于文本语义向量模型评估心理状态的系统和装置的制作方法

文档序号:19422581发布日期:2019-12-14 01:43阅读:228来源:国知局
一种基于文本语义向量模型评估心理状态的系统和装置的制作方法

本发明属于健康监测与管理技术领域,尤其涉及一种基于文本语义向量模型评估心理状态的系统和装置。



背景技术:

随着现代社会中生活压力的日益增长,心理疾病成为一个越来越普遍的现象。常见的心理疾病包括抑郁症、焦虑症、强迫症等。这些心理疾病不仅影响患者的正常生活,严重时甚至会使患者产生自杀企图,因而引起了社会对心理疾病的关注和担忧。据世界卫生组织报告,抑郁症在全世界发病率约11%,已成为危害人类健康的第四大疾病,到2020年可能成为仅次于心脏病的第二大疾病。在我国,抑郁症发病率高达7%,而且由于发现不及时与认识不足,治疗率仅为20%。因抑郁导致的自杀死亡事件频发。

然而,当前大部分心理健康服务还停留在″被动″模式,主要通过传统问卷发放方式或用户向心理健康咨询中心咨询或到医院就诊发现心理异动个体。但由于人力物力所限,长期以来心理学研究者无法获取覆盖研究对象全体的数据,也不便对个体心理健康状态变化进行跟踪研究,难以对心理行为异动个体进行及时主动干预。

现有分析心理状态测试设备有很多,但现有技术设备大而复杂,设备、测试对象的情绪波动容易影响分析结果,且无法直观、简单地表现受试者的心理状态。心理健康测试,一般均为问卷式测试,也即是将纸件的问卷发到被评估人员手中,被评估人员完成问卷回答后,回收问卷,再由评估人员根据每份问卷的答复情况做出评估。这种测试方式的缺陷在于,不能在被评估人员作问卷填写的时候同时监测被评估人员的血压,心率等体征信息,也就不能对被评估人员作出更准确的心理健康测试分析,另一方面被评估人员需在接近睡眠状态下测试各项指标时,现有设备存在缺陷,且不具有显示器显示。

同时,传统的互联网心理测评软件,比较单一化,集中于单次测试和报告生成结果分析,会导致测评结果的偶然性,对测试者产生评测结果的误差,随着行业的发展,互联网产品逐渐加入和补充了统计分析的产品和技术方案,让使用者结果更具有科学性。但这仍然无法达到心理测评的实际需求,仍然导致很多误差。

专利″一种基于互联网的心理健康评估系统″(cn201610808709.3)提出了一种基于互联网的心理健康评估系统。系统中,云端数据库用于存储已知的样本中心理测试量表的因子得分;利用rbf神经网络算法建立心理健康评估模型。rbf神经网络模型对新个体心理健康状态进行评估后,将评估结果上传至云端。该系统还是基于传统的心理测试表结果,无法对对心理健康状态进行客观评估和追踪研究。

专利″一种心理健康状态评估方法″(cn201210576344.8)提出了一种利用机器学习进行心理健康状态评估的方法。该评估方法的实现步骤为:首先,基于已知样本中个体网络行为特征和人口统计学特征,建立和训练基于网络行为特征的心理健康状态评估模型;其次获取新个体的网络行为特征和人口统计学特征;最好,根据上述建立的评估模型,得到该新个体的心理健康状态。优点是消除了主观因素对心理健康状态评估的影响,缺点是行为数据来源单一、挖掘不够彻底,心理健康状态评估的准确度无法保证。

cn109524085a公开了一种基于交互的认知分析方法及系统,能够分析得到用户的个人认知信息,从而为用户心理健康服务提供更加有力的帮助。通过至少一种预设交互方式输出交互输出信息与用户进行交互,可以获得用户的交互输入信息,然后对交互输入信息进行内容识别与分析,获得认知分析数据,之后,根据认知分析数据,便可以构建用户的个人认知结构模型。可见,实施本发明实施例,可以以认知心理学为基础,通过与用户进行交互,分析与用户往来的交互信息(包括输出用于与用户进行交互的输出交互信息、用户针对输出交互信息而输入的交互输入信息),获得用户的个人认知信息,从而建立用户的个人认知结构模型,基于该个人认知结构模型可以分析与解决用户的心理问题,为用户心理健康服务提供更加有力的帮助;并且,采取基于自然语言处理(naturallanguageprocessing,nlp)技术的人机对话式交互方式,使交流更加真实自然。

然而,上述不管是哪种方案,都需要用户主动参与并且配合,检测结果的准确性很大程度上取决于用户的配合度和正确率,如果用户随意选择或故意选择错误答案、或者随意输入交互性信息,上述方案无法进行处理,也无法保证结果的准确和客观性。



技术实现要素:

为解决上述技术问题,本发明提出了一种基于文本语义向量模型评估心理状态的系统和装置。本发明的技术方案基于发明人长期以来研究语义文本得到的一个结论:通常在做心理测试时,人们通常会不知觉的去避免真实心理状态的具体化,甚至是刻意的隐藏。而大多数时候用户会通过碎片化的文本(如微博、说说、朋友圈等等社交方式)把自己的真实情感表达出来。

因此,本发明提出基于文本语义向量模型评估心理状态,不需要通过用户手动做题或和用户面对面接触,而是通过分析用户的心情文本或说说对用户的心理状态进行评测,这种方式不会对用户造成压力,并能获取到用户最新的真实心理状态,最后可以通过文本分析得到评估结果和相应的对策建议,这样可以使用户可以直观的了解到自己当前的心理状态,并根据建议进行自我调整或即使进行就医以便达到心理健康的状态。

本发明的技术方案具体实现如下:

一种基于文本语义向量模型评估心理状态的系统,所述系统包括文本数据采集模块、文本数据分析模块、文本数据向量化模块、心理测试模型构建模块以及结果分析模块。

所述文本数据采集模块,包括心理测试数据库数据采集,和/或,个人心理文本采集;

其中心理测试数据库数据采集,主要包括采集专业心理测量表及其相关评估结果、建议等:专业心理测量数据的采集可以从心理治疗机构或医疗机构等专业机构进行收集,数据主要包括测试数据时间、心理测量表及其得分、评估结果、对策建议等;

这项采集是可选的。如前所述,现有技术存在多种需要人交互参与的问卷调查、在线调查等心理健康咨询方案,通过这些方案本身可以获得大量的专业心理测量表及其相关评估结果。

然而,作为本发明的第一个重要创新点,所述文本数据采集模块还要采集个人心理文本。

不同于现有技术提到的需要用户主动参与提供的″问卷调查″数据,本发明的技术方案首次利用个人心理文本进行心理健康监测。这里的个人心理文本的采集方式完全是被动的,不需要用户主动提供,因此,其不受用户是否客观回答问题、是否刻意掩盖自身状态等因素影响,结果客观。

具体而言,采集个人心理文本,主要包括采集个人信息及其历史心理文本:个人信息可以通过个人注册信息来进行获取,历史心理文本可以根据个体的个人的朋友圈、微博等进行获取;

对于寻求心理健康的用户来说,通过采集其过碎片化的文本(如微博、说说、朋友圈等等社交方式),可以得到大量的个人心理文本;

数据采集之后,进入所述文本数据分析模块。

文本数据分析包括文本分类步骤,而数据预处理是进行文本分类的第一步,预处理结果的好坏直接影响到后面的分析处理能否顺利进行。文本预处理的目的是从文本语料库中规范地提取出主要内容,去除与文本情感分类不相关的信息。对于中文的预处理,其主要操作包括规范编码,过滤非法字符,分词处理,去除停用词等步骤;

经过数据预处理后的文本数据进入文本分类步骤,具体实现方式如下:

文本标注和分割:首先需要对数据集进行标注;

然后将数据集划分为训练集和测试集;训练集文本:训练集文本用于心理分类模型的训练;测试集文本:测试集文本用于评估模型的预测等能力。

基于训练集和测试集,可以训练分类模型并进行模型评估测试。

作为本发明的第二个创新点,在训练分类模型之前我们首先需要对文本进行向量化,计算机不能识别中文,因此我们需要对之进行转化。模型训练的本质是各种数值或矩阵的各种计算。将样本转化为相应的特征向量,训练的时候按照batch(批次)往模型中fit(喂)数据;

作为本发明的第三个创新点,利用测试集测试分类模型的效果,这里可以使用f1-score(f1分数)、accuracy(准确率)、precision(精确率)等评估方法对分类模型进行评估;然后根据评估结果对模型进行优化调整;这里的优化调整方法有调整learning_rate(学习率通常初始学习率为0.001)、dropout(丢掉常用值3在0.5~1.0之间,在神经网络中通常理解为随机断开一定比例的神经元)、优化函数调整(adam优化算法、sgd随机梯度下降)等等优化方法;最终使得模型的预测效果更好,泛化能力更强;

最终优化完成的分类模型就是我们想要的模型。

接下来,利用分类模型执行心理健康评测。首先需要执行语义向量化,通过所述文本数据向量化模块将文本数据转换成对应的语义向量,可以使用深度学习或机器学习的方法进行文本数据的向量化,例如:使用bert(编码器的双向编码表示)来进行语义向量的转化、tf-idf(词频-逆文本频率)、lda(主题模型)等方法构建语义向量;

作为本发明的另一个重要改建,所述系统包含心理测试模型构建模块,构建心理测试计算表达式。

心理测试计算表达式构建方式如下:

s301心理测试数据库:获取心理测试数据库,并读取心理测试数据库的内容;

s302对用户历史心理文本进行分类及标注,并根据标注结果,统计每个类别的文本数量,并计算每个类别所占的比例sn,每个类别的权重为wn,n=1,2,...,n,n为类别数;将每个类别的历史心理文本进行向量化,获得历史心理文本向量序列ln;

s303建立心理测试表及其分数:提取心理测试数据库中的心理测试表及其分数;并将心理测试表中测试题目转换成对应的测试题目语义向量序列ck,k=1,2,......m,m为测试题目数目;计算历史心理文本向量序列ln和测试题目语义向量序列ck两两之间的余弦相似度矩阵yij,i=1,2,..,n,j=1,2,......m;

s304构建心理测试计算表达式:采用如下公式计算测试标准量:

所述结果分析模块,基于上述表达式结果进行结果分析,包括:

根据心理测试计算表达式计算测试标准量;

根据上述结果计算的值进行结果分析,并将数据库中的标准评估结果和对策建议反馈给用户。

另一方面,本发明提出一种通过文本分析判断用户心理状态的装置,所述装置包括数据采集模块、心理测试数据库构建模块、文本分析模块、心理健康评估模块以及结果分析模块;具体而言,所述文本分析,是基于文本分析建立语义向量模型从而客观的评估心理状态。所属装置包括:

数据采集装置,用于采集心理测试数据库数据以及个体心理文本数据;

心理测试数据库构建模块,基于前述数据采集模块采集的心理测试数据库数据,建立心理测试数据库;

文本分析模块,基于前述数据采集模块采集的个人心理文本数据,将其进行预处理后,对个人心理文本数据进行向量化后分类,再转化为对应的语义向量,构建文本分析模型;

心理健康评估模块,基于用户的心理文本数据,利用所述文本分析模型,构建心理健康测试计算表达式;

结果分析模块,基于所述心理健康评估模块构建的信息健康测试计算表达式进行计算,并对计算结果进行分析。

在本发明的上述技术方案中,一个重要的创新点在于,利用心理测试数据库数据集包含的专业心理测量表及其评估结果、建议等,结合个人信息及其历史心理文本,构建出心理测试数据库;

并且,基于个体新采集的心理文本数据,将其结合上述心理测试数据库一起输入文本分文本分析模块后进行文本分类以及语义向量化处理后进行心理健康评估。

此外,作为本发明提出的心理测试计算表达式,是基于用户历史心理文本分类结果和心理测试表及其分数得到的一个客观的衡量标准,能够正确对应到心理测试数据库的数据集,从而客观准确的反应用户的心理健康状态。

可见,采用本发明的技术方案,不需要通过用户手动做题或和用户面对面接触,而是通过分析用户的心情文本或说说对用户的心理状态进行评测,这种方式不会对用户造成压力,并能获取到用户最新的真实心理状态,最后可以通过文本分析得到评估结果和相应的对策建议,这样可以使用户可以直观的了解到自己当前的心理状态,并根据建议进行自我调整或即使进行就医以便达到心理健康的状态。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

本发明的进一步优点和具体实施方式将结合说明书附图进一步体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本实施例的基于文本语义向量模型评估心理状态的系统框架图;

图2是本实施例的通过文本分析判断用户心理状态的装置的模块执行流程图;

图3是本实施例的心理测试模型中使用到的分类模型执行流程图;

图4是本实施例的构建心理测试计算表达式流程图。

具体实施例

为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。

参见图1,本实施例的一种基于文本语义向量模型评估心理状态的系统,所述系统包括文本数据采集模块、文本数据分析模块、文本数据向量化模块、心理测试模型构建模块以及结果分析模块;

所述文本数据采集模块,包括心理测试数据库数据采集,和/或,个人心理文本采集;

所述文本数据分析模块,包括对文本数据进行预处理和文本分类,所属述处理包括规范编码,过滤非法字符,分词处理,去除停用词;所述文本分类包括文本标注和分割;利用所述文本分割后的文本数据建立文本分类模型并进行模型测试;

所述文本数据向量化模块,将所述文本数据分析模块处理后的文本数据进行向量化;

所述心理测试模型构建模块,用于构建心理测试计算表达式。

具体来说,各个模块的具体执行流程如下:

s101数据采集模块:数据采集模块包含两部分:

s102心理测试数据库数据采集:心理测试数据库数据采集主要包含两部分数据:

s103采集专业心理测量表及其相关评估结果、建议等:专业心理测量数据的采集可以从心理治疗机构或医疗机构等专业机构进行收集,数据主要包括测试数据时间、心理测量表及其得分、评估结果、对策建议等;

s104采集个人信息及其历史心理文本:个人信息可以通过个人注册信息来进行获取,历史心理文本可以根据个体的个人的朋友圈、微博等进行获取;

s105新个体心理文本采集:新个体的个人注册信息;

s106心理测试数据库构建:心理测试数据库存储的数据包括以下数据:心理测量表及其得分、测试数据来源时间、个人信息、个人历史心理文本数据、评估结果、对策建议;

s107文本分析模块:文本分析模块包含两部分:

s108文本分类。

综合上述流程,得到本发明的另一实施例的一种通过文本分析判断用户心理状态的装置,所述装置包括数据采集模块、心理测试数据库构建模块、文本分析模块、心理健康评估模块以及结果分析模块,其中,所述文本分析,是基于文本分析建立的语义向量模型;所述装置包括:

数据采集装置,用于采集心理测试数据库数据以及个体心理文本数据;

心理测试数据库构建模块,基于前述数据采集模块采集的心理测试数据库数据,建立心理测试数据库;

文本分析模块,基于前述数据采集模块采集的个人心理文本数据,将其进行预处理后,对个人心理文本数据进行向量化后分类,再转化为对应的语义向量,构建文本分析模型;

心理健康评估模块,基于用户的心理文本数据,利用所述文本分析模型,构建心理健康测试计算表达式;

结果分析模块,基于所述心理健康评估模块构建的信息健康测试计算表达式进行计算,并对计算结果进行分析。

其中,利用心理测试数据库数据集包含的专业心理测量表及其评估结果、建议,结合个人信息及其历史心理文本,构建出心理测试数据库。

基于个体新采集的心理文本数据,将其结合心理测试数据库一起输入文本分文本分析模块后进行文本分类以及语义向量化处理后进行心理健康评估。

其中所述心理测试计算表达式,是基于用户历史心理文本分类结果和心理测试表及其分数得到的一个客观的衡量标准。

参见图3是本实施例的心理测试模型中使用到的分类模型执行流程图,其中包含文本分类、数据预处理、分类结果、模型评估等过程。

表1

s201文本标注和分割:首先需要对数据集进行标注,具体标注方式,以抑郁测试为例:参照抑郁测试心理测量表中的选项对心理文本进行标注;抑郁测试其一般包括三类特征:生理、心理、行为,按照这几个方面我们可以按等级进行细分(如:严重、中度、轻度、正常),即抑郁的分类模型的类别数为n=12;因此我们可以根据相应的心理测量表中的选项分等级或强度对文本进行标注,如表1。

然后将数据集划分为训练集和测试集通常的划分比例为(8∶2或7∶3);

s202训练集文本:训练集文本用于心理分类模型的训练;

s203测试集文本:测试集文本用于评估模型的预测等能力

s204数据预处理:是进行文本分类的第一步,预处理结果的好坏直接影响到后面的分析处理能否顺利进行。文本预处理的目的是从文本语料库中规范地提取出主要内容,去除与文本情感分类不相关的信息。对于中文的预处理,其主要操作包括规范编码,过滤非法字符,分词处理,去除停用词等步骤;

1)编码规范:中文文本一般都会涉及到编码的问题,我们常见的中文编码有gb2312、gbk、utf-8等,为了避免文本出现乱码,我们要对文本进行统一的编码;

2)过滤非法字符:通常我们处理中文文本的时候只需要很少的正常的标点(如:,、″″、。、...等等),甚至并不需要除中文之外的标点(如:#、@、%、&等等),所以为了避免影响后续模型训练的准确性我们要进行非法字符的过滤;

3)分词处理:文本分析中很重要的一步,分词的好坏甚至直接影响到模型的准确性(如:″她不好看″被分为″她不″、″好看″),常用的分词方法如jieba(结巴)分词、glove分词、nltk(自然语言处理工具包)等等;

4)去除停用词:在处理文本数据之前通常要过滤掉某些字或词,这些字或词即被称为stopwords(停用词)。一般这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表,这里我们可以根据文本和任务来构建我们自己的停用词表(如:还是、是、的、之、也等等),这些停用词去掉后不会对模型的准确性造成影响;

s205训练分类模型:在训练分类模型之前我们首先需要对文本进行向量化,计算机不能识别中文,因此我们需要对之进行转化。模型训练的本质是各种数值或矩阵的各种计算。将样本转化为相应的特征向量,训练的时候按照batch(批次)往模型中fit(喂)数据,如:抑郁测试其一般包括三类特征:生理、心理、行为,按照这几个方面我们可以按等级进行细分(如:严重、中度、轻度、正常),即抑郁的分类模型的类别数为n=12;依次对标签进行onehot(独热)编码,利用训练集样本数据对心理分类模型进行训练,从而完成心理分类模型的训练和评估优化;

s206模型评估:利用测试集测试分类模型的效果,这里可以使用f1-score(f1分数)、accuracy(准确率)、precision(精确率)等评估方法对分类模型进行评估;然后根据评估结果对模型进行优化调整;这里的优化调整方法有调整learning_rate(学习率通常初始学习率为0.001)、dropout(丢掉常用值3在0.5~1.0之间,在神经网络中通常理解为随机断开一定比例的神经元)、优化函数调整(adam优化算法、sgd随机梯度下降)等等优化方法;最终使得模型的预测效果更好,泛化能力更强;

s207分类结果:最终优化完成的分类模型就是我们想要的模型,其分类结果就是分类结果;

参见图4是本实施例的构建心理测试计算表达式流程图。其中,

s301心理测试数据库:获取心理测试数据库,并读取心理测试数据库的内容;

s302对用户历史心理文本进行分类及标注,并根据标注结果,统计每个类别的文本数量,并计算每个类别所占的比例sn,每个类别的权重为wn,n=1,2,...,n,n为类别数;将每个类别的历史心理文本进行向量化,获得历史心理文本向量序列ln;

这里每个类别的权重为wn可以通过多种方式确定,例如,专家确定法;历史数据采用率分配法,类别采用率越高,权重越高;历史数据趋势法,某一类别出现的趋势越多,权重越高,等等;

s303建立心理测试表及其分数:提取心理测试数据库中的心理测试表及其分数;并将心理测试表中测试题目转换成对应的测试题目语义向量序列ck,k=1,2,......m,m为测试题目数目;计算历史心理文本向量序列ln和测试题目语义向量序列ck两两之间的余弦相似度矩阵yij,i=1,2,..,n,j=1,2,......m;

s304构建心理测试计算表达式:采用如下公式计算测试标准量:

所述结果分析模块,基于上述表达式结果进行结果分析,包括:

根据心理测试计算表达式计算测试标准量;

根据上述结果计算的值进行结果分析,并将数据库中的标准评估结果和对策建议反馈给用户。

具体而言,上述公式考虑每个类别所占的比例sn,每个类别的权重为wn,以及余弦相似度矩阵yij的迹参数和权重以及比例的关系,如果测试标准量bscore或者其绝对值越接近于1,说明当前被测用户的情绪平稳,心理健康正常;反之,意味着其情绪起伏较大,存在较大的心理健康风险。这一点,发明人通过大量的病例分析可以得到证明。

其中采集个人心理文本,包括采集个人信息及其历史心理文本:个人信息可以通过个人注册信息来进行获取,历史心理文本根据个体的个人的社交网络账户进行获取。

其中心理测试数据库存储的数据包括以下数据:心理测量表及其得分、测试数据来源时间、个人信息、个人历史心理文本数据、评估结果、对策建议。

文本分类还包括将数据集划分为训练集和测试集;训练集文本用于心理分类模型的训练;测试集文本用于评估模型的性能。

本发明的技术方案,不需要通过用户手动做题或和用户面对面接触,而是通过分析用户的心情文本或说说对用户的心理状态进行评测,这种方式不会对用户造成压力,并能获取到用户最新的真实心理状态,最后可以通过文本分析得到评估结果和相应的对策建议,这样可以使用户可以直观的了解到自己当前的心理状态,并根据建议进行自我调整或即使进行就医以便达到心理健康的状态。

本发明的优选实现之一是客户端应用,也即是在代码模块中的指令集(程序代码)或者其他功能描述性材料,例如该代码模块可以驻留计算机的随机存取存储器中。直到计算机需要,指令集可以存储在另一个计算机存储器中,例如存储在硬盘驱动中或诸如光盘(最终供在cdrom中使用)或软盘(最终供在软盘驱动中使用)之类的可移动存储器中,或者经由互联网或其他计算机网络来下载。因此,本发明可以实现为在计算机中使用的计算机程序产品。另外,尽管可以方便地在由软件选择性地激活或重新配置的通用计算机中实现所描述的各种方法,但是本领域的普通技术人员还将认识到,可以以硬件、固件或构造成执行所需要的方法步骤的更专用的设备中实现这些方法。功能描述性材料是将功能性告知给机器的信息。功能描述性材料包括但不限于计算机程序、指令、规则、事实、可计算功能的定义、对象和数据结构。

尽管已经示出并描述了本发明的特定实施例,但是基于这里的教导,本领域的普通技术人员将很清楚,在不偏离本发明以及其更宽的方面的条件下,可以做出改变和修改。

以上对本发明所提供的方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1