生成访谈报告的方法、计算机可读存储介质和终端设备与流程

文档序号:19155601发布日期:2019-11-16 00:43阅读:248来源:国知局
生成访谈报告的方法、计算机可读存储介质和终端设备与流程

本申请涉及人工智能技术领域,尤其是涉及一种生成访谈报告的方法、计算机可读存储介质和终端设备。



背景技术:

访谈是设计研究中非常重要的一部分,在各行各业都有着非常重要的作用。访谈的方式多种多样,例如,用户访谈,专家访谈,联合访谈,户外访谈等等,在设计研究中,通过访谈可以洞察用户真实想法,社会行业趋势。

传统的访谈,通常由两人及以上为单位展开,有人负责和用户沟通,有人录音记录和补充。在访谈中为了挖掘出用户内心深处真实的想法,通常会从细致的打招呼和热身问题开始,并在访谈中根据用户的实际回答调整问题顺序,因此,访谈中记录员需要在访谈中迅速提取有效信息,实时记录和标记重点。访谈结束后通过录音复盘整个访谈过程,将语音转换为文字,结合访谈笔录进行详尽分析。以及,根据实际访谈目标,分析洞察用户的需求,产品的痛点,行业机会点等等相关内容,以上步骤都需要访谈人员人力完成,大约需要5-6个小时才能完成1个小时访谈的分析工作,访谈成本高、分析工作冗杂繁复、耗费时间,是访谈中非常显著的问题。



技术实现要素:

本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请的一个目的在于提出一种生成访谈报告的方法,该方法可以降低访谈中需求分析的成本和时间,更加简单。

本申请第二个目的在于提出一种计算机可读存储介质。

本申请第三个目的在于提出一种终端设备。

为了达到上述目的,本申请的第一方面提供了一种生成访谈报告的方法,其特征在于,所述方法包括:获取访谈语料;响应于访谈报告生成指令,根据神经网络模型对所述访谈语料进行分析,获得被访谈者的表现信息;根据所述被访谈者的表现信息生成访谈报告。

在一些实施例中,所述表现信息包括需求信息,所述根据神经网络模型对所述访谈语料进行分析,获得所述被访谈者的表现信息进一步包括:将所述访谈语料输入第一神经网络模型,获得所述访谈语料中反映所述被访谈者需求的语句和所述被访谈者非需求的语句。

在一些实施例中,所述表现信息包括情感信息,所述情感信息包括所述被访谈者对目标事务的正向情感和负向情感中的至少一个;所述根据神经网络模型对所述访谈语料进行分析,获得被访谈者的表现信息,进一步包括:将所述访谈语料输入第二神经网络模型,提取所述访谈语料中反映被访谈者极性情感的语句和中性情感的语句;将所述极性情感的语句输入第三神经网络模型,获得所述极性情感的语句中的正向情感语句和负向情感语句。

在一些实施例中,所述表现信息还包括情感信息,所述情感信息包括了所述被访谈者对目标事务的正向情感和负向情感中的至少一个;所述根据神经网络模型对所述访谈语料进行分析以获得被访谈者的表现信息,还包括:将所述被访谈者非需求的语句输入第二神经网络模型,提取所述被访谈者非需求的语句中反映所述被访谈者极性情感的语句;将所述极性情感的语句输入第三神经网络模型,获得所述极性情感的语句中的正向情感语句和负向情感语句。

在一些实施例中,所述根据所述被访谈者的表现信息生成访谈报告,包括:计算被访谈者需求的语句、被访谈者非需求的语句、正向情感语句、负向情感语句中至少一类语句的相似度;根据所述相似度进行聚类,并获得聚类中心;根据所述聚类中心包含的语句语义,生成所述访谈报告。

在一些实施例中,所述方法还包括:对所述访谈语料进行识别以转换为文本数据,并对所述文本数据进行拆分和净化。

在一些实施例中,所述方法还包括:响应于程序启动指令,提供录音启动触发单元;响应于所述录音启动触发单元的触发指令,采集所述访谈语料。

在一些实施例中,所述方法还包括:对所述文本数据中的语句进行权重计算并排序,根据排序结果获得预选关键词,根据停用词表过滤掉所述预选关键词中包括的停用词,获得所述文本数据中的关键词,并输出所述关键词;响应于重点标记指令,提高所述文本数据中对应所述重点标记指令的语句的权重,以标记为重点语句。

在一些实施例中,所述方法还包括以下中的至少一项:将所述访谈报告生成可视化信息,并提供给用户;响应于编辑指令,对所述访谈报告进行编辑;响应于输出指令,将所述访谈报告传输至移动终端。

在一些实施例中,所述方法还包括:获取编辑内容中的标注数据;所述标注数据达到预设标注阈值,将所述标注数据反馈至所述神经网络模型的语料数据库,以优化所述神经网络模型;或者,每隔预设时间,将所述标注数据反馈至所述神经网络模型的语料库,以优化所述神经网络模型。

本申请的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行如上述生成访谈报告的方法。

本申请的另一方面还提供了一种终端设备,包括:处理器;与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令被所述处理器执行时,使所述处理器执行上述生成访谈报告的方法。

为了达到上述目的,本申请的第三方面提供了一种计算机可读存储介质,其存储有计算机可执行指令,所述计算机可执行指令设置为执行前述方法。

为了达到上述目的,本申请的第四方面提供了一种终端设备,其包括:处理器;与所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令被所述处理器执行时,使所述处理器执行前述方法。

本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1是根据本申请的一个实施例的生成访谈报告的方法的流程图;

图2是根据本申请的一个实施例的训练神经网络模型过程的示意图;

图3是对于图2中的训练过程的进一步说明的示意图;

图4是根据本申请的一个实施例的终端设备的框图;

图5是根据本申请的一个实施例的智能语音资料需求提取过程的流程图;

图6是根据本申请的一个实施例的需求判断模型和特征词典的构建过程的流程图;

图7是根据本申请的一个实施例的智能语音资料需求提取系统的组成模块的框图;

图8是根据本申请的一个实施例的可用性判断过程的流程图;

图9是根据本申请的一个实施例的可用性判断模型的构建过程的流程图;

图10是根据本申请的一个实施例的可用性提取系统的框图;

图11是根据本申请的一个实施例的语音内容分析方法的流程图;

图12是根据本申请的一个实施例的语义单元聚类方法的流程图;

图13是根据本申请的一个实施例的基于多个语义单元两两之间的相似度确定一个或多个聚类中心的流程图;

图14是根据本申请的一个实施例的分别计算每个候选语义单元与多个语义单元中的剩余语义单元中的每一个之间的相似度的流程图;

图15是根据本申请的一个实施例的计算每个候选语义单元的候选语义向量的流程图;

图16是根据本申请的另一个实施例的计算每个候选语义单元的候选语义向量的流程图;

图17是根据本申请的一个实施例的语义单元聚类装置的示意图。

具体实施方式

下面详细描述本申请的实施例,参考附图描述的实施例是示例性的,下面详细描述本申请的实施例。

本申请实施例的生成访谈报告的方法,融合了人工智能和设计研究技术,以更少的步骤和时间构建自主的访谈研究过程,可以帮助设计人员和其他人自主完成访谈数据收集、分析和报告的过程,降低访谈分析的人力成本,缩短访谈分析耗费的时间,简单易实施。

下面参考图1-图3描述根据本申请第一方面实施例的生成访谈报告的方法。

图1是根据本申请的一个实施例的生成访谈报告的方法的流程图,如图1所示,本申请实施例的生成访谈报告的方法包括步骤s1至步骤s4。

步骤s1,获取访谈语料。

具体地,在实施例中,本申请实施例的生成访谈报告的方法可以以应用程序的形式装载在终端设备例如智能手机、平板电脑、笔记本电脑上,终端设备的人机交互窗口可以提供关联本申请实施例的方法的应用程序图标,响应于程序启动指令,人机交互界面提供录音启动触发单元,响应于录音启动触发单元的触发指令,则可以通过终端设备本身得录音模块采集访谈语料,简言之,在访谈开始时操作录音启动触发单元即可开始录音,进而可以获得访谈语料。

在另一些实施例中,也可以通过其它录音装置对访谈进行录音,例如通过麦克风或者麦克风阵列、录音机、录音笔等录音设备记录访谈语料,并将访谈语料传输给装载本申请实施例的方法的应用程序的终端设备,以获取访谈语料,进而自主对访谈语料进行分析,同样也可以缩短访谈分析的时间,节省人力成本。

步骤s2,响应于访谈报告生成指令,根据神经网络模型对访谈语料进行分析,获得被访谈者的表现信息。

具体地,在完成访谈之后,终端设备的人机交互界面提供访谈报告生成触发单元,或者设置相应的按键或旋钮,在访谈报告生成触发单元接收到触发指令时,即接收到访谈报告生成指令,终端设备的处理器可以自主进行对访谈预料的分析以生成访谈报告。

在一些实施例中,对于原始的访谈语料,需要对其进行一系列的处理以便于后续采用神经网络模型进行分析,例如对原始语料进行预处理以及分词等处理,其中预处理可以包括例如对访谈语料进行识别以转换为文本数据,并对文本数据进行拆分和净化等。

具体地,神经网络具有训练、学习不断优化结果的机制,通过神经网络训练可以构建神经网络模型。先对神经网络模型的训练做一下简单说明。

图2为根据本申请的一个实施例的神经网络模型训练过程的示意图,如图2所示,可以针对专家用户开放算法优化接口如图2中的专家系统,专家系统的主要功能是针对产品的定制化功能对项目的核心特征神经网络构建训练集,在训练特征参数生成神经网络模型时,训练集的内容决定了最终的结果。将专家先验知识输入专家系统构建,训练集的内容输入至神经网络算法模型,专家可以对基于该训练集的神经网络算法模型的输出结果进行评估修正,进而优化专家知识,进一步将优化后的知识输入至专家系统,进而对训练集进行修正,再次输入给神经网络算法模型,依次循环迭代,直至神经网络模型的输出结果更加逼近最优解。

进一步地,图3是针对图2中的神经网络模型训练过程的进一步解释的示意图,具体地,训练集可以由团队共同构建,结合语言学、心理学、设计学方法,挖掘原始数据库的构成特点,根据研究结果规范神经网络的约束条件,确定训练文本的标准方式。例如如图3所示,对于专家系统侧,将专家先验知识输入专家知识录入模块,限定特征判定的条件,例如是否的判断或者程度的判断等,标注关键信息例如设定关键词,以及标注描述信息例如语气或语法等,进而构建成训练集。对于算法模型侧,将训练集内容输入算法模型进行训练,例如进行语义分析、生成分析结果,基于专家对分析结果的评估对分析结果进行修正,进而对训练集进行增补,不断优化训练集内容,从而构建需要的神经网络模型。

在本申请的实施例中,可以基于访谈语料的特点和专家知识,通过上面的过程来构建神经网络模型,通过神经网络模型对访谈语料进行分析,获得访谈语料中包含的被访谈者的各类表现信息例如情感信息、需求信息、对行业趋势的预判信息、对某些问题的争端信息、可用性信息等,其中,对于获得被访谈者不同的表现信息构建不同的神经网络模型。

步骤s3,根据被访谈者的表现信息生成访谈报告。

例如,关于某个产品进行用户调研,希望通过用户调研分析来判断用户的需求或对产品的态度,以对产品进行改进。具体地,在对用户访谈时,操作录音触发单元以启动录音,获得访谈语料,在访谈完成后,输入访谈报告生成指令,通过神经网络模型来对访谈语料进行分析,获得文本关键词集形成对访谈得整体性描述,获得被访谈者对于该产品的情感信息、需求信息和/或可用性信息,根据情感信息、需求信息和/或可用性信息来判断用户对该产品满意和/或不满意的地方、用户比较喜欢或者希望产品具有的功能、甚至用户平时都喜欢什么东西等信息,从而基于分析结果生成包括用户喜好和产品优缺点的访谈报告,进而可以参考该访谈报告来对产品进行完善,提高产品性能。

在一些实施例中,需求是指用户从自身角度出发提出的期望或希望。通过需求类语料,可以获得用户动机、用户比较喜欢或者希望产品具有的功能、对产品的建议或意见等信息,从而实现指导产品设计、洞察行业市场等需求。需求类语句的一个示例是:我希望家电可以和家里的装修风格保持一致。

在一些实施例中,可用性是指用户在特定的使用场景中,为了达到特定目标而使用某产品时,所感受到的有效性、效率和满意度。具体地,有效性(effectiveness)指的是用户完成特定目标的正确和完整程度;效率(efficiency)指的是用户完成特定目标的效率,其与消耗的资源(如时间)成反比;满意度(satisfaction)指的是用户使用产品时感受到的主观满意程度。在一些实施例中,可用性有五个指标,分别是易学性、易记性、容错性、交互效率和用户满意度。产品只有在每个指标上都达到很好的水品,才具有高的可用性。通过对访谈语料进行可用性分析和提取,可以获得产品优缺点,从而实现对产品的优化,进而提高性能。可用性语句的一个示例是:这个智能音响的语音识别效果一点都不好。可用性语句的另一个示例是:我觉得这个智能音响还挺容易上手的。在一些实施例中,可用性信息表达了用户在产品体验方面的感受,例如,用户对产品的可用性或易用性方面所持的肯定或否定态度,或者用户对产品某个方面的改进建议或意见。

在一些实施例中,情感分析指的是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,在该产品中通过分析访谈原文,可以获得用户喜好,对产品,环境的情感态度,洞察用户的生活状态。

在一些实施例中,需求信息可包括产品需求信息和个人需求信息。具体地,产品需求信息主要表达了用户对特定产品的功能或特质的需求或者说用户比较喜欢或者希望产品具有的功能,比如,用户想要特定手机产品具有窄边框、双摄像头、双卡双待功能等。个人需求信息主要表达了用户自身的需求,该信息的评价对象通常不限于特定产品并且可以是任何方面,比如,用户想要一个新手机、一双新球鞋、一张电影票等。在一些实施例中,情感极性信息可包括产品情感极性信息和个人情感极性信息。具体地,产品情感极性信息主要表达了用户对特定产品的特定功能或特质的好恶或者用户对该产品满意或不满意的地方,比如,用户喜欢特定手机产品的特定外壳颜色、不喜欢刘海屏、不喜欢凸出的摄像头等。个人情感极性信息主要表达了用户对其他对象的好恶,该信息的评价对象通常不限于特定产品并且可以是任何方面,比如,用户喜欢打篮球、喜欢数码产品、不喜欢看电影等。

根据本申请实施例的生成访谈报告的方法,响应于访谈报告生成指令,即可自行根据神经网络模型对访谈语料进行分析,获得被访谈者的表现信息,进而根据被访谈者的表现信息生成访谈报告,也就是可以实现一键生成访谈报告,从而可以节省人力物力,降低访谈成本,缩短访谈耗费时间。

在一些实施例中,根据被访谈者的表现信息生成访谈报告,包括:计算被访谈者需求的语句、被访谈者非需求的语句、正向情感语句、负向情感语句、可用性语句中至少一类语句的相似度;根据相似度进行聚类,并获得聚类中心;根据聚类中心包含的语句语义,生成访谈报告。

具体地,在获得访谈语料中包括被访谈者的表现信息后,计算各类表现信息的句向量,形成句向量群,并将句向量群中的句向量进行相似度计算,例如采用hanlp算法进行相似度计算,进而根据相似度计算聚类,例如可以采用ap聚类算法或者其他算法进行聚类,并确定聚类中心,关于聚类方法可以参照后文实施例的详细说明,聚类中心相对应的语句,可以较大程度地反映被访谈者的喜恶或对产品的态度,据此可以生成访谈报告,进而用户可以参考该访谈报告来对产品的功能和性能进行完善。

进一步地,可以对访谈语料提取关键词以及进行重点标记,在翻译文本、报告和其它材料时可以更加容易地找到重点。具体地,可以通过终端设备的人机交互界面提供标记触发单元例如设置高亮(highlight)按钮,或者在终端设备上设置对应的触摸式或机械式按键。在标记关键词时,对文本数据中的语句进行权重计算并排序,根据排序结果获得预选关键词,根据停用词表过滤掉预选关键词中包括的停用词,获得文本数据中的关键词,并输出关键词,形成文本关键词集以对访谈进行整体性描述。其中,停用词可以人工输入,生成后的停用词会形成一个停用词表。在重点标记时,响应于重点标记指令,提高文本数据中对应该重点标记指令的语句的权重,以标记为重点语句,方便后续翻阅时更容易找到重点。

具体地,可以采用分词套件对文本数据进行词法分析,获得短句以及去除其中的语气词。一些分词套件使用了基于前缀词典实现高效的词图扫描,生成语句中汉字所有可能生成词所构成的有向无环图,再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的hmm模型,使用了viterbi算法。对于关键词的提取,即从一段给定的文本数据中自动抽取出若干有意义的词语或词组。在一些实施例中,可以采用textrank算法,textrank算法是一种用于文本数据的基于图的排序算法,通过把文本数据分割成若干组成单元并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身即可实现关键词提取。

例如,提取关键词的基本步骤可以包括:(1),把给定的文本数据t按照完整语句进行分割;(2),对于每个语句,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中是保留后的预选关键词;(3),构建预选关键词图g=(v,e),其中v为节点集,由(2)生成的预选关键词组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词;(4),迭代传播各节点的权重,直至收敛;(5),对节点权重进行倒序排序,从而得到最重要的t个单词,作为预选关键词;(6),由(5)得到最重要的t个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

下面举例说明,示例如下。

原文短句为:早上起来的时候会用它来做闹钟,还可以有的时候会问它天气

预选关键词为:早上、起来、闹钟、天气、可以、时候

停用词为:可以、时候

最终关键词为:早上、起来、闹钟、天气

简言之,本申请实施例的生成访谈报告的方法,可以一键实现对一篇或一段文字数据的重点标记,便于后续处理文本数据时了解重点,人工操作步骤更少,简单方便,节省人力时间。

进一步地,在一些实施例中,可以将访谈报告进一步生成可视化信息,并提供给用户。例如,将访谈报告以条形图或圆饼图或折线图或各种形式的组合来呈现给用户,从而用户可以更加直观地了解访谈报告的内容和关键信息。

在一些实施例中,在完成访谈之后,在终端设备的人机交互界面还可以提供编辑触发单元,响应于编辑指令,对访谈报告进行编辑,例如,添加被访谈者信息,或者修改所有转换后的文本数据、结果和报告内容,更加灵活。进一步地,用户可以根据自身的需求对访谈报告结果进行标注,在用户完成编辑后,终端设备会记录编辑内容,获取用户编辑内容中的标注数据,并将标注信息与设定阈值进行比较,当标注数据达到预设标注阈值时,将标注数据反馈至神经网络模型的语料数据库,或者,按照设定时间周期,每隔预设时间例如5天或者15天,将标注数据反馈至神经网络模型的语料库,以优化神经网络模型,即神经网络模型具有自适应功能,从而使得通过神经网络模型分析得到的结果更加接近用户希望的结果。

在一些实施例中,在生成访谈报告后,在终端设备的人机交互界面可以提供输出触发单元,响应于输出指令,将访谈报告输出至移动终端例如智能手机、个人电脑、笔记本电脑上,便于随时随地地查看分析结果并导出访谈报告,提供方便。

基于上面实施例的生成访谈报告的方法,本申请第二方面实施例还提出一种计算机存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令设置为执行上面实施例的生成访谈报告的方法。

基于上面实施例的生成访谈报告的方法,下面描述根据本申请第三方面实施例的终端设备。

图4是根据本申请的一个实施例的终端设备的框图,如图4所示,本申请实施例的终端设备100包括处理器10和存储器20。

其中,存储器20与处理器10通信连接,存储器20存储有可被处理器10执行的指令,指令被处理器10执行时,使处理器10执行上面实施例的生成访谈报告的方法。其中,生成访谈报告的方法,可以参照上面实施例的描述。

具体地,终端设备100可以包括但不限于移动终端例如智能手机、个人电脑或者平板电脑,其中,终端设备100可以设置触发单元,例如提供人机交互界面,在人机交互界面上提供访谈报告生成触发单元,或者设置触摸式按键或机械式按键,在接收到触发指令时,自主执行上面的生成访谈报告的方法,实现一键式操作即可,简单高效,以更少的操作步骤和时间即可构建自主的访谈研究过程,降低访谈成本,缩短访谈消耗的时间。

以上对本申请实施例的生成访谈报告的总过程进行了说明。下面以通过神经网络模型对访谈语料进行分析并获得被访谈者的情感信息和需求信息为例,对本申请实施例的生成访谈报告的方法进行说明,即对情感分析算法和需求提取算法进行进一步说明,以及对聚类过程进一步详细说明。

在本申请实施例中,被访谈人的表现信息可以包括需求信息和情感信息中一种或两种。在一些实施例中,对于需求信息,在对原始语料信息进行预处理之后,将访谈语料输入第一神经网络模型,获得访谈语料中反映被访谈者需求的语句和被访谈者非需求的语句,即提取被访谈者的需求信息,例如,可以采用svm(supportvectormachine,支持向量机)分类器来实现需求和非需求的二分类分析。进一步地,在一些实施例中,被访谈者非需求的语句认为是中性语句,可以将被访谈者非需求的语句输入第二神经网络模型,提取被访谈者非需求的语句中反映被访谈者极性情感的语句;进而将极性情感的语句输入第三神经网络模型,获得极性情感的语句中的正向情感语句和负向情感语句。例如,采用两个串联的textcnn分类器来实现极性情感语句和中性情感语句的二分类以及对极性情感语句的进一步地分类,其中两个textcnn分类器的算法模型训练时采用的语料不同。

下面参照图5至图7对本申请实施例的智能语音资料中需求提取过程进行详细说明。

图5示出了根据本申请实施例的的智能语音资料需求提取过程的流程图。

在步骤101,获取语音数据。具体的,步骤101通过麦克风或者麦克风阵列、录音机、录音笔等录音设备获取语音信号。

在步骤102,对获取的语音数据进行预处理,得到用于分析的文本数据。预处理是指将语音数据加载到内存中,根据需要增删改其中部分词语的一个过程。预处理包括:识别,是指将语音数据识别为文字数据,以形成文本数据;拆分,是指根据文本数据中由句号分隔的长句中表示间隔的标点符号,将所述长句拆分为短句;以及净化,是指去掉所述文本数据中原有语音数据中同访谈内容无关的无效内容。在一些实施例中,预处理包括评论清洗、词性分词、词性标注以及句法依存分析。

在一些实施例中,语音识别是将人所发出的语音中的词汇内容转换为计算机可读入的文本。例如,可以以一定时长(例如,0.05秒)对语音波形成一小段,每一小段称为一帧,则得到在一定时间(例如,1秒钟)内一定数量的帧(例如,20个)。从每一帧中提取反映语音本质特征的信息(去除语音信号中对于语音识别无用的冗余信息,同时达到降维)。然后提取每一帧波形的特征,得到该帧的特征向量。音素是根据语音的自然属性划分出来的最小语音单位。状态是指比音素更细致的语音单位,通常把一个音素划分成三个状态。通过将帧识别为状态、将状态组合成音素、再将音素组合成单词,从而实现语音识别。

在一些实施例中,语音识别可以包括实时语音识别和离线语音识别。在访谈中,可以将语音实时转换为文字,供访谈者查看。在访谈结束后,可以通过回放回顾整个访谈过程。

具体地,可以使用第三方语音转文字的开发平台,通过下载该平台的sdk(softwaredevelopmentkit,软件开发工具包),基于该软件开发工具包来完成将访谈语料转换为文本数据的功能。在本申请的实施例中,实时语音识别和离线语音识别可以并行,在访谈中实时查看语音转文字的结果,也可以在访谈结束后通过回放回顾整个访谈过程。

在一些实施例中,在语音识别之前,访谈者或被访谈者可以使用通用词,也建立专有领域词库。用户通过将一些非常见的专业词汇存储至该词库中,并将词库上传至语音识别模块中,可以提升语音识别结果的正确率。例如,“潮流”一词本意指由潮汐引起的水流运动,在社会学领域指流行趋势的动向,在电力行业则指电网各处中电压、电流和功率的分布,再例如,在访谈领域,可以将不常见的专业词汇例如用研、出包等上传至语音转文字平台的词库中,在进行文字转换时,可以更加有效地识别这些词汇。简言之,根据访谈主题所属领域,采取相应的专有领域词库,能够进一步提高专业用语的识别准确率。

在一些实施例中,通过语音识别过程,能够获得对应语音资料的文本数据。在一些实施例中,文本数据的格式可以包括(但不限于)txt、word、excel等微软(microsoft)公司的office文档,或者wps格式文档,或者用于文字处理的其他格式的文档。

在一些实施例中,拆分是指根据文本数据中由句号分隔的长句中表示间隔的标点符号,将长句拆分为短句,以便分别对短句独立的进行分析。在一些实施例中,该方法使用“,”、“、”或“;”来拆分长句。在一些实施例中,长句可以是,例如,“打个比方来说,我觉得智能音箱应该简单大方、颜色不要五颜六色的,使用上应该简单方便”。拆分后,可以形成短句如下:1、打个比方来说;2、我觉得智能音箱应该简单大方;3、颜色不要五颜六色的;4、使用上应该简单方便。与长句相比,使用短句作为分析对象,能够简化系统运算过程,降低运算量,提升效率。

在一些实施例中,净化是指去掉所述文本数据中原有语音资料中同语音数据内容无关的无效内容。在一些实施例中,由于访谈的口语化特点,文本数据中不可避免地存在语气助词或叹词。在一些实施例中,在语音转成文字的过程中,可能会存在乱码。这些语气助词或乱码与访谈内容无关,对需求提取也是无效的。

具体地,针对访谈口语化的特点,通过分词工具对访谈的文本进行词法分析,确定每个短句中的词语内容以及词性,将语句中的语气词去除,以确定每句话中比较有意义的词汇,以便于访谈的分析。分词工具包括多种例如盘古分词、yaha分词、jieba分词、清华thulac等,以词法分析接口调用jieba分词为例,分句后的原句是:嗯,欢迎您呢参加我们此次智能音箱用户体验的访谈。通过jieba分词进行词法分析并去除其中的语气词后的语句是:欢迎您参加我们此次智能音箱用户体验的访谈。由此,可以获得具有实际含义的短句表达。

在步骤103,对预处理后的文本数据中的每个短句进行分词处理。分词是将一系列连续的字符串按照一定逻辑分割成单独的词。在一些实施例中,分词可以采用最大匹配法、逆向最大匹配法、双向匹配法、最佳匹配法、联想-回溯法等进行。在一些实施例中,用户可以选择精确分词,也可以选择列出全部可能出现的词。经过分词处理后,每个文本是由以空格隔开的词(word)组成的文本语料。

在步骤104,基于特征词典,获取分词后的文本数据中每个短句所对应的句向量。在一些实施例中,特征词典为由特征词和特征值组成的二维矩阵。特征词为语料库中有很大可能性表达了可以将目标语料定位为需求的词。特征值为特征词被定位为需求的可能性的数学表达。语料库可以为包括全部语料的数据库,例如98年人民日报语料库,也可以采用现有的特殊领域下的语料库。句向量为对应文本数据中的每个短句的、由在语料库和特征词典中对短句中的词的查找结果组成的矩阵。

在一些实施例中,对于分词后的短句中的每个词,分别在语料库和特征词典中查找。如果该词没有在语料库中出现过,则查找结果为0;如果该词在语料库中出现过但没有在特征词典中出现过,则查找结果为1;如果该词出现在特征词典中,则查找结果为2;由此形成该短句所对应的句向量。由于需求分析的短句有明确的特征性,颗粒度较大(即短句要么为需求语句,要么为非需求语句,无法明确类别的短句较少),因此经实践检验,上述句向量形成方式分类效果较好。

在步骤105,将句向量输入到需求判断模型。在一些实施例中,需求判断模型被配置为根据输入的语义单位向量(例如,句向量)输出判断结果。在一些实施例中,判断结果可以是表示语句是否属于需求性语句的值。

在步骤106,根据需求判断模型的输出结果,确定该短句被分类为哪一类。在一些实施例中,输出结果可以是1或0。当输出结果为1时,该短句被分为需求性语句;当输出结果为0时,该语句被判断为非需求性语句。在一些实施例中,输出结果可以是:该短句被分为需求语句的可能性例如是0.7,被分为非需求语句的可能性例如是0.3,因此,该语句最终被判断为需求语句。

在一些实施例中,将所有表达了需求的句子进行聚类处理。聚类处理的详细步骤可以参照下文实施例的描述。

在一些实施例中,对于被判断为非需求语句的部分,进行极性情感分析。极性情感分析的颗粒度相对需求分析更加细,使用svm无法达到90%以上的正确率,极性情感分析因此采用卷积神经网络(cnn)分类器。在一些实施例中,对于被判断为非需求语句的部分,可进行可用性分析。

在一些实施例中,需求指被访谈者在访谈过程中表现出来的对某物或某事的期望。例如,当访谈对象为一种智能音箱时,所提取的需求可以表示为:更快的响应速度;建议优化一下外观设计;外观要时尚大方;颜色不要五颜六色的;箱体线条要流畅,等等。聚类处理后,可以得出本次访谈的主题为:更快的响应速度;建议优化一下外观设计。在一些实施例中,在访谈时,用户在无意间可能会给出与当前访谈对象部分相关或完全无关的信息,比如用户可能对访谈对象的竞争对手进行评价,亦或是透露出与该访谈对象所处领域无关的其他方面的需求信息。

在一些实施例中,极性情感指被访谈者的情感倾向,例如,其可分为正向、负向和中性。具体地,正向情感是表示:产品的优点,访谈者表达喜欢、满意的内容;负向情感是表示产品的缺点和可用性问题,以及访谈者表达厌恶、不满意的内容;中性情感是表达中性立场的内容。例如,当访谈对象为一种智能音箱时,极性情感可以包括:它可以在一定程度上给我带来一些便利(正向情感);其实我是不会通过它来做的(负向情感);我觉得第一个方面来说(中性情感)。使用非需求语句而不是整个访谈内容来分析极性情感,可以提高极性情感分析的效率和准确性。在一些实施例中,情感倾向可以是针对产品本身的,也可以是针对产品之外的其他方面。例如,在访谈时,用户在无意间可能会给出与当前访谈对象部分相关或完全无关的信息,比如用户可能对访谈对象的竞争对手进行评价,亦或是透露出与该访谈对象所处领域无关的其他方面的情感倾向信息。

将在下文结合图6详细描述需求判断模型和特征词典的构建和训练过程。

图6示出了根据本说明书实施例的需求判断模型和特征词典的构建和/或训练过程的流程图。在一些实施例中,该构建和/或训练过程由人工得出。在一些实施例中,该构建和/或训练过程由计算机程序完成。

在步骤201,获取语音数据。在步骤202,对语音数据进行预处理。步骤201至步骤202与上述步骤101至步骤102类似。在步骤203,使用专家标注数据库对文本数据进行特征标注。例如,标注后的文本数据可以是:x:语句。其中,x可以是0(表示非需求)或1(表示需求)。在步骤204,对标注后的文本数据进行分词。步骤204与上述步骤104类似。

在步骤205,分词后的文本数据被输入到分类器中用于训练需求判断模型。在一些实施例中,分类器采用支持向量机(supportvectormachine,svm)分类器。svm分类器是一种经典的二分类模型,它对于特征较明显的分类作用非常明显,对于颗粒度较大的需求分析效果显著。svm分类器的基本模型是定义在特征空间上的使两类之间的距离最大的线性分类器。svm分类器还可以包括核函数,核函数具有将低维数据转化成高维数据的作用。通过引入核函数,能够将不可分离的问题转换成可分离的问题,这使它成为实质上的非线性分类器,能够适用于线性不可分的数据。

在一些实施例中,本方法选择线性核函数,例如,k(x1,x2)=x1tx2。在一些实施例中,可以根据文本数据的大小和其他因素,选择其他核函数,例如聚合核函数、径向基核函数等非线性核函数。

在一些实施例中,本方法通过拉格朗日对偶运算等一系列运算过程,最终得出需求判断模型和一系列特征词。需求判断模型是一套计算机可执行的算法,其输入为句向量,输出为该句所属的类别。

在一些实施例中,需求判断模型可基于依存句法分析对语句是否属于需求进行判断。在一些实施例中,依存句法分析可以包括一个或多个规则。例如,对于满足一个或多个规则的语句,可以判断其为需求语句,输出结果为1,否则,输出结果为0。在一些实施例中,每个规则都可以赋予一定的权值,最后综合所有的规则来计算出该语句成为需求性语句的可能性或参考值。在一些实施例中,通过套用这些规则,还可以计算观点关键词的对象以获得需求对象值列表,并且可以统计情感倾向程度副词的数量以获得需求程度值列表,最后结合需求对象值列表和需求程度值列表来生成改进需求列表。

在一些实施例中,通过识别需求语句的依存关系,来提取特征词并构建需求判断模型。其中,特征词是所表达的观点所指代的对象,一般为名词或动名词或动词;观点词是所表达的观点,一般为形容词、副词或动词。在一些实施例中,词语之间的依存关系可以包括主谓关系(subject-verb,sbv)、动宾关系(verb-object,vob)、动补关系(verb-object,cmp)、核心关系(head,hed)或并列关系(coordinate,coo)。此外,词语还可能带有修饰词。中心词与其修饰词的关系可以包括定中关系(attribute,att)或状中关系(adverbial,adv)。

例如,在需求短句满足sbv、cmp或者att关系时,短句中的名词(或动名词或动词)为特征词,对应的形容词为观点词。例如,在需求语句“工作流还行”中,短句的依存关系为主谓关系,因此其中“工作流”是特征词,“还行”是观点词。在需求语句“想要文档的管理部分更好用”中,依存关系为动补关系,因此“文档的管理部分”是特征词,“更好用”是观点词。例如,当短句中相邻的两个词语满足adv关系时,则两个词语分别是修饰词和观点词。例如词组“更好用”,该两个词语满足adv关系,则识别“好用”为观点词,而“更”是修饰词。例如,当短句中相邻的两个名词(或动词+名词)满足att关系时,两个词语构成一个名词性短语,分别为修饰词和特征词。例如在“文档的管理部分”名词性短语中,其中“管理部分”是特征词,“文档的”是修饰词。在一些实施例中,对某个特征词或关键词的重复次数越高,则关注度越高,当情感表达为贬义时,说明产品需求越高。

在一些实施例中,通过识别需求短句中直接表达了用户需求的词语来提取特征词并构建需求模型。具体地,识别出需求语句中表示“增加”或“减少”的词语(动词,verb)以及表示对象的特征词(名词,noun)。表示“增加”的词语包括:增长、补充、扩充、填补、推广、加多、扩展、增添、添加、加强、扩大、加添、添补、增多、增加、填充等。表示“减少”的词语包括:裁减、省略、削弱、删除、消弱、节略、缩小、减轻、节减、淘汰、减削、收缩、裁汰、删减、降低、减少、减低、减弱等。例如,对于需求短句“增加一些分辨率吧”,可以识别出“增加”和“分辨率”,其中动词为“增加”而特征词为“分辨率”。对于需求短句“删除一些不必要的流程吧”,可以识别出“删除”和“流程”,其中动词为“删除”而特征词为“流程”。

在一些实施例中,通过识别需求短句中间接表达了用户需求的词语来提取特征词并构建需求模型。该实施例是通过用户重复性的强调来判断需求,例如,通过识别程度副词或频度副词或者标点符号来提取特征词。在一些实施例中,可以通过识别词语(名词)加上表示强调的重复n次(n为正整数)的词语(副词)加上观点词的结构来提取特征词。例如,表示强调的词语包括:定然、频频、万分、千万、十分、太、快要、屡次、挺、很、通通、经常、分外、更为、也许、就、明明、略、一味、只是、临时、远远、仅仅、刻意、居然、没、永不、强行等。例如,在短句“这界面设计太太太太太丑了!”中,由于识别了表示强调的词语“太”以及重复次数n=5,因此识别特征词为“界面设计”,观点词是“丑”。在一些实施例中,也可以通过识别词语(名词)加上观点词(动词或形容词)加上重复n次(n为正整数)的标点符号的结构来提取特征词。该标点符号可以包括,“!”、“,”、“。”、“…”、“?”、“*”等。例如,在需求短句“深绿色实在不好看。。。。。。”中,由于识别了重复的标点符号“。”,并且重复次数n=5,而识别出特征词是“深绿色”,观点词是“不好看”。

通过上述处理,最终可获得一系列特征词、观点词以及需求判断模型。在一些实施例中,还可以统计特征词的频次。特征词的重复次数越高,则关注度也越高。当情感极性为贬义时,说明需求性越高。

在一些实施例中,还可以统计观点词的频次,并给出观点值。观点值表示该观点的情感极性,其具体的数值为[-1,1]区间。其中,负数表示负面情感,正数表示正面情感,并且绝对值越大,情感极性越明显。

在步骤207,方法通过一系列特征词构建特征词典。在一些实施例中,使用卡方检验(chi-squaredtest)来构建特征词典。卡方检验是以x2分布为基础的一种常用的假设检验方法,它的无效假设h0是:观察频数与期望频数没有差别。具体过程是:首先假设h0成立,基于此前提计算x2值,该值表示观察值与理论值之间的偏离程度。根据x2分布及自由度可以确定在h0假设成立的情况下获得当前统计量及更极端情况的概率p。如果p值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,两个比较量之间有显著差异,具有独立性;否则就不能拒绝无效假设,即不能认为两个比较量之间具备独立性。卡方检验在自然语言处理中多用于进行特征提取。

在一些实施例中,计算这些特征词对于需求判断的影响程度,也就是特征词能够被定为需求的可能性,该可能性被称为特征值。如果某特征词的特征值低于阈值,则丢弃;否则保留该特征词。通过对特征值排序,选择排名靠前的特征值所对应的特征词加入到特征词典中,从而构成特征词典。

图7示出了根据本说明书实施例的智能语音资料需求提取系统的组成模块的示意图。参考图7,该系统包括录音模块301、语音识别模块302、语料预处理模块303、分词模块304和需求判断模块305。录音模块301用于获取语音数据。语音识别模块302用于对语音数据进行预处理,得到文本数据;语料预处理模块303用于对文本数据中的每个句子进行分词处理;分词模块用于将分词处理后的文本数据与特征词典比较,获取文本数据所对应的句向量;需求判断模块304用于从输入的句向量中判断该句向量对应的短句是需求语句还是非需求语句。对于装置中每个模块的功能和实施过程,可以参考前一方法实施例中相应步骤的实施过程。为简单起见,这里省略了细节。

下面参照图8至图10对本申请实施例的智能语音资料中可用性判断过程进行详细说明。

图8示出了根据本申请实施例的的智能语音资料可用性判断过程的流程图。

在步骤501,获取语音数据。具体的,步骤501通过麦克风或者麦克风阵列、录音机、录音笔等录音设备获取语音信号。

在步骤502,对获取的语音数据进行预处理,得到用于分析的文本数据。预处理是指将语音数据加载到内存中,根据需要增删改其中部分词语的一个过程。预处理包括:识别,是指将语音数据识别为文字数据,以形成文本数据;拆分,是指根据文本数据中由句号分隔的长句中表示间隔的标点符号,将所述长句拆分为短句;以及净化,是指去掉所述文本数据中原有语音数据中同访谈内容无关的无效内容。在一些实施例中,预处理可包括无关符号过滤和非核心成分过滤。

在步骤503,对预处理后的文本数据中的每个短句进行分词处理。在一些实施例中,可以对每个词的词性进行标注。

在步骤504,基于特征词典,获取分词后的文本数据中每个短句所对应的句向量。在一些实施例中,特征词典为由特征词和特征值组成的二维矩阵。特征词为语料库中有很大可能性表达了可以将目标语料定位为可用性的词。特征值为特征词被定位为可用性的可能性的数学表达。

在一些实施例中,对于分词后的短句中的每个词,分别在语料库和特征词典中查找。如果该词没有在语料库中出现过,则查找结果为0;如果该词在语料库中出现过但没有在特征词典中出现过,则查找结果为1;如果该词出现在特征词典中,则查找结果为2;由此形成该短句所对应的句向量。在一些实施例中,可用性判断模型可包含多个规则,对于满足一个或多个规则的语句,可以将其判断为可用性语句,输出结果为1;否则,可将其判断为非可用性语句,输出结果为0。

在步骤505,将句向量输入到可用性判断模型。在一些实施例中,可用性判断模型被配置为根据输入的语义单位向量(例如,句向量)输出判断结果。在一些实施例中,判断结果可以是表示语句是否属于可用性语句的值。

在步骤506,根据可用性判断模型的输出结果,确定该短句被分类为哪一类。在一些实施例中,输出结果可以是1或0。当输出结果为1时,该短句被分为可用性语句;当输出结果为0时,该语句被判断为非可用性语句。在一些实施例中,输出结果可以是如下方式:该短句被分为可用性语句的可能性例如是0.7,被分为非可用性语句的可能性例如是0.3,因此,该短句最终被判断为可用性语句。

在一些实施例中,将所有表达了可用性的句子进行聚类处理。聚类处理的详细步骤可以参照下文实施例的描述。

将在下文结合图9详细描述可用性判断模型和特征词典的构建和/或过程。

图9示出了根据本说明书实施例的可用性判断模型和特征词典的构建和/或过程的流程图。在一些实施例中,该构建和/或过程由人工得出。在一些实施例中,该构建和/或过程由计算机程序完成。

在步骤601,获取语音数据。在步骤602,对语音数据进行预处理。步骤601至步骤602与上述步骤501至步骤502类似。在步骤603,使用专家标注数据库对文本数据进行特征标注。例如,标注后的文本数据可以是:x:语句。其中,x可以是0(表示非可用性语句)或1(表示可用性语句)。在步骤604,对标注后的文本数据进行分词。步骤604与上述步骤504类似。

在步骤605,分词后的文本数据被输入到分类器中用于训练可用性判断模型。在一些实施例中,分类器采用支持向量机(supportvectormachine,svm)分类器。svm分类器是一种经典的二分类模型,它对于特征较明显的分类作用非常明显,对于颗粒度较大的可用性分析效果显著。svm分类器的基本模型是定义在特征空间上的使两类之间的距离最大的线性分类器。svm分类器还可以包括核函数,核函数具有将低维数据转化成高维数据的作用。通过引入核函数,能够将不可分离的问题转换成可分离的问题,这使它成为实质上的非线性分类器,能够适用于线性不可分的数据。

在一些实施例中,本方法选择线性核函数,例如,k(x1,x2)=x1tx2。在一些实施例中,可以根据文本数据的大小和其他因素,选择其他核函数,例如聚合核函数、径向基核函数等非线性核函数。

在一些实施例中,本方法通过拉格朗日对偶运算等一系列运算过程,最终得出可用性判断模型和一系列特征词。可用性判断模型是一套计算机可执行的算法,其输入为句向量,输出为该句所属的类别。

在一些实施例中,通过识别语句的依存关系,即,对语句进行依存语法(dependencyparsing)分析,来构建可用性判断模型。具体地,句子的成分可以分为主语、谓语、宾语、定语、状语、补语等。各个成分之间的关系主要有主谓关系(sbv)、动宾关系(vob)、定中关系(att)、状中关系(adv)、动补关系(cmp)、并列关系(coo)等。依存语法(dependencyparsing,dp)指的是通过分析语言单位内成分之间的依存关系揭示其句法结构,即,识别句子中的语法成分,并分析这些成分之间的关系。具体地,依存句法分析识别句子中的“主谓宾、定状补”这些语法成分,并分析各成分之间的关系。

可用性话语分析最关键的步骤就是如何以结构化的方式表达评价持有者的意见,可将<评价对象,评价短语>视为一个评价单元。评价对象可以是名词性短语、动词性短语以及单句型短语,主要处在主语位置、宾语位置、动补结构的动词位置。评价短语则主要处在谓语位置、动宾结构的动词位置以及补语位置。评价短语表现为一组连续出现的词组,可以是由程度副词、否定副词和评价词组合而成,也可以是名词性短语、形容词性短语、动词性短语或是由前面三种组合而成的单句型短语。只要应用相应的规则召回句子中的主谓语、动宾语、动补语,可用性评价单元就能够被抽取出来。

在一些实施例中,在句中存在sbv,并且依存关系对中修饰词的词性为名词、缩写词或外来词且核心词的词性为动词的情况下,如果句中只存在sbv,那么评价对象和评价短语分别处在主语、谓语位置,即抽取<sbv的修饰词,sbv的核心词>作为可用性评价单元,例如,<稳定性,提高>。如果句中存在sbv和vob,其中sbv的核心词为vob的核心词,那么抽取<sbv的修饰词,vob的核心词和vob的修饰词>作为可用性评价单元,例如,<评价框,没有特点>。如果句中存在sbv和cmp,其中sbv的核心词为cmp的核心词,那么抽取<sbv的修饰词,cmp的核心词和cmp的修饰词>,例如,<页面,加载慢>。

在一些实施例中,在句中存在sbv,并且依存关系对中修饰词的词性为名词、缩写词或外来词且核心词的词性为形容词、修饰名词的词或习语的情况下,如果句中只存在sbv,那么评价对象和评价短语分别处在主语、谓语位置,即抽取<sbv的修饰词,sbv的核心词>,例如,<界面,好看>。如果句中存在sbv和coo,并且sbv的核心词为coo的核心词,coo关系对中修饰词的词性为形容词、修饰名词的词或习语,那么抽取<sbv的修饰词,sbv的核心词和coo的修饰词>,例如,<转页,慢且卡>。如果句中只存在vob,并且关系对中修饰词的词性为名词、缩写词或外来词且核心词的词性为动词,那么抽取<vob的修饰词,vob的核心词>,例如,<评价框,没有>。

通过上述处理,最终可获得一系列评价对象和评价短语、可用性评价单元、以及可用性判断模型。

在步骤607,方法通过一系列特征词构建特征词典。在一些实施例中,使用卡方检验(chi-squaredtest)来构建特征词典。卡方检验是以x2分布为基础的一种常用的假设检验方法,它的无效假设h0是:观察频数与期望频数没有差别。具体过程是:首先假设h0成立,基于此前提计算x2值,该值表示观察值与理论值之间的偏离程度。根据x2分布及自由度可以确定在h0假设成立的情况下获得当前统计量及更极端情况的概率p。如果p值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,两个比较量之间有显著差异,具有独立性;否则就不能拒绝无效假设,即不能认为两个比较量之间具备独立性。卡方检验在自然语言处理中多用于进行特征提取。

在一些实施例中,计算这些特征词对于可用性判断的影响程度,也就是特征词能够被定为可用性的可能性,该可能性被称为特征值。如果某特征词的特征值低于阈值,则丢弃;否则保留该特征词。通过对特征值排序,选择排名靠前的特征值所对应的特征词加入到特征词典中,从而构成特征词典。

图10示出了根据本说明书实施例的智能语音资料可用性提取系统的组成模块的示意图。参考图10,该系统包括录音模块701、语音识别模块702、语料预处理模块703、分词模块704和可用性判断模块705。录音模块701用于获取语音数据。语音识别模块702用于对语音数据进行预处理,得到文本数据;语料预处理模块703用于对文本数据中的每个句子进行分词处理;分词模块用于将分词处理后的文本数据与特征词典比较,获取文本数据所对应的句向量;可用性判断模块704用于从输入的句向量中判断该句向量对应的短句是可用性语句还是非可用性语句。对于装置中每个模块的功能和实施过程,可以参考前一方法实施例中相应步骤的实施过程。为简单起见,这里省略了细节。

以上对通过神经网络模型对访谈语料进行分析并获得需求信息和可用性分析以及进一步的情感分析进行了说明,下面对通过神经网络模型对访谈语料进行分析并获得情感信息进一步说明。

在一些实施例中,对于情感信息的提取,可以将访谈语料输入第二神经网络模型,提取访谈语料中反映被访谈者极性情感的语句和中性情感的语句;并将极性情感的语句输入第三神经网络模型,获得极性情感的语句中的正向情感语句和负向情感语句。同样地,可以采用两个串联的textcnn分类器,其中,一个可以作为情感提取模型,实现极性情感语句和中性情感语句的二分类,另一个可以作为情感分类模型来实现对极性情感语句的进一步地分类。

下面参照图11对访谈语料中情感信息提取的分析过程进一步详细说明。

图11示出了根据本申请的一些实施例所示的语音内容分析方法的流程图。流程800可以实施为语音内容分析装置中的非临时性存储介质中的一组指令。语音内容分析装置可以执行该一组指令并且可以相应地执行流程800中的步骤。

以下呈现的所示流程800的操作,旨在是说明性的而非限制性的。在一些实施例中,流程800在实现时可以添加一个或多个未描述的额外操作,和/或删减一个或多个此处所描述的操作。此外,图8中所示的和下文描述的操作的顺序并不对此加以限制。

在810中,语音内容分析装置可以获取语音数据。

所述语音数据可以是录音或视频。在一些实施例中,所述语音数据可以是访谈的录音或视频。例如,所述语音数据可以是商家对消费者的访谈录音。所述访谈录音可以包括访谈者录音和受访者录音。

在820中,语音内容分析装置可以基于所述语音数据,获取对应的文本数据。

具体地,语音内容分析装置可以对所述语音数据进行语音识别,将所述语音数据转化为原始文本,然后将所述原始文本转化为满足情感分析模型(步骤830中)数据格式要求的文本数据。

在一些实施例中,语音内容分析装置可以仅获取部分语音数据对应的文本数据。例如,对于访谈录音,语音内容分析装置可以仅获取受访者录音对应的文本数据。进而,语音内容分析装置可以更加准确的分析受访者(例如,产品用户)的情感。

在一些实施例中,所述文本数据为句向量。所述句向量可以为一维或多维向量,语音内容分析装置可以通过以下步骤获取句向量。

步骤一,语音内容分析装置可以获取原始文本,即语音数据语音识别的结果。

步骤二,对所述原始文本中每个完整的句子,语音内容分析装置可以将所述完整的句子分句,得到至少一个短句。

在一些情况下,语音内容分析装置可以通过一个完整的句子中的标点符号对该完整的句子进行分句,比如逗号、顿号、冒号、分号。作为示例,语音内容分析装置可以将一个完整的句子“我很喜欢这个手机的尺寸和颜色,但是这个手机的音量控制键设置的十分不合理,我觉得手机的音量控制键设置在右侧比较方便用户操作”,分成三个短句。所述三个短句根据所述完整的句子中的逗号进行分句,分别为“我很喜欢这个手机的尺寸和颜色”、“但是这个手机的音量控制键设置的十分不合理”和“我觉得手机的音量控制键设置在右侧比较方便用户操作”。应当可以理解的是,通过分句,将一个完整的长句子分成多个短句子,减少了句子的复杂程度,更有利于句子的分析,可以增加句子分析的准确度。

步骤三,语音内容分析装置可以确定所述至少一个短句的句向量。

具体地,对于所述至少一个短句中的每个短句,语音内容分析装置可以基于word2vec模型确定所述短句的词向量;然后基于所述短句的词向量确定所述句向量。所述word2vec模型可以由用户自己训练,也可以是hanlp工具包自带的word2vec模型。

在一些情况下,语音内容分析装置基于word2vec模型确定词向量的过程可以包括:(1)分词/词干提取和词形还原,例如,对于中文语料,需要进行分词,而对于英文语料,则不需要分词,但是由于英文涉及各种时态,所以要对其进行词干提取和词形还原;(2)构造词典和统计词频,例如,在这一步中,需要遍历一遍所有文本,找出所有出现过的词,并统计各词的出现频率;(3)构造树形结构,例如,依照各词的出现概率构造霍夫曼(huffman)树,使得所有分类都处于叶节点;(4)生成节点所在的二进制码,其中二进制码反映了节点在树中的位置,从而能按照编码从根节点一步步找到对应的叶节点;(5)初始化各非叶节点的中间向量和叶节点中的词向量,例如,霍夫曼树中的各个节点都存储着一个长为m的向量,但叶节点和非叶结点中的向量的含义不同,具体地,叶节点中存储的是各词的词向量,是作为神经网络的输入,而非叶结点中存储的是中间向量,对应于神经网络中隐含层的参数,与输入一起决定分类结果;(6)训练中间向量和词向量,例如,在训练过程中,模型会赋予这些抽象的中间结点一个合适的向量,这个向量代表了它对应的所有子结点,对于cbow模型,首先将中心词附近的多个词的词向量相加作为系统的输入,并且按照中心词在前述步骤中生成的二进制码一步步的进行分类并按照分类结果训练中间向量和词向量。

在一些情况下,语音内容分析装置可以确定所述短句的词向量的均值为所述短句的句向量。当然,语音内容分析装置也可以将所述短句的所有词向量串起来作为句向量。

在一些实施例中,语音内容分析装置获取句向量可以进一步包括对所述原始文本进行预处理。所述预处理包括对原始文本的词汇进行分析并删除不必要的词汇。作为示例,语音内容分析装置可以删除所述原始文本中的语气词、停用词和乱码中的至少一个。

所述语气词为表示语气的虚词,例如,了、么、呢、吧、啊。所述停用词表示在信息处理过程中自动忽略某些字或词,其可以根据信息处理目的进行筛选。例如,对于产品访谈,所述停用词可以指关键词提取结果中和实际需求不相符的词组。所述乱码是指语音识别中无法识别的部分。语音内容分析装置可以基于事先构建的语气词表、停用词表,删除原始文本中的语气词、停用词。

在830中,语音内容分析装置可以将所述文本数据输入训练好的情感分析模型,所述训练好的情感分析模型包括训练好的情感提取模型和训练好的情感分类模型。

所述训练好的情感提取模型可以提取极性情感文本数据,所述训练好的情感分类模型可以对极性情感文本数据进行分类。所述训练好的情感提取模型和所述训练好的情感分类模型均由初始模型训练得到,具体训练过程如下。

对于训练好的情感提取模型,语音内容分析装置可以通过以下步骤获取:

步骤一,获取标注好的训练数据。所述标注好的训练数据包括被标注了的中性情感文本数据和非中性情感文本数据。

这里的中性情感文本数据,是指所述文本数据表达的感情是中性的,例如“我觉得第一个方面来说”、“一般”。所述非中性情感文本数据,又称为极性情感数据,包括正向情感文本数据和负向文本情感数据,是指所述文本数据表达的感情相对于中性情感较为浓烈。例如,正向情感文本数据可以包括“喜欢”、“它可以在一定程度上给我带来一些便利”、“这个设计节约了很多时间”。又例如,负向情感文数据可以包括“其实我是不会通过他来做的”、“这种颜色让人不舒服”、“没有人会选择这种方式”。当然,也可以采用其他分类标准对情感进行分类,该分类及适应于该分类的情感分析方法仍属于本申请所要保护的范围之内。

在一些情况下,所述标注好的训练数据可以由专家标注,也可以由用户标注。训练数据由专家标注的,标注结果准确度高;训练集由用户标注的,标注结果更加个性化,适用于个人需求。

在一些情况下,所述标注好的训练集是特定领域的文本数据。应当可以理解的是,由该特定领域的文本数据训练得到的情感分类模型可以专门用于该特定领域的语音数据的情感分析。

步骤二,将所述标注好的训练数据输入初始的情感提取模型。所述初始的情感提取模型为初始的神经网络模型,例如textcnn。所述初始的情感提取模型含有多个特征和多个初始参数。

根据情感提取模型的多个特征,可以制作情感提取模型的特征词表。所述特征词表中包含了多个表示极性情感(正向和负向情感)的词汇,例如“喜欢”、“热爱”、“厌恶”、“讨厌”。

步骤三,当所述初始的情感提取模型经过训练后达到收敛条件时,确定所述训练好的情感提取模型。

在训练的过程中,情感提取模型根据所述标注好的训练数据判断其输出结果的优劣,进而不断地调整初始参数,不断地优化结果,直至训练后的情感提取模型达到收敛条件。所述收敛条件可以为损失函数小于第一阈值或者训练周期大于第二阈值,所述第一阈值和第二阈值可以根据经验人工设置。

对于训练好的情感分类模型,语音内容分析装置可以通过以下步骤获取:

步骤一,获取标注好的训练数据。所述标注好的训练数据包括被标注了的正向情感文本数据和负向情感文本数据。

在一些情况下,所述标注好的训练数据可以由专家标注,也可以由用户标注。训练数据由专家标注的,标注结果准确度高;训练集由用户标注的,标注结果更加个性化,适用于个人需求。

在一些情况下,所述标注好的训练集是特定领域的文本数据。应当可以理解的是,由该特定领域的文本数据训练得到的情感分类模型可以专门用于该特定领域的语音数据的情感分析。

步骤二,将所述标注好的训练数据输入初始的情感分类模型进行训练。所述初始的情感分类模型为初始的神经网络模型,例如textcnn。所述初始的情感提取模型含有多个特征和多个初始参数。

根据情感提取模型的多个特征,可以制作情感提取模型的特征词表。所述特征词表中包含了多个表示极性情感(正向和负向情感)的词汇,例如“喜欢”、“热爱”、“厌恶”、“讨厌”。

步骤三,当所述初始的情感分类模型经过训练后达到收敛条件时,确定所述训练好的情感分类模型。

在训练的过程中,情感分类模型根据所述标注好的训练数据判断其输出结果的优劣,进而不断地调整初始参数,不断地优化结果,直至训练后的情感分类模型达到收敛条件。所述收敛条件可以为损失函数小于第一阈值或者训练周期大于第二阈值,所述第一阈值和第二阈值可以根据经验人工设置。

在840中,语音内容分析装置可以通过所述训练好的情感提取模型将所述文本数据分为极性情感文本数据和中性情感文本数据。

具体地,语音内容分析装置可以通过训练好的情感提取模型对极性情感文本数据和中性情感文本数据进行不同的标注,进而将两者分类。作为示例,情感提取模型可以将极性情感文本数据标注为(即非2),将中性情感文本数据标记为“2”。下方列举了情感提取模型的示例性输出结果:

它可以在一定程度上给我带来一些便利”;

其实我是不会通过他来做的”;

“2我觉得第一个方面来说”。

在一些实施例中,语音内容分析模型确定的中性情感文本数据可以用于分析所述文本数据(步骤820)中相关的用户需求。例如,上述语音数据为产品访谈录音,访谈的对象是用户,访谈的内容是该用户对产品的看法。此时,该用户的需求即为所述文本数据中相关的用户需求。利用中性情感文本数据分析用户需求的描述,可以参考本申请中其他相关的描述。

在850中,语音内容分析装置可以通过所述训练好的情感分类模型将所述极性情感文本数据分为正向情感文本数据和负向情感文本数据。

具体地,语音内容分析装置可以通过训练好的情感分类模型对正向情感文本数据和负向情感文本数据进行不同的标注,进而将两者分类。作为示例,情感分类模型可以将正向情感文本数据标注为“1”,将负向情感文本数据标记为“0”。下方列举了情感分类模型的示例性输出结果:

“1它可以在一定程度上给我带来一些便利”;

“0其实我是不会通过他来做的”。

在860中,语音内容分析装置可以根据所述正向情感文本数据和所述负向情感文本数据得到情感分析结果。

在一些实施例中,将上述语音数据中每个句子中的每个短句经过分类后,语音内容分析装置可以根据正向情感文本数据和负向情感文本数据的比例,确定情感分析结果。作为示例,正向情感文本数据占所有语音数据(即,其对应的文本数据)的比例为65%,负向情感文本数据占所有语音数据(即,其对应的文本数据)的比例为10%,中性情感文本数据占所有语音数据(即,其对应的文本数据)的比例为25%。那么,语音内容分析装置可以得出语音数据的情感倾向为正向。

在一些实施例中,语音内容分析装置可以分别对正向情感文本数据和负向情感文本数据的具体内容进行分析,从而确定情感分析结果。作为示例,语音内容分析装置对产品访谈的语音数据进行分析,得到正向情感文本数据和负向情感文本数据。语音内容分析装置可以进一步对该正向情感文本数据分析得到产品的优点,对该负向情感文本数据分析得到产品的缺点。所述产品的优点和缺点可以作为情感分析结果。

在一些实施例中,所述语音内容分析方法可以进一步包括:确定所述语音数据的内容所属的领域,并根据所述语音数据的内容所属的领域确定并调取上述训练好的情感分析模型(例如,训练好的情感提取模型、训练好的情感分类模型)。

例如,语音内容分析装置可以根据文本数据确定对应的语音数据的内容所属的领域。作为示例,语音内容分析装置可以对文本数据提取关键词,根据关键词确定文本数据对应的语音数据的内容所属的领域,比如家用电器、体育。

再例如,语音内容分析装置可以接收用户输入确定语音数据的内容所属的领域。所述用户输入包括所述语音数据的内容所属的领域。

在一些实施例中,可以将经预处理后的语料先输入需求判断模型以获得需求类语料和非需求类语料,随后再将非需求类语料输入情感分类模型以获得极性语料和中性语料,最后将极性语料再次分类为正面语料和负面语料。在上述实施例中,在获得非需求类语料之后,可以将非需求语料及其副本分别输入情感分类模型和可用性分类模型,从而从情感分类模型以获得极性语料和中性语料并从可用性分类模型获得可用性语料和非可用性语料。

在一些实施例中,可以将经预处理后的语料先输入情感分类模型以获得极性语料和中性语料,然后将中性语料输入需求判断模型以获得需求类语料和非需求类语料。在上述实施例中,在获得非需求类语料之后,可以将非需求语料输入可用性分类模型,获得可用性语料和非可用性语料。

在一些实施例中,可以将经预处理后的语料及其副本分别输入需求判断模型和情感分类模型,以从需求判断模型获得需求类语料和非需求类语料,并从情感分类模型以获得极性语料和中性语料,最后将极性语料再次分类为正面语料和负面语料。

在一些实施例中,可以将经预处理后的语料及其副本分别输入需求判断模型和可用性分类模型,以从需求判断模型获得需求类语料和非需求类语料,并从可用性分类模型以获得可用性语料和非可用性语料,随后再将非需求类语料输入情感分类模型以获得极性语料和中性语料,最后将极性语料再次分类为正面语料和负面语料。

在一些实施例中,可以将经预处理后的语料及其副本分别输入情感分类模型和可用性分类模型,以从情感分类模型获得极性语料和中性语料,并从可用性分类模型以获得可用性语料和非可用性语料,随后再将中性语料输入需求判断模型以获得需求类语料和非需求类语料。在上述实施例中,可以将非可用性语料输入需求判断模型。在上述实施例中,可以将非可用性语料和中性语料合并输入需求判断模型。

在一些实施例中,可以将经预处理后的语料及其第一副本和第二副本分别输入需求判断模型、情感分类模型和可用性分类模型,以从需求判断模型获得需求类语料和非需求类语料,从情感分类模型获得极性语料和中性语料,并从可用性分类模型以获得可用性语料和非可用性语料。

在一些实施例中,极性语料中既可以包含用户对产品的极性情感信息,也可以包含用户对产品之外的其他方面的极性情感信息,而可用性语料中也可以分析出用户对产品的极性情感信息。在一些实施例中,可以通过将可用性语料与极性语料求并集来提取极性语料中与产品无关的极性情感信息。在一些实施例中,可以将正面语料和负面语料分别输入可用性分类模型,以从中分别筛选出正面可用性语料和负面可用性语料。在一些实施例中,非需求类信息也被标记为中性语料。

在一些实施例中,可以通过构建和/或训练需求分析模型的方法来构建和/或训练情感分析模型和/或可用性判断模型。在一些实施例中,可以通过构建和/或训练可用性判断模型的方法来构建和/或训练情感分析模型和/或需求判断模型。在一些实施例中,可以通过构建和/或训练情感分析模型的方法来构建和/或训练可用性判断模型和/或需求判断模型。

下面参照图12-17对本申请实施例的语句聚类方法进行详细说明。

图12是根据本申请的一个实施例的语义单元聚类方法的流程图。在该实施例中,本申请的生成访谈报告的方法可以通过装载在终端设备上的app实现,语义单元聚类方法的实现可以由终端设备的处理器来实现。该方法可以存储在存储器中,终端设备在接收到生成访谈报告的触发指令时执行该方法。

如图12所示,语义单元聚类方法包括步骤2000:获取多个语义单元。语义可以是通过语言的各级单位和这些单位的组合所表达出来的意义,换句话说,语义是通过语言的语素、词、词组、句子、句群所表达出来的。在本申请中,语义单元不仅可以是语素、词、词组、句子、句群,还可以是字母、数字、符号、动作等能够根据需要而被配置为具备特定语义或使人产生对特定语义的联想的任何对象,也可以是上述一项或多项的任意组合。在一些实施例中,语义单元选自任何形式的语料库,例如,音频语料、文本语料、视频语料、以计算机语言表达的语料等。在一些实施例中,语义单元可以来自前文描述的访谈报告的音频和/或文字稿。在一些实施例中,语义单元可以包含一个或多个用户感兴趣的关键词。在一些实施例中,语义单元可以是包含用户需求的语素、词、词组、句子、句群、字母、数字、符号、动作等,在这种情况下,例如,一个语义单位可以是一句话“我想要一部手机”,也可以是一个词“手机”。在一些实施例中,语义单元可以是包含了情感极性的的语素、词、词组、句子、句群、字母、数字、符号、动作等,其中情感的极性(诸如,正向、负向)表示用户对某一对象的喜好程度,在这种情况下,例如,一个语义单位可以是一句话“我喜欢触屏手机”。在一些实施方式中,语义单元可以是已经在情感分析模型处进行完情感极性分类的一个或多个词或句子。在一些实施方式中,语义单元可以是已经在需求分析模型处进行完需求分类的一个或多个词或句子。在一些实施例中,进行聚类的语料可以是经由情感分类模型分类为正向情感的语料集合。在一些实施例中,进行聚类的语料可以是经由情感极性分析模型分类为负向情感的语料集合。在一些实施例中,进行聚类的语料可以是经由情感极性分析模型分类为中性情感的语料集合。在一些实施例中,进行聚类的语料可以是经由可用性分类模型分类为可用性评价的语料集合。在一些实施例中,进行聚类的语料可以是经过需求判断模块判断为非可用性评价的语料集合。在一些实施例中,进行聚类的语料可以是经过需求判断模块判断为需求的语料集合。在一些实施例中,进行聚类的语料可以是经过需求判断模块判断为非需求的语料集合。在一些实施例中,进行聚类的语料可以是前面提到的语料集合中的一个或多个的组合。在一些实施例中,进行聚类的语料可以经过预处理,诸如,关键词识别、关键词提取,非关键词去除、标点识别等。

如图12所示,语义单元聚类方法还包括步骤4000:基于所述多个语义单元确定一个或多个聚类中心。将物理或抽象对象的集合分成由相似的对象组成的多个类的过程被称为聚类。由聚类操作所生成的聚类(或簇)是一组数据对象的集合,这些对象与同一个聚类中的对象彼此相似,与其他聚类中的对象相异。聚类中心是聚类中最重要的一个对象,其最能代表该簇且最能够解释该聚类中其他对象。例如,聚类中心句在一定程度上表达了本次访谈的主题或核心思想。在一些实施例中,一个聚类只有一个聚类中心。在一些实施例中,聚类中心可以是从多个语义单元中选出的一个或多个语义单元,每个聚类中心在计算其与所述多个语义单元中的其他语义单元之间的相似度时作为参考对象,换句话说,在该相似度计算过程中,所述参考对象需要与其他语义单元之间的每一个进行一次相似度的计算。

在一些实施例中,基于多个语义单元确定一个或多个聚类中心的步骤4000包括:通过ap算法从多个语义单元中确定一个或多个聚类中心。ap(affinitypropagation)方法又称为亲和度传播算法,其中在任何时间点,每个信息的大小都反映了当前一个数据点选择另一个数据点作为它的聚类中心的亲和度。在ap算法中,所有数据点都作为潜在的聚类中心(又称为簇中心),并且数据点两两之间连线构成一个网络,每个数据点都被视为一个网络节点。ap算法通过网络中各条边的消息(即吸引度和归属度)传递计算出各样本的聚类中心,其中,吸引度指第一数据点适合作为第二数据点的聚类中心的程度,归属度指第二数据点选择第一数据点作为其聚类中心的适合程度。换句话说,ap算法通过沿着网络边缘递归地即传输信息直到出现一组好的簇中心和产生相应的聚类。

在一些实施例中,基于多个语义单元确定一个或多个聚类中心的步骤4000包括:将所述多个语义单元中的每一个都确定为聚类中心。

在一些实施例中,基于多个语义单元确定一个或多个聚类中心的步骤4000包括:基于多个语义单元两两之间的相似度从多个语义单元中确定一个或多个聚类中心。如前所述,聚类指的是把相似的对象(诸如,具有相似语义的语义单元)通过静态分类的方法分成不同的组别或者更多的子集,使得同一个组别或子集中的成员对象都具有一定相似度。在一些实施例中,相似度指的是两个不同语义单元相似的程度,其可以表现为这两个不同语义单元各自的数学表征之间的距离,诸如,欧式距离、曼哈顿距离、无穷范数距离、马氏距离、余弦距离、汉明距离等。例如,可以通过hanlp(hanlanguageprocessing)套件来计算两个语义单元之间的相似度,其中hanlp是一系列模型与算法组成的java工具包,用于普及自然语言处理在生产环境中的应用。

图13是根据本申请的一个实施例的基于多个语义单元两两之间的相似度确定一个或多个聚类中心的流程图。

如图13所示,基于所述多个语义单元两两之间的相似度确定一个或多个聚类中心包括步骤4200:依次选取多个语义单元中的每一个作为候选语义单元。

如图13所示,基于所述多个语义单元两两之间的相似度确定一个或多个聚类中心还包括步骤4400:对每个候选语义单元:分别计算所述每个候选语义单元与所述多个语义单元中的剩余语义单元中的每一个之间的相似度,并且如果在所述剩余语义单元中存在至少一个相似度高于预定阈值的语义单元,则将所述每个候选语义单元确定为聚类中心。

图14是根据本申请的一个实施例的分别计算每个候选语义单元与多个语义单元中的剩余语义单元中的每一个之间的相似度的流程图。

如图14所示,分别计算每个候选语义单元与多个语义单元中的剩余语义单元中的每一个之间的相似度包括步骤4420:计算每个候选语义单元的候选语义向量。语义向量可以是一个语义单元的向量表示。在一些实施例中,语义向量可以是数字向量、符号向量、字母向量、字向量、词向量、单词向量、句向量、段向量等。在一些实施例中,词向量可以基于一个或多个字向量计算获得。在一些实施例中,句向量可以基于一个或多个词向量计算获得。在一些实施例中,段向量可以基于一个或多个句向量计算获得。在一些实施方式中,对于同一个语义单元,可以在情感分析模型和需求分析模型处使用相同的语义向量。在一些实施方式中,对于同一个语义单元,可以在情感分析模型和需求分析模型处使用不同的语义向量。在一些实施方式中,对于同一个语义单元,可以在情感分析模型和聚类模型处使用相同的语义向量。在一些实施方式中,对于同一个语义单元,可以在需求分析模型和聚类模型处使用相同的语义向量。在一些实施方式中,对于同一个语义单元,可以在情感分析模型、需求分析模型和聚类模型处使用相同的语义向量。在一些实施例中,语义向量随机指定。在一些实施例中,语义向量中的每一个元素都代表该语义单元在某一个感兴趣方面上的关联度或权值。

图15是根据本申请的一个实施例的计算每个候选语义单元的候选语义向量的流程图。

如图15所示,计算每个候选语义单元的候选语义向量包括步骤4441:获取特征语义单元表,其中所述特征语义单元表包括一个或多个特征语义单元。在一些实施例中,特征语义单元可以是表示情感极性的字母、数字、符号、词语、句子、段落、文章等。在一些实施例中,特征语义单元也可以代表对象的某个客观属性的语素、词、词组、句子、句群、字母、数字、符号、动作等。在一些实施例中,特征语义单元代表用户所需求的对象的语素、词、词组、句子、句群、字母、数字、符号、动作等。在一些实施例中,特征语义单元可以从专家标注词库中选择,也可以根据需求自定义。

如图15所示,计算每个候选语义单元的候选语义向量包括步骤4442:分别确定所述每个候选语义单元与每个特征语义单元的关联度。在一些实施例中,关联度可以是该语义单元关于某个特征语义单元所表达出的情感极性的程度。在一些实施例中,关联度可以是该语义单元关于某个特征语义单元所表达出的需求程度。在一些实施例中,所述关联度与每个特征语义单元在所述每个候选语义单元中出现的频率成正比。

如图15所示,计算每个候选语义单元的候选语义向量包括步骤4443:通过所述每个候选语义单元与每个特征语义单元的关联度生成所述候选语义向量。在一些实施例中,关联度可以与每个特征语义单元在候选语义单元中出现的频率成正比。在一些实施例中,关联度可以与候选语义单元中对特征语义单元进行修饰的定语的语气强弱成正比。以获取用户对颜色喜好的情景举例,假设用户感兴趣的特征语义单元表或特征语义单元典包括关键词“红色”、“橙色”、“黄色”、“绿色”、“蓝色”、“白色”、“黑色”,对于语义单元“我不是很喜欢蓝色,我比较喜欢白色,但我最喜欢的是黑色”,可以分析出用户对“黑色”、“白色”持肯定态度,对“蓝色”持否定态度,对其他颜色没有表态,并且喜欢“黑色”多于“白色”。在计算语义向量时,可以对肯定态度赋予正权值、对否定态度赋予负权值,未知态度的赋予0,同时以不同的权值大小来表示不同喜欢的程度。基于上述原理,如果向量的定义是按照如下顺序:{“红色”,“橙色”,“黄色”,“绿色”,“蓝色”,“白色”,“黑色”},可以得到,该语义单元的语义向量[0,0,0,0,-0.5、0.5、1]。在一些实施例中,特征语义单元表里的关键词的选择、权值的数值范围、以及权值与关键词的对应规则可以根据实际需求变化。在一些实施例中,可用性分析模型所需的句向量可以使用上述方法产生。在一些实施例中,需求判断模型所需的句向量可以使用上述方法产生。在一些实施例中,情感分析模型所需的句向量可以使用上述方法产生。

图16示出了根据本申请的另一个实施例的计算每个候选语义单元的候选语义向量的流程图。

如图16所示,计算每个候选语义单元的候选语义向量包括步骤4445:为所述每个候选语义单元分配身份向量。在一些实施例中,可以为每个语义单元(例如,句子)赋予唯一的段id(paragraphid)。普通的词语一样,段id也是先被映射成一个段向量((paragraphvector)),该段向量与词向量的维数虽一样,但是来自于两个不同的向量空间。在一个句子或者文档的训练过程中,段id保持不变,相当于每次在预测词语的概率时,都利用了整个句子的语义。在预测阶段,给待预测的句子新分配一个段id,词向量和参数保持训练阶段得到的参数不变,待收敛后,即得到待预测句子的段向量。

如图16所示,计算每个候选语义单元的候选语义向量包括步骤4446:为所述每个候选语义单元中的一个或多个子语义单元中的每一个分配子语义单元向量。在一些实施例中,每个候选语义单元包括多个子语义单元,所述多个子语义单元中的一部分或全部被分配有对应的向量(称为子语义单元向量)。在一些实施例中,候选语义单元是句子,子语义单元是该句子所包含的词,子语义单元向量为词向量。在一些实施例中,词向量是在模型的训练过程中产生的,是模型的一个参数,训练开始的时候,词向量是个随机值,随着训练的进行不断被更新。在一些实施例中,可以通过one-hot编码为每个子语义单元赋予向量。

如图16所示,计算每个候选语义单元的候选语义向量包括步骤4447:将所述身份和所有子语义单元向量一起输入预定的预测模型以输出目标向量。在一些实施例中,可以将句子中所有词的向量取均值作为句子的向量表示。

在一些实施例中,情感分析模型和/或聚类中所需的词向量使用word2vec语言模型产生。在一些实施例中,可用性分析模型所需的句向量使用word2vec产生。在一些实施例中,需求分析模型使用word2vec语言模型产生。语言模型就是指对自然语言进行假设和建模,使得能够用计算机能够理解的方式来表达自然语言,其核心依然是上下文的表示以及上下文与目标词之间的关系的建模。word2vec采用的是n元语法模型(n-grammodel),即假设一个词只与周围n个词有关,而与文本中的其他词无关。word2vec利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。word2vec得到的词的向量形式则可以自由控制维度。word2vec是基于词的维度进行语义分析,得到词向量后,需要在词基础之上获得句向量,而具有上下文的语义分析能力。word2vec模型的大致流程包括(1)分词/词干提取和词形还原,例如,对于中文语料,需要进行分词,而对于英文语料,则不需要分词,但是由于英文涉及各种时态,所以要对其进行词干提取和词形还原;(2)构造词典和统计词频,例如,在这一步中,需要遍历一遍所有文本,找出所有出现过的词,并统计各词的出现频率;(3)构造树形结构,例如,依照各词的出现概率构造霍夫曼(huffman)树,使得所有分类都处于叶节点;(4)生成节点所在的二进制码,其中二进制码反映了节点在树中的位置,从而能按照编码从根节点一步步找到对应的叶节点;(5)初始化各非叶节点的中间向量和叶节点中的词向量,例如,霍夫曼树中的各个节点都存储着一个长为m的向量,但叶节点和非叶结点中的向量的含义不同,具体地,叶节点中存储的是各词的词向量,是作为神经网络的输入,而非叶结点中存储的是中间向量,对应于神经网络中隐含层的参数,与输入一起决定分类结果;(6)训练中间向量和词向量,例如,在训练过程中,模型会赋予这些抽象的中间结点一个合适的向量,这个向量代表了它对应的所有子结点,对于cbow模型,首先将中心词附近的多个词的词向量相加作为系统的输入,并且按照中心词在前述步骤中生成的二进制码一步步的进行分类并按照分类结果训练中间向量和词向量。在一些实施例中,用于情感分析中的word2vec模型由用户自己训练,而在聚类中使用hanlp工具包自带的word2vec模型。在一些实施例中,用于情感分析中的word2vec模型和在聚类中使用的word2vec模型均来自hanlp工具包。在一些实施例中,用于情感分析中的word2vec模型和在聚类中使用的word2vec模型均由用户自己训练。在一些实施例中,可以通过将所述身份和所有子语义单元向量一起输入连续词袋(continuousbag-of-words(cbow))模型来输出目标向量。例如,cbow模型的输入是句子的中心词周围的n个单词的词向量之和,输出是中心词本身的词向量,其中n为大于1的整数。例如,在一些实施例中,可以通过将所述身份和所有子语义单元向量一起输入skip-gram模型来输出目标向量。例如,skip-gram模型的输入是句子的中心词本身,输出是中心词周围的n个单词的词向量。在一些实施例中,目标向量是词向量。在一些实施例中,词向量可通过word2vec工具来计算和训练。

在一些实施例中,情感分析模型和/或聚类中所需的句向量均使用doc2vec产生。在一些实施例中,可用性分析模型所需的句向量使用doc2vec产生。在一些实施例中,需求分析模型使用doc2vec语言模型产生。doc2vec有两种模型,分别为分布式存储器(distributedmemory(dm))模型和分布式词袋(distributedbagofwords(dbow))模型,其中dm模型在给定上下文和文档向量的情况下预测单词的概率,dbow模型在给定文档向量的情况下预测文档中一组随机单词的概率。在一些实施例中,可以通过将所述身份和所有子语义单元向量一起输入dbow模型来输出目标向量。在一些实施例中,可以通过将所述身份和所有子语义单元向量一起输入dm模型来输出目标向量。在一些实施例中,目标向量是句向量。在一些实施例中,句向量可通过doc2vec工具来计算和训练。

如图16所示,计算每个候选语义单元的候选语义向量包括步骤4448:将目标向量指定为所述候选语义向量。

如图14所示,分别计算每个候选语义单元与多个语义单元中的剩余语义单元中的每一个之间的相似度还包括步骤4440:分别计算所述每个候选语义单元的候选语义向量与所述剩余语义单元中的每一个的语义向量之间的相似度。在一些实施例中,语义向量的相似度可以通过语义向量之间的余弦距离或余弦相似性来表征。在一些实施例中,余弦相似性的预定阈值可以为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9。在一些实施例中,语义向量的相似度可以通过hanlp套件来计算。

如图12所示,语义单元聚类方法还包括步骤6000:对所述一个或多个聚类中心进行排序。在一些实施例中,对所述一个或多个聚类中心进行排序包括分别计算所述一个或多个聚类中心中的每一个所对应的语义单元与所述多个语义单元中的剩余语义单元中的每一个的相似度以及基于相似度高于预定阈值的语义单元的数量对所有聚类中心进行排序。在一些实施例中,分别计算所述一个或多个聚类中心中的每一个所对应的语义单元的语义向量与所述多个语义单元中的剩余语义单元中的每一个的的语义向量之间的相似度。在一些实施例中,分别计算所述一个或多个聚类中心中的每一个所对应的句子的句向量与其他句子中的每一个的句向量之间的相似度,并基于聚类所包含的相似度的高于预定阈值的句子数量来对聚类中心进行排序。在一些实施例中,在关于不同聚类中心的计算中,可以采用不同的预定阈值。在一些实施例中,在聚类中心的排序步骤中使用的预定阈值可以与在确定聚类中心的步骤中使用的预定阈值不同。在一些实施例中,可以在每计算一个语义单元与剩余语义单元中的每一个之间的相似度之后,对聚类中心的排序进行一次更新。在一些实施例中,可以在每确定或找到一个聚类之后,就将该聚类所具备的相似度高于预定阈值的语义单元的数量与之前的聚类所具备的相似度高于预定阈值的语义单元的数量进行比较,并基于比较结果对聚类中心的排序进行一次更新。例如,如果新产生的聚类具有更多的语义单元数量,则将新产生的聚类的重要程度或优先级排到之前的聚类的前面。在一些实施例中,可以在计算出聚类中心之后,输出与其相对应的语义单元的文本。在一些实施例中,仅输出与排名第一的聚类中心相对应的语义单元的文本。

图17是根据本申请的一个实施例的语义单元聚类装置的示意图。如图14所示,语义单元聚类装置包括语义单元获取组件7000、聚类中心确定组件8000、排序组件9000。

在一些实施例中,语义单元获取组件7000被配置为获取多个语义单元。在一些实施例中,聚类中心确定组件8000被配置为基于所述多个语义单元确定一个或多个聚类中心。在一些实施例中,排序组件9000被配置为对所述一个或多个聚类中心进行排序。在一些实施例中,排序组件9000是可选的。

在一些实施例中,聚类中心确定组件包括聚类中心确定模块。在一些实施例中,聚类中心确定模块被配置为通过ap聚类算法从所述多个语义单元中确定所述一个或多个聚类中心。在一些实施例中,聚类中心确定模块被配置为将所述多个语义单元中的每一个都确定为聚类中心。在一些实施例中,聚类中心确定模块被配置为基于所述多个语义单元两两之间的相似度从所述多个语义单元中确定所述一个或多个聚类中心。

在一些实施例中,聚类中心确定模块进一步包括候选语义单元选取模块、相似度计算模块和聚类中心确定模块,其中,候选语义单元选取模块被配置为依次选取所述多个语义单元中的每一个作为候选语义单元,相似度计算模块被配置为对每个候选语义单元,分别计算所述每个候选语义单元与所述多个语义单元中的剩余语义单元中的每一个之间的相似度,聚类中心确定模块被配置为在在所述剩余语义单元中存在至少一个相似度高于预定阈值的语义单元时将所述每个候选语义单元确定为聚类中心。

在一些实施例中,相似度计算模块进一步包括候选语义向量计算模块和语义向量相似度计算模块,其中候选语义向量计算模块被配置为计算所述每个候选语义单元的候选语义向量,语义向量相似度计算模块被配置为分别计算所述每个候选语义单元的候选语义向量与所述剩余语义单元中的每一个的语义向量之间的相似度。

在一些实施例中,候选语义向量计算模块包括特征语义单元获取模块、关联度确定模块和候选语义向量生成模块,其中,特征语义单元获取模块被配置为获取特征语义单元表,其中所述特征语义单元表包括一个或多个特征语义单元;关联度确定模块被配置为分别确定所述每个候选语义单元与每个特征语义单元的关联度,候选语义向量生成模块被配置为通过所述每个候选语义单元与每个特征语义单元的关联度生成所述候选语义向量。在一些实施例中,所述关联度与每个特征语义单元在所述每个候选语义单元中出现的频率成正比。

在一些实施例中,候选语义向量计算模块包括身份向量分配模块、子语义单元向量分配模块、目标向量计算模块、候选语义向量指定模块,其中,身份向量分配模块被配置为为所述每个候选语义单元分配身份向量,子语义单元向量分配模块被配置为为所述每个候选语义单元中的一个或多个子语义单元中的每一个分配子语义单元向量,目标向量计算模块被配置为将所述身份向量和所有子语义单元向量一起输入预定的预测模型以输出目标向量,候选语义向量指定模块被配置为将所述目标向量指定为所述候选语义向量。在一些实施例中,身份向量分配模块是可选的。在不存在身份向量分配模块的实施例(例如,目标向量为词向量时)中,目标向量计算模块被配置为仅将所有子语义单元向量输入预定的预测模型以输出目标向量。在存在身份向量分配模块的实施例(例如,目标向量为句向量时)中,目标向量计算模块可以被配置为将身份向量和所有子语义单元向量输入预定的预测模型以输出目标向量。

在一些实施例中,排序部件9000进一步包括相似度计算模块和聚类中心排序模块,其中相似度计算模块被配置为分别计算所述一个或多个聚类中心中的每一个所对应的语义单元与所述多个语义单元中的剩余语义单元中的每一个的相似度,聚类中心排序模块被配置为基于相似度高于预定阈值的语义单元的数量对所有聚类中心进行排序。在一些实施例中,相似度计算模块还被配置为分别计算所述一个或多个聚类中心中的每一个所对应的语义单元的语义向量与所述多个语义单元中的剩余语义单元中的每一个的语义向量之间的相似度。

本申请还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质中包括程序,所述程序在被处理器执行时执行根据前面描述的语义单元聚类方法。

概括来说,本申请实施例的生成访谈报告的方法,基于神经网络可以实现对访谈语料的自主式地一键生成访谈报告,其中,访谈语料转换为文本数据和对访谈语料的预处理、关键词提取等,都可以通过输入相应的触发指令即可实现,无需手动处理,可以节省访谈分析的时间,并且可以减少所需配备的访谈人员,降低访谈成本。

需要说明的是,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。

尽管已经示出和描述了本申请的实施例,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1