一种可学习的海量信息高维图形交互式展示方法与流程

文档序号:17988576发布日期:2019-06-22 00:36阅读:207来源:国知局
一种可学习的海量信息高维图形交互式展示方法与流程
本发明属于海量信息展示形态的人机交互技术创新,具体涉及了内容与相互关联结构的表示学习和特征提取,自动文本摘要等nlp技术、前端可视化技术,以及基于canvas实现的层级化展示技术。和传统的一维展示形式相比,本发明的高维信息展示方式能提供能丰富的信息和交互。
背景技术
:互联网行业近年来的超高速发展,app横行占满手机桌面;各色pc站点也层出不穷,在网络上组成了一个又一个越来越庞大的系统。这些平台内容涵盖非常广泛,几乎已经触及到了人类生活的所有细节,从购物商品,音乐,书籍,到虚拟任务,信息流,知识产品等等。我们将所有这些待展示的东西,条目、产品、搜索结果等统称为目标(object)。大量目标信息的涌入,导致了用户的信息过载,于是不得不对信息进行筛选和过滤,只选择自身感兴趣的信息。各大平台为了夺取用户的注意力也可以说是绞尽脑汁,尽一切可能把自己产品的信息在展示层面上进行优化。通常情况一个平台下的产品种类繁多,数量庞大,如何用一种适当的方式,恰到好处地去展示这些产品的细节信息,就成为了一个会影响整个平台体验的至关重要的环节。各大平台可以说在产品展示上花足了力气。网易云的推荐列表,花瓣的流体列表,微信的好友列表。这些平台有的在推荐算法上发力,给出为用户个性化定制的内容;有的在列表展示上进行了小创新,让列表不再枯燥无聊;有的奉行极简主义,认为展示越少的信息给用户的负担就越小。可横向比较所有平台,无非都是在一维列表的基础上对展示形式进行改进,并没有实质突破性的改变。相比于一维列表有限的展示空间,在高维的空间中能传达的信息更丰富也更有效。进一步,为了解决在高维空间中产生的信息化负载问题,还需要对信息的展示形式做调整。目的是为了可以将目标的不同细节信息,组织成图形的多尺度特征,动态地予以展示。在展示信息的方式上,相比与传统的文字介绍的形式,本系统利用表示学习技术和自然语言处理技术来抽取目标特征,根据特征重要程度等指标,赋予特征不同权重的方式,来代替传统的文字介绍的形式,向用户全面且精确地展示目标。另外,本发明还是一个基于深度强化学习的自适应系统,能捕捉用户和系统的交互行为,并结合用户的行为数据和待展示的目标本身的固有特征,自动优化展示的图形界面,形成一个无监督的强化学习系统。一些技术可能应用在这个方面,主要包括以下几个技术点:可视化方法:主要使用降维算法,将高维上的向量投影到低维上之后,原本相似的向量在低维空间上也相似。具体来说,便是在高维上相似的点投影到在二维空间后,会表现出聚集的效果。word2vec:woc2vec的定义是使用神经网络将one-hot形式的词向量映射到分布式形式的词向量。它其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。两个词的相似度可以通过这两个词的word2vec向量的余弦距离等进行衡量。聚类算法:基于文本在某个维度空间上投射的点位,对信息进行聚类。增量迭代算法:在实现目标可视化的过程中,不断有新的数据加入,在点之间的聚类关系保持不变的前提下,保证不断加入的新增目标的位置不会对已有的布局产生大幅影响。编码器-解码器架构,将不同的用户行为,和目标特征结合作为输入,使用神经网络模型进行编码转为定制化的可视化的高维图形表示,再使用另一套训练得来的映射模型把可视化图形解码为用户行为指标。技术实现要素:本发明针对目标展示形式的改进,包含了4个创新点。1)高维图形界面首创了大于一个维度的展示信息的方式。本发明从目标特征相似度入手,对目标进行多属性(即特征)量化,并将量化结果通过高维空间嵌入与降维,最终将目标排布于二维或者三维空间上,且使得特征相似的目标在空间中的距离相近。本系统将根据用户的历史交互数据,构建用户与目标之间的二分网络,进而通过网络上的图卷计算法等方法进行目标推荐等行为。进一步的,使用绘图方式,将目标绘制到高维空间的特定位置并展示目标特征,展示的特征包括目标的固有特征(如目标所属领域信息,通过自动关键词提取算法提取出的描述目标特征的重要关键字等),以及受用户行为影响而产生的显示特征(如点击率越高,被点击位置的权重有可能越高)。与传统的列表式展示方式不同,本发明可以形成一种新的在高维空间中的目标展示方法,目标根据其特征的不同将被嵌入至高维空间的不同位置,特征相似的目标被嵌入至相近位置。我们将所有的目标投影到一个高维可视化空间上(可以是二维屏幕或是虚拟现实环境中的三维空间),每个目标(可以是产品,可以是信息,可以是想要使用本系统展示的任何个体)的位置代表了该物体y的某种抽象特征(如相似性高的目标会距离较近,或有路径上下文相关性的目标距离相近等等)。从平台整体角度考虑,这种展示方法提高了页面的展示效率,和过去列表形式的展示方式相比,在有限的空间我们可以展示更多的目标。2)层次化的信息展示其次,我们为用户提供了便捷流畅的切换视角方法。根据用户选取缩放尺度不同控制信息展示数量,使用户可以通过更改缩放尺度来达到观看目标不同尺度的信息。我们还提供了帮助用户理解和控制用户当前所处缩放尺度的位置和范围的方法,使用户可以明确的了解自己当前所处位置。图形界面通过一些交互行为,如放大,缩小,拖拽等操作,可以在不同视角,不同尺度下获取目标信息。而且在用户交互的过程中,会根据当前的尺度,显示目标不同详细程度的信息,全局的视角能获得每个目标的概括信息,局部的视角则可以展示目标的细节、精确的信息。所以也不会造成因为一次性提供的信息太多而导致用户的信息负载。3)信息提取对于某一个目标,我们抛弃了过去使用一段文字来对信息进行描述的方式,而创造性地采取了对信息特征进行精炼提取,并使用提取后的内容展示信息的方式。我们利用自然语言中的关键词提取和自动摘要技术从目标的海量细节描述信息中提炼出关键词或缩略信息。进一步,本系统采用表示学习(representationleaming)的算法思路,耦合了目标的内容信息与用户行为数据(用户的点击流clickstreamdata)得到目标的特征向量。我们为这些提取后的信息分配了不同权重,最终生成目标的描述。当用户看到某一个目标时,对目标的印象会通过一堆提取后的信息迅速建立。4)通过机器学习实现交互界面的优化与迭代此外,本系统还是一个基于机器学习的可学习系统,会根据优化目标自行调整目标的展示特点。如在二维空间中,系统将自行决定目标在空间中的形状、颜色等特征,并使得这种展示方式能够让用户的点击概率最大。本系统还使用用户画像技术,通过对不同用户进行用户画像进而为不同用户提供不同的展示界面。获取用户的行为后,我们通过一系列算法分析和训练目标的高维展示数据,使得它能更好地预测用户行为。最终,本系统将在与用户的交互中不断自我进化,持续提升使用体验。这样,本系统除了分析用户兴趣做推荐之外,还能把分析出来的数据重新反馈给交互界面,并能根据数据结果,发挥高维展示形态的优势,从各个维度自适应调整界面布局,从而形成一个完整的自适应学习系统。本发明提出基于内容与相互关联结构的表示学习、关键词提取技术与可视化技术的高维图形化界面,还涵盖了适用于图形化交互式界面的表示学习算法。具体包括以下步骤:步骤1:信息的特征提取。1.1)利用关键词提取技术提取出目标的关键词特征信息。1.2)将目标的信息特征处理成高维空间的位置表示步骤2:用户数据和用户交互行为数据的特征提取2.1)利用用户填表信息以及关键词提取技术生成用户画像2.2)利用用户行为数据构建点击流网络步骤3:图形界面生成器3.1)利用图卷积技术将文本与用户点击流网络耦合到一起生成每个目标的特征向量3.2)将特征向量进行降维可视化步骤4:添加图形交互4.1)在客户端实现用户和图形界面的交互操作,并捕捉用户的行为数据4.2)根据用户选择的视角、缩放层级来决定目标图形的绘制。步骤5:用户行为预测模型的训练5.1)通过神经网络模型预测在特定图形展示方式下的用户反馈5.2)通过将神经网络模型输出的用户交互序列与实际的用户交互序列进行对比,计算损失函数,提升模型的准确度。步骤6:模型的拟合与调整。6.1)通过反向传播和梯度下降方式完成本步骤对图形界面生成器的优化。有益效果1.高维信息展示。相较于传统的、列表式的商品展示方法,本方法可以将信息展示在多维空间中,且空间中的每一点都有其存在意义。以二维空间为例,对于传统方法而言,二维平面只是作为展示目标的背景而存在。而在本方法中,二维平面的任何位置都代表了目标的特征变化信息。经过信息处理后的目标之所以位于二维平面中的某个位置,是该目标的多个特征共同决定的。因此,特征相似的目标会被置于二维平面上的相近位置,使用户可以在较小范围内完全浏览其感兴趣的目标及其类似目标。又由于目标类别也属于目标的明显特征之一,因此同类别的目标也会被聚集于二维空间中的相近位置,使得用户可以在固定范围内浏览该类别的全部目标。2.特征信息提取。本方法包含对目标的特征提取技术,使得用户在较小尺度观看目标细节时,可以观察到更多目标细节特征信息。例如,将目标关键字通过点云的方式排列在目标四周,且展示关键字数量随用户观察尺度而变化,用户观察尺度越细微,则可以展示越多目标特征信息关键字。3.层次化信息展示。多个视角的方便转化和信息量控制。我们为用户提供了方便流畅的视角转换方法,即通过双指缩放或鼠标滚轮滚动的方式进行视角的连续切换。我们根据用户的视角范围不同而选择为用户提供适量的信息。例如,当用户处于全局视角时,我们为用户提供全局而非细节信息,如目标的类别,不同类别之间的关系等。当用户进行视角变化时,我们根据用户的视角变化,为用户提供适合该视角的信息展示数量。例如,当用户视角更加关注局部时,我们即用户渐进地提供更多的局部信息。5.基于机器学习的自适应系统。本图形界面是一个基于机器学习的系统,将通过机器学习算法,丛用户在本系统内的历史交互数据中学习,并改善本系统的图形界面表现,以达到持续提升用户体验的目的。具体而言,本系统将使用特征工程方法提取目标特征,并由系统根据目标特征自行调整目标的展示特点,此外,本系统还使用用户画像技术,通过对不同用户进行用户画像的刻画,(用户画像的信息来源为用户在本系统内的历史交互信息,如浏览,购买,停留等),进而为不同用户提供不同的展示界面——即不同用户所看到的商品展示位置,大小,目标之间的排列顺序都是不同的,通过用户在本系统内的历史交互信息,使用推荐算法保证该展示界面是对该用户而言最为有好的展示界面。附图说明图1为图形交互系统流程图;图2为文本信息到高维空间表示过程;图3(a)图content’sresemblance为文本相似矩阵,(b)图learning’sresemblance为学习路径转移流网络;图4为课程聚类结果图;图5为力排斥算法结果图;图6为最终系统效果1。具体实施方式下面,我们以展示大量课程,每个课程都有一定的文本描述数据为例,使用本系统方法进行展示,我们希望在二维空间中对多个这样的课程进行展示。下面结合附图对本发明的技术方案进行详细说明。本发明方法的基本流程如图1所示,具体包括以下步骤:步骤1:目标信息(在这里指每一个课程的信息)的特征提取。1.1)提取出目标的关键词(文本)特征信息。本部分通过文本分词技术,tf-idf等技术的使用,提取出文本的关键词特征信息。拿其中一节课《机器学习思维》举例:1.2)将目标的信息特征处理成高维空间的位置表示同时使用词向量(word2vec)技术,使用预训练word2vec模型,将不同关键词映射为高维空间向量,通过对高维空间中的词向量表示进行加权平均,获取到该课程的高维空间位置表示。每一节课程会有一个相同长度的编码,编码的长度是词语向量的维数,课程编码=`某个词语在该课程当中出现的次数*该词语的向量*该词的权重。生成词向量的过程如图2所示。比如说某门课程是,机器学习的简单应用,提取文本特征之后为:机器学习,简单,应用。比如说词表为:所以,当“机器学习”的权重为5,其他所有关键词的权重相同都为1,则“机器学习的简单应用”的编码为:3.72.74.9。之后,便是文本相似矩阵的构造。假设我们有三门课程,课程经过以上的处理之后,编码为:课程编号编码156003025201253082198计算两两文本在关键词向量空间中的夹角相似度,构建文本之间的相似度邻接矩阵,基于相似度邻接矩阵对文本的全局信息在课程数量的高维空间上进行的投射。课程相似矩阵:现在,每个课程的编码变成了:课程编号课程相似度编码110.6690.61320.66910.66730.6130.6671步骤2:用户交互行为数据的特征提取2.1)用户交互行为即为用户在不同课程上的注意力分配即课程间的注意力流动的具象表示。通过用户对不同课程的注意力分配,进一步增大部分课程的权重,即表现为在图形界面上展示该课程的元素大小增大。2.2)而用户注意力流动路径上的相邻课程即表现为增加高维空间中的课程间的吸引力。进而拉近课程间的距离。通过与课程本身在高维空间中的信息进行加权运算,即可获取课程在高维空间中的最终位置信息。具体来说,对于文本相似度和用户学习行为流网络,将两个矩阵拼接在一起,可得到课程在高维上的表示。步骤3:对课程进行聚类在高维空间中,对所有的课程进行聚类。随机预期类别个数个中心点,寻找每个点距离最近的中心点,点的类别既是中心点的类别。再重新计算每个类别的中心点。重复上一个步骤直到中心点的位置不再改变,或者达到最大的迭代次数。输出结果。如图4。步骤4:图形界面生成器的训练训练神经网络,根据用户的行为对步骤1的结果进行调整,对高维空间中的课程进行降维操作,最终目标即是将课程的高维信息降低至2或3维。根据用户的点击,我们能构造用户的学习流网络,将学习的流网络和文本的相似矩阵进行向量拼接。如图3。图3两张图的横纵坐标代表课程序号,图(a)为文本相似矩阵,颜色越浅的地方表示i与j两节课程越相似;图(b)为学习路径转移流网络,颜色越浅表示i和j两节课之间有越多的学习者一并学习了这两节“视频”。利用图卷积技术将文本与用户点击流网络耦合到一起生成每个目标的特征向量。使用t-sne增量算法,在高维的相似度空间向低维的相似度空间转换,最后利用力排斥算法将二维空间上的文本点分隔开,得到最终的二维坐标。如图5。设定已存在文本的低维空间的初始值等于上个版本在低维空间中对应的初始值。在损失函数当中添入新版本的坐标与旧版本的坐标之间偏离。loss=kl(p||q)+i*(y_now-y_last)x是指文本在高维上的向量表示,y为文本在低维上的向量表示,y_now指的是本次降维结果,y_last指的是上一个星空图版本的的降维结果。p是指所有高维向量的一个分布,q表示所有低维的向量的一个分布。kl是一个衡量两种分布的差异性的一个函数。p,q越相似,kl的值越小。i表示的是对于两个版本之间降维结果差异的容忍度,i越小,容忍度越大。算法迭代过程中向着降低损失函数值的方向进行。步骤5:添加图形交互在客户端使用canvas技术绘图。获取所有点位信息,按照类别分别给定颜色,绘制于画布中。为了增强交互性,获得更优的感官体验,对目标增加事件监听。最终实现了:a.拖拽,鼠标滚轮,双指缩放等交互效果。b.在不同层级下显示不同的信息,层级越深,显示信息越详细c.在任何情况下都会为用户提供当前用户视角所处的位置及视角范围信息,例如通过在二维平面绘制小地图以提供上述信息,有助于帮助用户更好的理解和控制视角变化。最终效果如图6。用二维地图的形式显示课程,用户可与系统进行交互,支持点击,缩放,拖拽,搜索等行为。并且在不同视图尺度和不同交互下,展示的课程信息也会有所不同。步骤6:用户行为预测模型的训练6.1)在本步骤内,我们通过神经网络模型预测在特定产品展示方式下的用户反馈,其具体内容是,将产品展示方式和用户特征输入神经网络,并输出该用户在改产品展示方式下最可能的交互序列。6.2)通过将神经网络模型输出的用户交互序列与实际的用户交互序列进行对比,计算损失函数,提升模型的准确度。即可完成对特定产品展示方式的评判和用户驻留时常、用户评价、用户忠诚度等多维度打分。步骤7:模型的拟合与调整通过步骤5中产品展示方式评价模型的打分,进一步优化图形界面生成器。通过反向传播和梯度下降方式完成本步骤对图形界面生成器的优化。使得生成的产品展示方式能够有效提升用户体验,包括对特定维度,如用户驻留时常进行优化或进行综合用户体验的优化。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1