加快计算机运算的数据分析方法及影像辨识系统运作方法

文档序号:6462562阅读:181来源:国知局
专利名称:加快计算机运算的数据分析方法及影像辨识系统运作方法
技术领域
本发明涉及一种加快计算机运算的数字数据分析方法及其应用系统, 特别是涉及一种可以大幅提升计算机分析系统对数据的运算速度的数字数 据分析方法及其推荐系统运作方法及影像辨识系统运作方法。
背景技术
在此信息爆炸时代,许多用于数据分析的计算机分析系统被开发出来 与其应用装置相结合,对欲分析的数据量做有效的分析与运算,而数值分 析方法即是该些计算机分析系统中处理数据的核心所在。然而日益庞大的 数据量却会大大地减緩整体计算机分析系统的运算速度,如无线通讯系统 传输速度的提升大大增加了数据的传输量、影像感光组件中像素的提高大 大增加了影像的数据量、网络的普及带来大量使用者的浏览纪录信息 量......等,因此极需要一种能符合所需而可快速处理该些数据量的数值方
法来对应。
用来处理庞大数据量的分析中,数值分析法被用来处理与分析该些庞
大数据量,在这些数值分析法中,传统的奇异值分解法(Singular Value Decomposition, SVD)是一种可靠的矩阵分解法,常被应用在复杂的数据分 析,特别是多变量的分析。奇异值分解法(SVD)是将一个矩阵对应的行向量 空间(column space)和列向量空间(row space)拆解成两个正交矩阵和一个 对角矩阵的方法。假设X是一个m x n的实数矩阵,X的秩(rank)为r,X被 分解成X二SV7/,其中S和D是正交矩阵,即S和D的行向量长度为l,并 且彼此正交。V是一个对角矩阵,V的非对角线的值都是零。无论X是否 为对称矩阵,X^T—定是对称矩阵。传统上求解奇异值分解法(SVD)就是
先把X自乘为,然后对矩阵求其特征值和特征向量。计算"r所
求得的特征向量所排成的矩阵就是S矩阵,其对应的特征值正好是V的对 角线值的平方。同理,要计算D,就是把X自乘为f X,然后计算fX的特征 向量。所求得的特征向量矩阵就是D。
近年来奇异值分解法(SVD)技术被大量使用在自然语言处理中,最有名 的方法是隐含语意索引法(Latent Semantic Indexing, LSI)简称为LSI。利 用隐含语意索引法(LSI)技术,学者可将文本和关键词做一个对应,并且将 文本以及关键词的数据同时投影在一个维度较小的空间,在此空间中,学者 可以做文本对关键词、文本对文本以及关键词对关键词的比对与分类。在隐含语意索引法(LSI)分析过程中,首先用一个矩阵A来记录文本与字词的 关系,例如,要探讨一百万篇文章和五十万词的关联性,那么这个矩阵中,每 一^f亍对应一篇文章,每一列对应一个词,如下面的式(l)所示
<formula>formula see original document page 5</formula>
在上述的式(l)中,m=l, 000,000, n=500,000。第i行,第j列的元 素,是字典中第j个词在第i篇文章中出现的加权词频。而这个矩阵非常 大,有一百万乘以五十万,即五千亿个元素。假设这个大矩阵有显着的秩 (rank)是100,隐含语意索引法(LSI)的关键技术就是利用奇异值分解法 (SVD)将这种大矩阵分解成三个小矩阵相乘,如图l所示,是传统的分析方 法的一实施例的示意图,把上面例子中的矩阵分解成一个一百万乘以 一百 的矩阵X, 一个一百乘以一百的矩阵B,和一个一百乘以五十万的矩阵Y。这 三个矩阵的元素总数加起来为1.5亿,仅是原来的三千分之一。相应的存储 量和计算量都可小三个数量级以上。在图1中,分解后的第一个X矩阵就是 这一百万篇文章在100维度的潜在语意索引法(LSI)空间的表现,第三个Y 矩阵就是五十万个字词在潜在语意索引法(LSI)空间中的表现,中间的矩阵 的对角线值代表在潜在语意索引法(LSI)空间中每一个轴向的重要性,当同 时把文章和字词投影在潜在语意索引法(LSI)空间中,若某些字词落在文章 的附近(或相同方向),那么这些字词就可以当作这篇文章的关键词。我们 也可以在潜在语意索引法(LS I)空间中比较文章与文章之间的距离,如果两 个文章在潜在语意索引法(LSI)空间中的距离靠近,那么这两个文章的内容 也会比较靠近。同理,也可以比较字词与字词的距离,进而找出有哪些词汇 其实是近义词。此即潜在语意索引法(LSI)在语意学上的基本应用。然而假 设m与n大小相当,传统的奇异值分解法(Singular Value Decomposition, SVD)其计算量即为0(n3),当A为更大型矩阵时,计算机分析系统的运算时间 将会拖长,在实际的应用上便会受到许多的限制。
主成分分析法(Principal Component Analysis, PCA)也是分析多变量 数据一个常用的方法,其主要精神是将数据通过线性转换,使数据成为某 一组正交基底的线性组合,并且此正交的基底顺序,对应原始数据在该基底 展开方向的变异数。配合消息理论的精神,变异数越大的方向,为重要讯息 存在的方向,因此,主成分分析法(PCA)自然地提供依讯息重要性排序的数 据表示法。在许多的应用上,主要的方向(成分)已充分提供所需的讯息。为 此,主成分分析法PCA则成为精简数据,与消除数据噪声的重要工具。奇异值分解法(SVD)与主成分分析法(PCA)的计算精神非常类似,由于 主成分分析法(PCA)是从分解变异数矩阵开始,所以,主成分分析法(PCA)可 视为将行向量调整到质心为零,再^L张量乘积(tensor product)后的矩阵 的奇异值分解法(SVD)。因此,若原始数据是分布再质量中心为零的资料,奇 异值分解法(SVD)分解得到的行向量基底,会与主成分分析法(PCA)分解得 到的基底相同。
另外一种奇异值分解法(SVD)的重要应用技术是在1952年被提出的多
元尺度分析。多元尺度分析(Multidimensional Scaling, MDS)是一种/人对
象与对象相对距离,回推对象与对象相对坐标的方法,此方法主要应用在已 知对象与对象具有相似性或差异性时,如何用一个有效的视觉表示,来呈
现这些对象彼此的关系。因此,多元尺度分析(MDS)常被应用在复杂的数据 分析,特别是多变量分析时,将高维度数据映像到低维度的2D空间或是3D 空间,以方便人类的视觉系统判读。根据维度诅咒定理(Curse of d imens i on),在高维度空间搜寻数据会比低维度空间需要更多的数据量,并 且精准度会比低维度空间搜寻的结果差。因此,降低维度是一个必经的过 程,而多元尺度分析(MDS)在这过程中占据举足轻重的地位。以下所述的多 元尺度分析(MDS)技术过程,已阐明多元尺度分析(MDS)技术与主成分分析 法(PCA)及奇异值分解法(SVD)的密切关系。
上述的多元尺度分析(MDS),假设X是一个p by N的矩阵,亦即有N
个对象,每个对象都由相同的p种不同的变量来描述。令D二;^x为x的 相乘矩阵,i是一个N x l的向量,他的每一个元素都是l。定义
<formula>formula see original document page 6</formula>
式(2)是X平移到中心点的相乘矩阵,亦即X的变异矩阵。B矩阵可一见 为D矩阵做双中心化(double centering)运算后的结果。定义
<formula>formula see original document page 6</formula>
则B可以简化成S二^D//。由于B矩阵是对称矩阵,B的奇异值分解
法(SVD)分解会成为5 = t/Kt/,而 ] 丄
<formula>formula see original document page 6</formula>
a/^"的行向量即为X中心化平移后的坐标。因此,对X矩阵的张量乘 积D做双中心化恰好得到矩阵X的变异矩阵。将变异矩阵做平方拆解,所得 到的矩阵,恰好为X矩阵将行向量平移到质心为零的矩阵。故,多元尺度分 析方法(脂S)的核心技巧就是矩阵的双中心化与平方拆解,其中平方拆解 的过程就是利用奇异值分解法(SVD)的技术。计算后的结果会失去原始数据质心的信息,但是仍旧保留相对位置的关系。由于多元尺度分析(MDS)步骤 中利用到奇异值分解法(SVD)技术,所以其计算复杂度和奇异值分解法 (SVD)相当。传统的多元尺度分析方法(MDS)亦受限于计算量的限制,当对 象的个数增加时,其计算量是以0(N。的速度在增加。因此,当对象个数庞 大时,传统的多元尺度分析(MDS)并无法真正的被使用。
因此,如何改良分析方法,使得在处理庞大的对象个数数据量时,计算 机分析系统运算时间冗长的瓶颈能有效改善,即为本发明的重点。

发明内容
本发明的目的在于,提供一种加快计算机运算的数字数据分析方法及 其推荐系统运作方法及影像辨识系统运作方法,所要解决的技术问题是使 其可以改善现有传统的分析方法(SVD)在分解庞大对象个数时,运算时间冗 长的瓶颈,非常适于实用。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据 本发明提出的 一种加快计算机运算的数字数据分析方法,该分析方法包括 以下步骤(a).输入一第一矩阵的数字数据于一计算机中,其中该第一矩 阵为N乘p矩阵,N为一第一对象个数,p为一变数个数;(b).该计算机中 的一计算单元计算该第一矩阵列向量的一平均向量;(c).该计算单元对该 第一矩阵的行向量作重叠的随机数分群,随机将该N个第一对象拆解成K 个有部分重叠的小群;(d).该计算单元对该些小群的行向量分别计算其变 异矩阵;(e).该计算单元对该些变异矩阵计算其个别的多元尺度分析,(f). 该计算单元分别重组该些多元尺度分析的空间坐标;(g).该计算单元将重 组后的该些多元尺度坐标转换成一主成分分析(PCA)结果;(h).该计算机利 用该主成分分析(PCA)结果及该平均向量输出一完整的矩阵数字数据序。
本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。
前述的加快计算机运算的数字数据分析方法,其中所述的步骤(c)中,其 更包含该些重叠部分为一第二对象个数,且该第二对象个数分别大于该 变数个数p。
前述的加快计算机运算的数字数据分析方法,其中所述的步骤(g)中,其 更包含该计算单元调整该第一矩阵列向量使其平均为0,再利用矩阵正交 化分解(QR分解)使该第一矩阵列向量互相正交计算出 一主成分分析(PCA) 结果。
前述的加快计算机运算的数字数据分析方法,其中所述的步骤(h)中,其 更包含该计算单元合并该主成分分析(PCA)结果与该平均向量形成一新矩 阵;该计^^元利用矩阵正交化分解(QR分解)将该新杀Ef车的列向量正交化,计 算出 一对角矩阵(Dr);该计算单元将该对角矩阵(Dr)乘回该第一矩阵并做行向量的正交化,计算出 一第二矩阵(Sr);该计算单元再将该第二矩阵(Sr) 与该对角矩阵(Dr)分别乘在该第一矩阵的左右两边,计算出一第三矩阵 (Vr);该计算机根据该第二矩阵(Sr)、该第三头卧车(Vr)及该对角矩阵(Dr),输 出 一 完整的矩阵数字数据序。
本发明的目的及解决其技术问题还采用以下技术方案来实现。依据本 发明提出的一种使用上述技术方案(即如权利要求1所述)的加快计算机运 算的数字数据分析方法的推荐系统运作方法,其包括以下步骤(a).输入一 使用者记录信息矩阵于该推荐系统;(b).利用该数字数据分析方法计算潜 在语意索引法(Latent semantic Index, LSI)在低维度空间的展开基底; (c).藉由该展开基底将潜在语意索引法(LSI)空间中的使用者分群;(d).建 立对应于该使用者分群的推荐列表;(e).将一新使用者投影至该潜在语意 索引法(LSI)空间;(f).该推荐系统藉由该新使用者所对应的推荐列表输出 一推荐信息予该新使用者。
本发明的目的及解决其技术问题另外还采用以下技术方案来实现。依 据本发明提出的一种使用上述技术方案的加快计算机运算的数字数据分析 方法的影像辨识系统运作方法,包括以下步骤(a).将撷取的一第一影像与 一第二影像的矩阵数据输入该影像辨识系统;(b).对该第一影像与该第二 影像的矩阵数据个别利用该数字数据分析方法分解;(c).比较该第一影像 与该第二影像的矩阵数据分解后的行向量基底角度与列向量基底角度;(d). 统计该些基底角度是否接近0°或180° ,得到一分析结果;(e).该影像辨 识系统根据该分析结果,若接近0。或180°则判定该第一影像与该第二影 像的来源相同,辨识结果为符合;若为否则判定来源不同,辨识结果为不符 合。
本发明与现有技术相比具有明显的优点和有益效果。由以上技术方案 可知,本发明的主要技术内容如下
为达上述目的,本发明提供一种加快计算机运算的数字数据分析方法 (快速奇异值分解法SVD),该分析方法包含以下步骤(a).输入一第一矩阵 的数字数据于一计算机中,其中该第一矩阵为N乘p矩阵,N为一第一对象 个数,p为一变数个数;(b).该计算机中的一计算单元计算该第一矩阵列向 量的一平均向量;(c),该计算单元对该第 一矩阵的行向量作重叠的随机数 分群,随机将该N个第一对象拆解成K个有部分重叠的小群,该些重叠部分 为一第二对象个数,且该第二对象个数分别大于大于该变数个数p; (d). 该计算单元对该些小群的行向量计算其变异矩阵;(e).该计算单元对该些
变异矩阵计算其个别的多元尺度分析;(f).该计算单元分别重组该些多元 尺度分析的空间坐标;(g).该计算单元调整该第一矩阵列向量使其平均为 O,再利用矩阵正交化分解(QR分解)使该第一矩阵列向量互相正交计算出一主成分分析(PCA)结果;(h).该计算单元合并该主成分分析(PCA)结果与该 平均向量形成一新矩阵;(i).该计算单元调整该第一矩阵列向量使其平均 为0,再利用矩阵正交化分解(QR分解)将该新矩阵的列向量正交化,计算 出 一对角矩阵(Dr); (j).该计算单元将该对角矩阵(Dr)乘回该第 一矩阵并 做行向量的正交化,计算出 一第二矩阵(Sr),再将该第二矩阵(Sr)与该对角 矩阵(Dr)分别乘在该第一矩阵的左右两边,计算出一第三矩阵(Vr); (k).该 计算单元根据该第二矩阵(Sr)、该第三矩阵(Vr)及该对角矩阵(Dr),输出 一完整的矩阵数字数据序。本发明的 一 实施例是使用该分析方法的推荐系统运作方法,其包含以 下步骤(a).输入一使用者记录信息矩阵于该推荐系统;(b).利用该数字数 据分析方法计算潜在语意索引法(LSI)在低维度空间的展开基底;(c).藉由 该展开基底将潜在语意索引法(LSI)空间中的使用者分群;(d).建立对应于 该使用者分群的推荐列表;(e).将一新使用者投影至该潜在语意索引法 (LSI)空间;(f).该推荐系统藉由该新使用者所对应的推荐列表输出一推荐 信息予该新-使用者。本发明的另 一 实施例是使用该分析方法的影像辨识系统运作方法,其 包含以下的步骤(a).将该影像辨识系统撷取的一第一影像与一第二影像 的矩阵数据输入该影像辨识系统;(b).对该第一影像与该第二影像的矩阵 数据个别利用该数字数据分析方法分解;(c).比较该第一影像与该第二影 像的矩阵数据分解后的行向量基底角度与列向量基底角度;(d).统计该些 基底角度是否接近0°或180° ,得到一分析结果;(e)该影像辨识系统根 据该分析结果,若接近0。或180°则判定该第一影像与该第二影像的来源 相同,辨识结果为符合;若否则判定来源不同,辨识结果为不符合。借由上述技术方案,本发明加快计算机运算的数字数据的分析方法及 其推荐系统运作方法及影像辨识系统运作方法至少具有下列优点及有益效 果藉此,多元尺度分析(MDS)虽为奇异值分解法(SVD)的应用,但经过本 发明的阐释,反而能利用改良多元尺度分析(MDS)的方法,改进主成分分析 (PCA)的运算速度,进而改善奇异值分解法(SVD)的运算过程。因此,本发 明的一种加快计算机运算的数字数据分析方法(快速奇异值分解法SVD)使 用矩阵拆解及分群的概念,搭配变异矩阵的分解及列向量平均向量的调整 来最佳化奇异值分解法(SVD),而大幅提升整体计算机分析系统的运算速 度。综上所述,本发明是使用一种加快计算机运算的数字数据分析方法来 改善现有传统的在分解庞大对象个数时运算时间冗长的瓶颈,并且可以处 理任何形式的矩阵而不受对称矩阵的限制。该分析方法使用矩阵拆解及分 群的概念,搭配变异矩阵的分解及列向量平均向量的调整来最佳化,而可大幅提升系统的运算速度。本发明具有上述诸多优点及实用价值,其不论 在方法、产品结构或功能上皆有较大改进,在技术上有显着的进步,并产 生了好用及实用的效果,从而更加适于实用,诚为一新颖、进步、实用的 新设计。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的 技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和 其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细il明如下。


图1是现有传统的分析方法的一实施例的示意图。 图2是本发明的加快计算机运算的数字数据分析方法(快速奇异值分解 法SVD)的流程图。图3是非满秩矩阵的运算速度比较图。 图4是非满秩矩阵的运算精准度比较图。图5是运算满秩矩阵前十个奇异值的奇异值分解法(SVD)所需要的时间 的示意图。图6是本发明的加快计算机运算的数字数据分析方法应用于推荐系统 运作方法的流程图。图7是本发明的加快计算机运算的数字数据分析方法应用于影像辨识 系统运作方法的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功 效,以下结合附图及较佳实施例,对依据本发明提出的数字数据的分析方法 及其推荐系统及影像辨识系统其具体实施方式
、方法、步骤、结构、特征及其功效,详细i兌明如后。有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图 式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式
的说明,当;了解,、然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。以下介绍本发明内容的过程中会多次使用到矩阵正交化分解(QR分解) 的技术,为达到充分揭露的目的,在此简单介绍何为矩阵正交化分解(QR分 解)。矩阵正交化分解(QR分解)是将矩阵的行向量或是列向量做正交化的一 种标准技术,该理论是由Gram-Schmidt所提出。实数矩阵A的矩阵正交化分解(QR分解)是把A分解为A = QR,这里的Q是正交矩阵(意味着QTQ = I),而R是一个对角线以下的值为0的上三角矩阵。本发明是对大量数字数据进行一分析方法,该分析方法是为一快速奇 异值分解法(SVD),用来运算及分析以大幅增进系统效能。首先请参阅图2所示,是本发明的加快计算机运算的数字数据分析方法(快速奇异值分解法 SVD)的流程图。本发明的加快计算机运算的数字数据分析方法,包括以下步 骤(a) .输入一第一矩阵的数字数据于一计算机中,其中该第一矩阵为N 乘p矩阵,N为一第一观测对象个数,p为描述该观测对象的一变量个数;(b) .该计算机中的一计算单元计算该第一矩阵列向量的一平均向量b;(c) .该计算单元对该第一矩阵的行向量作重叠的随机数分群,随机将 该N个第一对象拆解成K个有部分重叠的小群,该些重叠部分为一第二对 象个数,且该第二对象个数最佳为分别大于该变数个数p;(d) .该计算单元对该些小群的行向量分别计算其变异矩阵;(e) .该计算单元对该些变异矩阵计算其个别的多元尺度分析(MDS);(f) .该计算单元分别重组该些多元尺度分析(MDS)的空间坐标;(g) .该计算单元调整该第一矩阵列向量使其平均为O,再利用矩阵正 交化分解(QR分解)使该第一矩阵列向量互相正交计算出一主成分分析(PCA) 结果;(h) .该计算单元合并该主成分分析(PCA)结果与该平均向量形成一新矩阵;(i) .该计算单元利用矩阵正交化分解(QR分解)将该新矩阵的列向量正 交化,计算出一对角矩阵(Dr);(j).该计算单元将该对角矩阵(Dr)乘回该第一矩阵并做行向量的正交 化,计算出一第二矩阵(Sr),再将该第二矩阵(Sr)与该对角矩阵(Dr)分别乘 在该第一矩阵的左右两边,计算出一第三矩阵(Vr);(k).该计算机根据该第二矩阵(Sr)、该第三矩阵(Vr)及该对角矩阵 (Dr),输出 一完整的矩阵数字数据序。上述的步骤(i)是利用矩阵正交化分解(QR分解),计算出合并小群间坐标所需要的转换公式。如,第一小群的多元尺度分析(MDS)坐标为Z,,第二小群的多元尺度分析(MDS)坐标为义2, X,与12是对应的对行向量中心化的坐标矩阵,因此该转换公式为Z^2必^^-2必"(^^)+^^,通过此 公式可以将12的坐标,转换到《的坐标系。依此类推,即可以将每一个 小群的坐标系都转换到第一个坐标系上,进而得到一个完整的坐标。在一般 状况下要连结的两群坐标其表示的维度会相同,假若要连结的两群坐标其表示的维度不同,例如《的维度是r,, A的维度是r2,其中r)<r2,此时 并不是将12的坐标转接到A的坐标,而是由低维度的坐标表示转接到高 维度的坐标表示。这时转换的公式变成^ = 222'、'—e^(^0+w。此时的込只取n个行向量,因此込是一个r2乘r,的矩阵,^是一个r,乘r,的 矩阵,公式仍旧满足一般公式的形式。要串接更多的坐标系统,就依此维 度低的坐标系转接到维度高的坐标系的原则,——将坐标系统串接起来。接着请参阅图3至图5所示,是使用本发明的分析方法-快速奇异值分 解法(SVD)与使用传统奇异值分解法(SVD)的相关模拟比较图。该些图式的 横坐标代表矩阵n x m中的n, ^^拟^使用的矩阵为n=m,大小为100*100的 矩阵到2000*2000的矩阵,做快速奇异值分解法(SVD)与传统奇异值分解法 (SVD)的速度与精准度分析,并分别对满秩(full rank)矩阵和非满秩矩阵 做模拟测试。在非满秩矩阵中,设定以矩阵的秩(rank)是10对应一个矩阵的大小。 接着用随机数产生十六个矩阵大小相同,秩也相同的矩阵,矩阵中每一个 元素都是由
区间的平均分配中取出的随机数。计算奇异值分解法 (SVD)分解所需要的时间以及误差后,再利用这十六个随机数产生的矩阵对 应结果的平均作为图表上的数据。请参阅图3所示,是非满秩矩阵的运算速度比较图,实线表示传统奇 异值分解法(SVD),虚线表示本发明的快速奇异值分解法(SVD)。由图3中可 以明显得知,当矩阵大小变大时,本发明明显的改善了运算速度。请参阅图 4所示,是非满秩矩阵的运算精准度比较图,所呈现的是相对误差,由图4 可得知,相对误差并没有随着矩阵大小的增加而增加,且本分析方法的快 速奇异值分解法(SVD)的运算误差与传统奇异值分解法(SVD)的误差相比并 无太大的差别。请参阅图5所示,是运算满秩矩阵前十个奇异值的传统奇 异值分解法(SVD)所需要的时间,图5显示,本分析方法的快速奇异值分解 法(SVD)所需要的运算时间随着矩阵的大型化仅呈线性增加,相对于传统奇 异值分解法(SVD)运算时间的指数型增加要快速许多。本发明的加快计算机逸算的数字数据分析方法的应用-推荐系统本发明的一实施例是4吏用该分析方法应用于一推荐系统(Recommender System)中。推荐系统是人工智能领域这十年来非常热门的课题,其中结合 了统计学,辨识科学,数据处理,数值算法等重要知识,并且被广泛的应 用到客户管理系统,交互式网站,推荐式广告等领域。在现今信息爆炸时 代,网络使用者在有限的时间内能浏览的网站有限,如何有效的让使用者 接触到适合的内容,并且减少接触不适合内容的机率是推荐系统主要的功 能。推荐系统企图达到快速又精准的推荐,但是快速与精准通常是互相矛盾的限制条件。因此,本发明即利用具有快速奇异值分解法(SVD)开发出更新、更快、更准确的推荐系统。推荐系统有两大主要分类,第一大类是单一使用者记录推荐此类方法 仅使用单一使用者的记录,来学习该使用者的偏好(taste)。统计方法中的 变量分析常被应用到此领域;第二大类是广义数据学习此类方法用到该 使用者之外的其它使用者的使用记录,来辅助学习出该使用者的偏好。由于 真实的应用中, -使用者记录通常会有缺值(missing data),而补足缺值的 方法,最常见的就是利用偏好相近的其它使用者的信息来补足这些缺值。因 此广义数据学习的结果, 一般而言优于单一使用者记录推荐。当今热门的 广义数据学习推荐系统是协同合作式筛选(Collaborative Filtering)。常见的协同合作式筛选,有总量统计法(POP Algorithm),邻近法 (Nearest Neighbor Algori thm),还有特征偏好法(Eigentaste Algori thm)。 上述方法需要去定义使用者与其它使用者偏好的距离。这距离与使用者曾 经点选过的对象有关。曾经点选相同对象的不同使用者,假设该使用者有 相同的偏好。在定义距离时最常遇到的两个挑战是第一,不同的对象,可 能代表相同的偏好。第二,许多未曾被点选的对象,不代表该对象不在使 用者所偏好的范围内,大部分仅是使用者没有机会接触到该对象,因此不 会去点选。为了克服这两个主要的问题,等构映图(Isomap)和潜在语意索引 法(Latent semantic Index, LSI)方法是最常寻皮应用的统计方法,多数的 推荐系统都是利用这两个方法之一来达到将高维度数据转换到低维度空 间,来进行比对,定义距离,进而归类等动作。等构映图(Isomap)是一个类似 MDS的方法,也是将数据两两的相似性或差异性转成低维度数据的方法,与 MDS的差别在于,等构映图(I s omap)将数据的差异性转换成最'J、路径的距离, 再利用这转换过的距离矩阵,来计算MDS的结果。在数据不全以及数据有 特别的分布结构时,等构映图(Isomap)的计算结果会比MDS来的有意义。然而,无论是等构映图(Isomap)或是潜在语意索引法(LSI)方法,其基 本核心都是利用传统奇异值分解法(SVD)来求得低维度空间的展开基底。为 了达到更精准的推荐,就是将曾经发生过的推荐数据都纳入计算范围,那 么实时性地重算潜在语意索引法(LSI)的使用者低维度表现,就是整个推荐 系统的关键。在先前现有技术中,传统奇异值分解法(SVD)的运算速度是 0(n3)的规模,当使用者的人数庞大的时候,0(n3)的计算规模要在短时间 内完成而达到实时性更新的效果就变得相当困难。因此,本发明使用的加 快计算机运算数字数据分析方法(快速奇异值分解法SVD)的推荐系统将可 以大幅改善这方面的需求,进而能够达到实时性的推荐信息更新。请参阅图6所示,是本发明的加快计算机运算的数字数据分析方法应 用于推荐系统运作方法的流程图,其包括以下步骤(a) .输入一使用者记录信息矩阵于该推荐系统;其中,以N乘p矩阵来 说,N是网络上的使用者个数;p为此网页服务器里,可供浏览的网页个数;(b) .利用该数字数据分析方法计算潜在语意索引法(LSI)在低维度空 间的展开基底;(c) .藉由该展开基底将潜在语意索引法(LSI)空间中的使用者分群;(d) .建立对应于该使用者分群的推荐列表;(e) .将一新使用者投影至该潜在语意索引法(LSI)空间;(f) .该推荐系统藉由该新使用者所对应的推荐列表输出 一推荐信息予 该新使用者。加快计算机运算的数字数据分析方法的应用-影像辨识系统本发明的另 一实施例是使用该分析方法应用于一影像辨识系统中。该 影像系统中的每一个影像都可以当作是一个矩阵,在比对两张影像的数字 数据时,若用点对点的方式比对,在影像大小不同以及影像做轻微的平移和 旋转后,点对点的比对将会产生很大的差异。即两张看似相同的影像,点对 点的比对差异将会非常的大。因此,最可靠的方式就是将对应影像调整到 相同的大小,然后计算这两个影像的快速奇异值分解法(SVD)分解,按照奇 异值的大小顺序比对行向量基底和列向量基底。比对的方法是计算向量的 夹角。 一般来说,肉眼看似相似或是源于相同来源的影像,对应的行向量和 对应的列向量其向量的指向差距不大,亦即计算夹角的结果会接近平行。 使用本发明的分析方法只需比较前两个最大奇异值对应的行向量基底以及 列向量基底。对应奇异值较小的行向量基底及列向量基底则可视为干扰项 的展开基底。请再参阅图7所示,是本发明的加快计算机运算的数字数据分析方法 应用于影像辨识系统运作方法的流程图。其包括以下步骤(a) .将撷取的一第一影像XI与一第二影像X2的矩阵数据输入该影像 辨识系统;其中,该些矩阵资料中,N与p(N乘p矩阵)可为该些影像中x轴 与y轴的像素个数;(b) .对该输入的该第一影像X,与该第二影像X2矩阵数据个别利用该数 字数据分析方法分解;(c) .比较该第一影像X,与该第二影像X2矩阵数据分解后的行向量基底 角度与列向量基底角度;(d) .统计该些基底角度是否接近O。或180° ,得到一分析结果;(e) .该影像辨识系统根据该分析结果,若接近0。或180°则判定该第 一影像与该第二影像的来源相同,辨识结果为符合;若为否则判定来源不 同,辨识结果为不符合。上述的加快计算机运算的数字数据分析方法(快速奇异值分解法SVD)是从求矩阵特征值所推导出的矩阵分解,因此和需要计算特征值有关的应用都有关联。除本发明的二个较佳实施例外,举例来说在统计计算里, 奇异值分解法(SVD)被应用到计算高维度数据最大变异方向,因此近年来被 广泛应用到脱氧核糖核酸(DNA)研究领域。在数值计算中,奇异值分解法 (SVD)最常被应用到求劣质反算问题(ill-pose inverse problem),在劣质 反算问题的无穷多解里面,奇异值分解法(SVD)提供最快速找到近似解的能 力。在通讯领域里,奇异值分解法(SVD)提供最自然的频谱分析。在人工智 能的领域里,特别是和语意学有关的领域,奇异值分解法(SVD)也提供了将 复杂的数据转换到更有关联性的特征空间的能力。简言之,奇异值分解法 (SVD)是近代数值分析计算的重要基础。如上所述,本发明的加快计算机运算的数字数据分析方法(快速奇异值 分解法SVD)改善了传统奇异值分解法(SVD)在分解庞大对象个数时,运算时 间冗长的瓶颈,并且可以处理任何形式的矩阵而不受对称矩阵的限制。该 快速传统奇异值分解法(SVD)使用矩阵拆解及分群的概念,搭配变异矩阵的 分解及列向量平均向量的调整来最佳化奇异值分解法(SVD),而可大幅提升 整体计算机分析系统的运算速度。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式 上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发 明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利 用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但 凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所 作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
权利要求
1、一种加快计算机运算的数字数据分析方法,其特征在于该分析方法包括以下步骤(a).输入一第一矩阵的数字数据于一计算机中,其中该第一矩阵为N乘p矩阵,N为一第一对象个数,p为一变数个数;(b).该计算机中的一计算单元计算该第一矩阵列向量的一平均向量;(c).该计算单元对该第一矩阵的行向量作重叠的随机数分群,随机将该N个第一对象拆解成K个有部分重叠的小群;(d).该计算单元对该些小群的行向量分别计算其变异矩阵;(e).该计算单元对该些变异矩阵计算其个别的多元尺度分析;(f).该计算单元分别重组该些多元尺度分析的空间坐标;(g).该计算单元将重组后的该些多元尺度坐标转换成一主成分分析(PCA)结果;(h).该计算机利用该主成分分析结果及该平均向量输出一完整的矩阵数字数据序。
2、 根据权利要求1所述的加快计算机运算的数字数据分析方法,其特 征在于其中所述的步骤(c)中,其更包舍该些重叠部分为一第二对象个数,且 该第二对象个数分别大于该变数个数p。
3、 根据权利要求1所述的加快计算机运算的数字数据分析方法,其特 征在于其中所述的步骤(g)中,其更包含该计算单元调整该第一矩阵列向 量使其平均为0,再利用矩阵正交化分解使该第一矩阵列向量互相正交计算 出一主成分分析结果。
4、 根据权利要求3所述加快计算机运算的数字数据分析方法,其特征在于其中所述的步骤(h)中,其更包含该计算单元合并该主成分分析结果与该平均向量形成一新矩阵;该计算单元利用矩阵正交化分解将该新矩阵的列向量正交化,计算出一对角矩阵;该计算单元将该对角矩阵乘回该第一矩阵并做行向量的正交化,计算 出一第二矩阵(Sr);该计算单元再将该第二矩阵(Sr)与该对角矩阵(Dr)分别乘在该第一矩 阵的左右两边,计算出一第三矩阵(Vr);该计算机根据该第二矩阵(Sr)、该第三矩阵(Vr)及该对角矩阵(Dr),输 出 一 完整的矩阵数字数据序。
5、 一种使用如权利要求1所述的加快计算机运算的数字数据分析方法 的推荐系统运作方法,其特征在于其包括以下步骤(a) .输入一使用者记录信息矩阵于该推荐系统;(b) .利用该数字数据分析方法计算潜在语意索引法在低维度空间的展 开基底;(c) .藉由该展开基底将潜在语意索引法空间中的使用者分群;(d) .建立对应于该使用者分群的推荐列表;(e) .将一新使用者投影至该潜在语意索引法空间;(f) .该推荐系统藉由该新使用者所对应的推荐列表输出 一推荐信息予 该新使用者。
6、一种使用如权利要求1所述的加快计算机运算的数字数据分析方法 的影像辨识系统运作方法,其特征在于其包括以下步骤(a) .将撷取的一第一影像与一第二影像的矩阵数据输入该影像辨识系统;(b) .对该第 一影像与该第二影像的矩阵数据个别利用该数字数据分析 方法分解;(c) .比较该第 一影像与该第二影像的矩阵数据分解后的行向量基底角 度与列向量基底角度;(d) .统计该些基底角度是否接近O。或180° ,得到一分析结果;(e) .该影像辨识系统根据该分析结果,若接近O。或180°则判定该第 一影像与该第二影像的来源相同,辨识结果为符合;若为否则判定来源不 同,辨识结果为不符合。
全文摘要
本发明是有关于一种加快计算机运算的数字数据分析方法及其推荐系统运作方法及影像辨识系统运作方法。本发明是使用一种加快计算机运算的数字数据分析方法来改善现有传统的在分解庞大对象个数时运算时间冗长的瓶颈,并且可以处理任何形式的矩阵而不受对称矩阵的限制。该分析方法使用矩阵拆解及分群的概念,搭配变异矩阵的分解及列向量平均向量的调整来最佳化,而可大幅提升系统的运算速度。
文档编号G06F17/16GK101576871SQ20081009619
公开日2009年11月11日 申请日期2008年5月9日 优先权日2008年5月9日
发明者曾正男 申请人:群冠资讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1