确定最大项对的方法及装置的制造方法_2

文档序号:9235440阅读:来源:国知局
相似 度上界值时,对未被标记的行所对应的最大余弦相似度上界值进行选择。
[0052] 本发明实施例提供的技术方案带来的有益效果是:
[0053] 通过确定有序项矩阵中每个项对对应的余弦相似度上界值,并根据有序项矩阵中 每个项对对应的余弦相似度上界值确定最大项对,避免计算部分项对对应的余弦相似度, 从而简化了确定最大项对的计算,提高了确定最大项对的效率,进而可W快速地从大规模 数量的项构成的项对中确定最大项对,扩展了确定最大项对的应用范围。
【附图说明】
[0054] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据该些附图获得其他 的附图。
[0055] 图1是本发明实施例一提供的确定最大项对的方法流程图;
[0056] 图2是本发明实施例二提供的确定最大项对的方法流程图;
[0057] 图3是本发明实施例H提供的确定最大项对的装置的结构示意图;
[0058] 图4是本发明实施例H提供的第一种第一更新模块的结构示意图;
[0059] 图5是本发明实施例H提供的第二确定模块的结构示意图;
[0060] 图6是本发明实施例H提供的第二种第一更新模块的结构示意图;
[0061] 图7是本发明实施例H提供的第H种第一更新模块的结构示意图。
【具体实施方式】
[0062] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0063] 实施例一
[0064] 针对大规模数量的项组成的项对确定关联性最大的预设数目个项对,本发明实施 例提供了一种确定最大项对的方法,在该方法中W余弦相似度作为关联性的判断标准,即 项对对应的余弦相似度越大,项对的关联性越大,即组成该项对的两个项之间的关联性越 强。参见图1,方法流程包括:
[0065] 101 ;构建有序项矩阵,有序项矩阵中的每个元素代表一个项对,每个项对对应一 个余弦相似度上界值;
[0066] 102 ;确定有序项矩阵中每个项对对应的余弦相似度上界值,并从有序项矩阵中 每个项对对应的余弦相似度上界值中选择有序项矩阵中各行对应的最大余弦相似度上界 值;
[0067] 103 ;将本次选择的余弦相似度上界值构成第一集合,将剩余未选择的余弦相似度 上界值构成第二集合,并将第一集合中前预设数目个余弦相似度上界值对应的项对作为确 定的最大项对;
[0068] 104;根据各个最大项对更新第一集合及第二集合,在得到更新的第一集合及更新 的第二集合后,确定是否满足根据更新的第一集合更新最大项对的条件;
[0069] 作为一种可选实施例,根据各个最大项对更新第一集合及第二集合,包括:
[0070] 将各个最大项对所对应的余弦相似度上界值从第一集合中移除;
[0071] 从第二集合中重新选择有序项矩阵中各行对应的最大余弦相似度上界值,将本次 选择的余弦相似度上界值从第二集合中移除,并添加到第一集合中,得到更新的第一集合 及更新的第二集合。
[0072] 作为一种可选实施例,将本次选择的余弦相似度上界值从第二集合中移除,并添 加到第一集合中之前,还包括:
[0073] 判断选择的余弦相似度上界值是否大于确定的每个最大项对对应的余弦相似度 中的最小余弦相似度;
[0074] 若选择的余弦相似度上界值大于确定的每个最大项对对应的余弦相似度中的最 小余弦相似度,则执行将选择的余弦相似度上界值从第二集合中移除,并添加到第一集合 的步骤。
[0075] 作为一种可选实施例,判断选择的余弦相似度上界值是否大于确定的每个最大项 对对应的余弦相似度中的最小余弦相似度之后,还包括:
[0076] 若判断选择的余弦相似度上界值不大于确定的每个最大项对对应的余弦相似度 中的最小余弦相似度,则将选择的余弦相似度上界值对应的项对所在的行进行标记,使下 一次从第二集合中重新选择有序项矩阵中各行对应的最大余弦相似度上界值时,对未被标 记的行所对应的最大余弦相似度上界值进行选择。
[0077] 作为一种可选实施例,确定是否满足根据更新的第一集合更新最大项对的条件, 包括:
[0078] 判断更新的第一集合中的最大余弦相似度上界值是否小于确定的最大项对对应 的余弦相似度中的最小余弦相似度;
[0079] 若更新的第一集合中的最大余弦相似度上界值不小于确定的所有最大项对对应 的余弦相似度中的最小余弦相似度,则判断更新的第一集合中的最大余弦相似度上界值对 应的项对所对应的余弦相似度是否大于确定的所有最大项对对应的余弦相似度中的最小 余弦相似度;
[0080] 若更新的第一集合中的最大余弦相似度上界值对应的项对所对应的余弦相似度 大于确定的所有最大项对对应的余弦相似度中的最小余弦相似度,则确定满足根据更新的 第一集合更新最大项对的条件。
[0081] 105;如果满足根据更新的第一集合更新最大项对的条件,则根据更新的第一集合 更新最大项对,并重新根据各个最大项对更新第一集合及第二集合,直至确定未满足根据 更新的第一集合更新最大项对的条件,将上一次确定的最大项对作为最大项对的最终确定 结果。
[0082] 作为一种可选实施例,根据更新的第一集合更新最大项对,包括:
[0083] 将各个最大项对对应的余弦相似度中的最小余弦相似度对应的项对替换为更新 的第一集合中的最大余弦相似度上界值对应的项对,得到更新的最大项对。
[0084] 本实施例提供的方法,通过确定有序项矩阵中每个项对对应的余弦相似度上界 值,并根据有序项矩阵中每个项对对应的余弦相似度上界值确定最大项对,避免计算部分 项对对应的余弦相似度,从而简化了确定最大项对的计算,提高了确定最大项对的效率,进 而可W快速地从大规模数量的项构成的项对中确定最大项对,扩展了确定最大项对的应用 范围。
[0085] 实施例二
[0086] 结合上述实施例一的内容,本发明实施例提供了一种确定最大项对的方法,参见 图2,本发明实施例提供的方法流程包括:
[0087] 201 ;构建有序项矩阵,有序项矩阵中的每个元素代表一个项对,每个项对对应一 个余弦相似度上界值;
[0088] 具体地,构建有序项矩阵包括但不限于获取组成项对的各个项的支持度,并根据 各个项的支持度构建有序项矩阵;其中,有序项矩阵中的每个元素代表一个项对,每个项对 对应一个余弦相似度上界值。关于获取组成项对的各个项的支持度的方式,本实施例不作 具体限定。具体实施时,包括但不限于从事务标识符列表中获取各个项的支持度。
[0089] 另外,定义项对化Y)的余弦相似度cos佑Y)为:
[0090]
suppQ代表支持度。
[0091]由于通常情况下,对于组成项对狂,巧的两个项X和Y,如果suppOO > supp(Y), 贝ij supp(XY)《supp(Y),进而对cos〇(,巧进行缩放可得到:
[0092]
[009引即项对化Y)的余弦相似度上界值upper (cos化Y))为:
[0094]
[0095] 根据上述得到的余弦相似度上界值的公式可知,如果在有序项矩阵中,有序项矩 阵的行代表组成有序项矩阵中的所有项对的项,根据各个项的支持度从大到小的顺序排列 各个项,并且有序项矩阵的列与矩阵的行相同,则每行的各个元素代表的项对对应的余弦 相似度上界值从左到右单调递减,每列的各个元素代表的项对对应的余弦相似度上界值从 上到下单调递减,使得项对对应的余弦相似度上界值在有序项矩阵中具有二维单调性。
[0096] 需要说明的是,由于构建的有序项矩阵中元素代表项对,并不进行实际的余弦相 似度的计算及存储,因而可快速构建有序项矩阵,并且构建的有序项矩阵所占用的空间较 小。
[0097]为了便于理解,W如下所示的n个项找1,X2,. ..,X。}组成的n*n个项构成的有序项 矩阵M为例进行说明。将该n个项按照获取到的各个项的支持度从大到小排列得到一个有 序的项序列s=找[1], X[2],. . .,Xh]}。其中,如果i<j,则SU卵狂山)> SU卵狂[j]),1《i《n, 1《j《n,suppQ代表支持度。根据有序的项序列S可W构建一个二维的有序项矩阵 M = S0S,第i行、第j列所确定的元素代表项对也Xj),每个项对也)g对应一个余弦 相似度cos化,Xj)及一个余弦相似度上界值upper(cos化,Xj))。
[0098]
[0099] 可选地,由于有序项矩阵的行和列是相同的,即有序项矩阵是对称的,又由于项对 中的两个项互换顺序后组成的项对与互换顺序前组成的项对对应相同的余弦相似度,即有 序项矩阵中的每个元素代表的项对对应的余弦相似度是对称的;另外,组成对角线上的任 意一个项对的两个项是相同的,即对角线上的项对的余弦相似度为1,没有实际意义,则构 建有序项矩阵的上H角部分Um即可确定最大项对,从而简化了构建的有序项矩阵,提高了 确定最大项对的效率。若有序项矩阵仍为n个项找1,X2,. . .,X。}组成的n*n个项对构成的 有序项矩阵M,则构建的Um如下所示。
[0100]
[0101] 202 ;确定有序项矩阵中每个项对对应的余弦相似度上界值,并从有序项矩阵中 每个项对对应的余弦相似度上界值中选择有序项矩阵中各行对应的最大余弦相似度上界 值;
[0102] 关于确定有序项矩阵中每个项对对应的余弦相似度上界值的方式,本实施例不作 具体限定。具体实施时,如果构建的有序项矩阵中的行和列代表的项是根据各个项的支持 度从大到小的顺序排列的,即在构建有序项矩阵时已经获取组成项对的各个项的支持度, 则可直接根据上述余弦相似度上界值的计算公式确定有序项矩阵中每个项对对应的余弦 相似度上界值。
[0103] 进一步地,如果构建的有序项矩阵为上H角矩阵,由于上H角矩阵中每行的各个 元素代表的项对对应的余弦相似度上界值从左到右单调递减,则从有序项矩阵中每个项对 对应的余弦相似度上界值中选择有序项矩阵中各行对应的最大余弦相似度上界值为矩阵 中每行的第一个元素代表的项对对应的余弦相似度上界值。
[0104] 为了便于理解,W如下所示的上H角有序项矩阵为例进行说明。其中,项1、2、3 及4的支持度分别为0. 4、0. 3、0. 2及0. 1,通过余弦相似度上界值的计算公式可计算项对 (1,2)、(1,3)、(1,4)、(2, 3)、(2, 4)及(3, 4)对应的余弦相似度上界值分别为0. 87、0. 71、 0. 25、0. 82、0. 58及0. 71 ;选择的上H角有序项矩阵中第一行对应的最大余弦相似度上界 值为项对(1,2)对应的余弦相似度上界值0. 87,第二行对应的最大余弦相似度上界值为 项对(2, 3)对应的余弦相似度上界值0. 82,第H行对应的最大余弦相似度上界值为项对 (3, 4)对应的余弦相似度上界值0. 71。
[0105]
[0106
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1