一种同义词数据挖掘方法和系统的制作方法

文档序号:10512216阅读:324来源:国知局
一种同义词数据挖掘方法和系统的制作方法
【专利摘要】本发明公开了一种同义词数据挖掘方法和系统,包括获取在词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;根据候选同义词库中的数据信息,训练并获得同义词模型;将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。因此,所述同义词数据挖掘方法和系统解决了在媒体播放中不能针对不同的观看群体进行视频文件观看限制的问题。
【专利说明】
一种同义词数据挖掘方法和系统
技术领域
[0001]本发明涉及媒体传播技术领域,特别是指一种同义词数据挖掘方法和系统。
【背景技术】
[0002] 随着网络技术的飞速发展,人们对于网络的需求体现在生活的每个角落,开始对 社会产生深远的影响。而数据挖掘一般是从大量的数据中自动搜索隐藏于其中的有着特殊 关系性的信息的过程,数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报 检索、机器学习、专家系统和模式识别等诸多方法来实现。
[0003] 目前,将数据挖掘和网络技术进行结合,出现的网络检索应用中,可以通过输入关 键字,并根据该关键字检索到相关的所有内容。但是,在现有技术中网络检索应用只能是具 有同样关键字的内容检索出来,从而检索范围很小,无法满足用户的检索需求。另外,如果 输入的关键字不准确则要检索的目标内容就可能不会被检索到,现有的网络检索应用使用 起来需要大量的时间在确定关键字上,从而用户体验非常差。因此,现在的网络检索应用中 急需一种同义词词典库,使其能够检索到更多的内容。

【发明内容】

[0004] 有鉴于此,本发明的目的在于提出一种同义词数据挖掘方法和系统,解决了在现 有技术中网络检索应用只能是具有同样关键字的内容检索出来的问题。
[0005] 基于上述目的本发明提供的同义词数据挖掘方法,包括步骤:
[0006] 获取在词典、视频文件库和搜索日志记录中词汇对,以及该词汇对的相似度值,建 立词汇对与相似度值相关联的候选同义词库;
[0007] 根据候选同义词库中的数据信息,训练并获得同义词模型;
[0008] 将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所 述输出数值大于预设的阈值的词汇对存储在同义词库中。
[0009] 在一些实施例中,所述在词典中词汇对以及该词汇对的相似度值,通过将词典中 所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量,然后按照树形结构进 行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再利用向量的余弦相似 度算法计算每个词汇与相对应的每个预备同义词向量的相似度;
[0010] 所述在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视 频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向 量中;对于词汇wl和与wl相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量
;其中,count(wl)为wl出现的标题数 量,(3011111:(¥2)为¥2出现的标题数量,(3011111:(¥1,'\¥2)为¥1、'\¥2在相同的标题中同时出现的数 量;
[0011]所述在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但 搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇wl和与wl相对应的同义词w2, 计算词汇与其相对应的每个预备同义词向量的
其中,(3011111:(¥1)为¥1出现的查询数量,(3011111:(¥2)为¥2出现的查询数量,(3011111:(¥1,¥2)为 wl、w2在相同的查询中同时出现的数量,same (wl,w2)为wl、w2在不同查询中但搜索了同一 个结果的数量。
[0012]在一些实施例中,所述在建立词汇对与相似度值相关联的候选同义词库之前,还 包括:将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存 储在候选同义词库中;
[0013] 还有,所述的候选同义词库表示为(¥1,¥2,11,了2,了3,1'),其中1'1为词汇对¥1、¥2在 词典中相似度值,T2为词汇对wl、w2在视频文件库中相似度值,T3为词汇对wl、w2在搜索日 志记录中相似度值,T为词汇对w 1、w2相似度平均值。
[0014]在一些实施例中,所述训练并获得同义词模型包括:从候选同义词库中提取第1条 至第η条数据信息(wl,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息 (wl,w2,T)作为输出,训练梯度提升决策树模型;
[0015] 获得同义词梯度提升决策树模型:F(T) =a^⑴+α2β2⑴+…+c〇UT)
[0016] 其中,β^β^^πι棵决策树,ai_am是每棵树的权重,Τ是每一对词汇相对应的二个向 量的相似度值相加后的平均值。
[0017] 在一些实施例中,所述将候选同义词库中每个词汇对对应的相似度值代入同义词 模型是将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树 模型中,获得所述同义词梯度提升决策树模型的输出数值。
[0018] 在另一方面,本发明还提供了一种同义词数据挖掘系统,包括:
[0019] 候选同义词库建立单元,用于获取在词典、视频文件库和搜索日志记录中词汇对, 以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;
[0020] 同义词模型建立单元,用于根据候选同义词库中的数据信息,训练并获得同义词 丰旲型;
[0021] 同义词库建立单元,用于将候选同义词库中每个词汇对应的相似度值代入同义词 模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
[0022] 在一些实施例中,所述候选同义词库建立单元在词典中词汇对以及该词汇对的相 似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量, 然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再 利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度;
[0023] 在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文 件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量 中;对于词汇wl和与wl相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的
其中,count(wl)为wl出现的标题数量, (3011111:(¥2)为¥2出现的标题数量,(3011111:(¥1,'\¥2)为¥1、'\¥2在相同的标题中同时出现的数量 ;
[0024] 在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索 结果相同的词汇,互为对方的预备同义词向量;对于词汇wl和与wl相对应的同义词w2,计算 词汇与其相对应的每个预备同义词向量的
其中,(3011111:(¥1)为¥1出现的查询数量,(3011111:(¥2)为¥2出现的查询数量,(3011111:(¥1,¥2)为 wl、w2在相同的查询中同时出现的数量,same (wl,w2)为wl、w2在不同查询中但搜索了同一 个结果的数量。
[0025] 在一些实施例中,所述候选同义词库建立单元还用于将每个词汇对在词典、视频 文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中;
[0026] 还有,所述的候选同义词库表示为(《1,《2,11,了2,了3,1'),其中1'1为词汇对¥1、¥2在 词典中相似度值,T2为词汇对wl、w2在视频文件库中相似度值,T3为词汇对wl、w2在搜索日 志记录中相似度值,T为词汇对w 1、w2相似度平均值。
[0027] 在一些实施例中,所述同义词模型建立单元训练并获得同义词模型包括:从候选 同义词库中提取第1条至第η条数据信息(wl,w2,T)作为输入,从候选同义词库中提取第n+1 条至第2n条数据信息(wl,w2,T)作为输出,训练梯度提升决策树模型;
[0028] 获得同义词梯度提升决策树模型:F(T) =(^^)+(^2(10 + . . .+c〇3m(T)
[0029] 其中,βι-βιη是m棵决策树,ai_am是每棵树的权重,T是每一对词汇相对应的二个向 量的相似度值相加后的平均值。
[0030] 在一些实施例中,所述同义词库建立单元将候选同义词库中每个词汇对对应的相 似度值代入同义词模型是将候选同义词库中每个词汇对对应的相似度平均值代入到同义 词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出数值。
[0031] 从上面所述可以看出,本发明提供的同义词数据挖掘方法和系统,通过获取在词 典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似 度值相关联的候选同义词库;根据候选同义词库中的数据信息,训练并获得同义词模型;将 候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值 大于预设的阈值的词汇对存储在同义词库中。从而,可以建立一个具有很高准确性的同义 词库,并且能够应用于检索应用中,用户在使用检索应用中可以检索到更多的内容,提高检 索质量。
【附图说明】
[0032] 图1为本发明第一实施例中同义词数据挖掘方法的流程示意图;
[0033] 图2为本发明可参考实施例中同义词数据挖掘方法的流程示意图;
[0034] 图3为本发明同义词数据挖掘系统的结构示意图。
【具体实施方式】
[0035] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。
[0036] 根据网络检索应用的使用现状,根据用户的检索需求,无法实现用户检索到更多 的内容,导致对于每一个用户在网络检索应用上可以查找到的信息很少,只能是具有同样 关键字的内容。为了解决这一问题,本发明从用户角度,体会到用户希望在网络检索应用上 能够检索到更多的内容。因此,本发明的思路是在网络检索应用上,设置同义词的检索功 能。
[0037] 参阅图1所示,为本发明第一实施例中同义词数据挖掘方法流程示意图,所述同义 词数据挖掘方法包括:
[0038] 步骤101,获取在词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的 相似度值,建立词汇对与相似度值相关联的候选同义词库。
[0039] 较佳地,基于词典建立预备同义词库,在词典预备同义词库中存储有联系的词汇 对以及该词汇对的相似度值。具体来说,是通过将词典中所有词汇进行编码,把词汇解释中 出现的词汇作为预备同义词向量。然后,按照树形结构进行排列,将该词汇作为父节点,而 它的预备同义词向量作为子节点。再利用向量的余弦相似度算法计算每个词汇与相对应的 每个预备同义词向量的相似度。
[0040] 较佳地,基于视频文件建立预备同义词库,在视频文件预备同义词库中存储有联 系的词汇对以及该词汇对的相似度值。具体来说,是通过在一个预先设置的视频文件库中 抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于 词汇wl和与wl相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度
其中,count(wl)为wl出现的标题数量,count (*2)为¥2出现的标题数量,(3011111:(¥1,'\¥2)为《4、'\¥2在相同的标题中同时出现的数量。
[0041] 在另一个较佳地实施例中,基于搜索日志建立预备同义词库,在搜索日志预备同 义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说,在相同的查询请求中 出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对 于词汇wl和与wl相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度
其中,count(wl)为wl出现的查询数量,count (界2)为¥2出现的查询数量,(3011111:(¥1,'\¥2)为¥1、'\¥2在相同的查询中同时出现的数量,8&1116 (wl,w2)为wl、w2在不同查询中但搜索了同一个结果的数量。
[0042] 优选地,获取词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词 库中共同具有预备同义词关系的所有词汇对。并且,提取每个词汇对分别在词典预备同义 词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值。然后,建立候选 同义词库。
[0043] 作为另一个实施例,将每个词汇对在词典、视频文件库和搜索日志记录中的相似 度值相加求平均值,并存储在候选同义词库中。因此,候选同义词库表示为(wl,w2,Tl,T2, 13,1'),其中11为词汇对《1、《2在词典中相似度值,12为词汇对《1、《2在视频文件库中相似度 值,T3为词汇对wl、w2在搜索日志记录中相似度值,T为词汇对wl、w2相似度平均值。
[0044] 步骤102,根据候选同义词库中的数据信息,训练并获得同义词模型。
[0045] 较佳地,从候选同义词库中提取第1条至第η条数据信息(wl,w2,T)作为输入,从候 选同义词库中提取第n+1条至第2n条数据信息(wl,w2,T)作为输出,训练梯度提升决策树模 型。然后便获得同义词梯度提升决策树模型$00=(^^)+(^2(10 + . . .+c〇UT)
[0046] 其中,仏-仏是!!!棵决策树,是每棵树的权重,T是每一对词汇相对应的三个向 量的相似度值相加后的平均值。
[0047] 步骤103,将候选同义词库中每个词汇对应的相似度值代入同义词模型,判断获得 的输出数值是否大于预设的阈值;若大于,则将该输出数值果对应的词汇对从候选同义词 库中提取,存储在同义词库中;若小于,则舍弃该结果对应的词汇对。
[0048] 优选地,将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提 升决策树模型中,获得所述同义词梯度提升决策树模型的输出结果。
[0049]需要说明的是,最后形成的同义词库可以在检索应用中进行使用。在使用时,可以 通过获取用户输入的关键词,在同义词库中查找到该关键词相对应的同义词,然后可以搜 索到与该关键词以及该关键词的同义词相关的信息。值得说明的是,在同义词库应用于各 种搜索应用,用户输入关键词进行搜索时可以选择是否将该关键词的同义词也进行搜索, 若选择是,则可以搜索到与该关键词以及该关键词的同义词相关的信息。若选择否,则只搜 索该关键词相关的信息。因此,可以看出本发明不仅可以建立一个准确性很高的同义词库, 同时还能够提供在检索应用中,更为重要的是可以提供给用户自行设置是否进行同义词检 索的功能。
[0050] 作为一个可参考的实施例,参阅图2所示,所述同义词数据挖掘方法具体可采用如 下步骤:
[0051] 步骤201,基于词典、视频文件库和搜索日志记录,分别建立相应的预备同义词库。
[0052] 作为实施例,基于词典建立预备同义词库时,将所有词汇进行编码,可以把每个词 汇的解释中出现的词汇作为预备同义词向量,然后按照树形结构进行排列。即将该词汇作 为父节点,而它的预备同义词向量作为子节点。最后,利用向量的余弦相似度算法计算每个 词汇与相对应的每个预备同义词向量的相似度。
[0053] 而基于视频文件建立预备同义词库时,是在一个预先设置的视频文件库中抽取视 频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中。较佳地,在计 算每个词汇与其相对应的每个预备同义词向量的相似度时,是通过如下方法:对于词汇wl 和与wl相对应的同义词w2,统计wl在多少个标题中出现,记为count(wl),同样统计w2在多 少个标题中出现记为count(w2),然后wl、w2在相同的标题中同时出现的数量记为count (wl,w2),计算wl、w2的相似度:
[0055] 而基于搜索日志建立预备同义词库时,是基于用户搜索日志,对两个词汇wl、w2, 统计wl在多少个查询query中出现,记为count(wl),同样统计w2在多少个query中出现记为 (3011111:(¥2)。¥1、¥2在相同的9116巧中同时出现的数量记为(3011111:(¥1,¥2),即¥1、¥2互为对方 的预备同义词向量。另外,wl、w2出现在不同query中,但是搜索了同一个结果,记为same (wl,w2)。计算wl、w2的相似度:
[0057]步骤202,获取词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词 库中共同具有预备同义词关系的所有词汇对。
[0058]步骤203,提取每个词汇对分别在词典预备同义词库、视频文件预备同义词库和搜 索日志预备同义词库中对应的相似度值。
[0059]步骤204,将候选同义词库中的每一对词汇相对应的三个向量的相似度值相加求 平均值T。
[0060] 步骤205,建立候选同义词库。
[0061]在实施例中,在候选同义词库中存储有一对一对的词汇,并且在每对词汇上存储 有该词汇对在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应 的相似度值,即三个向量的相似度。具体的实施方式中,候选同义词库表示为(wl,w2,Tl, 丁2,13),其中《1和《2为具有预备同义词关系的词汇,11为词典预备同义词库向量的相似度, T2为视频文件预备同义词库向量的相似度,T3为搜索日志预备同义词库向量的相似度。 [0062]步骤206,从候选同义词库中提取第1条至第η条数据信息(wl,w2,T)作为输入,从 候选同义词库中提取第n+1条至第2n条数据信息(wl,w2,T)作为输出,训练梯度提升决策树 (GBDT)模型。
[0063]步骤207,获得同义词梯度提升决策树(GBDT)模型:
[0064] ρ(Τ)=αιβι(Τ)+α2β2(Τ) + . . .+αΜβΜ(Τ)
[0065] 其中,仏-仏是!!!棵决策树,是每棵树的权重,Τ是每一对词汇相对应的三个向 量的相似度值相加后的平均值。
[0066]步骤208,将候选同义词库中每对词汇对应的三个向量的相似度值相加后的平均 值代入到同义词GBDT模型中,获得输出的数值。
[0067] 步骤209,判断该输出数值是否大于预设的阈值,若大于则进行步骤210,若小于则 进行步骤211。
[0068] 步骤210,将该输出数值对应的词汇对从候选同义词库中提取,存储在同义词库 中。
[0069] 步骤211,舍弃该结果对应的词汇对。
[0070] 在本发明的另一方面,还提供了一种同义词数据挖掘系统,如图3所示,所述的视 频播放系统包括依次连接的候选同义词库建立单元301、同义词模型建立单元302、同义词 库建立单元303。其中,候选同义词库建立单元301用于获取在词典、视频文件库和搜索日志 记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词 库。同义词模型建立单元302用于根据候选同义词库中的数据信息,训练并获得同义词模 型。同义词库建立单元303用于将候选同义词库中每个词汇对应的相似度值代入同义词模 型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
[0071] 较佳地,所述候选同义词库建立单元301基于词典建立预备同义词库,在词典预备 同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说,是通过将词典中所 有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量。然后,按照树形结构进行 排列,将该词汇作为父节点,而它的预备同义词向量作为子节点。再利用向量的余弦相似度 算法计算每个词汇与相对应的每个预备同义词向量的相似度。
[0072] 基于视频文件建立预备同义词库,在视频文件预备同义词库中存储有联系的词汇 对以及该词汇对的相似度值。具体来说,是通过在一个预先设置的视频文件库中抽取视频 的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇Wl和 与wl相对应的同义词W2,计算词汇与其相对应的每个预备同义词向量的相似度
?,其中,count (wl)为wl出现的标题数量,count (*2)为¥2出现的标题数量,(3011111:(¥1,'\¥2)为《4、'\¥2在相同的标题中同时出现的数量。
[0073]基于搜索日志建立预备同义词库,在搜索日志预备同义词库中存储有联系的词汇对以 及该词汇对的相似度值。具体来说,在相同的查询请求中出现的词汇和在不同的查询请求但搜 索结果相同的词汇,互为对方的预备同义词向量;对于词汇Wl和与Wl相对应的同义词《2,计算词 汇与其相对应的每个预备同义词向量的相似度
其中,(3011111:(¥1)为¥1出现的查询数量,(3011111:(¥2)为¥2出现的查询数量,(3011111:(¥1,¥2)为 wl、w2在相同的查询中同时出现的数量,same (wl,w2)为wl、w2在不同查询中但搜索了同一 个结果的数量。
[0074]优选地,候选同义词库建立单元301获取词典预备同义词库、视频文件预备同义词 库和搜索日志预备同义词库中共同具有预备同义词关系的所有词汇对。并且,提取每个词 汇对分别在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的 相似度值。然后建立候选同义词库。
[0075]另外,候选同义词库建立单元301将每个词汇对在词典、视频文件库和搜索日志记 录中的相似度值相加求平均值,并存储在候选同义词库中。因此,候选同义词库表示为(wl, ¥2,1'1,12,13,1'),其中1'1为词汇对¥1、¥2在词典中相似度值,12为词汇对《1、¥2在视频文件 库中相似度值,T3为词汇对wl、w2在搜索日志记录中相似度值,T为词汇对wl、w2相似度平均 值。
[0076]作为另一个实施例,同义词模型建立单元302从候选同义词库中提取第1条至第η 条数据信息(wl,w2,T)作为输入,从候选同义词库中提取第η+1条至第2η条数据信息(wl, w2,T)作为输出,训练梯度提升决策树模型。然后便获得同义词梯度提升决策树模型:F(T) = α!βι(Τ)+α2β2(Τ) + · · .+am0m(T)
[0077] 其中,棵决策树,ai-am是每棵树的权重,T是每一对词汇相对应的三个向 量的相似度值相加后的平均值。
[0078]优选地,同义词库建立单元303将候选同义词库中每个词汇对对应的相似度平均 值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出结 果。
[0079] 需要说明的是,在本发明所述的同义词数据挖掘系统的具体实施内容,在上面所 述的同义词数据挖掘方法中已经详细说明了,故在此重复内容不再说明。
[0080] 综上所述,本发明提供的同义词数据挖掘方法、系统,创造性地提供了一种同义词 库的建立方法和系统;而且,该同义词库中的同义词都是经过多层筛选、计算获得的高精确 的同义词汇对;并且,该同义词库可以应用于搜索应用中,不仅满足了用户需要检索到更多 内容的要求,还能够满足用户自定义检索内容(是否包括同义词的检索结果);因此本发明 具有广泛、重大的推广意义;最后,整个所述的同义词数据挖掘方法和系统紧凑,易于限制。
[0081]所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并 不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均 应包含在本发明的保护范围之内。
【主权项】
1. 一种同义词数据挖掘方法,其特征在于,包括步骤: 获取词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词 汇对与相似度值相关联的候选同义词库; 根据候选同义词库中的数据信息,训练并获得同义词模型; 将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值; 将所述输出数值大于预设的阈值的词汇对存储在同义词库中。2. 根据权利要求1所述的方法,其特征在于,所述在词典中的词汇对以及该词汇对的相 似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量, 然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再 利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度; 所述在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文 件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量 中;对于词汇wl和与wl相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的 相似虔其中,count (wl)为wl出现的标题数量, (3011111:(¥2)为¥2出现的标题数量,(3011111:(¥1,'\¥2)为¥1、'\¥2在相同的标题中同时出现的数量 ; 所述在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索 结果相同的词汇,互为对方的预备同义词向量;对于词汇wl和与wl相对应的同义词w2,计算 词汇与其相对应的每个预备同义词向量的相似度实 中,(3011111:(¥1)为¥1出现的查询数量,(3011111:(¥2)为¥2出现的查询数量,(3011111:(¥1,¥2)为¥1、 w2在相同的查询中同时出现的数量,same(wl,w2)为wl、w2在不同查询中但搜索了同一个结 果的数量。3. 根据权利要求2所述的方法,其特征在于,所述在建立词汇对与相似度值相关联的候 选同义词库之前,还包括:将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值 相加求平均值,并存储在候选同义词库中; 还有,所述的候选同义词库表示为(¥1,¥2,1'1,了2,了3,1'),其中11为词汇对¥1、¥2在词典 中相似度值,T2为词汇对wl、w2在视频文件库中相似度值,T3为词汇对wl、w2在搜索日志记 录中相似度值,T为词汇对wl、w2相似度平均值。4. 根据权利要求3所述的方法,其特征在于,所述训练并获得同义词模型包括:从候选 同义词库中提取第1条至第η条数据信息(wl,w2,T)作为输入,从候选同义词库中提取第n+1 条至第2n条数据信息(wl,w2,T)作为输出,训练梯度提升决策树模型; 获得同义词梯度提升决策树模型:FOOiadRlO+a^XT) - . . .+c〇UT) 其中,β?-βιη是m棵决策树,是每棵树的权重,T是每一对词汇相对应的二个向量的相 似度值相加后的平均值。5. 根据权利要求4所述的方法,其特征在于,所述将候选同义词库中每个词汇对对应的 相似度值代入同义词模型是,将候选同义词库中每个词汇对对应的相似度平均值代入到同 义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出数值。6. -种同义词数据挖掘系统,其特征在于,包括: 候选同义词库建立单元,用于获取词典、视频文件库和搜索日志记录中的词汇对,以及 该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库; 同义词模型建立单元,用于根据候选同义词库中的数据信息,训练并获得同义词模型; 同义词库建立单元,用于将候选同义词库中每个词汇对应的相似度值代入同义词模型 得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。7. 根据权利要求6所述的系统,其特征在于,所述候选同义词库建立单元在词典中词汇 对以及该词汇对的相似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇 作为预备同义词向量,然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义 词向量作为子节点,再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义 词向量的相似度; 在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文件库 中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对 于词汇wl和与wl相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度1 其中,count (wl)为wl出现的标题数量,count (*2)为¥2出现的标题数量,(3011111:(¥1,'\¥2)为《4、'\¥2在相同的标题中同时出现的数量; 在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果 相同的词汇,互为对方的预备同义词向量;对于词汇wl和与wl相对应的同义词w2,计算词汇 与其相对应的每个预备同义词向量的相似度其中,(3011111:(¥1)为¥1出现的查询数量,(3011111:(¥2)为¥2出现的查询数量,(3011111:(¥1,¥2)为 wl、w2在相同的查询中同时出现的数量,same (wl,w2)为wl、w2在不同查询中但搜索了同一 个结果的数量。8. 根据权利要求7所述的系统,其特征在于,所述候选同义词库建立单元还用于将每个 词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同 乂词库中; 还有,所述的候选同义词库表示为(¥1,¥2,1'1,了2,了3,1'),其中11为词汇对¥1、¥2在词典 中相似度值,T2为词汇对wl、w2在视频文件库中相似度值,T3为词汇对wl、w2在搜索日志记 录中相似度值,T为词汇对wl、w2相似度平均值。9. 根据权利要求8所述的系统,其特征在于,所述同义词模型建立单元训练并获得同义 词模型包括:从候选同义词库中提取第1条至第η条数据信息(wl, w2,T)作为输入,从候选同 义词库中提取第n+1条至第2n条数据信息(wl,w2,T)作为输出,训练梯度提升决策树模型; 获得同义词梯度提升决策树模型:FOOia^KlO+a^dT) - . . .+c〇UT) 其中,βχ-β^ηι棵决策树,是每棵树的权重,T是每一对词汇相对应的三个向量的相 似度值相加后的平均值。10. 根据权利要求9所述的系统,其特征在于,所述同义词库建立单元将候选同义词库 中每个词汇对对应的相似度值代入同义词模型是将候选同义词库中每个词汇对对应的相 似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的 输出数值。
【文档编号】G06F17/30GK105868236SQ201510908015
【公开日】2016年8月17日
【申请日】2015年12月9日
【发明人】李建南
【申请人】乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1