词语联想方法及装置的制造方法

文档序号:9911000阅读:415来源:国知局
词语联想方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理领域,特别是涉及一种词语联想方法及装置。
【背景技术】
[0002] 通过词语联想可以挖掘发现不同的词语在文本中的相关性,从而衍生出各式各样 的应用。因此,在文本分析中,给定一个文档集合,挖掘出与目标词最相关的词是很有价值 的。
[0003] 例如,在中国移动业务领域,对"流量"这个词语进行联想,可以对移动提供新业务 提供参考价值,如用户办理最多的流量是"30M",因此,当对"流量"这个词语进行联想后, 可以将"流量30M"的业务推荐给用户。又例如,在电子商务领域中,购买"牛奶"的同时,很 多人会同时购买"面包",因此对"牛奶"这个词语联想,可以给用户推荐其它商品,比如"面 包"。
[0004] 然而,现有的技术无法从给定文档集合中提取与目标词最相关的词语。

【发明内容】

[0005] 有鉴于上述现有技术所存在的缺陷,本发明的目的是要解决现有的技术无法从给 定文档集合中提取与目标词最相关的词语的问题,因此,本发明实施例提供一种词语联想 方法,技术方案如下:
[0006] 一种词语联想方法,包括:
[0007] 获取文档集合,所述文档集合中包含至少一个文档;
[0008] 将所述文档中的语句进行分词处理,得到至少一个词语信息;
[0009] 对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息 以及所述分析信息保存;
[0010] 从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF ;
[0011] 计算除所述目标词语外其他词语的TF-IDF ;
[0012] 循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联 度;
[0013] 依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。
[0014] 优选的,在上述的词语联想方法中,所述对每个所述词语信息进行分析,得到所述 词语信息的分析信息,包括:
[0015] 对每个所述词语信息进行统计,得到所述词语信息在所述文档集合中出现的总次 数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文档 的数目。
[0016] 优选的,在上述的词语联想方法中,所述计算所述目标词语的TF-IDF,包括:
[0017] 根据公式TF-IDF = TFXIDF计算所述目标词语的TF-IDF,其中:
[0018] 所述TF目标词语的词频=所述目标词语在所述文档集合中出现的总次数/所述 文档集合中总的词语数目;
[0019]
[0020] 优选的,在上述的词语联想方法中,所述计算其他所有词语与所述目标词语的关 联度,包括:
[0021] 根据公式关联度=1_|所述目标词语的TF-IDF-除所述目标词语的其他词语的 TF-IDF| 。
[0022] 优选的,在上述的词语联想方法中,还包括:
[0023] 获取停止词列表;
[0024] 将得到的所述多个词语信息与所述停止词列表中的停止词一一对比,在所述词语 信息中筛选出与所述停止词列表中停止词相同的词语;
[0025] 删除所述筛选出的词语。
[0026] 本发明实施例还提供一种词语联想装置,包括:
[0027] 获取单元,用于获取文档集合,所述文档集合中包含至少一个文档;
[0028] 分词处理单元,用于将所述文档中的语句进行分词处理,得到至少一个词语信 息;
[0029] 分析单元,用于对每个所述词语信息进行分析,得到所述词语信息的分析信息,将 所述词语信息以及所述分析信息保存;
[0030] 第一 TF-IDF处理单元,用于从所述保存的词语信息中选出目标词语,计算所述目 标词语的TF-IDF ;
[0031] 第二TF-IDF处理单元,用于计算除所述目标词语外其他词语的TF-IDF ;
[0032] 关联度计算单元,用于循环所述目标词语外其他所有词语,计算其他所有词语与 所述目标词语的关联度;
[0033] 关联单元,用于依据所述关联度,将排名前N的词语作为与所述目标词组相关的 词组。
[0034] 优选的,在上述的词语联想装置中,所述分析单元,包括:
[0035] 统计模块,用于对每个所述词语信息进行统计,得到所述词语信息在所述文档集 合中出现的总次数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档 集合中总的文档的数目。
[0036] 优选的,在上述的词语联想装置中,所述第一 TF-IDF处理单元,包括:
[0037] 第一计算子模块,用于根据公式TF-IDF = TFXIDF计算所述目标词语的TF-IDF, 其中:
[0038] 所述TF目标词语的词频=所述目标词语在所述文档集合中出现的总次数/所述 文档集合中总的词语数目;
[0039]
[0040] 优选的,在上述的词语联想装置中,所述关联度计算单元,包括:
[0041] 关联度计算子模块,用于公式关联度=1_|所述目标词语的TF-IDF-除所述目标 词语的其他词语的TF-IDFI。
[0042] 优选的,在上述的词语联想装置中,还包括:
[0043] 停止词列表获取单元,用于获取停止词列表;
[0044] 词语筛选单元,用于将得到的所述多个词语信息与所述停止词列表中的停止词 一一对比,在所述词语信息中筛选出与所述停止词列表中停止词相同的词语;
[0045] 词语删除单元,用于删除所述筛选出的词语。
[0046] 本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明 的词语联想方法,至少具有下列优点:
[0047] 本发明实施例提供一种基于TF-IDF的词语联想分析方法,可以从给定文档集合 中挖掘出与目标词语最相关词语。
【附图说明】
[0048] 图1为本发明实施例提供的词语联想方法的一种流程示意图;
[0049] 图2为本发明实施例提供的词语联想方法的另一流程示意图;
[0050] 图3为本发明实施例提供的词语联想方法的另一流程示意图;
[0051] 图4为本发明实施例提供的词语联想方法的另一流程示意图;
[0052] 图5为本发明实施例提供的词语联想装置的一种结构示意图。
【具体实施方式】
[0053] 为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结 合附图及较佳实施例,对依据本发明提出的(名称)其【具体实施方式】、步骤、结构、特征及其 功效详细说明。
[0054] 实施例一
[0055] 参见图1,本发明实施例提供一种词语联想方法,包括:
[0056] 步骤110 :获取文档集合,文档集合中包含至少一个文档。
[0057] 步骤120 :将文档中的语句进行分词处理,得到至少一个词语信息。
[0058] 循环上述文档集合中所有的文档,对每个文档均进行分词处理,如文档集合中包 含文档"感谢您的来电",则对该文档进行分词处理,分词处理后得到的三个词语信息,分别 为"感谢""您的""来电"。可以选用分词器对文档进行分词处理,分词器可以选用庖丁解 牛、imdict、mmseg4j、IK分词器。优选的,本发明实施例使用IK分词器。
[0059] 步骤130 :对每个词语信息进行分析,得到词语信息的分析信息,将词语信息以及 分析信息保存。
[0060] 对各个文档中的每个词语进行处理和分析,将其中出现的各个词语的信息保存。 分析信息可以包括每个词语在文档集合中出现的总的次数,词语出现的文档数。
[0061] 步骤140 :从保存的词语信息中选出目标词语,计算目标词语的TF-IDF。
[0062] 其中,TF-IDF(term frequency - inverse document frequency)是一种用于资讯 检索与资讯探勘的常用加权技术。
[0063] 步骤150 :计算除目标词语外其他词语的TF-IDF。
[0064] 步骤160 :循环目标词语外其他所有词语,计算其他所有词语与目标词语的关联 度。
[0065] 步骤170 :依据关联度,将排名前N的词语作为与目标词组相关的词组。
[0066] 可以根据计算的关联度进行倒序排列,选取其中最靠前的TOP N作为结果返回,排 名前N的词语作为与目标词组相关的词组。
[0067] 需要说明的是,N为大于等于1的自然数,其可以根据实际情况设定,在此不做限 定。
[0068] 本发明实施例提供一种基于TF-IDF的词语联想分析方法,可以从给定文档集合 中挖掘出与目标词语最相关词语。
[0069] 实施例二
[0070] 参见图2,本发明实施例提供一种词语联想方法,包括:
[0071] 步骤210 :获取文档集合,文档集合中包含至少一个文档。
[0072] 步骤220 :将文档中的语句进行分词处理,得到至少一个词语信息。
[0073] 循环上述文档集合中所有的文档,对每个文档均进行分词处理,如文档集合中包 含文档"感谢您的来电",则对该文档进行分词处理,分词处理后得到的三个词语信息,分别 为"感谢""您的""来电"。可以选用分词器对文档进行分词处理,分词器可以选用庖丁解 牛、imdict、mmseg4j、IK分词器。优选的,本发明实施例使用IK分词器。
[0074] 步骤230 :对每个词语信息进行分析,得到词语信息的四个分析信息,将词语信息 以及四个分析信息保存,其中,四个分析参数为所述词语信息在所述文档集合中出现的总 次数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文 档的数目。
[0075] 对每个所述词语信息进行统计,得到所述词语信息在所述文档集合中出现的总次 数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文档 的数目。
[0076] 步骤240 :从保存的词语信息中选出目标词语,根据公式TF-IDF计算目标词语的 TF-IDF〇
[0077] 根据目标词语,在得到的所有词语中查找与该目标词语相同的词语,如果没有查 找出,则这个目标词语没有相关联的词语,结束流程,如果查找到,则将目标词语相关的分 析信息提取出来,公式TF-IDF计算目标词语的TF-IDF。
[0078] 其中,TF-IDF(term frequency - inverse document frequency)是一种用于资讯 检索与资讯探勘的常用加权技术。
[0079] TF-IDF公式=TFX IDF计算所述目标词语的TF-IDF,
[00
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1