一种信息处理方法及装置的制造方法_2

文档序号:8282353阅读:来源:国知局
过对第一次分词结果中的碎片进行统计,识别出在文本中出现过超过一次 的未登录词,并将其加入临时词典,对词典的组织结构进行改进,把词典分为基本词典和扩 展词典两部分。
[0034] 具体实现中,对第一个文本的第一句进行最大正向匹配处理,取第一句话字串长 度M,对比词典最长字串F,如果M〈F,则整句与词典中字串为M的进行匹配;如果匹配成功, 则把这个匹配字段作为一个词切分出来,放入分词统计表中,从下一句开始重复匹配。如果 匹配失败,把匹配字段的最后一个字去掉,并和词典中的M-I字串进行匹配,如果匹配成功 则放入分词表中,否则把匹配字串的后一个字去掉,不断重复,直到匹配成功或者字串长度 为0。如果M>F,则取句子前F个字串进行匹配;然后,重复上面的步骤。把切分成功的句子 放入分词表,切分失败的句子放入碎片表。
[0035] 同时,采用最大反向匹配进行处理,取第一句话字串长度M,对比词典最长字串F, 如果M〈F,则整句与词典中字串为M的进行匹配;如果匹配成功,则把这个匹配字段作为一 个词切分出来,放入分词统计表中,从下一句开始重复匹配。如果匹配失败,把匹配字段的 最前一个字去掉,并和词典中的M-I字串进行匹配,如果匹配成功则放入分词表中,否则把 匹配字串的后一个字去掉,不断重复,直到匹配成功或者字串长度为0。如果M>F,则取句子 前F个字串进行匹配;然后,重复上面的步骤。把切分成功的句子放入分词表,切分失败的 句子放入碎片表。
[0036] 进一步的,对比正反向匹配法切分成功的句子分词量,如果两种分词方法得到的 匹配结果相同,则认为分词正确,否则,按最小集处理,最后生成新的文本分词表。
[0037] S103、对所述文本分词表中的各个词汇进行词频分析,构建文本向量空间矩阵。
[0038] 具体实现中,词频分析主要是统计在步骤S102中生成的文本分词表包含的各词 出现的频数,包括单个文本中一个词出现的频数n,以及出现这个词的文本集数量d,最终 形成各特征项频率矩阵。主要步骤为:统计词汇T(i)在各文本中出现的次数n (i)、在所有 文本集中出现的总次数F以及出现T (i)这个词的文本集数量d(i),形成特征频率矩阵,并 对总次数F按从大到小对频率矩阵进行排序,进而得到类似于表1的特征项频率矩阵:
[0039] 表 1
[0040]
【主权项】
1. 一种信息处理方法,其特征在于,包括: 解析预先获取的超文本标记语言HTML文档集,提取所述HTML文档集包含的文本数据 集; 对所述文本数据集进行分词处理,获取文本分词表; 对所述文本分词表中的各个词汇进行词频分析,构建文本向量空间矩阵; 消除所述文本向量空间矩阵中的离散点文本向量,并获取消除离散点文本向量后的所 述文本向量空间矩阵中各个文本向量间的文本相似度矩阵; 根据所述文本相似度矩阵,对所述文本数据集进行话题聚类。
2. 根据权利要求1所述的方法,其特征在于,所述对所述文本分词表中的各个词汇进 行词频分析,构建文本向量空间矩阵,包括: 对所述文本分词表中的各个词汇进行词频分析,获取大于预设频率阔值的高频词汇 集,并生成所述文本分词表的特征项频率矩阵; 根据所述特征项频率矩阵,生成所述文本分词表的特征项权重矩阵; 从所述特征项权重矩阵中,获取与所述高频词汇集中各个高频词汇匹配的权重值,构 建文本向量空间矩阵。
3. 根据权利要求1所述的方法,其特征在于,所述解析预先获取的超文本标记语言 HTML文档集之前,还包括; 获取目标统一资源定位符U化集中每一个U化对应的超文本标记语言HTML文档,并生 成HTML文档集。
4. 根据权利要求1所述的方法,其特征在于,所述消除所述文本向量空间矩阵中的离 散点文本向量,包括: 获取所述文本向量空间矩阵中所有文本向量的相似密度值; 将相似密度值小于预设的相似密度阔值对应的文本向量从所述文本向量空间矩阵中 去除,W消除离散点文本向量。
5. 根据权利要求1?4中任一项所述的方法,其特征在于,还包括: 生成目标事件信息; 其中,所述目标事件信息包括;标题、网址、内容和时间。
6. -种信息处理装置,其特征在于,包括: 提取模块,用于解析预先获取的超文本标记语言HTML文档集,提取所述HTML文档集包 含的文本数据集; 第一获取模块,用于对所述文本数据集进行分词处理,获取文本分词表; 构建模块,用于对所述文本分词表中的各个词汇进行词频分析,构建文本向量空间矩 阵; 处理模块,用于消除所述文本向量空间矩阵中的离散点文本向量,并获取消除离散点 文本向量后的所述文本向量空间矩阵中各个文本向量间的文本相似度矩阵; 聚类模块,用于根据所述文本相似度矩阵,对所述文本数据集进行话题聚类。
7. 根据权利要求6所述的装置,其特征在于,所述构建模块包括: 获取单元,用于对所述文本分词表中的各个词汇进行词频分析,获取大于预设频率阔 值的高频词汇集,并生成所述文本分词表的特征项频率矩阵; 生成单元,用于根据所述特征项频率矩阵,生成所述文本分词表的特征项权重矩阵; 构建单元,用于从所述特征项权重矩阵中,获取与所述高频词汇集中各个高频词汇匹 配的权重值,构建文本向量空间矩阵。
8. 根据权利要求6所述的装置,其特征在于,还包括: 第二获取模块,用于获取目标统一资源定位符U化集中每一个U化对应的超文本标记 语言HTML文档,并生成HTML文档集。
9. 根据权利要求6所述的装置,其特征在于,所述处理模块具体用于: 获取所述文本向量空间矩阵中所有文本向量的相似密度值; 将相似密度值小于预设的相似密度阔值对应的文本向量从所述文本向量空间矩阵中 去除,W消除离散点文本向量。
10. 根据权利要求6?9中任一项所述的装置,其特征在于,还包括: 输出模块,用于生成目标事件信息; 其中,所述目标事件信息包括;标题、网址、内容和时间。
【专利摘要】本发明实施例公开了一种信息处理方法及装置,所述方法包括:解析预先获取的超文本标记语言HTML文档集,提取所述HTML文档集包含的文本数据集;对所述文本数据集进行分词处理,获取文本分词表;对所述文本分词表中的各个词汇进行词频分析,构建文本向量空间矩阵;消除所述文本向量空间矩阵中的离散点文本向量,并获取消除离散点文本向量后的所述文本向量空间矩阵中各个文本向量间的文本相似度矩阵;根据所述文本相似度矩阵,对所述文本数据集进行话题聚类。本发明实施例可以实现准确地构建词表,并在消除离散点后再进行话题聚类,从而提高了话题聚类的速度和准确度。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104598532
【申请号】CN201410837198
【发明人】李慧, 苏茂金, 成旭强, 刘卉芳, 王保华, 万源沅, 刘辉, 蒙小辉, 林振华, 彭宇山, 郭伟
【申请人】中国联合网络通信有限公司广东省分公司, 北京亚信智慧数据科技有限公司
【公开日】2015年5月6日
【申请日】2014年12月29日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1