一种信息处理方法及装置的制造方法

文档序号:8282353阅读:168来源:国知局
一种信息处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网技术领域,具体涉及一种信息处理方法及装置。
【背景技术】
[0002] 随着互联网技术的快速发展,人们通过互联网获取热点信息也变的越来越频繁, 如何为人们从互联网上的海量数据中提取出最新的热点话题已成为一个重要的研宄课题。
[0003] 现有技术中,人工从数据源中提取至少两个词汇并组成词表,并根据词表中各个 词汇的权重选出至少两个词汇作为关键词,进而根据关键词之间的相似度直接对关键词进 行话题聚类,然而,直接通过从数据源中提取至少两个词汇组成词表而不考虑提取的词汇 在数据源中出现的频率,会导致词表的生成具有一定的误差,同时,对关键词进行话题聚类 前并未除去其中的离散点,会降低话题聚类的速度和准确度。如何准确地构建词表,提高话 题聚类的速度和准确度已成为亟待解决的问题。

【发明内容】

[0004] 本发明实施例提供了一种信息处理方法及装置,可以实现准确地构建词表,并在 消除离散点后再进行话题聚类,从而提高了话题聚类的速度和准确度。
[0005] 本发明实施例提供了一种信息处理方法,包括:
[0006] 解析预先获取的超文本标记语言HTML文档集,提取所述HTML文档集包含的文本 数据集;
[0007] 对所述文本数据集进行分词处理,获取文本分词表;
[0008] 对所述文本分词表中的各个词汇进行词频分析,构建文本向量空间矩阵;
[0009] 消除所述文本向量空间矩阵中的离散点文本向量,并获取消除离散点文本向量后 的所述文本向量空间矩阵中各个文本向量间的文本相似度矩阵;
[0010] 根据所述文本相似度矩阵,对所述文本数据集进行话题聚类。
[0011] 本发明实施例还提供了一种信息处理装置,包括:
[0012] 提取模块,用于解析预先获取的超文本标记语言HTML文档集,提取所述HTML文档 集包含的文本数据集;
[0013] 第一获取模块,用于对所述文本数据集进行分词处理,获取文本分词表;
[0014] 构建模块,用于对所述文本分词表中的各个词汇进行词频分析,构建文本向量空 间矩阵;
[0015] 处理模块,用于消除所述文本向量空间矩阵中的离散点文本向量,并获取消除离 散点文本向量后的所述文本向量空间矩阵中各个文本向量间的文本相似度矩阵;
[0016] 聚类模块,用于根据所述文本相似度矩阵,对所述文本数据集进行话题聚类。
[0017] 本发明实施例所描述的方法可解析预先获取的超文本标记语言HTML文档集,提 取该HTML文档集包含的文本数据集,对该文本数据集进行分词处理,获取文本分词表,并 对该文本分词表中的各个词汇进行词频分析,构建文本向量空间矩阵,进而消除该文本向 量空间矩阵中的离散点文本向量,获取消除离散点文本向量后的该文本向量空间矩阵中各 个文本向量间的文本相似度矩阵,最后根据该文本相似度矩阵,对该文本数据集进行话题 聚类,可以实现准确地构建词表,并在消除离散点后再进行话题聚类,从而提高了话题聚类 的速度和准确度。
【附图说明】
[0018] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0019] 图1是本发明实施例提供的一种信息处理方法的第一实施例流程示意图;
[0020] 图2是本发明实施例提供的一种信息处理方法的第二实施例流程示意图;
[0021] 图3是本发明实施例提供的一种信息处理装置的第一实施例结构示意图;
[0022] 图4是本发明实施例提供的一种信息处理装置的第二实施例结构示意图。
【具体实施方式】
[0023] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0024] 请参阅图1,为本发明实施例提供的一种信息处理方法的第一实施例流程示意图。 本实施例中所描述的方法,包括以下步骤:
[0025] SlOl、解析预先获取的超文本标记语言HTML文档集,提取所述HTML文档集包含的 文本数据集。
[0026] 在一些可行的实施方式中,可利用网络爬虫预先获取目标统一资源定位符URL集 中每一个URL对应的超文本标记语言HTML文档,并生成HTML文档集。
[0027] 其中,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页, 是搜索引擎的重要组成部分。
[0028] 具体的,采用网络爬虫对网络上HTML文本进行采集,网络爬虫从一个或若干个初 始网页的URL开始,获取初始网页上的URL,在抓取网页的过程中,不断从网页上抓取新的 URL放入队列,并且过滤掉不满足要求的网页,直到满足要求的停止条件。本发明实施例可 设置过滤条件:剔除视频地址、图片地址、音频地址和下载地址等。判断获取的URL地址是 否满足上述过滤条件,如果不满足则保存此HTML文档;如果满足则停止。按照上述方法把 所有URL地址都搜索一遍,最后生成HTML文档集。
[0029] 其中,通过网络爬虫下载得到的网页是HTML格式的,其中包含大量与热点事件挖 掘无关的代码和信息,这些是提供给浏览器用的标签,而文本提取就是要去除这些无关标 签后的信息,得到新闻标题和新闻内容,并且以文本的形式进行存储。
[0030] 在一些可行的实施方式中,在充分分析新闻网页标签结构后,以正则表达式为基 础进行匹配标题、正文。考虑到网络结构复杂,实际下载的网页中会存在大量的广告、链接 等噪音网页夹杂在新闻网页中被下载进入数据库,这些网页是无信息价值的,因此在进行 文本抽取后通过设定新闻报道字数的阈值来过滤掉噪音网页。本发明实施例可设置过滤条 件:过滤文档内容长度小于200字的文档,具体字数可根据实际情况进行调整,本发明实施 例不做限定。
[0031] 具体实现中,设定提取内容和过滤条件,根据设定的过滤条件对每个HTML文档进 行过滤,并获取HTML文档的内容,进而提取出过滤后的文本数据集,过滤后的文本数据集 可包括:URL、标题、关键字、摘要、具体内容等。
[0032] S102、对所述文本数据集进行分词处理,获取文本分词表。
[0033] 在一些可行的实施方式中,本发明实施例采用词典和统计相结合的符合分词方 法,先通过基于词典的正反向最大匹配算法对待分词的文本进行处理,根据标点对文本进 行粗切分,把文本分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹 配法进行扫描切分,如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最 小集处理。再通
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1