一种信息处理方法及装置的制造方法

文档序号：8282353阅读：168来源：国知局

一种信息处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网技术领域，具体涉及一种信息处理方法及装置。
【背景技术】
[0002] 随着互联网技术的快速发展，人们通过互联网获取热点信息也变的越来越频繁，如何为人们从互联网上的海量数据中提取出最新的热点话题已成为一个重要的研宄课题。
[0003] 现有技术中，人工从数据源中提取至少两个词汇并组成词表，并根据词表中各个词汇的权重选出至少两个词汇作为关键词，进而根据关键词之间的相似度直接对关键词进行话题聚类，然而，直接通过从数据源中提取至少两个词汇组成词表而不考虑提取的词汇在数据源中出现的频率，会导致词表的生成具有一定的误差，同时，对关键词进行话题聚类前并未除去其中的离散点，会降低话题聚类的速度和准确度。如何准确地构建词表，提高话题聚类的速度和准确度已成为亟待解决的问题。

【发明内容】

[0004] 本发明实施例提供了一种信息处理方法及装置，可以实现准确地构建词表，并在消除离散点后再进行话题聚类，从而提高了话题聚类的速度和准确度。
[0005] 本发明实施例提供了一种信息处理方法，包括：
[0006] 解析预先获取的超文本标记语言HTML文档集，提取所述HTML文档集包含的文本数据集；
[0007] 对所述文本数据集进行分词处理，获取文本分词表；
[0008] 对所述文本分词表中的各个词汇进行词频分析，构建文本向量空间矩阵；
[0009] 消除所述文本向量空间矩阵中的离散点文本向量，并获取消除离散点文本向量后的所述文本向量空间矩阵中各个文本向量间的文本相似度矩阵；
[0010] 根据所述文本相似度矩阵，对所述文本数据集进行话题聚类。
[0011] 本发明实施例还提供了一种信息处理装置，包括：
[0012] 提取模块，用于解析预先获取的超文本标记语言HTML文档集，提取所述HTML文档集包含的文本数据集；
[0013] 第一获取模块，用于对所述文本数据集进行分词处理，获取文本分词表；
[0014] 构建模块，用于对所述文本分词表中的各个词汇进行词频分析，构建文本向量空间矩阵；
[0015] 处理模块，用于消除所述文本向量空间矩阵中的离散点文本向量，并获取消除离散点文本向量后的所述文本向量空间矩阵中各个文本向量间的文本相似度矩阵；
[0016] 聚类模块，用于根据所述文本相似度矩阵，对所述文本数据集进行话题聚类。
[0017] 本发明实施例所描述的方法可解析预先获取的超文本标记语言HTML文档集，提取该HTML文档集包含的文本数据集，对该文本数据集进行分词处理，获取文本分词表，并对该文本分词表中的各个词汇进行词频分析，构建文本向量空间矩阵，进而消除该文本向量空间矩阵中的离散点文本向量，获取消除离散点文本向量后的该文本向量空间矩阵中各个文本向量间的文本相似度矩阵，最后根据该文本相似度矩阵，对该文本数据集进行话题聚类，可以实现准确地构建词表，并在消除离散点后再进行话题聚类，从而提高了话题聚类的速度和准确度。
【附图说明】
[0018] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0019] 图1是本发明实施例提供的一种信息处理方法的第一实施例流程示意图；
[0020] 图2是本发明实施例提供的一种信息处理方法的第二实施例流程示意图；
[0021] 图3是本发明实施例提供的一种信息处理装置的第一实施例结构示意图；
[0022] 图4是本发明实施例提供的一种信息处理装置的第二实施例结构示意图。
【具体实施方式】
[0023] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0024] 请参阅图1，为本发明实施例提供的一种信息处理方法的第一实施例流程示意图。本实施例中所描述的方法，包括以下步骤：
[0025] SlOl、解析预先获取的超文本标记语言HTML文档集，提取所述HTML文档集包含的文本数据集。
[0026] 在一些可行的实施方式中，可利用网络爬虫预先获取目标统一资源定位符URL集中每一个URL对应的超文本标记语言HTML文档，并生成HTML文档集。
[0027] 其中，网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分。
[0028] 具体的，采用网络爬虫对网络上HTML文本进行采集，网络爬虫从一个或若干个初始网页的URL开始，获取初始网页上的URL，在抓取网页的过程中，不断从网页上抓取新的 URL放入队列，并且过滤掉不满足要求的网页，直到满足要求的停止条件。本发明实施例可设置过滤条件：剔除视频地址、图片地址、音频地址和下载地址等。判断获取的URL地址是否满足上述过滤条件，如果不满足则保存此HTML文档；如果满足则停止。按照上述方法把所有URL地址都搜索一遍，最后生成HTML文档集。
[0029] 其中，通过网络爬虫下载得到的网页是HTML格式的，其中包含大量与热点事件挖掘无关的代码和信息，这些是提供给浏览器用的标签，而文本提取就是要去除这些无关标签后的信息，得到新闻标题和新闻内容，并且以文本的形式进行存储。
[0030] 在一些可行的实施方式中，在充分分析新闻网页标签结构后，以正则表达式为基础进行匹配标题、正文。考虑到网络结构复杂，实际下载的网页中会存在大量的广告、链接等噪音网页夹杂在新闻网页中被下载进入数据库，这些网页是无信息价值的，因此在进行文本抽取后通过设定新闻报道字数的阈值来过滤掉噪音网页。本发明实施例可设置过滤条件：过滤文档内容长度小于200字的文档，具体字数可根据实际情况进行调整，本发明实施例不做限定。
[0031] 具体实现中，设定提取内容和过滤条件，根据设定的过滤条件对每个HTML文档进行过滤，并获取HTML文档的内容，进而提取出过滤后的文本数据集，过滤后的文本数据集可包括：URL、标题、关键字、摘要、具体内容等。
[0032] S102、对所述文本数据集进行分词处理，获取文本分词表。
[0033] 在一些可行的实施方式中，本发明实施例采用词典和统计相结合的符合分词方法，先通过基于词典的正反向最大匹配算法对待分词的文本进行处理，根据标点对文本进行粗切分，把文本分解成若干个句子，然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分，如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小集处理。再通

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李慧;苏茂金;成旭强;刘卉芳;王保华;万源沅;刘辉;蒙小辉;林振华;彭宇山;郭伟;
技术所有人：中国联合网络通信有限公司广东省分公司;北京亚信智慧数据科技有限公司;
我是此专利的发明人

上一篇：一种文件扩展属性的存储方法
上一篇：一种基于触发器的异构关系型数据库间增量数据迁移方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。