信息挖掘方法和装置的制造方法

文档序号:9810619阅读:243来源:国知局
信息挖掘方法和装置的制造方法
【技术领域】
[0001]本申请涉及计算机技术领域,具体涉及信息技术领域,尤其涉及信息挖掘方法和
目.0
【背景技术】
[0002]随着信息化技术突飞猛进的发展,使得互联网中包含了海量的信息内容。舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。而信息内容中的舆情词汇搭配对能够反映信息的核心内容,可以用来进行文本分析中的逻辑推导。目前,中文的词语搭配对主要是基于人工采集,没有针对具体领域的词汇搭配对集合和成熟稳定的词汇搭配对挖掘方法。人工采集词语搭配对工作,对分析人员的领域知识和语言能力要求很高,整理过程也很繁琐复杂,因此亟需一种自动化的挖掘方法来建立领域内词语搭配对集合。

【发明内容】

[0003]本申请的目的在于提出一种改进的信息挖掘方法和装置,来解决以上【背景技术】部分提到的技术问题。
[0004]第一方面,本申请提供了一种信息挖掘方法,所述方法包括:对获取的文本信息进行句子切分得到分句集合;根据预先设定的舆情词汇集合从所述分句集合中选取至少一个候选分句;基于领域词典对所述至少一个候选分句进行分词处理,并对分词处理后得到的各个词汇进行依存分析,得到至少一个候选词汇搭配对;根据所述舆情词汇集合从所述至少一个候选词汇搭配对中选取至少一个词汇搭配对,作为从所述文本信息中挖掘出的第一词汇搭配对集合。
[0005]在一些实施例中,所述方法还包括:对所述第一词汇搭配对集合中的各个词汇搭配对进行向量化得到各个词汇搭配对所对应的多维向量;基于预先训练的支持向量机模型对多维向量进行匹配,得出与多维向量相匹配的第二词汇搭配对集合,其中,所述支持向量机模型用于表征多维向量与词汇搭配对的对应关系。
[0006]在一些实施例中,所述多维向量的维度信息包括以下至少一种:第一词汇的频度、第二词汇的频度、第一词汇与第二词汇的平均间隔距离、第一词汇和第二词汇之间的点互信息、第一词汇的词向量、第二词汇的词向量,其中,第一词汇和第二词汇是组成词汇搭配对的两个词汇,频度是词汇出现的次数与总词汇量的比值。
[0007]在一些实施例中,所述方法还包括:将词汇搭配对集合中的各个词汇搭配对进行泛化处理,得到第三词汇搭配对集合,其中,所述词汇搭配对集合为第一词汇搭配对集合或第二词汇搭配对集合。
[0008]在一些实施例中,所述对获取的文本信息进行句子切分得到分句集合,包括:根据获取的文本信息中的标点符号,将所述文本信息中的句子进行切分,得到所述文本信息的分句集合。
[0009]在一些实施例中,所述根据预先设定的舆情词汇集合从所述分句集合中选取至少一个候选分句,包括:根据所述舆情词汇集合建立单词查找树;依据所述单词查找树判断所述分句集合中的各个分句中是否包含所述舆情词汇集合中的词汇,如果包括,则选取该分句为候选分句。
[0010]第二方面,本申请提供了一种信息挖掘装置,所述装置包括:切分单元,配置用于对获取的文本信息进行句子切分得到分句集合;选取单元,配置用于根据预先设定的舆情词汇集合从所述分句集合中选取至少一个候选分句;分析单元,配置用于基于领域词典对所述至少一个候选分句进行分词处理,并对分词处理后得到的各个词汇进行依存分析,得到至少一个候选词汇搭配对;挖掘单元,配置用于根据所述舆情词汇集合从所述至少一个候选词汇搭配对中选取至少一个词汇搭配对,作为从所述文本信息中挖掘出的第一词汇搭配对集合。
[0011]在一些实施例中,所述装置还包括:向量化单元,配置用于对所述第一词汇搭配对集合中的各个词汇搭配对进行向量化得到各个词汇搭配对所对应的多维向量;匹配单元,配置用于基于预先训练的支持向量机模型对多维向量进行匹配,得出与多维向量相匹配的第二词汇搭配对集合,其中,所述支持向量机模型用于表征多维向量与词汇搭配对的对应关系。
[0012]在一些实施例中,所述多维向量的维度信息包括以下至少一种:第一词汇的频度、第二词汇的频度、第一词汇与第二词汇的平均间隔距离、第一词汇和第二词汇之间的点互信息、第一词汇的词向量、第二词汇的词向量,其中,第一词汇和第二词汇是组成词汇搭配对的两个词汇,频度是词汇出现的次数与总词汇量的比值。
[0013]在一些实施例中,所述装置还包括:处理单元,配置用于将词汇搭配对集合中的各个词汇搭配对进行泛化处理,得到第三词汇搭配对集合,其中,所述词汇搭配对集合为第一词汇搭配对集合或第二词汇搭配对集合。
[0014]在一些实施例中,所述切分单元进一步配置用于:根据获取的文本信息中的标点符号,将所述文本信息中的句子进行切分,得到所述文本信息的分句集合。
[0015]在一些实施例中,所述选取单元进一步配置用于:根据所述舆情词汇集合建立单词查找树;依据所述单词查找树判断所述分句集合中的各个分句中是否包含所述舆情词汇集合中的词汇,如果包括,则选取该分句为候选分句。
[0016]本申请提供的信息挖掘方法和装置,通过根据预先设定的舆情词汇集合选取候选分句,而后基于具体领域的领域词典对候选分句进行分词,并对分词得到的各个词汇进行依存分析得到候选词汇搭配对,最后再根据舆情词汇集合选取词汇搭配对,从而针对具体领域自动生成词汇搭配对,实现了快速、精确的信息挖掘。
【附图说明】
[0017]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0018]图1是本申请可以应用于其中的示例性系统架构图;
[0019]图2是根据本申请的信息挖掘方法的一个实施例的流程图;
[0020]图3是根据本申请的信息挖掘方法的又一个实施例的流程图;
[0021]图4是根据本申请的信息挖掘装置的一个实施例的结构示意图;
[0022]图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
【具体实施方式】
[0023]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0024]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0025]图1示出了可以应用本申请的信息挖掘方法或信息挖掘装置的实施例的示例性系统架构100。
[0026]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1