信息挖掘方法、电子装置及可读存储介质与流程

文档序号:11199267
信息挖掘方法、电子装置及可读存储介质与流程

本发明涉及计算机技术领域,尤其涉及一种信息挖掘方法、电子装置及可读存储介质。



背景技术:

目前,在信息挖掘和推送领域,业界通常是实时或者定时在预先确定的数据源(例如,各大新闻网站)对特定类型的信息(例如,新闻标题信息)进行分析筛选,以自动挖掘出目标信息。现有的分析筛选方案是:预先训练好识别信息的类别标签的分类器;再利用训练好的分类器对特定类型的信息的类别标签进行识别,以识别出属于预设类别标签的目标信息。这种现有的分析筛选方案只能识别出属于预设类别标签的目标信息,无法对目标信息指向的核心观点信息进行深度挖掘,使得目标信息的挖掘和推送的准确性无法保障,容易出错。



技术实现要素:

本发明的主要目的在于提供一种信息挖掘方法、电子装置及可读存储介质,旨在有效挖掘出核心观点信息。

为实现上述目的,本发明提供的一种信息挖掘方法,所述方法包括以下步骤:

实时或者定时从预先确定的数据源获取特定类型的信息;

对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;

根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;

在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。

优选地,所述对获取的各个信息进行分词处理的步骤包括:

根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;

根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;

若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;

若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;

若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;

若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。

优选地,所述对各个信息对应的各个分词进行词性标注的步骤包括:

根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;

为各个信息的各个分词标注对应的词性。

优选地,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:

a1、在各个信息对应的各个分词中,找出各个预设词性的目标分词;

a2、根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;

a3、若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;

a4、若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;

a5、重复执行上述步骤a3和a4,直到确定出各个节点分支的最后一级节点对应的分词。

优选地,所述根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息的步骤包括:

基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;

分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。

此外,为实现上述目的,本发明还提供一种电子装置,所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息挖掘系统,所述信息挖掘系统被所述处理器执行时实现如下步骤:

实时或者定时从预先确定的数据源获取特定类型的信息;

对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注;

根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;

在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。

优选地,所述对获取的各个信息进行分词处理的步骤包括:

根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;

根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;

若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该信息的分词结果;

若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该信息的分词结果;

若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该信息的分词结果;

若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该信息的分词结果。

优选地,所述对各个信息对应的各个分词进行词性标注的步骤包括:

根据通用字词典库中字和词分别与词性的映射关系,及/或,预设的字和词分别与词性的映射关系,确定各个信息的各个分词对应的词性;为各个信息的各个分词标注对应的词性。

优选地,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,所述根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树的步骤包括:

在各个信息对应的各个分词中,找出各个预设词性的目标分词;根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语,直到确定出各个节点分支的最后一级节点对应的分词。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有信息挖掘系统,所述信息挖掘系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的信息挖掘方法的步骤。

本发明提出的信息挖掘方法、电子装置及可读存储介质,对从数据源获取的特定类型的信息进行分词及对各个分词进行词性标注,并根据各个分词的顺序和词性构建预设结构分词树,基于构建的预设结构分词树解析出该信息对应的核心观点信息。由于能对获取的信息进行分词,并根据各个分词的词性构建预设结构分词树,利用预设结构分词树来挖掘信息中各个分词的深度联系以得到核心观点信息,从而实现对信息的深度挖掘,准确获取到信息中的核心观点信息。

附图说明

图1为本发明信息挖掘系统10较佳实施例的运行环境示意图;

图2为本发明信息挖掘系统10一实施例的功能模块示意图;

图3为本发明信息挖掘方法一实施例中预设结构分词树的示意图;

图4为本发明信息挖掘方法一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种信息挖掘系统。请参阅图1,是本发明信息挖掘系统10较佳实施例的运行环境示意图。

在本实施例中,所述的信息挖掘系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述信息挖掘系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述信息挖掘系统10等。

所述显示器13在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如应用菜单界面、应用图标界面等。所述电子装置1的部件11-13通过系统总线相互通信。

请参阅图2,是本发明信息挖掘系统10较佳实施例的功能模块图。在本实施例中,所述的信息挖掘系统10可以被分割成一个或多个模块,所述一个或者多个模块被存储于所述存储器11中,并由一个或多个处理器(本实施例为所述处理器12)所执行,以完成本发明。例如,在图2中,所述的信息挖掘系统10可以被分割成获取模块01、分词模块02、构建模块03、解析模块04;上述各模块包括一系列计算机程序指令段,这些计算机程序指令段可被处理器12执行,以实现本申请各实施例所提供的对应的功能。以下描述将具体介绍所述模块01-04的功能。

获取模块01,用于实时或者定时从预先确定的数据源获取特定类型的信息。例如,可通过网络爬虫等工具实时或者定时从预先确定的数据源(例如,各大新闻网站、论坛等)获取特定类型的信息(例如,新闻标题信息、索引信息、简介信息等)。

分词模块02,用于对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注。对从数据源中获取到的特定类型的各个信息后,可对获取的各个信息进行分词处理。例如,可利用字符串匹配的分词方法对各个信息进行分词处理,如正向最大匹配法,把一个信息中的字符串从左至右来分词,即从左到右将待分词的信息文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词;或者,反向最大匹配法,把一个信息中的字符串从右至左来分词,即从待分词的信息文本的末端开始匹配扫描,从右至左将待分词的信息文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词;或者,最短路径分词法,一个信息中的字符串里面要求切出的词数是最少的;或者,双向最大匹配法,正反向同时进行分词匹配。还可利用词义分词法对各个信息进行分词处理,词义分词法是一种机器语音判断的分词方法,利用句法信息和语义信息来处理歧义现象来分词。还可利用统计分词法对各个信息进行分词处理,从当前用户的历史搜索记录或大众用户的历史搜索记录中,根据词组的统计,会统计有些两个相邻的字出现的频率较多,则可将这两个相邻的字作为词组来进行分词。对获取的各个信息完成分词处理后,可对各个信息对应的各个分词(包括词组和单字)进行词性标注。例如,所述词性包括:实词—名词、动词、形容词、数量词、代词等;虚词—副词、介词、连词、助词、叹词、拟声词等。

构建模块03,用于根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树;

解析模块04,用于在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。

对各个信息对应的各个分词进行词性标注后,根据各个信息中各个分词的顺序以及各个分词标注的词性,将各个信息对应的各个分词构建成预设结构分词树。如可设置预设结构分词树中不同词性对应的节点级别,将一个信息中的各个分词作为不同节点,构建该信息对应的预设结构分词树;还可将不同词性的分词组成分词短语,以与各个分词形成不同的节点级别,构建该信息对应的预设结构分词树。在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。例如,可设置某一词性的分词为核心信息,或从历史搜索记录中统计确定出核心信息对应的词性的分词,将该词性设置为核心词性,则在该信息对应的预设结构分词树中找出属于核心词性,且在预设结构分词树中到主节点的节点距离最短的分词,作为该信息对应的核心观点信息。还可设置多个核心词性,在该信息对应的预设结构分词树中找出属于核心词性的多个分词,且找到预设结构分词树中属于核心词性的多个分词之间节点距离最短的分词组合,将该分词组合对应的信息作为该信息的核心观点信息。

本实施例对从数据源获取的特定类型的信息进行分词及对各个分词进行词性标注,并根据各个分词的顺序和词性构建预设结构分词树,基于构建的预设结构分词树解析出该信息对应的核心观点信息。由于能对获取的信息进行分词,并根据各个分词的词性构建预设结构分词树,利用预设结构分词树来挖掘信息中各个分词的深度联系以得到核心观点信息,从而实现对信息的深度挖掘,准确获取到信息中的核心观点信息。

进一步地,在其他实施例中,在根据该信息对应的预设结构分词树解析出该信息对应的核心观点信息之后,上述解析模块04还用于:

利用预先训练好的分类器识别出该信息的核心观点信息对应的分类标签;若识别出的分类标签属于预先确定的分类标签,则将该信息的全部内容,及/或,该信息的全部内容的链接地址推送给预先确定的终端。例如,若用户感兴趣的为体育类的信息,则可预先确定分类标签为“体育”,在解析出从数据源得到的信息中的核心观点信息之后,可进一步地识别出该信息的核心观点信息对应的分类标签,若识别出的分类标签属于“体育”类标签,则判断该信息为用户感兴趣的信息,则将该信息的全部内容,及/或,该信息的全部内容的链接地址推送给预先确定的终端如用户的手机、平板电脑等,从而实现目标信息的有效挖掘和精准推送。

进一步地,在其他实施例中,上述分词模块02还用于:

根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果;

根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果。其中,所述第一匹配结果中包含有第一数量的第一词组,所述第二匹配结果中包含有第二数量的第二词组;所述第一匹配结果中包含有第三数量的单字,所述第二匹配结果中包含有第四数量的单字。

若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则输出所述第一匹配结果(包括词组和单字);

若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则输出所述第二匹配结果(包括词组和单字);

若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则输出所述第二匹配结果(包括词组和单字);

若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则输出所述第一匹配结果(包括词组和单字)。

本实施例中采用双向匹配法来对获取的各个信息进行分词处理,通过正反向同时进行分词匹配来分析各个信息待处理的字符串中前后组合内容的粘性,由于通常情况下词组能代表核心观点信息的概率更大,即通过词组更能表达出核心观点信息。因此,通过正反向同时进行分词匹配找出单字数量更少,词组数量更多的分词匹配结果,以作为信息的分词结果,从而提高分词及信息挖掘的准确性。

进一步地,在其他实施例中,上述分词模块02还用于:

根据通用字词典库中字和词分别与词性的映射关系(例如,通用字词典库中,操场对应的词性是名词),及/或,预设的字和词分别与词性的映射关系(例如,预设的字和词分别与词性的映射关系中,操场对应的词性是常用名词),确定各个信息的各个分词对应的词性,并为各个信息的各个分词标注对应的词性。其中,预设的字和词分别与词性的映射关系的词性标注优先级高于通用字词典库中字和词分别与词性的映射关系。例如,若通用字词典库中操场对应的词性是名词,而预设的字和词分别与词性的映射关系中操场对应的词性是常用名词,则优先按照预设的字和词分别与词性的映射关系来标注,即对操场标注的词性为常用名词。

进一步地,在其他实施例中,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,上述构建模块03还用于:

在各个信息对应的各个分词中,找出各个预设词性的目标分词;根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语,直到确定出各个节点分支的最后一级节点对应的分词。

上述解析模块04还用于:

基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。

在一种具体实施方式中,如图3所示,该信息为“我去操场踢足球”,对应的分词结果为“我去操场踢足球”,词性标注的结果为“我/代词去/动词操场/常用名词踢足球/常用名词”。为该信息“我去操场踢足球”构建的预设结构分词树参见图3所示,该预设结构分词树包括多级节点,第一级节点为信息本身,第二级节点为分词短语(例如,名词短语、动词短语及断句符如“。”)。本实施例中,在各个信息对应的各个分词中,找出各个预设词性“例如,名词、动词等”的目标分词;根据信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语。第二级节点之后的每一级节点均是其上一级节点所对应的下一级分词或者分词短语,第三级节点为第二级节点的分词或者分词短语。如图3中所示,对该信息进行词性标注的结果为“我/代词去/动词操场/常用名词踢足球/常用名词”,根据该信息中各个分词的分词顺序如从左至右的顺序来确定第二级节点,预先设定第二级节点为分词短语包括名词短语、动词短语等,该信息中从左至右,“我”为代词属于名词短语,因此“我”确定为第二级节点,排序在“我”之后的“去”、“操场”、“踢足球”可组成动词短语“去操场踢足球”,因此,可确定“去操场踢足球”为第二级节点。因此,该信息的预设结构分词树中第二级节点包括“我”、“去操场踢足球”。进一步地,第二级节点“我”不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点。而作为第二级节点的动词短语“去操场踢足球”,可以进一步分词,则该第二级节点“去操场踢足球”的分词或者分词短语可作为第三级节点,该第三级节点包括动词“去”和名词短语“操场踢足球”,进一步地,名词短语“操场踢足球”还可以分为第四级节点“操场”、“踢足球”。若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性“例如,名词、动词等”的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点。

基于构建的预设结构分词树,计算各个第一关键词性(例如,动词)分词与各个第二关键词性(例如,名词)分词的距离,将各个第一关键词性分词与各个第二关键词性分词之间相隔的节点数作为所述距离。其中,第一关键词性、第二关键词性可根据实际需要自定义设定,或根据该用户的历史搜索记录中核心信息通常对应的词性进行相应设置。分别找出与各个第一关键词性分词距离最近的第二关键词性分词,分别将各个第一关键词性分词与距离其最近的第二关键词性分词按照在该信息中的顺序组成对应的核心观点信息。如图3中的“去操场”、“去踢足球”作为挖掘出的该信息“我去操场踢足球”对应的核心观点信息。

本发明进一步提供一种信息挖掘方法。

参照图4,图4为本发明信息挖掘方法一实施例的流程示意图。

在一实施例中,该信息挖掘方法包括:

步骤s10,实时或者定时从预先确定的数据源获取特定类型的信息。例如,可通过网络爬虫等工具实时或者定时从预先确定的数据源(例如,各大新闻网站、论坛等)获取特定类型的信息(例如,新闻标题信息、索引信息、简介信息等)。

步骤s20,对获取的各个信息进行分词处理,并对各个信息对应的各个分词进行词性标注。

对从数据源中获取到的特定类型的各个信息后,可对获取的各个信息进行分词处理。例如,可利用字符串匹配的分词方法对各个信息进行分词处理,如正向最大匹配法,把一个信息中的字符串从左至右来分词,即从左到右将待分词的信息文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词;或者,反向最大匹配法,把一个信息中的字符串从右至左来分词,即从待分词的信息文本的末端开始匹配扫描,从右至左将待分词的信息文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词;或者,最短路径分词法,一个信息中的字符串里面要求切出的词数是最少的;或者,双向最大匹配法,正反向同时进行分词匹配。还可利用词义分词法对各个信息进行分词处理,词义分词法是一种机器语音判断的分词方法,利用句法信息和语义信息来处理歧义现象来分词。还可利用统计分词法对各个信息进行分词处理,从当前用户的历史搜索记录或大众用户的历史搜索记录中,根据词组的统计,会统计有些两个相邻的字出现的频率较多,则可将这两个相邻的字作为词组来进行分词。

对获取的各个信息完成分词处理后,可对各个信息对应的各个分词(包括词组和单字)进行词性标注。例如,所述词性包括:实词—名词、动词、形容词、数量词、代词等;虚词—副词、介词、连词、助词、叹词、拟声词等。

步骤s30,根据各个信息对应的各个分词的分词顺序和词性,将各个信息对应的各个分词构建成预设结构分词树。

步骤s40,在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。

对各个信息对应的各个分词进行词性标注后,根据各个信息中各个分词的顺序以及各个分词标注的词性,将各个信息对应的各个分词构建成预设结构分词树。如可设置预设结构分词树中不同词性对应的节点级别,将一个信息中的各个分词作为不同节点,构建该信息对应的预设结构分词树;还可将不同词性的分词组成分词短语,以与各个分词形成不同的节点级别,构建该信息对应的预设结构分词树。在一个信息对应的预设结构分词树构建完成后,根据该信息对应的预设结构分词树,解析出该信息对应的核心观点信息。例如,可设置某一词性的分词为核心信息,或从历史搜索记录中统计确定出核心信息对应的词性的分词,将该词性设置为核心词性,则在该信息对应的预设结构分词树中找出属于核心词性,且在预设结构分词树中到主节点的节点距离最短的分词,作为该信息对应的核心观点信息。还可设置多个核心词性,在该信息对应的预设结构分词树中找出属于核心词性的多个分词,且找到预设结构分词树中属于核心词性的多个分词之间节点距离最短的分词组合,将该分词组合对应的信息作为该信息的核心观点信息。

本实施例对从数据源获取的特定类型的信息进行分词及对各个分词进行词性标注,并根据各个分词的顺序和词性构建预设结构分词树,基于构建的预设结构分词树解析出该信息对应的核心观点信息。由于能对获取的信息进行分词,并根据各个分词的词性构建预设结构分词树,利用预设结构分词树来挖掘信息中各个分词的深度联系以得到核心观点信息,从而实现对信息的深度挖掘,准确获取到信息中的核心观点信息。

进一步地,在其他实施例中,在根据该信息对应的预设结构分词树解析出该信息对应的核心观点信息之后,该方法还包括:

利用预先训练好的分类器识别出该信息的核心观点信息对应的分类标签;若识别出的分类标签属于预先确定的分类标签,则将该信息的全部内容,及/或,该信息的全部内容的链接地址推送给预先确定的终端。例如,若用户感兴趣的为体育类的信息,则可预先确定分类标签为“体育”,在解析出从数据源得到的信息中的核心观点信息之后,可进一步地识别出该信息的核心观点信息对应的分类标签,若识别出的分类标签属于“体育”类标签,则判断该信息为用户感兴趣的信息,则将该信息的全部内容,及/或,该信息的全部内容的链接地址推送给预先确定的终端如用户的手机、平板电脑等,从而实现目标信息的有效挖掘和精准推送。

进一步地,在其他实施例中,上述步骤s20中对获取的各个信息进行分词处理的步骤包括:

根据正向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第一匹配结果;

根据逆向最大匹配法将每一信息中待处理的字符串与通用字词典库进行匹配,得到第二匹配结果。其中,所述第一匹配结果中包含有第一数量的第一词组,所述第二匹配结果中包含有第二数量的第二词组;所述第一匹配结果中包含有第三数量的单字,所述第二匹配结果中包含有第四数量的单字。

若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则输出所述第一匹配结果(包括词组和单字);

若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则输出所述第二匹配结果(包括词组和单字);

若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则输出所述第二匹配结果(包括词组和单字);

若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则输出所述第一匹配结果(包括词组和单字)。

本实施例中采用双向匹配法来对获取的各个信息进行分词处理,通过正反向同时进行分词匹配来分析各个信息待处理的字符串中前后组合内容的粘性,由于通常情况下词组能代表核心观点信息的概率更大,即通过词组更能表达出核心观点信息。因此,通过正反向同时进行分词匹配找出单字数量更少,词组数量更多的分词匹配结果,以作为信息的分词结果,从而提高分词及信息挖掘的准确性。

进一步地,在其他实施例中,上述步骤s20中对各个信息对应的各个分词进行词性标注的步骤包括:

根据通用字词典库中字和词分别与词性的映射关系(例如,通用字词典库中,操场对应的词性是名词),及/或,预设的字和词分别与词性的映射关系(例如,预设的字和词分别与词性的映射关系中,操场对应的词性是常用名词),确定各个信息的各个分词对应的词性,并为各个信息的各个分词标注对应的词性。其中,预设的字和词分别与词性的映射关系的词性标注优先级高于通用字词典库中字和词分别与词性的映射关系。例如,若通用字词典库中操场对应的词性是名词,而预设的字和词分别与词性的映射关系中操场对应的词性是常用名词,则优先按照预设的字和词分别与词性的映射关系来标注,即对操场标注的词性为常用名词。

进一步地,在其他实施例中,所述预设结构分词树包括多级节点,第一级节点为各个信息本身,第二级节点为分词短语,第二级节点之后的每一级节点均是上一级节点对应的下一级分词或者分词短语,上述步骤s30包括:

a1、在各个信息对应的各个分词中,找出各个预设词性的目标分词;

a2、根据各个信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语;具体地,可将后一个目标分词之前的字词作为前一个目标分词的分词短语;将最后一个目标分词及其之后的字词作为最后一个分词短语。

a3、若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点;

a4、若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;

a5、重复执行上述步骤a3和a4,直到确定出各个节点分支的最后一级节点对应的分词。

上述步骤s40包括:

基于构建的预设结构分词树,计算各个预设第一关键词性的分词与各个预设第二关键词性的分词之间的距离;

分别找出与各个预设第一关键词性的分词距离最近的预设第二关键词性的分词,并将各个预设第一关键词性的分词与距离其最近的预设第二关键词性的分词按照在该信息中的顺序组成对应的核心观点信息。

在一种具体实施方式中,如图3所示,图3为本发明信息挖掘方法一实施例中预设结构分词树的示意图。该信息为“我去操场踢足球”,对应的分词结果为“我去操场踢足球”,词性标注的结果为“我/代词去/动词操场/常用名词踢足球/常用名词”。为该信息“我去操场踢足球”构建的预设结构分词树参见图3所示,该预设结构分词树包括多级节点,第一级节点为信息本身,第二级节点为分词短语(例如,名词短语、动词短语及断句符如“。”)。本实施例中,在各个信息对应的各个分词中,找出各个预设词性“例如,名词、动词等”的目标分词;根据信息中各个目标分词的顺序,确定各个第二级节点对应的分词短语。第二级节点之后的每一级节点均是其上一级节点所对应的下一级分词或者分词短语,第三级节点为第二级节点的分词或者分词短语。如图3中所示,对该信息进行词性标注的结果为“我/代词去/动词操场/常用名词踢足球/常用名词”,根据该信息中各个分词的分词顺序如从左至右的顺序来确定第二级节点,预先设定第二级节点为分词短语包括名词短语、动词短语等,该信息中从左至右,“我”为代词属于名词短语,因此“我”确定为第二级节点,排序在“我”之后的“去”、“操场”、“踢足球”可组成动词短语“去操场踢足球”,因此,可确定“去操场踢足球”为第二级节点。因此,该信息的预设结构分词树中第二级节点包括“我”、“去操场踢足球”。进一步地,第二级节点“我”不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点。而作为第二级节点的动词短语“去操场踢足球”,可以进一步分词,则该第二级节点“去操场踢足球”的分词或者分词短语可作为第三级节点,该第三级节点包括动词“去”和名词短语“操场踢足球”,进一步地,名词短语“操场踢足球”还可以分为第四级节点“操场”、“踢足球”。若一个分词短语可以进一步分词,则找出该分词短语中的各个预设词性“例如,名词、动词等”的目标分词,并根据该分词短语对应的各个目标分词的顺序,确定该分词短语的下一级节点对应的分词或者分词短语;若一个分词短语不可以进一步分词,则确定该分词短语为所在节点分支的最后一级节点。

基于构建的预设结构分词树,计算各个第一关键词性(例如,动词)分词与各个第二关键词性(例如,名词)分词的距离,将各个第一关键词性分词与各个第二关键词性分词之间相隔的节点数作为所述距离。其中,第一关键词性、第二关键词性可根据实际需要自定义设定,或根据该用户的历史搜索记录中核心信息通常对应的词性进行相应设置。分别找出与各个第一关键词性分词距离最近的第二关键词性分词,分别将各个第一关键词性分词与距离其最近的第二关键词性分词按照在该信息中的顺序组成对应的核心观点信息。如图3中的“去操场”、“去踢足球”作为挖掘出的该信息“我去操场踢足球”对应的核心观点信息。

此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有信息挖掘系统,所述信息挖掘系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的信息挖掘方法的步骤,该信息挖掘方法的步骤s10、s20、s30等具体实施过程如上文所述,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

再多了解一些
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1