一种信息归类的方法、装置及电子设备与流程

文档序号:18740180发布日期:2019-09-21 01:41阅读:210来源:国知局
一种信息归类的方法、装置及电子设备与流程

本发明涉及计算机技术领域,尤其涉及一种信息归类的方法、装置及电子设备。



背景技术:

随着信息行业和互联网的发展,网络媒体信息的数量日益增长,人们每天接收到的媒体报道成千上万。

目前,各大新闻网站通常采用人工分类的方法对媒体报道信息进行分类。由于人工对信息分类的方法耗时耗力,并且效率较低,因此常常只能将信息分为固定的几大类。然而,每一用户所关心的事件各不相同,用户很难根据简单固定的分类,查找到与其所关心的事件相关的信息。



技术实现要素:

有鉴于此,本发明实施例提供一种信息归类的方法、装置及电子设备,能够提高信息归类的准确率和归类效率。

第一方面,本发明实施例一提供一种信息归类的方法,所述方法包括:通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。

可选的,所述方法还包括:在通过关键词白名单对待归类信息中所包含的词语进行筛选之前,从所述待归类信息所包含的词语中过滤掉被列入预设关键词黑名单的词语;或者在按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语之前,从所述第二词语集中过滤掉被列入预设关键词黑名单的词语;或者从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集之前,从所述第三词语集中过滤掉被列入预设关键词黑名单的词语。

可选的,所述根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别包括:确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型;统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前K位的事件类型作为所述待归类信息的类别,其中K为正整数。

可选的,所述确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型包括:按照所述关键词白名单中预先设定的映射关系,确定与所述第一词语集中的词语相同的关键词和与所述第四词语集中的词语相似的关键词所指示的事件类型;或者根据预设模型,计算出所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型。

可选的,所述确定所述待归类信息的类别之后,所述方法还包括:根据所述待归类信息的分类准确性,调整所述关键词白名单和/或所述预设相似阈值。

可选的,所述通过关键词白名单对待归类信息中所包含的词语进行筛选之前,所述方法还包括:获取待归类信息;利用分词技术对所述待归类信息中包含的文字内容进行分词处理,得到所述待归类信息中所包含的词语。

可选的,所述从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集包括:利用语义分析技术对所述第三词语集中的词语以及关键词白名单中的关键词进行语义分析;根据预设相似阈值,筛选出第三词语集中与所述关键词白名单中的关键词语义相近的词语,形成第四词语集。

第二方面,本发明实施例二提供一种信息归类的装置,所述装置包括:第一筛选模块,用于通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;第二筛选模块,用于按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;第三筛选模块,用于从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;类别确定模块,用于根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。

可选的,所述装置还包括:第四筛选模块,用于在通过关键词白名单对待归类信息中所包含的词语进行筛选之前,从所述待归类信息所包含的词语中过滤掉被列入预设关键词黑名单的词语;或者在按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语之前,从所述第二词语集中过滤掉被列入预设关键词黑名单的词语;或者从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集之前,从所述第三词语集中过滤掉被列入预设关键词黑名单的词语。

可选的,所述类别确定模块具体用于:确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型;统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前K位的事件类型作为所述待归类信息的类别,其中K为正整数。

可选的,所述确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型包括:按照所述关键词白名单中预先设定的映射关系,确定与所述第一词语集中的词语相同的关键词和与所述第四词语集中的词语相似的关键词所指示的事件类型;或者根据预设模型,计算出所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型。

可选的,所述装置还包括:调整模块,用于根据所述待归类信息的分类准确性,调整所述关键词白名单和/或所述预设相似阈值。

可选的,所述装置还包括:信息获取模块,用于获取待归类信息;分词模块,用于利用分词技术对所述待归类信息中包含的文字内容进行分词处理,得到所述待归类信息中所包含的词语。

可选的,所述第三筛选模块包括:语义分析单元,用于利用语义分析技术对所述第三词语集中的词语以及关键词白名单中的关键词进行语义分析;词语筛选单元,用于根据预设相似阈值,筛选出第三词语集中与所述关键词白名单中的关键词语义相近的词语,形成第四词语集。

第三方面,本发明实施例三提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可进行程序代码;处理器通过读取存储器中存储的可进行程序代码来运行与可进行程序代码对应的程序,用于进行前述任一实施方式所述的信息分类的方法。

第四方面,本发明实施例四提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述任一实施方式所述的信息归类的方法。

本发明实施例提供的一种信息归类的方法、装置及电子设备,通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。这样,通过关键词白名单能够筛选出待归类信息中与用户感兴趣的事件精确匹配的关键词,通过高频出现词语的统计以及预设相似阈值的控制又能够在不精确匹配的词语中,找到与用户感兴趣的事件有一定相关度的词语,从而有效补充关键词白名单所没能覆盖的信息,使根据这两类词语进行的信息归类更加准确和高效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明的实施例一的信息归类的方法的流程图;

图2为本发明的实施例的一具体实施方式的方法流程图;

图3为本发明的实施例的另一具体实施方式的方法流程图;

图4为本发明的实施例二的信息归类的装置的结构示意图;

图5为本发明的实施例三的电子设备的结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

第一方面,本发明提供一种信息分类的方法,能够提高信息归类的准确率和归类效率。

图1为本发明实施例一提供的信息分类的方法的流程图,如图1所示,本实施例的方法包括:

步骤101、通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;

本步骤中,所述待归类信息可以为媒体报道、书刊杂志等;可选的,在步骤101之前,所述方法还可以包括:按照预设时间获取待归类信息;例如:每隔2min获取一次媒体报道信息,所述媒体报道信息可以是各媒体平台发布的报道信息,可选的,本步骤中获取的所述媒体报道信息可以指之前从未获取过的报道信息,比如获取媒体平台在上次获取报道信息的时间节点之后新发布的媒体报道,这样,可以避免多次获取同一媒体报道信息,提高信息归类的效率。

可选的,所述关键词白名单中保存的关键词可以是与开发人员和/或用户关心的事件相关的关键词,也可以是网络中用户点击量超过预设阈值的关键词。所述开发人员或用户关心的事件可以为多个,所述关键词白名单中的各关键词可以对应不同的事件;例如:开发人员或用户关心的事件有代币、行情、品牌和安全事件,所述关键词白名单中保存有与代币相关的关键词:比特币、莱特币、以太坊币,与行情相关的关键词:收益、上涨、下跌、突破、大额、期货,与品牌相关的关键词:获赠、支持,与安全事件相关的关键词:矿工、挖矿。

这样,所述待归类信息中的词语在通过关键词白名单进行筛选后,能够将所述待归类信息中包含在所述关键词白名单中的词语保留,形成所述第一词语集,以方便后续步骤中根据所述第一词语集对所述待归类信息进行分类。可选的,可以通过分词技术将所述待归类信息中包含的文字内容进行词语分离,形成单独的词语,以通过关键词白名单对待归类信息中所包含的词语进行筛选,所述待归类信息中没有包含在所述关键词白名单中的词语形成所述第二词语集。

可选的,可以对所述待归类信息中没有包含在所述关键词白名单中的词语进行去重后再放入所述第二词语集,这时,所述第二词语集中的词语互不相同;可以将所述第二词语集的各词语在所述待归类信息中出现的频率记录在第二词语集中,以方便后续步骤中对第二词语集中的词语进行筛选。

当然,也可以将所述待归类信息中没有包含在所述关键词白名单中的所有词语(其中包括重复的词语)放入所述第二词语集中。

步骤102、按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;

本步骤中,当所述第二词语集中包括重复的词语时,可以利用词频统计技术对所述第二词语集中的各词语进行词频统计,得到第二词语集中各词语的出现频率;当所述第二词语集中的各词语互不相同时,根据所述第二词语集中记录的各词语在待归类信息中出现的频率,即可获知第二词语集中各词语的出现频率;由于待归类信息中出现频率较高的词语一般与所述待归类信息所属的事件相关,故将所述第二词语集中出现频率较高的词语筛选出来,形成第三词语集,有助于后续步骤中对该待归类信息所属的事件进行判断。并且,筛选掉所述第二词语集中出现频率较低的词语,仅利用第二词语集中出现频率较高的词语作为该待归类信息所属的事件的判断依据,可以提高后续步骤中对该待归类信息所属的事件进行判断的效率。

可选的,可以在按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语之前,从所述第二词语集中过滤掉被列入预设关键词黑名单的词语。所述关键词黑名单中保存有对事件判断无实际作用的关键词,例如一些虚词:的、地、着、了、吗、吧、啊、和、跟、同、与、以、根据、因等,还可以是诸如我、他、明天等对事件判断无实际作用的实词。这样,就可以在筛选出现频率较高的词语之前,首先过滤掉对事件判断无实际作用的词语,以使后续筛选出的频率较高的词语与事件的相关性更强,更加有助于后续步骤中对待归类信息所属的事件的判断。

可选的,也可以在通过关键词白名单对待归类信息中所包含的词语进行筛选之前,从所述待归类信息所包含的词语中过滤掉被列入预设关键词黑名单的词语;或者从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集之前,从所述第三词语集中过滤掉被列入预设关键词黑名单的词语。这样,同样可以达到过滤掉对事件判断无实际作用的词语,提高后续步骤中对该待归类信息所属的事件进行判断的效率,使后续筛选出的频率较高的词语与事件的相关性更强,更加有助于后续步骤中对待归类信息所属的事件的判断的效果。

步骤103、从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;

本步骤中,可以利用语义分析技术对所述第三词语集中的词语以及关键词白名单中的关键词进行语义分析,并根据预设的相似阈值,筛选出第三词语集中与所述关键词白名单中的关键词语义相近的词语。例如:第三词语集中包括比特现金、矿池、减半,则可以通过合理设置相似度阈值,使第三词语集中的比特现金与关键词白名单中的比特币互为语义相近的词语、使第三词语集中的矿池与关键词白名单中的挖矿互为语义相近的词语、使第三词语集中的减半与关键词白名单中的下跌互为语义相近的词语,这样,第三词语集中与关键词白名单中的关键词语义相近的词语就可以被筛选出来,形成第四词语集。本步骤可以将第三词语集中与开发人员或用户关心的事件相关的关键词语义相近的词语筛选出来,以便后续步骤对待归类信息所属的事件进行具体的判断。

步骤104、根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。

本步骤中,由于所述关键词白名单中的关键词为与技术人员或用户所关心的事件相关的关键词,因此,根据关键词白名单中与所述第一词语集的词语相同的关键词和与第四词语集中的词语相似的关键词来确定所述待归类信息的类别,可以从众多的待归类信息中筛选出技术人员或用户所关心的事件。

可选的,所述根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别可以包括:确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型;统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前K位的事件类型作为所述待归类信息的类别,其中K为正整数。

本实施例,可以在所述关键词白名单中预先设定关键词与事件类型之间的映射关系,从而在判断待归类信息所属的类别时,可以根据关键词白名单中与第一词语集中的词语相同的关键词所对应的事件类型,来确定第一词语集中的各词语所对应的事件类型,同样的,可以根据关键词白名单中与第四词语集中的词语相似的关键词所对应的事件类型,来确定第四词语集中的各词语所对应的事件类型;然后再统计每种事件类型的出现次数,将出现频率较高的事件类型作为所述待归类信息的类别。可以理解的是,同一个待归类信息可能对应于多个事件类别。例如:代币事件出现的次数为10次、行情事件出现的次数为6次、品牌事件出现的次数为0次、安全事件出现的次数为1次,K的数值取2,则所述待归类信息的事件类别为代币和行情。

可选的,也可以根据预设模型,计算出所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型。本实施例,所述预设模型可以根据关键词白名单中的关键词,计算出所述关键词所指示的事件类型,例如:所述关键词白名单中的关键词比特币与所述第四词语集中的词语比特现金互为相似词语,则所述预设模型可以计算出关键词比特币所指示的事件为代币。

可选的,所述预设模型也可以通过计算与所述第一词语集和第四词语集中的词语相关的所有关键词,来判断所述待归类事件所属的事件类型。例如:所述关键词白名单中与所述第一词语集和第四词语集中的词语相关的关键词为比特币、挖矿、下跌,则所述预设模型可以将所述待归类信息所属的事件判断为代币事件和行情事件。

可选的,所述待归类信息所属的事件可能与开发人员或用户所关心的事件不相关,因此,所述第一词语集中可能不存在与所述关键词白名单中的关键词相同的词语,所述第三词语集中可能不存在与所述关键词白名单中的关键词语义相近的词语,即所述第一词语集和所述第四词语集同时为空集,这时,可以将所述待分类的信息所属的事件定义为其他事件。

可选的,所述确定所述待归类信息的类别之后,所述方法还包括:根据所述待归类信息的分类准确性,调整所述关键词白名单和/或所述预设相似阈值。

本实施例,确定所述待归类信息的类别之后,可以检查所述待归类信息的分类准确性,可选的,可以通过开发人员对归类后的信息进行检查和/或根据用户的反馈来统计对所述待归类信息的分类准确性;若对所述待归类信息的分类准确性未达到预期要求,则可以通过增加和/或删除所述关键词白名单中的关键词来调整对所述待归类信息的分类规则,也可以通过增大或减小所述预设相似阈值来调整所述待归类信息的分类规则,直到对所述待归类信息的分类准确性达到预期要求。例如:关键词白名单中预设的关键词有与代币事件相关的比特币、莱特币、以太坊币,而所述待归类信息中所包含的词语有游戏币,若在当前的相似度阈值下,所述游戏币与所述比特币相似,则可以将所述相似度阈值调大,使所述游戏币与比特币不相似,从而提高信息分类的准确性。本实施例可以通过不断调整所述关键词白名单和/或所述预设相似阈值,从而来达到提高事件归类准确度的目的。

可选的,所述确定所述待归类信息的类别之后,所述方法还包括:向用户提供事件名称,以使用户选择感兴趣的事件;根据用户选择的事件名称,展示与所述用户选择的事件相关的信息。本实施例,用户可以自主选择其具体感兴趣的事件,可选的,用户也可以同时选择多个其所感兴趣的事件,这时,向用户提供与用户选择的多个所述事件关联性最强的信息,例如:用户选择了代币事件和行情事件,则将同时属于代币事件和行情事件的信息展示给用户。本实施例能够使用户在海量的信息中精确地查找到其所感兴趣的事件。

本实施例提供的信息归类的方法,通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;根据所述关键词白名单中与所述第一词语集中的词语相同和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。这样,通过关键词白名单能够筛选出待归类信息中与用户感兴趣的事件精确匹配的关键词,通过高频出现词语的统计以及预设相似阈值的控制又能够在不精确匹配的词语中,找到与用户感兴趣的事件有一定相关度的词语,从而有效补充关键词白名单所没能覆盖的信息,使根据这两类词语进行的信息归类更加准确和高效。

下面通过具体实施例对本发明实施例提供的信息归类的方法进行详细说明。

如图2所示,作为本发明实施例的一具体实施方式,所述方法可以包括:

步骤201、获取待归类信息A;

本步骤中,所述待归类信息A为“4月1日,据OK矿池消息,为迎接莱特币8月挖矿产量减半,莱特币矿工在结算获赠收益时可选择获赠OKB。在OKB生态不断完善的情况下,此举可让莱特币矿工有效提高投资收益。据悉,矿工获赠的OKB来自于OK矿池联合挖矿产生的DOGE,不定期在支持的二级市场中回购。”

步骤202、利用分词技术对所述待归类信息A中包含的文字内容进行分词处理,得到所述待归类信息A中所包含的词语;

本步骤中,得到的所述词语如下:4月1日、据、OK、矿池、消息、为、迎接、莱特币、8月、挖矿、产量、减半、莱特币矿工、在、结算、获赠、收益、时、可、选择、获赠、OKB、在、OKB、生态、不断、完善、的、情况、下、此举、可、让、莱特币矿工、有效、提高、投资、收益、据悉、矿工、获赠、的、OKB、来自于、OK、矿池、联合、挖矿、产生、的、DOGE、不定期、在、支持、的、二级市场、中、回购。

步骤203、通过关键词白名单对待归类信息A中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集;

本步骤中,所述关键词白名单中的关键词包括:莱特币、挖矿、收益、上涨、下跌、支持、获赠。所述待归类信息A中所包含的词语经关键词白名单筛选后,得到的所述第一词语集中包括:莱特币、挖矿、收益、支持、获赠;第二词语集包括4月1日、据、OK、矿池、消息、为、迎接、8月、产量、减半、莱特币矿工、在、结算、时、可、选择、OKB、在、OKB、生态、不断、完善、的、情况、下、此举、可、让、莱特币矿工、有效、提高、投资、据悉、矿工、的、OKB、来自于、OK、矿池、联合、产生、的、DOGE、不定期、在、的、二级市场、中、回购。

步骤204、从所述第二词语集中过滤掉被列入预设关键词黑名单的词语;

本步骤中,所述关键词黑名单中的关键词包括:4月1日、据、消息、为、迎接、8月、在、时、可、的、情况、下、此举、让、有效、不断、完善、生态、据悉、结算、来自于、联合、产生、中等。

从所述第二词语集中过滤掉被列入预设黑名单的词语之后,所述第二词语集中的词语包括:矿池、莱特币矿工、OKB、OKB、莱特币矿工、矿工、OKB、矿池、DOGE、不定期、OK、产量、减半、提高、投资、二级市场、回购。

步骤205、按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前13位的词语,得到第三词语集;

本步骤中,所述第二词语集中各词语出现的频率如下:OKB出现3次、莱特币矿工出现2次、矿池出现2次、矿工出现1次、DOGE出现1次、不定期出现1次、OK出现1次、产量出现1次、减半出现1次、提高出现1次、投资出现1次、二级市场出现1次、回购出现1次。

则所述第三词语集中的词语包括:矿池、莱特币矿工、OKB、矿工、DOGE、不定期、OK、产量、减半、提高、投资、二级市场、回购。

步骤206、从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;

本步骤中,利用语义分析技术,并根据预设的所述相似度阈值,得到与所述关键词白名单中的关键词的相似度大于所述预设相似阈值的第四词语集包括:矿池、莱特币矿工、OKB、矿工。

步骤207、按照所述关键词白名单中预先设定的映射关系,确定与所述第一词语集中的词语相同或与所述第四词语集中的词语相似的关键词所指示的事件类型;

本步骤中,所述关键词白名单中与所述第一词语集中相同的关键词和与所述第四词语集中的词语相似的关键词包括:莱特币、挖矿、收益、支持、获赠、矿池、莱特币矿工、OKB、矿工。

其中,上述关键词与事件类型之间的映射关系如下:

莱特币-代币

挖矿-安全

收益-行情

支持-品牌

获赠-品牌

矿池-安全

莱特币矿工-安全

OKB-代币

矿工-安全

步骤208、统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前3位的事件类型作为所述待归类信息A的类别。

本步骤中,上述各事件类型出现的次数按照由高到低的顺序排序如下:

安全-4次

代币-2次

品牌-2次

行情-1次

则所述待归类信息A的类别为安全事件、代币事件和品牌事件。

如图3所示,作为本发明实施例的另一具体实施方式,所述方法可以包括:

步骤301、获取待归类信息B;

本步骤中,所述待归类信息B为“据Coinmarketcap最新数据显示,午后BTC突然开始大幅拉升,现已突破4500美元,币安现报4,514美元,24h涨幅11.25%。主流币种全线上涨,期货出现大额爆仓单。”

步骤302、利用分词技术对所述待归类信息B中包含的文字内容进行分词处理,得到所述待归类信息B中所包含的词语;

本步骤中,得到的所述词语如下:据、Coinmarketcap、最新、数据、显示、午后、BTC、突然、开始、大幅、拉升、现、已、突破、4500、美元、币安、现报、4514、美元、24h、涨幅、11.25%、主流币种、全线、上涨、期货、出现、大额、爆仓单。

步骤303、通过关键词白名单对待归类信息B中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集;

本步骤中,所述关键词白名单中的关键词包括:美元、btc、突破、上涨、大额、期货。所述待归类信息B中所包含的词语经关键词白名单筛选后,得到的所述第一词语集中包括:美元、BTC、突破、上涨、大额、期货;第二词语集包括:据、Coinmarketcap、最新、数据、显示、突然、开始、大幅、拉升、现、已、4500、币安、现报、4514、24h、涨幅、11.25%、主流币种、全线、出现、爆仓单、午后。

步骤304、从所述第二词语集中过滤掉被列入预设关键词黑名单的词语;

本步骤中,所述关键词黑名单中的关键词包括:据、最新、数据、显示、突然、开始、现、已、4500、现报、4514、24h、11.25%、全线、出现、午后等。

从所述第二词语集中过滤掉被列入预设黑名单的词语之后,所述第二词语集中的词语包括:Coinmarketcap、大幅、拉升、币安、涨幅、主流币种、爆仓单。

步骤305、按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前5位的词语,得到第三词语集;

本步骤中,所述第二词语集中各词语出现频率均为1次,因此,所述第二词语集中的所有词语均位于第一位。

则筛选出排在前5位的词语后,所述第三词语集中的词语包括:Coinmarketcap、大幅、拉升、币安、涨幅、主流币种、爆仓单。

步骤306、从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;

本步骤中,利用语义分析技术,并根据预设的所述相似度阈值,得到与所述关键词白名单中的关键词的相似度大于所述预设相似阈值的第四词语集为空集。

步骤307、按照所述关键词白名单中预先设定的映射关系,确定与所述第一词语集中的词语相同或与所述第四词语集中的词语相似的关键词所指示的事件类型;

本步骤中,所述关键词白名单中与所述第一词语集中相同的关键词和与所述第四词语集中的词语相似的关键词包括:美元、btc、突破、上涨、大额、期货。

其中,上述关键词与事件类型之间的映射关系如下:

美元-行情

btc-代币

突破-行情

上涨-行情

大额-行情

期货-行情

步骤308、统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前2位的事件类型作为所述待归类信息B的类别。

本步骤中,上述各事件类型出现的次数按照由高到低的顺序排序如下:

行情-4次

代币-1次

则所述待归类信息B的类别为行情事件和代币事件。

第二方面,本发明提供一种信息归类的装置,能够提高信息归类的准确率和归类效率。

图4为本发明实施例二提供的信息分类的装置的结构示意图,如图4所示,上述信息分类的装置包括:第一筛选模块21,用于通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;第二筛选模块22,用于按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;第三筛选模块23,用于从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;类别确定模块24,用于根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。

可选的,所述装置还包括:第四筛选模块,用于在通过关键词白名单对待归类信息中所包含的词语进行筛选之前,从所述待归类信息所包含的词语中过滤掉被列入预设关键词黑名单的词语;或者在按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语之前,从所述第二词语集中过滤掉被列入预设关键词黑名单的词语;或者从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集之前,从所述第三词语集中过滤掉被列入预设关键词黑名单的词语。

可选的,所述类别确定模块具体用于:确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型;统计每种事件类型的出现次数;将各种事件类型的出现次数按照由高到低的顺序排序,筛选出排在前K位的事件类型作为所述待归类信息的类别,其中K为正整数。

可选的,所述确定所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型包括:按照所述关键词白名单中预先设定的映射关系,确定与所述第一词语集中的词语相同的关键词和与所述第四词语集中的词语相似的关键词所指示的事件类型;或者根据预设模型,计算出所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词所指示的事件类型。

可选的,所述装置还包括:调整模块,用于根据所述待归类信息的分类准确性,调整所述关键词白名单和/或所述预设相似阈值。

可选的,所述装置还包括:信息获取模块,用于获取待归类信息;分词模块,用于利用分词技术对所述待归类信息中包含的文字内容进行分词处理,得到所述待归类信息中所包含的词语。

可选的,所述第三筛选模块包括:语义分析单元,用于利用语义分析技术对所述第三词语集中的词语以及关键词白名单中的关键词进行语义分析;词语筛选单元,用于根据预设相似阈值,筛选出第三词语集中与所述关键词白名单中的关键词语义相近的词语,形成第四词语集。

本实施例提供的信息归类的装置,通过关键词白名单对待归类信息中所包含的词语进行筛选,得到符合所述关键词白名单的第一词语集以及不符合所述关键词白名单的第二词语集,所述第二词语集中互不相同的词语的个数为M,M为正整数;按照所述第二词语集中各词语出现频率由高到低的顺序,从所述第二词语集中筛选出排在前N位的词语,得到第三词语集,其中N<M,N为正整数;从所述第三词语集中筛选出与所述关键词白名单中的关键词的相似度大于预设相似阈值的词语,形成第四词语集;根据所述关键词白名单中与所述第一词语集中的词语相同的关键词和所述关键词白名单中与所述第四词语集中的词语相似的关键词,确定所述待归类信息的类别。这样,通过关键词白名单能够筛选出待归类信息中与用户感兴趣的事件精确匹配的关键词,通过高频出现词语的统计以及预设相似阈值的控制又能够在不精确匹配的词语中,找到与用户感兴趣的事件有一定相关度的词语,从而有效补充关键词白名单所没能覆盖的信息,使根据这两类词语进行的信息归类更加准确和高效。

相应的,本发明实施例提供一种电子设备,能够提高信息归类的准确率和归类效率。

图5为本发明的实施例三一种电子设备的结构示意图,如图5所示,本实施例的电子设备可以包括:壳体31、处理器32、存储器33、电路板34和电源电路35,其中,电路板34安置在壳体31围成的空间内部,处理器32和存储器33设置在电路板34上;电源电路35,用于为上述电子设备的各个电路或器件供电;存储器33用于存储可执行程序代码;处理器32通过读取存储器33中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例提供的信息归类的方法。

处理器32对上述步骤的具体执行过程以及处理器32通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。

上述电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

相应的,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种信息归类的方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1