商业快讯的去重筛选方法及装置与流程

文档序号:15999763发布日期:2018-11-20 19:18阅读:177来源:国知局
本发明涉及文本信息处理的
技术领域
,尤其是涉及一种商业快讯的去重筛选方法及装置。
背景技术
:随着网络普及度的不断增高,每天都会有海量的文本信息被收录到互联网,如新闻、微博、文章等,但不得不面临的问题就是海量的文本信息中充斥着大量重复信息,据统计,网络上的重复文档约占25%-35%;在这个大数据的时代,获取了有价值的商业数据就等于把握住了主动权,其中商业快讯数据具有覆盖面广、实时、数据准确等特点,因此如何实时的提取到互联网中有价值的商业快讯数据,并能快速准确的识别相似度高的文本,避免重复数据对企业数据分析的影响,就成为了企业获取有价值数据的一个重要问题。传统的去重筛选方法中,先要进行文本相似度的检测,根据检测结果再进行去重筛选的过程。两个文本相似度的检测中,一般是先将文本分词,然后转化为特征向量距离的度量,比如常见的欧氏距离、海明距离或者余弦角度等等,根据特征向量距离的度量得到两个文本相似度的检测结果。但这种方法在面对海量文本数据的去重筛选时,比较次数繁多,计算量大,去重筛选的效率低下。综上,现有的去重筛选方法计算量大,效率低下。技术实现要素:有鉴于此,本发明的目的在于提供一种商业快讯的去重筛选方法及装置,以缓解现有的去重筛选方法计算量大,效率低下的技术问题。第一方面,本发明实施例提供了一种商业快讯的去重筛选方法,所述方法包括:获取待检测商业快讯文本,其中,所述待检测商业快讯文本中包含公司名称;采用simhash算法对所述待检测商业快讯文本进行计算,得到所述待检测商业快讯文本的simhash指纹;根据所述待检测商业快讯文本中的公司名称,在商业快讯去重数据库中提取预设时间内包含所述公司名称的目标商业快讯文本的simhash指纹集合;计算所述待检测商业快讯文本的simhash指纹与所述simhash指纹集合中每个simhash指纹之间的海明距离;如果所述海明距离中每个海明距离都大于预设值,则确定所述待检测商业快讯文本为非重复商业快讯文本,并将所述待检测商业快讯文本的信息插入所述商业快讯去重数据库。结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述方法还包括:如果所述海明距离中,存在至少一个海明距离不大于所述预设值,则确定所述待检测商业快讯文本为重复商业快讯文本,并丢弃所述待检测商业快讯文本。结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述方法还包括:如果所述商业快讯去重数据库中不存在所述simhash指纹集合,则确定所述待检测商业快讯文本为非重复商业快讯文本,并将所述待检测商业快讯文本的信息插入所述商业快讯去重数据库。结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,获取待检测商业快讯文本包括:通过爬虫在互联网上实时爬取初始待检测文本;对所述初始待检测文本进行预检测,得到检测后的文本;对所述检测后的文本进行预处理,得到处理后的文本;根据预设企业名称库在所述处理后的文本中提取出所提及的公司名称;如果提取到公司名称,则所述处理后的文本为所述待检测商业快讯文本。结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述方法还包括:如果未提取到公司名称,则所述处理后的文本不是所述待检测商业快讯文本,并丢弃所述处理后的文本。结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,对所述初始待检测文本进行预检测,得到检测后的文本包括:获取停用词列表;丢弃所述初始待检测文本中包含所述停用词列表中文本的初始待检测文本,得到剩余初始待检测文本;将所述剩余初始待检测文本作为所述检测后的文本。结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,对所述检测后的文本进行预处理,得到处理后的文本包括:对所述检测后的文本进行去除处理和/或转换处理;其中,所述去除处理包括:去除HTML标签的处理,去除预设标签内包含的内容的处理;所述转换处理为将所有大写字母转换为小写字母的处理。第二方面,本发明实施例还提供了一种商业快讯的去重筛选装置,所述装置包括:获取模块,用于获取待检测商业快讯文本,其中,所述待检测商业快讯文本中包含公司名称;第一计算模块,用于采用simhash算法对所述待检测商业快讯文本进行计算,得到所述待检测商业快讯文本的simhash指纹;提取模块,用于根据所述待检测商业快讯文本中的公司名称,在商业快讯去重数据库中提取预设时间内包含所述公司名称的目标商业快讯文本的simhash指纹集合;第二计算模块,用于计算所述待检测商业快讯文本的simhash指纹与所述simhash指纹集合中每个simhash指纹之间的海明距离;第一确定模块,如果所述海明距离中每个海明距离都大于预设值,则确定所述待检测商业快讯文本为非重复商业快讯文本,并将所述待检测商业快讯文本的信息插入所述商业快讯去重数据库。结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述装置还包括:第二确定模块,如果所述海明距离中,存在至少一个海明距离不大于所述预设值,则确定所述待检测商业快讯文本为重复商业快讯文本,并丢弃所述待检测商业快讯文本。结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述装置还包括:第三确定模块,如果所述商业快讯去重数据库中不存在所述simhash指纹集合,则确定所述待检测商业快讯文本为非重复商业快讯文本,并将所述待检测商业快讯文本的信息插入所述商业快讯去重数据库。本发明实施例带来了以下有益效果:现有的去重筛选方法计算量大,效率低下。与现有的去重筛选方法相比,本发明的商业快讯的去重筛选方法中,先获取待检测商业快讯文本,然后采用simhash算法对待检测商业快讯文本进行计算,得到待检测商业快讯文本的simhash指纹,进而根据待检测商业快讯文本中的公司名称,在商业快讯去重数据库中提取预设时间内包含相同公司名称的目标商业快讯文本的simhash指纹集合,进一步计算待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹之间的海明距离,如果海明距离中每个海明距离都大于预设值,则确定待检测商业快讯文本为非重复商业快讯文本,并将待检测商业快讯文本的信息插入商业快讯去重数据库。该方法根据待检测商业快讯文本中所提及的公司名称获取预设时间内提到过相同公司名称的目标商业快讯文本的simhash指纹集合,大大减少了比对样本的数量,然后再进行待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹的海明距离计算,从而确定相似性,实现去重筛选。该去重筛选方法大大减小了去重筛选的计算量,提高了去重筛选的效率,缓解了现有的去重筛选方法计算量大,效率低下的技术问题。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种商业快讯的去重筛选方法的流程图;图2为本发明实施例提供的另一种商业快讯的去重筛选方法的流程图;图3为本发明实施例提供的获取待检测商业快讯文本的方法流程图;图4为本发明实施例提供的对初始待检测文本进行预检测的方法流程图;图5为本发明实施例提供的一种商业快讯的去重筛选装置的功能模块图。图标:11-获取模块;12-第一计算模块;13-提取模块;14-第二计算模块;15-第一确定模块。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为便于对本实施例进行理解,首先对本发明实施例所公开的一种商业快讯的去重筛选方法进行详细介绍。实施例一:一种商业快讯的去重筛选方法,参考图1,该方法包括:S102、获取待检测商业快讯文本,其中,待检测商业快讯文本中包含公司名称;在本发明实施例中,先实时获取待检测商业快讯文本。具体的,待检测商业快讯文本中包含有公司名称。下文中再对获取待检测商业快讯文本的过程进行详细介绍,在此不再赘述。S104、采用simhash算法对待检测商业快讯文本进行计算,得到待检测商业快讯文本的simhash指纹;在得到待检测商业快讯文本后,采用simhash算法对待检测商业快讯文本进行计算,得到待检测商业快讯文本的simhash指纹。具体的,simhash算法是google用来进行海量文本去重的算法,可将一个文本转化为64位的指纹,如:1000010010101101111111100000101011010001001111100001001011001011,可以将文本将维到hash数字,数字之间的重合度可直接反映出文本的相似度,因数字两两计算时,运算量小,所以基于simhash的方法进行文本去重筛选的效率很高。S106、根据待检测商业快讯文本中的公司名称,在商业快讯去重数据库中提取预设时间内包含公司名称的目标商业快讯文本的simhash指纹集合;在得到待检测商业快讯文本的simhash指纹后,进一步根据待检测商业快讯文本中的公司名称,在商业快讯去重数据库中提取预设时间内包含相同公司名称的目标商业快讯文本的simhash指纹集合,该simhash指纹集合中至少包含一个simhash指纹。具体的,这里的预设时间是指在当前时间前的预设时间(通俗地讲即近期内)内,其值的大小可根据实际需求而设定,一般不会太长。因为商业快讯更新的时间很快,如果预设时间太长,该商业快讯也就失去了价值,再作为去重筛选的样本只会增加计算量,而没有实际的意义。在本发明实施例中,商业快讯去重数据库的设计如下:字段1字段2字段3字段4字段5商业快讯ID所提及公司全称快讯发布时间指纹快讯详细内容(1)商业快讯ID:依据商业快讯入库的先后顺序定义的ID;(2)所提及公司全称:商业快讯中所提及公司的全称;(3)快讯发布时间:商业快讯发布的日期;(4)指纹:基于simhash生成的指纹信息;(5)快讯详细内容:快讯的完整内容。S108、计算待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹之间的海明距离;在得到待检测商业快讯文本的simhash指纹和simhash指纹集合后,计算待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹之间的海明距离。S110、如果海明距离中每个海明距离都大于预设值,则确定待检测商业快讯文本为非重复商业快讯文本,并将待检测商业快讯文本的信息插入商业快讯去重数据库。在本发明实施例中,该预设值为3。如果所有海明距离中每个海明距离都大于3,则待检测商业快讯文本为非重复商业快讯文本,然后将待检测商业快讯文本的信息按照商业快讯去重数据库的格式插入商业快讯去重数据库中。本发明通过待检测商业快讯文本中提及的公司名称结合simhash算法的方式进行去重筛选,两种方式的结合使用大大提高了检测效率且保证了去重筛选的准确率。现有的去重筛选方法计算量大,效率低下。与现有的去重筛选方法相比,本发明的商业快讯的去重筛选方法中,先获取待检测商业快讯文本,然后采用simhash算法对待检测商业快讯文本进行计算,得到待检测商业快讯文本的simhash指纹,进而根据待检测商业快讯文本中的公司名称,在商业快讯去重数据库中提取预设时间内包含相同公司名称的目标商业快讯文本的simhash指纹集合,进一步计算待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹之间的海明距离,如果海明距离中每个海明距离都大于预设值,则确定待检测商业快讯文本为非重复商业快讯文本,并将待检测商业快讯文本的信息插入商业快讯去重数据库。该方法根据待检测商业快讯文本中所提及的公司名称获取预设时间内提到过相同公司名称的目标商业快讯文本的simhash指纹集合,大大减少了比对样本的数量,然后再进行待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹的海明距离计算,从而确定相似性,实现去重筛选。该去重筛选方法大大减小了去重筛选的计算量,提高了去重筛选的效率,缓解了现有的去重筛选方法计算量大,效率低下的技术问题。上述内容只描述了待检测商业快讯文本为非重复商业快讯文本的情况,下面对其它情况进行介绍。在一个可选地实施方式中,参考图2,该方法还包括:S112、如果海明距离中,存在至少一个海明距离不大于预设值,则确定待检测商业快讯文本为重复商业快讯文本,并丢弃待检测商业快讯文本。在一个可选地实施方式中,该方法还包括:如果商业快讯去重数据库中不存在simhash指纹集合,则确定待检测商业快讯文本为非重复商业快讯文本,并将待检测商业快讯文本的信息插入商业快讯去重数据库。具体的,如果商业快讯去重数据库中不存在目标商业快讯文本(即商业快讯去重数据库中近期没有与待检测商业快讯文本中相同公司名称的商业快讯文本)时,对应的也就不存在simhash指纹集合,那么待检测商业快讯文本为非重复商业快讯文本,则将待检测商业快讯文本的信息插入商业快讯去重数据库。上述内容对本发明的商业快讯的去重筛选方法进行了整体介绍,下面对其中涉及到的具体内容进行详细描述。在一个可选地实施方式中,参考图3,获取待检测商业快讯文本包括:S301、通过爬虫在互联网上实时爬取初始待检测文本;当今时代是信息爆炸的时代,数据的来源方式很多。而对于商业快讯相关的信息,可以通过爬虫在商业新闻媒体页面的实时新闻动态、微博中的实时微博信息、企业融资信息平台等互联网上实时爬取初始待检测文本。S302、对初始待检测文本进行预检测,得到检测后的文本;在得到初始待检测文本后,对初始待检测文本进行预检测,参考图4,包括以下步骤:S401、获取停用词列表;具体的,停用词列表中包含预设停用词的文本,可以包含各类广告的停用词文本,不健康的停用词文本等,本发明实施例对其不进行具体限制。S402、丢弃初始待检测文本中包含停用词列表中文本的初始待检测文本,得到剩余初始待检测文本;S403、将剩余初始待检测文本作为检测后的文本。该预检测的过程能够减少后期去重筛选的计算量。S303、对检测后的文本进行预处理,得到处理后的文本;具体的,对检测后的文本进行去除处理和/或转换处理;其中,去除处理包括:去除HTML标签的处理,去除预设标签内包含的内容的处理;转换处理为将所有大写字母转换为小写字母的处理。该预处理的目的是去除检测后的文本中那些无关信息或无意义信息,尽量减少此类信息对去重筛选的影响。S304、根据预设企业名称库在处理后的文本中提取出所提及的公司名称;具体的,商业快讯的共同特点就是内容中会提及相关公司名称(公司全称或公司简称),所以本发明包含预设企业名称库,该预设企业名称库中包含在工商查询网站注册的全部公司的全称或简称。基于预设企业名称库确定处理后的文本中是否包含公司名称。S305、如果提取到公司名称,则所述处理后的文本为所述待检测商业快讯文本。S306、如果未提取到公司名称,则处理后的文本不是待检测商业快讯文本,并丢弃处理后的文本。本发明的商业快讯的去重筛选方法能够在海量数据中高效的筛选出商业快讯数据并剔除相似度高的商业快讯数据,避免了重复数据对企业数据分析的影响,为企业获取有价值的商业数据提供了支持。实施例二:一种商业快讯的去重筛选装置,参考图5,该装置包括:获取模块11,用于获取待检测商业快讯文本,其中,待检测商业快讯文本中包含公司名称;第一计算模块12,用于采用simhash算法对待检测商业快讯文本进行计算,得到待检测商业快讯文本的simhash指纹;提取模块13,用于根据待检测商业快讯文本中的公司名称,在商业快讯去重数据库中提取预设时间内包含公司名称的目标商业快讯文本的simhash指纹集合;第二计算模块14,用于计算待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹之间的海明距离;第一确定模块15,如果海明距离中每个海明距离都大于预设值,则确定待检测商业快讯文本为非重复商业快讯文本,并将待检测商业快讯文本的信息插入商业快讯去重数据库。本发明的商业快讯的去重筛选装置中,先获取待检测商业快讯文本,然后采用simhash算法对待检测商业快讯文本进行计算,得到待检测商业快讯文本的simhash指纹,进而根据待检测商业快讯文本中的公司名称,在商业快讯去重数据库中提取预设时间内包含相同公司名称的目标商业快讯文本的simhash指纹集合,进一步计算待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹之间的海明距离,如果海明距离中每个海明距离都大于预设值,则确定待检测商业快讯文本为非重复商业快讯文本,并将待检测商业快讯文本的信息插入商业快讯去重数据库。该装置根据待检测商业快讯文本中所提及的公司名称获取预设时间内提到过相同公司名称的目标商业快讯文本的simhash指纹集合,大大减少了比对样本的数量,然后再进行待检测商业快讯文本的simhash指纹与simhash指纹集合中每个simhash指纹的海明距离计算,从而确定相似性,实现去重筛选。该去重筛选装置大大减小了去重筛选的计算量,提高了去重筛选的效率,缓解了现有的去重筛选方法计算量大,效率低下的技术问题。可选地,该装置还包括:第二确定模块,如果海明距离中,存在至少一个海明距离不大于预设值,则确定待检测商业快讯文本为重复商业快讯文本,并丢弃待检测商业快讯文本。可选地,该装置还包括:第三确定模块,如果商业快讯去重数据库中不存在simhash指纹集合,则确定待检测商业快讯文本为非重复商业快讯文本,并将待检测商业快讯文本的信息插入商业快讯去重数据库。可选地,获取模块包括:爬取单元,用于通过爬虫在互联网上实时爬取初始待检测文本;预检测单元,用于对初始待检测文本进行预检测,得到检测后的文本;预处理单元,用于对检测后的文本进行预处理,得到处理后的文本;提取单元,用于根据预设企业名称库在处理后的文本中提取出所提及的公司名称;第一设定单元,如果提取到公司名称,则处理后的文本为待检测商业快讯文本。可选地,获取模块还包括:第二设定单元,如果未提取到公司名称,则处理后的文本不是待检测商业快讯文本,并丢弃处理后的文本。可选地,预检测单元包括:获取子单元,用于获取停用词列表;丢弃子单元,用于丢弃初始待检测文本中包含停用词列表中文本的初始待检测文本,得到剩余初始待检测文本;设定子单元,用于将剩余初始待检测文本作为检测后的文本。可选地,预处理单元还用于:对检测后的文本进行去除处理和/或转换处理;其中,去除处理包括:去除HTML标签的处理,去除预设标签内包含的内容的处理;转换处理为将所有大写字母转换为小写字母的处理。该实施例二中的具体内容可以参考上述实施例一中的描述,在此不再赘述。本发明实施例所提供的商业快讯的去重筛选方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1