一种挖掘热点概念之间关联关系的方法和装置与流程

文档序号:13676550阅读:202来源:国知局
【技术领域】本发明涉及计算机应用技术领域,特别涉及一种挖掘热点概念之间关联关系的方法和装置。

背景技术:
概念指的是某些行业、版块、领域、事件、政策等在某时期被广泛关注所形成的集合,具有鲜明的特性,诸如“两会”、“奥运”、“网络电视”、“新媒体”等等。在一些特定领域,诸如金融领域,概念之间的关联关系对于投资者、股民等而言具有非常重要的意义。然而,在现有的关联关系挖掘方式中,大多是基于概念之间的地域、行业等显性属性的关联,却忽略了概念热度规律所体现的隐性关联。

技术实现要素:
有鉴于此,本发明提供了一种挖掘概念之间关联关系的方法和装置,使得该关联关系能够体现出概念热度规律之间的关联。具体技术方案如下:本发明提供了一种挖掘热点概念之间关联关系的方法,该方法包括:获取热点概念;确定各热点概念的相关对象;依据热点概念的相关对象的热点参数值,分别确定各热点概念的热点系数;基于各热点概念的热点系数,对各热点概念进行聚类。根据本发明一优选实施方式,所述获取热点概念包括:获取设定时段内的新闻文本;对获取的新闻文本进行预处理后,基于词频、在新闻本文中出现的位置、在新闻文本中的展示形式中的至少一种,对新闻文本中的各词语或词组进行排序;基于排序结果,提取出词语或词组作为热点概念。根据本发明一优选实施方式,所述确定各热点概念的相关对象包括:获取设定时段的新闻文本,基于与热点概念在新闻文本中的共现关系确定各热点概念的相关对象;或者,从热点概念所属领域的知识图谱中,确定主营业务与热点概念相关的对象作为该热点概念的相关对象。根据本发明一优选实施方式,所述依据热点概念的相关对象的热点参数值,分别确定各热点概念的热点系数包括:对热点概念的相关对象的热点参数值进行加权处理,得到该热点概念的热点系数。根据本发明一优选实施方式,所述对象的热点参数值包括设定时间内对象的搜索量、点击量、成交量、价格或收益率中的至少一种。根据本发明一优选实施方式,所述对各热点概念进行聚类包括:采用层次聚类法,对各热点概念进行聚类。根据本发明一优选实施方式,该方法还包括:输出聚类后得到的各类的热点概念信息;或者,当某热点概念发生突发事件时,输出该热点概念的突发事件信息以及与该热点概念属于同一类的其他热点概念信息;或者,接收到包含某热点概念信息的查询请求时,返回与该热点概念信息属于同一类的其他热点概念信息。根据本发明一优选实施方式,所述对象包括股票、基金或期货。根据本发明一优选实施方式,所述对象包括股票;在对热点概念的相关对象的热点参数值进行加权处理时,各对象对应的加权系数为:各股票的市值分别与该热点概念的所有相关股票的总市值的比值。本发明还提供了一种挖掘热点概念之间关联关系的装置,该装置包括:概念获取单元,用于获取热点概念;对象确定单元,用于确定各热点概念的相关对象;系数确定单元,用于依据热点概念的相关对象的热点参数值,分别确定各热点概念的热点系数;概念聚类单元,用于基于各热点概念的热点系数,对各热点概念进行聚类。根据本发明一优选实施方式,所述概念获取单元具体用于:获取设定时段内的新闻文本;对获取的新闻文本进行预处理后,基于词频、在新闻本文中出现的位置、在新闻文本中的展示形式中的至少一种,对新闻文本中的各词语或词组进行排序;基于排序结果,提取出词语或词组作为热点概念。根据本发明一优选实施方式,所述对象确定单元具体用于:获取设定时段的新闻文本,基于与热点概念在新闻文本中的共现关系确定该热点概念的相关对象;或者,从热点概念所属领域的知识图谱中,确定主营业务与热点概念相关的对象作为该热点概念的相关对象。根据本发明一优选实施方式,所述系数确定单元,具体用于对热点概念的相关对象的热点参数值进行加权处理,得到该热点概念的热点系数。根据本发明一优选实施方式,所述对象的热点参数值包括设定时间内对象的搜索量、点击量、成交量、价格或收益率中的至少一种。根据本发明一优选实施方式,所述概念聚类单元,具体用于采用层次聚类法,对各热点概念进行聚类。根据本发明一优选实施方式,该装置还包括:信息交互单元,用于输出聚类后得到的各类的热点概念信息;或者,当某热点概念发生突发事件时,输出该热点概念的突发事件信息以及与该热点概念属于同一类的其他热点概念信息;或者,接收到包含某热点概念信息的查询请求时,返回与该热点概念信息属于同一类的其他热点概念信息。根据本发明一优选实施方式,所述对象包括股票、基金或期货。根据本发明一优选实施方式,所述对象包括股票;所述系数确定单元在对热点概念的相关对象的热点参数值进行加权处理时,各对象对应的加权系数为:各股票的市值分别与该热点概念的所有相关股票的总市值的比值。由以上技术方案可以看出,本发明通过各热点概念的相关对象的热点参数值,确定各热点概念的热点系数,基于热点系数对各热点概念进行聚类。该聚类结果能够体现出概念热度规律之间的关联。【附图说明】图1为本发明实施例提供的主要方法流程图;图2为本发明实施例提供的以股票为例的详细方法流程图;图3为本发明实施例提供的聚类结果的实例图;图4为本发明实施例提供的三个热点概念的日收益走势图;图5为本发明实施例提供的两个概念的股价15分钟走势图;图6为本发明实施例提供的装置结构图。【具体实施方式】为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。图1为本发明实施例提供的主要方法流程图,如图1中所示,该方法可以包括以下步骤:在101中,获取热点概念。在本发明实施例中,可以采用多种方式实现热点概念的挖掘,例如基于对新闻文本的文本挖掘,提取其中的热点概念;再例如,基于对搜索日志中热门搜索词的挖掘,提取其中的热门搜索词作为热点概念;等等。只要是能够实现对近期出现的热点概念的挖掘,都可以作为实现本步骤的方法。下面以基于新闻文本的文本挖掘为例,进行简单描述。可以具体包括以下过程:首先,获取设定时段内的新闻文本。该设定时段的时长可以根据需求进行设置,例如设置为1周、10天、一个月等等。对于新闻文本的获取可以是从预设的新闻网站获取,具体地,可以从新闻网站的首页获取各条新闻的文本,也可以在新闻网站的设定几个分类下获取各条新闻的文本,这几个分类通常与该热点概念的相关对象类型相关。由于新闻文本的数量通常非常巨大,可以仅依据新闻网站对新闻的重要程度排列,选择排名靠前的新闻文本。或者依据新闻文本在新闻网站的标识,选择标识为诸如“头条”、“热点”的新闻文本。在或者,可以依据各新闻的跟帖量、评论量、点击量、点赞量等的排序,选择排名靠前的新闻文本。然后,对获取的新闻文本进行预处理后,基于词频、在新闻本文中出现的位置、在新闻文本中的展示形式中的至少一种,对新闻文本中的各词语或词组进行排序。其中对新闻文本进行的预处理包括:删除新闻文本中无用的部分,例如删除新闻文本中的推广内容、功能组件的内容、推荐内容等等。还包括:对新闻文本进行分词,对分词后得到的各词语进行筛选,删除无意义的词语,例如删除诸如助词、连词、介词等。在进行分词时,分词词典可以融合一些特定领域的词典,例如科技领域的词典、农业领域的词典、金融领域的词典等等,使得一些特定领域的词语或词组也能够作为一个词语或词组被识别出来。例如“新媒体”、“涉矿”、“草甘膦”等等,还有一些在特定领域的词语往往以词组的形式出现,也可以被识别出来,例如“湖南国资改革”、“生物农药”、“油价上调”、“煤价下跌受益”等等。最后,基于排序结果,提取出词语或词组作为热点概念。在进行排序时,可以基于词频,选择出现词频排在前面的一些词语或词组。也可以基于在新闻文本中出现的位置进行排序,例如在新闻标题中出现的词语或词组、在新闻摘要中出现的词语或词组、在新闻正文中出现的词语或词组的重要程度排序依次为从高到低。也可以基于在新闻文本中的展示形式进行排序,例如以链接文本、加粗文本、彩色文本等方式显示的词语或词组的排序要高于普通展现形式的文本。上述几种排序因素可以择一使用,也可以组合使用,例如将各排序因素赋予权重,将各词语或词组在各排序因素上的排序状况采用加权方式,得出该词语或词组的最终排序,然后依据最终排序选择排序靠前的词语或词组作为热点概念。另外,除了上述动态的确定热点概念之外,也可以从一些行业内比较认可的概念体系中,选取设定数量的热点概念。在102中,确定各热点概念的相关对象。确定各热点概念的相关对象可以采用多种方式,在本发明实施例中列举以下两种,但并不限于以下两种:第一种方式:获取设定时段的新闻文本,基于与热点概念在新闻文本中的共现关系确定各热点概念的相关对象。当确定了热点概念及其相关对象的领域后,例如确定在金融领域中确定相关对象,则可以获取设定时段的新闻文本,该新闻文本可以是与金融领域相关的新闻文本,基于金融领域的词库,确定在新闻文本中出现的对象关键词,基于对象关键词与热点新闻在新闻文本中的共现关系,例如共现次数、共现频率,等等,从中确定各热点概念。在统计共现次数和共现频率时,可以预设的窗口长度,将在该窗口长度内共同出现认为是共现。该窗口长度可以是20个字符、30个字符,等等。第二种方式:从热点概念所属领域的知识图谱中,确定主营业务与热点概念相关的对象作为该热点概念的相关对象。这种方式主要应用于业务类的对象,在热点概念所属领域的知识图谱中,包含有对象的主营业务信息,其中该主营业务信息包括但不限于该对象所属企业、公司、组织等投资的业务、经营的业务、销售的业务、生产的业务等等。当然除了上述两种方式之外,还可以采用其他方式,例如人工指定与某概念相关的对象,等等。在103中,分别依据热点概念的相关对象的热点参数值,确定各热点概念的热点系数。在本步骤中,由于一个热点概念可能存在一个以上的相关对象,每个对象都具有自身的热点参数值,所谓热点参数值就是能够体现对象热度的参数值,可以包括但不限于设定时间内对象的搜索量、点击量、成交量、价格或收益率等中的至少一种。因此,在确定热点概念的热点系数时,可以采用对该热点概念的相关对象的热点参数进行加权处理的方式。举个例子,假设某热点概念存在N个对象,那么该热点概念的热点系数Hp可以为:Hp=Σi=1Nαi×Pi]]>其中,αi为第i个对象的热点参数的权重系数,Pi为第i个对象的热点参数值。在104中,基于各热点概念的热点系数,对各热点概念进行聚类。在本步骤中,基于各热点概念的热点系数,可以采用现有的多种聚类方式对各热点概念进行聚类。在本发明实施例中可以优选采用层次聚类法。例如:最初将所有样本(即各热点概念)各自作为一类,并预先规定类与类之间的距离阈值;然后将距离最近的两类合并成一个新类,计算新类与其他类之间的距离,重复进行最近类的合并,直至类与类之间的距离大于所述距离阈值,该距离阈值可以根据实际需求进行调整。在进行上述聚类之后,就可以得到属于各类的热点概念信息。对于聚类结果的处理可以采用但不限于以下几种方式:第一种方式:输出聚类后得到的各类的热点概念信息。第二种方式:接收到包含某热点概念信息的查询请求时,返回与该热点概念信息属于同一类的其他热点概念信息。第三种方式:当某热点概念发生突发事件时,输出该热点概念的突发事件信息以及与该热点概念属于同一类的其他热点概念信息。经过试验论证,本发明提供的方法得到的属于同一类的热点概念在热度规律上存在隐性关联,例如在热度走势上体现了很强的关联性,并且存在领涨与跟随的效果,即当其中一个热点概念在热度走势上出现剧烈上升时,虽然属于同一类的其他热点概念暂时未大幅上涨,但在其后不久时间内也会存在急速上升。另外,除了隐性关联之外,属于同一类的热点概念在显性属性之间也存在关联。鉴于同一类的热点概念之间的隐性关联,当其中一个热点概念发生突发事件时,与其属于同一类的热点概念也很大概率上会发生类似突发事件或者受该突发事件影响,因此将与其属于同一类的其他热点概念输出给用户,对与用户而言具有重要意义。本发明提供的上述方法可以应用于多种领域,下面以金融领域为例,以股票作为热点概念的相关对象,对上述方法进行详细描述。图2为本发明实施例提供的以股票为例的详细方法流程图,如图2所示,该方法可以具体包括以下步骤:在201中,获取热点概念。在本步骤中获取热点概念的主要方式与图1中步骤101中所述方式基本相同,但针对股票这一具体对象而言,有几点需要特殊说明:在获取特定时段内的新闻文本时,该设定时段可以根据实际的需求进行设置,如果设置的较长,则聚类结果体现的类内关联性越准确,但计算量也较大,因此需要在两者之间取一个均衡。例如可以选取90天。另外,可以从与股票存在一定关联的新闻网站分类下获取新闻文本,例如“科技”、“财经”、“股票”、“房产”、“政策”等分类下获取新闻文本。而对于“娱乐”、“女人”、“体育”等分类通常与股票之间的关联较小,因此不会从该分类下获取新闻文本。在本发明实施例中可以选取20个热点概念,该20个热点概念属于金融行业内比较认可的概念体系。在202中,确定各热点概念的相关股票。本步骤中确定各热点概念的相关股票的方式可以采用图1所示实施例中步骤102中所描述的两种方式。第一种方式:获取设定时段的新闻文本,基于与热点概念在新闻文本中的共现关系确定各热点概念的相关股票。以“环保”概念为例,可以获取90日之内的新闻文本,统计新闻文本中与“环保”共现于20个字符的各股票名称,经过统计后,选取共现次数排在前10个的股票名称,例如“兴源环境”、“长青集团”、“钱江水利”、“雪迪龙”等等,将这10个股票作为“环保”概念的相关股票。第二种方式:从热点概念在金融领域的知识图谱中,确定主营业务与热点概念相关的股票作为该热点概念的相关股票。以“全息手机”概念为例,通过查找知识图谱,确定出以下股票作为“全息手机”概念的相关股票:“长江通信”、“深天马”、“莱宝高科”等股票是全息手机的供应商;“利达光电”是全息手机的生产商。在203中,分别依据热点概念的相关股票的热点参数值,确定各热点概念的热点系数。对于股票而言,选择的热点参数可以是搜索量、点击量、成交量、价格、收益率等参数中的至少一个。在此以搜索量、价格和收益率三个热点参数为例。由于一个热点概念可能与多个股票相关,因此在确定热点概念的热点系数时,可以采用对该热点概念的相关股票的热点参数进行加权处理的方式。其中各股票对应的加权系数可以为:该股票的市值分别与该热点概念的所有相关股票的总市值的比值。例如,一个热点概念对应三个股票a、b和c,股票a的加权系数为股票a的市值与股票a、b、c的总市值的比例,股票b的加权系数为股票b的市值与股票a、b、c的总市值的比例,股票c的加权系数为股票c的市值与股票a、b、c的总市值的比例。分别对股票a、b和c的搜索量进行加权求和,得到该热点概念的搜索量,对股票a、b和c的价格进行加权求和,得到该热点概念的价格,对股票a、b和c的收益率进行加权求和,得到该热点概念的收益率。然后该热点概念的搜索量、价格、收益率构成该热点概念的热点系数,该热点系数可以表示为一个向量。在204中,基于各热点概念的热点系数,采用层次聚类法对各热点概念进行聚类。在进行层次聚类时,各热点概念之间的距离可以采用各热点概念的热点系数向量之间的距离来衡量。假设选取的20个热点概念分别为:“新媒体”、“网络电视”、“两会”、“涉矿”、“湖南国资改革”、“长株潭”、“三星”、“全息手机”、“黄金水道”、“环渤海”、“铜冶炼”、“生物农药”、“草甘膦”、“排水”、“油价上调”、“煤价下跌受益”、“林场改革”、“农业产业化”、“节水灌溉”、“甲乙酮”、“丁二烯”。经过上述方式确定各热点概念的热点系数,并基于此进行层次聚类后,得到的聚类结果可以如图3中所示。针对上述聚类结果进行以下关联关系的验证:1)经过聚类后,属于同一类的热点概念之间存在显性属性的关联。例如:“甲乙酮”和丁二烯属于同一行业,新媒体与网络电视属于同一行业,三星与全息手机属于同一行业。湖南国资委和长株潭属于同一地域。两会与涉矿属于同一政策。2)经过聚类后,属于同一类的热点概念在日收益的走势上体现了强关联性。例如,农业产业化、林场改革和节水灌溉属于同一类的三个热点概念,其对应的日收益走势图如图4所示,三个热线概念的日收益走势重合率非常高,可见显现了较强的关联性。3)经过聚类后,属于同一类的热点概念存在领涨与跟随现象。例如,图5为节水灌溉与林场改革两个概念在2015年9月25日到2015年10月14的股价15分钟走势图,在林场改革概念突然出现剧烈拉升时,节水灌溉概念瞬时虽然未答复上涨,但其后不久也出现了急速拉升。也就是说,属于同一类的热点概念的日拉升存在先后顺序,及时捕捉先行者并做出提示,有助于发掘下一个时段的快速上涨概念,该提示对于股民等投资者来说,具有重要意义。因此,可以继续执行205,当其中一个热点概念发生突发事件时,输出该热点概念的突发事件信息以及与该热点概念属于同一类的其他热点概念信息。例如,当节水灌溉概念发生出现剧烈拉升时,可以输出如下信息:“节水灌溉概念迅速商鞅,林场改革概念或有投资机会”。图2所示实施例除了适用于股票类的对象之外,还可以适用于诸如基金、期货等其他可投资类对象。以上是对本发明所提供方法进行的详细描述,下面对本发明提供的装置进行详细描述。图6为本发明实施例提供的装置结构图,如图6中所示,该装置可以包括:概念获取单元01、对象确定单元02、系数确定单元03和概念聚类单元04,还可以包括信息交互单元05。概念获取单元01负责获取热点概念。可以采用多种方式实现热点概念的挖掘,例如基于对新闻文本的文本挖掘,提取其中的热点概念;再例如,基于对搜索日志中热门搜索词的挖掘,提取其中的热门搜索词作为热点概念;等等。以基于新闻文本的文本挖掘为例,概念获取单元01获取设定时段内的新闻文本;对获取的新闻文本进行预处理后,基于词频、在新闻本文中出现的位置、在新闻文本中的展示形式中的至少一种,对新闻文本中的各词语或词组进行排序;基于排序结果,提取出词语或词组作为热点概念。对象确定单元02负责确定各热点概念的相关对象。具体地,对象确定单元02可以采用但不限于以下两种方式:第一种方式:获取设定时段的新闻文本,基于与热点概念在新闻文本中的共现关系确定该热点概念的相关对象。第二种方式:从热点概念所属领域的知识图谱中,确定主营业务与热点概念相关的对象作为该热点概念的相关对象。系数确定单元03负责依据热点概念的相关对象的热点参数值,分别确定各热点概念的热点系数。由于一个热点概念可能存在一个以上的相关对象,每个对象都具有自身的热点参数值,所谓热点参数值就是能够体现对象热度的参数值,可以包括但不限于设定时间内对象的搜索量、点击量、成交量、价格或收益率等中的至少一种。因此,在确定热点概念的热点系数时,可以采用对该热点概念的相关对象的热点参数进行加权处理的方式。概念聚类单元04负责基于各热点概念的热点系数,对各热点概念进行聚类。基于各热点概念的热点系数,可以采用现有的多种聚类方式对各热点概念进行聚类。在本发明实施例中可以优选采用层次聚类法。对于聚类结果的处理和应用,信息交互单元05可以输出聚类后得到的各类的热点概念信息;或者,当某热点概念发生突发事件时,输出该热点概念的突发事件信息以及与该热点概念属于同一类的其他热点概念信息;或者,接收到包含某热点概念信息的查询请求时,返回与该热点概念信息属于同一类的其他热点概念信息。上述装置尅应用于多种领域,以金融领域为例,上述的对象可以包括股票、基金或期货。以对象为股票为例,系数确定单元03可以在对热点概念的相关对象的热点参数值进行加权处理时,采用各对象对应的加权系数为:各股票的市值分别与该热点概念的所有相关股票的总市值的比值。本发明实施例中对于关联关系的挖掘可以是周期性的,即每隔一定时间就进行一次关联关系的挖掘,也可以是基于事件触发的,例如由用户操作触发进行关联关系的挖掘。另外,上述挖掘方法可以在服务器端执行,并将聚类结果或者基于该聚类的输出结果发送给终端设备。或者,上述挖掘方法也可以在终端设备端执行。执行上述挖掘方法的装置可以是位于服务器端的应用软件或者还可以为位于服务器端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者,还可以位于终端设备端,本发明实施例对此不进行特别限定。由以上描述可以看出,本发明采用另一个角度研究概念之间的关联关系,通过各热点概念的相关对象的热点参数值,确定各热点概念的热点系数,基于热点系数对各热点概念进行聚类。该聚类结果能够体现出概念热度规律之间的隐性关联,经过试验论证,同时也能够在地域、行业等显性属性上体现出热点概念之间的关联。因此,本发明能够对现有概念体系进行有效补充。在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1