一种聚合概念的方法和装置与流程

文档序号:12271480阅读:194来源:国知局
一种聚合概念的方法和装置与流程

本发明涉及计算机技术领域,尤其涉及一种用于聚合概念的技术。



背景技术:

目前,随着网络的日益发展,对于同一个概念,存在大量的网站、新闻等对其进行报道,然而,这些网站或新闻在报道同一个概念时往往并不相同,存在一定的偏差,这样对用户的对概念的正确理解造成了困难。

特别地,以股票概念为例,股票概念作为股票市场的一种共识,是用户了解和选择相关股票的一个有效的特征。在很多市场中,股票概念通常可以指引一系列股票的涨跌。目前股票概念通常都是通过金融机构内人为进行的定义,不同机构之间对股票概念的定义没有一定的标准化,使得股民在理解不同机构的同一概念时会有偏差,对于建立统一的概念体系框架也有影响。

因此,如何有效地聚合概念,成为本领域技术人员亟需解决的问题之一。



技术实现要素:

本发明的目的是提供一种用于聚合概念的方法和装置。

根据本发明的一个方面,提供了一种聚合概念的方法,其中,该方法包括以下步骤:

通过对各个网站的挖掘,获得待处理的母概念及其对应的子概念;

分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的母概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述母概念及其对应的子概念计算获得所述第一相似度;

根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的母概念是否可以聚合。

优选地,基于概念分析模型计算获得所述第一相似度的方法包括:

x根据各个子概念在各个网站出现的次数,将所述待处理的母概念抽象成其对应的子概念的向量;

y根据所述两个待处理的母概念所对应的向量,计算获得所述两个待处理的母概念之间的第一相似度。

更优选地,所述步骤y包括:

根据所述两个待处理的母概念所对应的向量,并结合所述两个待处理的母概念之间的包含关系,计算获得所述两个待处理的母概念之间的第一相似度。

优选地,基于主题语意模型计算获得所述第二相似度的方法包括:

根据所述两个待处理的母概念作为新闻主题出现的次数,以及所述两个待处理的母概念作为同一新闻主题出现的次数,计算获得所述两个待处理的母概念之间的第二相似度。

优选地,所述预定规则包括:

采用所述第一相似度、所述第二相似度、所述第三相似度中的至少一个,当被采用的相似度大于其对应的预定阈值时,判断所述两个待处理的母概念可以聚合。

优选地,该方法还包括:

根据对多个母概念的聚合结果,确定所述多个母概念的最终概念表达。

优选地,所述母概念包括股票概念,所述子概念包括所述股票概念所对应的成份股。

根据本发明的另一个方面,还提供了一种聚合概念的聚合装置,其中,该聚合装置包括:

挖掘装置,用于通过对各个网站的挖掘,获得待处理的母概念及其对应的子概念;

计算装置,用于分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的母概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述母概念及其对应的子概念计算获得所述第一相似度;

判断装置,用于根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的母概念是否可以聚合。

优选地,所述计算装置还包括第一相似度计算单元,用于:

根据各个子概念在各个网站出现的次数,将所述待处理的母概念抽象成其对应的子概念的向量;

根据所述两个待处理的母概念所对应的向量,计算获得所述两个待处理的母概念之间的第一相似度。

更优选地,所述第一相似度计算单元还用于:

根据所述两个待处理的母概念所对应的向量,并结合所述两个待处理的母概念之间的包含关系,计算获得所述两个待处理的母概念之间的第一相似度。

优选地,所述计算装置还包括第二相似度计算单元,用于:

根据所述两个待处理的母概念作为新闻主题出现的次数,以及所述两个待处理的母概念作为同一新闻主题出现的次数,计算获得所述两个待处理的母概念之间的第二相似度。

优选地,所述预定规则包括:

采用所述第一相似度、所述第二相似度、所述第三相似度中的至少一个,当被采用的相似度大于其对应的预定阈值时,判断所述两个待处理的母概念可以聚合。

优选地,该聚合装置还包括:

确定装置,用于根据对多个母概念的聚合结果,确定所述多个母概念的最终概念表达。

优选地,所述母概念包括股票概念,所述子概念包括所述股票概念所对应的成份股。

根据本发明的又一个方面,还提供了一种计算机设备,所述计算机设备包括:

一个或多个处理器;

存储器,用于存储一个或多个计算机程序;

当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上任一项所述的方法。

与现有技术相比,本发明通过对各个网站的挖掘,获得待处理的母概念及其对应的子概念;分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的母概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述母概念及其对应的子概念计算获得所述第一相似度;根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的母概念是否可以聚合,高效、准确地对母概念进行聚合,方便用户的正确理解,提高了用户的使用体验。

进一步地,本发明基于股票概念的成份股、股票概念在新闻的主题中的表现,以及股票概念基本的形式来进行股票概念的聚合,有效地对各金融机构的概念进行了标准化,帮助投资者更好的进行投资。本发明例如可以应用于大规模商业资讯分析系统中,对表意相同的股票概念进行自动化聚合,从而指导概念体系框架的建设。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1示出根据本方面一个方面的用于聚合概念的聚合装置的结构示意图;

图2示出根据本发明另一个方面的用于聚合概念的方法的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑等。

所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于个人电脑、笔记本电脑、平板电脑等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本发明作进一步详细描述。

图1示出根据本方面一个方面的用于聚合概念的聚合装置的结构示意图。

聚合装置1例如位于计算机设备中,其包括挖掘装置101、计算装置102和判断装置103。具体地,挖掘装置101通过对各个网站的挖掘,获得待处理的母概念及其对应的子概念;计算装置102分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的母概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述母概念及其对应的子概念计算获得所述第一相似度;判断装置103根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的母概念是否可以聚合。

其中,挖掘装置101通过对各个网站的挖掘,获得待处理的母概念及其对应的子概念。

具体地,挖掘装置101通过对各个网站的挖掘,自各个网站所对应的各个网页上获得待处理的母概念及其对应的子概念,例如,挖掘装置101根据爬虫(spider)爬取的各个网页,通过对各个网页进行页面分析,获得待处理的母概念及其对应的子概念。

在此,以所述母概念包括股票概念,所述子概念包括所述股票概念所对应的成份股为例进行说明,挖掘装置101通过对各个金融网站的挖掘,获得各个不同的股票概念及其分别对应的成份股,例如,挖掘装置101在某个金融网站中挖掘得到股票概念“机器人”,并且,在该网站的各个网页中挖掘得到该股票概念“机器人”所关联的成份股,如达意隆(002209)、楚天科技(300358)、华丽家族(600503)、上工申贝(600843)、伊之密(300415)、长荣股份(300195)等。

优选地,挖掘装置101将在一个网站中所获取的母概念及其对应的所有子概念作为一个概念集,则挖掘装置101通过对不同网站的挖掘,可以获得多个概念集,后续装置通过对该多个概念集中的各个母概念进行相似度计算等操作,判断这些母概念是否可以聚合。

本领域技术人员应能理解,上述获得待处理的母概念及其对应的子概念的方式仅为举例,其他现有或今后可能出现的获得待处理的母概念及其对应的子概念的方式,如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用的方式包含于此。

计算装置102分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的母概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述母概念及其对应的子概念计算获得所述第一相似度。

具体地,计算装置102基于概念分析模型,计算两个待处理的母概念之间的第一相似度,例如,计算装置102基于概念分析模型,根据所述母概念及其对应的子概念,计算获得所述第一相似度。例如,计算装置102首先将所述待处理的母概念抽象成其对应的子概念的向量,用向量来表示该待处理的母概念,随后,例如通过计算两个待处理的母概念所对应的向量之间的余弦相似度,来获得该两个待处理的母概念之间的第一相似度。

计算装置102还基于主题语意模型,计算两个待处理的母概念之间的第二相似度,例如,计算装置102基于主题语意模型,根据该两个待处理的母概念分别作为新闻主题、网页标题或页面摘要等出现的次数,或者根据该两个待处理的母概念在同一个新闻主题、网页标题或页面摘要等中出现的次数,计算获得所述两个待处理的母概念之间的第二相似度。在此,该计算装置102通过对各个新闻主题、网页标题或页面摘要的分析,或者,通过与第三方分析这些新闻主题、网页标题或页面摘要的设备的交互,统计该两个待处理的母概念作为新闻主题、网页标题或页面摘要等出现的次数。

对该第二相似度的一种计算方式例如,将该两个待处理的母概念在同一个新闻主题、网页标题或页面摘要等中出现的次数除以该两个待处理的母概念分别作为新闻主题、网页标题或页面摘要等出现的次数的积。

对该第二相似度的另一种计算方式例如,将该两个待处理的母概念在同一个新闻主题、网页标题或页面摘要等中出现的次数除以该两个待处理的母概念作为新闻主题、网页标题或页面摘要等出现的次数的积。也即,不管该两个母概念是单独出现,还是共同出现在新闻主题、网页标题或页面摘要,均计一次该母概念出现在新闻主题、网页标题或页面摘要的次数。

计算装置102还基于文本相似度模型,计算两个待处理的母概念之间的第三相似度,例如,计算装置102通过计算该两个待处理的母概念之间的距离,计算该两个母概念之间的第三相似度,或者,基于哈希算法,计算该两个母概念之间的第三相似度。例如,计算装置102通过比较该两个待处理的母概念的节点,计算该两个母概念的增删距离与替换距离,其中,增删距离与替换距离的和为该两个母概念的编辑距离,根据该增删距离和替换距离,计算该两个母概念的相似度。在此,计算装置102可以采用任意现有的文本相似度模型,计算两个待处理的母概念之间的第三相似度。优选地,计算装置102还可以对该两个待处理的母概念进行去除停用词等预处理,再对经预处理之后的母概念进行第三相似度计算。

在此,所述概念分析模型、主题语意模型或文本相似度模型例如通过对大量的训练文本的训练所获得。

本领域技术人员应能理解,上述计算第一、第二、第三相似度的方式仅为举例,其他现有或今后可能出现的计算第一、第二、第三相似度的方式,如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用的方式包含于此。

判断装置103根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的母概念是否可以聚合。

具体地,判断装置103根据该计算装置102所计算得到的第一相似度、第二相似度或第三相似度,并结合预定规则,综合考虑该三个相似度或仅考虑其中的任意一个或任意两个,从而判断所述两个待处理的母概念是否可以聚合。在此,预定规则包括参考不同的相似度、参考不同的相似度阈值,例如,该预定规则规定只要该两个待处理的母概念之间的第一、第二或第三相似度中有任意一个大于其对应的预定阈值,即可判定该两个待处理的母概念是否可以聚合。例如,预定规则规定第一、第二、第三相似度阈值均为0.66,只要该两个待处理的母概念之间的第一、第二或第三相似度中有任意一个大于0.66,即可判定该两个待处理的母概念是否可以聚合。

又如,预定规则规定第一、第二、第三相似度阈值均为0.66,且该预定规则还规定需综合考虑第一相似度和第二相似度,则判断装置103判断该两个待处理的母概念之间的第一相似度和第二相似度是否均大于0.66,若均大于0.66,则判断该两个待处理的母概念可以聚合,若有一个未大于0.66,则判断该两个待处理的母概念不可以聚合。

再如,预定规则规定第一相似度阈值为0.66,第二相似度阈值为0.7,第三相似度阈值为0.8,该预定规则还规定仅考虑第一相似度,则判断装置103判断该两个待处理的母概念之间的第一相似度是否大于0.66,若大于0.66,则判断该两个待处理的母概念可以聚合。

在此,第一相似度阈值、第二相似度阈值、第三相似度阈值的数值例如可以是系统预置的,也可以根据实际情况由用户进行调整,上述所举的数值仅为更好地说明实施例,而不应成为本发明的限制。

优选地,所述预定规则包括:采用所述第一相似度、所述第二相似度、所述第三相似度中的至少一个,当被采用的相似度大于其对应的预定阈值时,判断所述两个待处理的母概念可以聚合。

例如,预定规则规定第一相似度对应的预定阈值为0.66,第二相似度对应的预定阈值为0.7,第三相似度对应的预定阈值为0.8,该预定规则还规定需要考虑第一相似度及第二相似度,则判断装置103判断该两个待处理的母概念之间的第一相似度是否大于0.66,且判断第二相似度是否大于0.7,若该第一相似度大于0.66且第二相似度大于0.7,则判断该两个待处理的母概念可以聚合;若该第一相似度小于等于0.66或该第二相似度小于等于0.7,则判断该两个待处理的母概念不可以聚合。

又如,预定规则规定第一相似度对应的预定阈值为0.66,第二相似度对应的预定阈值为0.7,第三相似度对应的预定阈值为0.8,该预定规则还规定需要综合考虑第一相似度、第二相似度及第三相似度,则判断装置103判断该两个待处理的母概念之间的第一相似度是否大于0.66,且判断第二相似度是否大于0.7,判断第三相似度是否大于0.8,若该第一相似度大于0.66、第二相似度大于0.7且第三相似度大于0.8,则判断该两个待处理的母概念可以聚合;若有任何一个相似度小于等于其对应的预定阈值,则判断该两个待处理的母概念不可以聚合。

本领域技术人员应能理解,上述预定规则仅为举例,其他现有或今后可能出现的预定规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用的方式包含于此。

在此,聚合装置1通过对各个网站的挖掘,获得待处理的母概念及其对应的子概念;分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的母概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述母概念及其对应的子概念计算获得所述第一相似度;根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的母概念是否可以聚合,高效、准确地对母概念进行聚合,方便用户的正确理解,提高了用户的使用体验。

优选地,所述计算装置102还包括第一相似度计算单元1021(未示出)、第二相似度计算单元1022(未示出)和第三相似度计算单元(未示出)。该第一相似度计算单元1021基于概念分析模型,计算两个待处理的母概念之间的第一相似度;第二相似度计算单元1022基于主题语意模型,计算两个待处理的母概念之间的第二相似度;第三相似度计算单元1023基于文本相似度模型,计算两个待处理的母概念之间的第三相似度。

其中,该第一相似度计算单元1021根据各个子概念在各个网站出现的次数,将所述待处理的母概念抽象成其对应的子概念的向量;根据所述两个待处理的母概念所对应的向量,计算获得所述两个待处理的母概念之间的第一相似度。

具体地,各个网站中包含有母概念及其对应的各个子概念,挖掘装置101在对各个网站进行挖掘时,还可以获取各个子概念在各个网站出现的次数,第一相似度计算单元1021根据各个子概念在各个网站出现的次数,将所述待处理的母概念抽象成其对应的子概念的向量;随后,第一相似度计算单元1021再根据所述两个待处理的母概念所对应的向量,计算获得所述两个待处理的母概念之间的第一相似度,例如,通过计算该两个待处理的母概念所对应的向量之间的余弦相似度,计算获得该第一相似度。

以所述母概念包括股票概念,所述子概念包括所述股票概念所对应的成份股为例进行说明,挖掘装置101通过对各个金融网站的挖掘,获得各个不同的股票概念及其分别对应的成份股,以下以“concept”表示股票概念,V(concept)表示股票概念所对应的向量,stock1、stock2…stockn则表示成份股1、成份股2…成份股n,则V(concept)可以通过下式表达:

V(concept)={stock1,stock2,…,stockn}

则股票概念i、股票概念j之间的第一相似度rel(concepti,conceptj)例如可以通过计算该两个股票概念所对应的向量之间的余弦相似度cos(vec(concepti),vec(conceptj))得出:

更优选地,所述第一相似度计算单元1021还根据所述两个待处理的母概念所对应的向量,并结合所述两个待处理的母概念之间的包含关系,计算获得所述两个待处理的母概念之间的第一相似度。

具体地,该两个待处理的母概念之间还可能存在包含关系,第一相似度计算单元1021在计算该两个母概念之间的第一相似度之时,还需要考虑该包含关系,例如,对于母概念“征信”和“个人征信”,其两者即具有包含关系,母概念“个人征信”包含有母概念“征信”。

在此,以“concept”表示母概念,Vec(concept)表示母概念所对应的向量,则母概念i和母概念j之间的包含关系可以表示为include(vec(concepti),vec(conceptj)),这样,第一相似度计算单元1021例如可以根据下式来计算母概念i和母概念j之间的第一相似度:

rel(concepti,conceptj)=α1*cos(vec(concepti),vec(conceptj))+

α2*include(vec(concepti),vec(conceptj))

(a12=1)

其中,rel(concepti,conceptj)表示母概念i、母概念j之间的第一相似度,cos(vec(concepti),vec(conceptj))表示母概念i、母概念j之间的余弦相似度,其可以通过下式计算得出:

α1、α2分别表示该余弦相似度与包含关系的权重,其取值之和为1,而其分别对应的取值可以是系统预置的,也可以根据实际情况进行调整,一种简单的情况例如α1=0.5,α2=0.5。

在此,若母概念i和母概念j之间有包含关系,则include(vec(concepti),vec(conceptj))的取值为1;若没有包含关系,则取值为0。

优选地,第二相似度计算单元1022(未示出)根据所述两个待处理的母概念作为新闻主题出现的次数,以及所述两个待处理的母概念作为同一新闻主题出现的次数,计算获得所述两个待处理的母概念之间的第二相似度。

具体地,待处理的两个母概念可能出现在同一个新闻主题中,也可能单独出现在新闻主题中,在此,以cout(concept)表示代表母概念作为新闻主题出现的次数,也即,只要该母概念作为新闻主题出现,即计一次数;以mul(concepti,conceptj)表示母概念i和母概念j作为同一新闻主题出现的次数,则第二相似度计算单元1022根据下式,计算获得该两个待处理的母概念之间的第二相似度rel(concepti,conceptj):

rel(concepti,conceptj)=mul(concepti,conceptj)/(cout(concepti)*cout(conceptj))

优选地,所述母概念包括股票概念,所述子概念包括所述股票概念所对应的成份股。

股票概念,或言之,概念股,是指具有某种特别内涵的股票,是对一类具有共同特征股票的总称,其有具体的名称,事物题材等,例如金融股,地产股,资产重组股,券商股,奥运题材股,保险股,期货概念等都称之为概念股。例如,奥运概念,指的就是与承办奥运有商业机会的一类公司的总称。这样的概念还有许多,如网络概念、3G概念,WTO概念、生物医药概念,整体上市概念,股指期货概念等。

成份股,又称指数股,是指计算股票价格指数时所选用的股票。股票价格指数是以这些成份股为基础计算出来的,通过对股票市场上一些有代表性的公司发行的股票价格进行平均计算和动态对比后得出的数值被称为股票价格指数。股票价格指数能综合考察股票市场的动态变化过程,反映股票市场的价格水平,为社会公众提供股票投资和合法的股票增值活动的参考依据。那么,这些有代表性的公司股票被笼统的称为成份股。上证180指数和深证100指数就是沪、深股市中两个具有典型代表性的指数,而构成上述指数的股票就分别称为上证180指数成份股和深圳100指数成份股。

例如,对于股票概念“机器人”,其所关联的成份股可以包括达意隆(002209)、楚天科技(300358)、华丽家族(600503)、上工申贝(600843)、伊之密(300415)、长荣股份(300195)等。

股票概念作为股票市场的一种共识,是用户了解和选择相关股票的一个有效的特征。在很多市场中,股票概念通常可以指引一系列股票的涨跌。目前股票概念通常都是通过金融机构内人为进行的定义。而不同机构之间对概念的定义没有一定的标准化,使得股民在理解不同机构的同一概念时会有偏差,对于建立统一的概念体系框架也有影响。例如,“征信”、“信用体系建设”、“行业信用”、“个人征信”这四个股票概念其实是在讲述同一个股票概念,而实际股民看到的却是四个股票概念。

因此,聚合装置1可以通过对各个金融网站的挖掘,获得待处理的股票概念及其对应的成份股,分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的股票概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述股票概念及其对应的成份股计算获得所述第一相似度;随后,聚合装置1再根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的股票概念是否可以聚合。

在此,聚合装置1基于股票概念的成份股、股票概念在新闻的主题中的表现,以及股票概念基本的形式来进行股票概念的聚合,有效地对各金融机构的概念进行了标准化,帮助投资者更好的进行投资。聚合装置1例如可以应用于大规模商业资讯分析系统中,对表意相同的股票概念进行自动化聚合,从而指导概念体系框架的建设。

优选地,该聚合装置1还包括确定装置(未示出),该确定装置根据对多个母概念的聚合结果,确定所述多个母概念的最终概念表达。

具体地,聚合装置1通过对多个母概念的两两之间判断是否可以聚合,可以获得对应的聚合结果,例如,获知那几个母概念可以聚合在一起,确定装置根据该聚合结果,可以确定这几个可以聚合在一起的母概念的最终概念表达,例如,将在各个网站中出现频次最高的母概念作为最终概念表达。

例如,通过前述各个装置所执行的各项操作,发现“征信”、“信用体系建设”、“行业信用”、“个人征信”这四个母概念可以聚合在一起,确定装置根据该几个母概念的聚合结果,确定上述几个母概念的最终概念表达,例如,根据挖掘装置101对各个网站的挖掘结果,发现母概念“征信”的出现频次最高,则确定装置即将该母概念“征信”作为上述几个母概念的最终概念表达。

本领域技术人员应能理解,上述确定最终概念表达的方式仅为举例,其他现有或今后可能出现的确定最终概念表达的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用的方式包含于此。

图2示出根据本发明另一个方面的用于聚合概念的方法的流程示意图。

在步骤S201中,聚合装置1通过对各个网站的挖掘,获得待处理的母概念及其对应的子概念。

具体地,在步骤S201中,聚合装置1通过对各个网站的挖掘,自各个网站所对应的各个网页上获得待处理的母概念及其对应的子概念,例如,在步骤S201中,聚合装置1根据爬虫(spider)爬取的各个网页,通过对各个网页进行页面分析,获得待处理的母概念及其对应的子概念。

在此,以所述母概念包括股票概念,所述子概念包括所述股票概念所对应的成份股为例进行说明,在步骤S201中,聚合装置1通过对各个金融网站的挖掘,获得各个不同的股票概念及其分别对应的成份股,例如,在步骤S201中,聚合装置1在某个金融网站中挖掘得到股票概念“机器人”,并且,在该网站的各个网页中挖掘得到该股票概念“机器人”所关联的成份股,如达意隆(002209)、楚天科技(300358)、华丽家族(600503)、上工申贝(600843)、伊之密(300415)、长荣股份(300195)等。

优选地,在步骤S201中,聚合装置1将在一个网站中所获取的母概念及其对应的所有子概念作为一个概念集,则在步骤S201中,聚合装置1通过对不同网站的挖掘,可以获得多个概念集,后续步骤通过对该多个概念集中的各个母概念进行相似度计算等操作,判断这些母概念是否可以聚合。

本领域技术人员应能理解,上述获得待处理的母概念及其对应的子概念的方式仅为举例,其他现有或今后可能出现的获得待处理的母概念及其对应的子概念的方式,如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用的方式包含于此。

在步骤S202中,聚合装置1分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的母概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述母概念及其对应的子概念计算获得所述第一相似度。

具体地,在步骤S202中,聚合装置1基于概念分析模型,计算两个待处理的母概念之间的第一相似度,例如,在步骤S202中,聚合装置1基于概念分析模型,根据所述母概念及其对应的子概念,计算获得所述第一相似度。例如,在步骤S202中,聚合装置1首先将所述待处理的母概念抽象成其对应的子概念的向量,用向量来表示该待处理的母概念,随后,例如通过计算两个待处理的母概念所对应的向量之间的余弦相似度,来获得该两个待处理的母概念之间的第一相似度。

在步骤S202中,聚合装置1还基于主题语意模型,计算两个待处理的母概念之间的第二相似度,例如,在步骤S202中,聚合装置1基于主题语意模型,根据该两个待处理的母概念分别作为新闻主题、网页标题或页面摘要等出现的次数,或者根据该两个待处理的母概念在同一个新闻主题、网页标题或页面摘要等中出现的次数,计算获得所述两个待处理的母概念之间的第二相似度。在此,在步骤S202中,聚合装置1通过对各个新闻主题、网页标题或页面摘要的分析,或者,通过与第三方分析这些新闻主题、网页标题或页面摘要的设备的交互,统计该两个待处理的母概念作为新闻主题、网页标题或页面摘要等出现的次数。

对该第二相似度的一种计算方式例如,将该两个待处理的母概念在同一个新闻主题、网页标题或页面摘要等中出现的次数除以该两个待处理的母概念分别作为新闻主题、网页标题或页面摘要等出现的次数的积。

对该第二相似度的另一种计算方式例如,将该两个待处理的母概念在同一个新闻主题、网页标题或页面摘要等中出现的次数除以该两个待处理的母概念作为新闻主题、网页标题或页面摘要等出现的次数的积。也即,不管该两个母概念是单独出现,还是共同出现在新闻主题、网页标题或页面摘要,均计一次该母概念出现在新闻主题、网页标题或页面摘要的次数。

在步骤S202中,聚合装置1还基于文本相似度模型,计算两个待处理的母概念之间的第三相似度,例如,在步骤S202中,聚合装置1通过计算该两个待处理的母概念之间的距离,计算该两个母概念之间的第三相似度,或者,基于哈希算法,计算该两个母概念之间的第三相似度。例如,在步骤S202中,聚合装置1通过比较该两个待处理的母概念的节点,计算该两个母概念的增删距离与替换距离,其中,增删距离与替换距离的和为该两个母概念的编辑距离,根据该增删距离和替换距离,计算该两个母概念的相似度。在此,在步骤S202中,聚合装置1可以采用任意现有的文本相似度模型,计算两个待处理的母概念之间的第三相似度。优选地,在步骤S202中,聚合装置1还可以对该两个待处理的母概念进行去除停用词等预处理,再对经预处理之后的母概念进行第三相似度计算。

在此,所述概念分析模型、主题语意模型或文本相似度模型例如通过对大量的训练文本的训练所获得。

本领域技术人员应能理解,上述计算第一、第二、第三相似度的方式仅为举例,其他现有或今后可能出现的计算第一、第二、第三相似度的方式,如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用的方式包含于此。

在步骤S203中,聚合装置1根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的母概念是否可以聚合。

具体地,在步骤S203中,聚合装置1根据在步骤S202中所计算得到的第一相似度、第二相似度或第三相似度,并结合预定规则,综合考虑该三个相似度或仅考虑其中的任意一个或任意两个,从而判断所述两个待处理的母概念是否可以聚合。在此,预定规则包括参考不同的相似度、参考不同的相似度阈值,例如,该预定规则规定只要该两个待处理的母概念之间的第一、第二或第三相似度中有任意一个大于其对应的预定阈值,即可判定该两个待处理的母概念是否可以聚合。例如,预定规则规定第一、第二、第三相似度阈值均为0.66,只要该两个待处理的母概念之间的第一、第二或第三相似度中有任意一个大于0.66,即可判定该两个待处理的母概念是否可以聚合。

又如,预定规则规定第一、第二、第三相似度阈值均为0.66,且该预定规则还规定需综合考虑第一相似度和第二相似度,则在步骤S203中,聚合装置1判断该两个待处理的母概念之间的第一相似度和第二相似度是否均大于0.66,若均大于0.66,则判断该两个待处理的母概念可以聚合,若有一个未大于0.66,则判断该两个待处理的母概念不可以聚合。

再如,预定规则规定第一相似度阈值为0.66,第二相似度阈值为0.7,第三相似度阈值为0.8,该预定规则还规定仅考虑第一相似度,则在步骤S203中,聚合装置1判断该两个待处理的母概念之间的第一相似度是否大于0.66,若大于0.66,则判断该两个待处理的母概念可以聚合。

在此,第一相似度阈值、第二相似度阈值、第三相似度阈值的数值例如可以是系统预置的,也可以根据实际情况由用户进行调整,上述所举的数值仅为更好地说明实施例,而不应成为本发明的限制。

优选地,所述预定规则包括:采用所述第一相似度、所述第二相似度、所述第三相似度中的至少一个,当被采用的相似度大于其对应的预定阈值时,判断所述两个待处理的母概念可以聚合。

例如,预定规则规定第一相似度对应的预定阈值为0.66,第二相似度对应的预定阈值为0.7,第三相似度对应的预定阈值为0.8,该预定规则还规定需要考虑第一相似度及第二相似度,则在步骤S203中,聚合装置1判断该两个待处理的母概念之间的第一相似度是否大于0.66,且判断第二相似度是否大于0.7,若该第一相似度大于0.66且第二相似度大于0.7,则判断该两个待处理的母概念可以聚合;若该第一相似度小于等于0.66或该第二相似度小于等于0.7,则判断该两个待处理的母概念不可以聚合。

又如,预定规则规定第一相似度对应的预定阈值为0.66,第二相似度对应的预定阈值为0.7,第三相似度对应的预定阈值为0.8,该预定规则还规定需要综合考虑第一相似度、第二相似度及第三相似度,则在步骤S203中,聚合装置1判断该两个待处理的母概念之间的第一相似度是否大于0.66,且判断第二相似度是否大于0.7,判断第三相似度是否大于0.8,若该第一相似度大于0.66、第二相似度大于0.7且第三相似度大于0.8,则判断该两个待处理的母概念可以聚合;若有任何一个相似度小于等于其对应的预定阈值,则判断该两个待处理的母概念不可以聚合。

本领域技术人员应能理解,上述预定规则仅为举例,其他现有或今后可能出现的预定规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用的方式包含于此。

在此,聚合装置1通过对各个网站的挖掘,获得待处理的母概念及其对应的子概念;分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的母概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述母概念及其对应的子概念计算获得所述第一相似度;根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的母概念是否可以聚合,高效、准确地对母概念进行聚合,方便用户的正确理解,提高了用户的使用体验。

优选地,所述步骤S202还包括子步骤S2021(未示出)、子步骤S2022(未示出)和子步骤S2023(未示出)。在子步骤S2021中,聚合装置1基于概念分析模型,计算两个待处理的母概念之间的第一相似度;在子步骤S2022中,聚合装置1基于主题语意模型,计算两个待处理的母概念之间的第二相似度;在子步骤S2023中,聚合装置1基于文本相似度模型,计算两个待处理的母概念之间的第三相似度。

其中,在子步骤S2021中,聚合装置1根据各个子概念在各个网站出现的次数,将所述待处理的母概念抽象成其对应的子概念的向量;根据所述两个待处理的母概念所对应的向量,计算获得所述两个待处理的母概念之间的第一相似度。

具体地,各个网站中包含有母概念及其对应的各个子概念,在步骤S201中,聚合装置1在对各个网站进行挖掘时,还可以获取各个子概念在各个网站出现的次数,在子步骤S2021中,聚合装置1根据各个子概念在各个网站出现的次数,将所述待处理的母概念抽象成其对应的子概念的向量;随后,在子步骤S2021中,聚合装置1再根据所述两个待处理的母概念所对应的向量,计算获得所述两个待处理的母概念之间的第一相似度,例如,通过计算该两个待处理的母概念所对应的向量之间的余弦相似度,计算获得该第一相似度。

以所述母概念包括股票概念,所述子概念包括所述股票概念所对应的成份股为例进行说明,在步骤S201中,聚合装置1通过对各个金融网站的挖掘,获得各个不同的股票概念及其分别对应的成份股,以下以“concept”表示股票概念,V(concept)表示股票概念所对应的向量,stock1、stock2…stockn则表示成份股1、成份股2…成份股n,则V(concept)可以通过下式表达:

V(concept)={stock1,stock2,…,stockn}

则股票概念i、股票概念j之间的第一相似度rel(concepti,conceptj)例如可以通过计算该两个股票概念所对应的向量之间的余弦相似度cos(vec(concepti),vec(conceptj))得出:

更优选地,在子步骤S2021中,聚合装置1还根据所述两个待处理的母概念所对应的向量,并结合所述两个待处理的母概念之间的包含关系,计算获得所述两个待处理的母概念之间的第一相似度。

具体地,该两个待处理的母概念之间还可能存在包含关系,在子步骤S2021中,聚合装置1在计算该两个母概念之间的第一相似度之时,还需要考虑该包含关系,例如,对于母概念“征信”和“个人征信”,其两者即具有包含关系,母概念“个人征信”包含有母概念“征信”。

在此,以“concept”表示母概念,Vec(concept)表示母概念所对应的向量,则母概念i和母概念j之间的包含关系可以表示为include(vec(concepti),vec(conceptj)),这样,在子步骤S2021中,聚合装置1例如可以根据下式来计算母概念i和母概念j之间的第一相似度:

rel(concepti,conceptj)=α1*cos(vec(concepti),vec(conceptj))+

α2*include(vec(concepti),vec(conceptj))

(a12=1)

其中,rel(concepti,conceptj)表示母概念i、母概念j之间的第一相似度,cos(vec(concepti),vec(conceptj))表示母概念i、母概念j之间的余弦相似度,其可以通过下式计算得出:

α1、α2分别表示该余弦相似度与包含关系的权重,其取值之和为1,而其分别对应的取值可以是系统预置的,也可以根据实际情况进行调整,一种简单的情况例如α1=0.5,α2=0.5。

在此,若母概念i和母概念j之间有包含关系,则include(vec(concepti),vec(conceptj))的取值为1;若没有包含关系,则取值为0。

优选地,在子步骤S2022中,聚合装置1根据所述两个待处理的母概念作为新闻主题出现的次数,以及所述两个待处理的母概念作为同一新闻主题出现的次数,计算获得所述两个待处理的母概念之间的第二相似度。

具体地,待处理的两个母概念可能出现在同一个新闻主题中,也可能单独出现在新闻主题中,在此,以cout(concept)表示代表母概念作为新闻主题出现的次数,也即,只要该母概念作为新闻主题出现,即计一次数;以mul(concepti,conceptj)表示母概念i和母概念j作为同一新闻主题出现的次数,则在子步骤S2022中,聚合装置1根据下式,计算获得该两个待处理的母概念之间的第二相似度rel(concepti,conceptj):

rel(concepti,conceptj)=mul(concepti,conceptj)/(cout(concepti)*cout(conceptj))

优选地,所述母概念包括股票概念,所述子概念包括所述股票概念所对应的成份股。

股票概念,或言之,概念股,是指具有某种特别内涵的股票,是对一类具有共同特征股票的总称,其有具体的名称,事物题材等,例如金融股,地产股,资产重组股,券商股,奥运题材股,保险股,期货概念等都称之为概念股。例如,奥运概念,指的就是与承办奥运有商业机会的一类公司的总称。这样的概念还有许多,如网络概念、3G概念,WTO概念、生物医药概念,整体上市概念,股指期货概念等。

成份股,又称指数股,是指计算股票价格指数时所选用的股票。股票价格指数是以这些成份股为基础计算出来的,通过对股票市场上一些有代表性的公司发行的股票价格进行平均计算和动态对比后得出的数值被称为股票价格指数。股票价格指数能综合考察股票市场的动态变化过程,反映股票市场的价格水平,为社会公众提供股票投资和合法的股票增值活动的参考依据。那么,这些有代表性的公司股票被笼统的称为成份股。上证180指数和深证100指数就是沪、深股市中两个具有典型代表性的指数,而构成上述指数的股票就分别称为上证180指数成份股和深圳100指数成份股。

例如,对于股票概念“机器人”,其所关联的成份股可以包括达意隆(002209)、楚天科技(300358)、华丽家族(600503)、上工申贝(600843)、伊之密(300415)、长荣股份(300195)等。

股票概念作为股票市场的一种共识,是用户了解和选择相关股票的一个有效的特征。在很多市场中,股票概念通常可以指引一系列股票的涨跌。目前股票概念通常都是通过金融机构内人为进行的定义。而不同机构之间对概念的定义没有一定的标准化,使得股民在理解不同机构的同一概念时会有偏差,对于建立统一的概念体系框架也有影响。例如,“征信”、“信用体系建设”、“行业信用”、“个人征信”这四个股票概念其实是在讲述同一个股票概念,而实际股民看到的却是四个股票概念。

因此,聚合装置1可以通过对各个金融网站的挖掘,获得待处理的股票概念及其对应的成份股,分别基于概念分析模型、主题语意模型及文本相似度模型,计算两个待处理的股票概念之间的第一相似度、第二相似度及第三相似度,其中,所述概念分析模型根据所述股票概念及其对应的成份股计算获得所述第一相似度;随后,聚合装置1再根据所述第一相似度、第二相似度、第三相似度,并结合预定规则,判断所述两个待处理的股票概念是否可以聚合。

在此,聚合装置1基于股票概念的成份股、股票概念在新闻的主题中的表现,以及股票概念基本的形式来进行股票概念的聚合,有效地对各金融机构的概念进行了标准化,帮助投资者更好的进行投资。聚合装置1例如可以应用于大规模商业资讯分析系统中,对表意相同的股票概念进行自动化聚合,从而指导概念体系框架的建设。

优选地,该方法还包括步骤S204(未示出),在步骤S204中,聚合装置1根据对多个母概念的聚合结果,确定所述多个母概念的最终概念表达。

具体地,聚合装置1通过对多个母概念的两两之间判断是否可以聚合,可以获得对应的聚合结果,例如,获知那几个母概念可以聚合在一起,在步骤S204中,聚合装置1根据该聚合结果,可以确定这几个可以聚合在一起的母概念的最终概念表达,例如,将在各个网站中出现频次最高的母概念作为最终概念表达。

例如,通过前述各个步骤所执行的各项操作,发现“征信”、“信用体系建设”、“行业信用”、“个人征信”这四个母概念可以聚合在一起,在步骤S204中,聚合装置1根据该几个母概念的聚合结果,确定上述几个母概念的最终概念表达,例如,根据在步骤S201中对各个网站的挖掘结果,发现母概念“征信”的出现频次最高,则在步骤S204中,聚合装置1即将该母概念“征信”作为上述几个母概念的最终概念表达。

本领域技术人员应能理解,上述确定最终概念表达的方式仅为举例,其他现有或今后可能出现的确定最终概念表达的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用的方式包含于此。

需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1