投资人推荐方法和装置与流程

文档序号:12034801阅读:209来源:国知局
投资人推荐方法和装置与流程

本发明涉及数据检索技术领域,尤其是涉及一种投资人推荐方法和装置。



背景技术:

为了挖掘文档的主题,现有技术中通常采用潜在语义分析lsa和概率潜在语义分析plsa方法。这些方法能够通过模拟人类思维,找到文本的最佳主题和词汇,最大程度地表示文本中所蕴含的含义;然而,上述lsa和plsa在主题的获取过程中容易产生过拟合问题,当通过上述方式获取投资人的投资热点主题时,主题获取算法过于复杂,且结果准确率较低,进而导致根据热点主题推荐的投资人与企业实际需求匹配程度较低。

针对上述现有的投资人推荐方式与企业实际需求匹配程度较低的问题,尚未提出有效的解决方案。



技术实现要素:

有鉴于此,本发明的目的在于提供一种投资人推荐方法和装置,以提高投资人推荐方式与企业实际需求匹配程度。

第一方面,本发明实施例提供了一种投资人推荐方法,包括:获取投资人的文本数据;其中,文本数据至少包括投资人的投资行为数据;根据预先保存的文本与特征的映射关系对文本数据进行预处理,生成文本数据对应的特征集;根据文本数据的发布时间,对文本数据对应的特征集进行分类;采用潜在狄利克雷分配的方式,生成每个类型对应的主题分布;将投资人推荐至与主题分布相匹配的投资需求企业。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述根据预先保存的文本与特征的映射关系对文本数据进行预处理,生成文本数据对应的特征集的步骤,包括:将文本数据进行分词处理,生成第一词汇集;删除第一词汇集中的停用词,生成第二词汇集;将第二词汇集中的词汇,逐一与预先保存的文本与特征的映射关系进行匹配,生成词汇对应的键值数据;其中,键值数据包括词汇在映射关系中对应的标识符和权重;将每个词汇对应的键值数据保存为文本数据的特征集。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上述根据文本数据的发布时间,对文本数据对应的特征集进行分类的步骤,包括:提取文本数据的发布时间;将发布时间分别与预先设置的多个时间段进行匹配;根据匹配结果确定文本数据对应的特征集所属的时间段。

结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述采用潜在狄利克雷分配的方式,生成每个类型对应的主题分布的步骤,包括:设置分布参数的初始值;按照时间段发生的顺序,获取最早发生的时间段对应的特征集;循环操作:根据分布参数,采用潜在狄利克雷分配的方式,生成当前时间段对应的特征集的主题分布;其中,主题分布包括文本-主题分布和主题-词汇分布;获取时间段的下一个时间段,将当前时间段的主题分布作为下一个时间段的分布参数,继续执行上述循环操作,直至遍历所有的时间段。

结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,上述将投资人推荐至与主题分布相匹配的投资需求企业的步骤,包括:从各个时间段对应的文本-主题分布和主题-词汇分布中,提取投资人的主题;将投资人的主题与投资需求企业进行匹配,生成匹配结果;将投资人推荐至与匹配结果对应的投资需求企业。

第二方面,本发明实施例提供了一种投资人推荐装置,包括:数据获取模块,用于获取投资人的文本数据;其中,文本数据至少包括投资人的投资行为数据;预处理模块,用于根据预先保存的文本与特征的映射关系对文本数据进行预处理,生成文本数据对应的特征集;分类模块,用于根据文本数据的发布时间,对文本数据对应的特征集进行分类;主题生成模块,用于采用潜在狄利克雷分配的方式,生成每个类型对应的主题分布;推荐模块,用于将投资人推荐至与主题分布相匹配的投资需求企业。

结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上述预处理模块,包括:分词单元,用于将文本数据进行分词处理,生成第一词汇集;删除单元,用于删除第一词汇集中的停用词,生成第二词汇集;第一匹配单元,用于将第二词汇集中的词汇,逐一与预先保存的文本与特征的映射关系进行匹配,生成词汇对应的键值数据;其中,键值数据包括词汇在映射关系中对应的标识符和权重;保存单元,用于将每个词汇对应的键值数据保存为文本数据的特征集。

结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,上述分类模块,包括:时间提取单元,用于提取文本数据的发布时间;第二匹配单元,用于将发布时间分别与预先设置的多个时间段进行匹配;确定单元,用于根据匹配结果确定文本数据对应的特征集所属的时间段。

结合第二方面的第二种可能的实施方式,本发明实施例提供了第二方面的第三种可能的实施方式,其中,上述主题生成模块,包括:设置单元,用于设置分布参数的初始值;第一获取单元,用于按照时间段发生的顺序,获取最早发生的时间段对应的特征集;循环操作单元,用于根据分布参数,采用潜在狄利克雷分配的方式,生成当前时间段对应的特征集的主题分布;其中,主题分布包括文本-主题分布和主题-词汇分布;第二获取单元,用于获取时间段的下一个时间段,将当前时间段的主题分布作为下一个时间段的分布参数,继续触发上述循环操作单元,直至遍历所有的时间段。

结合第二方面的第三种可能的实施方式,本发明实施例提供了第二方面的第四种可能的实施方式,其中,上述推荐模块,包括:主题提取单元,用于从各个时间段对应的文本-主题分布和主题-词汇分布中,提取投资人的主题;第三匹配单元,用于将投资人的主题与投资需求企业进行匹配,生成匹配结果;推荐单元,用于将投资人推荐至与匹配结果对应的投资需求企业。

本发明实施例带来了以下有益效果:

本发明实施例提供的一种投资人推荐方法和装置,根据预先保存的文本与特征的映射关系对获取到的文本数据进行预处理,生成文本数据对应的特征集,并根据文本数据的发布时间,对该特征集进行分类;再采用潜在狄利克雷分配的方式,生成每个类型对应的主题分布,进而将投资人推荐至与主题分布相匹配的投资需求企业。该方式可以获取与投资人相关的,随时间变化的动态的主题演化规律,进而准确地获得投资人当前的投资关注热点,再将投资人推荐至与投资热点相关的企业,提高了投资人推荐方式与企业实际需求匹配程度。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的第一种投资人推荐方法的流程图;

图2为本发明实施例提供的第二种投资人推荐方法的流程图;

图3为本发明实施例提供的第三种投资人推荐方法示意图;

图4为本发明实施例提供的一种投资人推荐装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

考虑到现有的投资人推荐方式与企业实际需求匹配程度较低的问题,本发明实施例提供了一种投资人推荐方法和装置;该技术可以应用于通过投资人的历史文档数据,挖掘投资人的投资热点,并向匹配的企业推荐投资人的场景中,尤其可以应用于通过主题演化模型的方式获取投资人的投资热点的场景中。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种投资人推荐方法进行详细介绍。

实施例一:

参见图1所示的第一种投资人推荐方法的流程图,该方法包括如下步骤:

步骤s102,获取投资人的文本数据;其中,该文本数据至少包括投资人的投资行为数据;

该文本数据可以包括与投资人相关的多种历史文档,例如,媒体新闻、传记、或者其他记载有投资人相关信息的资料等。上述投资行为数据具体可以为投资人历史的投资记录,包括投资的企业、领域、以及投资金额等数据。

步骤s104,根据预先保存的文本与特征的映射关系对文本数据进行预处理,生成文本数据对应的特征集;

在实际实现时,上述文本与特征的映射关系可以为字典,该字典中记载了各种词语,以及词语对应的标识符和权重值,其中,标识符可以以数字的形式体现;由此,上述文本数据中的词语转换成包括标识和权重值的键值对,通过该键值对代表各个词语;由键值对组成上述文本数据对应的、可以为计算机识别的特征集。

步骤s106,根据文本数据的发布时间,对文本数据对应的特征集进行分类;

可以根据投资人的投资频率,或相关领域的发展程度,预先设置分类标准,也即设置分类的时间段;例如,可以根据文本数据的发布年份、季度或者月份,对文本数据进行分类;对于发展变化较快的领域,可以适当选择较短的时间段进行分类,对于发展变化较慢的领域,可以适当选择较长的时间段进行分类。

步骤s108,采用潜在狄利克雷分配的方式,生成每个类型对应的主题分布;

狄利克雷过程是一种应用于非参数贝叶斯模型中的随机过程,尤其可以作为先验分布应用在概率图模型中;与传统的参数模型相比,狄利克雷过程的应用更加广泛且模型更加灵活。狄利克雷过程可以实现一组数据的聚类和分析,当对于多组数据的聚类时,仅利用狄利克雷过程的混合模型难以实现建模分析。

潜在狄利克雷过程(latentdirichletallocation,简称为lda)也是一种贝叶斯模型,多应用于文本主题提取、推荐系统、音乐视频内容、新闻报纸数据的处理等领域中。通过lda进行文本主题提取,可以简化推导计算过程,同时,计算复杂度不会随着文本数据量的增大而线性增加,因此,通过lda进行文本主题提取可以应用于多种形式的文本,具有较高的普遍适用性和泛化能力。

步骤s110,将投资人推荐至与主题分布相匹配的投资需求企业。

在实际实现时,上述步骤s110中可以生成一个推荐投资人的名单,也可以直接将推荐的投资人推送至投资人需求端,例如,企业、高校的通信终端等。

本发明实施例提供的一种投资人推荐方法,根据预先保存的文本与特征的映射关系对获取到的文本数据进行预处理,生成文本数据对应的特征集,并根据文本数据的发布时间,对该特征集进行分类;再采用潜在狄利克雷分配的方式,生成每个类型对应的主题分布,进而将投资人推荐至与主题分布相匹配的投资需求企业。该方式可以获取与投资人相关的,随时间变化的动态的主题演化规律,进而准确地获得投资人当前的投资关注热点,再将投资人推荐至与投资热点相关的企业,提高了投资人推荐方式与企业实际需求匹配程度。

实施例二:

参见图2所示的第二种投资人推荐方法的流程图,该方法在实施例一中提供的投资人推荐方法的基础上实现,该方法包括如下步骤:

步骤s202,获取投资人的文本数据;其中,该文本数据至少包括投资人的投资行为数据;

步骤s204,将文本数据进行分词处理,生成第一词汇集;删除第一词汇集中的停用词,生成第二词汇集;

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词被称为停用词(stopwords)。停用词大致为如下两类:一类是应用十分广泛的词语,比如“web”一词,几乎在每个网站上均会出现,对这类词语搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率;另一类是无明确意义的词语,包括语气助词、副词、介词、连接词等,如常见的“的”、“在”之类。

步骤s206,将第二词汇集中的词汇,逐一与预先保存的文本与特征的映射关系进行匹配,生成词汇对应的键值数据;其中,该键值数据包括词汇在映射关系中对应的标识符和权重;

步骤s208,将每个词汇对应的键值数据保存为文本数据的特征集。

步骤s210,提取文本数据的发布时间;将发布时间分别与预先设置的多个时间段进行匹配;根据匹配结果确定文本数据对应的特征集所属的时间段。

例如,如果以一年为时间段,并获取最近十年内,每年的主题时,上述多个时间段可以为2017年、2016年、…直至2008年共10个时间段;判断文本数据的发布时间所属的具体时间段;例如,发布时间为2016年6月22日所属的时间段为2016年。

步骤s212,设置分布参数的初始值;按照时间段发生的顺序,获取最早发生的时间段对应的特征集;

步骤s214,根据分布参数,采用潜在狄利克雷分配的方式,生成当前时间段对应的特征集的主题分布;其中,该主题分布包括文本-主题分布和主题-词汇分布;优选地,上述潜在狄利克雷分配的方式可以通过gibbs采样实现。

上述主题-词汇分布中,一个主题对应一个词序列,每个词序列中包括多个词语,以及各个词语的权重值;上述文本-主题分布中,一个主题对应一个文本序列,每个文本序列包括多个文本,以及各个文本的权重值。

步骤s216,判断是否遍历所有时间段,如果否,获取时间段的下一个时间段,将当前时间段的主题分布作为下一个时间段的分布参数,执行步骤s214;如果是,执行步骤s218;

步骤s218,从各个时间段对应的文本-主题分布和主题-词汇分布中,提取投资人的主题;

步骤s220,将投资人的主题与投资需求企业进行匹配,生成匹配结果;将投资人推荐至与匹配结果对应的投资需求企业。

本发明实施例提供的一种投资人推荐方法,根据文本数据的发布时间,确定文本数据所属的时间段,并按照时间段发生的顺序,采用潜在狄利克雷分配的方式,生成每个时间段对应的特征集的主题分布,并获取投资人的主题,进而将投资人推荐至与主题相匹配的投资需求企业。该方式可以获取与投资人相关的,随时间变化的动态的主题演化规律,进而准确地获得投资人当前的投资关注热点,再将投资人推荐至与投资热点相关的企业,提高了投资人推荐方式与企业实际需求匹配程度。

实施例三:

参见图3所示的第三种投资人推荐方法示意图,该方法在实施例一中提供的投资人推荐方法的基础上实现,该方法从投资人的历史文档中,挖掘出其投资的主题,推断出投资人的关注热点,以此为依据为企业推荐合适的投资人。

如图3所示,该方法将投资人的原始文本信息作为处理对象,首先通过分词、删除停用词、映射等预处理手段得到上述原始文本信息对应的特征集;然后,在投资人投资行为的时间轴上划分时间段,将各个文本信息分类至相应的时间段内,生成各个时间段对应的文本集合;在时间段内利用动态lda模型获取各个时间段内的原始文本信息的文本-主题分布和主题-词汇分布;在该过程中,上一个时间段内生成的相关参数作为下一个时间段内的先验参数,该先验参数参与该下一个时间段内相关数据的处理,如此循环,直至迭代至最后一个时间段,形成投资人的动态主题模型演化过程。

本发明实施例提供的投资人推荐方法,采用滑动时间窗把原始文本信息划分到各个时间段内,形成各个时间段对应的文本集;通过gibbs采样实现上述lda模型,得到时间段内的文本-主题分布和主题-词汇分布,并作为下一个时间段内文本处理的先验概率参数,依次得到整个时间轴上的主题时间演化模式。

本发明实施例提供的投资人推荐方法,采用动态演化lda主题模型,将文本按照时间窗口划分,按照文本内容的连续性,运用增量gibbs抽样算法进行抽样计算,可以很好地体现主题的动态规律,从而将投资人的投资热点和兴趣主题挖掘出来,结合企业的实际需求进行匹配,将其作为潜在合作对象推荐给企业。

实施例四:

对应于上述方法实施例,参见图4所示的一种投资人推荐装置的结构示意图,该装置包括:

数据获取模块40,用于获取投资人的文本数据;其中,文本数据至少包括投资人的投资行为数据;

预处理模块41,用于根据预先保存的文本与特征的映射关系对文本数据进行预处理,生成文本数据对应的特征集;

分类模块42,用于根据文本数据的发布时间,对文本数据对应的特征集进行分类;

主题生成模块43,用于采用潜在狄利克雷分配的方式,生成每个类型对应的主题分布;

推荐模块44,用于将投资人推荐至与主题分布相匹配的投资需求企业。

进一步地,上述预处理模块,包括:分词单元,用于将文本数据进行分词处理,生成第一词汇集;删除单元,用于删除第一词汇集中的停用词,生成第二词汇集;第一匹配单元,用于将第二词汇集中的词汇,逐一与预先保存的文本与特征的映射关系进行匹配,生成词汇对应的键值数据;其中,键值数据包括词汇在映射关系中对应的标识符和权重;保存单元,用于将每个词汇对应的键值数据保存为文本数据的特征集。

进一步地,上述分类模块,包括:时间提取单元,用于提取文本数据的发布时间;第二匹配单元,用于将发布时间分别与预先设置的多个时间段进行匹配;确定单元,用于根据匹配结果确定文本数据对应的特征集所属的时间段。

进一步地,上述主题生成模块,包括:设置单元,用于设置分布参数的初始值;第一获取单元,用于按照时间段发生的顺序,获取最早发生的时间段对应的特征集;循环操作单元,用于根据分布参数,采用潜在狄利克雷分配的方式,生成当前时间段对应的特征集的主题分布;其中,主题分布包括文本-主题分布和主题-词汇分布;第二获取单元,用于获取时间段的下一个时间段,将当前时间段的主题分布作为下一个时间段的分布参数,继续触发上述循环操作单元,直至遍历所有的时间段。

进一步地,上述推荐模块,包括:主题提取单元,用于从各个时间段对应的文本-主题分布和主题-词汇分布中,提取投资人的主题;第三匹配单元,用于将投资人的主题与投资需求企业进行匹配,生成匹配结果;推荐单元,用于将投资人推荐至与匹配结果对应的投资需求企业。

本发明实施例提供的一种投资人推荐装置,根据预先保存的文本与特征的映射关系对获取到的文本数据进行预处理,生成文本数据对应的特征集,并根据文本数据的发布时间,对该特征集进行分类;再采用潜在狄利克雷分配的方式,生成每个类型对应的主题分布,进而将投资人推荐至与主题分布相匹配的投资需求企业。该方式可以获取与投资人相关的,随时间变化的动态的主题演化规律,进而准确地获得投资人当前的投资关注热点,再将投资人推荐至与投资热点相关的企业,提高了投资人推荐方式与企业实际需求匹配程度。

本发明实施例所提供的投资人推荐方法和装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1