海量信息数据的推荐方法及推荐装置与流程

文档序号:13446260阅读:219来源:国知局
海量信息数据的推荐方法及推荐装置与流程

本发明属于信息处理技术领域,尤其涉及一种海量信息数据的推荐方法及推荐装置。



背景技术:

核电工程企业内容信息数据复杂,文档资料数量庞大,达到百万级别,尤其是项目工程文件、技术文档、商务合同、往来函件及各技术路线(如ap1000、epr三代核电技术)转让资料。由于技术资料大部分是以半结构化存储在企业内容管理平台(enterprisecontentmanagement,ecm)中,信息量庞大,技术人员无法及时获得相关知识更新。

故,有必要提出一种新的技术方案,以解决上述技术问题。



技术实现要素:

鉴于此,本发明实施例提供一种海量信息数据的推荐方法及推荐装置,旨在解决用户无法及时有效的获得所需信息的问题。

本发明实施例的第一方面,提供一种海量信息数据的推荐方法,所述推荐方法包括:

从企业内容管理系统ecm中获取元数据信息;

根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;

根据用户的相关信息,获取所述用户的静态属性空间;

根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;

监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;

根据海量数据非结构化文档的文本分析,形成文本索引;

根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。

本发明实施例的第一方面,提供一种海量信息数据的推荐装置,所述推荐装置包括:

元数据信息获取模块,用于从企业内容管理系统ecm中获取元数据信息;

元数据聚集模板生成模块,用于根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;

静态属性空间获取模块,用于根据用户的相关信息,获取所述用户的静态属性空间;

静态海量数据模板获取模块,用于根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;

关注词获取模块,用于监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;

文本索引形成模块,用于根据海量数据非结构化文档的文本分析,形成文本索引;

推荐内容查找模块,用于根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。

本发明实施例与现有技术相比存在的有益效果是:本发明实施例根据用户的静态属性空间和元数据聚类模板,获取相应的静态海量数据模板,监控用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词,根据海量数据非结构化文档的文本分析,形成文本索引,从而可以根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,快速地查找所要推荐的内容。通过本发明实施例可以将静态信息与动态数据相结合,快速地完成核电专业技术人员的数据知识推送,从而保证专业技术人员及时有效的获得精准匹配的有效信息。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的海量信息数据的推送方法的实现流程图;

图2是本发明实施例二提供的海量信息数据的推送方法的实现流程图;

图3是本发明实施例三提供的海量信息数据的推送装置的组成示意图;

图4是本发明实施例四提供的海量信息数据的推送装置的组成示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明实现了半结构化海量核电信息推荐系统,一方面利用知识本体的概念对技术信息结构化元数据进行专业聚类分析,并结合核电专业人员技术背景及归纳偏好,通过海量数据学习分析算法获得假设空间内的静态海量数据模板。另一方面根据海量数据非结构化文档的文本分析,形成文本索引,并与核电专业人员动态需求结合,在静态海量数据模板内进行数据的索引检索,最终实现静态信息与动态数据的利用与结合,完成核电专业人员的数据知识推荐。

本发明实现了海量的半结构化核电技术文档的静态数据(包括元数据与文本)与核电专业人员需求(包括静态知识背景与动态需求)的海量数据匹配处理方法。包括可配置的核电技术文档基础信息约束及核电专业技术人员背景分析与识别技术;结构化元数据聚类模板及静态海量数据模板建立方法;并结合动态日志抓取分析技术与文本分析技术;利用倒排索引技术对文本匹配进行加权排序算法;集成静态信息与动态需求的核电专业知识信息推荐功能方案。通过以上技术方法满足企业知识管理的信息传播与再造要求,保证专业技术人员及时有效的获得精准匹配的有效信息。

实施例一:

图1示出了本发明实施例一提供的海量信息数据的推荐方法的实现流程,所述实现流程详述如下:

步骤s101,从企业内容管理系统ecm中获取元数据信息。

在本发明实施例中,所述企业内容管理系统ecm可以为核电企业内容管理系统,所述ecm中包含有大量的企业内容,包括但不限于元数据信息、非结构化文件文本内容、系统访问及检索相关日志以及人员信息。

步骤s102,根据所述元数据信息的元数据集样本空间,生成元数据聚类模板。

具体的,将复杂的元数据结构进行简化,生成元数据聚类模板,即通过聚类方法,将结构化元数据所代表的内容进行分类,提取核心元数据结构。

步骤s103,根据用户的相关信息,获取所述用户的静态属性空间。

具体地,根据技术人员背景,如专业、部门、参与项目、阶段、职位等相关信息得出专业人员静态属性空间,并将每位技术人员的静态属性空间记录下来。

步骤s104,根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板。

具体的,根据步骤s102中元数据聚类模板所得的核电技术知识聚类与步骤s103所得的专业人员背景分析数据,将二者结合,获得静态海量数据模板。

步骤s105,监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词。

具体的,需要对用户的关注点进行分析,分析的方法为基于时序的用户行为日志监控与记录,进而对日志数据进行用户行为及期望的挖掘。

首先收集系统记录的用户检索、阅览及关注的内容。其次根据每次检索内容分解为若干的关键词,将用户检索内容按时间因子(时序)对关注内容单元的频率及次数进行记录,最终形成用户近期热门关注词。

步骤s106,根据海量数据非结构化文档的文本分析,形成文本索引。

具体的,首先从文本集中获取信息,根据核电词典对文本进行分析与预处理,将其中的词汇进行筛选与识别,根据停用词表去掉无用词。特征抽取根据词在文本集中的词频,词在文本集各文本出现的次数占文本数的比例对文本集中的词加权排序,即在词典中的词汇具有较高权值。按特征词顺序选出由多少词组成特征向量,并通过mapreduce算法对海量文本进行索引,并给出文档的特征结果与摘要。

步骤s107,根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。

具体的,动态索引检索建立在静态数据空间模型算法下的样本空间与非结构化文本的索引基础之上,通过索引排序,选择最终推荐的知识信息。

通过本发明实施例可以将静态信息与动态数据相结合,快速地完成核电专业技术人员的数据知识推送,从而保证专业技术人员及时有效的获得精准匹配的有效信息。

实施例二:

图2示出了本发明实施例二提供的海量信息数据的推荐方法的实现流程,所述实现流程详述如下:

步骤s201,从企业内容管理系统ecm中获取元数据信息。

该步骤与步骤s101相同,具体可参见步骤s101的相关描述,在此不再赘述。

步骤s202,根据所述元数据信息的元数据集样本空间,生成元数据聚类模板。

该步骤与步骤s102相同,具体可参见步骤s102的相关描述,在此不再赘述。

可选的,所述根据所述元数据信息的元数据集样本空间,生成元数据聚类模板包括:

步骤一,从所述元数据集样本空间中任意选择k个对象作为初始的簇中心,其中,k为大于零的整数,其中一个簇对象对应一类技术文档;

步骤二,计算所述元数据集样本空间中所有对象与k个簇中心的相似度,并将所述所有对象中每个对象归类于与该对象相似度最高的簇;

步骤三,根据每个簇中的对象重新计算所述每个簇的簇中心,以重新计算k个簇中心;

步骤四,若重新计算的k个簇中心中任一簇中心发生改变,则重新计算所述所有对象与所述重新计算的k个簇中心的相似度,并将所述所有对象中每个对象归类于与该对应相似度最高的簇,形成新的簇对象;

步骤五,重复步骤三和四,直到k个簇中心不再发生改变,该k个簇中心形成所述元数据聚类模板。

元数据属性集空间由可以由多个维度独立属性集汇集而成。在元数据集样本空间内任意选择k个对象作为初始的簇的中心(可取大于等于专业技术分工总数),计算各对象与k个簇中心的相似度,将各对象归于最相似的簇,对簇内对象计算出新的平均值(中心);再计算各对象与新的k个簇中心的相似度,再根据各对象与新的簇平均值相似度,将每个对象重新赋给最类似的簇,形成新的簇对象;再更新簇的平均值,即计算每个对象的平均值,直到不再发生变,最终形成元数据聚类模板。

需要说明的是,所述静态海量数据模板包含多个簇对象,每个簇对象中包含着具有相同技术特点的知识内容,即一个簇对象为一类技术文档。

步骤s203,根据用户的相关信息,获取所述用户的静态属性空间。

该步骤与步骤s103相同,具体可参见步骤s103的相关描述,在此不再赘述。

步骤s204,根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板。

所述用户的静态属性空间与所述元数据聚类模板所描述的技术特点参数应对应,取二者属性参数的交集,最后根据实际业务,调整各属性权值,形成静态数据模型模板。

可选的,每个用户属于一类技术关注群体;所述根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板包括:

根据所述用户的静态属性空间中的属性参数和所述元数据聚类模板中的属性参数,计算所述每一类技术文档δ与每一类技术关注群体μ的匹配关系以获取所述静态海量数据模板,其中,atti为所述用户的静态属性空间中的属性参数与所述元数据聚类模板中的属性参数的交集中的第i个属性参数,n为该交集中属性参数的个数,meta(atti)为atti在所述元数据聚类模板中的属性信息,specialty(atti)为atti在所述用户的静态属性空间中的属性信息,为atti的权值。

对于任意一个文档δ属于用户μ的静态样本空间d,则静态支持力度v(μ,δ),与属性参数atti在元数据聚类模板中的属性信息和在所述用户的静态属性空间中的属性信息的方差成反比相关,当然这个值应该乘以属性参数atti的重要性标示即权值,最终将所有属性的信息汇总后,形成静态支持力度。

支持力度越大,说明群体关注度越高,因此可按此排序形成每个专业关注矩阵,以便后续模块使用。

该步骤与步骤s104相同,具体可参见步骤s104的相关描述,在此不再赘述。

步骤s205,监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词。

该步骤与步骤s105相同,具体可参见步骤s105的相关描述,在此不再赘述。

步骤s206,根据海量数据非结构化文档的文本分析,形成文本索引。

该步骤与步骤s106相同,具体可参见步骤s106的相关描述,在此不再赘述。

步骤s207,根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。

动态索引检索建立在静态数据空间模型算法下的样本空间与非结构化文本的索引基础之上,通过索引排序,选择最终推荐的知识信息。

其中动态索引检索分析分为两个方面,内容支持力度与时间支持力度。

内容支持力度包括静态海量数据模板中的样本空间,该样本空间的每一条数据,均有对应的支持力度,这些支持力度是通过核电文档元数据中计算得出的;除此之外,还包含根据海量数据非结构化文档的文本分析,形成文本索引,这部分称之为全文本支持力度,是通过文档全文索引得出的结果。

时间支持力度可理解为新鲜度,从文档角度,文档产生的时间因素称为文档新鲜度,此外根据步骤s205监控得出的用户阅览、检索、下载及关注的知识内容也与时间相关,这部分成为关注新鲜度,从时间维度将二者进行运算后得出关注点内容信息及每个关注点的新鲜度。

最终根据用户最新的关注点与样本空间的索引顺序,计算获得最终的推荐内容结果。

可选的,所述根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容包括:

获取所述用户在预设时间内的关注词在文本索引中出现的频率其中,为所述用户在预设时间内的第j个关注词;

根据和v(μ,δ),计算每一类技术文档的推荐力度其中,m为所述用户在预设时间内的关注词的个数,为关注时间新鲜度权值,为关注频率权值,τ(δ)为文档δ的更新时间参数;

根据每一类技术文档的推荐力度,将满足预设条件的推荐力度所对应的技术文档以列表的形式生成推荐内容。

其中,所述预设时间可以是用户设置的周期时间,例如一周,在此不作限定。所述预设条件可以是指大于预设阈值的推荐力度,可以根据推荐力度的大小,将推荐力度从大到小的顺序,排列各个推荐力度对应的技术文档。

步骤s208,记录查找到的所要推荐的内容和所述静态海量数据模板。

记录操作过程,一方面记录静态支持向量结果,另一方面记录动态需求更新过程与动态索引信息。

实施例三:

图3示出了本发明实施例三提供的海量信息数据的推荐装置的组成示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:

元数据信息获取模块31,用于从企业内容管理系统ecm中获取元数据信息;

元数据聚集模板生成模块32,用于根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;

静态属性空间获取模块33,用于根据用户的相关信息,获取所述用户的静态属性空间;

静态海量数据模板获取模块34,用于根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;

关注词获取模块35,用于监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;

文本索引形成模块36,用于根据海量数据非结构化文档的文本分析,形成文本索引;

推荐内容查找模块37,用于根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容。

元数据信息获取模块31是海量信息数据的推荐装置与企业内容管理平台的接口模块,负责与核电企业内容管理系统ecm进行数据交互,其中主要包含的企业内容有:元数据信息、非结构化文件文本内容、系统访问及检索相关日志以及人员信息。这些信息将被集中存储在元数据信息获取模块31中,供各模块调用,主要使用者为元数据聚集模板生成模块32。

另外,系统集成数据的更新也由该元数据信息获取模块31负责。

本发明实施例提供的海量信息数据的推荐装置可以使用在前述对应的推荐方法实施例一中,详情参见上述实施例一的描述,在此不再赘述。

实施例四:

图4示出了本发明实施例四提供的海量信息数据的推荐装置的组成示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:

元数据信息获取模块41,用于从企业内容管理系统ecm中获取元数据信息;

元数据聚集模板生成模块42,用于根据所述元数据信息的元数据集样本空间,生成元数据聚类模板;

静态属性空间获取模块43,用于根据用户的相关信息,获取所述用户的静态属性空间;

静态海量数据模板获取模块44,用于根据所述用户的静态属性空间和所述元数据聚类模板,获取相应的静态海量数据模板;

关注词获取模块45,用于监控所述用户的行为日志,并根据所述用户的行为日志,获取所述用户在预设时间内的关注词;

文本索引形成模块46,用于根据海量数据非结构化文档的文本分析,形成文本索引;

推荐内容查找模块47,用于根据所述文本索引、所述用户在预设时间内的关注词以及所述静态海量数据模板,查找所要推荐的内容;

日志记录模块48,用于记录查找到的所要推荐的内容和所述静态海量数据模板。

所述元数据聚类模板生成模块42包括:

选择单元421,用于从所述元数据集样本空间中任意选择k个对象作为初始的簇中心,其中,k为大于零的整数,其中一个簇对象对应一类技术文档;

第一计算单元422,用于计算所述元数据集样本空间中所有对象与k个簇中心的相似度,并将所述所有对象中每个对象归类于与该对象相似度最高的簇;

第二计算单元423,用于根据每个簇中的对象重新计算所述每个簇的簇中心,以重新计算k个簇中心;

第三计算单元424,用于若重新计算的k个簇中心中任一簇中心发生改变,则重新计算所述所有对象与所述重新计算的k个簇中心的相似度,并将所述所有对象中每个对象归类于与该对应相似度最高的簇,形成新的簇对象;

形成单元425,用于重复执行第二计算单元和第三计算单元,直到k个簇中心不再发生改变,该k个簇中心形成所述元数据聚类模板。

所述每个用户属于一类技术关注群体;所述静态海量数据模板获取模块44具体用于:

根据所述用户的静态属性空间中的属性参数和所述元数据聚类模板中的属性参数,计算所述每一类技术文档δ与每一类技术关注群体μ的匹配关系以获取所述静态海量数据模板,其中,atti为所述用户的静态属性空间中的属性参数与所述元数据聚类模板中的属性参数的交集中的第i个属性参数,n为该交集中属性参数的个数,meta(atti)为atti所述用户的静态属性空间中的值,specialty(atti)为atti在所述元数据聚类模板中的值,εatti为atti的权值。

所述推荐内容查找模块47包括:

频率获取单元471,用于获取所述用户在预设时间内的关注词在文本索引中出现的频率其中,为所述用户在预设时间内的第j个关注词;

推荐力度计算单元472,用于根据和v(μ,δ),计算每一类技术文档的推荐力度其中,m为所述用户在预设时间内的关注词的个数,为关注时间新鲜度权值,为关注频率权值,τ(δ)为文档δ的更新时间参数;

推荐内容生成单元473,用于根据每一类技术文档的推荐力度,将满足预设条件的推荐力度所对应的技术文档以列表的形式生成推荐内容。

本发明实施例提供的海量信息数据的推荐装置可以使用在前述对应的推荐方法实施例二中,详情参见上述实施例二的描述,在此不再赘述。

所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即所述装置的内部结构划分成不同的功能模块,上述功能模块既可以采用硬件的形式实现,也可以采用软件的形式实现。另外,各功能模块的具体名称也只是为了便于相互区别,并不用于限制本申请的保护范围。

综上所述,本发明实施例填补了核电结构化海量信息的推荐问题,可根据核电技术文件的特点及专业人员的专业属性与关注信息进行有效结合,可以适应多种核电技术路线。本系统可动态记录用户关注信息,并将相关操作以日志形式记录。本发明构建了一种智能化的核电技术资料的知识抽取与匹配处理方法,有效的提高了核电技术信息知识的传播效率及准确性,并有效的提高工作效率,降低了生产成本,且稳定可靠。

本领域普通技术人员还可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,包括rom/ram、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1