一种信息处理方法及相关设备与流程

文档序号:20684588发布日期:2020-05-08 18:43阅读:109来源:国知局
一种信息处理方法及相关设备与流程

本发明涉及信息处理领域,特别涉及一种信息处理方法及相关设备。



背景技术:

基于textrank的文本关键词提取的方法:首先以文本中的词语作顶点,以词语之间的邻接关系作边,构建形成一张图;然后根据词性、出现位置等初始化各词的初始得分,根据共现频次计算权重转移频率;然后使用随机游走算法不断迭代计算图中各节点的得分,直至收敛。最后根据结点得分对各词进行排序,选取得分最高的topn作为关键词。基于主题聚类的方法:主题模型建立起了文章、主题和词语之间的对应频率。对于一篇文本,主题模型可以给出其所包含的每一个词语的主题类别,词语以主题类别进行划分,权重越高,重要性越大。

基于文本关键词提取的方法只能提取比较短的词语(一般为2个字),基于主题聚类的方法也是只能以比较短的词语(一般为2个字)的形式展现主题内涵,表达的涵义比较有限。



技术实现要素:

本发明实施例提供了一种信息处理方法及相关设备,既可以确定出文本的主题,又可以得到文本对应的比较长的关键词和短语,涵义更加丰富,可读性高,对数据分析帮助更大。

本发明实施例第一方面提供了一种信息处理方法,具体包括:

获取目标文本,所述目标文本为待确定主题的文本;

对所述目标文本进行预处理,得到目标语料集合;

将所述目标语料集合输入预设主题模型,以确定所述目标语料集合中的每个词对应的主题,所述预设主题模型为经过训练语料集合训练得到的,所述预设主题模型输出的不同类型的主题之间的相似度小于第一预设阈值,所述训练语料集合为对语料库中每个文本分别进行预处理得到的词语集合;

将所述目标语料集合中词频大于第二预设阈值的主题确定为所述目标文本的主题;

根据所述目标文本对应的短语句法树确定目标子树,所述短语句法树为对所述目标文本中的句子进行短语句法分析得到,所述目标子树为所述短语句法树中根节点包含名词的子树;

将第一子树中的名词进行合并得到所述目标文本对应的关键词组,所述第一子树为所述目标子树中各根节点均为名词的子树;

将所述目标文本对应的关键词组中词频大于第三预设阈值的关键词组确定为所述目标文本的关键词组。

可选地,所述将所述目标语料集合输入预设主题模型,以确定所述目标语料集合中的每个词对应的主题之前,所述方法还包括:

对语料库中的各个文本分别进行分词,得到分词集合;

对所述分词集合进行停用词以及词性过滤,得到所述训练语料集合,所述训练语料集合中的每个词语与所述语料库中的各个文本具有关联关系;

基于所述训练语料集合进行训练,得到所述预设主题模型。

可选地,所述基于所述训练语料集合进行训练,得到所述预设主题模型包括:

步骤1、对所述训练语料集合中的每个词语随机分配主题,得到主题集合;

步骤2、统计所述各个文本中的初始主题频率分布以及所述主题集合的每个主题的初始词语频率分布,所述初始主题频率分布与所述初始词语频率分布具有关联关系;

步骤3:遍历所述训练语料集合中的每个词语,通过计算所述训练语料集合中的每个词语对应的主题的频率对所述初始主题频率分布进行更新,得到目标主题频率分布;

步骤4:基于所述目标主题频率分布更新所述初始词语频率分布,得到目标词语频率分布;

步骤5、重复执行步骤3至步骤4直至达到预设条件,将所述目标词语频率分布确定为初始结果模型;

步骤6、构建所述初始结果模型的每个主题对应的特征向量,得到特征向量集合;

步骤7、当所述特征向量集合中存在特征向量的相似度大于或等于所述第一预设阈值时,合并相似度达到所述第一预设阈值的特征向量对应的主题,得到所述初始结果模型的每个主题的最终词语频率分布;

步骤8、将所述最终词语频率分布确定为所述预设主题模型。

可选地,所述构建所述主题集合的每个主题对应的特征向量,得到特征向量集合包括:

根据所述目标词语频率统计所述初始结果模型的每个主题中词频达到第二预设阈值的词语;

通过所述初始结果模型的每个主题中词频达到第二预设阈值的词语构建所述初始结果模型中的每个主题对应的特征向量,得到所述特征向量集合。

可选地,所述将第一子树中的名词进行合并得到所述目标文本对应关键词组合之后,所述方法还包括:

将所述目标文本的主题以及所述目标文本的关键词组合进行展示。

本发明实施例第二方面提供了一种信息处理装置,包括:

获取单元,用于获取目标文本,所述目标文本为待确定主题的文本;

预处理单元,用于对所述目标文本进行预处理,得到目标语料集合;

第一确定单元,用于将所述目标语料集合输入预设主题模型,以确定所述目标语料集合中的每个词对应的主题,所述预设主题模型为经过训练语料集合训练得到的,所述预设主题模型输出的不同类型的主题之间的相似度小于第一预设阈值,所述训练语料集合为对语料库中每个文本分别进行预处理得到的词语集合;

第二确定单元,用于将所述目标语料集合中词频大于第二预设阈值的主题确定为所述目标文本的主题;

第三确定单元,用于根据所述目标文本对应的短语句法树确定目标子树,所述短语句法树为对所述目标文本中的句子进行短语句法分析得到,所述目标子树为所述短语句法树中各根节点包含名词的子树;

词语合并单元,用于将第一子树中的名词进行合并得到所述目标文本对应的关键词组,所述第一子树为所述目标子树中根节点均为名词的子树;

第四确定单元,用于将所述目标文本对应的关键词组中词频大于第三预设阈值的关键词组确定为所述目标文本的关键词组。

可选地,所述装置还包括:训练单元,所述训练单元用于:

对语料库中的各个文本分别进行分词,得到分词集合;

对所述分词集合进行停用词以及词性过滤,得到所述训练语料集合,所述训练语料集合中的每个词语与所述语料库中的各个文本具有关联关系;

基于所述训练语料集合进行训练,得到所述预设主题模型。

可选的,所述训练单元具体用于执行如下步骤:

步骤1、对所述训练语料集合中的每个词语随机分配主题,得到主题集合;

步骤2、统计所述各个文本中的初始主题频率分布以及所述主题集合的每个主题的初始词语频率分布,所述初始主题频率分布与所述初始词语频率分布具有关联关系;

步骤3:遍历所述训练语料集合中的每个词语,通过计算所述训练语料集合中的每个词语对应的主题的频率对所述初始主题频率分布进行更新,得到目标主题频率分布;

步骤4:基于所述目标主题频率分布更新所述初始词语频率分布,得到目标词语频率分布;

步骤5、重复执行步骤3至步骤4直至达到预设条件,将所述目标词语频率分布确定为初始结果模型;

步骤6、构建所述初始结果模型的每个主题对应的特征向量,得到特征向量集合;

步骤7、当所述特征向量集合中存在特征向量的相似度大于或等于所述第一预设阈值时,合并相似度达到所述第一预设阈值的特征向量对应的主题,得到所述初始结果模型的每个主题的最终词语频率分布;

步骤8、将所述最终词语频率分布确定为所述预设主题模型。

可选的,所述训练单元构建所述主题集合的每个主题对应的特征向量,得到特征向量集合包括:

根据所述目标词语频率统计所述初始结果模型的每个主题中词频达到第二预设阈值的词语;

通过所述初始结果模型的每个主题中词频达到第二预设阈值的词语构建所述初始结果模型中的每个主题对应的特征向量,得到所述特征向量集合。

可选地,所述装置还包括,展示单元,用于将所述目标文本的主题以及所述目标文本的关键词组合进行展示。

本发明实施例第三方面提供了一种处理器,所述处理器用于运行计算机程序,所述计算机程序运行时执行如上述各方面所述的信息处理方法的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时上述各方面所述的信息处理方法的步骤。

综上所述,可以看出,本发明提供的实施例中,通过预设检索模型识别出司法文书中的要素标签特征,该预设检索模型为通过司法领域的司法文书中的标注句子与标注句子对应的要素标签的特征进行向量化,之后训练得到的,由此可以解析出更加贴合司法文书的要素标签特征。

附图说明

图1为本发明实施例提供的信息处理方法的实施例示意图;

图2为本发明实施例提供的短语句法树中的树形结构的示意图;

图3为本发明实施例提供的预设主题模型的训练流程示意图;

图4为本发明实施例提供的信息处理装置的实施例示意图;

图5为本发明实施例提供的服务器的硬件结构示意图。

具体实施方式

本发明实施例提供了一种信息处理方法及相关设备,既可以确定出文本的主题,又可以得到文本对应的比较长的关键词和短语,涵义更加丰富,可读性高,对数据分析帮助更大。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面从信息处理装置的角度对本发明的信息处理方法进行说明,该信息处理装置可以是服务器,也可以是服务器中的服务单元,具体不做限定。

请参阅图1,图1为本发明实施例提供的信息处理方法的实施例示意图,包括:

101、获取目标文本。

本实施例中,信息处理装置可以首先获取目标文本,该目标文本为待解析的文本,例如解析文本的主题或者文本的关键词等,此处具体不限定获取目标文本的方式,例如接收用户输入的目标文本,或者接收用户的指令,根据指令从数据库中提取指令对应的文本。

102、对目标文本进行预处理,得到目标语料集合。

本实施例中,信息处理装置在得到目标文本之后,可以对目标文本进行预处理得到目标语料集合,具体的,可以首先对目标文本通过分词工具进行分词,之后对分词后得到的词语集合进行停用词以及目标词性过滤,得到目标语料集合,其中停用词指的是语气助词、副词、介词以及连接词等词,例如“的”、“在”等等,词性过滤是指过滤分词后得到的词语集合中的词语,只保留名词、动词、形容词等三类比较有意义的词。也就是说,该目标语料集合中不包括停用词,同时,该目标语料集合中的词语均是由名词、动词、形容词构成的。

103、将目标词语集合输入预设主题模型,以确定目标语料集合中的每个词对应的主题。

本实施例中,信息处理装置可以预先训练一个的预设主题模型,该预设主题模型为经过训练语料集合训练得到的,该预设主题模型输出的不同类别的主题之间的相似度小于第一预设阈值,该训练语料集合为对语料库中每个文本分别进行预处理得到的词语集合,之后,信息处理装置可以将该目标语料集合输入预设主题模型,以确定目标语料集合中每个词对应的主题。

可以理解的是,该语料库可以是由用户自定义的某个领域的语料库,也可以是百度百科中文语料库或者维基百科中文语料库,具体不做限定

104、将目标语料集合中词频大于第二预设阈值的主题确定为目标文本的主题。

本实施例中,当信息处理装置确定了训练语料集合中每个词语对应的主题之后,可以将目标语料集合中词频大于第二预设阈值的主题确定为目标文本的主题,该词频为主题中出现某个词的次数,例如a主题中的词语“医疗”出现的次数为100词,则词语“医疗”的词频即为100,此时可以将目标欲裂哦集合中词频大于第二预设阈值的主题确定目标文本的主题。该第二预设阈值可以由用户自行设定,也可以由系统根据实际情况进行设定,具体不做席东宁。

105、根据目标文本对应的短语句法树确定目标子树。

本实施例中,信息处理装置可以首先获取目标文本对应的短语句法树,该短句句法树为对目标文本中的句子进行短语句法解析得到的,具体的,信息处理装置可以使用短语句法分析器,对目标文本中的每个句子分别进行短语句法分析,得到目标文本对应的短语句法树,之后,根据目标文本对应的短语句法树确定目标子树,该目标子树为词语句法树中根节点包含名词的子树,具体的,信息处理装置在得到短语句法树之后,可以抽取出短语句法树中所有的子树,并筛选出根节点包含名词的子树。下面结合图2进行说明:

请参阅图2,图2为本发明实施例提供的短语句法树中的树形结构的示意图为例进行说明:

例如,句子“石油工人学习安全守则”中隐藏着的树形图,这个树形图中,s表示句子“石油工人学习安全守则”,np表示名词词组,vp表示动词词组,n表示名词,v表示动词,它们都是标记。

106、将第一子树中的名词进行合并得到目标文本对应的关键词组。

本实施例中,信息处理装置,在得到目标子树之后,可以将目标子树中的第一子树中的名词进行合并得到目标文本对应的关键词组。此处以名词进行组合为例进行说明,该第一子树为目标子树中各根节点均为名词的子树。例如图2中的句子“石油工人学习安全守则”的关键词组为“石油工人”以及“安全守则”。

107、将所述目标文本对应的关键词组中词频大于第三预设阈值的关键词组作为目标文本的关键词组。

本实施例中,在得到目标文本对应的所有关键词组之后,可以将统计相同的关键词组的词频,选取词频大于第三预设阈值的关键词作为目标文本的关键词组,该第三预设阈值可以由用户自行设定,也可以根据实际情况进行设定,具体不做限定。

需要说明的是,通过步骤101指步骤104可以确定目标文本对应的主题,通过步骤105至步骤107可以确定目标文本的关键词组,然而步骤101至步骤104以及步骤105至步骤107之间并没有先后执行顺序的限制,可以先执行步骤101至步骤104,也可以先执行步骤105至步骤107,或者同时执行,具体不做限定。

还需要说明的是,在得到目标文本的主题以及目标文本的关键词组之后,可以将该目标文本的主题以及关键词组进行展示,在展示的时候,还可以将关键词组的词频同时进行展示,或者按照词频从多至少的顺序进行展示,具体不做限定。

综上所述,可以看出,本发明提供的实施例中,通过对目标文本进行预处理,得到仅包括名词、动词、形容词的词语集合,之后输入预设主题模型进行训练得到目标文本对应的主题,保证了目标文本对应的主题词涵义的丰富性与可读性,且由于该预设主题模型输出的不同类型的主题之间的相似度小于第二预设阈值,保证了不同类别的主题类别差异性,同时通过短语句法对目标文本进行识别,同时对名词进行组合,得到相对较长的关键词组,保证了目标文本对应的关键词组的含义更丰富、可读性更高。

请参阅图3,图3为本发明实施例提供的预设主题模型的训练流程示意图,包括:

301、对语料库中的各个文本分别进行分词,得到分词集合。

本实施例中,信息处理装置可以对语料库中的各个文本分别进行分词,得到分词集合,具体的,可以首先对语料库中的每个文本通过分词工具进行分词,得到分词集合,该分词集合与语料库中的各个文本具有关联关系,也就是说,该分词集合中的每个分词均包含一个识别信息,该识别信息指示每个分词是由那个文本进行分词得到的。

需要说明的是,此处具体不限定是通过何种分词工具进行分词的,只要能对语料库中的各个文本进行分词得到分词集合即可。

需要说明的是,该语料库可以是有用户自定义的某个领域的语料库,也可以是百度百科中文语料库或者维基百科中文语料库,具体不做限定。

302、对分词结合进行停用词以及词性过滤,得到训练语料集合。

本实施例中,信息处理装置在得到分词集合之后,可以对分词集合进行停用词以及目标词性过滤,得到训练语料集合,其中,该训练语料集合中的每个词语与语料库中的各个文本具有关联关系,其中停用词指的是语气助词、副词、介词以及连接词等词,例如“的”、“在”等等,词性过滤是指过滤分词后得到的词语集合中的词语,只保留名词、动词、形容词等三类比较有意义的词。也就是说,该训练语料集合中不包括停用词,同时该训练语料集合中的词语均是由名词、动词、形容词构成的。

303、基于训练语料集合进行训练,得到预设主题模型。

本实施例中,在得到训练语料集合之后,可以通过文档主题生成模型(latentdirichletallocation,lda)对训练语料集合进行训练,得到预设主题模型,具体如下:

步骤1、对训练语料集合中的每个词语随机分配主题,得到主题集合。

本实施例中,可以首先随机的为训练语料集合中的每个词语w分配一个主题z,得到主题集合。

步骤2、统计各个文本的初始主题频率分布以及主题集合中的每个主题的初始词语频率分布。

本实施例中,可以统计两个频率技术矩阵:doc-topic计数矩阵ntd,描述每个文档中的主题频率分布,即语料库中的各个文本中的初始主题频率分布;word-topic计数矩阵nwt,表示每个主题下词语的频率分布,即主题集合中的每个主题的初始词语频率分布,也就是说,简单来说,此处既可以知道,每个文档中包括多少个主题,一个每个主题下面包括多少个词语。

步骤3、遍历训练语料集合中的每个词语,通过计算训练语料集合中的每个词语对应的主题的频率对初始主题频率分布进行更新,得到目标主题频率分布。

本实施例中,可以偏离训练语料集合中的每个词语,通过计算训练语料集合中的每个词语对应的主题的频率对初始主题频率分布进行更新,得到目标主题频率分布,可以理解的是,在初始的时候是随机的为每个词语分配一个主题,由于是随机分配的,因此可能分配给每个词语的主题与该词语并不匹配,那么此时可以基于初次分配的主题统计每个主题的频率,之后用该初始分配的频率重新计算每个词对应的主题的频率,取最大的频率作为该词的频率。

步骤4、基于目标主题频率分布更新初始词语频率分布,得到目标词语频率分布。

本实施例中,可以基于目标主题频率分布更新初始词语频率分布,得到目标词语频率分布,也就是说,由于词语与主题是对应的,对主题频率分布更新也就相应的词语频率分布同步进行了更新。

步骤5、重复执行步骤3指步骤4直至达到预设条件,将目标词语频率分布确定为初始结果模型。

也就是说,此处可以重复的执行上述步骤3以及步骤4,对主题频率分布以及词语频率分布进行更新,直至收敛或者是更新的此处达到一个阈值,则停止更新,并将目标词语频率分布确定为初始结果模型。

步骤6、构建初始结果模型的每个主题对应的特征向量,得到特征向量集合。

本实施例中,可以根据目标词语频率统计初始结果模型的每个主题中词频达到第二预设阈值的词语;通过初始结果模型的每个主题中词频达到第二预设阈值的词语构建初始结果模型中的每个主题对应的特征向量,得到特征向量集合。具体的,可以统计每个主题下面的top100词语及top100词语中每个词的词频,并将该主题的top100词语及top100词语中每个词的词频通过向量化工具构建该主题的特征向量,之后可以遍历初始结果模型中的每个主题,采用相同的方式分别构建每个主题的特征向量,得到特征向量集合。

步骤7、当特征向量集合中存在特征向量的相似度达第一预设阈值时,合并相似度达到第一预设阈值的特征向量对应的主题,得到初始结果模型的每个主题的最终词语频率分布。

本实施例中,信息处理装置,可以逐个对比不同主题的特征向量,如果两主题特征向量的余弦相似度大于或等于第一预设阈值(例如该第一预设阈值可以由用户自行设定,也可以是根据实际情况进行设定,例如0.8,具体不做限定),则合并该两个相似度大于或等于第一预设阈值的两个主题,具体的合并方式是:词频取两个主题之和,生成新的word-topic计数矩阵nwt,即最终词语频率分布。

步骤8、将最终词语频率分布确定预设主题模型。

本实施例中,可以将最终词语频率分布确定为预设主题模型,即将参数nwt作为预设主题模型。

综上所述,可以看出,本发明提供的实施例中,通过对语料库中的文本进行预处理,得到仅包括名词、动词、形容词的训练语料集合,预处理部分仅保留名词、动词、形容词,保证了主题模型中主题词涵义的丰富性与可读性,同时,主题去重的环节保证了不同类别的主题类别差异性。

上面对本发明实施例提供的信息处理方法进行说明,下面结合图4对本发明实施例提供的信息处理装置进行说明。

请参阅图4,图4为本发明实施例提供的信息处理装置的实施例示意图,该信息处理装置包括:

获取单元401,用于获取目标文本,所述目标文本为待确定主题的文本;

预处理单元402,用于对所述目标文本进行预处理,得到目标语料集合;

第一确定单元403,用于将所述目标语料集合输入预设主题模型,以确定所述目标语料集合中的每个词对应的主题,所述预设主题模型为经过训练语料集合训练得到的,所述预设主题模型输出的不同类型的主题之间的相似度小于第一预设阈值,所述训练语料集合为对语料库中每个文本分别进行预处理得到的词语集合;

第二确定单元404,用于将所述目标语料集合中词频大于第二预设阈值的主题确定为所述目标文本的主题;

第三确定单元405,用于根据所述目标文本对应的短语句法树确定目标子树,所述短语句法树为对所述目标文本中的句子进行短语句法分析得到,所述目标子树为所述短语句法树中各根节点包含名词的子树;

词语合并单元406,用于将第一子树中的名词进行合并得到所述目标文本对应的关键词组,所述第一子树为所述目标子树中根节点均为名词的子树;

第四确定单元407,用于将所述目标文本对应的关键词组中词频大于第三预设阈值的关键词组确定为所述目标文本的关键词组。

可选地,所述装置还包括:训练单元,所述训练单元408用于:

对语料库中的各个文本分别进行分词,得到分词集合;

对所述分词集合进行停用词以及词性过滤,得到所述训练语料集合,所述训练语料集合中的每个词语与所述语料库中的各个文本具有关联关系;

基于所述训练语料集合进行训练,得到所述预设主题模型。

可选的,所述训练单元408具体用于执行如下步骤:

步骤1、对所述训练语料集合中的每个词语随机分配主题,得到主题集合;

步骤2、统计所述各个文本中的初始主题频率分布以及所述主题集合的每个主题的初始词语频率分布,所述初始主题频率分布与所述初始词语频率分布具有关联关系;

步骤3:遍历所述训练语料集合中的每个词语,通过计算所述训练语料集合中的每个词语对应的主题的频率对所述初始主题频率分布进行更新,得到目标主题频率分布;

步骤4:基于所述目标主题频率分布更新所述初始词语频率分布,得到目标词语频率分布;

步骤5、重复执行步骤3至步骤4直至达到预设条件,将所述目标词语频率分布确定为初始结果模型;

步骤6、构建所述初始结果模型的每个主题对应的特征向量,得到特征向量集合;

步骤7、当所述特征向量集合中存在特征向量的相似度大于或等于所述第一预设阈值时,合并相似度达到所述第一预设阈值的特征向量对应的主题,得到所述初始结果模型的每个主题的最终词语频率分布;

步骤8、将所述最终词语频率分布确定为所述预设主题模型。

可选的,所述训练单元408构建所述主题集合的每个主题对应的特征向量,得到特征向量集合包括:

根据所述目标词语频率统计所述初始结果模型的每个主题中词频达到第二预设阈值的词语;

通过所述初始结果模型的每个主题中词频达到第二预设阈值的词语构建所述初始结果模型中的每个主题对应的特征向量,得到所述特征向量集合。

可选地,所述装置还包括,展示单元409,用于将所述目标文本的主题以及所述目标文本的关键词组合进行展示。

本实施例中的信息处理装置的各单元之间的交互方式如前述图1以及图3所示实施例中的描述,具体此处不再赘述。

综上所述,可以看出,本发明提供的实施例中,通过对目标文本进行预处理,得到仅包括名词、动词、形容词的词语集合,之后输入预设主题模型进行训练得到目标文本对应的主题,保证了目标文本对应的主题词涵义的丰富性与可读性,且由于该预设主题模型输出的不同类型的主题之间的相似度小于第二预设阈值,保证了不同类别的主题类别差异性,同时通过短语句法对目标文本进行识别,同时对名词进行组合,得到相对较长的关键词组,保证了目标文本对应的关键词组的含义更丰富、可读性更高。

请参阅图5,图5是本发明实施例提供的一种服务器的结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

上述实施例中由信息处理装置所执行的步骤可以基于该图5所示的服务器结构。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述信息处理方法。

本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述信息处理方法。

本发明实施例还提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:

获取目标文本,所述目标文本为待确定主题的文本;

对所述目标文本进行预处理,得到目标语料集合;

将所述目标语料集合输入预设主题模型,以确定所述目标语料集合中的每个词对应的主题,所述预设主题模型为经过训练语料集合训练得到的,所述预设主题模型输出的不同类型的主题之间的相似度小于第一预设阈值,所述训练语料集合为对语料库中每个文本分别进行预处理得到的词语集合;

将所述目标语料集合中词频大于第二预设阈值的主题确定为所述目标文本的主题;

根据所述目标文本对应的短语句法树确定目标子树,所述短语句法树为对所述目标文本中的句子进行短语句法分析得到,所述目标子树为所述短语句法树中根节点包含名词的子树;

将第一子树中的名词进行合并得到所述目标文本对应的关键词组,所述第一子树为所述目标子树中各根节点均为名词的子树;

将所述目标文本对应的关键词组中词频大于第三预设阈值的关键词组确定为所述目标文本的关键词组。

可选地,所述将所述目标语料集合输入预设主题模型,以确定所述目标语料集合中的每个词对应的主题之前,所述方法还包括:

对语料库中的各个文本分别进行分词,得到分词集合;

对所述分词集合进行停用词以及词性过滤,得到所述训练语料集合,所述训练语料集合中的每个词语与所述语料库中的各个文本具有关联关系;

基于所述训练语料集合进行训练,得到所述预设主题模型。

可选地,所述对所述训练语料集合进行训练,得到所述预设主题模型:

步骤1、对所述训练语料集合中的每个词语随机分配主题,得到主题集合;

步骤2、统计所述各个文本中的初始主题频率分布以及所述主题集合的每个主题的初始词语频率分布,所述初始主题频率分布与所述初始词语频率分布具有关联关系;

步骤3:遍历所述训练语料集合中的每个词语,通过计算所述训练语料集合中的每个词语对应的主题的频率对所述初始主题频率分布进行更新,得到目标主题频率分布;

步骤4:基于所述目标主题频率分布更新所述初始词语频率分布,得到目标词语频率分布;

步骤5、重复执行步骤3至步骤4直至达到预设条件,将所述目标词语频率分布确定为初始结果模型;

步骤6、构建所述初始结果模型的每个主题对应的特征向量,得到特征向量集合;

步骤7、当所述特征向量集合中存在特征向量的相似度大于或等于所述第一预设阈值时,合并相似度达到所述第一预设阈值的特征向量对应的主题,得到所述初始结果模型的每个主题的最终词语频率分布;

步骤8、将所述最终词语频率分布确定为所述预设主题模型。

可选地,所述构建所述主题集合的每个主题对应的特征向量,得到特征向量集合包括:

根据所述目标词语频率统计所述初始结果模型的每个主题中词频达到第二预设阈值的词语;

通过所述初始结果模型的每个主题中词频达到第二预设阈值的词语构建所述初始结果模型中的每个主题对应的特征向量,得到所述特征向量集合。

可选地,所述方法还包括:

将所述目标文本的主题以及所述目标文本的关键词组合进行展示。

本文中的设备可以是服务器、pc、pad、手机等。

本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:

获取目标文本,所述目标文本为待确定主题的文本;

对所述目标文本进行预处理,得到目标语料集合;

将所述目标语料集合输入预设主题模型,以确定所述目标语料集合中的每个词对应的主题,所述预设主题模型为经过训练语料集合训练得到的,所述预设主题模型输出的不同类型的主题之间的相似度小于第一预设阈值,所述训练语料集合为对语料库中每个文本分别进行预处理得到的词语集合;

将所述目标语料集合中词频大于第二预设阈值的主题确定为所述目标文本的主题;

根据所述目标文本对应的短语句法树确定目标子树,所述短语句法树为对所述目标文本中的句子进行短语句法分析得到,所述目标子树为所述短语句法树中根节点包含名词的子树;

将第一子树中的名词进行合并得到所述目标文本对应的关键词组,所述第一子树为所述目标子树中各根节点均为名词的子树;

将所述目标文本对应的关键词组中词频大于第三预设阈值的关键词组确定为所述目标文本的关键词组。

可选地,所述将所述目标语料集合输入预设主题模型,以确定所述目标语料集合中的每个词对应的主题之前,所述方法还包括:

对语料库中的各个文本分别进行分词,得到分词集合;

对所述分词集合进行停用词以及词性过滤,得到所述训练语料集合,所述训练语料集合中的每个词语与所述语料库中的各个文本具有关联关系;

基于所述训练语料集合进行训练,得到所述预设主题模型。

可选地,所述对所述训练语料集合进行训练,得到所述预设主题模型:

步骤1、对所述训练语料集合中的每个词语随机分配主题,得到主题集合;

步骤2、统计所述各个文本中的初始主题频率分布以及所述主题集合的每个主题的初始词语频率分布,所述初始主题频率分布与所述初始词语频率分布具有关联关系;

步骤3:遍历所述训练语料集合中的每个词语,通过计算所述训练语料集合中的每个词语对应的主题的频率对所述初始主题频率分布进行更新,得到目标主题频率分布;

步骤4:基于所述目标主题频率分布更新所述初始词语频率分布,得到目标词语频率分布;

步骤5、重复执行步骤3至步骤4直至达到预设条件,将所述目标词语频率分布确定为初始结果模型;

步骤6、构建所述初始结果模型的每个主题对应的特征向量,得到特征向量集合;

步骤7、当所述特征向量集合中存在特征向量的相似度大于或等于所述第一预设阈值时,合并相似度达到所述第一预设阈值的特征向量对应的主题,得到所述初始结果模型的每个主题的最终词语频率分布;

步骤8、将所述最终词语频率分布确定为所述预设主题模型。

可选地,所述构建所述主题集合的每个主题对应的特征向量,得到特征向量集合包括:

根据所述目标词语频率统计所述初始结果模型的每个主题中词频达到第二预设阈值的词语;

通过所述初始结果模型的每个主题中词频达到第二预设阈值的词语构建所述初始结果模型中的每个主题对应的特征向量,得到所述特征向量集合。

可选地,所述方法还包括:

将所述目标文本的主题以及所述目标文本的关键词组合进行展示。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素标签的过程、方法、商品或者设备不仅包括那些要素标签,而且还包括没有明确列出的其他要素标签,或者是还包括为这种过程、方法、商品或者设备所固有的要素标签。在没有更多限制的情况下,由语句“包括一个……”限定的要素标签,并不排除在包括要素标签的过程、方法、商品或者设备中还存在另外的相同要素标签。

本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1