一种专利文献聚类方法

文档序号:8905211阅读:747来源:国知局
一种专利文献聚类方法
【技术领域】
[0001] 本发明设及一种专利文献语料的聚类方法,尤其是一种专利文献聚类方法。
【背景技术】
[0002] 当下经济环境中,专利对于提升企业价值的作用愈来愈重要。通过申请专利可W 保护企业的知识产权,进而保护企业的核屯、竞争力。目前学者们已经进行针对专利文献进 行了很多研究,如对专利摘要的标注,对专利关键技术的抽取,对专利进行聚类分析等。
[0003] 近年来,在数据挖掘领域中,对文本聚类的研究取得了很多成果。其中很多方法均 W将文档表示成向量形式为基础,利用聚类算法对文档进行聚类分析。专利文献中包含大 量非结构的信息形式,因此可W将聚类应用于专利分析。目前,已经有很多关于专利聚类分 析的研究,如基于词向量的专利聚类分析,基于技术功效矩阵的聚类分析等。目前,基于词 向量的专利聚类研究,主要是将关键词的文档和词频信息加入到文档向量表示中。该种特 征表示形式容易造成维灾难,应用与降维的方法有设置阔值和矩阵分解,常用的矩阵分解 方法有奇异值分解和非负矩阵分解。该些方法虽然可W达到降维的目的,却还是没有将特 征词上下文信息加入。深度学习可W被应用到文本的向量表示,该方法在降维的同时将文 本上下文信息加入到文档向量中,可W很好地提升文档向量包含的信息。
[0004]目前对专利文本聚类的研究中,大部分是对专利摘要的文本进行研究,该些研究 都取得了不错的效果。选择一种聚类因素进行专利聚类分析,可能对专利分析不够全面。另 一方面,仅使用同一种形式的语料进行聚类融合,可能会遗漏很多隐含信息。

【发明内容】

[0005] 本发明的目的是提供一种充分挖掘专利文本摘要中隐含的语义信息、充分利用大 规模语料中隐藏信息的专利文献聚类方法。
[0006] 本发明解决现有技术问题所采用的技术方案:一种专利文献聚类方法,包括W下 步骤:
[0007]S1、语料集采集及预处理:
[0008]al、语料集采集;选定预定领域,从专利文献数据库中按照专利IPC分类号在每个 类别中采集专利文献信息组成语料集,所述专利文献信息包括专利文献的专利标题、IPC分 类号和专利摘要;从所述语料集中提取所有专利文献的专利摘要并存储为词向量训练语 料集;从语料集中提取部分专利文献的专利摘要并存储为属性和属性值模型训练语料集; 从语料集中提取部分专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料 集;从聚类分析语料集中抽取所有专利摘要并将其分成两个部分,一部分作为聚类分析摘 要集,另一部分作为聚类分析属性和属性值抽取集;从聚类分析语料集中抽取所有专利标 题并存储为聚类分析标题集;
[0009]a2、分词处理及标注;采用分词模型对词向量训练语料集、聚类分析标题集、聚类 分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理 分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和 属性值模型训练词语集、聚类分析属性和属性值抽取词语集,同时对属性和属性值模型训 练词语集和属性值抽取词语集进行词性标注及属性标注;所述属性标注W属性和属性值组 成的数据组的形式进行标注;
[0010] S2、聚类分析语料的特征词提取;对步骤S1中得到的与聚类分析摘要集相对应的 聚类分析摘要词语集,统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要 中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量,计算每个词语的TFIDF 值:
[0011]
[0012] 其中,N为聚类分析语料集的语料总数,为第k个词语在聚类分析摘要集中的 第i篇专利摘要中出现的次数,nk,d为聚类分析摘要集中包含第k个词语的专利摘要的数 量;预设阔值,对于与聚类分析摘要集的每条摘要所对应的聚类分析摘要词语集中的词语 将TFIDF值大于阔值的词语作为与该专利摘要的特征词,每条专利摘要的特征词组成聚类 分析摘要特征词集合;遍历步骤S1得到的聚类分析标题词语集,对于每一条专利标题,将 属于对应聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集;
[0013] S3、基于词向量的聚类分析数据专利向量表示:
[0014] 包括如下步骤:
[0015] bl、获取词向量;利用词向量技术,得到所述词向量训练词语集中每个词语的词向 量;
[0016] b2、属性和属性值抽取;将属性和属性值作为命名实体,利用序列标注技术,通过 步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应的属性和属性值模 型训练语料集训练得到的条件随机场模型,并将训练得到的条件随机场模型应用于聚类分 析属性和属性值抽取集,完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预 巧U;对于经过标签预测的聚类分析属性和属性值抽取集,提取聚类分析属性和属性值抽取 集中的每一篇专利摘要中被赋予标签的词语,并将上述词语保存为聚类分析摘要属性和属 性值集;
[0017] b3、专利摘要属性和属性值的向量表示:利用词向量技术将步骤b2得到的聚类分 析摘要属性和属性值集中词语表示为词向量形式,将每篇专利摘要所对应的聚类分析摘要 属性和属性值集中的词向量进行线性加和作为该专利摘要属性和属性值的向量表示;
[0018] b4、专利标题的向量表示:利用步骤bl,将聚类分析标题集中包含的专利标题特 征词替换成对应的词向量;将聚类分析标题集中每一调专利标题所对应的所有专利标题特 征词的词向量进行线性相加,得到该条专利标题的向量表示;
[0019] b5、专利摘要文本的向量表示;利用步骤b4的方法得到专利摘要文本的向量表 示;
[0020] b6、加权融合;将步骤b3-b5得到专利摘要属性和属性值的向量表示、专利标题的 向量表示和专利摘要文本的向量表示进行加权线性求和,求和之后得到的和向量即为聚类 分析数据专利向量表示;
[0021]S4、聚类;针对步骤S3得到的聚类分析数据专利向量,利用聚类分析法通过计算 聚类分析数据专利向量之间的相似度完成初次聚类;再结合具体的阔值,对初始聚类结果 进行不断调整,最后得到聚类分析数据中专利的聚类结果;
[0022] S5、聚类结果评价:根据预设的评价指标对聚类结果进行评价。
[0023] 步骤S1中抽取属性和属性值模型训练语料集和聚类分析语料集的方法为;按照 专利IPC分类号在语料集中在每个类别中分别抽取相同数量的专利摘要组成属性和属性 值模型训练语料集;按照专利IPC分类号在语料集中在每个类别中分别抽取相同数量的专 利标题、专利摘要和IPC分类号组成聚类分析语料集。
[0024] 所述词向量训练语料集、属性和属性值模型训练语料集和聚类分析语料集中的专 利文献信息W分行形式进行存储,其中每行专利文献信息对应一篇专利文献。
[00巧]所述属性标注的具体方法为:对于完成词性标注后的属性和属性值模型训练词语 集,对于标注标签集合{属性的开始部分,属性的中间部分,属性的结束部分,属性值的开 始部分,属性值的中间部分,属性值的结束部分,其他},判断完成词性标注后的属性和属 性值模型训练词语集中每个词对应于标注标签集合中的对应属性标签,并标记为相应的标 签,而将无法在标注标签中对应的词标
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1