一种专利文献聚类方法

文档序号：8905211阅读：747来源：国知局

一种专利文献聚类方法
【技术领域】
[0001] 本发明设及一种专利文献语料的聚类方法，尤其是一种专利文献聚类方法。
【背景技术】
[0002] 当下经济环境中，专利对于提升企业价值的作用愈来愈重要。通过申请专利可W 保护企业的知识产权，进而保护企业的核屯、竞争力。目前学者们已经进行针对专利文献进行了很多研究，如对专利摘要的标注，对专利关键技术的抽取，对专利进行聚类分析等。
[0003] 近年来，在数据挖掘领域中，对文本聚类的研究取得了很多成果。其中很多方法均 W将文档表示成向量形式为基础，利用聚类算法对文档进行聚类分析。专利文献中包含大量非结构的信息形式，因此可W将聚类应用于专利分析。目前，已经有很多关于专利聚类分析的研究，如基于词向量的专利聚类分析，基于技术功效矩阵的聚类分析等。目前，基于词向量的专利聚类研究，主要是将关键词的文档和词频信息加入到文档向量表示中。该种特征表示形式容易造成维灾难，应用与降维的方法有设置阔值和矩阵分解，常用的矩阵分解方法有奇异值分解和非负矩阵分解。该些方法虽然可W达到降维的目的，却还是没有将特征词上下文信息加入。深度学习可W被应用到文本的向量表示，该方法在降维的同时将文本上下文信息加入到文档向量中，可W很好地提升文档向量包含的信息。
[0004]目前对专利文本聚类的研究中，大部分是对专利摘要的文本进行研究，该些研究都取得了不错的效果。选择一种聚类因素进行专利聚类分析，可能对专利分析不够全面。另一方面，仅使用同一种形式的语料进行聚类融合，可能会遗漏很多隐含信息。

【发明内容】

[0005] 本发明的目的是提供一种充分挖掘专利文本摘要中隐含的语义信息、充分利用大规模语料中隐藏信息的专利文献聚类方法。
[0006] 本发明解决现有技术问题所采用的技术方案：一种专利文献聚类方法，包括W下步骤：
[0007]S1、语料集采集及预处理：
[0008]al、语料集采集；选定预定领域，从专利文献数据库中按照专利IPC分类号在每个类别中采集专利文献信息组成语料集，所述专利文献信息包括专利文献的专利标题、IPC分类号和专利摘要；从所述语料集中提取所有专利文献的专利摘要并存储为词向量训练语料集；从语料集中提取部分专利文献的专利摘要并存储为属性和属性值模型训练语料集；从语料集中提取部分专利文献的专利标题、专利摘要和IPC分类号并存储为聚类分析语料集；从聚类分析语料集中抽取所有专利摘要并将其分成两个部分，一部分作为聚类分析摘要集，另一部分作为聚类分析属性和属性值抽取集；从聚类分析语料集中抽取所有专利标题并存储为聚类分析标题集；
[0009]a2、分词处理及标注；采用分词模型对词向量训练语料集、聚类分析标题集、聚类分析摘要集、属性和属性值模型训练语料集、聚类分析属性和属性值抽取集进行分词处理分别得到相对应的词向量训练词语集、聚类分析标题词语集、聚类分析摘要词语集、属性和属性值模型训练词语集、聚类分析属性和属性值抽取词语集，同时对属性和属性值模型训练词语集和属性值抽取词语集进行词性标注及属性标注；所述属性标注W属性和属性值组成的数据组的形式进行标注；
[0010] S2、聚类分析语料的特征词提取；对步骤S1中得到的与聚类分析摘要集相对应的聚类分析摘要词语集，统计聚类分析摘要词语集中每个词语在聚类分析摘要集的每篇摘要中出现的频率和聚类分析摘要集中包含该词语的专利摘要的数量，计算每个词语的TFIDF 值：
[0011]
[0012] 其中，N为聚类分析语料集的语料总数，为第k个词语在聚类分析摘要集中的第i篇专利摘要中出现的次数，nk,d为聚类分析摘要集中包含第k个词语的专利摘要的数量；预设阔值，对于与聚类分析摘要集的每条摘要所对应的聚类分析摘要词语集中的词语将TFIDF值大于阔值的词语作为与该专利摘要的特征词，每条专利摘要的特征词组成聚类分析摘要特征词集合；遍历步骤S1得到的聚类分析标题词语集，对于每一条专利标题，将属于对应聚类分析摘要特征词集合中的词语提取并保存为聚类分析专利标题特征词集；
[0013] S3、基于词向量的聚类分析数据专利向量表示：
[0014] 包括如下步骤：
[0015] bl、获取词向量；利用词向量技术，得到所述词向量训练词语集中每个词语的词向量；
[0016] b2、属性和属性值抽取；将属性和属性值作为命名实体，利用序列标注技术，通过步骤a2得到的经过属性标注后的属性和属性值模型训练词语集所对应的属性和属性值模型训练语料集训练得到的条件随机场模型，并将训练得到的条件随机场模型应用于聚类分析属性和属性值抽取集，完成对聚类分析属性和属性值抽取集中的每个专利摘要的标签预巧U;对于经过标签预测的聚类分析属性和属性值抽取集，提取聚类分析属性和属性值抽取集中的每一篇专利摘要中被赋予标签的词语，并将上述词语保存为聚类分析摘要属性和属性值集；
[0017] b3、专利摘要属性和属性值的向量表示：利用词向量技术将步骤b2得到的聚类分析摘要属性和属性值集中词语表示为词向量形式，将每篇专利摘要所对应的聚类分析摘要属性和属性值集中的词向量进行线性加和作为该专利摘要属性和属性值的向量表示；
[0018] b4、专利标题的向量表示：利用步骤bl，将聚类分析标题集中包含的专利标题特征词替换成对应的词向量；将聚类分析标题集中每一调专利标题所对应的所有专利标题特征词的词向量进行线性相加，得到该条专利标题的向量表示；
[0019] b5、专利摘要文本的向量表示；利用步骤b4的方法得到专利摘要文本的向量表示；
[0020] b6、加权融合；将步骤b3-b5得到专利摘要属性和属性值的向量表示、专利标题的向量表示和专利摘要文本的向量表示进行加权线性求和，求和之后得到的和向量即为聚类分析数据专利向量表示；
[0021]S4、聚类；针对步骤S3得到的聚类分析数据专利向量，利用聚类分析法通过计算聚类分析数据专利向量之间的相似度完成初次聚类；再结合具体的阔值，对初始聚类结果进行不断调整，最后得到聚类分析数据中专利的聚类结果；
[0022] S5、聚类结果评价：根据预设的评价指标对聚类结果进行评价。
[0023] 步骤S1中抽取属性和属性值模型训练语料集和聚类分析语料集的方法为；按照专利IPC分类号在语料集中在每个类别中分别抽取相同数量的专利摘要组成属性和属性值模型训练语料集；按照专利IPC分类号在语料集中在每个类别中分别抽取相同数量的专利标题、专利摘要和IPC分类号组成聚类分析语料集。
[0024] 所述词向量训练语料集、属性和属性值模型训练语料集和聚类分析语料集中的专利文献信息W分行形式进行存储，其中每行专利文献信息对应一篇专利文献。
[00巧]所述属性标注的具体方法为：对于完成词性标注后的属性和属性值模型训练词语集，对于标注标签集合{属性的开始部分，属性的中间部分，属性的结束部分，属性值的开始部分，属性值的中间部分，属性值的结束部分，其他}，判断完成词性标注后的属性和属性值模型训练词语集中每个词对应于标注标签集合中的对应属性标签，并标记为相应的标签，而将无法在标注标签中对应的词标

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林鸿飞;孙东普;
技术所有人：大连理工大学;
我是此专利的发明人

上一篇：中文网络话题评论文本语义倾向分析的方法及装置的制造方法
上一篇：基于联想网络的语义相关性计算方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。