一种基于深度学习的非监督命名实体语义消歧方法

文档序号：6627849阅读：1224来源：国知局

一种基于深度学习的非监督命名实体语义消歧方法
【专利摘要】本发明提供了一种基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，在垂直网站上抓取评论数据并进行预处理；对评论数据中文分词；利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；对词集合中的所有词，使用基于深度学习的词聚类方法word2vec进行关键词聚类，提取和关键词语义接近的词；使用条件随机场该模型识别评论数据中的命名实体；根据步骤4主题聚类的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，选取文档主题，得出文档中命名实体的语境含义，从而消除语义岐义。本发明实现了以比较高的可解释度和精确度来进行命名实体消歧，满足了特定领域且需要大量的知识库的要求。
【专利说明】一种基于深度学习的非监督命名实体语义消歧方法

【技术领域】
[0001] 本发明属于互联网信息【技术领域】，涉及命名实体消歧，具体是一种非监督的基于语义的方法对命名实体进行语义消歧的技术。

【背景技术】
[0002] 随着互联网行业的快速发展，人们的生活越来越离不开互联网，人们利用互联网搜索引擎搜索关注的信息，搜索商品信息，利用电商网站搜索想要购买的物品，搜索方面的需求量逐渐增大，在情感分析领域，获取用户中的评论数据，词语的含义不仅影响分词和命名实体的准确性，还影响情感分析的准确性。但是互联网的快速发展和中文本身的特点给这些操作带来了困难，由于中文存在很多近义词和多义词，对这些词的识别率造成了很大的影响，因此对具有多义词的词语进行歧义消除是亟需解决的问题。
[0003] -般的论文研究主要基于知识库、Wordnet语义网络和基于统计进行研究，基于知识的语义消歧包括基于规则和基于词典的方法，基于知识库的消歧方法主要依赖语言学家的语言知识构造知识库，通过分析多义词所在上下文，选取其中满足某一项规则的义项。基于Wordnet语义网络主要是根据Wordnet中词和词在网络中的关系进行分析。基于统计的方法则需要以大型语料库作为知识源，从标注或者未标注的数据中学习消歧特征。这些方法中需要的知识和语料库获取过程不仅长而且可信度比较低，也不具有领域通用性，在特定领域下，效果就变得很差，不能有效实现命名实体语义消歧的目的。

【发明内容】

[0004] 本发明针对现有的命名实体语义消歧方法无法满足特定领域的需求而且需要大量的知识库的现状，提供了一种基于深度学习的非监督命名实体语义消歧方法，旨在实现以比较高的可解释度和精确度来进行命名实体消歧。
[0005] 本发明提供的基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，包括如下步骤：
[0006] 步骤1 :构建爬虫程序，在垂直网站上抓取领域内的评论数据；
[0007] 步骤2 :对评论数据进行预处理，包括：去重处理，根据数据长度进行清洗，去除垃圾广告，去除评论数据中的网址，去除自动评论数据；将预处理后的评论数据用于下面步骤；
[0008] 步骤3 :对评论数据进行中文分词，去除停用词，获取词集合；
[0009] 步骤4:对词集合中的词建立索引，利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；
[0010] 步骤5 :对词集合中的所有词，使用基于深度学习的词聚类方法W〇rd2vec进行关键词聚类，提取和关键词语义接近的前X个关键词；
[0011] 步骤6 :使用条件随机场模型识别评论数据中的命名实体；
[0012] 步骤7 :根据步骤4主题聚类的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，取相似度最高的前Y个主题，作分析和比较，得出文档中命名实体的语境含义，从而消除语义岐义，X和Υ均为正整数。
[0013] 相对于现有技术，本发明的非监督命名实体语义消歧方法，其优点和积极效果在于：
[0014] (1)利用Bloom filter技术对抓取的海量评论数据去重，数据处理效率高；基于给定的规则集对评论数据进行清洗，有效精简数据；
[0015] (2)利用基于深度学习的W〇rd2VeC技术提取词语的近义词集，对海量数据处理的效率高、准确度高；
[0016] (3)利用条件随机场模型进行命名实体识别，可有效识别命名实体；利用非监督的主题聚类模型对命名实体进行语义主题聚类，采用基于上下文窗口技术进行命名实体语义理解，实现了以比较高的可解释度和精确度来进行命名实体消歧。

【专利附图】

【附图说明】
[0017] 图1是本发明的非监督命名实体语义消歧方法的整体流程图；
[0018] 图2是本发明的非监督命名实体语义消歧方法中抓取评论数据的流程图；
[0019] 图3是本发明的非监督命名实体语义消歧方法步骤2?4的流程示意图；
[0020] 图4是本发明的非监督命名实体语义消歧方法命名实体语义消歧模块流程图；
[0021] 图5是本发明方法中步骤4中利用LDA主题模型获取字分布概率的示意图；
[0022] 图6是给定词"佛教"在词上的分布概率示意图。

【具体实施方式】
[0023] 下面将结合附图和实施例对本发明作进一步的详细说明。
[0024] 本发明提供的一种基于深度学习的非监督命名实体语义消歧方法，可以比较准确地理解不同的词语在不同语境下的真正含义。本发明通过对命名实体识别，通过语义聚类方式构建主题聚类，得到命名实体所属某一主题的概率，结合谷歌提出的利用深度学习技术的 W〇rd2VeC技术构建主题向量，计算在不同主题下的相似度。同时根据所属同一主题的其他命名实体，在进行语义消歧的时候，联系上下文，根据上下文中词在同一个主题中的共现概率进行语义理解，正确的理解命名实体在不同语境下的真实含义。
[0025] 本发明实施例中针对汽车网站数据，根据汽车网站的评论数据，采用条件随机场模型对命名实体识别，采用非监督聚类模型和基于上下文的分析技术对命名实体进行语义消歧。如图1所示，具体本发明的非监督命名实体语义消歧方法通过如下步骤1?步骤7 实现。
[0026] 步骤1 :构建爬虫程序，抓取汽车行业的评论数据，这里主要包括汽车之家等垂直网站的数据。本步骤分为如下两个子步骤，如图2所示：
[0027] 步骤101 :构建分布式爬虫程序，对汽车网站数据进行页面抓取；
[0028] 步骤102 :根据抓取到的html页面生成页面的Dom树结构，根据标签提取爬到页面中包含的评论数据。
[0029] 步骤2 :对评论数据进行预处理，去除噪音。本步骤中（1)利用Bloom filter方法对海量数据进行处理，Bloom filter处理速度很快，避免了普通方法中的两两比较，因而是线性复杂度，适合处理海量数据。（2)利用下面的规则集对行业评论数据进一步预处理：规则1:评论数据长度小于5 ;规则2 :评论数据中含有特定的广告词；规则3 :基于网络特定回复模板的自动回复；规则4:评论数据中含有网址的，去除网址，然后再重新判断是否符合规则1?3。步骤2可分为步骤201?步骤204。将预处理后的评论数据用于下面步骤中。
[0030] 步骤201 :根据评论数据长度进行清洗，利用正则表达式和制定的规则集去除垃圾广告信息。
[0031] 步骤202 :利用Bloom filter首先对评论数据利用N个hash函数映射到位数组中，然后对后面的评论计算N个hash值，进而判断该评论数据是否已经存在，如果存在就过滤掉。
[0032] 步骤203 :设计匹配网址的正则表达式，去除评论数据中的网址，再次计算句子的长度，然后在此基础上进行二次清洗，主要清洗长度不满足规则中设置的条件的。
[0033] 步骤204 :统计网络自动评论模板，然后根据自动评论模板去除评论数据中包含的自动评论。
[0034] 步骤3 :对评论数据进行中文分词处理，获取对应的词集合。对所有评论数据进行中文分词，去除停用词，获取分词结果。步骤3包括步骤301和302。
[0035] 步骤301 :调用中文分词程序分词，然后根据停用词表去除停用词，对其中包含的英文词进行形态变换，转换到统一形式。
[0036] 步骤302 :计算词的文档频率df、词频tf和逆向文件频率idf，设词的权值使用计算公式log(tf7(idf+l)+l)得到，然后根据设定的权值阈值进行词集筛选，提取权值大于设定的权值阈值的词，从而提取到能够体现评论特征的词集合，同时通过词集筛选后也适当地降低了词集合的维度。
[0037] 步骤4 :利用主题模型对步骤3得到的词集合中的词进行主题聚类，生成包含主题信息的文档主题词分布，如图3所示。每条评论为一个文档。
[0038] 步骤401 :对所有词建立索引，创建文档和词对应的数据文件。
[0039] 步骤 402 :使用基于吉布斯抽样方法（Gibbs Sampling)的 LDA (latent dirichlet allocation)主题模型对词进行主题聚类。LDA是一个三层贝叶斯概率模型，包含词、主题和文档三层结构。文档到主题服从狄利克雷（Dirichlet)分布，主题到词服从多项式分布。 LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection)或语料库（corpus)中潜藏的主题信息。
[0040] 从主题模型的角度，对于一篇文档，生成包含主题信息的文档主题词分布如下：
[0041] 1.设文档的长度为N，N服从Poisson ( ε )分布；Poisson ( ε )表不泊松分布，ε 是该分布的参数；
[0042] 2.选择θ，Θ服从Dirichlet分布Dir(a)，Θ是列向量，代表的是各主题发生的概率，a是Dirichlet分布的参数；
[0043] 3.对文档N个单词中的每一个单词：
[0044] a)选择主题Zp Zi服从多项分布Multinomial ( Θ )。Zi代表当前选择的主题。Θ 是多项分布的参数；i = 1，2,…，Κ，K表示主题的数量；
[0045] b)选择单词W」，根据P (W」| Zi ; β i;」），得到在Zi条件下的多项分布。P (W」| Zi ; β i;p 表示在主题Zi下生成单词Wj的概率β i，」，η = 1，2, ···，Ν。
[0046] 设β是KXW的矩阵，W表示所有文档的单词数量，β记录了某个主题条件下生成某个单词的概率。
[0047] 如图5所示，Τ表示主题空间，设共有Κ个主题，D表示文档空间，设共有D个文档，乂表示某个文档对应的词空间，T，D，Nd^表示为矩阵向量形式，各主题Ζ发生的概率分布为 Θ，各主题下生成的单词的概率分布为φ，φ是一个自变量为主题和单词的函数。
[0048] 在LDA主题模型中，有下面公式：
[0049]

【权利要求】
1. 一种基于深度学习的非监督命名实体语义消歧方法，针对某一特定领域，其特征在于，进行如下步骤：步骤1 :构建爬虫程序，在垂直网站上抓取领域内的评论数据；步骤2 :对评论数据进行预处理，包括：去重处理，根据数据长度进行清洗，去除垃圾广告，去除评论数据中的网址，去除自动评论数据；将预处理后的评论数据用于下面步骤；步骤3 :对评论数据进行中文分词，去除停用词，获取词集合；步骤4 :对词集合中的词建立索引，利用主题模型对词进行主题聚类，生成包含主题信息的文档主题词分布；步骤5 :使用基于深度学习的词聚类方法W〇rd2vec进行关键词聚类，提取和关键词语义接近的前X个关键词；X为正整数；步骤6 :使用条件随机场该模型识别评论数据中的命名实体；步骤7 :根据步骤4主题模型的聚类结果，构建不同主题下的词集合，计算文档和词集合的相似度，取相似度最高的前Y个主题作分析和比较，得出文档中命名实体的语境含义，从而消除语义岐义；Y为正整数。
2. 根据权利要求1所述的非监督命名实体语义消歧方法，其特征在于，所述的步骤2，利用下面的规则集对评论数据进行预处理，去除符合规则1?3中任意一条规则的评论数据：规则1 :评论数据的长度小于5个字；规则2 :评论数据中含有特定的广告词；规则3 :基于网络特定回复模板的自动回复；规则4 :评论数据中含有网址，去除网址后再重新判断是否符合规则1?3。
3. 根据权利要求1所述的非监督命名实体语义消歧方法，其特征在于，所述的步骤3获取词集合时，计算词的逆向文件频率idf和词频tf，得到词的权值log(tf/(idf+l)+l)，提取权值大于设定的权值阈值的词形成词集合。
4. 根据权利要求1所述的非监督命名实体语义消歧方法，其特征在于，所述的步骤5中 X取值为50。
5. 根据权利要求1所述的非监督命名实体语义消歧方法，其特征在于，所述的步骤7中 Y取值为10。
【文档编号】G06F17/27GK104268200SQ201410488048
【公开日】2015年1月7日申请日期:2014年9月22日优先权日:2013年9月22日
【发明者】余雷, 邓攀, 闫碧莹, 袁伟, 李玉成, 万安格申请人:中科嘉速(北京)并行软件有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余雷;邓攀;闫碧莹;袁伟;李玉成;万安格
技术所有人：中科嘉速(北京)并行软件有限公司
我是此专利的发明人

上一篇：复合绝缘子的陡波电压耐受裕度的估算方法
上一篇：一种基于深度学习的命名实体关系抽取与构建方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。