主题模型和语义分析相结合的文本标签自动抽取方法

文档序号：10687038阅读：401来源：国知局

主题模型和语义分析相结合的文本标签自动抽取方法
【专利摘要】本发明涉及主题模型和语义分析相结合的文本标签自动抽取方法，属于计算机应用技术领域。本发明包括预处理、LDA建模及上下文分析和标签提取。所述预处理包括去掉低频词、去掉停止词及去掉标记信息所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号；LDA建模过程为：文件经过LDA模型处理后，得到两个矩阵：一个是N×K的“文档?主题”矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是K×M“主题?词”矩阵，矩阵的每个元素对应的是每个主题的词分布；相比目前的基于统计的方法，本发明不仅考虑了文档中词和词的关联，也充分利用了上下文信息中一些关键特征，最终得到文档的标签信息。
【专利说明】
主题模型和语义分析相结合的文本标签自动抽取方法
技术领域
[0001] 本发明涉及主题模型和语义分析相结合的文本标签自动抽取方法，属于计算机应用技术领域。
【背景技术】
[0002] 在DT(data technology)时代，互联网信息呈现爆炸式增长，各种各样的文本数据层出不穷，如多样化的新闻、海量的自媒体原创文章。面对如此丰富多样的信息，人们迫切需要一些自动化工具来帮助他们从浩瀚的信息汪洋中准确、快速地找到自己需要的关键信息，标签抽取正是在这种背景下产生。标签是快速获取文本关键信息、把握主题的重要方式，在信息检索、自然语言处理、智能推荐等领域中均有重要应用。许多网站向用户提供了为感兴趣的对象(如图片、视频、书籍和电影等)进行标注标签的功能，便于用户分享、管理、收藏和检索对象。如图1(a)和图1(b)所示为豆瓣上对于书籍和电影的标签。
[0003] LDA(Latent Dirichlet Allocation)模型是一种文档主题生成模型，其是目前应用最广泛的一种概率主题模型，它具有比其他模型更全面的文本生成假设。LDA模型在PLSA 的基础上，使用服从Dirichlet分布的K维隐含随机变量表示文档的主题混合比例，以此来模拟文档的产生过程。使用LDA获取的文档表示和隐含语义结构已经非常成功地应用到很多文本处理的相关领域。LDA模型是一个多层的生成式概率模型，包含文档、主题、词三层结构。主题到词服从多项式分布，文档到主题则服从Dirichlet分布。LDA对主题的混合权重0 进行Dirichlet先验，用一个超参数a来产生参数0，即参数的参数。LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。每一个主题又代表了很多单词所构成的一个概率分布，而每一篇文档代表了一些主题所构成的一个概率分布。
[0004] 目前的标签抽取方法主要有以下两种及存在的缺点：
[0005] 1.基于文本词汇的统计信息来生成标签，如TF_IDF(term frequency-inverse document frequency)、互信息(mutual informat ion)等，然后对它们排序，选取最高的若干个作为关键词，因此也被称为无监督的方法。此方法优点是简单快捷，也不需要人工标注。但是，这种方法无法有效综合利用多种信息对候选关键词排序。另外，没有考虑词和词之间的相关性，也就是一篇文档实际上是由一些潜在主题构成的，每个主题是由一些词构成的。
[0006] 2.基于机器学习的方法来生成标签。也被称为有监督的方法，主要思想是将标签抽取问题转换为判断每个候选关键词是否为标签的二分类问题。首先需要对文档集进行标签标注，然后拆分成训练数据和测试数据，用于生成分类模型。这种方法可以通过训练学习来调节多种维度的信息对于判断关键词的影响程度，所以效果也更好。但是，对于训练集合的标注则非常费时费力，而且文档主题往往随着时间变化剧烈，随时进行训练集合的标注也不现实。

【发明内容】

[0007] 为了克服上述的不足，本发明提供主题模型和语义分析相结合的文本标签自动抽取方法。
[0008] 本发明采取的技术方案如下：
[0009] 主题模型和语义分析相结合的文本标签自动抽取方法，包括如下步骤：
[0010] 第一步:预处理；
[0011]第二步:LDA建模及上下文分析；
[0012] 第三步:标签提取。
[0013]其中，第一步的预处理的方式为：如果出现低频词、停止词和标记信息，所述预处理包括去掉低频词、去掉停止词及去掉标记信息;所述低频词只在一到两个文本中出现过，所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号，所述标记信息是网页文本或其他的标记语言文本信息；其他的标记语言文本信息包括html和css;
[0014]第二步的LDA建模过程为:文件经过LDA模型处理后，得到两个矩阵:一个是N X K的 "文档-主题"矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是KXM"主题-词"矩阵，矩阵的每个元素对应的是每个主题的词分布；
[0015] 上下文分析包括以下几个维度：
[0016] (1)词频次，
[0017] ⑵文档频次，
[0018] (3)词性，
[0019] (4)词位置，
[0020] (5)TF-IDF；
[0021] 上下文分析的方法包括如下步骤，
[0022] ①根据文本的html标签信息，获取各段文本所在的位置信息；
[0023]②对文本进行分词处理和词性标记，得到各个独立的词及词性信息；
[0024]③使用业界公知的方法计算词频次、文档频次和TF-IDF;
[0025]经过第一步的预处理后，每个文档都形成了一个特征向量，形成了特征向量的方法为:假定有N篇文档，M个词，K个主题，LDA建模过程为:文件经过LDA模型处理后，得到两个矩阵：一个是NX K的"文档-主题"矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是KXM "主题-词"矩阵，矩阵的每个元素对应的是每个主题的词分布。
[0026]第三步的标签提取的方法如下：
[0027] 结合LDA模型的结果和词上下文分析得到的特征量，得到文本d词w的权重为：
[0028] Weigh | t(d，w) =a | SorceLDA(d，w)+01 Sorcew〇rd(d，w)，
[0029] 其中，Score (d，w)表示词w在文档d中的LDA计算得分，表示词w在文档d中的上下文分析后的得分，a和0代表LDA算法和上下文分析方法的权重，
[0031] K表示LDA模型设置的主题数，Topic(t，d)表示"文档-主题"矩阵中文档d的第t个主题的概率值，W〇rd(w，t)表示"主题-词"矩阵中主题t的词w的概率值，
[0032] Scorew〇rd(d,w) =p | Tfldf (w,d)+y | f (w,d)+|, | g(w,d)+ii | p(w,d)+〇 | y (w)；
[0033] Tf Idf (w,d)表示文档d中词w的TF-IDF值，f (w,d)表示词w在文档d中词频次的权重，g(w,d)表示词w在文档d中文档频次的权重，p(w,d)表示词的位置的权重，y (w)表示词的词性权重，P、Y分别表示TF-IDF、词频次、文档频次、词位置和词性在词上下文分析算法中的权重，为常数，
[0035]汽《，(1)4(?，(1)、0(?，(1)和丫（《)都是离散函数，分别映射到不同的区间，经过上面的计算，得到文档d中的每个词w的Weigh 11 (d，w)，按照太小从高到低排序，取最大的若干个词或者短语作为文档的标签。
[0036]本发明有益效果：
[0037]相比目前的基于统计的方法，本发明不仅考虑了文档中词和词的关联，也充分利用了上下文信息中一些关键特征，最终得到文档的标签信息。
【附图说明】
[0038] 图1(a)示例性地示出了豆瓣上对于书籍和电影的标签一；
[0039] 图1(b)示例性地示出了豆瓣上对于书籍和电影的标签二；
[0040] 图2示例性地示出了本发明的流程示意图；
[0041 ] 图3示例性地示出了 LDA模型处理流程图。
【具体实施方式】
[0042]下面结合附图对本发明做进一步说明：
[0043]如图2所示：主题模型和语义分析相结合的文本标签自动抽取方法，包括如下步骤：
[0044] 第一步:预处理；
[0045]第二步:LDA建模及上下文分析；
[0046] 第三步:标签提取。
[0047] 第一步的预处理的方式为:如果出现低频词、停止词和标记信息，所述预处理包括去掉低频词、去掉停止词及去掉标记信息;所述低频词只在一到两个文本中出现过，所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号，所述标记信息是网页文本或其他的标记语言文本信息;其他的标记语言文本信息包括html 和 css;
[0048] 第二步涉及到的LDA建模过程为:经过第一步得预处理后，每个文档都形成了一个特征向量，形成了特征向量的方法为:假定有N篇文档，M个词，K个主题;如图3所示，LDA建模过程为:文件经过LDA模型处理后，得到两个矩阵:一个是NXK的"文档-主题"矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布;另一个是KXM"主题-词"矩阵，矩阵的每个元素对应的是每个主题的词分布。
[0049] 所述上下文分析包括以下几个维度：
[0050] (1)词频次，即一个文档中词的出现次数。
[0051 ] (2)文档频次，即在所有文档集中，有多少文档包含该词；
[0052] (3)词性，名词及名词性短语表征语义要强一些，权重也会高一些；
[0053] (4)词位置，即该词所处的位置，在标题、摘要和结论、正文等文章的不停位置，权重是不同的。
[0054] (5)TF-IDF，TF-IDF是一种统计方法，主要思想是当一个词在一篇文档中出现的频率越高，同时在其他文档中出现的次数越少，则表明该词对于表示这篇文档的区分能力越强，所以其权重值就应该越大。
[0055]第二步涉及到的上下文分析的方法包括如下步骤，
[0056]①根据文本的html标签信息，获取各段文本所在的位置信息，如标题、正文、加粗、字号等；
[0057]②对文本进行分词处理和词性标记，得到各个独立的词及词性信息；
[0058]③使用业界公知的方法计算词频次、文档频次和TF-IDF;
[0059]第二步的标签提取方法为：
[0060]结合LDA模型的结果和词上下文分析得到的特征量，得到文本d，词W的权重为：
[0061 ] Weigh | t(d，w) =a | SorceLDA(d，w)+01 Sorcew〇rd(d，w)，
[0062] 其中Score (d，w)表示词w在文档d中的LDA计算得分，表示词w在文档d中的上下文分析后的得分，a和0代表LDA算法和上下文分析方法的权重，
[0064] K表示LDA模型设置的主题数，Topic(t，d)表示"文档-主题"矩阵中文档d的第t个主题的概率值，W〇rd(w，t)表示"主题-词"矩阵中主题t的词w的概率值，
[0065] Scorew〇rd(d,w) =p | Tfldf (w,d)+y | f (w,d)+|, | g(w,d)+ii | p(w,d)+〇 | y (w)；
[0066] Tf Idf (w,d)表示文档d中词w的TF-IDF值，f (w,d)表示词w在文档d中词频次的权重，g(w,d)表示词w在文档d中文档频次的权重，p(w,d)表示词的位置的权重，y (w)表示词的词性权重，P、Y分别表示TF-IDF、词频次、文档频次、词位置和词性在词上下文分析算法中的权重，为常数，
[0068]汽《，(1)4(?，(1)、0(?，(1)和丫（《)都是离散函数，分别映射到不同的区间，经过上面的计算，得到文档d中的每个词w的Weigh 11 (d，w)，按照太小从高到低排序，取最大的若干个词或者短语作为文档的标签。
[0069]相比目前的基于统计的方法，本发明不仅考虑了文档中词和词的关联，也充分利用了上下文信息中一些关键特征，最终得到文档的标签信息。
[0070]对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。
【主权项】
1. 主题模型和语义分析相结合的文本标签自动抽取方法，其特征在于:包括如下步骤：第一步:预处理，如果出现低频词、停止词和标记信息，所述预处理包括去掉低频词、去掉停止词及去掉标记信息;所述低频词只在一到两个文本中出现过，所述停止词是几乎不携带任何信息的助词、反映句子语法结构的词语和所有虚词以及标点符号，所述标记信息是网页文本或其他的标记语言文本信息;其他的标记语言文本信息包括html和css; 第二步:LDA建模及上下文分析;LDA建模过程为:文件经过LDA模型处理后，得到两个矩阵:一个是NXK的"文档-主题"矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是KXM "主题-词"矩阵，矩阵的每个元素对应的是每个主题的词分布；上下文分析包括以下几个维度： (1) 词频次， (2) 文档频次， (3) 词性， (4) 词位置， (5) TF-IDF；上下文分析的方法包括如下步骤， ① 根据文本的html标签信息，获取各段文本所在的位置信息； ② 对文本进行分词处理和词性标记，得到各个独立的词及词性信息； ③ 使用业界公知的方法计算词频次、文档频次和TF-IDF; 第二步:标签提取。2. 根据权利要求1所述的主题模型和语义分析相结合的文本标签自动抽取方法，其特征在于:所述第二步中，经过预处理后，每个文档都形成了一个特征向量，假定有N篇文档，M 个词，K个主题，LDA建模的过程为：文件经过LDA模型处理后，得到两个矩阵：一个是N X K的 "文档-主题"矩阵，矩阵的每个元素对应的是每个文档的隐含主题分布；另一个是KXM"主题-词"矩阵，矩阵的每个元素对应的是每个主题的词分布。3. 根据权利要求1所述的主题模型和语义分析相结合的文本标签自动抽取方法，其特征在于:所述第三步中，标签提取的方法如下，结合LDA模型的结果和词上下文分析得到的特征量，得到文本d词w的权重为： Weigh | t(d，w) =a | SorceLDA(d，w)+01 Sorcew〇rd(d，w)，其中Score (d，w)表示词w在文档d中的LDA计算得分，表示词w在文档d中的上下文分析后的得分，a和0代表LDA算法和上下文分析方法的权重，K表示LDA模型设置的主题数，Topic(t，d)表示"文档-主题"矩阵中文档d的第t个主题的概率值，W〇rd(w，t)表示"主题-词"矩阵中主题t的词w的概率值， Scorew〇rd(d,w) =p | Tf Idf (w,d)+ y | f (w,d)+C | g(w,d)+ii | p(w,d)+〇 | y (w)； Tfldf (w,d)表示文档d中词w的TF-IDF值，f (w,d)表示词w在文档d中词频次的权重，g (w，d)表示词w在文档d中文档频次的权重，p (w，d)表示词的位置的权重，y (w)表示词的词性权重，P、y、l、y、〇分别表示TF-IDF、词频次、文档频次、词位置和词性在词上下文分析算法中的权重，为常数，汽《，(1)4(?，(1)、0(?，(1)和^(?)都是离散函数，分别映射到不同的区间，经过上面的计算，得到文档d中的每个词w的Weigh | t(d，w)，按照太小从高到低排序，取最大的若干个词或者短语作为文档的标签。
【文档编号】G06F17/27GK106055538SQ201610361639
【公开日】2016年10月26日
【申请日】2016年5月26日
【发明人】于敬
【申请人】达而观信息科技（上海）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于敬;
技术所有人：达而观信息科技（上海）有限公司;
我是此专利的发明人

上一篇：姓名消歧的方法和装置的制造方法
上一篇：一种自然语言机器识别方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。