舆情监控方法及系统的制作方法

文档序号:10471248阅读:359来源:国知局
舆情监控方法及系统的制作方法
【专利摘要】本发明公开了一种舆情监控方法及系统,涉及数据处理领域,通过采集服务器获取待处理的文本数据,处理服务器根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设阈值,若是,则确认所述分词结果为关键词。利用上述系统,解决舆情监控的处理效率、准确性较低的问题。
【专利说明】
舆情监控方法及系统
技术领域
[0001 ]本发明设及数据处理领域,尤其设及一种舆情监控方法及系统。
【背景技术】
[0002] 舆情是"舆论情况"的简称,网络舆情监控系统是指通过对网络各类信息进行汇 集、分类、整合、筛选等技术处理后,形成对网络热点、动态、网民意见等实时统计分析的软 件,它通过对某一主题相关数据进行实时抓取、存储、过滤、和分析,W便对舆情进行动态式 观察。
[0003] 目前,舆情监控系统是将捜索引擎技术和自然语言处理技术相结合,现有的舆情 监控系统处理文本时,利用中文分词方法结合不同的语义分析算法实现舆情监控。但是现 有中文分词方法中对于人名、地名识别不准确,导致根据中文分词而提取的关键词准确率 较低,使得舆情监控中文本分析处理的效果较差。

【发明内容】

[0004] 本发明提供了舆情监控系统,为解决舆情监控处理效率较低的问题。
[0005] 为了解决上述技术问题,本发明提供了舆情监控方法,该系统包括:
[0006] 获取待处理的文本数据;
[0007] 根据基础词典对所述文本数据进行分词,所述基础词典包括预置范围的人名及地 名;
[000引判断分词结果与文本主题数据的相关度是否大于或等于预设阔值;
[0009] 若是,则确认所述分词结果为关键词。
[0010] 为了解决上述技术问题,本发明提供了舆情监控系统,该系统包括:
[0011] 采集服务器,用于获取待处理的文本数据;
[0012] 处理服务器,与所述采集服务器连接,用于根据基础词典对所述文本数据进行分 词,所述基础词典包括预置范围的人名及地名;
[0013] 所述处理服务器,还用于判断分词结果与文本主题数据的相关度是否大于或等于 预设阔值;
[0014] 所述处理服务器,还用于若是,则确认所述分词结果为关键词。
[0015] 借由上述技术方案,本发明舆情监控系统至少具有下列优点:
[0016] 本发明提供一种舆情监控方法及系统,通过采集服务器获取待处理的文本数据, 处理服务器根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的 相关度是否大于或等于预设阔值,若是,则确认所述分词结果为关键词。与现有技术的关键 词提取及中文分词相比,本发明通过根据基础词典对文本数据进行分词,继而根据与文本 主题相关度的预置确认出关键词,并基于关键词对文本数据进行分析,使得文本W事件的 形式进行展示,提高了舆情监控中文处理效率和准确性。
[0017] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 并可依照说明书的内容予w实施,w下w本发明的较佳实施例并配合附图详细说明如后。
【附图说明】
[0018] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0019] 图1示出了本发明实施例提供的一种舆情监控方法的流程图;
[0020] 图2示出了本发明实施例提供的另一种舆情监控方法的流程图;
[0021] 图3示出了本发明实施例提供的一种舆情监控系统的结构示意图;
[0022] 图4示出了本发明实施例提供的另一种舆情监控系统的结构示意图。
【具体实施方式】
[0023] 面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的 示例性实施例,然而应当理解,可各种形式实现本公开而不应被运里阐述的实施例所 限制。相反,提供运些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完 整的传达给本领域的技术人员。
[0024] 本发明实施例提供的一种舆情监控方法,如图1所示,其中包括:
[00巧]101、获取待处理的文本数据。
[0026] 其中,所述获取待处理的文本数据来源包括新闻、论坛、博客,所述获取文本数据 的方法为爬虫爬取,W便于将爬取到的文本数据立刻进行处理,并保存在当前数据库中,W 便于可W对采集到的文本数据进行索引及数据管理。
[0027] 102、根据基础词典对所述文本数据进行分词。
[0028] 其中,所述基础词典包括预置范围的人名及地名,所述预置范围为包含网络、词典 及可W查询到的所有的人名和地名,所述分词为将一个汉字序列的句子切分成一个一个单 独的词语,即将连续的字序列按照一定的规范重新组合成词序列的过程,所述基础词典的 来源可W包含北京语言大学语料库、现代汉语词典第六版、英文缩写、网络新词、缩略语等 本发明实施例不做具体限定,即可W为基于所述词源采用统计学方法的分词器,所述语料 为按照标点符号集对文本数据进行句子分割。通过将爬取到的文本数据立刻进行分词处 理,从而实现舆情监控的实时处理及实时监控。
[0029] 103、判断分词结果与文本主题数据的相关度是否大于或等于预设阔值。
[0030] 其中,所述文本主题数据为文本的题目内容,所述相关度为分词结果中的词语与 题目分词结果中的词语相近度,所述相近度的阔值可W根据基础词典中的近义词及与所述 近义词相似程度进行设定,所述预设阔值可W为1/2、3Λ等,本发明实施例不做具体限定。
[0031] 104、若判断分词结果与文本主题数据的相关度大于或等于预设阔值,则确认所述 分词结果为关键词。
[0032] 其中,所述关键词用于表示文本数据,W便于利用关键词建立合理的文本数据的 向量空间模型。
[0033] 对于本发明实施例,所述舆情监控系统中提供的舆情分析技术可W为文本分类技 术、文本分类技术,可W通过向量空间模型计算文本数据之间的相似性。例如,给定一个文 档D(tl,wl ;t2,w2;…;tn,wn),其中,t为特征项(字、词或短语),w为特征项t的权重,那么上 述文档就可W看成是η维空间中的一个向量,其中,提取的关键词可W作为特征项。
[0034] 对于本发明实施例,具体的应用场景可W如下所示,但不限于此,包括:获取到一 篇题目为"幼儿园老师打小朋友"的文章,根据基础词典对文本进行分词,得到词语"幼儿 园"、"小朋友"、"淘气V'护'、"体罚"、"老师"、"家长"、"投保'等,判断出分词结果中"幼儿 园"、"小朋友"、"打"、"老师"与题目相似度等于相关度1,则"幼儿园"、"小朋友"、"打"、"老 师"为关键词。
[0035] 本发明提供一种舆情监控方法,通过获取待处理的文本数据,根据基础词典对所 述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设阔 值,若是,则确认所述分词结果为关键词。与现有技术的关键词提取及中文分词相比,本发 明通过根据基础词典对文本数据进行分词,继而根据与文本主题相关度的预置确认出关键 词,并基于关键词对文本数据进行分析,使得文本W事件的形式进行展示,提高了舆情监控 中文处理效率和准确性。
[0036] 本发明实施例提供的另一种舆情监控方法,如图2所示,其中包括:
[0037] 201、获取待处理的文本数据。
[0038] 其中,所述获取待处理的文本数据来源包括新闻、论坛、博客,所述获取文本数据 的方法为爬虫爬取,并将爬取到的文本数据保存在当前数据库中,W便于可W对采集到的 文本数据进行索引及数据管理。
[0039] 202、根据基础词典对所述文本数据进行分词。
[0040] 其中,所述基础词典包括预置范围的人名及地名,所述预置范围为包含网络、词典 及可W查询到的所有的人名和地名,所述分词为将一个汉字序列的句子切分成一个一个单 独的词语,即将连续的字序列按照一定的规范重新组合成词序列的过程,所述基础词典的 来源可W包含北京语言大学语料库、现代汉语词典第六版、英文缩写、网络新词、缩略语等 本发明实施例不做具体限定,即可W为基于所述词源采用统计学方法的分词器,所述语料 为按照标点符号集对文本数据进行句子分割。
[0041] 对于本发明实施例,步骤202具体可W为:根据预置统计算法计算所述分词结果中 人名和地名的成词阔值,提取成词阔值大于预设阔值的人名和地名。其中,所述预置统计算 法为数学计算中的统计算法与基础词典相结合的算法,所述成词阔值为单独的字或词组成 人名或地名的概率,所述预设阔值可W人为设定,本发明实施例不做具体限定。
[0042] 203、判断分词结果与文本主题数据的相关度是否大于或等于预设阔值。
[0043] 其中,所述文本主题数据为文本的题目内容,所述预设阔值可W为1/2、3/5等,本 发明实施例不做具体限定。
[0044] 204、若判断分词结果与文本主题数据的相关度大于或等于预设阔值,则确认所述 分词结果为关键词。
[0045] 其中,所述关键词用于表示文本数据,W便于利用关键词建立合理的文本数据的 向量空间模型。
[0046] 205、根据所述关键词对所述文本数据进行处理分析。
[0047] 其中,所述对所述文本数据进行分析可W包括文本自动摘要、文本情感分析、文本 自动分类、事件发现、热点事件评估、事件追踪、事件关联、事件短标题、数据统计、可视化处 理。所述热点事件评估通过对热点事件建立评估模型,对聚类生成的事件进行评分排序,w 便向用户展示焦点事件。所述事件追踪可W根据社会发生的事件发展趋势随时间的推移而 不断变化,用于挖掘事件发展的脉络和走势。所述事件关联通过扩展监测范围,W便于向用 户展现、归纳与事件相关的一系列事件。所述事件短标题用于为用户展现事件的核屯、内容, 从而实现对事件标题的缩减和概括。所述数据统计包括统计事件信息、相关媒体、报道量、 正负情感比例等。所述可视化处理为将处理后的文本数据进行展示处理,用W向用户展示 多元化的文本数据。通过关键词对文本数据进行处理分析,实现为用户提供不同功能特征 的文本数据,从而提高舆情监控的处理效率。
[0048] 其中,所述文本自动摘要可W为利用计算机实现本文预处理、语义分析,生成摘要 性本文的自动提取技术,摘要字数控制在150字W内,W便于在用户查看事件详情时,显示 所述事件的所有相关报道内容。文本自动摘要具体可W为:对文本数据进行分词、分句,然 后根据句子间聚类对文本数据进行冗余处理,再根据句子权重计算识别文本数据的重要信 息,最后整合文本摘要。其中,所述冗余信息的识别方法为计算句子间的相似性,所述重要 信息的识别方法为在生成的每个聚类的类簇结果中,选出每个类中最有代表性的句子,W 便于表达运个类别的主要信息。由于句子是由一系列有意义的词语组合而成,因此衡量句 子的重要程度,可W转化为计算句子中包含关键词语数量的程度。所述文摘整合为选取重 要句子按照原文章的位置结构进行整合,同时考虑字数限制。所述句子间聚类方法可W计 算句子的相似度,包括两个句子中的词相似、句子间的词序相似、句子长度相似,相似度函 数为:
[0049]
[0050] 句子权重计算公式为
, 所述句子整合为将每组句子类簇的代表句子按句子的权值排序,按文本原有结构进行整 合,整合的过程中考虑字数限制来进行删减。
[0051] 对于本发明实施例,步骤205具体可W为:根据所述基础词典提取所述分词结果中 具有情感色彩的词语;根据情感词语确认所述词语的情感极性,所述情感极性包括正向、负 向、中立,W便于计算文本数据的情感极性。其中,情感分析处理具体可W为:首先对文本数 据进行语料处理,根据通用情感词典对语料进行分词,提取出包含情感词语的句子,然后根 据程度词词典、情感词词典和否定词词典对提取的句子进行配置情感极性,W便生成带有 情感极性的文本数据,对文本数据进行可视化处理,用于为用户提供带有情感标签的文本。 所述情感词典具体可W为:根据正、负向情感词集合并去重后生成基础词集,然后通过过滤 提取高频情感词集,添加网络情感词集后合成最终的通用情感词集。通过对文本数据进行 感情极性的判别,便于用户根据喜好来捜索相关文本数据,从而达到舆情监控的目的。
[0052] 其中,所述文本自动分类可W预先设定类别,也可W人为参与分类,分类体系包 括:环保、反腐、食品、药品、医疗、经济物价、住房、教育、市政市容、交通、公安、国家安全、司 法、计生,所述一个文本数据可同时属于多个分类类别,本发明不做具体限定。例如,新闻报 道"山东招远杀人案犯罪嫌疑人被逮捕"既可W划分到类别"公安",也可W划分到类别"司 法"中。所述分类方法具体可W为:首先收集已制定的分类文本数据的语料,利用机器自动 提取所有类别的关键词集,为了提高分类效果,加入人工参与的方法,修正类别关键词集, 并建立相应的类别模型。在对目标文本数据进行自动分类过程中,首先对目标文本数据进 行关键词提取,然后对文本数据建立可与分类模型进行计算的向量空间模型,将目标文本 数据与所有已知分类模型进行相似度比较,继而分配类别标签。例如,类别C,提取C中所有 样本语料的关键词集,利用卡方(X2)统计的方法计算候选关键词集与已知分类的关系,过 滤和修剪候选词集,提取类别C1的代表词集。所述卡方(X2)统计方法为假设词汇t与类别C 之间统计独立,计算真实与假设的偏差,偏差的大小可W判别假设是否成立,若计算结果的 偏差大,则认为假设不成立,即t与类别C不独立,就是t与C密切相关,可W用t作为C的关键 词。计算公式为
[0化3]
[0054] 其中,A、B、C、D为文档数,A为属于类别Ci且包含词汇t的文档数目,B为不属于类别 Ci且包含词汇t的文档数,C为属于类别Ci但不包含词汇t的文档数,D为不属于类别Ci且也 不包含词汇t的文档数,N为总的文档数。通过对文本数据信息分类,便于用户对同类信息的 查找,便于用户根据类别喜好选择所关注的内容。
[0055] 对于本发明实施例,所述相似度计算采用余弦距离与文本向量空间模型相结合。 文本向量空间模型为将文本映射成一个多维向量,用运个向量代表文本。如果两个向量相 似,则对应的文本相似。向量实际上是多维空间中有方向的线段。如果两个向量的方向一 致,即夹角接近零,那么运两个向量就相近。而要确定两个向量方向是否一致,则计算余弦 定理计算向量的夹角,具体公式如下:
[0化6]
[0057]其中,分子为两个向量内积,分母为两个向量长度的乘积,Vl=(Xl,X2,...,Xn),V2 = (yi,y2,. . .,yn)可W转换为:
[0化引
[0059]对于本发明实施例,步骤205具体可W为:为文本数据配置文本分类类别;当文本 数据中存在与所述类别对应的事件中的关键词匹配的关键词时,则判断所述文本数据中的 关键词个数是否大于与所述类别对应事件的关键词个数;若是,则根据预置算法计算所述 文本数据与所述事件的距离阔值;若所述距离阔值小于所述类别对应事件的距离阔值,贝U 确认文本数据为对应的事件。其中,所述事件若不属于所述分类下的事件,则创建一个新的 事件。其中,所述文本数据中存在与所述类别对应事件中的关键词匹配的关键词为文本数 据中的关键词与对应事件中的关键词存在交集,所述距离阔值通过上述余弦定理计算。其 中,所述距离阔值设定的越小代表文本数据与对应的事件关系越近,W此可W确认文本数 据属于对应事件,所述事件发现具体还用于数据事件化、事件展现、事件表述、事件具备跟 踪追加机制、事件需要进行情感分析等。其中,所述事件化为存储在数据库中的文本数据按 照已建立的分类体系形成事件,所述事件展现为系统向用户展现事件及包含的所有文章, 所述事件描述包括事件标题、事件关键词及其他统计信息,所述事件具备跟踪追加机制为 预留事件关联和事件追踪的功能,所述事件需要进行情感分析为事件包含的所有文本数据 需要进行正负面情感极性的判别。通过对文本数据分类确定文本类别标签;对同一类别下 的文本进行聚类形成多个不同事件,实现基于社会发生事件的文本数据显示,从而提高舆 情监控智能性及准确性。
[0060] 206、接收用户请求展示指令,所述用户请求展示指令携带有展示信息。
[0061] 其中,所述用户请求展示指令可W通过用户触发舆情监控系统中的按钮进行操 作,所述展示信息包含展示舆情焦点、监测追踪、捜索,所述舆情焦点还包括焦点事件、热词 榜、分类等,所述监测追踪包括事件导读、事件脉络、关联阅读、统计信息等,所述捜索包括 事件捜索和其他捜索。
[0062] 207、向用户展示与所述展示信息对应的处理分析结果。
[0063] 其中,根据用户请求展示指令中过携带的展示信息向用户展示与展示信息对应的 文本数据。通过向用户发送不同展示信息对应的文本数据,实现展示文本数据的多样性,从 而提高舆情监控的处理效率。
[0064] 对于本发明实施例,具体的应用场景可W如下所示,但不限于此,包括:获取到一 篇题目为"幼儿园老师打小朋友"的文本,根据基础词典对文本进行分词,得到词语"幼儿 园"、"小朋友"、"淘气V'护'、"体罚"、"老师"、"家长"、"投保'等,判断出分词结果中"幼儿 园"、"小朋友"、"打"、"老师"与题目相似度等于相关度1,则"幼儿园"、"小朋友"、"打"、"老 师"为关键词,根据关键词生成摘要,根据文本数据中"投诉"等情感词语为文本标注为负面 情感,为文本分类为教育及司法,当用户触发舆情监控系统中的教育分类中的负面新闻时, 向用户展示"幼儿园老师打小朋友"的文本在摘要及关键词,若用户触发"幼儿园老师打小 朋友"标题,则通过索引向用户展示全文。
[0065] 本发明提供另一种舆情监控方法,通过获取待处理的文本数据,根据基础词典对 所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度是否大于或等于预设 阔值,若是,则确认所述分词结果为关键词。与现有技术的关键词提取及中文分词相比,本 发明通过根据基础词典对文本数据进行分词,继而根据与文本主题相关度的预置确认出关 键词,并基于关键词对文本数据进行分析,使得文本W事件的形式进行展示,提高了舆情监 控中文处理效率和准确性。
[0066] 进一步地,作为图1所示方法的具体实现,本发明实施例提供一种舆情监控系统, 如图3所示,所述系统可W包括:采集服务器31、处理服务器32。
[0067] 采集服务器31,用于获取待处理的文本数据;
[0068] 处理服务器32,与所述采集服务器连接,用于根据基础词典对所述文本数据进行 分词,所述词典包括预置范围的人名及地名;
[0069] 所述处理服务器32,还用于判断分词结果与文本主题数据的相关度是否大于或等 于预设阔值;
[0070] 所述处理服务器32,还用于若是,则确认所述分词结果为关键词。
[0071] 本发明提供一种舆情监控系统,通过采集服务器获取待处理的文本数据,处理服 务器根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关度 是否大于或等于预设阔值,若是,则确认所述分词结果为关键词。与现有技术的关键词提取 及中文分词相比,本发明通过根据基础词典对文本数据进行分词,继而根据与文本主题相 关度的预置确认出关键词,并基于关键词对文本数据进行分析,使得文本w事件的形式进 行展示,提高了舆情监控中文处理效率和准确性。
[0072] 进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种舆情监控系 统,如图4所示,所述系统可W包括:采集服务器41、处理服务器42、显示服务器43。
[0073] 采集服务器41,用于获取待处理的文本数据;
[0074] 处理服务器42,与所述采集服务器连接,用于根据基础词典对所述文本数据进行 分词,所述基础词典包括预置范围的人名及地名;
[0075] 所述处理服务器42,还用于判断分词结果与文本主题数据的相关度是否大于或等 于预设阔值;
[0076] 所述处理服务器42,还用于若是,则确认所述分词结果为关键词。
[0077] 所述处理服务器42,具体用于根据预置统计算法计算所述分词结果中人名和地名 的成词阔值.
[0078] 所述处理服务器42,具体还用于提取成词阔值大于预设阔值的人名和地名。
[0079] 所述处理服务器42,还用于根据所述关键词对所述文本数据进行处理分析。
[0080] 进一步地,所述系统包括:
[0081] 显示服务器43,与所述处理服务器连接,用于接收用户请求展示指令,所述用户请 求展示指令携带有展示信息;
[0082] 所述显示服务器43,还用于向用户展示与所述展示信息对应的处理分析结果。
[0083] 进一步地,所述处理服务器42包括:
[0084] 文本情感分析模块4201,用于提取所述分词结果中具有情感色彩的词语;
[0085] 所述文本情感分析模块4201,还用于根据情感词典确认所述词语的情感极性,所 述情感极性包括正向、负向、中立,W便于计算文本数据信息的情感极性。
[00化]进一步地,所述处理服务器42还包括:
[0087] 事件发现模块4202,用于为文本数据信息配置文本分类类别;
[0088] 所述事件发现模块4202,还用于当文本数据中存在与所述类别对应事件中的关键 词匹配的关键词时,则判断所述文本数据信息的关键词是否大于与所述类别对应事件的关 键词个数;
[0089] 所述事件发现模块4202,还用于若是,则根据预置算法计算所述文本数据信息与 所述事件的距离阔值;
[0090] 所述事件发现模块4202,还用于若所述距离阔值小于所述类别对应的事件的距离 阔值,则确认文本数据信息为对应的事件。
[0091] 本发明提供另一种舆情监控系统,通过采集服务器获取待处理的文本数据,处理 服务器根据基础词典对所述文本数据进行分词,然后判断分词结果与文本主题数据的相关 度是否大于或等于预设阔值,若是,则确认所述分词结果为关键词。与现有技术的关键词提 取及中文分词相比,本发明通过根据基础词典对文本数据进行分词,继而根据与文本主题 相关度的预置确认出关键词,并基于关键词对文本数据进行分析,使得文本W事件的形式 进行展示,提高了舆情监控中文处理效率和准确性。
[0092] W上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依 据本发明的技术实质对W上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发 明技术方案的范围内。
【主权项】
1. 一种舆情监控方法,其特征在于,所述系统包括: 获取待处理的文本数据; 根据基础词典对所述文本数据进行分词,所述基础词典包括预置范围的人名及地名; 判断分词结果与文本主题数据的相关度是否大于或等于预设阈值; 若是,则确认所述分词结果为关键词。2. 根据权利要求1所述的舆情监控方法,其特征在于,所述根据基础词典对所述文本数 据进行分词,包括: 根据预置统计算法计算所述分词结果中人名和地名的成词阈值; 提取成词阈值大于预设阈值的人名和地名。3. 根据权利要求1所述的舆情监控方法,其特征在于,所述若是,则确认所述分词结果 为关键词之后,所述方法还包括: 根据所述关键词对所述文本数据进行处理分析。4. 根据权利要求3所述的舆情监控方法,其特征在于,根据所述关键词对所述文本数据 进行处理分析之后,所述方法还包括: 接收用户请求展示指令,所述用户请求展示指令携带有展示信息; 向用户展示与所述展示信息对应的处理分析结果。5. 根据权利要求3所述的舆情监控方法,其特征在于,根据所述关键词对所述文本数据 进行处理分析包括: 根据所述基础词典提取所述分词结果中具有情感色彩的词语; 根据情感词语确认所述词语的情感极性,所述情感极性包括正向、负向、中立,以便于 计算文本数据的情感极性。6. 根据权利要求3所述的舆情监控方法,其特征在于,根据所述关键词对所述文本数据 进行处理分析包括: 为文本数据配置文本分类类别; 当文本数据中存在与所述类别对应事件中的关键词匹配的关键词时,则判断所述文本 数据中的关键词个数是否大于与所述类别对应事件的关键词个数; 若是,则根据预置算法计算所述文本数据与所述事件的距离阈值; 若所述距离阈值小于所述类别对应事件的距离阈值,则确认文本数据为对应的事件。7. -种舆情监控系统,其特征在于,所述系统包括: 采集服务器,用于获取待处理的文本数据; 处理服务器,与所述采集服务器连接,用于根据基础词典对所述文本数据进行分词,所 述基础词典包括预置范围的人名及地名; 所述处理服务器,还用于判断分词结果与文本主题数据的相关度是否大于或等于预设 阈值; 所述处理服务器,还用于若是,则确认所述分词结果为关键词。8. 根据权利要求7所述的舆情监控系统,其特征在于, 所述处理服务器,具体用于根据预置统计算法计算所述分词结果中人名和地名的成词 阈值; 所述处理服务器,具体还用于提取成词阈值大于预设阈值的人名和地名。9. 根据权利要求7所述的舆情监控系统,其特征在于, 所述处理服务器,还用于根据所述关键词对所述文本数据进行处理分析。10. 根据权利要求9所述的舆情监控系统,其特征在于,所述系统还包括:显示服务器, 所述显示服务器,与所述处理服务器连接,用于接收用户请求展示指令,所述用户请求 展示指令携带有展示信息; 所述显示服务器,还用于向用户展示与所述展示信息对应的处理分析结果。11. 根据权利要求9所述的舆情监控系统,其特征在于,所述处理服务器包括; 文本情感分析模块,用于提取所述分词结果中具有情感色彩的词语; 所述文本情感分析模块,还用于根据情感词典确认所述词语的情感极性,所述情感极 性包括正向、负向、中立,以便于计算文本数据信息的情感极性。12. 根据权利要求9所述的舆情监控系统,其特征在于,所述处理服务器包括; 事件发现模块,用于为文本数据信息配置文本分类类别; 所述事件发现模块,还用于当文本数据中存在与所述类别对应事件中的关键词匹配的 关键词时,则判断所述文本数据信息的关键词是否大于与所述类别对应事件的关键词个 数; 所述事件发现模块,还用于若是,则根据预置算法计算所述文本数据信息与所述事件 的距离阈值; 所述事件发现模块,还用于若所述距离阈值小于所述类别对应事件的距离阈值,则确 认文本数据信息为对应的事件。
【文档编号】G06F17/27GK105824959SQ201610201194
【公开日】2016年8月3日
【申请日】2016年3月31日
【发明人】郭洪韬, 龚承亮, 陈道新, 董利钢, 聂欣慧, 赵振川
【申请人】首都信息发展股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1