文本涉及地分析方法及其系统的制作方法

文档序号：9844093阅读：576来源：国知局

文本涉及地分析方法及其系统的制作方法
【技术领域】
[0001] 本发明涉及文本分析领域，尤其涉及一种文本涉及地分析方法及其系统。
【背景技术】
[0002] 随着网络技术的发展和用户数量的不断增长，网络中产生的数据正经历爆炸式的增长，这对网络数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术，通过相应的技术和方法对文本的语义内容进行分析，归类等一系列操作，主要用于商品推荐，舆情分析，文本搜索等领域。
[0003] 在舆情分析中，需要对网络中舆情在不同的主题下进行整理和分析，例如不同地域存在的舆情热点和发展趋势。为此，对于发帖内容中所涉及的地域信息进行抽取和判断是舆情分析中一个相对重要的环节。
[0004] 在地域判断这一个环节中，已存在的技术在通过分词技术提取地域相关名词后，主要通过在地域区划数据查找匹配来判断文本内容的地域属性。
[0005] 基于区划数据库的方法直观、易实现。然而，该方法的效果却不理想，而且依赖文本中存在对应的地区名称。现实中，网络发帖文本中往往不直接提及区划地域名称，通常只出现一些街道、地标;而同一街道或地标名称可能对应了多个城市。在这种情况下，该方法无法提取和判断文本的地域属性。
[0006] 在大数据和知识图谱的发展背景下，文本分析有新的研究方向和技术。例如通过知识图谱来对文本进行分析能够取得更好的效果。但由于知识图谱相关技术和应用仍存在效率和易用性上的问题，在实际应用中未被广泛应用。
[0007] 在申请号为201210581448.8的公开文件中，提出了一种文本分析方法及文本分析器，所述方法包括:对获取的文本以字符为单位进行切分处理，对切分得到的字符按照预先设置的字符特征进行特征标注，形成特征字串；按照预先构建的分词模型，对特征字串进行分词处理，得到包含字序的分词结果;根据分词结果中的字序进行合并处理，对合并得到的词按照预先设置的字符特征进行特征标注，形成特征词串；根据预先构建的词性标注模型，对特征词串进行词性标注，得到词性标注结果;确认词性标注结果中包含实体词词性标注，则按照相邻相同规则，合并词性标注结果中包含实体词词性标注的实体词，得到文本分析结果。但该方法主要分析文本中的实体词，无法分析文本的涉及地。

【发明内容】

[0008] 本发明所要解决的技术问题是:提供一种文本涉及地分析方法及其系统，可对文本内容进行分析判断，获取文本属地。
[0009] 为了解决上述技术问题，本发明采用的技术方案为:一种文本涉及地分析方法，包括
[0010] 提取文本的地域相关名词；
[0011] 将所述地域相关名词进行地域匹配，得到包含文本涉及地的地域区划列表；
[0012] 计算所述地域相关名词在所述文本中的词频概率，确定所述地域区划列表中对应的文本涉及地的第一概率；
[0013] 计算所述地域相关名词及其对应的文本涉及地的语义相关度;根据所述语义相关度，获取所述文本涉及地的语义概率；
[0014] 获取所述文本所在版块的统计信息或发布人的统计信息;分别获取所述文本涉及地在所述统计信息中的历史概率;根据所述历史概率，获取所述文本涉及地的第二概率；
[0015] 根据所述第一概率、语义概率和第二概率，获取所述文本涉及地的综合概率；
[0016] 若所述综合概率大于等于第一预设阈值，则判定所述文本涉及地为所述文本的属地;将所述文本涉及地添加至所述文本的地域属性标签。
[0017] 本发明还涉及一种文本涉及地分析系统，包括
[0018] 提取模块，用于提取文本的地域相关名词；
[0019] 匹配模块，用于将所述地域相关名词进行地域匹配，得到包含文本涉及地的地域区划列表；
[0020] 第一确定模块，用于计算所述地域相关名词在所述文本中的词频概率，确定所述地域区划列表中对应的文本涉及地的第一概率；
[0021] 第一计算模块，用于计算所述地域相关名词及其对应的文本涉及地的语义相关度；
[0022] 第一获取模块，用于根据所述语义相关度，获取所述文本涉及地的语义概率；
[0023] 第二获取模块，用于获取所述文本所在版块的统计信息或发布人的统计信息；
[0024] 第三获取模块，用于分别获取所述文本涉及地在所述统计信息中的历史概率
[0025] 第四获取模块，用于根据所述历史概率，获取所述文本涉及地的第二概率；
[0026] 第五获取模块，用于根据所述第一概率、语义概率和第二概率，获取所述文本涉及地的综合概率；
[0027] 第一判定模块，用于若所述综合概率大于等于第一预设阈值，则判定所述文本涉及地为所述文本的属地；
[0028] 第一添加模块，用于将所述文本涉及地添加至所述文本的地域属性标签。
[0029] 本发明的有益效果在于:对文本所在版块和发布人进行涉及地信息的统计，并将所述统计信息应用于文本的地域判断，所述统计信息能够有效地反映所述版本或人物的地域偏好特性，从而更有效地辅助判断文本的地域属性，提高地域分析判断的准确性;对地域相关名词和涉及地进行语义关联计算，并将所述关联度用于地域判断，通过对包含第一概率、语义概率和第二概率的综合概率进行分析，进一步提高了地域分析判断的准确性。
【附图说明】
[0030] 图1为本发明一种文本涉及地分析方法的流程图；
[0031 ]图2为本发明实施例一的方法流程图；
[0032]图3为本发明实施例二的方法流程图；
[0033]图4为本发明一种文本涉及地分析系统的结构示意图；
[0034] 图5为本发明实施例三的系统结构示意图；
[0035] 图6为本发明实施例四的系统结构示意图。
[0036] 标号说明：
[0037] 1、提取模块;2、匹配模块;3、第一确定模块;4、第一计算模块;5、第一获取模块;6、第二获取模块;7、第三获取模块;8、第四获取模块;9、第五获取模块;10、第一判定模块;11、第一添加模块；12、第二添加模块；13、更新模块；14、第二确定模块；15、第三确定模块；16、关联模块;17、第一判断模块;18、第二判定模块;19、第二判断模块;20、修改模块。
【具体实施方式】
[0038]为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图详予说明。
[0039]本发明最关键的构思在于:依据文本所在版块属地和发布人属地进行涉及地信息的统计，并将统计信息应用于文本的地域判断中。
[0040] 请参阅图1，一种文本涉及地分析方法，包括
[0041] 提取文本的地域相关名词；
[0042] 将所述地域相关名词进行地域匹配，得到包含文本涉及地的地域区划列表；
[0043] 计算所述地域相关名词在所述文本中的词频概率，确定所述地域区划列表中对应的文本涉及地的第一概率；
[0044] 计算所述地域相关名词及其对应的文

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晟;栾江霞;王备战;章正道;
技术所有人：厦门市美亚柏科信息股份有限公司;
我是此专利的发明人

上一篇：一种针对gis数据的建模方法
上一篇：用于确定中心词的机器学习算法的生成方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。