通过计算机实现的信息处理方法及装置的制造方法

文档序号:9235519阅读:401来源:国知局
通过计算机实现的信息处理方法及装置的制造方法
【技术领域】
[0001] 本发明设及计算机技术领域,尤其设及一种针对文本内容的信息处理方法及装 置。
【背景技术】
[0002] 当前,网络上的信息数量庞大,且来源丰富。W新闻文章为例,用户从各种信息源 可获得大量的新闻,在用户非常关屯、某些区域相关的新闻的情况下,如何将与用户关屯、的 地域相关的新闻推荐给用户,是一个急需解决的技术难题。
[0003] 现有技术中,采用与预先建立的地理信息知识库进行关键词匹配的方法提取文章 的至少一个候选地理信息及对应的计数结果,将计数结果较高的候选地理信息作为所述文 章的地理信息,根据文章的地理信息为用户推荐与地域相关的文章。
[0004] 在实现上述提取文章的地理信息的过程中,会发生将高级地理信息和低级地理信 息(例如广东省和深圳市)混合计算的情况,导致提取的文章的地理信息不准确。此外,无 法提取文章中隐含的地理信息,例如当文章中出现"海淀区"时,其隐含的地理信息"北京 市"无法被提取出来,导致提取的文章的地理信息不准确。

【发明内容】

[0005] 本发明的目的在于提供一种通过计算机实现的信息处理方法及装置,W较准确的 提取与文章内容相关的分级地理信息。
[0006] 根据本发明的一方面,本发明提供一种通过计算机实现的信息处理方法,所述方 法包括:获取文章的文本信息;从所述文本信息提取至少一个原始地理名词;从预先建立 的分级地理信息知识库分别提取与所述原始地理名词相应的分级地理位置信息,所述分级 地理位置信息包括与所述原始地理名词相匹配的同级地理名词W及其所属的各行政划分 级别的上级地理名词;根据提取的所述原始地理名词W及所述分级地理位置信息分别对提 取的所述分级地理位置信息进行可信度评分;将所述可信度评分超过预定的可信度阔值的 分级地理位置信息标注为与所述文章相关的地理信息。
[0007] 优选地,所述根据提取的所述原始地理名词W及所述分级地理位置信息分别对提 取的所述分级地理位置信息进行可信度评分的处理包括:根据提取的所述原始地理名词W 及所述分级地理位置信息分别从提取的所述分级地理位置信息获取至少两个地理名词评 定指标的值;根据获取的所述至少两个地理名词评定指标的值分别对提取的所述分级地理 位置信息进行可信度评分。
[000引进一步地,所述地理名词评定指标包括;提取的所述同级地理名词的行政划分级 别W及多个所述同级地理名词所属的各行政划分级别的上级地理名词的重合度。
[0009] 优选地,所述从预先建立的分级地理信息知识库分别提取与所述原始地理名词相 应的分级地理位置信息的处理包括:根据预先建立的地理信息简称全称映射表从所述预先 建立的分级地理信息知识库分别提取与所述原始地理名词相应的分级地理位置信息。
[0010] 可选地,所述地理名词评定指标还包括提取的所述同级地理名词对应的原始地理 名词的简称全称完整度。
[0011] 可选地,所述地理名词评定指标还包括提取的所述同级地理名词对应的原始地理 名词的提取位置。
[0012] 进一步地,所述文本信息包括所述文章的标题和正文;所述原始地理名词的提取 位置包括至少一个W下位置:所述标题、所述正文的开头、所述正文的结尾和所述正文除开 头和结尾外的其余部分。
[0013] 可选地,所述地理名词评定指标还包括提取的同级地理名词对应的原始地理名词 的出现次数。
[0014] 优选地,所述根据获取的所述至少两个地理名词评定指标的值分别对提取的所述 分级地理位置信息进行可信度评分的处理包括;根据所述至少两个地理名词评定指标的值 分别为提取的所述同级地理名词赋予权值;根据为提取的所述同级地理名词赋予的权值分 别对所述同级地理名词对应的分级地理位置信息进行可信度评分。
[0015] 根据本发明的另一方面,本发明还提供一种用于信息处理的装置,所述装置包括: 文本信息获取单元,用于获取文章的文本信息;原始地理名词提取单元,用于从所述文本信 息提取至少一个原始地理名词;分级地理位置信息提取单元,用于从预先建立的分级地理 信息知识库分别提取与所述原始地理名词相应的分级地理位置信息,所述分级地理位置信 息包括与所述原始地理名词相匹配的同级地理名词W及其所属的各行政划分级别的上级 地理名词;可信度评分单元,用于根据提取的所述原始地理名词W及所述分级地理位置信 息分别对提取的所述分级地理位置信息进行可信度评分;地理信息标注单元,用于将所述 可信度评分超过预定的可信度阔值的分级地理位置信息标注为与所述文章相关的地理信 息。
[0016] 优选地,所述可信度评分单元包括:地理名词评定指标值获取单元,用于根据提取 的所述原始地理名词W及所述分级地理位置信息分别从提取的所述分级地理位置信息获 取至少两个地理名词评定指标的值;可信度评分子单元,用于根据获取的所述至少两个地 理名词评定指标的值分别对提取的所述分级地理位置信息进行可信度评分。
[0017] 进一步地,所述地理名词评定指标包括;提取的所述同级地理名词的行政划分级 别W及多个所述同级地理名词所属的各行政划分级别的上级地理名词的重合度。
[0018] 优选地,所述分级地理位置信息提取单元包括;分级地理位置信息提取子单元,用 于根据预先建立的地理信息简称全称映射表从所述预先建立的分级地理信息知识库分别 提取与所述原始地理名词相应的分级地理位置信息。
[0019] 可选地,所述地理名词评定指标还包括提取的所述同级地理名词对应的原始地理 名词的简称全称完整度。
[0020] 可选地,所述地理名词评定指标还包括提取的所述同级地理名词对应的原始地理 名词的提取位置。
[0021] 进一步地,所述文本信息包括所述文章的标题和正文;所述原始地理名词的提取 位置包括至少一个W下位置:所述标题、所述正文的开头、所述正文的结尾和所述正文除开 头和结尾外的其余部分。
[0022] 可选地,所述地理名词评定指标还包括提取的同级地理名词对应的原始地理名词 的出现次数。
[0023] 优选地,所述可信度评分子单元包括;权值赋值模块,用于根据所述至少两个地理 名词评定指标的值分别为提取的所述同级地理名词赋予权值;可信度评分模块,用于根据 为提取的所述同级地理名词赋予的权值分别对所述同级地理名词对应的分级地理位置信 息进行可信度评分。
[0024] 本发明提供的通过计算机实现的信息处理方法及装置,从分级地理信息知识库提 取与文章的文本信息中的原始地理名词相应的分级地理位置信息,并对所述分级地理位置 信息进行可信度评分,将可信度评分超过预定的可信度阔值的分级地理位置信息标注为与 所述文章相关的地理信息。由于在处理过程中考虑了地理位置信息的行政划分级别,且获 取与提取的原始地理名词相对应的同级地理名词W及各上级地理名词,因此可较准确地获 取到与文章内容相关的地理信息,并且获取的地理信息是较完整的包括各行政级别的地理 信息。
【附图说明】
[0025] 图1是示出本发明示例性实施例通过计算机实现的信息处理方法的流程示意图;
[0026] 图2是示出在信息系统中基于地理位置的文章推荐页面示意图;
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1