一种基于地理特征层次分词的新闻事件地名地址匹配方法

文档序号:9646619阅读:440来源:国知局
一种基于地理特征层次分词的新闻事件地名地址匹配方法
【技术领域】
[0001] 本发明涉及一种地名地址数据匹配方法,特别涉及一种基于地理特征层次分词的 新闻事件地名地址匹配方法。
【背景技术】
[0002] 在现实的世界中,人们可以通过多种方式和渠道来获取自己感兴趣的重要信 息一一新闻事件,比如手机、电脑等电子工具,或报纸、电视等媒体工具。新闻事件也叫"消 息",指对国内外新近发生的具有一定社会价值的人和事实的简要而迅速的报道。
[0003] 传统方式中,人们主要是通过阅读获取新闻事件的文字描述或图片场景以了解新 闻,但是这种方式缺乏现场直观形象、缺少地理位置理解和缺失周边环境掌握,因此是一种 匮乏信息的新闻获取方式。

【发明内容】

[0004] 为了解决上述技术问题,本发明提供一种能实现网络在线环境新闻事件文本快速 抓取、新闻文本中文分词及地名地址匹配的基于地理特征层次分词的新闻事件地名地址匹 配方法。
[0005] 本发明解决上述问题的技术方案是:一种基于地理特征层次分词的新闻事件地名 地址匹配方法,包括以下步骤:
[0006] (1)构建中文分词数据库、地名地址数据库和地理特征词数据库;
[0007] (2)输入网络在线新闻事件的网址链接或文字数据;
[0008] (3)从输入的网址链接或文字数据中获取新闻事件信息文字,整合新闻事件信息 文字,形成新闻事件中文段落;
[0009] (4)确定新闻事件中文段落的地理特征词及其段落位置;
[0010] (5)在地理特征词的段落位置处利用正向和逆向中文最大匹配算法得到各个中文 分词;
[0011] (6)对各个中文分词进行地名地址数据匹配与关联判断,直至新闻事件中文段落 的所有字符串都处理完毕;
[0012] (7)将所有已经成功匹配的新闻事件中文分词进行位置关联,实现地名地址编码, 确定地理坐标位置。
[0013] 上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(1)中,应 用中文词典的单词组合粒度缩减/扩增方法建立中文分词数据库DB1;结合全国省、市、县、 社区街道或村组地址建立地名地址数据库DB2 ;根据地理关联程度的大小和地理语义相似 度的度量,建立地理特征词数据库DB3。
[0014] 上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(1)中地理 特征词数据库DB3的具体建立步骤为:针对某一单词word,其属于DB3的概率设定为P,建 立地理关联程度和语义相似度量模型:
[0015]p(wordeDB3Iη')=l_e (α+p*n )①
[0016] 其中n'表示在总数为n次的中文词组地理语义关联实验中,word属于表达地理空 间位置相关词组的个数;α和β表示与η'有关的未知参数,p(wordeDB3 |n')即为word 在观测η次地理空间位置关联个数η'时,word属于地理特征词数据库DB3的概率;
[0017] 其中未知数α和β根据最大似然估计求出,用观测估计值代替 p(wordeDB3 |η'),word的地理关联程度和语义相似度量模型变成:
[0019] 其中在.和|是未知数α和β的相应观测估计值,GΖ)δ3丨/〇则为word在 观测η次地理空间位置关联个数η'时,word单词属于地理特征词数据库的概率估计值,依 此最终确定地理特征词数据库。其中S和#的具体计算是先验知识反演过程,即针对某一个 特定word,通过多次实际文本中word与地理空间位置关联的统计数据,得到一系列的已知 实际观测的η、η'与/3(uwt/GZ)53 |;;)值,通过最小二乘法即可拟合出公式②中word对 应的a和4具体值;
[0020] 根据公式②求取的word地理关联程度与语义相似度量计算概率,设定η'值为 20(此值为满足需求的经验值,数值越大地理关联性也就越强)时,以确定word是否是地理 特征词:
[0022] 由公式③即可构建形成地理特征词数据库DB3。
[0023] 上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(3)中,从 输入的网址链接获取新闻事件描述信息,按网页格式转换为文本中文字符串,去掉网页的 图片、HTNL标识、脚本语言、CSS样式,整合新闻事件描述信息文本,按照字符串正则匹配提 取中文,形成输入新闻事件的中文段落PA。
[0024] 上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(4)中,针 对新闻事件中文段落PA,结合地理特征词数据库DB3,应用哈希字符连接匹配方法,得到中 文段落PA中存在的地理特征词wordi及其相应的段落位置DLi。
[0025] 上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(5)中,在 新闻事件中文段落PA位置DLi处标记分割符,将中文段落PA地理特征词所在段落DLi划 分为m个分段落PAi,在每个分段落PAi中,以中文分词数据库DB1为基础,分别利用正向和 逆向中文最大匹配算法进行扫描,扫描步骤如下:
[0026] 第一次扫描,从某个分段落PAi中正向和逆向选择DB1中最长词个数nil的字符 串strll,将字符串strll与DB1中nil个数词组匹配,若有匹配,则将字符串strll作为 一个中文分词CWh存储,PAi中舍掉字符串strll,继续选择个数nil的字符串strll 与下次扫描匹配;若不匹配,则将字符串strll顺序减去一个字符,构建nl2个数的字符串 strl2参与下次扫描匹配,nl2 =nll-Ι;
[0027] 第二次扫描,若存在待匹配字符串strlh,则将字符串^^^与DB1中nil个数 的词组匹配,若有匹配,则将字符串strlli作为一个中文分词CWi2存储,PAi中再次舍掉字 符串strlli,继续选择个数nil的字符串strll2参与下次扫描匹配,若不匹配,则将字符串 strlli顺序减去一个字符,构建nl2个数的字符串strl2i参与下次扫描匹配;若存在带匹 配字符串strl2,则将字符串strl2与DB1中nl2个数的词组匹配,若有匹配,则将字符串 strl2作为一个中文分词CWi2存储,PAi中再次舍掉字符串strl2,继续选择个数nil的字 符串strll2参与下次扫描匹配,若不匹配,则将字符串strl2顺序减去一个字符,构建nl3 个数的字符串strUi参与下次扫描匹配,nl3 =nl2-l;
[0028] 第三次扫描时,将上次扫描构成字符串8廿112或strl2i分别作为新的待匹配字符 串,重复执行上述前两次扫描匹配过程;扫描中同时执行正向和逆向扫描过程直到分段落 PAi的中文分词全部进行划分和提取时结束;在分段落PAi的正向和逆向扫描相邻接的部 分,可能存在不同的中文分词结果,则不同的分词结果都需要进行存储记录;
[0029] 重复执行上述扫描匹配过程,直到同时执行正向和逆向扫描过程,将每个分段落 PAi的中文分词正好全部进行划分和提取时结束,即可确定中文段落PA地理特征词所在段 落DLi正向和逆向的各个中文分词CWi。
[0030] 上述基于地理特征层次分词的新闻事件地名地址匹配方法,所述步骤(6)具体步 骤为:
[0031] 1)针对第一个中文分词CW1,以地名地址数据库DB2为基础,应用哈希字符连接匹 配方法,以判断中文分词CW1是否为DB2中的地址信息词;
[0032] 判断过程如下:若根据地名地址数据库DB2信息,能够将单个中文分词CW1和地理 位置坐标关联起来,即完成中文分词CW1的地名地址匹配,则中文分词CW1是地址信息词; 否则中文分词CW1不是地址信息词,进入下一步骤;
[0033] 2)将正向逆向中文分词过程得到的下一个分词CWk,以地名地址数据库DB2为基 础,应用哈希字符连接匹配方法,以判断中文分词CW
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1