位置描述检测装置、程序以及存储介质的制作方法

文档序号:6466604阅读:149来源:国知局
专利名称:位置描述检测装置、程序以及存储介质的制作方法
技术领域
本发明涉及位置描述检测装置、程序以及存储介质,例如,适合使 用在需要根据住所的一部分等具有模糊性的位置描述字符串取得完整 的住所字符串等无模糊性的位置描述字符串的位置描述的检测系统中。
背景技术
在信息处理中,检测在文本中出现的固有描述的处理已经普遍。特
别是,最近,由于GIS (Geographic Information System)受到关注, 所以,关于地名等位置描述的自动检测处理受到关注。但是,多数情况 要处理的文本,例如,在新闻报导和博客(blog)视野(sight)等中所 包含的地名描述等位置描述的多数,是以省略都道府县名和市区郡名等 的形式来描述。例如,尽管在东京都和大阪府都存在"日本桥,,的地名, 但在文本中出现的位置描述中,多数只是简单地写出"日本桥", 一般 很少有记述为"东京都中央区日本桥"或"大阪府大阪市浪速区日本桥"。
作为解决这样的问题的方法,有专利文献l的"以往技术,,中所记 载的2种方法。
第l种方法是,参照出现在固有的位置描述候补的前后或同一文本 内的共现词,来消除固有的位置描述候补的模糊性的方法,如果是"日 本桥"的例子,例如,只要在"日本桥"的前后或同一文本内包含"个 人电脑"、"MEIDO吃茶"等词语,即判断为是"大阪府大阪市浪速区 曰本桥"。
第2种方法是,从同一文本中检索出包含固有的位置描述候补表记 的位置描述,来消除固有的位置描述候补的模糊性的方法。如果是"日 本桥",例如,只要在同一文本内有如"浪速区日本桥,,那样的包含"曰 本桥"的没有模糊性的位置描述,则也把单独的"日本桥,,判断为"大 阪府大阪市浪速区日本桥"。
专利文献1所记载的技术,只不过是利用上述的第1或笫2方法,
5在检测对象是超文本时,把一般出现在同 一文本内的共现词的参照或所 包含的位置描述的检索范围,也扩大到该文本的链接源和链接对方的文 件中。
[专利文献1日本特开2002-82943号>^才艮
但是,第1方法需要针对各个位置描述预先生成共现词典,难以自 动决定把哪些词语作为共现词,需要大量劳力进行手工决定。而且,即 使决定了共现词,为了提高根据共现描述特定位置描述(地名)的概率, 需要对各个位置描述设定多个共现词,因此,存在着共现词典庞大的问 题。
另一方面,第2方法在包含固有的位置描述候补表记的表记,未包 含在检索范围内的情况下,不能消除模糊性。
专利文献l所记载的技术,由于只是把上述第l或第2方法中的检 索范围简单地扩大到具有链接关系的文件中,所以不能解决上述的问 题。

发明内容
本发明就是考虑到以上的问题点而完成的,目的是提供一种位置描 述检测装置、程序、以及存储介质,可以不使用共现词典,而且即使没 有包含位置描述候补表记的位置表记,也能够消除具有模糊性的位置描 述的模糊性。
本发明之l的位置描述检测装置,其特征在于,抽出检测对象文本 中所包含的位置描述,在已抽出的位置描述具有多个候补地的情况下, 决定为其中的任意一个,该位置描述检测装置具有(l)位置描述信息 存储部,其存储有在各种文本中能够存在的位置描述、和该位置描述能 够规定的位置的对应;(2)位置描述抽出部,其参照上述位置描述信息 存储部的存储内容,从上述检测对象文本中抽出位置描述,并判别已抽 出的位置描述是否具有多个候补地;(3)检测对象文本特征语抽出部, 其抽出上述检测对象文本中的特征语;(4)比较对象文本检索部,其利 用上述候补地或上述特征语的至少一方,检索成为检测对象文本的比较 对象的比较对象文本;和(5)位置描述特定部,其根据关于所检索出的比较对象文本的信息,在已抽出的位置描述具有多个候补地的情况 下,决定为其中任意一个,上述检测对象文本特征语抽出部、上述比较 对象文本检索部、和上述位置描述特定部,至少在已抽出的位置描述具 有多个候补地的情况下发挥功能。
本发明之2的位置描述检测程序,其特征在于,用于抽出检测对象 文本中所包含的位置描述,在已抽出的位置描述具有多个候补地的情况 下,决定其中的任意一个,该位置描述检测程序使计算机作为以下各部 发挥功能,即(1)位置描述信息存储部,其存储有在各种文本中能够 存在的位置描述、和该位置描述能够规定的位置的对应;(2)位置描述 抽出部,其参照上述位置描述信息存储部的存储内容,从上述检测对象 文本中抽出位置描述,并判断已抽出的位置描述是否具有多个候补地; (3)检测对象文本特征语抽出部,其抽出上述检测对象文本中的特征 语;(4)比较对象文本检索部,其利用上述候补地或上述特征语的至少 一方,检索成为检测对象文本的比较对象的比较对象文本;和(5)位 置描述特定部,其根据关于所检索出的比较对象文本的信息,在已抽出 的位置描述具有多个候补地的情况下,决定为其中任意一个。
本发明之3的记录介质是存储有本发明之2的位置描述检测程序的 计算机可读的记录介质。
根据本发明,可以不使用共现词典,而且即使没有包含位置描述候 补表记的位置表记,也能够消除具有模糊性的位置描述的模糊性。


图l是表示第1实施方式涉及的位置描述检测装置的功能构成的方 框图。
图2是表示第1实施方式中的位置描述表的构成例的说明图。
图3是表示第1实施方式涉及的位置描述检测装置的动作的流程图。
图4是表示在第1实施方式涉及的位置描述检测装置的动作说明中 使用的检测对象文本和比较对象文本的示例的说明图。图5是表示第2实施方式涉及的位置描述检测装置的功能构成的方 框图。
图6是表示第2实施方式涉及的位置描述检测装置的动作的流程图。
图7是表示第3实施方式涉及的位置描述检测装置的功能构成的方 框图。
图8是表示第3实施方式中的位置描述表的构成例的说明图。
图9是表示第3实施方式涉及的位置描述检测装置的动作的流程图。
图中10、 100、 200 -位置描述检测装置;11-位置描述表;12 -检测对象文本位置描述检测部;13 —检测对象文本特征语抽出部; 14 -比较对象文本取得部;15 -比较对象文本特征语抽出部;16 -特征语一致度计算部;17 —特定位置描述输出部;20 -检测对象文 本;30 -特定位置描述;101 -比较对象文本件数取得部;102 -特 征语含有率计算部;103 —特定位置描述输出部;201-位置描述位置 坐标表;202-检测对象文本位置描述检测经度綷度取得部;203 -比 较对象文本取得部;204 -比较对象文本位置描述检测经度蟀度取得 部;205 -比较对象文本距离计算部;206 -特定位置描述输出部。
具体实施例方式
(A)第1实施方式
下面,参照附图,对本发明的位置描述检测装置、程序和存储介质 的第1实施方式进行详细说明。
(A-l)第1实施方式的构成
图1是表示第1实施方式涉及的位置描述检测装置10的功能构成 的方框图。将位置描述检测^^置10,例如可以作为文本处理用的专用装 置的一部分而构造,另外,也可以通过把位置描述检测程序(包含固定 数据等)安装在PC (个人电脑)或服务器等通用信息处理装置中来构造,但在功能上可以用图1的构成来表示。位置描述检测程序的安装不 限于通过通信网络下栽的方法,也可以采用通过计算机可读的记录介质 的方法。
在图1中,位置描述检测装置10是输入检测对象文本20,输出该 检测对象文本20中所包含的特定位置描述30的装置。检测对象文本20 的输入方法是任意的。即,可以是从记录介质读入、从外部装置基于通 信的取入(包括下栽)、使用OCR的输入、以及键盘输入等任意输入方 法。另外,特定位置描述30的输出方法也是任意的。即,可以是向记 录介质的写入、向外部装置的发送、打印输出、以及显示输出等任意输 出方法。
位置描述检测装置IO从功能上讲,具有位置描述表ll、检测对象 文本位置描述检测部12、检测对象文本特征语抽出部13、比较对象文 本取得部14、比较对象文本特征语抽出部15、特征语一致度计算部16、 和特定位置描述输出部17。
位置描述表ll例如是如图2所示那样的以都道府县、市郡、区、街 字等为单位,把各个位置中的住所等位置描述信息保存在各个行(记录) 中的表。此外,对各个行赋予了 ID。位置描述表11例如用包括HDD (Hard Disk Drive )、 ROM ( Read Only Memory )等存储i更备的硬件 资源来实现。
检测对象文本位置描述检测部12是参照位置描述表11从作为处理 对象的检测对象文本20中检测出位置描述部分的部分。
检测对象文本特征语抽出部13是从检测对象文本20中抽出表示该 文本的特征的特征语的部分。
比较对象文本取得部14是为了消除检测对象文本20中包含的具有 模糊性的位置描述的模糊性,取得设为比较对象的文本的部分。也可以 把多个可以成为比较对象文本的文本预先保存在为该位置描述检测装 置10使用而设置的存储区域中,从其中取得比较对象文本,而且,也 可以每次从因特网上取得。并且,也可以在从预先保存在存储区域中的 文本中不能取得比较对象文本的情况下,从互联网上取得。
9比较对象文本特征语抽出部15是从比较对象文本中抽出表示该文 本的特征的特征语的部分。
特征语一致度计算部16是计算检测对象文本与比较对象文本的特 征语的一致度的部分。
特定位置描述输出部17是输出使用由特征语一致度计算部16计算 出的一致度解决了模糊性的位置描述的部分。
检测对象文本位置描述检测部12-特定位置描述输出部17的部分由 专用的控制设备、或包含用于执行程序的处理器(CPU)、和储存由该 处理器执行的程序和数据的RAM ( Random Access Memory )、 ROM、 HDD等存储设备的硬件资源来实现。
此外,这里已说明的构成是按照功能不同而说明,不需要按照每个 部分明确地将要实现的硬件的物理构成分离,独立地准备。例如,实现 检测对象文本位置描述检索部12-特定位置描述输出部17的一部分或 全部的处理器和RAM、 ROM也可以是其同的,并且,也可以4吏用实现 其他功能的装置的一部分。另外,也可以把构成该位置描述检测装置10 的一部分配置在通过网络连接的其他场所。
(A-2)第1实施方式的动作
下面,参照附图,对第1实施方式涉及的位置描述检测装置10的 动作进行详细说明。这里,图3是表示位置描述检测装置10的动作的 流程图。另外,图3表示关于从所提供的检测对象文本20检测出的某1 个位置描述的处理,在检测对象文本20中包含多个位置描述的情况下, 执行多次图3所示的处理。
首先,在检测对象文本位置描述检测部12中,使用图2所示那样 的位置描述表11对所提供的检测对象文本20进行解析,检测出位置描 述,并且,取得位置描述候补X,判别候补数是否为2个以上(Sl、 S2 )。 在检测出的位置描述的候补数是1个的情况下,直接把该候补作为位置 描述输出,并结束(S9)。
这里,说明候补有多个的情况下的示例。例如,在检测对象文本20是图4中(A)所示那样的文本的情况下,位置描述检测部12检测出"日 本桥"这样的位置描述,作为候补组X,取得"东京都中央区日本桥"、 "大阪府大阪市浪速区日本桥"、和"大阪府大阪市中央区日本桥"这3 个候才卜。
在位置描述的候补数为2个以上的情况下,在检测对象文本特征语 抽出部13中,从检测对象文本20中抽出特征语。特征语的抽出算法是 任意的,但是,例如可以使用利用tf (1个文件内的单词的出现频度)、 和idf (出现该单词的文件数的倒数)的2个指标进行计算的、使用tf 和idf的现有的算法(例如参照日本特开2005-258678号7>才艮)。下面, 说明从图4中(A)所示的检测对象文本20中,作为特征语而取得了 "MEIDO吃茶"、"萌萌"、"个人电脑"的情况。
步骤S4 S8是对候补组X中包含的各个要素Xi实施的反复处理。
在比较对象文本取得部14中,在取得了与候补Xi有关的比较对象 文本后(S5),在比较对象文本特征语抽出部15中从已取得的比较对象 文本中抽出特征语(S6)。
例如,首先,检索并取得包含与3个候补"东京都中央区日本桥"、 "大阪府大阪市浪速区日本桥"、和"大阪府大阪市中央区日本桥"中的 "东京都中央区日本桥"有关的记述的比较对象文本。在存在多个相应 的比较对象文本的情况下,可以缩减到根据装置的处理能力和所要求的 准确度所决定的数量。例如,作为与"东京都中央区日本桥"有关的比 较对象文本,若取得了图4中(B)所示那样的比较对象文本,则作为 特征语从中抽出"明治时代"。
此外,关于没有比较对象文本、或未能取得充分数量的情况下的处 理,将在后面进行说明。
若结束了从比较对象文本的特征语的抽出,则在特征语一致度计算 部16中,计算从检测对象文本20抽出的特征语、与从比较对象文本取 得的特征语的一致度(S7)。检测对象文本20的特征语是"MEIDO吃 茶"、"萌萌"、"个人电脑",比较对象文本的特征语如果是"明治时代", 则不存在一致的特征语,所以一致度为O。此外,在存在多个比较对象
ii文本的情况下,例如,对各个比较对象文本执行步猓S6和S7的处理, 把所得到的一致度的平均值作为最终的一致度。
在3个候补"东京都中央区日本桥"、"大阪府大阪市浪速区日本桥"、 和"大阪府大阪市中央区日本桥"中的"大阪府大阪市浪速区日本桥" 成为处理对象时(S4),检索并取得包含与"大阪府大阪市浪速区曰本 桥"有关的记述的比较对象文本(S5)。
但是,设没有相应的比较对象文本,或未取得充分数量的比较对象 文本,在这种情况下,从位置描述表11的与相应的候补对应的行的其 他列的要素的l个或2个以上的组合中,使用通过与含有模糊性的位置 描述"日本桥"组合而消除模糊性的条件,取得比较对象文本。此例中 的"大阪府"和"大阪市"也包含"浪速区"的"日本桥"、和"中央 区"的"日本桥",即使使用"大阪府"和"大阪市"检索比较对象文 本,也不能判别所取得的比较对象文本是记载了 "浪速区"的"日本桥" 的信息、还是记载了 "中央区"的"日本桥"的信息,因此,不能作为 检索条件使用。即,"大阪府大阪市浪速区日本桥"和"大阪府大阪市 中央区日本桥"的"日本桥"以外的相同部分"大阪府"、"大阪市", 不能作为比较对象文本的检索条件使用。因此,在利用"大阪府大阪市 浪速区日本桥"不能取得比较对象文本的情况下,执行利用"浪速区" 取得比较对象文本的处理(S5内的例外处理)。
在利用"浪速区"取得了比较对象文本时,设是取得了图4中(C) 所示那样的比较对象文本。从该比较对象文本中,作为特征语而抽出了 "MEIDO吃茶"、"萌萌"(S6)。
由于检测对象文本20的特征语是"MEIDO吃茶"、"萌萌"、"个人 电脑",比较对象文本的特征语是"MEIDO吃茶"、"萌萌",所以一致— 度为2 ( S7 )。
在3个候补"东京都中央区日本桥"、"大阪府大阪市浪速区日本桥"、 和"大阪府大阪市中央区日本桥"中的"大阪府大阪市中央区日本桥" 成为了处理对象时(S4),检索并取得包含与"大阪府大阪市中央区日 本桥,,有关的记述的比较对象文本(S5)。这里,设作为比较对象文本, 取得图4中(D)所示那样的比较对象文本。从该比较对象文本中,作为特征语而取得了 "小型照相机"、"个人电脑"(S6),由于"个人电脑" 是一致的检测对象文本的特征语,所以一致度成为1 (S7)。
若如上述那样对全部候补计算了一致度,则由特定位置描述输出部 17把各个候补Xi中的一致度最高的候补决定为检测对象中包含的具有 模糊性的位置描述的特定表记,并输出(S9)。在上述的例中,由于一 致度2的"大阪府大阪市浪速区日本桥"的一致度最高,所以将检测对 象的位置描述"日本桥"特定为"大阪府大阪市浪速区日本桥"。
在以上的动作说明中,为了便于理解,把一致度简单地设为特征语 的 一致数进行了说明,但也可以把特征语的特征度和出现个数等反映在 一致度的计算中。另外,也可以把特征语的相似语的一致数反映在一致 度的评价中。另外,例如,在检测对象文本和比较对象文本是超文本的
情况下,也可以把链接距离(直接、来自链接对方的链接.....无链接
关系)反映在一致度的评价中。
(A-3)第1实施方式的效果
根据第l实施方式,即使不使用共现词典,而且无包含位置描述候 补表记的位置表记,也能够消除如地名表记的一部分那样的具有模糊性 的位置描述的模糊性。
另外,关于根据包含的表记进行决定的方式,可釆用专利文献l所 示那样增加要参照的文件的结构,但是,如果是这种方式,可以推测特 定精度低。在上述的图4中(B) (D)所示的3个比较对象文本中, 包含"日本桥"的只有图4中(C)的"东京中央区日本桥",所以,将 检测对象文本的"日本桥"错误地判断为"东京中央区日本桥"。根据 第1实施方式,未发生这样的误判断。
(B)第2实施方式
下面,参照附图,对本发明的位置描述检测装置、程序及存储介质 的第2实施方式进行详细说明。
(B-l)第2实施方式的结构
图5是表示第2实施方式涉及的位置描述检测装置100的功能构成
13的方框图,对于与第1实施方式涉及的图l相同的部分,标记相同的符 号进行表示。
在图5中,第2实施方式的位置描述检测装置100,从功能上讲, 具有位置描述表11、检测对象文本位置描述检测部12、检测对象文本 特征语抽出部13、比较对象文本件数取得部101、特征语含有率计算部 102、和特定位置描述输出部103。
位置描述表11、检测对象文本位置描述检测部12、和检测对象文本 特征语抽出部13与第1实施方式中的相同。
比较对象文本件数取得部101为了解决检测对象文本20中包含的 具有模糊性的位置描述的模糊性,关于对具有模糊性的位置描述除去了 模糊性后的位置描述候补,取得以下2种类的件数。比较对象文本件数 取得部101,第1,关于各个位置描述候补,取得包含该位置描述候补 的特定描述的比较对象文本的件数(第l件数)。比较对象文本件数取 得部101,第2,关于各个位置描述候补,取得同时包含该位置描述候 补的特定描述、和检测对象文本涉及的特征语的比较对象文本的件数 (第2件数)。
特征语含有率计算部102是使用由比较对象文本件数取得部101取 得的第1和第2件数,对各个位置描述候补,计算特征语含有率的部分。
特定位置描述输出部103是根据由特征语含有率计算部102计算出 的关于各个位置描述候补的特征语含有率,决定解决了模糊性的位置描 述,并输出的部分。
在第2实施方式中新设置的比较对象文本件数取得部101、特征语 含有率计算部102、和特定位置描述输出部103也是由与第1实施方式 的位置描述检测部12等同样的硬件资源和软件来实现。
(B-2)第2实施方式的动作
下面,参照附图,对第2实施方式涉及的位置描述检测装置100的 动作进行详细说明。这里,图6是表示位置描述检测装置100的动作的 流程图。而且,图6表示了关于从所提供的检测对象文本20检测出的某1个位置描述的处理,在检测对象文本20中包含多个位置描述的情 况下,多次执行图6所示的处理。
图6中的步骤S1 S4和S8的动作与第1实施方式相同,因此省略 其说明。
在关于某个位置描述的特定位置描述的候补数是2个以上的情况 下,若某个候补Xi成为了处理对象,则,首先由比较对象文本件数取 得部101取得上述第l件数和第2件数(S101、 S102)。此外,第2件 数的取得是从第l件数涉及的比较对象文本中取得。
在这些件数的取得时使用的位置描述涉及的信息是,从检测对象文 本20中检测出的位置描述、与在表示该候补Xi的字符串中能够区别于 其他候补的字符串的组合(AND (与))。比较对象文本件数取得部101 根据位置描述表ll的保存内容,决定能够区别于其他候补的字符串。
在"东京都中央区日本桥"是候补的情况下,除了检测出的位置描 述"日本桥"以外,如果按行政区划从小到大则有"中央区"和"东京 都"。由于"中央区"在其他候补"大阪府大阪市中央区日本桥"中也 存在,所以不能在件数的取得中使用,比较对象文本件数取得部101, 在"东京都中央区日本桥"是候补的情况下,在第l和第2件数取得中 使用"东京都AND日本桥"。此外,也可以将规则决定为在第l和第 2件数取得中使用"东京都中央区AND日本桥"。
另外,在"大阪府大阪市浪速区日本桥"是候补的情况下,除了检 测出的位置描述"日本桥"以外,如果按行政区划从小到大,则有"浪 速区"、"大阪市"和"大阪府"。由于检测出的位置描述"日本桥"上 一级的行政区划"浪速区"能够区别于其他候补,所以,比较对象文本 件数取得部IOI,在"大阪府大阪市浪速区日本桥"是候补的情况下, 在第l和第2件数取得中使用"浪速区AND日本桥"。
并且,在"大阪府大阪市中央区日本桥"是候补的情况下,除了检 测出的位置描述"日本桥"以外,如果按行政区划从小到大,则有"中 央区"、"大败市"和"大阪府"。如果单独地"中央区"、"大阪市"和 "大阪府"哪个都不能区别于其他候补。因此,根据行政区划从小到大,从合并了多个行政区划表记的表记中,决定可区别于其他候补的表记。
其结果,比较对象文本件数取得部101,在"大阪府大阪市中央区曰本 桥"是候补的情况下,在第1和第2件数取得中使用"大阪市中央区AND 曰本桥"。
另外,也可以构成为,在步骤S101的处理中,取得包含候补表记 本身的比较对象文本的件数(第l件数)。
在步骤S102中的第2件数的取得中,除了在第l件数取得中使用 的条件以外,还把检索对象文本20的特征语包含在检索式中。
在存在多个特征语的情况下,(1)也可以只使用任意一个进行件数 取得(选择判定是否是特征语的评价值最高的特征语);(2)另外,也 可以把包含全部多个特征语的比较对象文本作为l件进行计数;(3)并 且,也可以把至少是包含多个特征语中的1个的比较对象文本作为l件 进行计数。在检测对象文本20的特征语是"MEIDO吃茶"、"萌萌"、
"个人电脑"的情况下,如果是第1方法,则在件数取得中使用"MEIDO 吃茶"、"萌萌"、"个人电脑"中的l个特征语(例如"MEIDO吃茶"), 如果是第2方法,则对包含全部"MEIDO吃茶"、"萌萌"、"个人电脑" 的比较对象文本进行计数,如果是第3方法,则对至少是包含"MEIDO 吃茶"、"萌萌"、"个人电脑"中的任意一个的比较对象文本进行计数。
若取得了第1和第2件数,则在特征语含有率计算部102中,使用 双者的件数求出特征语含有率(S103)。求出特征语含有率的函数是任 意的,例如,也可以简单地用(第2件数)+ (第l件数)来求出特征 语含有率。
例如,在"东京都中央区日本桥"是候补的情况下,如果根据"东 京都AND日本桥,,取得的第1件数为2410件,根据只把"MEIDO 吃茶"作为特征语使用的"东京都AND日本桥ANDMEIDO吃茶" 取得的第2件数为87件,则特征语含有率为87 + 2410=0.036。另外, 例如,在"大阪府大阪市浪速区日本桥"是候补的情况下,如果根据"浪 速区AND日本桥"取得的第l件数为450件,根据只把"MEIDO吃 茶"作为特征语使用的"浪速区AND日本桥ANDMEIDO吃茶"取 得的第2件数为36件,则特征语含有率为36 + 450=0.080。并且,例如,在"大阪府大阪市中央区日本桥"是候补的情况下,如果根据"大阪市
中央区AND日本桥"取得的笫l件数为610件,根据只把"MEIDO 吃茶"作为特征语使用的"大阪市中央区AND日本桥AND MEIDO 吃茶"取得的第2件数为16件,则特征语含有率为16 + 610=0.026。
若得到了全部的候补的特征语含有率,则在特定位置描述输出部 103中,把特征语含有率最高的候补决定为在检测对象文本20中包含的 具有模糊性的位置描述的特定表记,并输出(S104)。在上述的例中, 由于特征语含有率为0.080的"大阪府大阪市浪速区日本桥"最高,所 以,将从检测对象文本20中检测出的"日本桥"的位置描述特定为"大 阪府大阪市浪速区日本桥"。
在候补中,包含从检测对象文本20中抽出的特征语的比例越高, 越能够判断为是有关与检测对象文本20的位置描述相同的位置的话题 的比较对象文本,因此,把特征语含有率最高的候补决定为具有模糊性 的位置描述的特定表记。
(B-3 )第2实施方式的效果
根据第2实施方式,可获得与第1实施方式相同的效果。并且,根 据第2实施方式,不需要比较对象文本的解析处理。因此,在将比较对 象文本设为能够利用因特网的检索视野等进行检索的文本的情况下等, 由于处理简单,所以是有效的。
(C)第3实施方式
下面,参照附图,对本发明的位置描述检测装置、程序、以及存储 介质的第3实施方式进行详细说明。
(C-l)第3实施方式的构成
图7是表示第3实施方式涉及的位置描述检测装置200的功能构成 的方框图,对于与第1实施方式涉及的图l相同的部分,标记相同的符 号进行表示。
在图7中,第3实施方式的位置描述检测装置200,从功能上讲, 具有位置描述位置坐标表201、检测对象文本位置描述检测经度绰度取得部202、检测对象文本特征语抽出部13、比较对象文本取得部203、 比较对象文本位置描述检测经度绰度取得部204、比较对象文本距离计 算部205、和特定位置描述输出部206。
位置描述经度炜度对应信息表201,例如是如图8所示那样的表, 在该表中,把各个位置中的住所等位置描述信息,以都道府县、市郡、 区、街字等为单位,保存在各个行中,并且,对各个行保存了经度、绊 度,其可以利用包括HDD、 ROM等存储设备的硬件资源来实现。此夕卜, 将经度绵度作为通过坐标规定位置的信息而使用,取代经度绰度,也可 以使用基于其他坐标系的表记。
检测对象文本位置描述检测经度绊度取得部202是,从检测对象文 本20检测出位置描述的部分,并且从位置描述位置坐标表201中取得 该位置描述涉及的经度绰度的部分。
检测对象文本特征语抽出部13与第1实施方式同样,是从检测对 象文本20中抽出表示该文本的特征的特征语的部分。
比较对象文本取得部203是取得比较对象文本的部分,且该比较对 象文本包含由检测对象文本特征语抽出部13抽出的特征语。此外,第1 实施方式的比较对象文本取得部14根据可以消除模糊性的位置描述信 息取得比较对象文本,但是,此第3实施方式与第1实施方式的不同点 是根据特征语来取得。
比较对象文本位置描述检测经度綷度取得部204是抽出包含在比较 对象文本中的位置描述,并且,从位置描述位置坐标表201中取得该位 置描述涉及的经度绰度的部分。
比较对象文本距离计算部205是取得从检测对象文本20检测出的 位置描述的特定候补的经度绊度、与从比较对象文本中取得的位置描述 的经度绰度的距离的部分。
特定位置描述输出部206是输出使用由比较对象文本距离计算部 205计算出的距离消除了模糊性的位置描述的部分。
检测对象文本位置描述检测经度绰度取得部202、比较对象文本取得部203、比较对象文本位置描述检测经度绊度取得部204、比较对象 文本距离计算部205、和特定位置描述输出部206,也由与第1实施方 式的位置描述检测部12等同样的硬件资源和软件来实现。
(C-2)第3实施方式的动作
下面,参照附图,对第3实施方式涉及的位置描述检测装置200的 动作进行说明。这里,图9是表示位置描述检测装置200的动作的流程 图。另外,图9表示关于从所提供的检测对象文本20检测出的某1个 位置描述的处理,在检测对象文本20中包含多个位置描述的情况下, 执行多次图9所示的处理。
若提供了检测对象文本20,则由检测对象文本位置描述检测经度綷 度取得部202,使用图8所示的位置描述位置坐标表201进行解析,取 得位置描述的候补组X、及其经度炜度(S201 )。
如果检测对象文本20是图4中(A)所示的文本,则作为候补检测 出"东京都中央区日本桥"、"大阪府大阪市浪速区日本桥"、和"大阪 府大阪市中央区日本桥",并取得各个经度绰度。
然后,确认候补数(S2),如果只有1个候补,则直接把该候补决 定为具有模糊性的位置描述的特定表记,并输出(S206)。另一方面, 在有多个候补的情况下,抽出检测对象文本20中的特征语(S3)。
而且,由比较对象文本取得部203取得包含检测对象文本20的特 征语的比较对象文本(S202)。这里,要取得的比较对象文本可以是包 含全部特征语的文本,也可以是包含规定数以上的特征语的文本。另夕卜, 也可以抽出全部的满足条件的比较对象文本,也可以反复执行该步骤 S205和后述的步骤S206,依次进行抽出,直到包含无模糊性的位置描 述的比较对象文本数为规定数。
例如,在检测对象文本20的特征语是"MEIDO吃茶"、"萌萌"、"个 人电脑"的情况下,如果是取得包含2个以上的特征语的比较对象文本 的情况,则取得图4中(C)所示的比较对象文本,如果是取得包含l 个以上的特征语的比较对象文本的情况,则取得图4中(C)和图4中 (D)所示的2个比较对象文本。然后,由比较对象文本位置描述检测经度炜度取得部204从所取得 的比较对象文本中抽出无模糊性的位置描述,并取得已抽出的位置描述 的经度绰度(S204)。这里,在无模糊性的位置描述的分级粗的情况(只 记述了都道府县名和市名、区名的情况等)下,取得代表点的经度炜度、 和相应范围的中心(无厚度的外形形状的重心位置)的经度綷度等。也 可以构成为也把分级粗的位置描述的经度綷度预先记述在图8所示的位 置描述位置坐标表201中,然后取得经度绊度,而且,也可以构成为,
分级粗的位置描述的经度绊度。
例如,如果比较对象文本是图4中(C)所示的文本,则作为位置 描述而抽出"大阪市浪速区",并取得"大阪市浪速区"的经度绊度。
然后,由比较对象文本距离计算部205对检测对象文本20的位置 描述涉及的特定位置的各个候补Xi,计算出其经度綷度与比较对象文本 的位置描述的经度绰度的距离(S205)。
如果是上述的例,则是求出"东京都中央区日本桥"、"大阪府大阪 市浪速区日本桥"、和"大阪府大阪市中央区日本桥"各自的经度绰度、 与比较对象文本内的位置描述"大阪市浪速区"的经度綷度的距离。
然后,在特定位置描述输出部103中,把距离最短的候补决定为在 检测对象文本20中包含的具有模糊性的位置描述的特定表记,并输出 (S206)。在上述的例中,与比较对象文本内的位置描述"大阪市浪速 区"的经度绰度的距离最短的是候补"大败府大阪市浪速区日本桥"的 经度蟀度,因此,将从检测对象文本20中检测出的"日本桥"的位置 描述特定为"大败府大阪市浪速区日本桥"。
(C-3)第3实施方式的效果
根据第3实施方式,可获得与第1实施方式相同的效果。并且,根 据第3实施方式,即使在比较对象文本中不存在与候补相同的位置描述, 但只要存在如下的比较对象文本,即,具有包含相同的特征语的近似或 类属性的位置描述的比较对象文本,则可特定具有模糊性的位置描述的 位置。(D)其他实施方式
在上述各个实施方式的说明中,说明了各种变形实施方式,但还可 以进一步列举出以下示例那样的变形实施方式。
在上述各个实施方式中,表示了位置描述与住所表记相关的情况, 但本发明的住所表记不限于此。本发明也可以应用于例如,预先把全国 的水族馆的正式名称等记述在表内,特定检测对象文本的"水族馆"这 样的位置描述的情况。在这种情况下,也可以构成为,通过预先存储可 成为特征语的一览信息,把要取得的特征语限制为海兽、珍鱼的名称等。
也可以构成为,组合2个或3个上述第1~第3实施方式的技术思想 (具有模糊性的位置描述的特定方法)进行应用。
例如,也可以构成为,按顺序应用第2实施方式、第1实施方式、 第3实施方式的方法,在利用第2实施方式的方法不能决定具有模糊性 的位置描述的特定表记的情况下(第1和第2特征语含有率大致相等的 情况),采用第1实施方式的方法,在利用第1实施方式的方法还不能 决定具有模糊性的位置描述的特定表记的情况下(第1和第2的一致度 相等的情况),采用第3实施方式的方法。
另外,也可以构成为,例如在并行执行了第1~第3实施方式的方法 后,统合这些处理结果,最终决定具有模糊性的位置描述的特定表记。 也可以构成为,计算出反映了第1实施方式中的一致度A、第2实施方 式中的特征语含有率B、第3实施方式中的距离C的评价值(例如是A、 B、 C加权相加值),根据该评价值决定具有模糊性的位置描述的特定表 记。
2权利要求
1. 一种位置描述检测装置,其特征在于,抽出检测对象文本中所包含的位置描述,在已抽出的位置描述具有多个候补地的情况下,决定为其中的任意一个,具有位置描述信息存储部,其存储有在各种文本中能够存在的位置描述、和该位置描述能够规定的位置的对应;位置描述抽出部,其参照上述位置描述信息存储部的存储内容,从上述检测对象文本中抽出位置描述,并判别已抽出的位置描述是否具有多个候补地;检测对象文本特征语抽出部,其抽出上述检测对象文本中的特征语;比较对象文本检索部,其利用上述候补地或上述特征语的至少一方,检索成为检测对象文本的比较对象的比较对象文本;和位置描述特定部,其根据关于所检索出的比较对象文本的信息,在已抽出的位置描述具有多个候补地的情况下,决定为其中任意一个,上述检测对象文本特征语抽出部、上述比较对象文本检索部、和上述位置描述特定部,至少在已抽出的位置描述具有多个候补地的情况下发挥功能。
2. 根据权利要求l所述的位置描述检测装置,其特征在于,上述比较对象文本检索部,对上述各个候补地的每个,检索包含与 该候补地有关的无模糊性的位置表记的上述比较对象文本,上述位置描述特定部具有比较对象文本特征语抽出部,其抽出所检索出的上述各个比较对象 文本中的特征语;和特征语一致度判定输出部,其根据所抽出的特征语与上述检测对象 文本中的特征语一致的程度最高的上述比较对象文本中的无模糊性的位置表记,特定在上述检测对象文本中所包含的位置描述的位置。
3. 根据权利要求l所述的位置描述检测装置,其特征在于,上述比较对象文本检索部,对上述各个候补地的每个,取得第l件 数和第2件数,且该第l件数是包含与该候补地有关的无模糊性的位置表记的上述比较对象文本的件数,该第2件数是包含与该候补地有关的 无模糊性的位置表记和上述检测对象文本中的特征语双方的上述比较 对象文本的件数,上述位置描述特定部具有特征语含有率计算部,其对上述各个候补地的每个,根据第l和第 2件数,取得反映了多个比较对象文本中的包含特征语的文本的比例的 特征语含有率;和特征语含有率判定输出部,其将在上述检测对象文本中包含的位置 描述的位置特定为特征语含有率最高的候补地。
4. 根据权利要求l所述的位置描述检测装置,其特征在于,上述位置描述信息存储部,还存储有位置描述能够规定的位置的坐 标信息,上述位置描述抽出部还取得各个候补地的坐标信息,上述比较对象文本检索部取得包含上述检测对象文本中的特征语 的上述比较对象文本,上述位置描述特定部具有比较对象文本内位置描述抽出部,其参照上述位置描述信息存储部 的存储内容,取得上述比较对象文本中的无模糊性的位置描述及该位置 描述的坐标信息;距离计算部,其对上述各个候补地的每个,求出其坐标信息,与上 述比较对象文本内的位置信息涉及的坐标信息的距离;和距离判定输出部,其将上述检测对象文本中所包含的位置描述的位 置特定为距离最短的候补地。
5. —种位置描述检测程序,其特征在于,用于抽出检测对象文本 中所包含的位置描述,在已抽出的位置描述具有多个候补地的情况下, 决定为其中的任意一个,使计算机作为以下各部发挥功能,即位置描述信息存储部,其存储有在各种文本中能够存在的位置描 述、和该位置描述能够规定的位置的对应;位置描述抽出部,其参照上述位置描述信息存储部的存储内容,从 上述检测对象文本中抽出位置描述,并判断已抽出的位置描述是否具有多个候补地;检测对象文本特征语抽出部,其抽出上述检测对象文本中的特征语;比较对象文本检索部,其利用上述候补地或上述特征语的至少一 方,检索成为检测对象文本的比较对象的比较对象文本;和位置描述特定部,其根据关于所检索出的比较对象文本的信息,在 已抽出的位置描述具有多个候补地的情况下,决定为其中任意一个。
6. —种存储有权利要求5所述的位置描述检测程序的计算机可读 的存储介质。
全文摘要
本发明提供一种位置描述检测装置,不使用共现词典,即使没有包含位置描述候补表记的位置表记,也能够解决具有模糊性的位置描述的模糊性。本发明的位置描述检测装置抽出检测对象文本中所包含的位置描述,在已抽出的位置描述具有多个候补地的情况下,决定其中任意一个。而且其特征是,具有从检测对象文本抽出位置描述,判别已抽出的位置描述是否具有多个候补地的部分;抽出检测对象文本的特征语的部分;利用候补地或特征语的至少一方检索比较对象文本的比较对象文本检索部分;和根据与检索出的比较对象文本有关的信息,在已抽出的位置描述具有多个候补地的情况下,决定为其中任意一个的部分。
文档编号G06F17/30GK101425071SQ20081014933
公开日2009年5月6日 申请日期2008年9月19日 优先权日2007年10月29日
发明者奥村幸治 申请人:冲电气工业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1