确定文档中核心地理信息的方法、系统的制作方法

文档序号:6465893阅读:167来源:国知局
专利名称:确定文档中核心地理信息的方法、系统的制作方法
技术领域
本发明涉及数据处理技术领域,特别涉及一种确定文档中核心地理信息的方法、系统。
背景技术
互联网提供的按照关键字搜索等类似服务中,例如一些聚合类新闻、资讯的内容提供中,可以实现按照地理信息提供文档内容。
上述互联网提供的服务中,在将文档按照地理信息分类的阶段,现有技术仅仅是萃取出文档中出现的地理信息。而同一文档中,可能出现多个不同的地理信息。这时,如果仅是萃取地理信息,则文档中可能萃取出若干不同的地理信息。而一般地,同一文档数据中,描述的内容应当具有一个中心地理信息。例如,在谈到四川地震新闻的文档数据中,会萃取得到四川这一地理信息,但是,同时该新闻中还可能谈到其它省、市对四川的援助,则按照现有技术的方式,还会萃取得到例如广东、北京这些地理信息。这样,按照萃取出的地理信息,则可能将这一类的文档内容作为发生在北京或广东境内的新闻(或资讯)来提供。显然地,在所有萃取到的不同地理信息中,应当存在一个核心地理信息,例如上面的例子中四川应当是核心地理信息,而不是其它地理信息。
在对现有技术的研究和实践过程中,发明人发现现有技术中存在以下问

由于现有技术仅仅是萃取出文档中出现的地理信息,则对于同一篇文档中出现的多个地理信息,会萃取出多个地理信息,而并不能区分这些地理信息中适于当前文档内容的真正核心地理信息。这样会导致基于地理信息萃取的服务,例如搜索,聚合类新闻、资讯的内容提供等,出现不准确的结果。

发明内容
本发明实施例的目的是提供一种确定文档中核心地理信息的方法、系统,以实现确定文档内容中准确的核心地理信息。
为解决上述技术问题,本发明实施例^是供一种确定文档中核心地理信息的
6方法、系统是这样实现的
一种确定文档中核心地理信息的方法,包括
按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;
才艮据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;
将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。
优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括
将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置对应^又重之和。
优选地,所述方法中,所述按照出现位置对应权重包括
在标题中出现时权重为3,在正文第一段出现时权重为2,在正文其它部分中出现时权重为1。
优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括
对于连续出现的地理名词,将其中每一个地理名词对应分值增加一个预设值。
优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括
如果文档中的地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,则将所述地理名词的该次出现忽略。
一种确定文档中核心地理信息的方法,包括
按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;
将分值最大的地理名词确定为所述文档的核心地理信息。优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括
将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置对应4又重之和。
优选地,所述方法中,所述按照出现位置对应权重包括
在标题中出现时权重为3,在正文第一段出现时权重为2,在正文其它部分中出现时权重为1。
优选地,所述方法中,所述按照文档中各地理名词出现的频率,并#^居预定义的位置权重计算各地理名词的分值,还包括
对于这些连续的地理名词,将其中每一个地理名词对应分值增加一个预i殳值。
优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括
如果文档中的地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,则将所述地理名词的该次出现忽略。
一种确定文档中核心地理信息的系统,包括
第一分值计算单元,用于按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;
第二分值计算单元,用于根据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;
确定单元,用于将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。
优选地,所述系统中,所述第一分值计算单元包括
词频计算单元,用于计算地理信息的出现频率;
位置权重计算单元,用于计算所述地理信息按照出现位置对应的权重;
求和单元,用于将所述地理信息的出现频率与按照位置对应权重之和确定
8为该地理信息的分值。
优选地,所述系统中,所述第一分值计算单元还包括
分值增加单元,对于连续出现的地理名词,用于将其中每一个地理名词对
应分值增加一个预设值。
优选地,所述系统中,所述第一分值计算单元还包括
滤除单元,用于在词频计算单元计算地理信息的出现频率过程中,如果地
理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,将所述地理
名词的该次出现忽略。
一种确定文档中核心地理信息的系统,包括
分值计算单元,用于按照文档中各地理名词出现的频率,并根据预定义的 位置权重计算各地理名词的分值;
确定单元,用于将分值最大的地理名词确定为所述文档的核心地理信息。
优选地,所述系统中,所述分值计算单元包括
词频计算单元,用于计算地理信息的出现频率;
位置权重计算单元,用于计算所述地理信息按照出现位置对应的权重;
求和单元,用于将所述地理信息的出现频率与按照位置对应权重之和确定 为该地理信息的分值。
优选地,所述系统中,所述分值计算单元还包括
分值增加单元,对于连续出现的地理名词,用于将其中每一个地理名词对 应分值增加 一个预设值。
优选地,所述系统中,所述分值计算单元还包括
滤除单元,用于在词频计算单元计算地理信息的出现频率过程中,如果地 理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,将所述地理 名词的该次出现忽略。
由以上本发明实施例提供的技术方案可见,按照文档中各地理名词出现的 频率,并根据预定义的位置权重计算各地理名词的分值,根据预置的地理信息 库计算所述各地理名词隶属的级别相同的行政区划的分值,将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息,对出现在更 可能为核心地理信息位置的地理信息进行了加强,并从隶属的行政区划上考虑 和比较分值,从而可以更准确的确定文档内容中的核心地理信息。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一方法实施例的流程图2为本发明预置的地理信息库的组织结构示意图3为本发明第一方法实施例中一具体例子的分值情况图4为本发明第二方法实施例的流程图5为本发明第一系统实施例的框图6为本发明第一系统实施例的另一框图7为本发明第二系统实施例的框图8为本发明第二系统实施例的另一框图。
具体实施例方式
本发明实施例提供一种确定文档中核心地理信息的方法、系统。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方 式对本发明实施例作进一步的详细说明。下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例 仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
图1示出了本发明确定文档中核心地理信息的方法的一个实施例的流程 图,如图1所示,该实施例包括
S101:按照文档中各地理名词出现的频率,并根据预定义的位置权重计算
10各地理名词的分值。
按照文档中各个地理名词出现的频率和预定义的位置权重计算各地理名
词的分值,这里给出以下方式
将文档中某个地理信息的分值确定为出现频率数与按照出现位置对应权 重之和。用7>式可以表示如下
分值=频率+位置权重
具体的,位置权重可以预定义为在标题中出现时权重为3,在正文第一 ^R出现时^l重为2,在正文其它部分中出现时权重为1。
出现的标题中的权重预定为3,比出现在正文部分的权重高,是由于文档 标题中出现的地理信息成为该文档核心地理信息的可能性较其它地理信息的 可能性大。
出现在正文第一段和正文中其它部分的权重不同,出现在正文第一段时权 重为2,出现在正文其它部分时权重为1,这是由于, 一般文档中,特别是新 闻时事等类别的文档中,正文第一段往往是对该文档中谈及的整个事件做一个 概述,因此这里涉及的地理信息相对于在正文其它部分才出现的地理信息,成 为该文档核心地理信息的可能性较大。
举一具体例子加以说明,如一篇文档中出现茂县这一地理信息,且茂县这 一地理信息在标题中出现1次,在正文第一段中出现3次,在正文其它部分出 现7次,则按照上述规则,茂县这一地理信息的分值为(1+3 + 7) + (3 + 2 + 1 ) =17。
文档中出现的其它地理信息,具体的分值计算可以按照上述过程类推,在 此不再类似。
当然,将地理信息出现的频率和位置权重设置为其它合理的值显然也可以 实现。本发明实施例在这里的核心点是综合考虑大量新闻、资讯等文档中地理 信息的出现特点后,按照地理信息的出现频率和位置预定分值赋予方式,从而 得到一个分值,从而同一文档中出现不同的地理信息按照相同的规则,如果具 有不同的分值,则可以在后续步骤中根据分值确定哪一个地理信息是该文档的核心地理信息。
另外,应当注意到的是,文档中还经常出现连续地理名词组合的情况。以
中谈到关于厦门市湖里区的新闻,并且厦门市、湖里区这两个地理名词连续出 现"……厦门市湖里区的两家投注站…",并且,事实上,该文档的核心地理 信息就是"厦门市湖里区"。还有^f艮多例子,都可以说明,对于连续出现的地 理名词,其成为核心地理信息的可能性较大,因此,出现的连续地理名词组合 应当较高的权重,以使其更有可能在本本实施例中成为最终的核心地理信息。 因此,这里可以做如下处理对于这些连续的地理名词,将其中每一个地 理名词对应分值增加一个预设值。
例如对于上述网页中的文档,各地理名词的分值分别是 厦门市7 湖里区2
而还出现厦门市湖里区这样连续的地理名词,则可以将厦门市、湖里区的 分值增加一个预定值,这里例如预定值为1,则厦门这一地理名词的最终分值 为7+1=8,湖里区这一地理名词的最终分值为2+1=3。
此外,文档中还可能包含新闻机构的名称,而这些机构名称中还常包括一 些地理名词,这时,这样的地理名词实际上并不大可能是该文档内容中谈及事 件的核心地理信息,因此,需要将新闻机构中的地理名词滤除,且该操作可以 在S101之前或之后进行。例如,北京日报、广州日报等,其中包含的北京、 广州属于新闻机构名称的一部分,不应当被参与到前述分值的计算当中。
具体的,可以预置一个新闻机构名称表,该新闻机构名称表中包括新闻机 构名称,例如新华社,日报,新闻网等,称为新闻机构名称表。如果文档中的 地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,则将该地 理名词的这一次出现忽略。例如,网页中的文档内出现"新华社北京电",尽 管"北京"为地理名词,但是由于其前面紧邻的文字"新华社"为新闻机构名 称表中的词汇,因此,"新华社北京电,,中的"北京"将不被计为正常地理名词出现的频率,而是^C忽略。
需要说明的是,上述地理名词还可以包括任何表示地理信息的词,例如高
校名称、兴趣点数据(Point Of Interest, POI)名称、企业名称、特产名称、 小区名称、景点名称等,因为这些词也都可以代表地理信息。例如高校,清华 大学可以代表北京市海淀区五道口地区这一地理信息;例如兴趣点数据,毛家 饭店蓝堡店可以代表北京市西大望路蓝堡国际中心这一地理信息;例如企业名 称,淘宝网可以代表浙江省杭州市文二路391号这一地理信息;例如特产名称, 西湖龙井可以代表浙江省杭州市西湖区这一地理信息;例如景点名称,颐和园 可以代表北京市海淀区这一地理信息;例如小区名称,阳光100可以代表北京 市朝阳区西大望路这一地理信息;等等。
S102:根据预置的地理信息库计算所述各地理名词隶属的级别相同的行政 区划的分值。
这里首先介绍所述地理信息库。
该地理信息库中存储有地理名称。例如省级行政区类的省、直辖市、自治 区、特别行政区,地区级行政区类的地区市、地区、自治州、盟名称等,县级 行政区类的市辖区、县级市、县、自治县、旗、自治旗、特区、林区名称等, 乡级行政区类的镇、乡、街道、苏木名称等,村级行政区类的社区、居委会、 村名称等。
该地理信息库中,除了具备前述预置的全部地理名称,还有所有地理名称 之间的隶属关系。例如,该地理信息库中包括四川这一省级区划,四川之下包 括所有市级的行政区划,每个市下面包括县级的行政区划,每个县下面包括区 给的行政区划,依次类推,并且其它省级行政区划也类似。当然,所述地理信 息库中还可以包括国家级别的地理信息,并且,不同国家之下包括各自的州、 省等行政区划,在此不再赘述。
图2示出了预置的地理信息库的结构图。上述地理信息库中的地理名称与 行政区划的隶属关系可以如图2中组织。
这样,按照预置的地理信息库,可以得到出现的地理信息隶属的或包括的行政区划的地理名称。例如,朝阳区隶属于北京市,而朝阳区下包括建国门外 大街、大望路等地理信息。
S102中,即是根据预置的地理信息库,计算所述各地理名词隶属的级别 相同的行政区划的分值。
以下通过一例子说明S102的一种实现方式。
例如S101中,得到一篇文档中承德的分值为7,秦皇岛的分值为3,北京 的分值为9,香港岛的分值为3。而事实上承德为该文档中的核心地理信息。
该情况下,根据预置的地理信息库可知,承德和秦皇岛都隶属于河北这一 行政区划,则可以将承德的分值7与秦皇岛的分值3之和作为河北的分值,即 为10。北京隶属于北京市,香港岛属于香港,北京市与香港、河北的级别相 同,都属于是省级行政区划。北京市的分值这里可以为北京的分值,即为9; 香港的分值这里可以与香港岛的分值相同,即为3。
这样,S102中,得到了各地理名词隶属的级别相同的行政区划的分值。 根据级别相同的行政区划的分值,通过后续步骤,可以确定文档中的核心地理
4吕息。
S103:将分值最高的所述行政区划下分值最高的地理信息确定为所述文档 的核心地理信息。
仍然如S102中的例子, 一篇文档中承德的分值为7,秦皇岛的分值为3, 北京的分值为9,香港岛的分值为3。根据S102,承德和秦皇岛隶属的河北的 分值为10,北京市的分值为9;香港的分值为3。如图3所示的该例子的行政 区划图,按照S103,分值最高的行政区划为河北,分值为10,则将河北下的 分值最高的承德(分之为7)作为该文档的核心地理信息。
这样,在该文档中,尽管北京的分值(9)较承德(7)、秦皇岛(3)高, 但是,按照上述步骤,最终将河北下的承德确定为该文档的核心地理信息,得 到正确结果。
以下例举一个具体实施例加以说明。
14网页中的文档内容介绍了全国各地对四川地震灾情的援助情况,谈到了很多地 方,如济南市、绵阳市、游仙区、汶川、北京市、西城区、河南、湖北、枣阳、 清镇、剑河、河北省、营山县、永德、盘龙、全州、浙江、三门、瓯海、富平、 景县、卧龙、映秀、绵阳市游仙区,但是核心地域是四川省绵阳市。
按照S101中,分值=频率+位置权重,且位置权重可以预定义为在标题
中出现时权重为3,在正文第一段出现时权重为2,在正文其它部分中出现时 权重为l,则得到各个地理名词的分值分别是
济南市5
绵阳市9
游仙区5
汶川8
北京市2
西i成区2
河南2
湖北3
奉阳2
清镇2
剑河2
河北省4
营山县2
永德2
盘龙2
全州2
浙江2
三门2
瓯海2
富平2
15景县2 卧龙9 映秀5
需要说明的是,上述地理信息中的汶川,由于不仅在正文中出现3次,还 在标题中出现l次,因此汶川的分值是(3+1)+(1+3) = 8,汶川得到了加强, 其它的类似。
另外,上述地理名词中,在文档中存在连续的"绵阳市游仙区",接照前 述S101,上述分值计算中,对绵阳市、游仙区这两个地理名词的分值分别增 加了 1 (设预设值为1)。类似的,所述文档中页存在"北京市西城区"、"湖北 枣阳"、"浙江三门"这样的连续地理名词,对于每一地理名词,也都为相应分 值增加了预设值。
按照S102,根据预置的地理信息库计算所述各地理名词隶属的级别相同 的行政区划的分值,则四川省有映秀,汶川,游仙区,绵阳市,剑河,盘龙, 营山县,这些地理信息的分值总和为34,浙江省出现了三门,瓯海,分值总 和为7,北京分值总和为4。
按照S103,四川的分值为四川、浙江和北京这三个同一级别行政区划中 最高。在四川省内,各个地理名词的分值依次是
映秀5
汶川8
游仙区6
绵阳市9
剑河2
盘龙2
营山县2
可见,绵阳市的分值为四川下的最高,因此,最终得到该文档的核心地理 信息为"四川省-绵阳市"。
由上述实施例可见,按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,根据预置的地理信息库计算所述各地理名词 隶属的级别相同的行政区划的分值,将分值最高的所述行政区划下分值最高的 地理信息确定为所述文档的核心地理信息,对出现在更可能为核心地理信息位 置的地理信息进行了加强,并从隶属的行政区划上考虑和比较分值,从而可以 更准确的确定文档内容中的核心地理信息。
图4示出了本发明确定文档中核心地理信息的方法的另一实施例的流程
图,如图4所示,该实施例包括
S401:按照文档中各地理名词出现的频率,并根据预定义的位置权重计算 各地理名词的分值。
该步骤与前述S101类似,在此不再赘述。
另外,与前面类似的,连续出现的地理名词,其成为核心地理信息的可能 性较大。因此,出现的连续地理名词组合应当较高的权重,以使其更有可能在 本实施例中成为最终的核心地理信息。
因此,这里可以估文如下处理对于这些连续的地理名词,将其中每一个地 理名词对应分值增加 一 个预_没值。
此外,文档中还可能包含新闻机构的名称,而这些机构名称中还常包括一 些地理名词,这时,这样的地理名词实际上并不大可能是该文档内容中谈及事 件的核心地理信息,因此,需要将新闻机构中的地理名词滤除,且该操作可以 在S401之前或之后进行。例如,北京日报、广州日报等,其中包含的北京、 广州属于新闻机构名称的一部分,不应当^皮参与到前述分值的计算当中。
具体的,可以预置一个新闻机构名称表,该新闻机构名称表中包括新闻机 构名称,例如新华社,日报,新闻网等,称为新闻机构名称表。如果文档中的 地理名词的前后紧邻的文字中存在新闻机构名称表中的词汇,则将该地理名词 的这一次出现忽略。例如,网页中的文档内出现"新华社北京电",尽管"北 京,,为地理名词,但是由于其前面紧邻的文字"新华社"为新闻机构名称表中 的词汇,因此,"新华社北京电"中的"北京"将不#:计为正常地理名词出现 的频率,而是被忽略。
17S402:将分值最大的地理名词确定为所述文档的核心地理信息。 该实施例与前述实施例不同,这里并不根据预置的地理信息库计算各地理 名词隶属的级别相同的行政区划的分值,而是直接比较S401中各地理名词计 算得到分分值。这是因为,对于一些文档,其内容中出现的地理名词按照S401 计算分值后,不同地理名词的分值存在较明显的差别,因此可以直接比4交得出 核心地理信息,而不必再根据地理信息库计算。 以下举一具体例子加以-说明。
URL为http:〃china.ziol.com.cn/05china/svstem/2008/05/28/009565074.shtml 的网页,该网页中的文档内容出现了茂县、汶川、土门、岷江这几个地理名词, 按照S401,可以得到各地理名词的分值如下
茂县17
汶川4
土门2
山民江2
而且,这几个地理名词都在四川省内,则按照S402,最大分值的地理名 词确定核心地理信息,结果为茂县,其完整的地理信息为"中国.四川省.阿坝 藏力臭晃》矣自治州.茂县"。
以下介绍本发明确定文档中核心地理信息的第一系统实施例,图5示出了 该系统实施例的框图,如图5所示,该系统实施例包括
第一分值计算单元51,用于按照文档中各地理名词出现的频率,并根据 预定义的位置权重计算各地理名词的分值;
第二分值计算单元52,用于根据预置的地理信息库,计算所述各地理名 词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及 所有地理名称间的隶属关系;
确定单元53,用于将分值最高的所述行政区划下分值最高的地理信息确 定为所述文档的核心地理信息。
18优选地,所述系统可以进一步如图6所示,其中,所述第一分值计算单元
51可以包4舌
词频计算单元61,用于计算地理信息的出现频率;
位置权重计算单元62,用于计算所述地理信息按照出现位置对应的权重;
求和单元63,用于将所述地理信息的出现频率与按照位置对应权重之和 确定为该地理信息的分值。
优选地,所述第一分值计算单元还可以包括
分值增加单元64,对于连续出现的地理名词,用于将其中每一个地理名 词对应分值增加一个预设值。
优选地,所述第一分值计算单元还可以包括
滤除单元65,用于在词频计算单元计算地理信息的出现频率过程中,如 果地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,将所述 地理名词的该次出现忽略。
以下介绍本发明确定文档中核心地理信息的第二系统实施例,图7示出了 该系统实施例的框图,如图7所示,该系统实施例包括
分值计算单元71,用于按照文档中各地理名词出现的频率,并根据预定 义的位置权重计算各地理名词的分值;
确定单元72,用于将分值最大的地理名词确定为所述文档的核心地理信

优选地,所述系统可以进一步如图8所示,其中,所述第一分值计算单元 71可以包4舌
词频计算单元81,用于计算地理信息的出现频率;
位置权重计算单元82,用于计算所述地理信息按照出现位置对应的权重;
求和单元83,用于将所述地理信息的出现频率与按照位置对应权重之和 确定为该地理信息的分值。
优选地,所述分值计算单元还可以包括分值增加单元84,对于连续出现的地理名词,用于将其中每一个地理名 词对应分值增加一个预设值。
优选地,所述分值计算单元还可以包括
滤除单元85,用于在词频计算单元计算地理信息的出现频率过程中,如 果地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,将所述 地理名词的该次出现忽略。
虽然通过上述实施例描绘了本发明,本领域普通技术人员知道,本发明有 许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和 变化而不脱离本发明的精神。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本 发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发 明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形 式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、 光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,
20
权利要求
1、一种确定文档中核心地理信息的方法,其特征在于,包括按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;根据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。
2、 如权利要求l所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置 对应一又重之和。
3、 如权利要求2所述的方法,其特征在于,所述按照出现位置对应权重 包括在标题中出现时权重为3,在正文第一段出现时权重为2,在正文其它部 分中出现时权重为1。
4、 如权利要求l所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括对于连续出现的地理名词,将其中每一个地理名词对应分值增加一个预设值。
5、 如权利要求l所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括如果文档中的地理名词的前后紧邻的文字中存在预置的新闻机构名称表 中的词汇,则将所述地理名词的该次出现忽略。
6、 一种确定文档中核心地理信息的方法,其特征在于,包括 按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;将分值最大的地理名词确定为所述文档的核心地理信息。
7、 如权利要求6所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置 对应一又重之和。
8、 如权利要求7所述的方法,其特征在于,所述按照出现位置对应权重 包括在标题中出现时权重为3,在正文第一段出现时权重为2,在正文其它部 分中出现时权重为1。
9、 如权利要求6所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括对于这些连续的地理名词,将其中每一个地理名词对应分值增加一个预i殳值。
10、 如权利要求6所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括如果文档中的地理名词的前后紧邻的文字中存在预置的新闻机构名称表 中的词汇,则将所述地理名词的该次出现忽略。
11、 一种确定文档中核心地理信息的系统,其特征在于,包括 第一分值计算单元,用于按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;第二分值计算单元,用于根据预置的地理信息库,计算所述各地理名词隶 属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有 地理名称间的隶属关系;确定单元,用于将分值最高的所述行政区划下分值最高的地理信息确定为 所述文档的核心地理信息。
12、 如权利要求11所述的系统,其特征在于,所述第一分值计算单元包括词频计算单元,用于计算地理信息的出现频率;位置权重计算单元,用于计算所述地理信息按照出现位置对应的权重; 求和单元,用于将所述地理信息的出现频率与按照位置对应权重之和确定 为该地理信息的分值。
13、 如权利要求12所述的系统,其特征在于,所述第一分值计算单元还 包括分值增加单元,对于连续出现的地理名词,用于将其中每一个地理名词对 应分值增加 一个预设值。
14、 如权利要求12所述的系统,其特征在于,所述第一分值计算单元还 包括滤除单元,用于在词频计算单元计算地理信息的出现频率过程中,如果地 理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,将所述地理 名词的该次出现忽略。
15、 一种确定文档中核心地理信息的系统,其特征在于,包括 分值计算单元,用于按照文档中各地理名词出现的频率,并才艮据预定义的位置权重计算各地理名词的分值;确定单元,用于将分值最大的地理名词确定为所述文档的核心地理信息。
16、 如权利要求15所述的系统,其特征在于,所述分值计算单元包括 词频计算单元,用于计算地理信息的出现频率;位置权重计算单元,用于计算所述地理信息按照出现位置对应的权重; 求和单元,用于将所述地理信息的出现频率与按照位置对应权重之和确定 为该地理信息的分值。
17、 如权利要求15所述的系统,其特征在于,所述分值计算单元还包括 分值增加单元,对于连续出现的地理名词,用于将其中每一个地理名词对应分值增加一个预设值。
18、 如权利要求15所述的系统,其特征在于,所述分值计算单元还包括 滤除单元,用于在词频计算单元计算地理信息的出现频率过程中,如果地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,将所述地理名词的该次出现忽略。
全文摘要
本发明公开了一种确定文档中核心地理信息的方法、系统。一种确定文档中核心地理信息的方法实施例,包括按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;根据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。利用本发明,可以更准确的确定文档内容中的核心地理信息。
文档编号G06F17/27GK101661461SQ20081013552
公开日2010年3月3日 申请日期2008年8月29日 优先权日2008年8月29日
发明者刘维佳, 周洪喜, 李晓拴, 暄 王, 王名悠, 陈传文, 雷国平, 娜 马 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1