网络信息所属地域识别方法及装置与流程

文档序号:12802778阅读:398来源:国知局
网络信息所属地域识别方法及装置与流程

本发明涉及通信技术领域,更具体的涉及网络信息所属地域识别方法及装置。



背景技术:

随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为信息主要载体之一,网络的传播特性使得海量的网络信息涌向用户。

但用户还是更关注发生在身边的事情,因此如何能够准确的识别网络信息中的地域信息,显得尤为重要。



技术实现要素:

有鉴于此,本发明提供了一种网络信息所属地域识别方法及装置,以克服现有技术中没有识别网络信息所属地域的问题。

为实现上述目的,本发明提供如下技术方案:

一种网络信息所属地域识别方法,包括:

获取网络信息中包括的地域集合,所述地域集合包括至少一个地域;

依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重,权重用于表征所述网络信息所属地域为相应地域的概率;

依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域。

其中,所述获取网络信息中包括的地域名称集包括:

将所述网络信息进行划分,获得多个词;

从所述多个词中,获得与预先存储的各地域相匹配的目标词;

由所述目标词组成所述地域集合。

其中,所述依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重包括:

判断所述地域集合中每一地域在所述网络信息中出现的位置;

当所述地域集合中第一地域在所述网络信息中的标题位置时,依据第一函数计算所述第一地域的权重,所述第一函数以相应地域在所述标题中的位置为因变量,以权重为自变量的函数,且所述第一函数的自变量和因变量为负相关;

当所述地域集合中第二地域在所述网络信息的正文中位置时,依据第二函数计算所述第二地域的权重,所述第二函数以相应地域在所述正文中的位置为因变量,以权重为自变量的函数,且所述第二函数的自变量和因变量为负相关。

其中,所述依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重,还包括:

当所述地域集合中第三地域在所述网络信息中出现的次数大于等于两次时,将所述第三地域对应的各权重相加;

将所述第三地域对应的各权重相加之和,确定为所述第三地域的权重。

其中,所述依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域包括:

依据预先存储的用于表征各地域所属关系的上下级关系,判断所述地域集合中各地域之间是否具有上下级关系;

当所述地域集合中至少两个地域之间具有上下级关系时,将所述至少两个地域确定为一细粒度地域;

将所述至少两个地域相应的权重进行预设计算,获得所述细粒度地域相应的权重;

依据所述地域集合中每一细粒度地域相应的权重,以及所述地域集合中与各地域都不具有上下级关系的粗粒度地域相应的权重,从所述地域集合包含的细粒度地域和粗粒度地域中,确定所述网络信息所属地域。

其中,所述从所述地域集合包含的细粒度地域和粗粒度地域中,确定所述网络信息所属地域包括:

判断所述地域集合包含的细粒度地域和粗粒度地域相应的权重与第一预设阈值的大小关系;

当大于等于所述第一预设阈值的权重的个数为零个时,确定所述网络信息无所属地域;

当大于等于所述第一预设阈值的权重的个数为至少一个时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性,所述目标地域为细粒度地域或粗粒度地域。

其中,所述当大于等于所述第一预设阈值的权重的个数为至少一个时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性包括:

当大于等于所述第一预设阈值的权重的个数为一个时,将大于等于所述第一预设阈值的权重相应的目标地域,确定为所述网络信息所属地域属性;

当大于等于所述预设阈值的权重的个数为至少两个时,计算大于等于所述预设阈值的权重相应的至少两个目标地域中,每两个目标地域相应权重的差值;

当至少一个差值大于等于第二预设阈值时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性;

当所有差值均小于所述第二预设阈值时,确定所述网络信息无所属地域。

一种网络信息所属地域识别装置,包括:

获取模块,用于获取网络信息中包括的地域集合,所述地域集合包括至少一个地域;

第一确定模块,用于依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重,权重用于表征所述网络信息所属地域为相应地域的概率;

第二确定模块,用于依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域。

其中,所述第一确定模块包括:

第一判断单元,用于判断每一地域在所述网络信息中出现的位置;

第一计算单元,用于当所述地域集合中第一地域在所述网络信息中的标题位置时,依据第一函数计算所述第一地域的权重,所述第一函数以相应地域在所述标题中的位置为因变量,以权重为自变量的函数,且所述第一函数的自变量和因变量为负相关;

第二计算单元,用于当所述地域集合中第二地域在所述网络信息的正文中位置时,依据第二函数计算所述第二地域的权重,所述第二函数以相应地域在所述正文中的位置为因变量,以权重为自变量的函数,且所述第二函数的自变量和因变量为负相关。

其中,所述第二确定模块包括:

第二判断单元,用于依据预先存储的用于表征各地域所属关系的上下级关系,判断所述地域集合中各地域之间是否具有上下级关系;

第一确定单元,用于当所述地域集合中至少两个地域之间具有上下级关系时,将所述至少两个地域确定为一细粒度地域;

获取单元,用于将所述至少两个地域相应的权重进行预设计算,获得所述细粒度地域相应的权重;

第二确定单元,用于依据所述地域集合中每一细粒度地域相应的权重,以及所述地域集合中与各地域都不具有上下级关系的粗粒度地域相应的权重,从所述地域集合包含的细粒度地域和粗粒度地域中,确定所述网络信息所属地域。

经由上述的技术方案可知,与现有技术相比,本发明实施例提供的网络信息所属地域识别方法中,通过获取网络信息中包含的地域集合;依据地域集合中每一地域在网络信息中出现的次数以及位置,确定每一地域相应的权重,权重用于表征网络信息所属地域为相应地域的概率。依据每一地域相应的权重,从地域名称集中,确定网络信息所属地域。从而在推送网络信息时,依据网络信息所属地域进行相应推送。例如,对宝安区的用户推送宝安区的网络信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种网络信息所属地域识别方法的流程图;

图2为本发明实施例提供的一种网络信息所属地域识别方法中依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重的一种实现方式的方法流程示意图;

图3为本发明实施例提供的地域树状结构的部分示意图;

图4为本发明实施例提供的网络信息所属地域识别方法中依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域的一种实现方式的方法流程示意图;

图5为采用本发明实施例提供的网络信息所属地域识别方法识别各网络信息所属地域的示意图;

图6为本发明实施例提供的网络信息所属地域识别装置的结构示意图;

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1,为本发明实施例提供的一种网络信息所属地域识别方法的流程图,该方法包括:

步骤s101:获取网络信息中包括的地域集合,所述地域集合包括至少一个地域。

本发明实施例是针对网络信息中记载有地域的网络信息而言的,若网络信息中根本就不包括地域,则本发明实施例无法通过网络信息获知其所属地域。

网络信息可以为语音信息、文本信息等等。当网络信息为语音信息时,可以将语音信息转换为文本信息。本发明实施例提供但不限于以下“获取网络信息中包括的地域集合”的实现方法。

对网络信息进行划分,获得多个词;从所述多个词中,获得与预先存储的各地域相匹配的目标词;由所述目标词组成所述地域集合。

假设网络信息为:宝安区文化节。

可以将网络信息划分为:宝、宝安、宝安区、宝安区文、宝安区文化、宝安区文化节;安、安区、安区文、安区文化、安区文化节;区、区文、区文化、区文化节;文、文化、文化节;化、化节;节。

优选的,由于中文文本的特殊性,在提取词的时候需要用分词工具准确的将网络信息切分成词和短语并且过滤掉如“地、的、她、他、它....”等无用的助词、副词、停用词。若网络信息为英文词汇,则可以过滤掉如:a、an等词。

上述各地域可以预先存储在地域信息库中。各地域可以包含全国或全世界所有的省、市、县、镇、村,优选的,各地域还可以包含街道信息,居委会信息,地域的经纬度信息,以及一些地域的标志性信息,比如济南的大明湖,北京的故宫等等。

通过将对网络信息划分的多个词与预先存储的各地域进行匹配,可以获得宝安区这一地域词汇。

步骤s102:依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重,权重用于表征所述网络信息所属地域为相应地域的概率。

网络信息一般包括标题和正文,地域在网络信息中出现的位置可以是指地域在正文中出现,或,地域在标题中出现。

地域在网络中出现的位置还可以是指地域位于文中的第几个词,若网络信息为“宝安区文化节”为例,宝安区的位置为第1个词,即宝安区在该网络信息中出现的位置为1。

优选的,地域在标题中出现时相应的权重,高于在正文中出现时相应的权重。

地域的权重与地域在网络信息中出现的次数呈正相关,与出现的位置呈负相关。

正相关(positivecorrelation),是指两个变量变动方向相同,一个变量由大到小或由小到大变化时,另一个变量亦由大到小或由小到大变化。

负相关是指两个变量变动方向相反,一各变量由大到小或由小到大变化时,另一个变量反而由小到大或由大到小变化。

步骤s103:依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域。

权重越大的地域,是网络信息所属地域的可能性越大。

本发明实施例提供的网络信息所属地域识别方法中,通过获取网络信息中包含的地域集合;依据地域集合中每一地域在网络信息中出现的次数以及位置,确定每一地域相应的权重,权重用于表征网络信息所属地域为相应地域的概率。依据每一地域相应的权重,从地域名称集中,确定网络信息所属地域。从而在推送网络信息时,依据网络信息所属地域进行相应推送。例如,对宝安区的用户推送宝安区的网络信息。

如图2所示,为本发明实施例提供的一种网络信息所属地域识别方法中依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重的一种实现方式的方法流程示意图,该方法包括:

步骤s201:判断所述地域集合中每一地域在所述网络信息中出现的位置。

步骤s202:当所述地域集合中第一地域在所述网络信息中的标题位置时,依据第一函数计算所述第一地域的权重。

所述第一函数以相应地域在所述标题中的位置为因变量,以权重为自变量的函数,且所述第一函数的自变量和因变量为负相关。

第一函数的具体呈现公式有多种,本发明实施例提供但不限于以下公式:

第一函数的权重=第一数值1/位置,其中,第一数值可以为大于等于1的任意值,假设第一数值为2,则第一函数的权重=21/位置,仍以宝安区文化节为例,假设宝安区文化节为标题,则宝安区的权重=21/1=2。再以“首届福永黄油蟹美食文化节在宝安区举行”为标题为例,宝安区的权重=21/14

步骤s203:当所述地域集合中第二地域在所述网络信息的正文中位置时,依据第二函数计算所述第二地域的权重。

所述第二函数以相应地域在所述正文中的位置为因变量,以权重为自变量的函数,且所述第二函数的自变量和因变量为负相关。

第二函数的具体呈现公式有多种,本发明实施例提供但不限于以下公式:

第二函数的权重=第二数值1/位置其中,第二数值可以为大于等于1的任意值,优选的,第二数值小于第一数值。假设第一数值为1.01,则第一函数的权重=1.011/位置,仍以宝安区文化节为例,假设宝安区文化节为正文,则宝安区的权重=1.011/1=1.01。再以“首届福永黄油蟹美食文化节在宝安区举行”为正文为例,宝安区的权重=1.011/14

可以理解的是,若同一地域在网络信息中出现的次数大于等于2次时,该地域为网络信息所属地域的概率就更大,此时还包括:

步骤s204:当所述地域集合中第三地域在所述网络信息中出现的次数大于等于两次时,将所述第三地域对应的各权重相加。

步骤s205:将所述第三地域对应的各权重相加之和,确定为所述第三地域的权重。

上述第一地域、第二地域、第三地域可能是同一地域,也可能是不同的地域。若为同一地域,则表明,同一地域在标题和正文中都出现了。

可以理解的是,网络信息中包含的地域可能没有上下级关系,例如:北京和上海,但是有的地域是有上下级关系的,例如,广东省、深圳市、宝安区。上述实施例中,预先存储的各地域,可以通过树状结构存储的,即地域信息库中以树状结构存储各地域的,通过该树状结构可以找到地域集合中每一地域所在的分支。如图3所示,为本发明实施例提供的地域树状结构的部分示意图。

图3中,河北省、保定市、博野县、许村为一个分支;广东省、深圳市、宝安区为另一个分支。可以通过树状结构判断地域集合中各地域之间是否有上下级关系。这样可以获得更加细粒度的地域。例如许村相比河北省是更加细粒度的地域。假设地域集合中包括:河北省、保定市、博野县、许村、广东省、深圳市、宝安区、北京;则河北省、保定市、博野县、许村对应一细粒度地域;广东省、深圳市、宝安区对应一细粒度地域。北京对应粗粒度地域。

如图4所示,为本发明实施例提供的网络信息所属地域识别方法中依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域的一种实现方式的方法流程示意图,该方法包括:

步骤s401:依据预先存储的用于表征各地域所属关系的上下级关系,判断所述地域集合中各地域之间是否具有上下级关系。

由于有些地域是有歧义的,例如,对于朝阳这一地域而言,北京有朝阳区,辽宁有朝阳市。假设地域集合中包括:辽宁省、朝阳,则可以依据预先存储的各地域所属关系的上下级关系,确定朝阳为辽宁省的朝阳市。因此,本发明实施例提供的步骤s401还可以有效的解决地域中有歧义的问题。

步骤s402:当所述地域集合中至少两个地域之间具有上下级关系时,将所述至少两个地域确定为一细粒度地域。

步骤s403:将所述至少两个地域相应的权重进行预设计算,获得所述细粒度地域相应的权重。

预设计算可以为乘积、求平均值等等。

以广东省、深圳市、宝安区为例,则宝安区的权重=广东省的权重*深圳市权重*保安区的权重,或,宝安区的权重=(广东省的权重+深圳市权重+保安区的权重)/3。

步骤s404:依据所述地域集合中每一细粒度地域相应的权重,以及所述地域集合中与各地域都不具有上下级关系的粗粒度地域相应的权重,从所述地域集合包含的细粒度地域和粗粒度地域中,确定所述网络信息所属地域。

可以理解的是,若地域集合中每一细粒度地域相应的权重、每一粗粒度地域相应的权重都比较小,则说明该网络信息没有明显的地域属性。所述从所述地域集合包含的细粒度地域和粗粒度地域中,确定所述网络信息所属地域包括:

判断所述地域集合包含的细粒度地域和粗粒度地域相应的权重与第一预设阈值的大小关系;

当大于等于所述第一预设阈值的权重的个数为零个时,确定所述网络信息无所属地域;

当大于等于所述第一预设阈值的权重的个数为至少一个时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性,所述目标地域为细粒度地域或粗粒度地域。

可以理解的是,若大于等于所述第一预设阈值的权重的个数为至少一个时,且大于等于所述第一预设阈值的权重相应的各目标地域相应的权重中,任意两个目标地域相应权重的差值都较小时,说明网络信息可能仍没有明显地域属性。或者,网络信息所属地域为多个目的地域。

所述当大于等于所述第一预设阈值的权重的个数为至少一个时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性包括:

当大于等于所述第一预设阈值的权重的个数为一个时,将大于等于所述第一预设阈值的权重相应的目标地域,确定为所述网络信息所属地域属性;

当大于等于所述预设阈值的权重的个数为至少两个时,计算大于等于所述预设阈值的权重相应的至少两个目标地域中,每两个目标地域相应权重的差值;

当至少一个差值大于等于第二预设阈值时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性;

当所有差值均小于所述第二预设阈值时,确定所述网络信息无所属地域。

上述第一预设值和第二预设值可以根据实际情况进行设置。

如图5所示,为采用本发明实施例提供的网络信息所属地域识别方法识别各网络信息所属地域的示意图。

图5中,用虚线框框出的部分为每一网络信息相应的地域集合所包含的地域。

图5中示出了采用本发明实施例提供的网络信息所属地域识别方法识别地域新闻、招聘信息、寻人启事、地域美食的例子。采用本发明实施例提供的网络信息所属地域识别方法还可以识别其他网络信息,例如天气预报等等。

本发明实施例还提供了与网络信息所属地域识别方法,对应的网络信息所属地域识别装置,如图6所示,为本发明实施例提供的网络信息所属地域识别装置的结构示意图,该网络信息所属地域识别装置包括:

获取模块61,用于获取网络信息中包括的地域集合,所述地域集合包括至少一个地域;

第一确定模块62,用于依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重,权重用于表征所述网络信息所属地域为相应地域的概率;

第二确定模块63,用于依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域。

可选的,获取模块包括:

获取词汇单元,用于将所述网络信息进行划分,获得多个词;

获取目标词单元,用于从所述多个词中,获得与预先存储的各地域相匹配的目标词;

组成单元,用于由所述目标词组成所述地域集合。

可选的,第一确定模块包括:

第一判断单元,用于判断每一地域在所述网络信息中出现的位置;

第一计算单元,用于当所述地域集合中第一地域在所述网络信息中的标题位置时,依据第一函数计算所述第一地域的权重,所述第一函数以相应地域在所述标题中的位置为因变量,以权重为自变量的函数,且所述第一函数的自变量和因变量为负相关;

第二计算单元,用于当所述地域集合中第二地域在所述网络信息的正文中位置时,依据第二函数计算所述第二地域的权重,所述第二函数以相应地域在所述正文中的位置为因变量,以权重为自变量的函数,且所述第二函数的自变量和因变量为负相关。

可选的,第一确定模块还包括:

相加单元,用于当所述地域集合中第三地域在所述网络信息中出现的次数大于等于两次时,将所述第三地域对应的各权重相加;

确定权重单元,用于将所述第三地域对应的各权重相加之和,确定为所述第三地域的权重。

可选的,第二确定模块包括:

第二判断单元,用于依据预先存储的用于表征各地域所属关系的上下级关系,判断所述地域集合中各地域之间是否具有上下级关系;

第一确定单元,用于当所述地域集合中至少两个地域之间具有上下级关系时,将所述至少两个地域确定为一细粒度地域;

获取单元,用于将所述至少两个地域相应的权重进行预设计算,获得所述细粒度地域相应的权重;

第二确定单元,用于依据所述地域集合中每一细粒度地域相应的权重,以及所述地域集合中与各地域都不具有上下级关系的粗粒度地域相应的权重,从所述地域集合包含的细粒度地域和粗粒度地域中,确定所述网络信息所属地域。

可选的,第二确定单元包括:

判断子单元,用于判断所述地域集合包含的细粒度地域和粗粒度地域相应的权重与第一预设阈值的大小关系;

第一确定子单元,用于当大于等于所述第一预设阈值的权重的个数为零个时,确定所述网络信息无所属地域;

第二确定子单元,用于当大于等于所述第一预设阈值的权重的个数为至少一个时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性,所述目标地域为细粒度地域或粗粒度地域。

可选的,第二确定子单元包括:

第一确定子模块,用于当大于等于所述第一预设阈值的权重的个数为一个时,将大于等于所述第一预设阈值的权重相应的目标地域,确定为所述网络信息所属地域属性;

计算子模块,用于当大于等于所述预设阈值的权重的个数为至少两个时,计算大于等于所述预设阈值的权重相应的至少两个目标地域中,每两个目标地域相应权重的差值;

第二确定子模块,用于当至少一个差值大于等于第二预设阈值时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性;

第三确定子模块,用于当所有差值均小于所述第二预设阈值时,确定所述网络信息无所属地域。

本发明实施例还提供了一种电子设备,如图7所示,为本发明实施例提供的电子设备的结构示意图,该电子设备包括:处理器71,通信接口72,存储器73和通信总线74;

其中处理器71、通信接口72、存储器73通过通信总线74完成相互间的通信;

可选的,通信接口72可以为通信模块的接口,如gsm模块的接口;

处理器71,用于执行程序;

存储器73,用于存放程序和数据;

程序可以包括程序代码,所述程序代码包括计算机操作指令;数据可以包括地域或地域之间的上下级关系。

处理器71可能是一个中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器73可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

其中,程序可具体用于:

获取网络信息中包括的地域集合,所述地域集合包括至少一个地域;

依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重,权重用于表征所述网络信息所属地域为相应地域的概率;

依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1