一种基于地理信息的问题推送方法及系统的制作方法

文档序号：6431764阅读：137来源：国知局

专利名称：一种基于地理信息的问题推送方法及系统的制作方法
一种基于地理信息的问题推送方法及系统
技术领域：
本发明涉及互联网应用技术领域，尤其涉及一种基于地理信息的问题推送方法及系统。
背景技术：
随着计算机和网络技术的发展，网络互动问答平台为网民提供了一个可以进行互动交流的平台，越来越受到人们的欢迎，如百度知道、新浪爱问、谷歌问答、搜搜问问、雅虎知识堂等。人们可以提出问题，接受专家或者其他用户的帮助，也可以解决问题，为其他用户提供帮助。在网络互动问答平台的交互过程中，问题推送系统起着十分重要的作用。问题推送系统根据用户的问答记录，主动地将问题分门别类地传送到相应的用户设备中。它一方面可以为用户推送其可能感兴趣的问题，增加用户的积极性，另一方面通过及时的问题推送，有利于解决其他用户的问题，可以提高问题的解答率。这种主动推送问题的方式，改变了互联网上单一地信息访问的方式，将用户搜寻信息变为有目的地接收信息，从而改变了信息流动的方向，有助于减少用户漫无目的浏览、点击等行为，同时通过信息流量的减少减轻网站服务器的负担。现有的问题推送系统的主要技术思路是通过挖掘用户的答复或提问等历史记录得到用户的兴趣词模型，并以相关的兴趣词模型为基础进行推送。然而，虽然基于用户兴趣进行问题推送，但在很多时候，由于地理位置的原因，用户无法对感兴趣的问题进行解答。例如，某用户虽然对数码产品感兴趣，现有问题推送方式可能会向该用户推送诸如“尼康 D7000在上海的售价为多少”、“三星手机在杭州的维修点在哪里”之类的问题，而该用户可能在北京，对这些问题虽然感兴趣但由于地理位置的限制无法解答。因此，单纯基于用户兴趣的问题推送方式不但没有起到应有的作用，反而降低用户了的使用感受，同时对服务器和客户端都会造成负担和资源的浪费。

发明内容为了解决上述问题，本发明提供了一种基于地理信息的问题推送方法及系统，使得问题推送更加精确，减小服务器和客户端的负担和资源浪费。具体技术方案如下相应地，本发明实施例提供的一种基于地理信息的问题推送方法，预先根据用户属性信息中的地理词建立各用户的用户地理模型；该方法包括A、获取用户提交的问题，并从所述问题中提取地理词；B、利用提取的地理词与各用户地理模型进行匹配，利用匹配到的用户地理模型对应的用户形成用户列表；C、将所述问题推送给所述用户列表中的用户。根据本发明之一优选实施例，所述预先根据用户属性信息中的地理词建立各用户的用户地理模型具体包括从各用户属性信息中得到各用户的地理字段文本；对各用户的地理字段文本进行分词；从分词结果中提取地理词并赋予原始地理权重形成各用户的用户地理模型。根据本发明之一优选实施例，根据地理词的倒文档率为地理词赋予原始地理权重。根据本发明之一优选实施例，所述步骤A具体包括Al、获取用户提交的问题或问题的标题文本；A2、对所述问题或所述标题文本进行分词；A3、从分词结果中提取地理词，并为所述地理词赋予当前地理权重。根据本发明之一优选实施例，在步骤A3中，根据地理词的倒文档率与步骤A2得到的分词结果中各词语的倒文档率之和的比值，为地理词赋予当前地理权重。根据本发明之一优选实施例，将建立的各用户的用户地理模型存至用户地理模型库，且利用各用户地理模型的地理词建立倒排索引；步骤B中所述利用提取的地理词与各用户地理模型进行匹配具体为利用所述提取的地理词在所述用户地理模型库中查找倒排索引，将命中的用户地理模型对应的用户确定为所述匹配到的用户地理模型对应的用户。根据本发明之一优选实施例，步骤B中所述利用匹配到的用户地理模型对应的用户形成用户列表具体包括计算所述匹配到的用户地理模型对应的用户与所述问题的匹配得分，所述匹配得分为从所述问题中提取的地理词的最终权重之和，所述最终权重为地理词在命中的用户地理模型中的原始地理权重与地理词的当前地理权重的乘积；选取匹配得分满足预设条件的用户形成所述用户列表。根据本发明之一优选实施例，所述预设条件包括匹配得分排在前N个，N为预设的正整数；或者，匹配得分达到预设的得分阈值。相应地，本发明实施例提供的一种基于地理信息的问题推送系统，包括用户模型维护模块，用于存储预先根据用户属性信息中的地理词建立的各用户的用户地理模型；取词模块，用于获取用户提交的问题，并从所述问题中提取地理词；匹配模块，用于利用所述取词模块提取的地理词与所述用户地理模型库进行匹配，利用匹配到的用户地理模型对应的用户形成用户列表；问题推送模块，用于将所述问题推送给所述用户列表中的用户。根据本发明之一优选实施例，所述用户模型维护模块具体包括信息处理模块，用于从各用户属性信息中得到各用户的地理字段文本；第一分词模块，用于对各用户的地理字段文本进行分词；第一赋值模块，用于从分词结果中提取地理词并赋予原始地理权重形成各用户的用户地理模型。根据本发明之一优选实施例，所述第一赋值模块，根据地理词的倒文档率为地理词赋予原始地理权重。根据本发明之一优选实施例，所述取词模块进一步包括问题接口模块，用于获取用户提交的问题或问题的标题文本；第二分词模块，用于对所述问题或所述标题文本进行分词；第二赋值模块，用于从分词结果中提取地理词，并为所述地理词赋予当前地理权重。根据本发明之一优选实施例，所述第二赋值模块根据地理词的倒文档率与所述第二分词模块得到的分词结果中各词语的倒文档率之和的比值为地理词赋予当前地理权重。根据本发明之一优选实施例，所述用户模型维护模块将建立的各用户的用户地理模型存至用户地理模型库，并利用各用户地理模型的地理词建立倒排索引；所述匹配模块利用所述提取的地理词在所述用户地理模型库中查找倒排索引，将命中的用户地理模型对应的用户确定为所述匹配到的用户地理模型对应的用户。根据本发明之一优选实施例，所述匹配模块计算所述匹配到的用户地理模型对应的用户与所述问题的匹配得分，选取匹配得分满足预设条件的用户形成所述用户列表；所述匹配得分为从所述问题中提取的地理词的最终权重之和，所述最终权重为地理词在命中的用户地理模型中的原始地理权重与地理词的当前地理权重的乘积。根据本发明之一优选实施例，所述预设条件包括匹配得分排在前N个，N为预设的正整数；或者，匹配得分达到预设的得分阈值。由以上技术方案可以看出，本发明提供的一种基于地理信息的问题推送方法及系统，是通过用户填写的个人信息挖掘用户的地理兴趣词模型，给具有地理位置属性的用户推送具有同样地理位置属性的问题，使问题推送更加精确，减小服务器和客户端的负担和资源浪费。

图1是本发明基于地理信息的问题推送方法的流程图；图2是本发明建立用户地理模型的流程图；图3是本发明存储或更新用户地理模型库的流程图；图4是本发明从用户提交的问题中提取地理词的流程图；图5是本发明利用提取的地理词与各用户地理模型匹配的流程图；图6是本发明基于地理信息的问题推送系统的架构图；图7是本发明的用户模型维护模块10的内部架构图；图8是本发明的取词模块20的内部架构图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。如图1所示，为本发明一实施例中提供的一种基于地理信息的问题推送方法的流程图，所述的问题推送方法包括以下步骤
步骤TOO、预先根据用户属性信息中的地理词建立各用户的用户地理模型。对于网站的注册用户，在注册时要求填写个人属性信息，包括姓名、出生地、出生日期以及工作地点等，例如，用户“张小明”，出生地“广州市天河区天河北路888号”，出生日期“ 1980年5月4号”，工作地为“北京市海淀区交大东路46号”，工作单位“北京***有限公司”等，系统会记录该用户属性信息。上述用户填写的个人属性信息中包括多个地理信息，如出生地、工作地，利用这些地理信息可以预先建立各用户的用户地理模型。下面结合图2和图3进一步详述建立各用户地理模型的方法。如图2所示，为建立用户地理模型的流程图，其中包括T10、从各用户属性信息中得到各用户的地理字段文本。其中用户的地理字段文本可以包括不限于出生地字段或工作地字段，如用户“张小明”，相应地选取“广州市天河区天河北路888号”作为出生地字段，选取“北京市海淀区交大东路46号”为工作地字段。用户个人信息的具体识别过程为本领域公知技术，在此不再赘述。T20、对各用户的地理字段文本进行分词，得到分词结果。分词的作用是将获取的地理字段文本切分成有意义的字词，以便后续处理。具体分词的方法包括正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等。相应地，出生地字段分词为“广州市/天河区/天河北路/888号”，工作地字段分词为“北京市/海淀区/交大东路 /46 号，，。T30、从分词结果中提取地理词，并赋予原始地理权重，形成各用户的用户地理模型。从地理字段文本的分词结果中得到地理词“广州市”、“天河区”、“天河北路”、“北京市”、“海淀区”、“交大东路”。在优选的实施例中，可以对地理词进行同义词扩充，如“交大东路”扩充为“交大”、“交通大学”和“交大东路”。然后为每个地理词赋予原始地理权重，赋予原始地理权重的作用是便于后续进行计算匹配得分以及排序。优选地，在赋予原始地理权重时可以基于倒文档率(IDF)，原始地理权重W的计算公式可以是W = a*(l/log(DF+l))，其中a为固定值，可默认设置为100，DF是该地理词在所有用户中的出现次数。在本实施例中，建立各用户的用户地理模型后，还将建立的用户地理模型存储或更新至用户地理模型库，并利用各用户地理模型的地理词建立或更新该用户地理模型在用户地理模型库中的倒排索引。如图3所示，具体包括以下步骤A201、在用户地理模型库中查找所得到的用户地理模型。A202、判断用户地理模型库是否有该用户地理模型，若是，则进入步骤A203 ；若否，在进入步骤A204。本实施例中，则是查找是否有“张小明”这个用户的用户地理模型，其中，每个用户地理模型可以用对应用户信息进行标识，例如采用“张小明”标识其用户地理模型。A203、删除查找到的用户地理模型及对应的倒排索引。在本实施例中，删除该用户“张小明”对应的用户地理模型，包括地理词和地理权重，以及对应在用户地理模型库中的倒排索引。
A204、添加所述用户及用户地理模型至所述用户地理模型库中，并建立或更新倒排索引。在本实施例中，添加用户“张小明”以及对应的用户地理模型，包括地理词和地理权重，以及对应在用户地理模型库中的倒排索引。为了更清楚地说明倒排索引，假设用户模型数据库中还有用户A和用户B，用户A 的用户地理模型中的地理词包括“广州市” “越秀区” “北京市” “朝阳区”等，用户B的用户地理模型中的地理词包括“北京市” “朝阳区” “海淀区”等。同时也分别采用“用户A”和 “用户B”标识其用户地理模型。在用户地理模型库中的倒排索引如表1所示表 权利要求
1.一种基于地理信息的问题推送方法，其特征在于，预先根据用户属性信息中的地理词建立各用户的用户地理模型；该方法包括A、获取用户提交的问题，并从所述问题中提取地理词；B、利用提取的地理词与各用户地理模型进行匹配，利用匹配到的用户地理模型对应的用户形成用户列表；C、将所述问题推送给所述用户列表中的用户。
2.根据权利要求1所述的方法，其特征在于，预先根据用户属性信息中的地理词建立各用户的用户地理模型具体包括从各用户属性信息中得到各用户的地理字段文本；对各用户的地理字段文本进行分词；从分词结果中提取地理词并赋予原始地理权重形成各用户的用户地理模型。
3.根据权利要求2所述的方法，其特征在于，根据地理词的倒文档率为地理词赋予原始地理权重。
4.根据权利要求1所述的方法，其特征在于，所述步骤A具体包括Al、获取用户提交的问题或问题的标题文本；A2、对所述问题或所述标题文本进行分词；A3、从分词结果中提取地理词，并为所述地理词赋予当前地理权重。
5.根据权利要求4所述的方法，其特征在于，在步骤A3中，根据地理词的倒文档率与步骤A2得到的分词结果中各词语的倒文档率之和的比值，为地理词赋予当前地理权重。
6.根据权利要求1所述的方法，其特征在于，将建立的各用户的用户地理模型存至用户地理模型库，且利用各用户地理模型的地理词建立倒排索引；步骤B中所述利用提取的地理词与各用户地理模型进行匹配具体为利用所述提取的地理词在所述用户地理模型库中查找倒排索引，将命中的用户地理模型对应的用户确定为所述匹配到的用户地理模型对应的用户。
7.根据权利要求1所述的方法，其特征在于，步骤B中所述利用匹配到的用户地理模型对应的用户形成用户列表具体包括计算所述匹配到的用户地理模型对应的用户与所述问题的匹配得分，所述匹配得分为从所述问题中提取的地理词的最终权重之和，所述最终权重为地理词在命中的用户地理模型中的原始地理权重与地理词的当前地理权重的乘积；选取匹配得分满足预设条件的用户形成所述用户列表。
8.根据权利要求7所述的方法，其特征在于，所述预设条件包括匹配得分排在前N个，N为预设的正整数；或者，匹配得分达到预设的得分阈值。
9.一种基于地理信息的问题推送系统，其特征在于，包括用户模型维护模块，用于存储预先根据用户属性信息中的地理词建立的各用户的用户地理模型；取词模块，用于获取用户提交的问题，并从所述问题中提取地理词；匹配模块，用于利用所述取词模块提取的地理词与所述用户地理模型库进行匹配，利用匹配到的用户地理模型对应的用户形成用户列表；问题推送模块，用于将所述问题推送给所述用户列表中的用户。
10.根据权利要求9所述的系统，其特征在于，所述用户模型维护模块具体包括信息处理模块，用于从各用户属性信息中得到各用户的地理字段文本；第一分词模块，用于对各用户的地理字段文本进行分词；第一赋值模块，用于从分词结果中提取地理词并赋予原始地理权重形成各用户的用户地理模型。
11.根据权利要求10所述的系统，其特征在于，所述第一赋值模块根据地理词的倒文档率为地理词赋予原始地理权重。
12.根据权利要求9所述的系统，其特征在于，所述取词模块进一步包括问题接口模块，用于获取用户提交的问题或问题的标题文本；第二分词模块，用于对所述问题或所述标题文本进行分词；第二赋值模块，用于从分词结果中提取地理词，并为所述地理词赋予当前地理权重。
13.根据权利要求12所述的系统，其特征在于，所述第二赋值模块根据地理词的倒文档率与所述第二分词模块得到的分词结果中各词语的倒文档率之和的比值为地理词赋予当前地理权重。
14.根据权利要求9所述的系统，其特征在于，所述用户模型维护模块将建立的各用户的用户地理模型存至用户地理模型库，并利用各用户地理模型的地理词建立倒排索引；所述匹配模块利用所述提取的地理词在所述用户地理模型库中查找倒排索引，将命中的用户地理模型对应的用户确定为所述匹配到的用户地理模型对应的用户。
15.根据权利要求9所述的系统，其特征在于，所述匹配模块计算所述匹配到的用户地理模型对应的用户与所述问题的匹配得分，选取匹配得分满足预设条件的用户形成所述用户列表；所述匹配得分为从所述问题中提取的地理词的最终权重之和，所述最终权重为地理词在命中的用户地理模型中的原始地理权重与地理词的当前地理权重的乘积。
16.根据权利要求15所述的系统，其特征在于，所述预设条件包括匹配得分排在前N个，N为预设的正整数；或者，匹配得分达到预设的得分阈值。
全文摘要
本发明提供了一种基于地理信息的问题推送方法及系统，其问题推送方法预先根据用户属性信息中的地理词建立各用户的用户地理模型，包括A、获取用户提交的问题，并从所述问题中提取地理词；B、利用提取的地理词与各用户地理模型进行匹配，利用匹配到的用户地理模型对应的用户形成用户列表；C、将所述问题推送给所述用户列表中的用户。本发明通过用户填写的个人信息挖掘用户的地理兴趣词模型，给具有地理位置属性的用户推送具有同样地理位置属性的问题，使问题推送更加精确，减小服务器和客户端的负担和资源浪费。
文档编号G06F17/30GK102279889SQ20111025008
公开日2011年12月14日申请日期2011年8月29日优先权日2011年8月29日
发明者李连华, 罗建岚, 谢双宾申请人:百度在线网络技术(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢双宾;罗建岚;李连华
技术所有人：百度在线网络技术(北京)有限公司
我是此专利的发明人

上一篇：一种数据拟合的方法和装置的制作方法
上一篇：一种高精度多源地面激光点云的整体配准方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。