信息定向推送方法和系统的制作方法

文档序号:6597548阅读:216来源:国知局
专利名称:信息定向推送方法和系统的制作方法
信息定向推送方法和系统
技术领域
本发明涉及网络信息处理技术领域,特别是涉及一种信息定向推送方法和系统。背景技术
信息定向推送是指针对用户需要和感兴趣的内容,向用户发送相应的信息,包括 小知识、新闻、天气预报、广告等。传统的互联网信息定向推送技术中,基于用户输入特征的方法主要是根据用户在 聊天的对话框中输入的信息,提取出用户感兴趣的关键词,对用户的特征进行分析,从而得 到用户的感兴趣点,进而实现信息的定向推送。传统的互联网信息定向推送技术存在两个缺点(1)用户输入特征不完整。软件 的丰富性和多样性使得单纯通过聊天对话框进行的特征提取面过于狭窄,无法全面挖掘用 户的特征信息。( 用户输入特征提取不准确。复杂语句中准确提取关键词的技术存在缺 陷,使得通过从语句中提取的用户特征的准确性较低。上述的两个缺点最终会导致向用户推送的定向信息不准确的问题,也就是推送的 定向信息不是用户感兴趣的、需要的信息。

发明内容为了解决传统基于用户输入特征的信息定向推送方法推送钓定向信息不准确的 问题,有必要提供一种准确的信息定向推送方法。—种信息定向推送方法,包括如下步骤采集用户的输入信息,所述输入信息包括 通过输入法输入的词语;根据所述词语统计词频,根据词频对所述词语进行排序;查找与 排序后的词语相匹配的定向信息;将所述匹配的定向信息输出给用户。优选的,所述统计词频的步骤为判断用户通过输入法输入的词语是否是名词,若 是,则根据用户输入的名词统计词频。优选的,采用大根堆统计用户输入的词语的词频并进行排序,所述大根堆的每个 节点统计用户输入的词语及其词频。优选的,所述查找定向信息的步骤具体是只对词频最高的50 100个词语进行查 找。优选的,所述用户的输入信息还包括用户标识号,所述用户标识号对应惟一用于 统计用户输入词语及其词频的大根堆。还有必要提供一种准确的信息定向推送系统。一种信息定向推送系统,包括输入采集模块、词频统计及排序模块、定向信息匹配 模块以及定向信息输出模块;输入采集模块用于采集用户的输入信息,所述输入信息包括 通过输入法输入的词语;词频统计及排序模块统计输入的词语的词频,并根据词频对所述 词语进行排序;定向信息匹配模块查找与排序后的词语相匹配的定向信息;定向信息输出 模块接收所述定向信息匹配模块查找到的定向信息,并将该定向信息输出给用户。
优选的,所述词频统计及排序模块采用大根堆统计用户输入的词语的词频并进行 排序,所述大根堆的每个节点统计用户输入的词语及其词频。优选的,该系统还包括词性判断模块,所述词性判断模块用于判断所述输入采集 模块采集到的词语是否是名词;若是,则将该词语传输到词频统计及排序模块中,采用大根 堆统计其词频,然后根据词频对所述词语进行排序。优选的,所述输入采集模块采集的输入信息还包括用户标识号,所述用户标识号 对应惟一用于统计用户输入词语及其词频的大根堆,所述系统还包括用于存储所述大根堆 的词频堆存储模块。优选的,所述定向信息匹配模块只对词频最高的50 100个词语进行查找。上述信息定向推送方法和系统,通过输入法采集用户输入的词语,不受聊天对话 框的局限,提高了用户输入特征提取的全面性;从而能提高推送的信息的准确性,推送的信 息用户更需要、更感兴趣。通过判断输入的词是否是名词,提高了用户输入特征提取的准确性。采用大根堆对词频数据进行统计和排序,时间复杂度为0 (nlogn),复杂度低,排序
效率高。只对词频较高的50 100个词语进行匹配,能更准确的抓住用户的感兴趣点,提 高推送的信息的准确性。

图1是一个实施例中信息定向推送方法的流程图;图2是一个实施例中信息定向推送方法服务器的流程图;图3是一个实施例中信息定向推送方法客户端的流程图;图4是一个实施例中信息定向推送系统的示意图;图5是一个实施例中客户端的结构示意图;图6是一个实施例中服务器的结构示意图。
具体实施方式图1是一个实施例中信息定向推送方法的流程图。该方法预先建立定向信息列 表,还包括以下步骤S110,采集用户的输入信息。用户的输入信息包括用户标识号和通过输入法输入 的词语。S120,统计输入的词语的词频,并根据词频对词语进行排序。在优选的实施例中, 可以调用即时聊天工具的用户信息,即为即时聊天工具的每个用户标识号建立一份专属的 词频数据。词频数据可以通过数组、链表等方式进行统计,在优选的实施例中,采用大根堆 进行统计并排序。大根堆是一个完全二叉树,其任一非子节点都大于或等于它的子结点,即 根节点最大。用户标识号对应惟一用于统计用户输入词语及其词频的大根堆(词频堆)。 词频堆的每个节点统计用户输入的词语及其词频,词频最高的节点位于堆顶。S130,按照词频高低依次查找与用户输入的词语相匹配的定向信息。从堆顶递归 提取大根堆的节点,根据词频排序依次从定向信息列表中查找与用户输入的词语相匹配的
4定向信息。为了更准确的推送定向信息,在优选的实施例中,只对词频最高的50 100个 词语进行查找。每个词语可以与多个定向信息相匹配,每条定向信息可以与多个词语相匹 配。S140,将定向信息返回给用户。在另一个优选的实施例中,可以将上述方法分为在客户端和服务器的工作流程。 图2是另一个实施例中信息定向推送方法客户端的流程图。图3是另一个实施例中信息定 向推送方法服务器的流程图。其中,信息定向推送方法客户端的流程包括如下步骤S210,采集用户的输入信息。采集用户标识号和通过输入法输入的词语,然后调出 此用户标识号专属的词频堆(若该用户是首次登录则新建一个词频堆),并将用户标识号 和专属的词频堆数据发送给服务器。需要指出的是,其发送的并非是完整的词频堆数据。在 优选的实施例中,为词频最高的100个词的词频数据;在其他的实施例中,也可以是词频最 高的50个或者其它数量的词频数据。S220,判断是否是名词。通过调用输入法的接口和词库判断输入的词语是否是名 词,若是则进入下一步骤,否则返回S210。S230,调整词频堆。对当前用户标识号专属的词频堆进行调整,若词频堆中不存在 采集到的名词,则新增一个存储该词的节点,并将该词的词频置为1 ;若词频堆中已存在该 词,则将该词的词频加1。然后对词频堆进行重新排序,在优选的实施例中,若该词的词频位 于前100,则对前100个节点进行堆排序,否则不重新排序,以提高效率。如果当前有多个用 户标识号登录,则同时对多个词频堆进行调整。在同样的实施例中信息定向推送方法服务器的流程包括如下步骤S310,接收客户端的词频数据。S320,按照词频高低依次查找与用户输入的词语相匹配的定向信息。服务器有一 个定向信息列表,包括各种定向信息和与该定向信息匹配的词语,一个定向信息可以与多 个词语匹配,一个词语也可以和多个定向信息匹配。S330,汇总定向信息数组并发送给客户端输出。将所有和词频数据中的词语匹配 的定向信息汇总成一个定向信息数组,并发送给客户端进行输出,供用户查看。图4是一个实施例中信息定向推送系统的示意图。包括输入采集模块402、词频统 计及排序模块404、定向信息匹配模块412以及定向信息输出模块406。输入采集模块402用于采集用户的输入信息,包括用户标识号和通过输入法输入 的词语。词频统计及排序模块404和输入采集模块402相连接,统计输入的词语的词频,并 根据词频对词语进行排序。在优选的实施例中,采用大根堆进行统计并排序。大根堆的每 个节点统计用户输入的词语及其词频,词频最高的节点位于堆顶。定向信息匹配模块412接收词频统计及排序模块404生成的词频堆(即大根堆), 按照词频高低依次查找与用户输入的词语相匹配的定向信息。具体是从堆顶递归提取大 根堆的节点,根据词频排序依次从定向信息列表中查找与用户输入的词语相匹配的定向信 息。为了更准确的推送定向信息,在优选的实施例中,只对词频最高的50 100个词语进 行查找。每个词语可以与多个定向信息相匹配,每条定向信息可以与多个词语相匹配。定向信息输出模块406接收定向信息匹配模块412查找到的与用户输入的词语相匹配的定向信息,并将该定向信息返回给用户。在另一个优选的实施例中,可以将上述信息定向推送系统分为客户端40和服务 器41。图5是一个实施例中客户端40的示意图,图6是一个实施例中服务器41的示意图。 客户端40包括输入采集模块402、词性判断模块403、词频统计及排序模块404、词频堆存储 模块405、第一通信模块407以及定向信息输出模块406,服务器41包括第二通信模块411、 定向信息匹配模块412、定向信息列表存储模块413。输入采集模块402用于采集通过输入法输入的词语,还用于采集用户标识号,并 与词频统计及排序模块404连接,为每个标识号在词频堆存储模块405中建立专属的词频 堆,用户标识号对应惟一用于统计用户输入词语及其词频的大根堆(词频堆)。当不同的用 户标识号登录系统时,仅对其专属的词频堆进行调整。词性判断模块403和输入采集模块402相连接,用于判断采集到的词语是否是名 词,若是,则将该词语传输到词频统计及排序模块404中;若不是,则不将该词语传输到词 频统计及排序模块404中。词频统计及排序模块404接收词性判断模块403传输的词语,并对词频堆存储模 块405中当前用户标识号专属的词频堆进行调整若词频堆中不存在该词,则新增一个存 储该词的节点,并将该词的词频置为1 ;若词频堆中已存在该词,则将该词的词频加1。然后 对词频堆进行重新排序,在优选的实施例中,若该词的词频位于前100,则对前100个节点 进行堆排序,否则不重新排序,以减少系统的资源消耗,提高效率。词频堆存储模块405用于存储词频堆信息,并供词频统计及排序模块404调用和 调整。不同用户标识号专属的词频堆存储在不同的存储区域中。第一通信模块407用于将词频堆存储模块405中当前用户标识号专属的词频堆数 据发送给服务器端41中的第二通信模块411。需要指出的是,其发送的并非是完整的词频 堆数据。在优选的实施例中,为词频堆的前100个词语的数据;在其他的实施例中,也可以 是前50个或者其它数量的词语数据。还用于接收第二通信模块411发送的定向信息数组 并传送给定向信息输出模块406。定向信息输出模块406用于接收定向信息数组并输出给用户。第二通信模块411用于接收第一通信模块407发送的词频堆数据,并送入定向信 息匹配模块412进行匹配。还用于将定向信息匹配模块412传送来的定向信息数组发送给 第一通信模块407。定向信息匹配模块412接收第二通信模块411传送来的词频堆数据,并遍历词频 堆的每个节点,根据词频排序依次从定向信息列表中查找与用户输入的词语相匹配的定向 信息,然后将匹配的定向信息汇总成一个定向信息数组并传送回第二通信模块411。定向信息列表存储模块413存储有定向信息列表,供定向信息匹配模块412查找 调用。定向信息列表包括各种定向信息和与该定向信息匹配的词语,一条定向信息可以与 多个词语匹配,一个词语也可以和多条定向信息匹配。上述信息定向推送方法和系统,通过输入法采集用户输入的词语,不受聊天对话 框的局限,提高了用户输入特征提取的全面性;从而能提高推送的信息的准确性,推送的 信息用户更需要、更感兴趣。通过调用输入法的接口和词库判断输入的词是否是名词,提 高了用户输入特征提取的准确性。采用大根堆对词频数据进行统计和排序,时间复杂度为OOilogn),复杂度低,排序效率高。只对词频较高的词语进行匹配,能更准确的抓住用户的 感兴趣点,提高推送的信息的准确性。 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并 不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保 护范围。因此,本发明专利的保护范围应以所附权利要求为准。
权利要求
1.一种信息定向推送方法,包括如下步骤采集用户的输入信息,所述输入信息包括通过输入法输入的词语;根据所述词语统计词频,根据词频对所述词语进行排序;查找与排序后的词语相匹配的定向信息;将所述匹配的定向信息输出给用户。
2.根据权利要求1所述的信息定向推送方法,其特征在于,所述统计词频的步骤为判 断用户通过输入法输入的词语是否是名词,若是,则根据用户输入的名词统计词频。
3.根据权利要求1或2所述的信息定向推送方法,其特征在于,采用大根堆统计用户输 入的词语的词频并进行排序,所述大根堆的每个节点统计用户输入的词语及其词频。
4.根据权利要求1或2所述的信息定向推送方法,其特征在于,所述查找定向信息的步 骤具体是只对词频最高的50 100个词语进行查找。
5.根据权利要求1所述的信息定向推送方法,其特征在于,所述用户的输入信息还包 括用户标识号,所述用户标识号对应惟一用于统计用户输入词语及其词频的大根堆。
6.一种信息定向推送系统,其特征在于,包括输入采集模块、词频统计及排序模块、定 向信息匹配模块以及定向信息输出模块;输入采集模块用于采集用户的输入信息,所述输入信息包括通过输入法输入的词语;词频统计及排序模块统计输入的词语的词频,并根据词频对所述词语进行排序;定向信息匹配模块查找与排序后的词语相匹配的定向信息;定向信息输出模块接收所述定向信息匹配模块查找到的定向信息,并将该定向信息输 出给用户。
7.根据权利要求6所述的信息定向推送系统,其特征在于,所述词频统计及排序模块 采用大根堆统计用户输入的词语的词频并进行排序,所述大根堆的每个节点统计用户输入 的词语及其词频。
8.根据权利要求7所述的信息定向推送系统,其特征在于,该系统还包括词性判断模 块,所述词性判断模块用于判断所述输入采集模块采集到的词语是否是名词;若是,则将该 词语传输到词频统计及排序模块中,采用大根堆统计其词频,然后根据词频对所述词语进 行排序。
9.根据权利要求8所述的信息定向推送系统,其特征在于,所述输入采集模块采集的 输入信息还包括用户标识号,所述用户标识号对应惟一用于统计用户输入词语及其词频的 大根堆,所述系统还包括用于存储所述大根堆的词频堆存储模块。
10.根据权利要求6或7所述的信息定向推送系统,其特征在于,所述定向信息匹配模 块只对词频最高的50 100个词语进行查找。
全文摘要
本发明涉及一种信息定向推送方法,包括如下步骤采集用户的输入信息,包括通过输入法输入的词语;根据词语统计词频,根据词频对词语进行排序;按照词频从高到低依次在定向信息列表中查找与用户输入的词语相匹配的定向信息;将匹配的定向信息返回给用户。还涉及一种信息定向推送系统和一种信息定向推送客户端。本发明通过输入法采集用户输入的词语,不受聊天对话框的局限,提高了用户输入特征提取的全面性;从而能提高推送的信息的准确性。通过调用判断输入的词是否是名词,提高了用户输入特征提取的准确性。采用大根堆对词频数据进行统计和排序,时间复杂度低,排序效率高。只对词频较高的50~100个词语进行匹配,提高推送的信息的准确性。
文档编号G06F17/30GK102129440SQ201010042818
公开日2011年7月20日 申请日期2010年1月13日 优先权日2010年1月13日
发明者万春晓 申请人:腾讯科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1