一种搜索信息处理方法及系统与流程

文档序号：11830354阅读：241来源：国知局

本发明涉及互联网技术领域，特别涉及一种搜索信息处理方法及系统。

背景技术：

随着互联网技术的发展，交互变的越来越重要。在线的交互，已经成为日益重要的沟通模式。为了满足广大用户信息交互的需要，各种交互软件或者沟通软件应运而生。

微信是腾讯公司于2011年1月21日推出的一个为智能终端提供即时通讯服务的免费应用程序，微信支持跨通信运营商、跨操作系统平台通过网络快速发送免费(需消耗少量网络流量)语音短信、视频、图片和文字，同时，也可以使用通过共享流媒体内容的资料和基于位置的社交插件等服务插件。微信提供公众平台、朋友圈、消息推送等功能，用户可以通过“摇一摇”、“搜索号码”、“附近的人”、扫二维码方式添加好友和关注公众平台，同时微信将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈。

微信作为时下最热门的社交信息平台，也是移动端的一大入口，正在演变成为一大商业交易平台，其对营销行业带来的颠覆性变化开始显现。微信商城的开发也随之兴起，微信商城是基于微信而研发的一款社会化电子商务系统，消费者只要通过微信平台，就可以实现商品查询、选购、体验、互动、订购与支付的线上线下一体化服务模式。

微信公众账号是开发者或商家在微信公众平台上申请的应用账号，该帐号与QQ账号互通，通过公众账号，商家可在微信平台上实现和特定群体的文字、图片、语音、视频的全方位沟通、互动。形成了一种主流的线上线下微信互动营销方式。正如线上线下微信互动营销的代表微部落，率先提出标准的行业通用模板和深定制的微信平台开发理念相结合。形成了线上线下微信互动营销的开放应用平台。

用户可以通过自身设备与公众账号进行互动。通过手机向公众账号发送消息，一般需要如下步骤：

首先用你的手机微信关注自己的微信公众账号。然后登陆自己的微信公众平台点击公众账号助手。在公众账号助手设置的第二步选择输入你要绑定的微信号码。然后点击发送微信验证码。你的手机微信会收到一条信息，然后将数字输入到验证码输入框完成验证就完成了绑定了。然后进入通讯录，搜索公众账号助手。然后找到公众账号助手这个联系人这个号码是腾讯官方的账号mphelper(腾讯公众平台的助手账号需要通过它进行消息群发)。关注该账号就可以通过向它发送群发消息了。点击进入聊天界面，然后向其发送消息，然后看你的公众账号的关注用户是否会接受到这条消息。

微信公众号通常为用户展示一个页面，页面中设置了需要展示给用户的信息和模块，或者，还包括用户的互动内容。例如，用户可以在页面上输入相应的互动信息，与其它用户或者系统进行互动。

现有技术中，通常用户在进入微信公众号页面后，在提供的输入框中仅能输入互动信息，需要调用专用的搜索框才能输入搜索信息进行搜索。因而，亟需要一种新的输入方式，方便用户输入搜索信息，以提高用户体验度。

技术实现要素：

本发明提供一种搜索信息处理方法及系统，用以解决现有技术中用户搜索需求需要单独调用搜索输入框的问题。

本发明提供一种搜索信息处理方法，包括：

获取用户在输入框中输入的信息并解析得到解析信息；

将所述解析信息与预设搜索关键词匹配，若能匹配，则以所述匹配的搜索关键词在预设范围内进行搜索；否则，将所述用户输入的信息作为互动信息处理展示。

所述方法还包括：

将所述解析信息进行分词并提取关键词；

将所述关键词与预设搜索关键词匹配。

所述方法还包括：

所述用户在输入框中输入的信息包括但不限于文字信息、图片信息、语音信息或视频信息。

所述方法还包括：

将所述搜索结果以图文列表形式展示给所述用户；

所述用户通过所述图文列表的链接浏览具体展示信息。

所述方法还包括：

将所述互动信息转发相关互动信息处理应用进行处理和展示。

所述方法还包括：

所述输入框设置于微信公众号提供的页面；

所述在预设范围内进行搜索，包括在所述微信公众号设定的内容范围进行搜索。

一种搜索信息处理系统，包括：

信息获取单元，用于获取用户在输入框中输入的信息并解析得到解析信息；

匹配单元，用于将所述解析信息与预设搜索关键词匹配，若能匹配，将所述解析信息发送给搜索单元；否则，将所述解析信息发送给互动单元；

搜索单元，用于以所述匹配的搜索关键词在预设范围内进行搜索；

互动单元，用于将所述用户输入的信息作为互动信息处理展示。

所述信息获取单元还用于将所述解析信息进行分词并提取关键词；

所述匹配单元，将所述关键词与预设搜索关键词匹配。

所述系统还包括搜索关键词设定单元，用于设定所述搜索关键词。

所述系统还包括微信公众号设置单元，用于提供页面设置所述输入框；设定所述搜索的预设范围。

本发明实施例中，通过获取用户在输入框中输入的信息并解析得到解析信息；将所述解析信息与预设搜索关键词匹配，若能匹配，则以所述匹配的搜索关键词在预设范围内进行搜索；否则，将所述用户输入的信息作为互动信息处理展示本发明实施例的方案，能够将用户输入的信息自动解析成搜索信息或者互动信息，用户仅需要在输入框中输入信息即可自由实现搜索或者互动功能，不在需要单独调用搜索框进行输入，极大的提高了用户体验度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1提供的一种搜索信息处理方法原理流程图；

图2为本发明实施例2提供的一种搜索信息处理系统结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，为本发明实施例1提供的一种搜索信息处理方法原理流程图，其中，

步骤11，获取用户在输入框中输入的信息并解析得到解析信息。

通常的微信公众号提供的页面，都会在页面中的某部分区域(通常是页面下部)提供用户输入框，这个输入框通常可以输入文字、表情等信息，用以互动。用户在这个输入框中输入的内容，系统默认作为互动信息处理。用户如果有搜索需求，则需要通过点击等方式调用专用的搜索界面，从搜索界面的搜索输入框中输入搜索信息，然后得到搜索结果。这一方式显然不能满足用户对于信息获取的快捷性要求。

本实施例可以将微信公众号页面上的输入框合并，将互动信息输入框和搜索信息输入框合并在一起，用户只需要在输入框中输入信息，系统自动判定用户的具体需求是搜索还是互动，然后自动进行相应处理。

当用户在输入框中输入信息后，系统获取用户输入的信息，然后进行解析。解析的过程类似于分词的过程，就是将用户输入的一段文字解析成为单独的几个词语。

当然，用户输入的信息可以是文字信息、图片信息、语音信息或者视频信息，而解析的第一步是识别这些信息，然后将这些信息解析成系统可以识别的词语，也就是关键词。识别语音、图片、视频中的文字信息的技术，现有技术中已经有很多研究，本实施例对识别技术本身不做限定。

分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。

分词算法可分为三大类：基于字典、词库匹配的分词方法；基于词频度统计的分词方法和基于知识理解的分词方法。

第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词，如：最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富，词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词，由于这些信息是通过调查真实语料而取得的，因而基于统计的分词方法具有较好的实用性。

1).逐词遍历法。

逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低，大一点的系统一般都不使用。

2).基于字典、词库匹配的分词方法(机械分词法)

这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。识别出一个词，根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况，分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下：

(一)最大正向匹配法(Maximum Matching Method)通常简称为MM法。其基本思想为：假定分词词典中的最长词有i个汉字字符，则用被处理文档的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文档被扫描完为止。

其算法描述如下：

(1)初始化当前位置计数器，置为0；

(2)从当前计数器开始，取前2i个字符作为匹配字段，直到文档结束；

(3)如果匹配字段长度不为0，则查找词典中与之等长的作匹配处理。

如果匹配成功，则

a)把这个匹配字段作为一个词切分出来，放入分词统计表中；

b)把当前位置计数器的值加上匹配字段的长度；

c)跳转到步骤(2)；

否则

a)如果匹配字段的最后一个字符为汉字字符，则

①把匹配字段的最后一个字去掉；

②匹配字段长度减2；

否则

①把匹配字段的最后一个字节去掉；

②匹配字段长度减1；

b)跳转至步骤(3)；

否则

a)如果匹配字段的最后一个字符为汉字字符，

则当前位置计数器的值加2；

否则当前位置计数器的值加1；

b)跳转到步骤(2)。

(二)逆向最大匹配法，通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词切分的方向与MM法相反，而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符(i字字串)作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。相应地，它使用的分词词典是逆序词典，其中的每个词条都将按逆序方式存放。在实际处理时，先将文档进行倒排处理，生成逆序文档。然后，根据逆序词典，对逆序文档用正向最大匹配法处理即可。

由于汉语中偏正结构较多，若从后向前匹配，可以适当提高精确度。所以，逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明,单纯使用正向最大匹配的错误率为1/16.9，单纯使用逆向最大匹配的错误率为1/245。例如切分字段“硕士研究生产”，正向最大匹配法的结果会是“硕士研究生/产”，而逆向最大匹配法利用逆向扫描，可得到正确的分词结果“硕士/研究/生产”。

当然，最大匹配算法是一种基于分词词典的机械分词法，不能根据文档上下文的语义特征来切分词语，对词典的依赖性较大，所以在实际使用时，难免会造成一些分词错误，为了提高系统分词的准确度，可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案(即双向匹配法)。

(三)最少切分法：使每一句中切出的词数最小。

(四)双向匹配法：将正向最大匹配法与逆向最大匹配法组合。先根据标点对文档进行粗切分，把文档分解成若干个句子，然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小集处理。

3).全切分和基于词的频度统计的分词方法

基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。

全切分要求获得输入序列的所有可接受的切分形式，而部分切分只取得一种或几种可接受的切分形式，由于部分切分忽略了可能的其他切分形式，所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略，都可能会遗漏正确的切分，造成分词错误或失败。而建立在全切分基础上的分词方法，由于全切分取得了所有可能的切分形式，因而从根本上避免了可能切分形式的遗漏，克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式，它的句子覆盖率和分词覆盖率均为100％，但全切分分词并没有在文本处理中广泛地采用，原因有以下几点：

全切分算法只是能获得正确分词的前提，因为全切分不具有歧义检测功能，最终分词结果的正确性和完全性依赖于独立的歧义处理方法，如果评测有误，也会造成错误的结果。

全切分的切分结果个数随句子长度的增长呈指数增长，一方面将导致庞大的无用数据充斥于存储数据库；另一方面当句长达到一定长度后，由于切分形式过多,造成分词效率严重下降。

基于词的频度统计的分词方法：

这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。

4).基于知识理解的分词方法。

该方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界，它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力，需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。

5).并行分词方法。这种分词方法借助于一个含有分词词库的管道进行,比较匹配过程是分步进行的,每一步可以对进入管道中的词同时与词库中相应的词进行比较,由于同时有多个词进行比较匹配,因而分词速度可以大幅度提高。这种方法涉及到多级内码理论和管道的词典数据结构。

分词的目的在于找到用户输入信息中的关键词，这些关键词就是用来判断用户是否具有搜索意图的关键。

步骤12，将解析信息与预设搜索关键词匹配，若能匹配，转至步骤13，否则，转至步骤14。

预设搜索关键词，就是预先设定一些关键词，这些关键词作为搜索的分词使用。这些关键词也是预设的搜索范围，通常除了这些关键词之外的词，都不作为搜索内容。也就是说，这些搜索关键词实际上是根据搜索的范围确定的，是在搜索范围内的。

因而，需要将解析信息与这些搜索关键词匹配，能够匹配，则说明该解析信息中包含搜索需求，将该解析信息作为搜索信息处理。如果不能匹配，则说明该解析信息中不包括搜索需求，或者搜索需求没有在预设的搜索范围内，则将该解析信息作为互动信息处理。

通常，这个搜索的过程是在微信公众号页面上进行的，预设范围内进行搜索，指的是在微信公众号所设定的范围内进行搜索。这个微信公众号设定的范围，就设定了搜索关键词，通常这些搜索关键词都与微信公众号希望用户了解的信息有一定关联。

步骤13，以匹配的搜索关键词在预设范围内进行搜索。

本步骤中，当解析信息与搜索关键词匹配上以后，则说明解析信息以及对应的用户输入信息有搜索需求，则需要进行搜索操作。搜索操作不再以用户输入信息进行，而是以匹配的搜索关键词进行，这样可以提高搜索的效率。

得到的搜索结果通常以图文列表的形式展示给用户。这个图文列表不仅包括基本信息，通常还会做成链接的形式，用户通过点击链接，可以浏览具体的展示信息。是否

步骤14，将用户输入的信息作为互动信息处理展示。

当解析信息不能与所有的搜索关键词匹配是，说明解析信息以及对应的用户输入信息没有搜索需求，或者搜索需求不在预设的搜索范围内，则将该解析信息以及对应的用户输入信息作为互动信息处理。

互动信息通常系统不做处理而直接显示和转发，方便用户与其他用户或者系统进行互动。通常来说，互动信息需要转发给相关的互动信息处理的应用程序来进行具体的处理和展示。

如图2所示，为本发明实施例2提供的一种搜索信息处理系统结构示意图，其中，

信息获取单元21，用于获取用户在输入框中输入的信息并解析得到解析信息；

匹配单元22，用于将所述解析信息与预设搜索关键词匹配，若能匹配，将所述解析信息发送给搜索单元23；否则，将所述解析信息发送给互动单元24；

搜索单元23，用于以所述匹配的搜索关键词在预设范围内进行搜索；

互动单元24，用于将所述用户输入的信息作为互动信息处理展示。

进一步的，上述信息获取单元21还用于将所述解析信息进行分词并提取关键词；

所述匹配单元22，将所述关键词与预设搜索关键词匹配。

进一步的，上述系统还包括搜索关键词设定单元25，用于设定所述搜索关键词。

进一步的，上述系统还包括微信公众号设置单元26，用于提供页面设置所述输入框；设定所述搜索的预设范围。

综上所述，本发明实施例中，通过获取用户在输入框中输入的信息并解析得到解析信息；将所述解析信息与预设搜索关键词匹配，若能匹配，则以所述匹配的搜索关键词在预设范围内进行搜索；否则，将所述用户输入的信息作为互动信息处理展示本发明实施例的方案，能够将用户输入的信息自动解析成搜索信息或者互动信息，用户仅需要在输入框中输入信息即可自由实现搜索或者互动功能，不在需要单独调用搜索框进行输入，极大的提高了用户体验度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章杰;
技术所有人：天脉聚源（北京）科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。