一种用户偏好的检索方法及装置与流程

文档序号：11432305阅读：159来源：国知局

本发明涉及智能控制技术领域，尤其涉及一种用户偏好的检索方法及装置。

背景技术：

计算机科学领域的一个重要分支就是“人工智能”，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

在自然语言处理方面，如何让计算机识别和理解人类的语言，并且模拟人类思维方式去思考、推理问题，是完成“人工智能”这个人类伟大理想的重要举措。

从中文的角度而言,本身就具备复杂、表达同一种语义,可以包含多种形式等特点。同样一个词在不同的语用、语境下表达的意思是完全不同的。比如“乒乓球拍卖完了”，可以理解为“乒乓球_拍卖完了”、也可以是“乒乓球拍_卖完了”，再比如“xxx行贿中国石油公司”和“中国石油公司行贿xxx”。同样的内容不同的分割、不同的顺序，表达的意思就完全不一样。所以若想让计算机识别中文文本，第一步要做的就是告诉计算机在一句话中，哪几个字是一个词组。而这就是分词的过程。而由于中文具有非常强的歧义性，所以准确分词技术是一项非常复杂和具有挑战性的工作。

常见的中文歧义类型有：

1、组合歧义：在分词过程中是最常遇到的，比如：“美国花旗银行”中的“国花”，“苏联想从边境撤军”中的“联想”，“技术和服务”中的“和服”等等非常多。

2、人名歧义：“宁静”、“杨柳”、“黎明”等等，语境歧义

3、语用歧义：“牦牛肉不好吃”，其中的“好”有两种意思，a)“味道不好吃”的意思；b)“不容易吃”的意思；

4、语境歧义：两米二六个头的姚明。并不是说姚明有“26个脑袋”

5、真歧义：真歧义是最难以区分的，包括我们人类若没有上下文语境的判断和知识积累，也很难正确的分词。例如“武汉市长江大桥”就可以分为“武汉_市长_江大桥”或者“武汉市_长江大桥”。

6、分词颗粒问题：“中国人民解放军”可以是一个词，也可以是“中国人民解放军”在不同的应用情景下，分词颗粒度是完全不同的。分词颗粒度的不同，造成语义的完全不同。

7、分词具有领域性：在医药、化工领域的中文表达方式和文字特点与其他领域完全不同，互联网网友的用词方式跟其他领域完全不同。

若不能正确的分词，计算机就无法正确识别中文文本的内容。

当能正确的分词仅仅是中文语义识别的第一步，必须还要能准确的对词义进行解析，让计算机“懂得”词的意义。

在现有技术中,如果用户想通过互联网搜索一些条目时，主要采用简单的关键词检索。而关键词识别规则过于简单，容易误判，也即是经常会出现上文中所述的歧义性的理解，不能正确的进行用户语义识别。因此，最终搜索到的条目可能并非是用户最终想要获取的条目。

技术实现要素：

为解决上述技术问题，本发明提供了一种用户偏好的检索方法及装置。

第一方面，本发明提供了一种用户偏好的检索方法，该方法包括：

获取日志信息中包含的条文信息,其中日志信息为接收用户输入的条文信息后，从后台生成的信息；

对条文信息进行分词处理，获取至少一个词汇；

将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配，其中反向词典包括与至少一个词汇的关联度低于第一预定阈值的词汇；

当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时，将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配，确定至少一个词汇与基础词典中词汇的相似度,并从基础词典中获取与一个或者多个词汇对应的关联信息；其中，基础词典包括至少一个词汇中的一个或者多个词汇；

并根据相似度,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

本发明的有益效果是：实时从后台生成的日志信息中获取用户输入的搜索条文信息。对条文信息进行上述处理后，确定用户的偏好。并将用户偏好推荐给营销商，以便营销商能够针对不同用户的偏好，生成相应的产品后，在推销给用户。

进一步，当至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃条文信息,停止操作。

采用上述进一步的方案的有益技术效果在于，当至少一个词汇中的任一个词汇与预配置的反向词典中的词汇匹配成功时，说明该条文并非所要搜索的目的条文，即该条文对于确定用户偏好没有帮助，对营销商而言，没有太大的意义。因此，舍弃该条文。

进一步，根据相似度,确定用户偏好,以及与一个或者多个词汇对应的关联信息,具体包括:

根据相似度,确定初始匹配分数；

根据初始匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

采用上述进一步的技术方案的有益技术效果在于，通过分数，可以更加直观的确定用户的偏好。

进一步的，根据相似度,确定初始匹配分数之后,方法还包括:

将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中正向词典包括与至少一个词汇的关联度高于第一预定阈值的词汇；

当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数；

根据第二匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

采用上述进一步的技术方案的有益技术效果在于:通过上一步骤，仅仅是获取了初始分数，而通过将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配，如果能够匹配成功，则可以进一步的确定用户的偏好。因此，在匹配成功时，在初始匹配分数的基础上按照第一预定规则，进行加分处理。最终根据加分后的分数确定用户的偏好。

进一步的，当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数之后,方法还包括:

确定用户搜索条文信息时使用的域名；

当用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在第二匹配分数的基础上进行加分,获取第三匹配分数；

根据获取的第三匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

采用上述进一步的方案的有益技术效果在于，同上面的进一步的步骤类似的，通过确定用户搜索条文信息时使用的域名，同样可以帮助理解用户的偏好。例如用户搜索音乐名称时，如果是从酷我搜索，说明用户想要听取这首歌曲。而当用户从百度搜索时，则是希望了解歌曲名称或者其他相关信息。并非想听音乐。

第二方面，本发明提供了一种用户偏好的检索装置，该装置包括：

获取单元，用于获取日志信息中包含的条文信息,其中日志信息为接收用户输入的条文信息后，从后台生成的信息；

分词单元，用于对条文信息进行分词处理，获取至少一个词汇；

匹配单元，用于将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配，其中反向词典包括与至少一个词汇的关联度低于第一预定阈值的词汇；

当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时，将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配；

处理单元，用于确定至少一个词汇与基础词典中词汇的相似度,并从基础词典中获取与一个或者多个词汇对应的关联信息；其中，基础词典包括至少一个词汇中的一个或者多个词汇；

根据相似度,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

进一步，处理单元还用于，当至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃条文信息,停止操作。

进一步，处理单元具体用于，

根据相似度,确定初始匹配分数；

根据初始匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

采用上述进一步的技术方案的有益技术效果在于，通过分数，可以更加直观的确定用户的偏好。

进一步的，匹配单元还用于，将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中正向词典包括与至少一个词汇的关联度高于第一预定阈值的词汇；

处理单元还用于，当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数；

根据第二匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

进一步的，处理单元还用于，确定用户搜索条文信息时使用的域名；当用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在第二匹配分数的基础上进行加分,获取第三匹配分数；

根据获取的第三匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

采用上述进一步的技术方案的有益技术效果在于:同上面的进一步的步骤类似的，通过确定用户搜索条文信息时使用的域名，同样可以帮助理解用户的偏好。例如用户搜索音乐名称时，如果是从酷我搜索，说明用户想要听取这首歌曲。而当用户从百度搜索时，则是希望了解歌曲名称或者其他相关信息。并非想听音乐。

附图说明

图1为本发明实施例提供的一种用户偏好的检索方法流程示意图；

图2为本发明实施例提供的一种用户偏好的检索装置原理示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定方法结构、接口、技术之类的具体细节，以便透切理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的方法、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1为本发明实施例提供的一种用户偏好的检索方法流程图。如图1所示，本实施例包括以下步骤：

步骤110，获取日志信息中包含的条文信息。

具体的,条文信息是用户通过应用软件(例如百度)输入的信息,主要用于搜索与条文信息对应的内容。而在用户通过应用软件输入信息时，系统会自动在后台生成日志信息。而本发明所涉及的方案则是从后台产生的日志信息中，获取到条文信息。

步骤120，对条文信息进行分词处理，获取至少一个词汇。

具体的，在本发明中主要使用了开源的分词工具ikanalyzer对条文信息进行分词处理，获取至少一个词汇。

步骤130，将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配。

具体的，反向词典包括与至少一个词汇的关联度低于第一预定阈值的词汇。例如，利用分词工具将条文信息分成了两个词汇，那么词典中包括的词汇均是与这两个词汇中每一个词汇的关联度都低于第一预定阈值的词汇。将至少一个词汇和反向词典中的词汇进行匹配，主要是为了确定目标条文。去除哪些没有利用价值的条文，为后续工作减轻工作量。例如，我们所想要得到的条文是音乐领域的条文，获取的是与音乐有关的歌名、原唱、专辑、编曲作家，以及相应乐器等等。而反向词典中所包括的是：翻唱、搞怪版、卡碟、卡带、断裂、坏了等等不太相关的词汇。

步骤140，当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时，将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配，确定至少一个词汇与基础词典中词汇的相似度。

具体的，当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时，说明该条文经初步筛选后，可以粗略的认为是目标条文。将至少一个词汇与预配置的基础词典中词汇进行匹配。由此来确定至少一个词汇与基础词典中词汇的相似度。其中，基础词典中包括至少一个词汇中的一个或者多个词汇。在实际应用中，匹配引擎可以使用以lucene为应用主体，结合反向词典，基础词典等，以及文法分析算法的ikanalyzer3的核心api来实现匹配功能。在具体的匹配过程中，可以首先采用循环匹配的方式，也即是，将拆分好的词汇，从左至右，依次和反向词典(或者基础词典)中的词汇进行匹配。然后，在采用循环叠加匹配的方式，也即是至少两个词汇的组合，和反向词典(或者基础词典)中的词汇进行匹配，最终，再采用整体匹配的方式(可选的)，和反向词典(或者基础词典)中的词汇进行匹配。语义评估器通过和ikanalyzer3的核心api结合采用固定算法确定至少一个词汇与基础词典中词汇的相似度。

进一步的，在将至少一个词汇与基础词典中的词汇进行匹配过程中，还包括步骤150，从基础词典中获取与一个或者多个词汇对应的关联信息。

具体的，同样以在音乐领域为例，条文信息中拆分出来的词汇为“剑心”，“张杰”。在基础词汇中与“剑心”，“张杰”等相关联的词汇包括：名称：剑心，原唱：张杰，专辑：古剑奇谭，填词：段思思，谱曲：谭旋，编曲：王文颖，语言：国语，演奏：亚洲爱乐团交响乐团等关联信息。

步骤160，根据相似度，以及与一个或者多个词汇对应的关联信息，确定用户偏好。

具体的，根据至少一个词汇在基础词典中的词汇的相似度，以及与一个或者多个词汇对应的关联信息，可以大致清楚用户所有搜索的相关内容。从这些内容中确定用户的偏好。例如步骤150中的，通过至少一个词汇和与至少一个词汇中一个或者多个词汇对应的关联信息，可以确定用户所有搜索的是与张杰演唱的歌曲“剑心”相关的材料。那么，用户很可能所喜欢的是张杰这个歌手，或者，喜欢的是张杰演唱的剑心这首歌曲。或者，喜欢歌曲中词曲等等。

众所周知，数字能够更加直观的体现一种现象。因此，在确定用户的偏好时，还可以采用分数形式体现。

优选的，可以根据至少一个词汇与基础词典中的词汇的相似度，确定初始匹配分数。并根据初始匹配分数，以及与一个或者多个词汇对应的关联信息,确定用户的偏好。

进一步优选的，根据相似度,确定初始匹配分数之后,方法还包括:将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中正向词典包括与至少一个词汇的关联度高于第一预定阈值的词汇。当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数；根据第二匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。这里的正向词典，读者可以理解为起到辅助作用的词典。也即是起到了更好确定用户偏好作用的词典。同样，以音乐领域为例，该正向词典中所包括的词汇，例如：下载、铃声、多少钱、价格、报价、专辑、演唱会等等。当然匹配的方式，同与反向词典或者基础词典中匹配的方式类似，这里不再赘述。而当至少一个词汇中的一个或者多个词汇和正向词典中的词汇相匹配时，说明用户可能更倾向于搜索与某一歌曲或者专辑相关的内容，方便推销商根据用户偏好，推销相关的产品。所以，可以作为一个加分动作。具体加分机制，也即是第一预设规则，可以人为根据需要设定。

进一步的，除了上述的和各类词典相匹配之外，还可以包括确定用户在输入条文信息时使用的域名。也即是，当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数之后,方法还包括:确定用户搜索条文信息时使用的域名；当用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在第二匹配分数的基础上进行加分,获取第三匹配分数；根据获取的第三匹配分数,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

这里，同样以音乐为例进行说明，如果用户使用的域名是酷我音乐对应的域名或者虾米音乐对应的域名，那么，很明显用户感兴趣的是某一首音乐。而并非是其他无关紧要的内容，那么对于确定用户的偏好而言，具有很大的帮助。所以，可以作为一个加分动作，具体的加分机制同样根据实际需要人为设定。

当然，确定域名的过程，以及与正向词典中词汇匹配的过程都是可选的，没有先后顺序，也并不是只有一个执行完成后才能执行后一个。而是二者中可以至执行一个，或者执行两个。本发明中并不做任何限定。完全根据需求人员的需求设定。

还需要说明的是,在步骤140中,当至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃条文信息,停止操作。也即是说,该条文并非所需要的目标条文。因此，将不再做后续处理。

设定相应的评分机制，可以更好的确定用户的偏好。将用户的偏好推荐给营销人员后，营销人员可以根据不同用户的需求，设定与用户对应的营销方案，进而促进营销。而在本实施例中，主要是以音乐领域为例进行说明的，但是并不限于音乐领域。还可以是其他领域，例如小说、电影等等。而预设的反向词典、正向词典以及基础词典等也并不是唯一的，而是针对不同的领域预先设置的。而且，词典中的词汇也会根据需要实时进行更新。

本发明实施例提供的一种用户偏好的检索方法，实时从后台生成的日志信息中获取用户输入的搜索条文信息。对条文信息进行上述处理后，确定用户的偏好。并将用户偏好推荐给营销商，以便营销商能够针对不同用户的偏好，生成相应的产品后，在推销给用户。从而尽量的营销商带来更多的收益。

相应地，本发明实施例还提供了一种用户偏好的检索装置原理示意图。如图2所示，该装置包括：获取单元201、分词单元202、匹配单元203和处理单元204。

获取单元201，用于获取日志信息中包含的条文信息,其中日志信息为接收用户输入的条文信息后，从后台生成的信息；

分词单元202，用于对条文信息进行分词处理，获取至少一个词汇；

匹配单元203，用于将至少一个词汇中每一个词汇与预配置的反向词典中的词汇进行匹配，其中反向词典包括与至少一个词汇的关联度低于第一预定阈值的词汇；

当至少一个词汇中的每一个词汇与预配置的反向词典中的词汇匹配失败时，将至少一个词汇中的每一个词汇与预配置的基础词典中的词汇进行匹配；

处理单元204，用于确定至少一个词汇与基础词典中词汇的相似度,并从基础词典中获取与一个或者多个词汇对应的关联信息；其中，基础词典包括至少一个词汇中的一个或者多个词汇；

根据相似度,以及与一个或者多个词汇对应的关联信息,确定用户偏好。

优选的，处理单元204还用于，当至少一个词汇中任一个词汇与预配置的反向词典中的词汇匹配成功时,舍弃条文信息,停止操作。

而处理单元204根据相似度,确定用户偏好,以及与一个或者多个词汇对应的关联信息,具体包括:根据相似度,确定初始匹配分数；根据初始匹配分数,确定用户偏好。

而在获取初始匹配分数之后，为了能够更精确的确定用户的偏好。匹配单元203还可以用于，将至少一个词汇中的每一个词汇与预配置的正向词典中的词汇进行匹配,其中正向词典包括与至少一个词汇的关联度高于第一预定阈值的词汇；

处理单元204还用于，当至少一个词汇中的一个或者多个词汇与预配置的正向词典中的词汇匹配成功时,按照第一预设规则,在初始匹配分数的基础上进行加分,获取第二匹配分数；根据第二匹配分数,确定用户偏好。

进一步的，处理单元204还用于，确定用户搜索条文信息时使用的域名；当用户搜索条文信息时使用的域名属于预设域名时,按照第二预设规则,在第二匹配分数的基础上进行加分,获取第三匹配分数；根据获取的第三匹配分数,确定用户偏好。

该装置中的各部件所执行的功能已经在上述实施例一种用户偏好的检索方法中做了详细的介绍，这里不再赘述。

本发明实施例提供的一种用户偏好的检索装置，实时从后台生成的日志信息中获取用户输入的搜索条文信息。对条文信息进行上述处理后，确定用户的偏好。并将用户偏好推荐给营销商，以便营销商能够针对不同用户的偏好，生成相应的产品后，在推销给用户。从而尽量的营销商带来更多的收益。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏志凌
技术所有人：北京思特奇信息技术股份有限公司
我是此专利的发明人

上一篇：一种基于搜索引擎的数据同步方法及系统与流程
上一篇：基于用户行为的信息推荐方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。