信息处理方法及装置与流程

文档序号：12178579阅读：129来源：国知局

本发明涉及网络信息处理技术领域，尤其涉及一种信息处理方法及装置。

背景技术：

近年来，随着搜索推广的普及以及同行业推广商户之间的激烈竞争，网站作为搜索推广的重要信息平台，起到了连接用户与产品的桥梁作用。而网站对业务关键词的覆盖程度直接影响推广效果。例如，对于推广驾驶培训业务来说，醒目地展示“场地规模”、“通过率”等业务关键词将有利于培训业务的推广。

目前，业务关键词的获取方式通常是以人工来完成的。比如通过推广商户自身或业务专家依据对业务的理解，构思出该业务的业务关键词，或者，采用第三方建站人员的建议来确定所述业务关键词。

然而，上述方式存在着明显的不足之处：

一、主观性强，准确率不高。

由于需要人工构思，往往受个人水平或情感的影响，与用户的实际需求吻合度不高。

二、工作量大，效率低。

对于能够提供几乎全行业推广服务的广告平台来说，推广业务达千种以上，每个推广业务大约有十多个业务关键词，若采用人工方式获取会带来巨大的工作量。此外，随着推广业务的更新，用户需求不断变化，业务关键词也应随之变化，但人工方式不能做到及时跟踪，时效性差。

技术实现要素：

本发明实施例的目的在于，提供一种信息处理方法及装置，结合与业务相关的评论文本数据和网页内容数据，以实现从二者中自动、准确地选取业务关键词。

为实现上述发明目的，本发明的实施例提供了一种信息处理方法，包括：获取与业务相关的评论文本数据和网页内容数据；对所述评论文本数据和所述网页内容数据进行分析，以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词；分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值；根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。

优选地，所述对所述评论文本数据进行分析，以获取多个第一候选业务关键词的处理包括：对所述评论文本数据中的语句进行依存句法分析，以分别取得所述语句的依存树，从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词。

优选地，所述对所述网页内容数据进行分析，以获取多个第二候选业务关键词的处理包括：分别从所述网页内容数据获取网页导航文本数据和/或栏目标题数据，从所述网页导航文本数据和/或栏目标题数据选取多个所述第二候选业务关键词。

优选地，所述分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值的处理包括：以所述第一候选业务关键词和所述第二候选业务关键词作为输入，从预先训练的词向量模型获取所述第一候选业务关键词和所述第二候选业务关键词的词向量的相似度值。

优选地，所述根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词的处理包括：对任一第一候选业务关键词和所述第二候选业务关键词，如果获取的第一候选业务关键词和所述第二候选业务关键词之间的相似度的值高于预定的相似度阈值，则将所述第二候选业务关键词选取为业务关键词。

优选地，所述从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词的处理包括：分别计算所述主语或主语结构在所述评论文本数据中的出现频度和/或逆文档频率(IDF)值，根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述主语或主语结构作为所述第一候选业务关键词。

优选地，所述对所述评论文本数据进行分析，以获取多个第一候选业务关键词的处理还包括：从取得的依存树当中去除不具有完整句法结构的依存树，所述从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词的处理包括：去除具有词性为代词或具有方位介词的主语或主语结构的依存树。

优选地，所述从所述网页导航文本数据和/或栏目标题数据选取多个第二候选业务关键词的处理包括：分别计算所述网页导航文本数据和/或栏目标题数据在所述网页内容数据中的出现频度和/或逆文档频率(IDF)值，根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述网页导航文本数据和/或栏目标题数据作为所述第二候选业务关键词。

本发明的实施例还提供了一种信息处理装置，包括：数据获取模块，用于获取与业务相关的评论文本数据和网页内容数据；候选业务关键词获取模块，用于对所述评论文本数据和所述网页内容数据进行分析，以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词；相似度值获取模块，用于分别获取所述第一候选业务关键词与所述第二候选业务关键词之间的相似度的值；业务关键词选取模块，用于根据获取的相似度的值从所述第一候选业务关键词或所述第二候选业务关键词选取关注度高的业务关键词。

优选地，所述候选业务关键词获取模块包括：依存树获取单元，用于对所述评论文本数据中的语句进行依存句法分析，以分别取得所述语句的依存树，第一候选业务关键词选取单元，用于从所述依存树中的主语或主语结构选取多个所述第一候选业务关键词。

优选地，所述候选业务关键词获取模块包括：数据获取单元，用于分别从所述网页内容数据获取网页导航文本数据和/或栏目标题数据，第二候选业务关键词选取单元，用于从所述网页导航文本数据和/或栏目标题数据选取多个所述第二候选业务关键词。

优选地，所述相似度值获取模块用于以所述第一候选业务关键词和所述第二候选业务关键词作为输入，从预先训练的词向量模型获取所述第一候选业务关键词和所述第二候选业务关键词的词向量的相似度值。

优选地，所述业务关键词选取模块用于对任一第一候选业务关键词和所述第二候选业务关键词，如果获取的第一候选业务关键词和所述第二候选业务关键词之间的相似度的值高于预定的相似度阈值，则将所述第二候选业务关键词选取为业务关键词。

优选地，所述第一候选业务关键词选取单元用于分别计算所述主语或主语结构在所述评论文本数据中的出现频度和/或逆文档频率(IDF)值，根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述主语或主语结构作为所述第一候选业务关键词。

优选地，所述候选业务关键词获取模块还用于从取得的依存树当中去除不具有完整句法结构的依存树，第一候选业务关键词选取单元用于去除具有词性为代词或具有方位介词的主语或主语结构的依存树。

优选地，所述第二候选业务关键词选取单元用于分别计算所述网页导航文本数据和/或栏目标题数据在所述网页内容数据中的出现频度和/或逆文档频率(IDF)值，根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的所述网页导航文本数据和/或栏目标题数据作为所述第二候选业务关键词。

本发明实施例提供的信息处理方法及装置，对获取到的与业务相关的评论文本数据和网页内容数据进行分析，得到多个第一候选业务关键词和多个第二候选业务关键词，再分别获取第一候选业务关键词与第二候选业务关键词之间的相似度的值，从而基于获取到的相似度的值从第一候选业务关键词或第二候选业务关键词中，最终选取关注度高的业务关键词，极大地提高了选取业务关键词的准确性和效率。

附图说明

图1是示出反映本发明的总体发明构思的示例性示意图；

图2是示出本发明实施例的应用场景的示例性示意图；

图3是示出本发明实施例一的信息处理方法的流程图；

图4是示出本发明实施例二的信息处理装置的逻辑框图。

具体实施方式

本发明的基本构思是，提供一种与业务相关的业务关键词的选取方式：结合与业务相关的评论文本数据和网页内容数据，对二者进行分析并从中获取多个第一候选业务关键词和多个第二候选业务关键词，然后获取第一候选业务关键词与第二候选业务关键词之间的相似度的值，由此，基于获取到的相似度的值，自动选取业务关键词。

图1是示出反映本发明的总体发明构思的示例性示意图。参照图1，例如，从行业评论网站(如百度口碑)获取与业务相关的评论文本数据，从同行业网站获取与业务相关的网页内容数据。利用自然语言处理与统计归纳分析的方法对评论文本数据和网页内容数据进行分析，得到多个第一候选业务关键词和多个第二候选业务关键词。然后，获取两两候选业务关键词之间的相似度的值，最终依据获取的相似度的值选取关注度高的业务关键词。由此，如果仅是对评论文本数据或者网页内容数据进行分析，最终选取的业务关键词相对比较片面，有可能并不是具有广泛代表性的业务关键词，综合参考这两方面信息能够挖掘出关注度高的业务关键词。由此，可解决现有人工方式中存在的主观性强、准确率不高、工作量大、效率低等问题，使得选取的业务关键词更加准确，显著提升业务关键词的选取过程的效率。此外，即使业务关键词随业务更新发生变化时，也能够做到及时跟踪，保证时效性。

本发明可广泛应用于搜索推广、站点内容优化等方面。举例来说，图2是示出本发明实施例的应用场景的示例性示意图。参照图2，某一推广用户的网站，该推广用户的业务属于教育培训类，其网站展示了课程介绍、师资力量、学员风采等业务关键词。然而，网站上所展示的业务关键词并没有尽可能多得包含用户最为关注的信息，这就需要对该网站做站点内容优化。具体地，运用上述业务关键词的选取方式，选取出与教育培训类相关的关注度高的业务关键词，然后将网站已展示的业务关键词与选取出的关注度高的业务关键词做相似度计算，根据相似度计算结果给出网站内容优化的建议。例如，图2示出的“参考网民关注程度以及同行网站，建议您在网站上增加学校地址、实景照片等业务点的信息量”，极大地满足用户在推广方面的需求，以便推广用户根据建议改进其网站，从而提高推广效果。

下面结合附图详细描述本发明实施例的信息处理方法以及使用所述方法的装置。

实施例一

图3是示出本发明实施例一的信息处理方法的流程图。可在实施例二所述的装置上执行信息处理方法。

参照图3，在步骤S310，获取与业务相关的评论文本数据和网页内容数据。

在具体的实现方式中，一方面，鉴于行业评论网站包含的行业较为全面，评论语句丰富，因此，可以利用现有的网站抓取技术，或者直接请求获取数据的方式，从行业评论网站中搜集与业务相关的评论文本数据。另一方面，从行业网站数据库中获取同行业所有网站的统一资源定位符(URL)，根据网站的URL抓取与业务相关的网站内容数据。从而为后续的分析处理提供数据基础。

在步骤S320，对评论文本数据和网页内容数据进行分析，以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词。

在本步骤中，评论文本数据中的语句的主语一般是网民对业务最为关注的内容，也是潜在的业务关键词。因此，根据本发明的示例性实施例，步骤S320包括：对评论文本数据中的语句进行依存句法分析，以分别取得语句的依存树，从依存树中的主语或主语结构选取多个第一候选业务关键词。

具体地，对每一语句进行依存句法分析，取得语句的依存树之后。可分别计算主语或主语结构在评论文本数据中的出现频度和/或IDF值，根据计算出的出现频度和/或IDF值选取预定个数的主语或主语结构作为第一候选业务关键词。

以下对IDF进行一下解释说明，IDF用来描述某个词语在文档集中的“专业”程度，其值越大表示该词语越倾向于在有限的几类文档中出现，“专业”程度就越高。假设某主语或主语结构在N个业务类型的主语或主语结构集中出现过，业务类型的总个数是M，则计算该主语或主语结构的IDF值的方法：业务类型的总个数M除以出现过主语或主语结构的业务类型的个数N。

这里，预定个数可以是预先设定的选取个数，也可以是预先设定的选取分位数。具体地，根据出现频度和/或IDF值对依存树中的主语或主语结构进行排序，选取预定选取个数的主语或主语结构，或者选取预设选取分位数的主语或主语结构，作为第一候选业务关键词。例如，预定选取个数是10，那么选取排序前十位的主语或主语结构作为第一候选业务关键词。再例如，预设的选取分位数是80％，假设80％的选取分位数对应15个主语或主语结构，那么选取排序前十五位的主语或主语结构作为第一候选业务关键词。进一步还可以综合考虑预定选取个数和预定选取分位数，这两个选取依据分别对应排序前十位的主语或主语结构，以及排序前十五位的主语或主语结构，实际选取排序前十五位的主语或主语结构作为第一候选业务关键词即可。

需要说明的是，在对每一语句进行依存句法分析之前，还可对评论文本数据中的语句进行初步筛选，目的是过滤广告语句，以及个人经历的描述语句等。其中，可基于预先训练的识别广告语句的机器学习模型对评论文本数据进行广告语句过滤。个人经历的描述语句可以通过限定语句长度来进行过滤。比如，某与业务相关的评论文本数据中的所有语句的平均长度是15个汉字，则可以把长度大于平均长度两倍的语句过滤。此外，还可过滤包含没有实质描述含义的口头习语，比如“我感觉”等。

为了更加准确地选取第一候选业务关键词，可选地，步骤S320还包括：从取得的依存树当中去除不具有完整句法结构的依存树，所述从依存树中的主语或主语结构选取多个第一候选业务关键词的处理可包括：去除具有词性为代词或具有方位介词的主语或主语结构的依存树。

也就是说，过滤掉非描述性的语句，保留描述性的语句。这里，描述性的语句是指具有完整描述对象的句法结构，例如主谓、主谓宾等。反之，非描述性的语句是指没有明确描述对象的句法结构，例如副词短语“好开心啦”等。需要说明的是，上述依存句法分析过程中还可标记出依存树中主语的词性，或主语结构中主语的词性，从而可根据标记的词性去除具有词性为代词或具有方位介词的主语或主语结构的依存树。

根据本发明的另一示例性实施例，步骤S320包括：分别从网页内容数据获取网页导航文本数据和/或栏目标题数据，从网页导航文本数据和/或栏目标题数据选取多个第二候选业务关键词。

在具体的实现方式中，可对抓取到的网站内容数据进行特征解析，抽取网页导航文本数据和/或栏目标题数据。由于抽取到的网页导航文本数据和/或栏目标题数据中，既包含了网民关注的业务信息，也包含了一些通用的非业务信息，例如“联系我们”、“网站首页”等。因此，可从获取到的网页导航文本数据和/或栏目标题数据中可去除通用的非业务信息，在进行后续的第二候选业务关键词的选取步骤。

具体地，在获取网页导航文本数据和/或栏目标题数据之后，可以分别计算网页导航文本数据和/或栏目标题数据在网页内容数据中的出现频度和/或IDF值，根据计算出的出现频度和/或IDF值选取预定个数的网页导航文本数据和/或栏目标题数据作为第二候选业务关键词。

运用与前述选取第一候选业务关键词同样的方法，根据计算得到的出现频度和/或IDF值对网页导航文本数据和/或栏目标题数据进行排序，选取预定选取个数的网页导航文本数据和/或栏目标题数据，或者选取预设选取分位数的网页导航文本数据和/或栏目标题数据，再或者综合预定选取个数和预定选取分位数选取网页导航文本数据和/或栏目标题数据，作为第二候选业务关键词。

在步骤S330，分别获取第一候选业务关键词与第二候选业务关键词之间的相似度的值。

根据本发明的优选实施例，步骤S330包括：以第一候选业务关键词和第二候选业务关键词作为输入，从预先训练的词向量模型获取第一候选业务关键词和第二候选业务关键词的词向量的相似度值。

在本步骤中，预先训练的词向量模型可使用公共语料库进行训练，也可使用搜索点击上下文语料进行训练。其中，需保证候选业务关键词作为独立不可分割的词单元进行训练。进一步基于预先训练的词向量模型，获取第一候选业务关键词和第二候选业务关键词的词向量的相似度值。举例来说，第一候选业务关键词是“师资力量”，第二候选业务关键词是“师资队伍”，将二者作为词向量模型的输入，输出“师资力量”和“师资队伍”的词向量的相似度值。运用上述方法，获取到任一第一候选业务关键词和每个第二候选业务关键词的词向量的相似度值，在此不做累述。

在步骤S340，根据获取的相似度的值从第一候选业务关键词或第二候选业务关键词选取关注度高的业务关键词。

根据本发明的优选实施例，步骤S340包括：对任一第一候选业务关键词和第二候选业务关键词，如果获取的第一候选业务关键词和第二候选业务关键词之间的相似度的值高于预定的相似度阈值，则将第二候选业务关键词选取为业务关键词。

需要说明的是，第一候选业务关键词和第二候选业务关键词之间的相似度的值高于预定的相似度阈值，表明第一候选业务关键词和第二候选业务关键词在含义是一致的。仍以“师资力量”和“师资队伍”为例，如果这两个候选业务关键词之间的相似度的值高于预定的相似度阈值，则说明“师资力量”和“师资队伍”的含义一致。一般来说，网页内容数据更加贴近用户的关注点，而“师资队伍”正是从网页内容数据中选取的，因此，选取“师资队伍”作为关注度高的业务关键词。

此外，如果本步骤最终选取的业务关键词的数量小于预定的数量阈值，则根据前述出现频度对未选取的第一候选业务关键词和/或第二候选业务关键词进行排序，选取所缺数量的第一候选业务关键词和/或第二候选业务关键词。

本发明实施例提供的信息处理方法，对获取到的与业务相关的评论文本数据和网页内容数据分别进行分析，获取多个第一候选业务关键词和多个第二候选业务关键词，进一步获取第一候选业务关键词与第二候选业务关键词之间的相似度的值，基于获取到的相似度的值自动、准确地选取业务关键词。同时，显著提升了业务关键词的选取过程的效率。

实施例二

图4是示出本发明实施例二的信息处理装置的逻辑框图。可用于执行如图3所示实施例的方法步骤。

参照图4，所述信息处理装置包括数据获取模块410、候选业务关键词获取模块420、相似度值获取模块430和业务关键词选取模块440。

数据获取模块410用于获取与业务相关的评论文本数据和网页内容数据。

候选业务关键词获取模块420用于对评论文本数据和网页内容数据进行分析，以分别从两者获取多个第一候选业务关键词和多个第二候选业务关键词。

根据本发明的示例性实施例，候选业务关键词获取模块420可包括：

依存树获取单元(未示出)用于对评论文本数据中的语句进行依存句法分析，以分别取得语句的依存树，

第一候选业务关键词选取单元(未示出)用于从依存树中的主语或主语结构选取多个第一候选业务关键词。

优选地，第一候选业务关键词选取单元用于分别计算主语或主语结构在评论文本中的出现频度和/或IDF值，根据计算出的出现频度和/或IDF值选取预定个数的主语或主语结构作为第一候选业务关键词。

可选地，候选业务关键词获取模块420还用于从取得的依存树当中去除不具有完整句法结构的依存树，第一候选业务关键词选取单元用于去除具有词性为代词或具有方位介词的主语或主语结构的依存树。

进一步地，候选业务关键词获取模块420可包括：

数据获取单元(未示出)用于分别从网页内容数据获取网页导航文本数据和/或栏目标题数据，

第二候选业务关键词选取单元(未示出)用于从网页导航文本数据和/或栏目标题数据选取多个第二候选业务关键词。

优选地，第二候选业务关键词选取单元用于分别计算网页导航文本数据和/或栏目标题数据在网页内容数据中的出现频度和/或逆文档频率(IDF)值，根据计算出的出现频度和/或逆文档频率(IDF)值选取预定个数的网页导航文本数据和/或栏目标题数据作为第二候选业务关键词。

相似度值获取模块430用于分别获取第一候选业务关键词与第二候选业务关键词之间的相似度的值。

优选地，相似度值获取模块430可用于以第一候选业务关键词和第二候选业务关键词作为输入，从预先训练的词向量模型获取第一候选业务关键词和第二候选业务关键词的词向量的相似度值。

业务关键词选取模块440用于根据获取的相似度的值从第一候选业务关键词或第二候选业务关键词选取关注度高的业务关键词。

优选地，业务关键词选取模块440可用于对任一第一候选业务关键词和第二候选业务关键词，如果获取的第一候选业务关键词和第二候选业务关键词之间的相似度的值高于预定的相似度阈值，则将第二候选业务关键词选取为业务关键词。

本发明实施例提供的信息处理装置，对获取到的与业务相关的评论文本数据和网页内容数据进行分析，得到多个第一候选业务关键词和多个第二候选业务关键词，再分别获取第一候选业务关键词与第二候选业务关键词之间的相似度的值，从而基于获取到的相似度的值从第一候选业务关键词或第二候选业务关键词中，最终选取关注度高的业务关键词，极大地提高了选取业务关键词的准确性和效率。

在本发明所提供的几个实施例中，应该理解到，所公开的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张霄;朱仕亮;杨琳琳;张耿;柴琛林;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：双出水速热净水机的制作方法与工艺
上一篇：胶管料斗以及具有该胶管料斗的分管传送机构的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。