数据处理方法和装置的制造方法

文档序号:8258486阅读:206来源:国知局
数据处理方法和装置的制造方法
【技术领域】
[0001] 本申请涉及互联网技术,特别涉及数据处理方法和装置。
【背景技术】
[0002] 为使本申请容易理解,下面先对本申请涉及的技术术语进行描述:
[0003] 分词:是将一个序列切分成一个一个单独的词。该序列可以为中文汉字序列,也可 以为中文汉字和专有英文词组成的序列。
[0004] 知识库:其是诸多个语义树的集合。而一个语义树是由语义相同或者相近的一组 词的集合组成的。
[0005] 特征向量词:用来表示某一个文档的特征的词,其包括至少一个词。
[0006] 内链词:是在问答社区的正文中出现的,用户可以点击并且跳转到其它页面上的 链接及描述文字。其可以作为一个文档的特征向量词。
[0007] 自内链词:属于内链词的一种,是知识库中某一类词条中用于指向同一类词条中 其他词条的链接及描述文字。
[0008] 以上对本申请涉及的技术术语进行了描述。
[0009] 在现有技术中,当对知识库中的词(称为待处理词)进行一些数据处理时,如果能 够自动推荐出该待处理词相关的自内链词,使用户从推荐的自内链词中找到自己感兴趣的 词,无需用户主动重新获取,这一方面提高知识库的词访问效率,另一方面也能节省因为用 户频繁访问知识库所浪费的资源。然而,现有技术中尚没有一种方式能够挖掘并推荐待处 理词相关的自内链词。因此,一种用于挖掘待处理词相关的自内链词的数据处理方法是当 前亟待解决的技术问题。

【发明内容】

[0010] 本申请提供了数据处理方法和装置,以实现在处理知识库中某一词时,自动挖掘 出该词相关的自内链词。
[0011] 本申请提供的技术方案包括:
[0012] 一种数据处理方法,包括:
[0013] 确定待处理词的特征向量词;
[0014] 将在所述待处理词专属的结果页中出现的设定的内链词作为所述待处理词的候 选自内链词;
[0015] 按照确定待处理词的特征向量词的方式确定每一候选自内链词的特征向量词;
[0016] 按照设定的推荐分数计算方法计算并利用每一候选自内链词的特征向量词和所 述待处理词的特征向量词计算每一候选自内链词的推荐分数;
[0017] 选取设定数量个推荐分数高的候选自内链词作为所述待处理词相关的自内链词。
[0018] 一种数据处理方法,该方法包括:
[0019] 将预先设置的知识库中除待处理词之外的其他词作为所述待处理词的候选自内 链词;
[0020] 获取每一候选自内链词在设定时间内被用户访问的次数;
[0021] 计算所述知识库中所有词在所述设定时间内被用户访问的次数之和;
[0022] 按照设定的推荐分数计算方法并利用每一候选自内链词在设定时间内被用户访 问的次数和所述知识库中所有词在所述设定时间内被用户访问的次数之和计算所述每一 候选自内链词的推荐分数;
[0023] 选取设定数量个推荐分数高的候选自内链词作为待处理词的相关的自内链词。
[0024] 一种数据处理装置,该装置包括:
[0025] 第一确定单元,用于确定待处理词的特征向量词;
[0026] 第二确定单元,用于将在所述待处理词专属的结果页中出现的设定的内链词作为 所述待处理词的候选自内链词;
[0027] 第三确定单元,用于按照第一确定单元确定待处理词的特征向量词的方式确定每 一候选自内链词的特征向量词;
[0028] 计算单元,用于按照设定的推荐分数计算方法计算并利用每一候选自内链词的特 征向量词和所述待处理词的特征向量词计算每一候选自内链词的推荐分数;
[0029] 选取单元,用于选取设定数量个推荐分数高的候选自内链词作为待处理词的相关 的自内链词。
[0030] 一种数据处理装置,该装置包括:
[0031] 确定单元,用于将预先设置的知识库中除待处理词之外的其他词作为所述待处理 词的候选自内链词;
[0032] 获取单元,用于获取每一候选自内链词在设定时间内被用户访问的次数;
[0033] 第一计算单元,用于计算所述知识库中所有词在所述设定时间内被用户访问的次 数之和;
[0034] 第二计算单元,用于按照设定的推荐分数计算方法并利用每一候选自内链词在设 定时间内被用户访问的次数和所述知识库中所有词在所述设定时间内被用户访问的次数 之和计算所述每一候选自内链词的推荐分数;
[0035] 选取单元,用于选取设定数量个推荐分数高的候选自内链词作为待处理词的相关 的自内链词。
[0036] 由以上技术方案可以看出,本发明中,通过确定待处理词的特征向量词和候选自 内链词,利用所述待处理词的特征向量词和每一候选自内链词的特征向量词计算每一候选 自内链词的推荐分数,选取设定数量个推荐分数高的候选自内链词作为所述待处理词相关 的自内链词,能够实现在处理某一词时,自动挖掘出该词的自内链词的目的。
[0037] 进一步地,本发明中,由于在处理某一词时能够自动推荐出该词相关的自内链词, 使用户从推荐的自内链词中找到自己感兴趣的词,无需用户主动重新获取,这一方面提高 知识库的词访问效率,另一方面也能节省因为用户频繁访问知识库所浪费的资源。
【附图说明】
[0038] 图1为本发明实施例1提供的方法流程图;
[0039] 图2为本发明实施例1提供的特征向量词确定流程图;
[0040] 图3为本发明实施例2提供的相关度确定流程图;
[0041] 图4为本发明实施例1提供的特征向量词另一确定流程图;
[0042]图5为本发明实施例2提供的方法流程图;
[0043]图6为本发明实施例提供的装置结构图;
[0044] 图7为本发明实施例提供的另一装置结构图。
【具体实施方式】
[0045] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。
[0046] 本发明提供的方法能够在处理某一词时,能够自动挖掘出该词相关的自内链词, 实现在处理某一词时,自动挖掘出该词的自内链词的目的。
[0047] 下面通过两个实施例对本发明提供的方法进行描述:
[0048] 实施例1 :
[0049] 参见图1,图1为本发明实施例1提供的方法流程图。如图1所示,该方法包括以 下步骤:
[0050] 步骤101,确定待处理词的特征向量词。
[0051] 本发明中,所述待处理词可包括至少一个词。
[0052] 下文重点描述了如何确定待处理词的特征向量词的方法,本步骤101暂不赘述。
[0053] 步骤102,将在所述待处理词专属的结果页中出现的设定的内链词作为所述待处 理词的候选自内链词。
[0054] 本发明中,待处理词为预先设置的知识库中的词,其中,在设置知识库时,本发明 可针对知识库中的每一词都专门设定一个专属的结果页,用于解释或者描述该词。
[0055] 基于此,本步骤102中,就基于知识库的设置,从知识库中找到所述待处理词专属 的结果页。其中,该结果页中可包括一些在知识库中有专属结果页的词,针对这些词,其在 接收到用户触发比如点击时会自动跳转到其专属结果页,因此可称为内链词。当本步骤102 发现所述待处理词专属的结果页中出现一些如前所述的内链词时,本步骤102就将该发现 的内链词作为所述待处理词的候选自内链词,以便后续从所述待处理词的候选自内链词中 挖掘出优先级比较高的词作为待处理词相关的自内链词并推荐给用户。
[0056] 步骤103,按照步骤101确定待处理词的特征向量词的方式确定每一候选自内链 词的特征向量词。
[0057] 步骤104,按照设定的推荐分数计算方法计算并利用每一候选自内链词的特征向 量词和所述待处理词的特征向量词计算每一候选自内链词的推荐分数。
[0058] 优选地,在上述步骤103中,之所以按照相同方式确定候选自内链词与待处理词 的特征向量词,目的是方便本步骤104计算推荐分数,避免因为不同方式确定的特征向量 词无法进行推荐分数计算。
[0059] 另外,至于本步骤104中设定的推荐分数计算方法,其可根据实际情况设置,t匕 如,可设置为相关度计算方法,或者其他方式,本发明并不具体限定。
[0060] 步骤105,选取设定数量个推荐分数高的候选自内链词作为待处理词相关的自内 链词。
[0061] 至此,通过上述步骤101至步骤105即可自动挖掘出待处理词相关的自内链词。
[0062] 下面对图1所示流程中步骤101确定待处理词的特征向量词的方式进行描述:
[0063] 优选地,本发明中可采用以下两种方式确定待处理词的特征向量词:
[0064]方式1 :
[0065] 本方式1下,步骤101确定待处理词的特征向量词的方法可包括图2所示的以下 步骤:
[0066] 步骤201,确定所述待处理词专属结果页的文档。
[0067]基于上文描述的,在知识库中的每一词都有一个专属的结果页,所述待处理词条 作为知识库的词,其肯定有一个专属的结果页。当进入所述待处理词专属的结果页时,按照 现有文档规定很容易确定所述待处理词专属的结果页对应的文档,即称为所述待处理词专 属结果页的文档。
[0068] 步骤202,确定设定阈值个与所述文档具有高相关度的词,将确定的词确定为所述 待处理词的特征向量词。
[0069] 优选地,本方式1下,步骤202具体实现可包括如图3所示流程:
[0070] 步骤301,对所述待处理词进行分词处理和去噪声干扰,得到对应的处理结果。
[0071] 本步骤301中,待处理词并非一个单独的中文汉字,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1