二元特征词典的构建方法和装置的制造方法

文档序号：10655408阅读：179来源：国知局

二元特征词典的构建方法和装置的制造方法
【专利摘要】本申请提出一种二元特征词典的构建方法和装置，该二元特征词典的构建方法包括：从语料中提取二元特征；计算所述二元特征的预设统计量；根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。该方法能够构建出二元特征词典，从而可以在语义相似度模型的训练数据中引入新的特征。
【专利说明】
二元特征词典的构建方法和装置
技术领域
[0001] 本申请设及自然语言处理技术领域，尤其设及一种二元特征词典的构建方法和装置。
【背景技术】
[0002] 捜索引擎是一种检索系统，能够向用户反馈检索结果。捜索引擎的一种实现是基于语义相似度模型，通过语义相似度模型可W计算用户检索的检索词(query)与候选的标题(title)之间的相似度，再根据相似度进行排序，W返回检索结果。语义相似度模型可W 采用神经网络训练构建。
[0003] 相关技术中，采用神经网络构建语义相似度模型时，训练数据通常是基础(basic) 粒度的信息或短语(phrase)粒度的信息，其中，bas i C粒度的信息是对句子语料进行切词后，得到的最小粒度的分词，如巧度"，地rase粒度的信息包括多个最小粒度的分词，如吧西葡语"。为了提高语义相似度模型的精准度，还可W在训练数据中引入新的粒度信息。当需要引入新的粒度信息时，需要解决如何提取新的粒度信息的问题。

【发明内容】

[0004] 本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005] 为此，本申请的一个目的在于提出一种二元特征词典的构建方法，该方法可W构建出二元特征词典，从而可W采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可W作为语义相似度模型的训练数据中引入的新特征。
[0006] 本申请的另一个目的在于提出一种二元特征词典的构建装置。
[0007] 为达到上述目的，本申请第一方面实施例提出的二元特征词典的构建方法，包括：从语料中提取二元特征;计算所述二元特征的预设统计量;根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。
[000引本申请第一方面实施例提出的二元特征词典的构建方法，通过计算二元特征的预设统计量，根据预设统计量选择二元特征组成二元特征词典，可W实现二元特征词典的构建，从而可W采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可 W作为语义相似度模型的训练数据中引入的新特征。
[0009] 为达到上述目的，本申请第二方面实施例提出的二元特征词典的构建装置，包括：提取模块，用于从语料中提取二元特征;计算模块，用于计算所述二元特征的预设统计量；生成模块，用于根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。
[0010] 本申请第二方面实施例提出的二元特征词典的构建装置，通过计算二元特征的预设统计量，根据预设统计量选择二元特征组成二元特征词典，可W实现二元特征词典的构建，从而可W采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可 W作为语义相似度模型的训练数据中引入的新特征。
[0011] 本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。
【附图说明】
[0012] 本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
[0013] 图1是本申请一个实施例提出的二元特征词典的构建方法的流程示意图；
[0014] 图2是本申请另一个实施例提出的二元特征词典的构建方法的流程示意图；
[0015] 图3是本申请另一个实施例提出的二元特征词典的构建方法的流程示意图；
[0016] 图4是本申请实施例采用的神经网络的示意图；
[0017] 图5是本发明一个实施例提出的二元特征词典的构建装置的结构示意图；
[0018] 图6是本发明一个实施例提出的二元特征词典的构建装置的结构示意图。
【具体实施方式】
[0019] 下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0020] 在获取语义相似模型的训练数据时，可W先对句子语料进行切词，之后根据分词获取需要粒度的信息，如bas i C粒度的信息或地rase粒度的信息。
[0021] 如上所示，在构建语义相似度模型时，除了上述的basic粒度的信息或曲rase粒度的信息之外，还可W引入新粒度的信息。该引入的新粒度的信息可W称为二元特征。每个二元特征由两个bas i C粒度的信息或两个地rase粒度的信息组成。
[0022] 当需要引入二元特征时，可W根据二元特征词典获取对应的二元特征。因此，需要解决二元特征词典如何建立的问题。
[0023] 图1是本申请一个实施例提出的二元特征词典的构建方法的流程示意图。
[0024] 如图1所示，本实施例的流程包括：
[00巧]Sll:从语料中提取二元特征。
[0026] 其中，在构建二元特征词典时，可W先收集语料，与语义相似度模型的构建类似，构建二元特征词典时收集的语料也可W具体是句子语料，即，收集大量的句子作为语料。
[0027] 在语料中提取二元特征时，可W具体是将语料中任意两个相邻的词条，作为一个二元特征。
[0028] 具体的，对应每个句子语料，可W对句子语料进行切分，得到词条(term)。
[0029] 其中，词条可W是basic粒度，或者，也可W是地rase粒度，但是，上述的两个词条需要具有同种粒度，例如，均是basic粒度，或者，均是地rase粒度。将句子切分成basic粒度的词条或地rase粒度的词条可W采用各种已有技术，在此不再详细说明。
[0030] 在将句子切分成词条后，可W将任意两个相邻的词条作为一个二元特征，因此，可 W对应每个句子，假设该句子包括n个词条，则可W提取出n-1个二元特征。将语料中的所有句子对应的二元特征相加后，可W得到多个二元特征。
[0031] S12:计算所述二元特征的预设统计量。
[0032] 本实施例中，W预设统计量是t统计量为例。
[0033] t统计量是对模型参数的单个假设进行检验的一种统计量。
[0034] 具体的，一个二元特征的t统计量的计算公式是：
[0035]
[0036] 其中，f是该二元特征在语料中的出现概率，例如，语料中共有M个句子，其中m个句子中存在该二元特征，即该二元特征中的两个词条相邻且位置关系不变的出现在m个句子中，则f=m/M;
[0037] y = piXp2，pi是该二元特征中一个词条在语料中的出现概率，P2是该二元特征中另一个词条在语料中的出现概率；
[003引本实施例中，假设s2 = f;
[0039] N是语料中所有二元特征的总数，N=ENi, N是单个句子语料对应的二元特征的数量，假设某个句子语料包括n个词条，则该句子语料对应的二元特征的数量是n-1。
[0040] 因此，通过上述计算公式，可W计算出每个二元特征的t统计量。
[0041] S13:根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。
[0042] 例如，在得到每个二元特征的t统计量后，可W根据t统计量从大到小的顺序选择预设个数的二元特征，将选择的运些二元特征组成二元特征词典。
[0043] 进一步的，如上所示，一个二元特征可W是由两个basic粒度的词条组成，或者，一个二元特征也可W是由两个曲rase粒度的词条组成。在上述排序时，是对运些二元特征(包括根据basic粒度的词条得到的二元特征W及根据地rase粒度的词条得到的二元特征)进行统一排序的，从而在二元特征词典中可W包括根据basic粒度的词条得到的二元特征和/ 或根据地rase粒度的词条得到的二元特征。
[0044] 通过上述的流程，可W实现二元特征词典的构建。
[0045] 在构建出二元特征词典后，可W使用该词典生成二元特征，W用于语义相似度模型的训练。
[0046] 相应的，一些实施例中，参见图2，本实施例的方法还可W包括：
[0047] S14:采用所述二元特征词典，从语义相似度模型的分词中提取二元特征，作为语义相似度模型的训练数据。
[004引其中，可W将二元特征词典中包括的且可W由相邻的两个分词组成的二元特征，作为提取的二元特征。
[0049] 另外，上述的分词可W是bas i C粒度的分词或地rase粒度的分词。
[0050] 例如，语义相似度模块的一个语料是"百度己西葡语"，经过切词后，Wbasic粒度的分词为例，各分词是"百度"、"己西"、"葡语"，构建的二元特征词典中的一个二元特征是 "己西葡语"，则提取的一个二元特征是"己西葡语"。
[0051] 进一步的，如何二元特征词典中不包括任意两个相邻分词组成的二元特征，则直接将分词作为提取的二元特征。依然W上述的语料为例，假设构建的二元特征词典中不包括"己西葡语"，也不包括"百度己西"，则提取的二元特征就是原始的分词，如"百度"、"己西"、"葡语'。
[0052]因此，通过二元特征词典，可W实现二元特征的提取，从而在训练语义相似度模型时可W引入新的特征。
[0化3] -些实施例中，参见图3,本实施例的方法还可W包括：
[0054] S15:根据所述训练数据进行神经网络训练，生成语义相似度模型。
[0055] 其中，神经网络可W如图4所示，与通常的语义相似度模型不同的是，本实施例的输入可W包括二元特征。
[0056] 因此，可W通过引入二元特征训练语义相似度模型。
[0057] 本实施例中，通过计算二元特征的预设统计量，根据预设统计量选择二元特征组成二元特征词典，可W实现二元特征词典的构建，从而可W采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可W作为语义相似度模型的训练数据中引入的新特征。
[0058] 图5是本发明一个实施例提出的二元特征词典的构建装置的结构示意图。
[0059] 参见图5,本实施例的装置包括:提取模块51、计算模块52和生成模块53。
[0060] 提取模块51，用于从语料中提取二元特征；
[0061] 计算模块52,用于计算所述二元特征的预设统计量；
[0062] 生成模块53,用于根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。
[0063] -些实施例中，所述提取模块51具体用于：
[0064] 将语料中任意两个相邻的词条，作为一个二元特征。
[0065] -些实施例中，所述计算模块52计算的所述预设统计量是t统计量。
[0066] -些实施例中，参见图6,本实施例的装置还可W包括：
[0067] 获取模块54,用于采用所述二元特征词典，从语义相似度模型的分词中提取二元特征，作为语义相似度模型的训练数据。
[0068] -些实施例中，参见图6,本实施例的装置还可W包括：
[0069] 训练模块55，用于根据所述训练数据进行神经网络训练，生成语义相似度模型。
[0070] 可W理解的是，本实施例的装置与方法实施例对应，具体内容可W参见方法实施例中的相关描述，在此不再详细说明。
[0071 ]本实施例中，通过计算二元特征的预设统计量，根据预设统计量选择二元特征组成二元特征词典，可W实现二元特征词典的构建，从而可W采用该二元特征词典从模型语料中提取出二元特征，进一步的，该二元特征可W作为语义相似度模型的训练数据中引入的新特征。
[0072] 可W理解的是，上述各实施例中相同或相似部分可W相互参考，在一些实施例中未详细说明的内容可W参见其他实施例中相同或相似的内容。
[0073] 需要说明的是，在本申请的描述中，术语"第一"、"第二"等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，"多个"的含义是指至少两个。
[0074] 流程图中或在此W其他方式描述的任何过程或方法描述可W被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可W不按所示出或讨论的顺序，包括根据所设及的功能按基本同时的方式或按相反的顺序，来执行功能，运应被本申请的实施例所属技术领域的技术人员所理解。
[0075] 应当理解，本申请的各部分可W用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可W用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑口电路的离散逻辑电路，具有合适的组合逻辑口电路的专用集成电路，可编程口阵列(PGA)，现场可编程口阵列(FPGA)等。
[0076] 本技术领域的普通技术人员可W理解实现上述实施例方法携带的全部或部分步骤是可W通过程序来指令相关的硬件完成，所述的程序可W存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0077] 此外，在本申请各个实施例中的各功能单元可W集成在一个处理模块中，也可W 是各个单元单独物理存在，也可W两个或两个W上单元集成在一个模块中。上述集成的模块既可W采用硬件的形式实现，也可W采用软件功能模块的形式实现。所述集成的模块如果W软件功能模块的形式实现并作为独立的产品销售或使用时，也可W存储在一个计算机可读取存储介质中。
[0078] 上述提到的存储介质可W是只读存储器，磁盘或光盘等。
[0079] 在本说明书的描述中，参考术语"一个实施例"、"一些实施例"、"示例"、"具体示例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可W在任何的一个或多个实施例或示例中W合适的方式结合。
[0080] 尽管上面已经示出和描述了本申请的实施例，可W理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可W对上述实施例进行变化、修改、替换和变型。
【主权项】
1. 一种二元特征词典的构建方法，其特征在于，包括：从语料中提取二元特征；计算所述二元特征的预设统计量；根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。2. 根据权利要求1所述的方法，其特征在于，所述从语料中提取二元特征，包括：将语料中任意两个相邻的词条，作为一个二元特征。3. 根据权利要求1所述的方法，其特征在于，所述预设统计量是t统计量。4. 根据权利要求1-3任一项所述的方法，其特征在于，还包括：采用所述二元特征词典，从语义相似度模型的分词中提取二元特征，作为语义相似度模型的训练数据。5. 根据权利要求4所述的方法，其特征在于，还包括：根据所述训练数据进行神经网络训练，生成语义相似度模型。6. -种二元特征词典的构建装置，其特征在于，包括：提取模块，用于从语料中提取二元特征；计算模块，用于计算所述二元特征的预设统计量；生成模块，用于根据所述预设统计量按序选择预设个数的二元特征，组成二元特征词典。7. 根据权利要求6所述的装置，其特征在于，所述提取模块具体用于：将语料中任意两个相邻的词条，作为一个二元特征。8. 根据权利要求6所述的装置，其特征在于，所述计算模块计算的所述预设统计量是t 统计量。9. 根据权利要求6-8任一项所述的装置，其特征在于，还包括：获取模块，用于采用所述二元特征词典，从语义相似度模型的分词中提取二元特征，作为语义相似度模型的训练数据。10. 根据权利要求9所述的装置，其特征在于，还包括：训练模块，用于根据所述训练数据进行神经网络训练，生成语义相似度模型。
【文档编号】G06F17/27GK106021572SQ201610379719
【公开日】2016年10月12日
【申请日】2016年5月31日
【发明人】周坤胜, 何径舟, 石磊, 冯仕堃
【申请人】北京百度网讯科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周坤胜;何径舟;石磊;冯仕堃;
技术所有人：北京百度网讯科技有限公司;
我是此专利的发明人

上一篇：图片分类方法及装置、电子设备的制造方法
上一篇：采油工程方案生成方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。