知识库中问句解析的方法及设备的制造方法_5

文档序号:9765947阅读:来源:国知局
据与所述多个自然语言问句对应的观察谓词的值、与所述 多个自然语言问句对应的隐含谓词的值和所述一阶公式,采用差额注入松弛算法(Margin Infused Relaxed Algorithm, MIRA),确定所述一阶公式的权重。
[0452] 具体地,在406中,可W使用thebeast工具学习加权公式权重。在参数学习的过 程中,可W先将加权公式权重初始化为0,再使用MIRA更新所述加权公式权重。可选地,在 训练的过程中,还可W设置训练的最大循环次数,例如训练的最大循环次数为10。
[0453] 举例来说,表五中的S巧的加权公式权重可如表六所示。从表六可W看出,候选短 语的主要词的词性为nn时,该候选短语映射到类型为E的资源项的可能性比较大。
[0454] 表六 [04 巧]
[0456]
[0457] 送样,通过图5所示的实施例,可W确定任何一个知识库的加权公式权重,从而可 W得到针对任何一个知识库的转换规则。
[0458] 可理解,本发明实施例中,确定一阶公式的权重的方法是一种数据驱动的方式,可 W适用于不同的知识库。在大大减少人力的情况下,可W提高知识库的问答解析的效率。
[0459] 应理解,本发明实施例中,也可W根据所构建的无向图,进行结构学习,进而学习 到二阶公式甚至更高阶的公式,进一步根据所学习到的二阶公式或更高阶的公式构建新的 无向图,并学习二阶公式或更高阶的公式所对应的权重。本发明对此不作限定。
[0460] 图6是本发明一个实施例的问句解析的设备的框图。图6所示的设备500包括: 接收单元501、短语检测单元502、映射单元503、第一确定单元504、第二确定单元505、获取 单元506、和生成单元507。
[0461] 接收单元501,用于接收用户输入的问句。
[0462] 短语检测单元502,用于对所述接收单元501接收的所述问句进行短语检测,W确 定第一候选短语。
[0463] 映射单元503,用于将所述短语检测单元502确定的所述第一候选短语映射到知 识库中的第一资源项,其中,所述第一资源项与所述第一候选短语具有一致的语义。
[0464] 第一确定单元504,用于根据所述第一候选短语和所述第一资源项,确定观察谓词 的值和可能的问句分析空间,其中,所述观察谓词用于表示所述第一候选短语的特征、所述 第一资源项的特征和所述第一候选短语与所述第一资源项的关系,所述可能的问句分析空 间中的点为命题集合,所述命题集合中的命题的真假由隐含谓词的值表征。
[0465] 第二确定单元505,用于对所述可能的问句分析空间中的每一个命题集合,根据第 一确定单元504确定所述观察谓词的值和所述隐含谓词的值,进行不确定性推理,计算所 述每一个命题集合的置信度。
[0466] 获取单元506,用于获取所述置信度满足预设条件的命题集合中的真命题的组合, 其中,所述真命题用于表示从所述第一候选短语中所选中的搜索短语、从所述第一资源项 中所选中的搜索资源项和所述搜索资源项的特征。
[0467] 生成单元507,用于根据所述获取单元506获取的所述真命题的组合,生成形式化 查询语句。
[0468] 本发明实施例利用观察谓词和隐含谓词,进行不确定性推理,能够将自然语言问 句转化为形式化查询语句。并且,本发明实施例中,不确定性推理的方法能够应用于任何领 域的知识库,具有领域扩展性,送样无需针对知识库人工地配置转换规则。
[0469] 可选地,作为一个实施例,所述不确定性推理基于马尔科夫逻辑网络MLN,所述 MLN包括预定义的一阶公式W及所述一阶公式的权重。
[0470] 可选地,作为另一个实施例,
[0471] 所述获取单元506,还用于从所述知识库中获取多个自然语言问句;
[0472] 所述短语检测单元502,还用于对所述获取单元506接收的所述问句进行短语检 巧Ij,W确定第一候选短语;
[0473] 所述映射单元503,还用于将所述第二候选短语映射到所述知识库中的第二资源 项,其中,所述第二资源项与所述第二候选短语具有一致的语义;
[0474] 所述第一确定单元504,还用于根据所述第二候选短语和所述第二资源项,确定与 所述多个自然语言问句对应的观察谓词的值;
[0475] 所述获取单元506,还用于获取人工标注的与所述多个自然语言问句对应的隐含 谓词的值;
[0476] 所述第二确定单元505,还用于根据与所述多个自然语言问句对应的观察谓词的 值、与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式,构建无向图,通过训练 确定所述一阶公式的权重。
[0477] 可选地,作为另一个实施例,所述一阶公式包括布尔公式和加权公式,所述布尔公 式的权重为+ °°,所述加权公式的权重为加权公式权重,所述人工标注的与所述多个自然 语言问句对应的隐含谓词的值满足所述布尔公式,所述第二确定单元505,具体用于;根据 与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词 的值和所述一阶公式,构建无向图,通过训练确定所述加权公式权重。
[0478] 可选地,作为另一个实施例,所述第二确定单元505,具体用于:根据与所述多个 自然语言问句对应的观察谓词的值、与所述多个自然语言问句对应的隐含谓词的值和所述 一阶公式,构建无向图,采用差额注入松弛算法MIRA,确定所述一阶公式的权重。
[0479] 可选地,作为另一个实施例,所述MLN表示为M,所述一阶公式表示为4 1,所述一 阶公式的权重表示为Wi,所述命题集合表示为y,第二确定单元505,具体用于:
[0480] 根据.
计算所述每一个命题集合的置信 度,其中,Z为归一化常数,C'S为与一阶公式4 1对应的子公式的集合,C为的所述子 公式的集合中的一个子公式,Zf为二值函数,表示在所述命题集合y下,所述一阶 公式的真假。
[0481] 可选地,作为另一个实施例,获取单元506,具体用于;确定所述置信度的值最大 的命题集合,并获取所述置信度的值最大的命题集合中的真命题的组合。
[0482] 可选地,作为另一个实施例,
[0483] 所述第一候选短语的特征包括所述第一候选短语在所述问句中的位置、所述第一 候选短语的主要词的词性、所述第一候选短语两两之间的依存路径上的标签,
[0484] 所述第一资源项的特征包括所述第一资源项的类型、所述第一资源项两两之间的 相关性值、所述第一资源项两两之间的参数匹配关系,
[0485] 所述第一候选短语与所述第一资源项的关系包括所述第一候选短语与所述第一 资源项的先验匹配得分,
[0486] 所述第一确定单元504,具体用于:
[0487] 确定所述第一候选短语在所述问句中的位置;
[0488] 采用Stan化rd词性标注工具,确定所述第一候选短语的主要词的词性;
[0489] 采用Stan化rd依存句法分析工具,确定所述第一候选短语两两之间的依存路径 上的标签;
[0490] 从所述知识库中确定所述第一资源项的类型,其中,所述类型为实体或类别或关 系;
[0491] 从所述知识库中确定所述第一资源项两两之间的参数匹配关系;
[0492] 将所述第一资源项两两之间的相似性系数,作为所述两个第一资源项两两之间的 相关性值;
[0493] 计算所述第一候选短语与所述第一资源项之间的先验匹配得分,所述先验匹配得 分用于表示所述第一候选短语映射到所述第一资源项的概率。
[0494] 可选地,作为另一个实施例,所述形式化查询语句为简单协议资源描述框架查询 语句SPAR化。
[0495] 可选地,作为另一个实施例,所述生成单元507,具体用于:
[0496] 根据所述真命题的组合,利用SPAR化模板生成所述SPARQL。
[0497] 可选地,作为另一个实施例,所述SPAR化模板包括ASK WHERE模板、沈LECT COUNT (? url) W肥RE 模板和沈LECT? ur IW肥RE 模板,
[0498] 所述生成单元507,具体用于:
[0499] 当所述问句为化s/No问题时,根据所述真命题的组合,使用所述ASK WHERE模板 生成所述SPARQL ;
[0500] 当所述问句为Normal问题时,根据所述真命题的组合,使用所述SELECT ? url W肥RE模板生成所述SPARQL ;
[0501] 当所述问句为Number问题时,根据所述真命题的组合,使用所述SELECT ? url WHERE模板生成所述SPARQL或者,当使用所述沈LECT ? url WHERE模板生成的SPAR化无 法得到数值型答案时,使用所述SELECT COUNT (? url) WHERE模板生成所述SPARQL。
[0502] 可选地,作为另一个实施例,所述短语检测单元502,具体用于:
[0503] 将所述问句中的词序列作为所述第一候选短语,其中,所述词序列满足:
[0504] 所述词序列中所有连续的非停用词都W大写字母开头,或者,若所述词序列中所 有连续的非停用词不都W大写字母开头,则所述词序列的长度小于四;
[0505] 所述词序列的主要词的词性为jj或nn或rb或Vb,其中,jj为形容词,nn为名词, rb为副词,Vb为动词;
[0506] 所述词序列所包括的词不全为停用词。
[0507] 可选地,作为另一个实施例,设备500可W是知识库的服务器。
[050引设备500能够实现图1至图5的实施例中由设备实现的各个过程,为避免重复,送 里不再赏述。
[0509] 图7是本发明另一个实施例的问句解析的设备的框图。图7所示的设备600包括: 处理器601、接收电路602、发送电路603和存储器604。
[0510] 接收电路602,用于接收用户输入的问句。
[0511] 处理器601,用于对所述接收电路602接收的所述问句进行短语检测,W确定第一 候选短语。
[0512] 处理器601,还用于将所述第一候选短语映射到知识库中的第一资源项,其中,所 述第一资源项与所述第一候选短语具有一致的语义。
[0513] 处理器601,还用于根据所述第一候选短语和所述第一资源项,确定观察谓词的值 和可能的问句分析空间,其中,所述观察谓词用于表示所述第一候选短语的特征、所述第一 资源项的特征和所述第一候选短语与所述第一资源项的关系,所述可能的问句分析空间中 的点为命题集合,所述命题集合中的命题的真假由隐含谓词的值表征。
[0514] 处理器601,还用于对所述可能的问句分析空间中的每一个命题集合,根据第一确 定单元504确定所述观察谓词的值和所述隐含谓词的值,进行不确定性推理,计算所述每 一个命题集合的置信度。
[0515] 接收电路602,还用于获取所述置信度满足预设条件的命题集合中的真命题的组 合,其中,所述真命题用于表示从所述第一候选短语中所选中的搜索短语、从所述第一资源 项中所选中的搜索资源项和所述搜索资源项的特征。
[0516] 处理器601,还用于根据所述真命题的组合,生成形式化查询语句。
[0517] 本发明实施例利用观察谓词和隐含谓词,进行不确定性推理,能够将自然语言问 句转化为形式化查询语句。并且,本发明实施例中,不确定性推理的方法能够应用于任何领 域的知识库,具有领域扩展性,送样无需针对知识库人工地配置转换规则。
[051引设备600中的各个组件通过总线系统605禪合在一起,其中总线系统605除包括 数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图 7中将各种总线都标为总线系统605。
[0519] 上述本发明实施例掲示的方法可W应用于处理器601中,或者由处理器601实现。 处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的 各步骤可W通过处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的 处理器1001可W是通用处理器、数字信号处理器值igital Si即al Processor,DSP)、专用 集成电路(Application Specific Integrated Cir州it, ASIC)、现成可编程口阵列(Field Programm油Ie Gate Array,FPGA)或者其他可编程逻辑器件、分立口或者晶体管逻辑器件、 分立硬件组件。可W实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通 用处理器可W是微处理器或者该处理器也可W是任何常规的处理器等。结合本发明实施例 所公开的方法的步骤可W直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬 件及软件模块组合执行完成。软件模块可W位于随机存储器,闪存、只读存储器,可编程只 读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位 于存储器604,处理器601读取存储器604中的信息,结合其硬件完成上述方法的步骤。
[0520] 可W理解,本发明实施例中的存储器604可W是易失性存储器或非易失性存储 器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可W是只读存储器 巧ead-Only Memo巧,ROM)、可编程只读存储器(Programm油Ie ROM, PROM)、可擦除可编程 只读存储器巧ras油Ie PR0M,EPROM)、电可擦除可编程只读存储器巧Iectrically EPROM, EEPR0M)或闪存。易失性存储器可W是随机存取存储器(Random Access Memo巧,RAM),其用 作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取 存储器(Static RAM, SRAM)、动态随机存取存储器值ynamic RAM, DRAM)、同步动态随机存取 存储器(Sync虹onous DRAM, SDRAM)、双倍数据速率同步动态随机存取存储器值OUble Data Rate SDRAM,孤R SDRAM)、增强型同步动态随机存取存储器巧nhanced SDRAM, ESDRAM)、同 步连接动态随机存取存储器(Synchlink DRAM, SLDRAM)和直接内存总线随机存取存储器 值irect Rambus RAM, DR RAM)。本文描述的系统和方法的存储器604旨在包括但不限于送 些和任意其它适合类型的存储器。
[0521] 可W理解的是,本文描述的送些实施例可W用硬件、软件、固件、中间件、微码或其 组合来实现。对于硬件实现,处理单元可W实现在一个或多个专用集成电路(Application Specific Integrated Circuits, ASIC)、数字信号处理器值igital Si即al Processing, DSP)、数字信号处理设备值SP Device,DSPD)、可编程逻辑设备(Programm油Ie Logic Device, PLD)、现场可编程口阵列(Field-Programm油Ie Gate Array, FPGA)、通用处理器、 控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
[0522] 当在软件、固件、中间件或微码、程序代码或代码段中实现实施例时,它们可存储 在例如存储部件的机器可读介质中。代码段可表示过程、函数、子程序、程序、例程、子例程、 模块、软件分组、类、或指令、数据结构或程序语句的任意组合。代码段可通过传送和/或 接收信息、数据、自变量、参数或存储器内容来稿合至另一代码段或硬件电路。可使用包括 存储器共享、消息传递、令牌传递、网络传输等任意适合方式来传递、转发或发送信息、自变 量、参数、数据等。
[0523] 对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文 所述的技术。软件代码可存储在存储器单元中并通过处理器执行。存储器单元可W在处理 器中或在处理器外部实现,在后一种情况下存储器单元可经由本领域己知的各种手段W通 信方式禪合至处理器。
[0524] 可选地,作为一个实施例,所述不确定性推理基于马尔科夫逻辑网络MLN,所述 MLN包括预定义的一阶公式W及所述一阶公式的权重。
[0525] 本发明实施例中,存储器604可用于存储资源项、W及资源项的类型等。存储器 604还可用于存储所述一阶公式。存储器604还可用于存储SPAR化模板。
[0526] 可选地,作为另一个实施例,
[0527] 所述接收电路602,还用于从所述知识库中获取多个自然语言问句;
[052引所述处理器601,还用于对所述问句进行短语检测,W确定第一候选短语;
[0529] 所述处理器601,还用于将所述第二候选短语映射到所述知识库中的第二资源项, 其中,所述第二资源项与所述第二候选短语具有一致的语义;
[0530] 所述处理器601,还用于根据所述第二候选短语和所述第二资源项,确定与所述多 个自然语言问句对应的观察谓词的值;
[0531] 所述接收电路602,还用于获取人工标注的与所述多个自然语言问句对应的隐含 谓词的值;
[0532] 所述处理器601,还用于根据与所述多个自然语言问句对应的观察谓词的值、与所 述多个自然语言问句对应的隐含谓词的值和所述一阶公式,构建无向图,通过训练确定所 述一阶公式的权重。
[0533] 可选地,作为另一个实施例,所述一阶公式包括布尔公式和加权公式,所述布尔公 式的权重为+ °°,所述加权公式的权重为加权公式权重,所述人工标注的与所述多个自然 语言问句对应的隐含谓词的值满足所述布尔公式,
[0534] 所述处理器601,具体用于;根据与所述多个自然语言问句对应的观察谓词的值、 与所述多个自然语言问句对应的隐含谓词的值和所述一阶公式,构建无向图,通过训练确 定所述加权公式权重。
[0535] 可选地,作为另一个实施例,所述处理器601,具体用于:
[0536] 根据与所述多个自然语言问句对应的观察谓词的值、与所述多个自然语言问句对 应的隐含谓词的值和所述一阶公式,构建无向图,采用差额注入松弛算法MIRA,确定所述一 阶公式的权重。
[0537] 可选地,作为另一个实施例,所述MLN表示为M,所述一阶公式表示为,所述一 阶公式的权重表示为Wi,所述命题集合表示为y,处理器601,具体用于:
[053引根据
,计算所述每一个命题集合的置信 度,其中,Z为归一化常数,C"A为与一阶公式4 1对应的子公式的集合,C为C"A的所述子 公式的集合中的一个子公式,为二值函数,表示在所述命题集合y下,所述一阶 公式的真假。
[0539] 可选地,作为另一个实施例,接收电路602,具体用于;确定所述置信度的值最大 的命题集合,并获取所述置信度的值最大的命题集合中的真命题的组合。
[0540] 可选地,作为另一个实施例,
[0541] 所述第一候选短语的特征包括所述第一候选短语在所述问句中的位置、所述第一 候选短语的主要词的词性、所述第一候选短语两两之间的依存路径上的标签,
[0542] 所述第一资源项的特征包括所述第一资源项的类型、所述第一资源项两两之间的 相关性值、所述第一资源项两两之间的参数匹配关系,
[0543] 所述第一候选短语与所述第一资源项的关系包括所述第一候选短语与所述第一 资源项的先验匹配得分,
[0544] 所述处理器601,具体用于:
[0545] 确定所述第一候选短语在所述问句中的位置;
[0546] 采用Stan化rd词性标注工具,确定所述第一候选短语的主要词的词性;
[0547] 采用Stan化rd依存句法分析工具,确定所述第一候选短语两两之间的依存路径 上的标签;
[0
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1