自然语言中的自动问句检测的制作方法

文档序号:9471355阅读:501来源:国知局
自然语言中的自动问句检测的制作方法
【技术领域】
[0001]实施例大体上涉及自然语言环境中的自动问句检测。更特定地,实施例涉及在自然语言环境中使用基于从句的问句检测。
【背景技术】
[0002]常规自动问句检测方法大体上可整体分析遇到的每个句子。这些方法可包括使用机器学习分类器或全解析在句子开始或结束处寻找关键词和“η元”(例如,η-词的特定分组)来产生句子语法结构的层次树,等。尽管这些方法在某些境况下令人满意,仍然有相当大的空间有待提高。例如,将每个句子视为整体可使得这些方法对于很多种应用容易出错和/或不实际。更特定地,传统的η元法可能不能说明未预定义为位于句子中间的η元或词的部分的插入词,并且层次树法在计算上可是昂贵的、非常耗费资源且很慢。因此,两个方法可能都不适合于实时和/或低功率应用,例如在手持设备上运行的个人助理(PA)应用。
【附图说明】
[0003]实施例的各种优势对本领域内技术人员将通过阅读下列说明书和附上的权利要求并且通过参考下列图而变得明显,其中:
图1是根据实施例用于产生对于句子的问句指示的问句检测规则集的示例的框图;
图2是根据实施例的句子的示例的图示;
图3是根据实施例训练系统的方法的示例的流程图;
图4是根据实施例自动检测问句的方法的示例的流程图;
图5是根据实施例的逻辑架构的示例的框图;
图6是根据实施例的处理器的示例的框图;以及图7是根据实施例的系统的示例的框图。
【具体实施方式】
[0004]现在转向图1,示出句子10,其中该句子10可从消息(例如,电子邮件、文本消息、即时消息AM、社交联网帖子,等)、处理音频馈送(例如,录音、麦克风输出)的语音识别模块等获得。在图示的示例中,句子10分成多个从句12 (12a,12b),其包含对应于各种词性(POS) 14 的词。例如,句子 10 可以是“could she see the stage when she went to theconcert”。在这样的情况下,“could she see the stage”可识别为句子10中的第一从句12a并且“when she went to the concert”可识别为句子10中的第二从句12b。如将更详细论述的,问句检测规则16 (16a-16c)的集可适用于从句12中的每个,其中如果问句检测规则16指示从句12中的至少一个是问句,句子10可经由例如问句指示18而自动指示为问句。在逐从句基础上分析句子10可减少错误以及计算开销。
[0005]更特定地,图示的问句检测规则16中的每个定义多个词性14的顺序,其中该顺序允许有未预先定义的插入词。例如,第一问句检测规则16a可规定在“wh-词”(例如,who、whom、what、where、when、why、how)后跟情态动词或助动词(例如,can、must、should、would、could)后跟名词后跟动词时,整个句子10可自动指示为问句。助动词可定义为对它出现的从句增加功能或语法意义(例如,时态、形态(aspect)、情态、语态、语势)的词,而情态动词可定义为用于表达情态(例如,可能性、义务、能力等)的助动词类别。特别要注意,与在典型的η元方案中的不同,在第一问句检测规则16a中放置在规定词性14之间的词将未防止将指定从句和它的对应句子识别为问句。另外,规定词性14而不是特定关键词可使系统的灵活增加并且大大提高准确性。
[0006]相似地,第二问句检测规则16b可以规定在情态动词或助动词后跟名词后跟动词时,整个句子10可自动指示为问句,其中插入词将未防止进行这样的指示。从而,这样的规则可将例如“So, may Susan and her boyfriend come with us”等从句识别为问句(例如,情态动词“may”,后跟名词“Susan”后跟动词“come”)。在再另一个示例中,第三问句检测规则16c可规定在从句以BE (例如,“to be”)或HAVE (例如,“to have”)词开始、(例如,is, have, has)后跟名词时,整个句子10可自动指示为问句,其中插入词可未防止进行这样的指定。这样的规则可因此将例如“Is the building the grey one”等从句识别为问句(例如,HAVE词“ I s ”、后跟名词“ bui I ding ”,插入词是“ the,,)。此外,在图示的示例中考虑例如在第二从句12b开始处、接近句子10中间放置的词等相关词。因此,问句检测准确性可进一步提高。小写大写的语言学约定(例如,BE、HAVE)在本文用于指示词位(B卩,词的所有词形变化的集)。
[0007]图2证明句子10的词可用词性14来标记。词性14进而可用于识别短语块20和从句12。例如,在图示的示例中,词“could”识别为情态助动词词性、动词短语和第一从句12a的部分。另一方面,在图示的示例中,词“when”可识别为wh副词词性、孤立连词和第二从句12b的部分。
[0008]现在转向图3,示出训练系统来自动将句子分成从句的方法22。该方法22可实现为逻辑指令集的模块或相关组件,该逻辑指令集存储在例如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM (PR0M)、固件、闪速存储器等机器或计算机可读存储介质中,在可配置逻辑,例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)中,在使用例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(ITL)技术等电路技术的固定功能性硬件逻辑中、或其任意组合。例如,用于实施在方法22中示出的操作的计算机程序代码可用一个或多个编程语言的任何组合来编写,其包括例如Java、Smalltalk、C++或类似物等面向对象编程语言和例如“C”编程语言或相似的编程语言等常规的程序化编程语言。
[0009]图示的处理框24提供将消息、语音识别输出、文件等分成多个从句。第一路径可牵涉在框26处用词性来标记句子的词以及在框28处使用这些词性来创建名词/动词短语块。第二路径可牵涉在框30处从另一个自然语言处理(NLP)解析器或标记文本获得对于句子的从句边界。图示的框32训练从句识别器以基于词性和在第一路径中生成的名词/动词子块和来自第二路径的已知从句边界自动识别从句边界。例如“分类器”、“Brill taggers”等其他方法可用于训练系统,这取决于境况。
[0010]图4示出自动检测问句的方法34。该方法34还可实现为逻辑指令集中的模块或相关组件,该逻辑指令集存储在例如RAM、R0M、PR0M、固件、闪速存储器等机器或计算机可读存储介质中,在例如PLA、FPGA, CPLD等可配置逻辑中,在使用例如ASIC、CMOS或TTL技术等电路技术的固定功能性逻辑硬件中或其任何组合。
[0011]图示的处理框36使用指派给句子的词的词性来创建名词/动词短语块,例如块20(图20)。可在框38处做出关于在谈论的句子中是否存在未处理从句的确定。如果是这样的话,框40可访问与助动词、情态动词、wh-词、名词和动词的列表匹配的词的日志/索引,其中可在框42处做出关于从句是否包括wh-词后跟情态动词或助动词后跟名词后跟动词(例如,wh-词一情态动词或助动词一名词一动词)的确定。如果是这样的话,包含从句的句子可在框44处自动指示为问句。
[0012]否则,图示的框46确定从句是否包括情态动词或助动词后跟名词后跟动词(例如,情态动词或助动词一名词一动词),其中在框46处的肯定确定使框44能够自动将包含从句的句子指示为问句。框44还可牵涉对句子指派置信度以便指示问句指示中的置信水平。另外,如果问句指示未被框46触发,图示的框48确定从句是否包括后跟名词的词BE或HAVE词。如果是这样的话,包含从句的句子可在框44处自动指示
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1