问句处理系统及其方法与流程

文档序号:14722459发布日期:2018-06-17 21:29阅读:202来源:国知局

本发明涉及一种问句处理系统及其方法,特别是指一种具备容错能力的问句处理系统及其方法。



背景技术:

现有技术的搜索引擎或问答系统中,由于其不具备问句容错能力,因此当使用者输入含有错别字词、火星文(Martianlanguage)、误用字词或缺漏字词的自然语言问句时,可能会造成该搜索引擎或问答系统误判该自然语言问句的问句意图,因而回复错误的答案给该使用者。

图1A至图1C分别表示现有技术中含有火星文、音似的错别字词与形似的错别字词的自然语言问句的表单。图中,这些自然语言问句中含有许多不恰当的用语(以底线标示),例如图1A所示的火星文(如注音文),或者图1B所示音似的错别字词,亦或者图1C所示形似的错别字词,这些火星文或错别字词将明显地降低搜索引擎或问答系统对该自然语言问句的回复答案的正确率。

图2A至图2G分别表示现有技术中以搜索引擎或自动问答系统提供含有关键词组11、错别字词13、火星文14或误用字词15的自然语言问句的答案的网页。

在图2A的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“日本战岭台湾几年”,虽可将关键词组11“战岭”修正为关键词组12“占领”,并直接以“日本占领台湾几年”进行搜索,但仍无法搜索到有关“几年”的正确答案。

在图2B的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“杨传广是那一足的”,并无法将错别字词13“那一足的”进行修正,以致无法搜索到适当的答案。

而在图2C的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“郑成功的丩凵丶点?”,也无法将火星文14(如注音文)“丩凵丶”进行修正,因而无法搜索到正确的答案。

又在图2D的搜索引擎(如Google)中,该搜索引擎对于例如英文的自然语言问句“riceplented”,虽可将关键词组11“riceplented”修正为“riceplanted”以进行搜索,但仍无法搜索到适当的答案。

另在图2E的搜索引擎(如Google)中,该搜索引擎对于例如英文的自然语言问句“whomistaiwanpresident”,虽可直接以“who”代替关键词组11“whom”进行搜索,但仍无法搜索到正确的答案。

而在图2F的自动问答系统(如WorframAlpha)中,该自动问答系统对于例如英文的自然语言问句“wheredoesricelive”,并无法将误用字词15“ricelive”进行修正,以致回复错误的答案16。

又在图2G的自动问答系统(如WorframAlpha)中,该自动问答系统对于例如英文的自然语言问句“WhereistheTaiwanPresident”,也无法将误用字词15“Where”进行修正,因而回复错误的答案16。

因此,如何克服上述现有技术的问题,实已成目前亟需解决的课题。



技术实现要素:

本发明提供一种问句处理系统及其方法,其可具备良好的容错能力,以提高对自然语言问句的回复答案的正确率。

本发明的问句处理系统应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理系统包括一具有错字处理单元与误用词处理单元的问句建构模块以及一问句类别处理模块。该错字处理单元用于检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句。该误用词处理单元用于分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句。该问句类别处理模块用于分析该候选问句以产生该候选问句的问句类别。

本发明的问句处理方法应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理方法包括:检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句;分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句;以及分析该候选问句以产生该候选问句的问句类别。

上述的问句处理系统及具方法中,可以缺漏词处理单元分析该候选问句的缺漏字词,并自语料库或同义/近义词库中撷取至少一搭配词以补足该校正问句的缺漏字词而产生该候选问句。

由上述内容可知,本发明的问句处理系统及其方法中,主要是通过问句建构模块的错字处理单元、误用词处理单元与缺漏词处理单元,以分别修正自然语言问句的错别字词、火星文、误用字词及缺漏字词,并通过问句类别处理模块分析该自然语言问句的问句类别。

由此,本发明能具备良好的容错能力,以容忍该自然语言问句的错别字词、火星文、误用字词及缺漏字词,并降低对该自然语言问句的问句意图的分析错误所造成的影响,进而提高对该自然语言问句的回复答案的正确率。

附图说明

图1A至图1C分别表示现有技术中含有火星文、音似的错别字词与形似的错别字词的自然语言问句的表单;

图2A至图2G分别表示现有技术中以搜索引擎搜索或自动问答系统提供含有关键词组、错别字词、火星文或误用字词的自然语言问句的答案的网页;

图3表示本发明的问句处理系统的方框结构示意图;

图4表示本发明的问句处理方法的流程示意图;

图5表示本发明的问句处理系统及其方法的实施例示意图。

符号说明:

11、12关键词组;

13错别字词;

14火星文;

15误用字词;

16答案;

2问句处理系统;

20使用者界面;

21问句建构模块;

211错字处理单元;

211a翻译模型;

211b语言模型;

212误用词处理单元;

213缺漏词处理单元;

214关键词组撷取单元;

22问句类别处理模块;

23语料库;

24同义/近义词库;

25知识库;

26段落检索模块;

261文件;

262段落;

27答案处理模块;

271答案;

41自然语言问句;

42候选问句;

43、44关键词组;

S31至S36步骤。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。

图3表示本发明的问句处理系统2的方框结构示意图。如图所示,问句处理系统2可应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理系统2主要包括一使用者界面(UserInterface,UI)20、一具有错字处理单元211与误用词处理单元212的问句建构模块21、以及一问句类别处理模块22。该电子装置可为个人电脑、平板电脑、笔记本电脑、网络服务器、云端服务器、移动电话或智能手机等。

该使用者界面20用于供使用者输入自然语言问句,且该自然语言问句可为中文、英文或各种的语言。该错字处理单元211用于检测并修正该自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句。

具体而言,该错字处理单元211可依据错别字检测法或火星文转译法,以检测并修正该自然语言问句的错别字词或火星文,且该错字处理单元211可具有翻译模型211a与语言模型(LanguageModel)211b。

该翻译模型211a用于提供该自然语言问句的错别字词或火星文的修正资料,例如:(1)音似或形似的错误字、(2)词组的字汇的特征值(如同偏旁、同字首、部首差别、部首笔划差、偏旁笔划差、注音差或调号差)、(3)易混淆字汇(如躁vs.燥)。

此外,该语言模型211b用于依据该修正资料修正该自然语言问句的错别字词或火星文以产生该校正问句,且该语言模型211b可为以n-连词为基础的统计式语言模型(StatisticalLanguageModel,SLM)、或基于神经网络语言模型(NeuralNetwork-basedLanguageModeling,NNLM)等。该语言模型211b可具有解码单元(decoder)以转换一个中文字、一个注音符号或一串完整的注音符号至原字、音似/形似字或注音的对应字。

上述的错别字词例如可以为现有技术图1B所示音似的错别字词、或图1C所示形似的错别字词,且该错别字词可为该自然语言问句的疑问词(questionwords)或功能词(functionwords)等,该功能词可为限定词(如这、一只、我的)、代名词(如你、我、他)、前置词/介系词/后置词(如上、下、为了)、或连接词(如和、或、如果)等。该火星文可例如为现有技术图1A所示的注音文,也可为表情符号(如*、#、!)等。

举例来说,在例如中文的自然语言问句中,该错字处理单元211可检测使用者所输入的自然语言问句“水稻住在舍么”的错别字词“舍”与火星文“”,并依据该自然语言问句的问句意图将“舍”与“”分别修正为正确字词“什”与“地”,也就是将该自然语言问句“水稻住在舍么”修正为校正问句“水稻住在什么地”。

该误用词处理单元212用于分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句。

具体地说,该误用词处理单元212用于分析该问句意图与该校正问句的至少二词组的语境(context)是否冲突,并于发生冲突时依据该语境且自语料库23或同义/近义词库24中撷取至少一第一搭配词,以利用该第一搭配词修正该校正问句的误用字词而产生该候选问句,使得该候选问句的词组的语境不具有冲突且符合该问句意图。

例如,该误用词处理单元212分析出该校正问句“水稻住在什么地”中,三个词组“水稻”、“住”与“地”的搭配关系较差并只有冲突性,因“水稻”通常不与“住”共用在同一问句中,而且该词组“住”应为误用字词,故该误用词处理单元212可依据该三个词组的搭配关系以撷取至少一第一搭配词“种植”或“栽种”来修正该词组“住”,也就是将该校正问句“水稻住在什么地”修正为符合该问句意图的候选问句“水稻种植在什么地”或“水稻栽植在什么地”……,等等。

该问句类别处理模块22用于分析该候选问句以产生该候选问句的问句类别,且该问句类别可为人、事、时、地、物、数量、质量、速度、高度、尺寸、……、等各种类型或种类。

该问句建构模块21也可具有缺漏词处理单元213,用于分析该候选问句的缺漏字词,并自该语料库23或同义/近义词库24中撷取至少一第二搭配词,以利用该第二搭配词补足该校正问句的缺漏字词而产生该候选问句,使得该候选问句的词组的语境完整且符合该问句意图。

例如,该缺漏词处理单元213分析出该候选问句“水稻种植在什么地”或“水稻栽植在什么地”中,“地”应为“地方”或“地区”之意,则该缺漏词处理单元213撷取至少一第二搭配词“地方”或“地区”以修正“地”并加上问号“?”,以便补足该校正问句的缺漏字词而产生完整的候选问句,也就是将该候选问句“水稻种植在什么地”或“水稻栽植在什么地”修正为“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”或“水稻栽植在什么地区?”等等。

上述至少一候选问句可为多个最优先的候选问句,且该问句类别处理模块22可依据问句分类模型与知识库25,以分析这些最优先的候选问句而产生这些最优先的候选问句的问句类别。

该问句分类模型可包括混合分类法(hybridapproaches)、正规表示规则(regularexpressionrule)、机器学习分类器(classifierformachinelearning)、支持向量机(supportvectormachine,SVM)、最大熵函数分类器(MaximumEntropyclassifier)、或决策树分类器(decisiontreeclassifier)等。

该知识库25可提供对应这些最优先的候选问句的问句类别的资料,例如:最优先的候选问句为“至圣先师是哪一位?”,则该知识库25提供该问句类别为“人”。该知识库25也可提供对应这些最优先的候选问句的问句类别的规则,例如:假如“有”字后面或前面接“哪些人”、“哪位”或“哪几位”,则该知识库25提供该问句类别为“人”;或者,假如“要”字后面接“多久”,则该知识库25提供该问句类别为“时”。

该问句类别处理模块22可依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句。

例如,该问句类别处理模块22可重新排序上述的候选问句“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”与“水稻栽植在什么地区?”,并以“水稻栽植在什么地区?”作为该第一优先的候选问句。

该问句建构模块21可具有关键词组撷取单元214,用于依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。例如,该关键词组撷取单元214可自该第一优先的候选问句“水稻栽植在什么地区?”中产生三个关键词组“水稻”、“栽种”及“地区”,或者产生一个问句建构结果“水稻栽种地区”。

该问句处理系统2可包括段落检索模块26与答案处理模块27,该段落检索模块26用于自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,而该答案处理模块27用于自该段落262中撷取符合该第一优先的候选问句的问句类别的答案271,以将该答案271(或包括该段落262)显示于该使用者界面20。

图4表示本发明的问句处理方法的流程示意图,图5表示本发明的问句处理系统2及具方法的实施例示意图,请一并参阅上述图3的问句处理系统2。

本发明的问句处理方法可应用于具有处理器、存储器与作业系统的电子装置中,且该电子装置可为个人电脑、平板电脑、笔记本电脑、网络服务器、云端服务器、移动电话或智能手机等。同时,本发明的问句处理方法主要包括下列步骤:

(1)如图4的步骤S31与图5所示,在小学生知识问答系统中,先由使用者自使用者界面20中输入自然语言问句41“水稻住在舍么”,并由该问句处理系统2接收该自然语言问句41。接着,跳到步骤S32。

(2)如图4的步骤S32所示,由问句建构模块21的错字处理单元211检测并修正该自然语言问句41的错别字词或火星文,以产生一符合该自然语言问句41的问句意图的校正问句。

具体而言,该错字处理单元211可依据错别字检测法或火星文转译法,以检测并修正该自然语言问句41的错别字词或火星文。同时,该错字处理单元211可具有翻译模型211a与语言模型211b,该翻译模型211a用于提供该自然语言问句41的错别字词或火星文的修正资料,且该语言模型211b用于依据该修正资料修正该自然语言问句41的错别字词或火星文以产生该校正问句。

例如,该错字处理单元211可检测该自然语言问句“水稻住在舍么”的错别字词“舍”与火星文“”,并依据该自然语言问句41的问句意图将“舍”与“”分别修正为正确字词“什”与“地”,也就是将该自然语言问句“水稻住在舍么”修正为校正问句“水稻住在什么地”。接着,跳到步骤S33。

(3)如图4的步骤S33所示,由该问句建构模块21的误用词处理单元212分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词。同时,可由该问句建构模块21的缺漏词处理单元213补足该校正问句的缺漏字词而产生一或多个最优先的候选问句。

具体来说,该误用词处理单元212用于分析该问句意图与该校正问句的至少二词组的语境是否冲突,并于发生冲突时依据该语境自语料库23或同义/近义词库24中撷取至少一第一搭配词,以利用该第一搭配词修正该校正问句的误用字词而产生该候选问句,使得该候选问句的词组的语境不具有冲突且符合该问句意图。

例如,该误用词处理单元212分析出该校正问句“水稻住在什么地”中,三个词组“水稻”、“住”与“地”的搭配关系较差并具有冲突性,因“水稻”通常不与“住”共用在同一问句中,而且该词组“住”应为误用字词,故该误用词处理单元212可依据该三个词组的搭配关系,以撷取至少一第一搭配词“种植”或“栽种”来修正该词组“住”,也就是将校正问句“水稻住在什么地”修正为符合该问句意图的候选问句“水稻种植在什么地”或“水稻栽植在什么地”等等。

而该缺漏词处理单元213用于分析该候选问句的缺漏字词,并自该语料库23或同义/近义词库24中撷取至少一第二搭配词,以利用该第二搭配词补足该校正问句的缺漏字词而产生该候选问句,使得该候选问句的词组的语境完整且符合该问句意图。

例如,该缺漏词处理单元213分析出该候选问句“水稻种植在什么地”或“水稻栽植在什么地”中,“地”应为“地方”或“地区”之意,则该缺漏词处理单元213撷取至少一第二搭配词“地方”或“地区”修正“地”并加上问号“?”,藉以补足该校正问句的缺漏字词而产生完整的候选问句,也就是将该候选问句“水稻种植在什么地”或“水稻栽植在什么地”修正为“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”或“水稻栽植在什么地区?”等等。接着,跳到步骤S34。

(4)如图4的步骤S34所示,由问句类别处理模块22依据问句分类模型与知识库25分析这些最优先的候选问句以产生这些最优先的候选问句的问句类别。

另外,可由该问句类别处理模块22依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句。

例如,该问句类别处理模块22可重新排序上述的候选问句“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”与“水稻栽植在什么地区?”,并以“水稻栽植在什么地区?”作为该第一优先的候选问句,如图5所示“我猜你想问‘水稻栽植在什么地区?’”的候选问句42“水稻栽植在什么地区?”。接着,跳到步骤S35。

(5)如图4的步骤S35所示,由该问句建构模块21的关键词组撷取单元214依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。例如,自该第一优先的候选问句“水稻栽植在什么地区?”中,产生如图5所示的关键词组43“稻”及关键词组44“栽种”等,或者产生一个问句建构结果“水稻栽植地区”。接着,跳到步骤S36。

(6)如图4的步骤S36所示,由段落检索模块26自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,并由答案处理模块27自该段落262中撷取符合该第一优先的候选问句的问句类别的答案271,以将该答案271(或包括该段落262)显示于该使用者界面20上。

例如,自图5所示维基百科的文件中撷取符合关键词组43“稻”及关键词组44“栽种”的段落,并将答案“水稻在中国大陆广为栽种后,逐渐向西传播到印度,中世纪引入欧洲南部,现时全世界有一半的人口食用水稻,主要在亚洲、欧洲南部和中美洲及非洲部分地区”显示于该使用者界面20上。而且,该答案可以是上述的一个段落,也可以是一个简单答案,如“中国大陆”。

同理,在例如英文的自然语言问句中,一样可以采用上述图3的问句处理系统2与图4的问句处理方法,下面以一个例子简单说明之。

(1)如同上述图3与图4的步骤S31所示,由使用者自使用者界面20输入自然语言问句41“Whatdoesricelive?”,并由该问句处理系统2接收该自然语言问句41。

(2)如同上述图3与图4的步骤S32所示,由问句建构模块21的错字处理单元211检测并修正该自然语言问句41“Whatdoesricelive?”的错别字词或火星文,以产生一符合该自然语言问句41的问句意图的校正问句。

因该错字处理单元211并未检测到该自然语言问句41“Whatdoesricelive?”中含有错别字词或火星文,也符合该自然语言问句41的问句意图,故可直接以该自然语言问句41作为该校正问句“Whatdoesricelive?”。

(3)如同上述图3与图4的步骤S33所示,由该问句建构模块21的误用词处理单元212分析该校正问句的至少二词组“Where”、“does”及“live”的搭配关系,并依据该搭配关系修正该校正问句的误用字词“live”为正确字词“grown”或“planted”。

同时,可由该问句建构模块21的缺漏词处理单元213补足该校正问句的缺漏字词而产生一或多个最优先的候选问句。因该校正问句“Whatdoesricelive?”中并未含有缺漏字词,故该缺漏词处理单元213可直接产生一或多个最优先的候选问句,例如该候选问句为“wheredoesricegrown?”与“whereisriceplanted?”。

(4)如同上述图3与图4的步骤S34所示,由问句类别处理模块22依据问句分类模型与知识库25分析这些最优先的候选问句,以产生这些最优先的候选问句的问句类别,例如该问句类别为“where”。

另外,可由该问句类别处理模块22依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句,例如该第一优先的候选问句为“wheredoesricegrown?”。

(5)如同上述图3与图4的步骤S35所示,由该问句建构模块21的关键词组撷取单元214依据该第一优先的候选问句产生至少一关键词组或一问句建构结果,例如该关键词组为“where”、“rice”及“grown”,或者该问句建构结果为“wherericegrown”。

(6)如同上述图3与图4的步骤S36所示,由段落检索模块26自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,并由答案处理模块27自该段落262中撷取符合第一优先的候选问句的问句类别的答案271,以将该答案271(或包括该段落262)显示于该使用者界面20上。

由上述内容可知,本发明的问句处理系统及其方法中,主要是通过问句建构模块的错字处理单元、误用词处理单元与缺漏词处理单元,以分别修正自然语言问句的错别字词、火星文、误用字词及缺漏字词,并通过问句类别处理模块分析该自然语言问句的问句类别。

由此,本发明能具备良好的容错能力,以容忍该自然语言问句的错别字词、火星文、误用字词及缺漏字词,并降低对该自然语言问句的问句意图的分析错误所造成的影响,进而提高对该自然语言问句的回复答案的正确率。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的只体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1